Generates a stopwords list of terms Function to generate a list of stopwords for a given language using grammar categories.

gen_stopwords(lang = "pt", categories = "IN CC CD", vec = "vec", include = "")

Arguments

lang

language, like "en", "pt"

include

include additional words to the stop words list

cat

grammar categories, following penn bank #param vec as vector: "list", "n_vec" return a named vector, "vec" (pattern) return an unnamed vector.

Examples

gen_stopwords()
#>  [1] "e"                "ou"               "mas"              "que"             
#>  [5] "porque"           "por que"          "porquê"           "por quê"         
#>  [9] "se"               "como"             "primeiro"         "segundo"         
#> [13] "terceiro"         "quarto"           "quinto"           "sexto"           
#> [17] "sétimo"           "oitavo"           "nono"             "décimo"          
#> [21] "vigésimo"         "trigésimo"        "quadrigésimo"     "quinquagésimo"   
#> [25] "sexagésimo"       "septuagésimo"     "setuagésimo"      "octogésimo"      
#> [29] "nonagésimo"       "centésimo"        "ducentésimo"      "trecentésimo"    
#> [33] "quadringentésimo" "quingentésimo"    "seiscentésimo"    "sexcentésimo"    
#> [37] "septingentésimo"  "setingentésimo"   "octingentésimo"   "nongentésimo"    
#> [41] "milésimo"         "milionésimo"      "bilionésimo"     
gen_stopwords(lang = "pt")
#>  [1] "e"                "ou"               "mas"              "que"             
#>  [5] "porque"           "por que"          "porquê"           "por quê"         
#>  [9] "se"               "como"             "primeiro"         "segundo"         
#> [13] "terceiro"         "quarto"           "quinto"           "sexto"           
#> [17] "sétimo"           "oitavo"           "nono"             "décimo"          
#> [21] "vigésimo"         "trigésimo"        "quadrigésimo"     "quinquagésimo"   
#> [25] "sexagésimo"       "septuagésimo"     "setuagésimo"      "octogésimo"      
#> [29] "nonagésimo"       "centésimo"        "ducentésimo"      "trecentésimo"    
#> [33] "quadringentésimo" "quingentésimo"    "seiscentésimo"    "sexcentésimo"    
#> [37] "septingentésimo"  "setingentésimo"   "octingentésimo"   "nongentésimo"    
#> [41] "milésimo"         "milionésimo"      "bilionésimo"     
gen_stopwords(lang = "pt", categories = "V")
#>   [1] "ser"        "sou"        "sois"       "é"          "és"        
#>   [6] "somos"      "são"        "era"        "eram"       "éramos"    
#>  [11] "serei"      "será"       "serão"      "serás"      "fui"       
#>  [16] "foste"      "foi"        "fomos"      "fostes"     "foram"     
#>  [21] "eras"       "éreis"      "seremos"    "sereis"     "seja"      
#>  [26] "sejam"      "estar"      "estou"      "estás"      "está"      
#>  [31] "estamos"    "estais"     "estão"      "estive"     "estiveste" 
#>  [36] "esteve"     "estivemos"  "estivestes" "estiveram"  "estava"    
#>  [41] "estavas"    "estávamos"  "estáveis"   "estavam"    "estarei"   
#>  [46] "estarás"    "estará"     "estaremos"  "estareis"   "estarão"   
#>  [51] "esteja"     "estejam"    "ter"        "tenham"     "têem"      
#>  [56] "tenho"      "tens"       "tem"        "temos"      "tendes"    
#>  [61] "têm"        "tive"       "tiveste"    "teve"       "tivemos"   
#>  [66] "tivestes"   "tiveram"    "tinha"      "tinhas"     "tínhamos"  
#>  [71] "tínheis"    "tinham"     "terei"      "terás"      "terá"      
#>  [76] "teremos"    "tereis"     "terão"      "teria"      "teriam"    
#>  [81] "haver"      "houve"      "haveria"    "haveriam"   "hei"       
#>  [86] "hás"        "há"         "havemos"    "haveis"     "hão"       
#>  [91] "houver"     "houveres"   "houvermos"  "houverdes"  "houverem"  
#>  [96] "havia"      "havias"     "havíamos"   "havíeis"    "haviam"    
#> [101] "haverei"    "haverás"    "haverá"     "haveremos"  "havereis"  
#> [106] "haverão"    "haja"       "hajam"      "houvera"    "houveram"  
#> [111] "houvesse"  
gen_stopwords(lang = "pt", categories = "V", vec = "list")
#> $V
#> $V$ser
#>  [1] "ser"     "sou"     "sois"    "é"       "és"      "somos"   "sois"   
#>  [8] "são"     "era"     "eram"    "éramos"  "serei"   "será"    "serão"  
#> [15] "serás"   "fui"     "foste"   "foi"     "fomos"   "fostes"  "foram"  
#> [22] "era"     "eras"    "era"     "éramos"  "éreis"   "eram"    "serei"  
#> [29] "serás"   "será"    "seremos" "sereis"  "serão"   "seja"    "sejam"  
#> 
#> $V$estar
#>  [1] "estar"      "estou"      "estás"      "está"       "estamos"   
#>  [6] "estais"     "estão"      "estive"     "estiveste"  "esteve"    
#> [11] "estivemos"  "estivestes" "estiveram"  "estava"     "estavas"   
#> [16] "estava"     "estávamos"  "estáveis"   "estavam"    "estarei"   
#> [21] "estarás"    "estará"     "estaremos"  "estareis"   "estarão"   
#> [26] "esteja"     "estejam"   
#> 
#> $V$ter
#>  [1] "ter"      "tenham"   "têem"     "tenho"    "tens"     "tem"     
#>  [7] "temos"    "tendes"   "têm"      "tive"     "tiveste"  "teve"    
#> [13] "tivemos"  "tivestes" "tiveram"  "tinha"    "tinhas"   "tinha"   
#> [19] "tínhamos" "tínheis"  "tinham"   "terei"    "terás"    "terá"    
#> [25] "teremos"  "tereis"   "terão"    "teria"    "teriam"  
#> 
#> $V$haver
#>  [1] "haver"     "houve"     "haveria"   "haveriam"  "hei"       "hás"      
#>  [7] "há"        "havemos"   "haveis"    "hão"       "houver"    "houveres" 
#> [13] "houver"    "houvermos" "houverdes" "houverem"  "havia"     "havias"   
#> [19] "havia"     "havíamos"  "havíeis"   "haviam"    "haverei"   "haverás"  
#> [25] "haverá"    "haveremos" "havereis"  "haverão"   "haja"      "hajam"    
#> [31] "houvera"   "houveram"  "houvesse" 
#> 
#> 
#> $included
#> character(0)
#> 
gen_stopwords(lang = "pt", categories = "V", vec = "n_vec")
#>       V.ser1       V.ser2       V.ser3       V.ser4       V.ser5       V.ser6 
#>        "ser"        "sou"       "sois"          "é"         "és"      "somos" 
#>       V.ser7       V.ser8       V.ser9      V.ser10      V.ser11      V.ser12 
#>       "sois"        "são"        "era"       "eram"     "éramos"      "serei" 
#>      V.ser13      V.ser14      V.ser15      V.ser16      V.ser17      V.ser18 
#>       "será"      "serão"      "serás"        "fui"      "foste"        "foi" 
#>      V.ser19      V.ser20      V.ser21      V.ser22      V.ser23      V.ser24 
#>      "fomos"     "fostes"      "foram"        "era"       "eras"        "era" 
#>      V.ser25      V.ser26      V.ser27      V.ser28      V.ser29      V.ser30 
#>     "éramos"      "éreis"       "eram"      "serei"      "serás"       "será" 
#>      V.ser31      V.ser32      V.ser33      V.ser34      V.ser35     V.estar1 
#>    "seremos"     "sereis"      "serão"       "seja"      "sejam"      "estar" 
#>     V.estar2     V.estar3     V.estar4     V.estar5     V.estar6     V.estar7 
#>      "estou"      "estás"       "está"    "estamos"     "estais"      "estão" 
#>     V.estar8     V.estar9    V.estar10    V.estar11    V.estar12    V.estar13 
#>     "estive"  "estiveste"     "esteve"  "estivemos" "estivestes"  "estiveram" 
#>    V.estar14    V.estar15    V.estar16    V.estar17    V.estar18    V.estar19 
#>     "estava"    "estavas"     "estava"  "estávamos"   "estáveis"    "estavam" 
#>    V.estar20    V.estar21    V.estar22    V.estar23    V.estar24    V.estar25 
#>    "estarei"    "estarás"     "estará"  "estaremos"   "estareis"    "estarão" 
#>    V.estar26    V.estar27       V.ter1       V.ter2       V.ter3       V.ter4 
#>     "esteja"    "estejam"        "ter"     "tenham"       "têem"      "tenho" 
#>       V.ter5       V.ter6       V.ter7       V.ter8       V.ter9      V.ter10 
#>       "tens"        "tem"      "temos"     "tendes"        "têm"       "tive" 
#>      V.ter11      V.ter12      V.ter13      V.ter14      V.ter15      V.ter16 
#>    "tiveste"       "teve"    "tivemos"   "tivestes"    "tiveram"      "tinha" 
#>      V.ter17      V.ter18      V.ter19      V.ter20      V.ter21      V.ter22 
#>     "tinhas"      "tinha"   "tínhamos"    "tínheis"     "tinham"      "terei" 
#>      V.ter23      V.ter24      V.ter25      V.ter26      V.ter27      V.ter28 
#>      "terás"       "terá"    "teremos"     "tereis"      "terão"      "teria" 
#>      V.ter29     V.haver1     V.haver2     V.haver3     V.haver4     V.haver5 
#>     "teriam"      "haver"      "houve"    "haveria"   "haveriam"        "hei" 
#>     V.haver6     V.haver7     V.haver8     V.haver9    V.haver10    V.haver11 
#>        "hás"         "há"    "havemos"     "haveis"        "hão"     "houver" 
#>    V.haver12    V.haver13    V.haver14    V.haver15    V.haver16    V.haver17 
#>   "houveres"     "houver"  "houvermos"  "houverdes"   "houverem"      "havia" 
#>    V.haver18    V.haver19    V.haver20    V.haver21    V.haver22    V.haver23 
#>     "havias"      "havia"   "havíamos"    "havíeis"     "haviam"    "haverei" 
#>    V.haver24    V.haver25    V.haver26    V.haver27    V.haver28    V.haver29 
#>    "haverás"     "haverá"  "haveremos"   "havereis"    "haverão"       "haja" 
#>    V.haver30    V.haver31    V.haver32    V.haver33 
#>      "hajam"    "houvera"   "houveram"   "houvesse" 
gen_stopwords(lang = "pt", categories = "V", vec = "vec")
#>   [1] "ser"        "sou"        "sois"       "é"          "és"        
#>   [6] "somos"      "são"        "era"        "eram"       "éramos"    
#>  [11] "serei"      "será"       "serão"      "serás"      "fui"       
#>  [16] "foste"      "foi"        "fomos"      "fostes"     "foram"     
#>  [21] "eras"       "éreis"      "seremos"    "sereis"     "seja"      
#>  [26] "sejam"      "estar"      "estou"      "estás"      "está"      
#>  [31] "estamos"    "estais"     "estão"      "estive"     "estiveste" 
#>  [36] "esteve"     "estivemos"  "estivestes" "estiveram"  "estava"    
#>  [41] "estavas"    "estávamos"  "estáveis"   "estavam"    "estarei"   
#>  [46] "estarás"    "estará"     "estaremos"  "estareis"   "estarão"   
#>  [51] "esteja"     "estejam"    "ter"        "tenham"     "têem"      
#>  [56] "tenho"      "tens"       "tem"        "temos"      "tendes"    
#>  [61] "têm"        "tive"       "tiveste"    "teve"       "tivemos"   
#>  [66] "tivestes"   "tiveram"    "tinha"      "tinhas"     "tínhamos"  
#>  [71] "tínheis"    "tinham"     "terei"      "terás"      "terá"      
#>  [76] "teremos"    "tereis"     "terão"      "teria"      "teriam"    
#>  [81] "haver"      "houve"      "haveria"    "haveriam"   "hei"       
#>  [86] "hás"        "há"         "havemos"    "haveis"     "hão"       
#>  [91] "houver"     "houveres"   "houvermos"  "houverdes"  "houverem"  
#>  [96] "havia"      "havias"     "havíamos"   "havíeis"    "haviam"    
#> [101] "haverei"    "haverás"    "haverá"     "haveremos"  "havereis"  
#> [106] "haverão"    "haja"       "hajam"      "houvera"    "houveram"  
#> [111] "houvesse"