15 Apêndice: Datasets

Alguns datasets/databases para análise textual

15.1 Pacotes R com datasets

Alguns pacotes R com datasets inclusos em pacotes que podem ser interessantes para análise textual:

pacote corpus: Text Corpus Analysis. Possui estas base de dados:
- federalist com os 85 textos dos federalistas, um texto por linha.
- gutenberg_corpus corpus de textos do projeto Gutenberg, criando um texto por linha.
O pacote Harry Potter de Bradley Boehmke (não confundir com o pacote homônimo no CRAN) possui o texto completo de sete primeiros livros da série Harry Potter. Para instalar, utilize o comando devtools::install_github("bradleyboehmke/harrypotter") e para carregá-lo library(harrypotter). Requer o pacote devtools instalado.
Hathi Trust hathiTools, disponível no Github. “This package allows you to interact with various free data resources made available by the Hathi Trust digital library, including the Hathi Trust Bookworm, a tool similar to the Google ngram viewer and the Hathi Trust Workset Builder 2.0. It also allows you to download and process the Hathi Trust Extracted Features files, which contain per-page word counts and part-of-speech information for over 15 million digitised volumes, including many of those originally digitised by Google for its Google Books project.”
datasets-package
The corpus data_corpus_udhr contains the Universal Declaration of Human Rights in over 400 languages. data_corpus_udhr[c("eng", "deu_1996", "arb", "heb", "cmn_hans", "jpn")]
Mídia de massa
- data('acq', package = "tm") dataset com 50 artigos da Reuters em um objeto tipo VCorpus.
- “acq” do pacote tm contém:
  - 50 artigos da Reuters e suas meta-informações, referentes à aquisições corporativas;
- “crude” do pacote tm com 20 artigos, também da Reuters, que versam sobre “crude oil”.
Filmes:
- GitHub - beanumber/imdb: “R package to load the IMDB into a database.”
- A função corpus::loadImdb() retorna uma lista com resenhas de filmes do IMDbd
Música:
- Pacote vagalumeR, API que pega dados do site Vagalume. “Vagalume API via R. You can get information about specific artists/bands, as their related artists, and information about the lyrics, as the top lyrics of an artist/band and the text of a song itself.”
- chorrrds. “is a package for R that scrapes the Cifraclub website to download and organize music chords. It can be considered a package for MIR (Music Information Retrieval), a broad area of computational music which extracts and processes music data, from the unstructured ones, as sound waves, to structured, like sheet music or chords.”
- Rspotify. “This package allows you to connect R to Spotify’s API and get information about Songs, Albums, Artists and Users.”
- Dataset billboard do pacote tidyr: “Song rankings for Billboard top 100 in the year 2000”
Política:
- Pacote speechbr raspa discursos e Notas Taquigráficas da Câmara dos Deputados do Brasil.
- data(presidential_debates_2012) do pacote textstem, um dataset com versão limpa de três debates presidenciais dos EUA da eleição de 2012.
- Pacote sotu que contém o texto dos discursos inaugurais de todos os presidentes dos EUA. Constitucionalmente, o presidente que toma posse deve fazer um discurso onde aponta os principais desafios que a nação irá enfrentar.
  - Estes discursos inaugurais dos presidentes dos EUA também se encontram na base data_corpus_inaugural do pacote Quanteda.
- O pacote corpus possui datasets como The Federalist Papers.
- Pacote DemocracyData com diversos datasets de medidas de democracia no mundo. Aqui um vignette de uso do pacote.

15.2 Datasets em sites diversosi:

Site do Projeto Gutenberg possui diversos livros gratuitos em formato texto puro e gratuito. O pacote gutenbergr pode auxiliar neste processo.
Tweets de Trump no The Trump Archive ou já no formato R com trump_tweets: Trump Tweets from2009 to 2017.
fivethyrteight russian troll tweets: 2,973,371 tweets da “fábrica de trolls” da Agência de Pesquisa da Internet da Rússia, que foram usados para tentar influenciar as eleições nos EUA. Mais detalhes em Why We’re Sharing 3 Million Russian Troll Tweets que virou um working paper Troll Factories: The Internet Research Agency and State-Sponsored Agenda Building.
slaves voyage database com registros de navios negreiros que saíram da África, com local de partida e chegada, ano, quantos escravizados chegaram, nomes do barco e do capitão.
R datasets. Lista com cerca de 1700 datasets em csv. Esta lista também está disponível em csv e html. Na versão html, há busca inclusa e ao clicar em “doc”, aparece uma descrição um pouco mais detalhada do dataset.
Notícias verdadeiras e falsas em português no Fake.Br Corpus
Site Brasil.io possui datasets como: Boletins informativos e casos de Coronavirus por município no Brasil; Cursos e notas de corte do Prouni 2018; Dados das eleições brasileiras desde 1996; gastos dos deputados e magistrados; Sócios das Empresas no Brasil; Classificação de gênero em nomes brasileiros, com base nos dados do censo 2010.
Site Base dos dados possui diversos datasets prontos para uso:
- ParlSpeech “O ParlSpeech V2 contém vetores com texto completo de mais de 6,3 milhões de discursos parlamentares nas principais câmaras legislativas da Áustria, República Tcheca, Alemanha, Dinamarca, Holanda, Nova Zelândia, Espanha, Suécia e Reino Unido, cobrindo períodos entre 21 e 32 anos” entre os anos de 2000 e 2019.
Religião:
- Diversas versões da bíblia, em diferentes traduções, em línguas variadas (inglês, português, grego, hebreu, etc.) e em diferentes formatos (Json, csv, sql, xml, etc.) no site hackathon.bible

15.3 Datasets no Kaggle:

Star Trek Scripts. “Raw text scripts and processed lines of all Star Trek series scripts”. (Necessita de conta no Kaggle).
Lista com 31 datasetes para datascience, contendo, por exemplo:
- dataset com 300k de artigos da CNN, outro com o Wiki how to
coleção de papers do Arxiv, outro com texto completo de artigos relacionados à Covid-19,
coleção sobre filmes do Neflix, dentre outros.
Lista no Google Drive com vários datasets estruturados, vários podem ser usados em análise textual, entre eles:
- 1,8 bilhões de páginas de livros do Halthi Trust,
- dados sobre julgamento por bruxaria na Escócia do século XVII,
- bases de dados sobre golpes de estado no mundo,
- dados etnográficos sobre caçadores-coletores, etc.

Outros sites para buscar datasets:

https://data.world/
https://dados.gov.br/
https://data.nasdaq.com
https://archive.ics.uci.edu/ Machine Learning Repository
https://fivethiryeight.com/
https://github.com/BuzzFeedNews