Pacotes em R de dados brasileiros

R-Ladies São Paulo

2023-11-22

O que abordaremos hoje?

  • O que são pacotes?

  • O que entendemos por “dados brasileiros”?

  • Exemplos de alguns pacotes de dados brasileiros.

  • Aprofundaremos em dois pacotes: odbr e geobr.

Pacotes

O que são pacotes em R?

  • Pacotes são conjuntos de funções e dados que estendem a funcionalidade base do R.

  • Podem ser desenvolvidos por qualquer pessoa (ou grupo de pessoas).

  • Podem ser usados para diferentes finalidades.

Como usar um pacote?

  • Instalar o pacote:
    • Precisamos instalar o pacote apenas uma vez.
    • É necessário colocar o nome entre aspas.
install.packages("nome_do_pacote")
  • Carregar o pacote:
    • Precisamos carregar o pacote para usá-lo.
    • Não é necessário colocar o nome entre aspas.
library(nome_do_pacote)

Repositórios de pacotes

Pacotes no GitHub

Instalar um pacote via GitHub

# Instalar via GitHub

# Instalar o pacote Remotes
install.packages("remotes")

# Instalar o pacote via GitHub
remotes::install_github("cienciadedatos/dados")

Pacotes no R Universe

Para saber mais: https://jeroen.github.io/runiverse2021/

Pacotes de dados brasileiros

O que queremos dizer com “dados brasileiros”?

  • Dados que se referem ao Brasil, à população brasileira, aos seus estados, municípios, dados judiciários, etc.

  • Podem ser dados de diferentes fontes: IBGE, INEP, Datasus, MMA, CEMADEN, FUNAI, CNJ, etc.

  • Geralmente são dados produzidos por algum órgão público, autarquias (ex. Comissão de Valores Mobiliários), entidades de economia mista (ex. SABESP), ou com atuação relacionada à alguma atividade de interesse público.

  • Podem ser dados em diferentes escalas: dados nacionais, estaduais, municipais, bacias hidrográficas, etc.

Pacote de dados != dados abertos

  • Pacotes de dados não necessariamente significa que os dados desse pacote são considerados ‘dados abertos’.
    • Alguns pacotes disponibilizam dados abertos;
    • Alguns pacotes disponibilizam dados “libertos” (dados que não são abertos, mas que foram liberados para uso);
  • Sobre dados “libertos”, ver essa apresentação do Turicas.

O que são dados abertos?

Segundo a definição da Open Knowledge Foundation, os dados são considerados abertos quando:

Qualquer pessoa pode acessar, usar, modificar e compartilhar livremente para qualquer finalidade (sujeito a, no máximo, a requisitos que preservem a proveniência e a sua abertura).

Recomendo ver a apresentação que fizemos no Open Data Day.

Vamos a alguns exemplos de pacotes!

  • Atenção: sempre leia a documentação do pacote para saber como usar os dados, qual é a fonte, ano de referência, possíveis cuidados necessários, se houve harmonização, etc.

sidrar

censobr

qualR

mananciais

reservatoriosbr

flightsbr

microdatasus

tjsp

abjData

amphiBR

BrazilMet

siconvr

PNADcIBGE

ecodados

rbcb

Conhecem outros??

  • Queremos saber de outros pacotes de dados brasileiros!

Extra

Base dos dados

Exemplos mais aprofundados: odbr e geobr!

Referência dos pacotes citados

Abreu Junior, Paulo Barros de, Mauricio Humberto Vancine, e Diogo B. Provete. 2023. amphiBR: A R Dataset for the official Brazilian List of Amphibians. https://github.com/paulobarros/amphiBR.
de Jesus Filho, José. 2023. tjsp: Coleta e organização de dados do Tribunal de Justiça de São Paulo. https://github.com/jjesusfilho/tjsp.
Freitas, Wilson. 2023. rbcb: R Interface to Brazilian Central Bank Web Services. https://github.com/wilsonfreitas/rbcb.
Gavidia-Calderón, Mario, e Daniel Schuch. 2023. qualR: An R package to download São Paulo and Rio de Janeiro air pollution data. https://docs.ropensci.org/qualR.
Gavidia-Calderón, Mario, Daniel Schuch, e Maria de Fatima Andrade. 2022. qualR: An R package to download São Paulo and Rio de Janeiro air pollution data. https://doi.org/10.5281/zenodo.5904262.
Jesus Filho, José de, e Julio Trecenti. 2020. Coleta e organização de dados do Tribunal de Justiça de São Paulo. https://jjesufilho.github.io/tjsp/.
Milz, Beatriz. 2023. mananciais: Base de dados sobre volume operacional em mananciais de abastecimento público na Região Metropolitana de São Paulo (SP - Brasil). https://github.com/beatrizmilz/mananciais.
Mioto, Bruno. 2023. reservatoriosBR: Get Brazilian reservoirs data. https://github.com/brunomioto/reservatoriosBR.
Pereira, Rafael H. M. 2022. «flightsbr: Download Flight and Airport Data from Brazil». OSF Preprints. https://doi.org/10.31219/osf.io/jdv7u.
———. 2023. flightsbr: Download Flight and Airport Data from Brazil. https://github.com/ipeaGIT/flightsbr.
Pereira, Rafael H. M., e Rogério J. Barbosa. 2023a. censobr: Download Data from Brazil’s Population Census. https://github.com/ipeaGIT/censobr.
———. 2023b. censobr: Download Data from Brazil’s Population Census (versão v0.2.0). https://CRAN.R-project.org/package=censobr.
Pereira, Rafael H. M., e Caio Nogueira Goncalves. 2023. geobr: Download Official Spatial Data Sets of Brazil. https://github.com/ipeaGIT/geobr.
Prado Siqueira, Renato. 2022. sidrar: An Interface to IBGE’s SIDRA API. https://github.com/rpradosiqueira/sidrar/.
Saldanha, Raphael. 2023. microdatasus: Download and preprocess DataSUS files. https://github.com/rfsaldanha/microdatasus.
Trecenti, Julio, e Katerine Witkoski. 2022. abjData: Databases Used Routinely by the Brazilian Jurimetrics Association. https://abjur.github.io/abjData/.

Agradecimentos pela sugestões de pacotes