Introdução ao R - Parte I

Oficina de Introdução ao R

2023-06-24

Você deveria estar aqui hoje?

Você se enquadra em uma das situações abaixo?

  • Não sei nada sobre R, mas sei outras linguagens

  • Não conheço nada de nenhuma linguagem de programação

  • Já tentei aprender R no passado, mas esqueci tudo

  • Sei só um básico de Excel

  • Nunca mexi no Excel

  • Acho que sou “de humanas demais” pra saber programar

  • Sempre fiquei de recuperação em matemática no colégio

  • Quero sempre aprender coisas novas

Então a resposta é SIM!

Vamos nessa!

O que é o …

R?

R é um ambiente de software livre para computação estatística e gráficos. (https://www.r-project.org/)

RStudio?

RStudio é uma IDE (integrated development environment) da Linguagem R, ou seja, um ambiente de desenvolvimento que utilizamos para editar e executar os códigos em R.

RStudio Cloud?

É a IDE RStudio que podemos utilizar diretamente do navegador (sem que seja necessário instalar nada).

Pré-requisitos

Nesta oficina:

Para usar no dia-a-dia:

  • R e RStudio instalados no seu computador:

  • Links para instalação:

Por quê usar linguagens de programação para analisar dados?

As vantagens de analisar dados usando linguagens de programação

  • O código é uma linguagem, então podemos documentar a nossa análise

  • O código é texto, então podemos copiar e colar

  • As principais linguagens de programação para ciência de dados são de código aberto

O que significa ser código aberto?

  1. Acesso gratuito.

  2. Todas as pessoas podem usar as melhores ferramentas independentemente do poder financeiro.

  3. Estudantes podem usar as mesmas ferramentas que profissionais.

  4. Você pode corrigir problemas e aprimorar a linguagem.

  5. Você pode desenvolver suas próprias ferramentas.

  6. Possibilita a existência de uma comunidade ativa.

Por quê o R?

O ciclo da ciência de dados

O ciclo da ciência de dados com o R

Por quê usar o R?

  • É uma linguagem de programação que possui muitas ferramentas para análise de dados

  • É código aberto (open source)

  • Possui uma comunidade ativa de pessoas desenvolvedoras

  • É flexível, permite desenvolver funções e pacotes para facilitar o trabalho

  • Está disponível, gratuitamente, em diferentes plataformas: Windows, Linux e Mac

  • Mantido pela R Development Core Team

E o Excel?

Resposta: nem todas as bases abrem no Excel

Os limites do Excel

Limite do Excel: 1.048.576 linhas e 16.384 colunas

Para efeito de comparação…

  • Base de SRAG do Sivep-Gripe só do ano de 2021 (atualizado até fev/2022): 1.715.835 linhas

  • Base do Enem 2018: 5,5 milhões de linhas (uma linha por pessoa inscrita)

  • Base de beneficiários do Auxílio Emergencial: 40 milhões de linhas novas a cada mês

As bases de dados e o R

Podemos usar bases que tenham formato de “tabela”:

  • cada linha é um registro (chamamos de observação), e cada coluna traz algum detalhe sobre aquele registro (chamamos de variável)

  • as colunas ou linhas não estão mescladas ou agrupadas

  • muitas vezes são os arquivos do poder público salvos no formato .csv (mas nem sempre)

Exemplo de base de dados

Eleição para a Alesp em 2022:

ranking nome_urna_candidato sigla_partido votos_2022 votos_2018 genero grau_instrucao cor_raca ocupacao
1 EDUARDO SUPLICY PT 807015 NA MASCULINO SUPERIOR COMPLETO BRANCA VEREADOR
2 CARLOS GIANNAZI PSOL 276811 218705 MASCULINO SUPERIOR COMPLETO BRANCA DEPUTADO
3 PAULA DA BANCADA FEMINISTA PSOL 259771 NA FEMININO SUPERIOR COMPLETO PRETA ADVOGADO
4 BRUNO ZAMBELLI PL 235305 NA MASCULINO SUPERIOR COMPLETO BRANCA OUTROS
5 MAJOR MECCA PL 224462 131531 MASCULINO SUPERIOR COMPLETO BRANCA DEPUTADO
6 TOMÉ ABDUCH REP 221656 NA MASCULINO SUPERIOR COMPLETO BRANCA ENGENHEIRO
7 ANDRÉ DO PRADO PL 216268 123313 MASCULINO SUPERIOR COMPLETO BRANCA DEPUTADO
8 TENENTE COIMBRA PL 209705 24109 MASCULINO SUPERIOR COMPLETO BRANCA DEPUTADO
9 DELEGADO OLIM PP 201348 161569 MASCULINO SUPERIOR COMPLETO BRANCA DEPUTADO
10 ANA CAROLINA SERRA CID 198698 NA FEMININO SUPERIOR COMPLETO BRANCA ADVOGADO

Outra forma de ver

Breve glossário

  • Data frame: sinônimo para “tabela” ou “planilha”

  • Tibble: idem acima

  • Objeto: é uma forma em que guardamos valores, um exemplo de objeto é um data frame.

  • Observação: é sinônimo de “linha” na sua tabela

  • Variável: é sinônimo de “coluna” na sua tabela

Potencial do R

  • Abrir uma base de dados

  • Limpar a base de dados (ex: formatar uma data ou tirar os acentos dos nomes)

  • Transformar a base de dados (ex: a partir da coluna de data, criar uma coluna nova só com o mês)

  • Visualizar os dados em formatos de gráficos ou mapas (ou mesmo relatórios em PDF ou websites)

  • E muito mais!

Vamos começar?