Introdução ao R - Parte I
Oficina de Introdução ao R
Invalid Date
Você deveria estar aqui hoje?
Você se enquadra em uma das situações abaixo?
Não sei nada sobre R, mas sei outras linguagens
Não conheço nada de nenhuma linguagem de programação
Já tentei aprender R no passado, mas esqueci tudo
Sei só um básico de Excel
Nunca mexi no Excel
Acho que sou “de humanas demais” pra saber programar
Sempre fiquei de recuperação em matemática no colégio
Quero sempre aprender coisas novas
Então a resposta é SIM!
Vamos nessa!
O que é o …
R?
R é um ambiente de software livre para computação estatística e gráficos. (https://www.r-project.org/)
RStudio?
RStudio é uma IDE (integrated development environment) da Linguagem R, ou seja, um ambiente de desenvolvimento que utilizamos para editar e executar os códigos em R.
RStudio Cloud?
É a IDE RStudio que podemos utilizar diretamente do navegador (sem que seja necessário instalar nada).
Pré-requisitos
Nesta oficina:
Para usar no dia-a-dia:
Por quê usar linguagens de programação para analisar dados?
As vantagens de analisar dados usando linguagens de programação
O código é uma linguagem, então podemos documentar a nossa análise
O código é texto, então podemos copiar e colar
As principais linguagens de programação para ciência de dados são de código aberto
O que significa ser código aberto?
Acesso gratuito.
Todas as pessoas podem usar as melhores ferramentas independentemente do poder financeiro.
Estudantes podem usar as mesmas ferramentas que profissionais.
Você pode corrigir problemas e aprimorar a linguagem.
Você pode desenvolver suas próprias ferramentas.
Possibilita a existência de uma comunidade ativa.
O ciclo da ciência de dados
Por quê usar o R?
É uma linguagem de programação que possui muitas ferramentas para análise de dados
É código aberto (open source)
Possui uma comunidade ativa de pessoas desenvolvedoras
É flexível, permite desenvolver funções e pacotes para facilitar o trabalho
Está disponível, gratuitamente, em diferentes plataformas: Windows, Linux e Mac
Mantido pela R Development Core Team
E o Excel?
Resposta: nem todas as bases abrem no Excel
Os limites do Excel
Limite do Excel: 1.048.576 linhas e 16.384 colunas
Para efeito de comparação…
Base de SRAG do Sivep-Gripe só do ano de 2021 (atualizado até fev/2022): 1.715.835 linhas
Base do Enem 2018: 5,5 milhões de linhas (uma linha por pessoa inscrita)
Base de beneficiários do Auxílio Emergencial: 40 milhões de linhas novas a cada mês
As bases de dados e o R
Podemos usar bases que tenham formato de “tabela”:
cada linha é um registro, e cada coluna traz algum detalhe sobre aquele registro
as colunas ou linhas não estão mescladas ou agrupadas
muitas vezes são os arquivos do poder público salvos no formato .csv (mas nem sempre)
Exemplo de base de dados
Eleição para a Alesp em 2022:
ranking |
nome_urna_candidato |
sigla_partido |
votos_2022 |
votos_2018 |
genero |
grau_instrucao |
cor_raca |
ocupacao |
1 |
EDUARDO SUPLICY |
PT |
807015 |
NA |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
VEREADOR |
2 |
CARLOS GIANNAZI |
PSOL |
276811 |
218705 |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
DEPUTADO |
3 |
PAULA DA BANCADA FEMINISTA |
PSOL |
259771 |
NA |
FEMININO |
SUPERIOR COMPLETO |
PRETA |
ADVOGADO |
4 |
BRUNO ZAMBELLI |
PL |
235305 |
NA |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
OUTROS |
5 |
MAJOR MECCA |
PL |
224462 |
131531 |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
DEPUTADO |
6 |
TOMÉ ABDUCH |
REP |
221656 |
NA |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
ENGENHEIRO |
7 |
ANDRÉ DO PRADO |
PL |
216268 |
123313 |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
DEPUTADO |
8 |
TENENTE COIMBRA |
PL |
209705 |
24109 |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
DEPUTADO |
9 |
DELEGADO OLIM |
PP |
201348 |
161569 |
MASCULINO |
SUPERIOR COMPLETO |
BRANCA |
DEPUTADO |
10 |
ANA CAROLINA SERRA |
CID |
198698 |
NA |
FEMININO |
SUPERIOR COMPLETO |
BRANCA |
ADVOGADO |
Breve glossário
Data frame: sinônimo para “tabela” ou “planilha”
Tibble: idem acima
Objeto: é uma forma em que guardamos valores, um exemplo de objeto é um data frame.
Observação: é sinônimo de “linha” na sua tabela
Variável: é sinônimo de “coluna” na sua tabela
Potencial do R
Abrir uma base de dados
Limpar a base de dados (ex: formatar uma data ou tirar os acentos dos nomes)
Transformar a base de dados (ex: a partir da coluna de data, criar uma coluna nova só com o mês)
Visualizar os dados em formatos de gráficos ou mapas (ou mesmo relatórios em PDF ou websites)
E muito mais!
Vamos começar?