A.1 O que é o Tidyverse?7
O Tidyverse é um conjunto de pacotes de R desenvolvidos para a ciência de dados. Todos os pacotes compartilham uma mesma filosofia e gramática da linguagem. Por exemplo, a estrutura das funções é sempre a mesma:
o primeiro argumento sempre é
data
, isto é, você deve sempre apresentar os dados neste local. Já que o universo destes pacotes é focado em dados na forma de uma tabela, aqui sempre deve ser fornecido umdata.frame
;Argumentos posteriores modificam o
data.frame
- por exemplo, na função
select()
do pacotedplyr
, você deve fornecer os nomes das colunas que deseja selecionar no seu conjunto de dados; - na função
separate_rows
do pacotetidyr
, você deve fornecer os nomes das colunas que se deseja separar em uma ou mais colunas além de indicar o separador (por exemplo, você pode ter uma coluna que possui os nomesSapotaceae;Burseraceae
e deseja separar isso em duas colunas; você deve indicar que o separador é;
).
- por exemplo, na função
A função sempre deve retornar um
data.frame
(existem algumas exceções feitas às funções de alguns pacotes voltados exclusivamente para lidar com vetores, como por exemplo o pacotepurrr
; porém o uso dessas funções é geralmente utilizado dentro de colunas do seudata.frame
)
Pretendemos aqui apresentar apenas funcionalidades básicas de dois dos pacotes deste universo, e mostrar como se tornam poderosas quando integrados ao mesmo fluxo de trabalho.
A.1.1 dplyr
e ggplot2
, símbolos do Tidyverse
Talvez os pacotes mais conhecidos deste universo sejam o dplyr
e o ggplot2
.
Enquanto o primeiro é especializado na manipulação de dados, o segundo é voltado para a produção de plots.
O dplyr
surgiu com o objetivo de fornecer um conjunto de ferramentas (suas funções!) para uma manipulação eficiente de conjuntos de dados sob a forma de data.frames
, e rapidamente, ganhou muitos adeptos devido à facilidade de uso de suas funções dentro de uma nova gramática para a manipulação de dados (palavras do criador do pacote, Hadley Wickham, em sua postagem de introdução do pacote).
Essa nova gramática incluiu tanto o uso de funções com nomes de verbos (em inglês, vale ressaltar) desenhados para executar muito bem apenas uma ação (Tabela A.1), quanto o uso do que se convencionou chamar de pipe, criado para encadear ações da esquerda para a direita, resultando em menos objetos intermediários estocados na área de trabalho e facilitando a leitura do código.
Com o uso de verbos como nome de funções e uma sintaxe diferente da tradicionalmente utilizada em R, o pacote ganhou muitos adeptos deste sua disponibilização no CRAN em janeiro de 2012.
Seguindo o mesmo caminho, o pacote ggplot2
(Tabela A.2), também do mesmo autor do pacote dplyr
, porém já de muito mais idade (foi lançado oficialmente em 10 de junho de 2007) se tornou uma referência na produção de gráficos utilizando a linguagem R, ao propor a construção de gráficos por camadas, similar ao utilizado em programas de SIG.
Dentro desta nova sintaxe em R, o operador +
ganhou uma nova função.
Nas próximas seções, vamos ver alguns exemplos práticos utilizando esses dois pacotes.
Texto publicado originalmente no blog de R.O.Perdiz (https://www.ricardoperdiz.com/blog/2020-04-tidyverse/)↩︎