Análise exploratória de dados (AED)

O que é AED e por que fazer AED?

Em estatística, análise exploratória de dados (AED) é uma abordagem para analisar conjuntos de dados visando resumir as suas principais características, particularmente com métodos gráficos e visuais. Um modelo estatístico pode ou não ser usado, mas AED objetiva principalmente ver o que os dados podem nos dizer para além da modelagem ou de testes de hipóteses. A AED foi promovida por John Tukey para incentivar estatísticos a explorar dados e, eventualmente, formular novas hipóteses que possam levar à nova coleta de dados e a experimentos. AED é diferente de análise de dados inicial (AID), que foca mais estreitamente na verificação de suposições necessárias aos modelos de testes de hipóteses, manipulação de valores ausentes e transformações de variáveis, conforme necessário. AED abrange AID (Texto traduzido da WikiPedia).

Muitas vezes esquecemos como funciona a ciência e a engenharia. Idéias vêm mais frequentemente de exploração anterior do que de descargas atmosféricas. (…) Encontrar a pergunta é muitas vezes mais importante do que encontrar a resposta. Análise exploratória de dados é uma atitude, uma flexibilidade que depende de visualização gráfica, não é um conjunto de técnicas (Tukey 1980).

Em sistemática e taxonomia, uma ciência histórica, a análise exploratória é fundamental, pois é através dela que podemos postular boas hipóteses e usar teste de hipóteses para confirmá-las.

Aplicar a análise exploratória de dados para criar hipóteses e então usar os mesmos dados para testar essas hipóteses deve ser evitado. Se alguém tem conhecimento a priori limitado, então uma abordagem válida é criar dois conjuntos de dados: aplicar exploração de dados sobre o primeiro conjunto para criar hipóteses e usar o segundo conjunto de dados para testar essas hipóteses . Tal processo, no entanto, só é prático para conjuntos de dados grandes. Independentemente da situação específica, o uso constante e a estruturação de relatórios transparentes de exploração sistemática de dados melhorariam a qualidade da pesquisa ecológica e de quaisquer recomendações que ela produziria (Zuur, Ieno, e Elphick 2010).

A análise exploratória não é dragagem de dados! Assume-se que o pesquisador formulou hipóteses biológicas plausíveis a priori amparadas pela teoria.

Objetivos da AED

  • Controlar a qualidade dos dados;
  • Sugerir hipóteses para os padrões observados (novos estudos);
  • Apoiar a escolha dos procedimentos estatísticos de testes de hipótese;
  • Avaliar se os dados atendem às premissas dos procedimentos estatísticos escolhidos.

Para ler

Dois artigos que você deveria ler: Tukey (1980) e Zuur, Ieno, e Elphick (2010).

Referências

Tukey, John W. 1980. "We need both exploratory and confirmatory". The American Statistician 34 (1): 23–25. https://doi.org/10.1080/00031305.1980.10482706.
Zuur, Alain F., Elena N. Ieno, e Chris S. Elphick. 2010. "A protocol for data exploration to avoid common statistical problems". Methods in Ecology and Evolution 1 (1): 3–14. https://doi.org/10.1111/j.2041-210X.2009.00001.x.