Antes de começar a usar algoritmos de machine learning é importante entender a estrutura dos dados que temos em mãos. Por exemplo, presença de missing values, distribuição de variáveis, correlação, desvio padrão, etc. Chamamos esta atividade de análise exploratória de dados.

Geralmente é nesta etapa que identificamos pontos importantes como:

  • Presença de outliers: determinadas observações possuem valores muito diferente da média. Isso pode ser um problema para alguns algoritmos.
  • Necessidade de transformação de dados: variáveis com escalas muito diferentes podem ser normalizadas.
  • Erros de base: eventuais erros durante a construção do dataset.
  • Distribuição dos dados: variáveis com valores idênticos para quase todas as observações podem não ser tão úteis para o modelo.
  • Identificação de classes desbalanceadas: em problemas de classificação é importante compreender se a variável resposta é balanceada ou desbalanceada. Quando for desbalanceada, técnicas de resampling podem ser aplicadas para tentar encontrar o melhor modelo.
  • Dicas de algoritmos: alguns insights sobre quais algoritmos utilizar podem surgir nesta fase. Anote todos.

Não deixe de realizar esta atividade no seu projeto de machine learning. Na parte prática disponibilizei um material sobre análise exploratória de dados em R.

Faça download do material sobre análise de dados

Também disponível no meu RPubs: http://rpubs.com/weslleymoura/analise_exploratoria

Abraços.
Weslley Moura

 

 

 

Anúncios