Nas primeiras atividades de um projeto de modelagem é comum que se faça um brainstorming para levantar todas as variáveis que poderiam ajudar a resolver o problema em questão. Na sequência, você precisa escolher apenas aquelas que realmente serão úteis. O nome desta tarefa é feature selection.

De fato, pensar nas variáveis elegíveis para colocar no modelo é muito importante. Eu diria que se tem uma tarefa que merece bastante dedicação, é esta. Muitas vezes é mais importante ter as variáveis certas para resolver o problema do que o modelo/algoritmo propriamente dito.

Com a lista de variáveis sugeridas em mãos, você terá que criar o dataset. Neste momento pode ser que você elimine algumas variáveis por diversos motivos…às vezes não é possível capturar a informação, outras vezes a variável não faz sentido ou até mesmo você não terá tempo suficiente para prepará-la.

Independentemente dos caminhos que tomar, chegaremos no mesmo local: teremos um dataset com as variáveis elegíveis para resolver o problema. Neste momento entra a etapa de feature selection, ou seja, dentre estas variáveis que temos em mãos devemos encolher aquelas que realmente serão úteis para o modelo.

Basicamente existem três abordagens para realizar esta tarefa:

  • Filter methods: Estes métodos aplicam testes estatísticos (geralmente testes de hipóteses) para verificar se a variável é relevante para resolver o problema. Estes testes podem ser aplicados na variável isoladamente (análise univariada) ou combinados com a variável resposta (análise bivariada).
  • Wrapper Methods: Estes métodos treinam um modelo em diferentes subconjunto de variáveis e verificam a combinação que resultou na melhor resposta.
  • Embedded Methods: Estes métodos verificam quais são as melhores variáveis enquanto o modelo está sendo treinado. O método mais comum desta classe é conhecido como regularization (ou penalization methods). Alguns exemplos de algoritmo são LASSO, Elastic Net and Ridge Regression.

Bom, você também pode eliminar manualmente certas variáveis (por exemplo, atributos idênticos ou constantes). Além disso, pode fazer suas próprias análises univariada e bivariada (usando ou não testes de hipóteses).

Realmente são é um assunto simples, mas no tutorial a seguir mostrarei algumas formas automatizadas de feature selection.

Faça download do material sobre feature selecion em R

Abraços.
Weslley Moura

Anúncios