Nas primeiras atividades de um projeto de modelagem é comum que se faça um brainstorming para levantar todas as variáveis que poderiam ajudar a resolver o problema em questão. Na sequência, você precisa escolher apenas aquelas que realmente serão úteis. O nome desta tarefa é feature selection.

De fato, pensar nas variáveis elegíveis para colocar no modelo é muito importante. Eu diria que se tem uma tarefa que merece bastante dedicação, é esta. Muitas vezes é mais importante ter as variáveis certas para resolver o problema do que o modelo/algoritmo propriamente dito.

Com a lista de variáveis sugeridas em mãos, você terá que criar o dataset. Neste momento pode ser que você elimine algumas variáveis por diversos motivos…às vezes não é possível capturar a informação, outras vezes a variável não faz sentido ou até mesmo você não terá tempo suficiente para prepará-la.

Independentemente dos caminhos que tomar, chegaremos no mesmo local: teremos um dataset com as variáveis elegíveis para resolver o problema. Neste momento entra a etapa de feature selection, ou seja, dentre estas variáveis que temos em mãos devemos encolher aquelas que realmente serão úteis para o modelo.

Basicamente existem três abordagens para realizar esta tarefa:

  • Filter methods: Estes métodos aplicam testes estatísticos (geralmente testes de hipóteses) para verificar se a variável é relevante para resolver o problema. Estes testes podem ser aplicados na variável isoladamente (análise univariada) ou combinados com a variável resposta (análise bivariada).
  • Wrapper Methods: Estes métodos treinam um modelo em diferentes subconjunto de variáveis e verificam a combinação que resultou na melhor resposta.
  • Embedded Methods: Estes métodos verificam quais são as melhores variáveis enquanto o modelo está sendo treinado. O método mais comum desta classe é conhecido como regularization (ou penalization methods). Alguns exemplos de algoritmo são LASSO, Elastic Net and Ridge Regression.

Bom, você também pode eliminar manualmente certas variáveis (por exemplo, atributos idênticos ou constantes). Além disso, pode fazer suas próprias análises univariada e bivariada (usando ou não testes de hipóteses).

Realmente são é um assunto simples, mas no tutorial a seguir mostrarei algumas formas automatizadas de feature selection.

Faça download do material sobre feature selecion em R

Abraços.
Weslley Moura

Sobre o Autor: Weslley Moura

Mestre em engenharia da computação, professor de cursos relacionados a análise de dados e co-fundador da empresa Pepsoft Sistemas. Profissional apaixonado pela ciência existente nos dados e suas aplicações práticas. Nos últimos anos vem dedicando seu tempo a projetos de aprendizagem de máquina e mantém seu site pessoal com dicas e aulas relacionadas ao tema em Hacking Analytics.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s