One Hot encoding é uma transformação que fazemos nos dados para representarmos uma variável categórica de forma binária (indica presença ou ausência de um valor).

Por exemplo, imagine que nosso conjunto de dados possui uma coluna chamada “sexo” com os valores M e F. Neste caso, poderíamos criar uma nova variável especificando se o registro pertence ao sexo M (1) ou não (0).

As novas variáveis criadas por meio da transformação One Hot Encoding são conhecidas como variáveis “Dummy”.

Um aspecto importante nesta tarefa de transformação de dados é a necessidade de aplicar a mesma regra de transformação aos novos conjuntos de dados que serão usados pelo seu modelo. Na pratica, devemos criar os encoders (objetos responsáveis pelas transformações) a partir dos dados de treino e salva-los em disco para utilização futura nos dados de teste e de produção.

Neste artigo vou mostrar como fazer isso usado Python.

Acesse o notebook aqui:
https://anaconda.org/weslleymoura/onehotencoderha/notebook

Faça download dos arquivos utilizados no notebook aqui:
https://github.com/weslleymoura/hackinganalytics

Abraços.
Weslley Moura

Sobre o Autor: Weslley Moura

Mestre em engenharia da computação, professor de cursos relacionados a análise de dados e co-fundador da empresa Pepsoft Sistemas. Profissional apaixonado pela ciência existente nos dados e suas aplicações práticas. Nos últimos anos vem dedicando seu tempo a projetos de aprendizagem de máquina e mantém seu site pessoal com dicas e aulas relacionadas ao tema em Hacking Analytics.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s