One Hot encoding é uma transformação que fazemos nos dados para representarmos uma variável categórica de forma binária (indica presença ou ausência de um valor).

Por exemplo, imagine que nosso conjunto de dados possui uma coluna chamada “sexo” com os valores M e F. Neste caso, poderíamos criar uma nova variável especificando se o registro pertence ao sexo M (1) ou não (0).

As novas variáveis criadas por meio da transformação One Hot Encoding são conhecidas como variáveis “Dummy”.

Um aspecto importante nesta tarefa de transformação de dados é a necessidade de aplicar a mesma regra de transformação aos novos conjuntos de dados que serão usados pelo seu modelo. Na pratica, devemos criar os encoders (objetos responsáveis pelas transformações) a partir dos dados de treino e salva-los em disco para utilização futura nos dados de teste e de produção.

Neste artigo vou mostrar como fazer isso usado Python.

Acesse o notebook aqui:
https://anaconda.org/weslleymoura/onehotencoderha/notebook

Faça download dos arquivos utilizados no notebook aqui:
https://github.com/weslleymoura/hackinganalytics

Abraços.
Weslley Moura

Anúncios