Python é uma linguagem muito utilizada em atividades de análise de dados. Atualmente, vem disputando o posto de “linguagem preferida dos cientistas de dados” com o R.

Ao contrário do R, Python é uma linguagem de programação genérica, ou seja, não é exclusiva para atividades de análise de dados. Esta característica tem contribuído para aumentar o uso da linguagem dentro das empresas, já que muitas vezes as equipes de desenvolvimento de software já trabalham com Python, o que facilita o implantação em produção de um modelo de machine learning desenvolvido na mesma plataforma.

Python possui algumas bibliotecas específicas para se trabalhar com machine learning. Neste post vamos testar algumas delas:

  • Numpy: Permite manipulação de matrizes, geração de números aleatórios e possui diversos recursos de álgebra linear.
  • Pandas: Fornece suporte para a modelagem por meio de análise exploratória de dados.
  • Matplotlib: Permite a visualização de dados por meio de diversos gráficos.

Existem mais alguns pacotes importantes como Scikit-learn e Keras pelos quais podemos utilizar diversos algoritmos para criação de modelos.

Se você quer começar a usar o Python para atividades de machine learning, sugiro instalar a distribuição Anaconda (https://www.continuum.io/downloads). Esta distribuição já possui os principais pacotes de machine learning.

Dentro da distribuição Anaconda você também encontrará o IPython Notebook, uma interface muito interessante para criar seus modelos e compartilhar com quem quiser.

Veja aqui o meu IPython Notebook com a parte prática deste post.

https://anaconda.org/weslleymoura/analise_exploratoria/notebook

Grande abraço.
Weslley Moura

Anúncios