Preparando dados para dashboard – Exemplo Google Data Studio

Nem sempre os dados estão no formato correto para criação de relatórios. É muito comum termos que realizar algumas limpezas e transformações para que tenhamos menos trabalho durante a criação daquele dashboard! Neste artigo vou exibir um caso de uso no qual passei por esta situação.

Os dados são muito simples: referem-se aos dados de census de algumas regiões. O relatório final foi publicado neste link https://datastudio.google.com/u/0/reporting/02213feb-63fd-4ef8-8cc7-be17e3c5159b e as instruções de uso do relatório podem ser acessadas no meu repositório https://github.com/weslleymoura/hackinganalytics/tree/master/data_prep_dashboard_google_data_studio

Porém, o que eu realmente quero mostrar neste artigo é o pré-processamento que tive que fazer nos dados para que fosse possível criar o relatório. Por exemplo, transposição de dados, mapeamento, agrupamento e cálculo de métricas do tipo period over period.

Acesse meu notebook aqui https://anaconda.org/weslleymoura/data_preparation_for_dashboarding/notebook. Espero que tenha alguma utilidade para você algum dia!

Abraços!

Um modelo completo de machine learning (de ponta a ponta)

Se você está começando a estudar machine learning, é comum que tenha várias dúvidas sobre como treinar e usar seus modelos. As pessoas falam sobre uma série de termos, como análise exploratória de dados, data transformation, feature selection, model selection, cross-validation…porém, você sabe como e quando deve usar todos estes componentes no seu modelo? E se você precisasse implementar o modelo em um ambiente de produção? Sabe como deveria organizar seu script de treino e inferência? Este artigo foi feito para esclarecer todos estes pontos, com muita prática!

No notebook abaixo, utilizei o desafio do Titanic (https://www.kaggle.com/c/titanic)  para criar um modelo completo de classificação binária. Você vai encontrar as principais etapas necessárias, assim como precauções, para treinar e implementar um modelo deste tipo.

Tentei ser o mais específico possível e também criei uma série de funções que pode te ajudar a automatizar os seus próximos modelos. Portanto, mesmo que já tenha experiência na área, creio que vale a pena guardar este notebook para consulta futura.

Se você realmente quer entrar de cabeça nisso, sugiro também que leia o relatório que também estou compartilhando abaixo. Nele você encontrará um exemplo completo de como reporta/documentar seu projeto de machine learning.

Espero que os materiais sejam úteis, abraços!

Link para o notebook: https://anaconda.org/weslleymoura/titanic_final/notebook

Link para o relatório: relatório completo

Extraindo o máximo dos algoritmos com data transformation

Cada algoritmo de machine learning pode “aprender” melhor de acordo com o formato dos dados que recebe como entrada. Neste post vamos entender como podemos preparar nossos dados para extrair o máximo de “conhecimento” de cada algoritmo, tarefa conhecida como data transformation.