Conecte-se com hacking analytics!

Insira seu endereço de e-mail para receber atualizações sobre novos artigos e cursos!

Processando…
Sucesso! Você está na lista.

Últimos Artigos

Time series forecasting com Python

Neste artigo vou passar pelas principais etapas de modelagem para criação de um modelo de forecasting. O notebook foi escrito em Python e possui conceitos importantes sobre decomposição de série temporal, diferenciação, estacionariedade e visualizações. O material está disponível em…

Redes neurais autoencoders – Feed Forward

Autoencoder é uma classe de arquitetura de rede neural que tem como objetivo aprender como comprimir/reduzir um conjunto de dados (etapa conhecida como encoder) e, em seguida, aprende a reconstruir os dados a partir da versão que foi previamente reduzida…

Redes neurais do zero – Parte 3 de 3

Finalizando esta série de implementação de redes neurais do zero, criaremos um modelo de classificação com várias camadas ocultas. A aprendizagem de máquina que usa diversos módulos (neste caso camadas) para aprender uma determinada função com base nos dados de…

Redes neurais do zero – Parte 2 de 3

Esta é a segunda parte de uma série de posts sobre redes neurais do zero! Desta vez, iremos criar uma rede neural conhecida como Multi Layer Perceptron (MLP). Além do código, também estou esquematizando os cálculos que devemos fazer nas…

Redes neurais do zero – Parte 1 de 3

Nesta série de posts vou mostrar como criar modelos de redes neurais de forma manual, usando a biblioteca numpy. Vou criar os notebooks no Google colab e fazer o passo a passo da rede neural, incluindo explicações sobre os tipos…

AWS CloudTrail

AWS CloudTrail é um serviço da Amazon AWS que permite monitorar todas as requisições API feitas em uma conta AWS. Estas requisições são representadas eventos, que por sua vez são gravados em arquivos de log dentro do S3 a cada…

AWS Compute services

AWS oferece uma série de recursos relacionados ao processamento de tarefas. Em geral, estes recursos oferecem CPU e RAM para a execução de tarefas na nuvem. Embora EC2 seja um dos recursos mais conhecidos desta classe de serviços da Amazon…

AWS VPC – Virtual Private Cloud

Como o próprio nome sugere, Virtual Private Cloud (VPC) é um segmento isolado da infraestrutura da Amazon AWS no qual você pode provisionar seus recursos. É possível criar até 5 VPCs por conta AWS/região. Neste artigo, vou listar os principais…

AWS Identity and Access Management Service (IAM)

Este serviço da Amazon AWS atua nos processos de autenticação e gerenciamento de acesso aos recursos de uma conta ou serviço da Amazon. Neste artigo, pretendo mostrar os recursos básicos deste serviço para que você tenha uma visão geral do mesmo.

AWS Database Foundation

Os serviços de database da Amazon AWS estão divididos entre bancos de dados relacionais (relational databses), bancos de dados não relacional (non-relational databases) e serviços de migração de dados (database migration services). Neste artigo iremos descrever cada um destes serviços.

Inferência Estatística – Teste de hipóteses

Na minha jornada de estudos de A/B testing, acabei percebendo que eu precisava conhecer mais a fundo o tema teste de hipóteses (pode ser o seu caso também). Você aceita ou rejeita a hipótese de ler este artigo?

AWS Storage e Data Services

Amazon AWS oferece uma série de serviços relacionados ao armazenamento e acesso aos dados. Podemos categorizar estes serviços entre Amazon Storage (S3, Glacier, EC2 Instance Storage, EBS, EFS e Cloudfront) e Amazon Data Services (AWS Storage Gateway e AWS Snowball).…

Amazon Elastic Load Balancer (ELB)

A função do Elastic Load Balancer (ELB) é rotear e balancear as requisições de acesso/uso a um determinado serviço entre todos os recursos disponíveis para atender aquele serviço. O caso mais clássico é o roteamento e balanceamento de acessos HTTP…

Séries temporais com LSTM

Recentemente tenho escrito muitos artigos (independentes) sobre os temas séries temporais e redes neurais. Neste artigo estou unindo os dois temas para fazer previsões de séries temporais com LSTM.

Guia prático para séries temporais

Em alguns posts anteriores já abordei o assunto de séries temporais do ponto de vista de engenharia de dados (acesse) e do ponto de vista de amostragem (acesse). Agora estou compartilhando um guia completo para criação de modelos de séries…

Predição e inferência com regressão linear

É muito comum a utilização de regressão linear em modelos preditivos. Porém, análise de regressão linear também é usada em inferência estatística para entendermos como as variáveis estão correlacionadas e qual o significado desta possível relação. Neste artigo sobre regressão linear…

SNA com NetworkX

Python possui um excelente pacote para trabalharmos com Social Network Analysis chamado NetworkX. Este post apresenta um resumão sobre SNA + NetworkX, com base no curso ministrado pela universidade de Michigan e disponibilizado no site da Coursera.

Word Embedding

Word Embedding é uma abordagem de mineração de textos em que as palavras são representadas de forma matemática em um vetor. Diferentemente da abordagem mais simples utilizada no modelo conhecido como bag of words, na qual as palavras costumam ser representadas…

O coeficiente de Gini

Neste artigo vamos explorar o coeficiente de Gini ou Gini index, muito utilizado para avaliação de modelos estatísticos. Faremos uma implementação do zero com Python e depois passaremos em cada ponto para explicar sua construção.

[Up|Down]sampling em séries temporais

Nem sempre temos os dados na granularidade em que precisamos. Neste artigo vamos ver como transformar nossas séries temporais mensais em séries temporais diárias ou anuais com o uso das técnicas de Resampling  e Interpolation!

Criando um modelo com R Services

  Olá pessoal! Neste post vou falar um pouco sobre o recurso R Services, que pertence à plataforma Microsoft SQL Server. Em breve uma versão similar deste artigo, porém um pouco mais completa do ponto de vista teórico, será publicada na…

Métricas para avaliação de modelos

É comum validarmos os modelos de aprendizado de máquina sob duas perspectivas: Processual e matemática. O ponto de vista processual trata a questão da melhoria que o modelo trouxe para o processo de negócio em que o mesmo foi inserido.…

One Hot Encoding com Python

One Hot encoding é uma transformação que fazemos nos dados para representarmos uma variável categórica de forma binária (indica presença ou ausência de um valor).

Desvendando o classificador Naive Bayes

Em problemas de classificação queremos encontrar a hipótese “h” para um determinada observação “o”, ou seja, queremos definir/prever uma classe para um dada observação. Uma maneira de se fazer isso é analisando o histórico dos dados e assim calcular a…

Análise exploratória de dados com R

Antes de começar a usar algoritmos de machine learning é importante entender a estrutura dos dados que temos em mãos. Por exemplo, presença de missing values, distribuição de variáveis, correlação, desvio padrão, etc. Chamamos esta atividade de análise exploratória de dados.

Tratando missing values

Neste post vou falar um pouco sobre limpeza de dados, mais especificamente sobre tratamento de valores ausentes (os famosos missing values). O motivo para se preocupar com esta tarefa é bem simples: se colocar sujeira no modelo, não espere nada…

Model tuning: Otimizando os hiper parâmetros do modelo

Muitas tarefas devem ser realizadas até chegarmos em um modelo ideal para resolver um determinado problema. No entanto, quando encontramos este modelo ideal ainda podemos tentar refiná-lo, testando diferentes configurações de seus hiper parâmetros. A este processo de refinamento/melhoria damos…

Ensemble: Combinando modelos para melhorar o resultado

Considero ensemble um tópico avançado em machine learning. Já li muitos depoimentos de pessoas dizendo que ganharam competições do Kaggle usando este tipo de técnica. Então vamos à nossa missão de desmitificar e mostrar a aplicação de ensemble!

Simple linear regression from scratch

Okay, I know that real problems usually aren’t linear nor simple. However, looking into linear regression model it’s a nice way to figure out what’s going on inside regression models in general. This is a mandatory knowledge for every data…

Implementing clustering from scratch

Hi everyone! In this tutorial we are going to perform (step by step) a clustering algorithm. K-Means is the most known and probably the most used clustering algorithm, so we are going to implement it from scratch.