Busca

hacking analytics

weslley moura

Word Embedding

Word Embedding é uma abordagem de mineração de textos em que as palavras são representadas de forma matemática em um vetor. Diferentemente da abordagem mais simples utilizada no modelo conhecido como bag of words, na qual as palavras costumam ser representadas em vetores muito grandes e esparsos, word embeddings utilizam vetores densos de tamanho fixo que são capazes de armazenar informações sobre o contexto e significado dos documentos.

Continuar lendo “Word Embedding”

Anúncios

O coeficiente de Gini

Neste artigo vamos explorar o coeficiente de Gini ou Gini index, muito utilizado para avaliação de modelos estatísticos. Faremos uma implementação do zero com Python e depois passaremos em cada ponto para explicar sua construção.

Continuar lendo “O coeficiente de Gini”

LSTM Encoder-Decoder com Attention para prever sequências

Temas como LSTM, Encoder-Decoder e Attention estão muito quentes no mundo de deep learning. Que tal passarmos pelos pontos principais destes assuntos com teoria e prática na medida certa?

Continuar lendo “LSTM Encoder-Decoder com Attention para prever sequências”

Análise de sentimento com Multilayer Perceptron Model baseado em Bag-of-Words

Faremos um modelo de análise de sentimento em textos de revisões (reviews) de filmes. Nosso objetivo é classificar a opinião da pessoa que assistiu o filme como “opinião positiva” ou “opinião negativa”. Já ouviu falar de “bag of words”?

Continuar lendo “Análise de sentimento com Multilayer Perceptron Model baseado em Bag-of-Words”

[Up|Down]sampling em séries temporais

Nem sempre temos os dados na granularidade em que precisamos. Neste artigo vamos ver como transformar nossas séries temporais mensais em séries temporais diárias ou anuais com o uso das técnicas de Resampling  e Interpolation!

Continuar lendo “[Up|Down]sampling em séries temporais”

Time series forecasting: uma gentil introdução e sua engenharia de dados

Demorou, mas finalmente cheguei no tema time series forecasting! Neste artigo veremos as principais nomenclaturas usadas neste campo do aprendizado de máquina e como preparar nossos dados para realizar a previsão de séries temporais. Aqui o tempo é quem manda. Prepare-se para se surpreender com os recursos do Python.

Continuar lendo “Time series forecasting: uma gentil introdução e sua engenharia de dados”

Recurrent Neural Network: a memória das Redes Neurais

Neste artigo vamos discutir sobre uma pergunta-chave dentro do tema de redes neurais: Se nosso cérebro é capaz de guardar informações já aprendidas para usar posteriormente em outras situações, será que as redes neurais artificiais também têm esta capacidade? Sua resposta provavelmte é SIM. De fato, não está incorreta, mas definitivamente não é a melhor resposta.

Continuar lendo “Recurrent Neural Network: a memória das Redes Neurais”

Criando um modelo com R Services

 

Olá pessoal! Neste post vou falar um pouco sobre o recurso R Services, que pertence à plataforma Microsoft SQL Server. Em breve uma versão similar deste artigo, porém um pouco mais completa do ponto de vista teórico, será publicada na revista SQL Magazine…vou compartilhar o link assim que tê-lo em mãos (aos assinantes). Agora, vamos para a nossa aventura em um dos mais recentes recursos de analytics da Microsoft! Na minha opinião, vale muito a pena testá-lo.

Continuar lendo “Criando um modelo com R Services”

Criando sua própria cost function para penalizar overfitting com Python scikit-learn

Cost functions (ou funções de custo) são usadas pelos algoritmos de aprendizado de máquina para tomada de decisões, por exemplo, definir a melhor configuração dos hiper parâmetros de um modelo ou até mesmo escolher as melhores variáveis preditoras/independentes (em modelos de classificação ou regressão).

Continuar lendo “Criando sua própria cost function para penalizar overfitting com Python scikit-learn”

Crie um site ou blog no WordPress.com

Acima ↑