Predição e inferência com regressão linear

É muito comum a utilização de regressão linear em modelos preditivos. Porém, análise de regressão linear também é usada em inferência estatística para entendermos como as variáveis estão correlacionadas e qual o significado desta possível relação. Neste artigo sobre regressão linear você encontrará boa parte do que precisa para criar e interpretar seus modelos!

Criando um modelo com R Services

 

Olá pessoal! Neste post vou falar um pouco sobre o recurso R Services, que pertence à plataforma Microsoft SQL Server. Em breve uma versão similar deste artigo, porém um pouco mais completa do ponto de vista teórico, será publicada na revista SQL Magazine…vou compartilhar o link assim que tê-lo em mãos (aos assinantes). Agora, vamos para a nossa aventura em um dos mais recentes recursos de analytics da Microsoft! Na minha opinião, vale muito a pena testá-lo.

Métricas para avaliação de modelos

É comum validarmos os modelos de aprendizado de máquina sob duas perspectivas: Processual e matemática. O ponto de vista processual trata a questão da melhoria que o modelo trouxe para o processo de negócio em que o mesmo foi inserido. O levantamento destas informações geralmente está ligado a avaliação de dados básicos como tempo, custo ou lucro do processo antes e depois da implantação do modelo. Eventualmente testes de hipóteses podem auxiliar nestas atividades de comparação.

Extraindo o máximo dos algoritmos com data transformation

Cada algoritmo de machine learning pode “aprender” melhor de acordo com o formato dos dados que recebe como entrada. Neste post vamos entender como podemos preparar nossos dados para extrair o máximo de “conhecimento” de cada algoritmo, tarefa conhecida como data transformation.

Análise exploratória de dados com R

Antes de começar a usar algoritmos de machine learning é importante entender a estrutura dos dados que temos em mãos. Por exemplo, presença de missing values, distribuição de variáveis, correlação, desvio padrão, etc. Chamamos esta atividade de análise exploratória de dados.

Modelando casos raros com oversampling, undersampling e synthetic sampling

Muitas vezes precisamos criar um modelo para identificar a ocorrência de um evento raro, por exemplo, classificar transações fraudulentas de cartão de credito ou prever a ocorrência de doenças. Na minha opinião, eventos raros são os tipos de casos mais interessantes para se estudar, pois podemos causar melhorias de grade impacto em processos de negócio ao encontrar o modelo certo.

Feature selection: escolhendo as variáveis para o modelo

Nas primeiras atividades de um projeto de modelagem é comum que se faça um brainstorming para levantar todas as variáveis que poderiam ajudar a resolver o problema em questão. Na sequência, você precisa escolher apenas aquelas que realmente serão úteis. O nome desta tarefa é feature selection.

Resampling: separando os dados entre treino, validação e teste

Quando estamos construindo um modelo estatístico ou de machine learning precisamos estimar quão bom ele é, baseado em alguma métrica. Adicionalmente, este teste de “qualidade” deve ser executado em dados que não foram usados na construção do modelo, assim poderemos inferir o comportamento do modelo em dados novos (que nunca foram vistos).