Modelando casos raros com oversampling, undersampling e synthetic sampling

Muitas vezes precisamos criar um modelo para identificar a ocorrência de um evento raro, por exemplo, classificar transações fraudulentas de cartão de credito ou prever a ocorrência de doenças. Na minha opinião, eventos raros são os tipos de casos mais interessantes para se estudar, pois podemos causar melhorias de grade impacto em processos de negócio ao encontrar o modelo certo.