Neste artigo vamos explorar o coeficiente de Gini ou Gini index, muito utilizado para avaliação de modelos estatísticos. Faremos uma implementação do zero com Python e depois passaremos em cada ponto para explicar sua construção.

O coeficiente de Gini foi proposto por Corrado Gini (1912) e vem sendo muito utlizado para medir a desigualdade de distribuição de renda nos países. No entanto, sua aplicação pode ser expandida para diversos propósitos.

Gini index pode variar de 0 a 1. Dentro da aplicação de distribuição de renda, 0 significa completa igualdade e 1 significa completa desigualdade.

gini

Analisando a figura acima, podemos observar que basicamente precisamos de duas entradas de dados para calcular o coeficiente:

  • X = percentual acumulado de pessoas (dos mais pobres para os mais ricos)
  • Y = percentual acumulado de renda

Assim podemos calcular a curva de Lorenz (x / y) e o eixo diagonal que representa a igualdade perfeita de renda (todas as pessoas ganham o mesmo valor).

No final Gini index será dado por a / (a + b), onde “a” é área azul da figura e “b” a área branca.

No mundo de Machine Learning podemos aplicar o coeficiente de Gini para avaliar modelos que prevêm probabilidades, por exemplo. Mas isso é melhor você conferir nesta parte prática.

Grande abraço!
Weslley Moura

Anúncios