Inferência Estatística – Teste de hipóteses

Na minha jornada de estudos de A/B testing, acabei percebendo que eu precisava conhecer mais a fundo o tema teste de hipóteses (pode ser o seu caso também). Você aceita ou rejeita a hipótese de ler este artigo?

  1. Uma afirmação acerca de um parâmetro da população.

    Exemplo: 100 funcionários de uma determinada empresa foram selecionados aleatoriamente e foi constatado que a média de idade destes funcionário é 40 anos. É válido dizer que a empresa inteira tem média de idade igual a 40 anos?

    ou;

  2. Estimar se duas amostras apresentam diferenças significativas

    Exemplo: Durante duas semanas foi analisado o comportamento de compra de dois grupos de usuários em um e-commerce. O grupo 1 (controle) foi exposto à página tradicional da empresa, já o grupo 2 (teste) foi exposto à uma página nova que a empresa está desenvolvendo. A taxa de conversão (número de clientes que acessaram a página dividido pelo número que clientes que compraram) do grupo 1 foi de 10% e do grupo 2 foi de 12%. É possível afirmar que a página em desenvolvimento (exposta ao grupo 2) vende mais do que a página tradicional de vendas da empresa (exposta ao grupo 1)?

Formulando as hipóteses

As inferências são feitas por meio do teste de duas hipóteses: uma hipótese nula (H0) e uma hipótese alternativa (H1 ou Ha). Não deve existir sobreposição de resultados entre estas duas hipóteses, ou seja, quando uma delas for verdadeira, a outra necessariamente deve ser falsa. Por este motivo, ao formular H0 e H1, siga as seguintes orientações (anote bem, isso vale ouro):

  1. Formule a hipótese H0 utilizando os sinais de <=, =, >=

  2. Formule a hipótese H1 utilizando os sinais de <, #, >

Dica: quando formulamos as hipóteses com os sinais de = (na hipótese H0) e # (na hipótese H1), estamos falando de um teste bilateral ou bicaudal. Caso contrário, será um teste unilateral ou unicaudal. Vou explicar em breve, não se preocupe.

Exemplos de definição de hipóteses:

H0 = A média de idade da empresa é igual a 40 anos
H1 = A média de idade da empresa é diferente de 40 anos

ou

H0: A taxa de conversão da página nova é <= 10%
H1: A taxa de conversão da página nova é > 10%

Lembre-se, dada as orientações de formulação de hipóteses citadas acima, você poderia pensar em diferentes hipóteses para formular H0 e H1. Acima foi dado apenas um dos possíveis pares de hipóteses.

De acordo com os exemplos citados acima, você também já deve ter notado que os testes de hipóteses podem investigar diferentes tipos de parâmetros, como médias, proporções e variância.

Um pouco mais de teoria antes de entrar na prática

Nenhum teste pode lhe garantir 100% de acerto na inferência que foi feita. Desta forma, é importante saber se existem dois tipos de erros associados aos testes de hipóteses:

Tipo I: rejeita-se H0 quando, na verdade, H0 é verdadeira
Tipo II: aceita-se H0, quando, na verdade, H0 é falsa

Estes erros estão conectados, de forma que, quando um diminui, o outro aumenta. A única forma de reduzir os dois erros ao meso tempo é por meio do aumento da amostra.

Nível de significância (alpha)

Nível se significância refere-se à maior probabilidade permissível para que se cometa um erro do tipo I. Este nível de significância é comumente representado por alpha. É bastante comum o uso de 5% (0.05) como nível de significância. No entanto, isso depende do seu objetivo. Por exemplo, muitos testes A/B utilizam 1% como nível de significância.

Já a probabilidade do erro tipo II é representada por beta e também é conhecida como poder do teste. Na prática, nos testes de hipóteses, em geral controlamos apenas o valor de alpha.

Nível descritivo ou P-VALOR

Utilizamos o P-VALOR para aceitar ou rejeitar a hipótese nula. A ideia geral é que, quando o P-VALOR for muito pequeno, H0 é falsa. Para que a determinação de “valor muito pequeno” não seja tão subjetiva, em geral, se estabelece uma relação do P-VALOR com o parâmetro alpha:

  1. Se P-VALOR for menor ou igual a alpha, então rejeita-se H0
  2. Se P-VALOR for maior do que alpha, então aceita-se H0

Esta foi uma dica muito valiosa que extrai do site Professor Guru. Podemos pensar uma espécie de framework, ou passo a passo, para fazer os testes de hipóteses. Isso é fantástico já que, independente do teste, é possível seguir um racional padrão.

  1. Escreva as hipóteses
    Lembre-se das dicas que escrevi no início do artigo

  2. Faça um gráfico da distribuição e desenhe a região crítica (RC)
    Faça um gráfico da distribuição amostral. Em seguida, de acordo com a hipótese alternativa, marque a região crítica do teste (unilateral ou bilateral?).
    Para os testes unilaterais, o valor da RC será igual ao alpha.
    Já nos testes bilaterais, o valor da RC será igual ao alpha / 2

  3. Busque o valor crítico do teste na tabela da distribuição correspondente
    Calcule o valor crítico do teste (T crítico ou Z crítico) de acordo com o nível de significância do teste (alpha) e com a região crítica (RC) utilizando a tabela da distribuição correspondente.
    Para a distribuição normal, procure na tabela o valor de 0.5 – alpha
    Para distribuição T-student, procure na tabela o valor alpha e os devidos **graus de liberdade (se o teste for bilateral, então deve-se usar alpha * 2)
    ** graus de liberdade é igual a n – 1 

  4. Calcule o valor observado utilizando a **fórmula do teste
    T observado para distribuição de T-student ou Z observado para distribuição normal 

  5. Conclua o teste
    Se o valor observado pertence à RC, então rejeita-se H0
    Se o valor observado não pertence à RC, então aceita-se H0
    No fim, forneça uma conclusão usando os termos de negócio (utilizados na própria definição das hipóteses). Se você rejeitar H0, então tente sempre ressaltar que você rejeita a hipótese nula, ao invés de, explicitamente, dizer que aceita a hipótese alternativa.
    Outra dica: como o teste sempre terá um erro associado, use termos como “há/não há evidência estatística para…” 

** A fórmula do teste é a parte que pode variar para cada caso, ou seja, você pode seguir este roteiro mudando apenas a fórmula de cálculo do valor observado.

2 comentários sobre “Inferência Estatística – Teste de hipóteses

  1. Adicionando comentários pertinentes feitos no post do LinkedIn:
    ————————————————————————————-
    Alexandra Russi comentou:
    Apenas gostaria de colaborar com um comentário teórico… o mais adequado seria Região de Não rejeição, visto que tecnicamente, a hipótese não é aceita e sim a hipótese contrária é rejeitada.

    Curtir

  2. Adicionando comentários pertinentes feitos no post do LinkedIn:
    ————————————————————————————-

    Maiara de Oliveira perguntou:
    Muito bom! Material bem explicativo e didático realmente! Os exemplos facilitam ainda mais o entendimento! Show!!!
    Apenas um dúvida/curiosidade por favor, como determinar o tipo de teste a utilizar, T ou Z?

    Márcio Alves respondeu:
    O teste z é um testes de média amostral, quando a média populacional é não conhecida. O teste t é um teste de variância, ocorre quando a variância populacional é desconhecida. O teste t é muito utilizado para testar a consistência de um estimador, isto é, se o estimador tiver uma baixa variância ele será consistente.

    Curtir

Deixar mensagem para Weslley Moura Cancelar resposta