One-way ANOVA no Excel e no STATA
A análise de variância (ANOVA) é um teste utilizado para comparar as médias de três ou mais populações, por meio da análise de variâncias amostrais. O teste se baseia em uma amostra extraída de cada população, com objetivo de determinar se as diferenças entre as médias das amostrar sugerem diferenças significativas entre as médias populacionais, ou se tais diferenças são decorrentes apenas da variabilidade implícita da amostra.
E hoje você vai aprender a fazer uma ANOVA de um fator. Vem comigo!
Uma análise de variância possui 3 importantes suposições, que alicerçam toda a análise. São elas:
a) as amostras são independentes entre si;
b) os dados das populações se distribuem como uma normal;
c) as variâncias populacionais são homogêneas.
A ANOVA pode ser calculada para 1 fator (one-way ANOVA - ANOVA daqui em diante, que vamos ver a seguir) ou para múltiplos fatores.
A ANOVA, em realidade, é uma extensão do teste T, porém, com ela podemos analisar as variâncias de três ou mais médias populacionais.
A ANOVA é operada sob as seguintes hipóteses:
Ou seja, a hipótese nula enuncia que as médias populacionais são iguais, contra a alternativa de que ao menos um grupo tem média diferente dos demais.
Não custa lembrar que a ANOVA assume que cada grupo seja oriundo de uma população com distribuição normal, média µ_i e variância homogênea, ou seja, Y_ij ~ N(µ_i, σ). Consequentemente, disso decorre a hipótese de que os erros são independentes e se distribuem como uma normal, com média zero e variância constante - ε_ij ~ N(0, σ).
E como se dá, algebricamente, o cálculo da ANOVA? É simples. Vamos a ele! Em realidade o cálculo envolve 3 etapas:
a. Calcular a soma dos quadrados dos erros DENTRO dos grupos, pela seguinte equação:
Ou seja, aqui pegamos cada observação e deduzimos sua média para cada j-ésimo grupo. Quadrado nele (na diferença!) e soma tudo.
b. Calcular a soma dos quadrados dos erros ENTRE os grupos, pela seguinte equação:
Aqui, para cada grupo da amostra, obtemos a diferença entre sua média e a média global da totalidade dos dados ao quadrado, multiplicado pelo número de elementos do grupo (n).
c. Por fim, precisamos obter a soma dos quadrados totais, mediante emprego da seguinte equação:
De posse dos valores anteriormente calculados, calculamos, efetivamente, a estatística ANOVA pela divisão da variância ENTRE grupos (SSB dividido por k – 1 graus de liberdade) e a variância DENTRO do grupo (SSW dividido por N – k graus de liberdade), de modo que:
Por uma questão de coerência, o valor de F pode ser nulo ou positivo, mas nunca negativo. A ANOVA requer, portanto, uma distribuição F assimétrica à direita.
O F calculado deve ser comparado com o valor tabelado da distribuição F. A H_0 da ANOVA um fator deve ser rejeitada quando F_calculado > F_tabelado. Por óbvio, se F_calculado < F_tabelado não rejeitamos H_0.
Recomendados pelo LinkedIn
Bastante coisa, não!? Vamos a um exemplo para fixar.
Imagine que temos determinado material, que serve de componente de um produto fabricado pela empresa "X", e tal material é oriundo de 4 fornecedores distintos. A tabela abaixo mostra a resistências do componente por fornecedor:
Vamos testar a hipótese de que as resistências dos materiais de todos os fornecedores são, na média, iguais.
Note que, aqui, usaremos a One-Way ANOVA, uma vez que nosso "único fator" é o fornecedor diferente.
Começamos nossos trabalhos calculando a resistência média do componente, por fornecedor.
Em seguida, calculamos nossa medida de SSW, deduzindo o valor de cada observação da sua média, elevando ao quadrado e somando tudo ao final, por fornecedor.
Por exemplo, o valor de 0,263149529 (SSW²_F1) foi calculado assim: (11,7155... - 11,2025...)². Após repetir o processo para cada observação, somamos.
Em seguida, calculamos nossa medida de SSB. Antes disso, precisamos da média global das nossas 40 observações (note que são 4 fornecedores do componente, com 10 observações cada, logo, 10 * 4 = 40). Essa média foi de 9,9151. De posse dela, calculamos SSB.
O SSB, como sabemos, é calculado pela diferença, por grupo, entre sua média e a média global da totalidade dos dados ao quadrado, multiplicado pelo número de elementos do grupo (n), que no nosso exemplo é 10. Assim, e.g., SSB²_F1 foi assim calculado:
10 * (Média da resistência do componente para F1 (11,2025...) - Média Global (9,9151...)² = 16.5723...Idem para os demais.
Agora, calculamos nossa medida de SST, que nada mais é que o somatório de SSW e SSB. E por fim, calculamos nossa estatística F, que é de 3.3031...Ao comparar com o valor crítico em uma tabela F, verificamos que F_calc (3.3031) > F_tab (2.866), logo, REJEITAMOS H_0, ou seja, a resistência média dos materiais é DIFERENTE entre os fornecedores (ou de pelo menos 1 fornecedor!). Resumimos tudo abaixo:
Podemos, também, resolver a ANOVA com o suplemento de dados do Excel.
Note que chegamos ao mesmo resultado.
Por fim, podemos fazer com o STATA. Organizando o banco de dados, inicialmente dispomos nossas observações da resistência do componente em uma coluna (denominei ResistComp), e na coluna da frente indicamos o fornecedor responsável (denominei Forn).
Após, basta digitar o comando anova ResistComp Forn. A saída é a seguinte:
Note que chegamos ao mesmíssimo resultado pelas 3 abordagens.
Agora não tem mais desculpa para não fazer corretamente uma One-Way ANOVA, correto?
Um abraço e bons estudos!