Análise da Variância Prof. Dr. Alberto Franke (48) 91471041 Análise da variância Até aqui, a metodologia do teste de hipóteses foi utilizada para tirar conclusões sobre possíveis diferenças entre os parâmetros de dois grupos. Frequentemente, é necessário avaliar diferenças entre parâmetros de vários grupos. Podemos testar se há diferença significativa entre médias de c (c>2) grupos de observações, sendo cada grupo formado pelos resultados de um tratamento (experimento, teste, etc.). Pode-se desejar comparar: Materiais Métodos ou tratamentos alternativos Processos produtivos novos Catalisadores de reações químicas Drogas novas para tratamentos de doenças Etc. Prof. Franke, 2015 Análise da variância A empresa fabricante de Paraquedas: Na fábrica de Paraquedas Perfect os paraquedas são tecidos com fibras sintéticas adquiridas de um entre quatro diferentes fornecedores. Sabe-se que a característica mais importante de um paraquedas é a resistência. Você como gerente precisa decidir se as fibras sintéticas de seus quatro fornecedores resultam em paraquedas de igual resistência. Além disto existem dois tipos de teares na fábrica: o Chinês e o Coreano. Os paraquedas tecidos nos teares Chinês e aqueles tecidos nos teares Coreano possuem resistência igual? Mais ainda, existem quaisquer diferenças nas resistências dos paraquedas que possam ser atribuídos aos quatro fornecedores, dependendo do tipo de tear utilizado? Para responder a estas perguntas, decidiu-se projetar um experimento para testar a resistência de paraquedas tecidos com fibras sintéticas obtidas dos quatro fornecedores e pelos dois tipos de teares. Prof. Franke, 2015 Análise da variância Análise da variância de fator único É fator único quando estamos querendo avaliar apenas uma causa da variação entre grupos. A análise estatística para comparação de c grupos independentes é tradicionalmente feita por uma análise de variância (ANOVA), acompanhada de um teste F, que, da mesma forma como o teste t, supõe: 1. 2. 3. As observações devem ser independentes, ou seja, totalmente casualizadas; As variâncias populacionais devem ser iguais nos c grupos; e A distribuição das observações em cada grupo deve ser normal Através da análise da variação nos dados, tanto entre grupos e quanto dentro dos grupos, as conclusões podem ser tiradas sobre possíveis diferenças entre médias aritméticas de grupos. Grupo: fornecedores Dentro dos grupos: variação nas repetições de cada fornecedor Prof. Franke, 2015 Análise da variância Análise da variância de fator único Em ANOVA, a variação total dos resultados é subdividida em variações atribuídas a diferenças entre grupos e variações devidas ao acaso ou atribuídas a variações dentro dos grupos. A variação dentro dos grupos é considerada como erro experimental. A variação entre os grupos é atribuída a efeitos de tratamento. Variação entre os grupos (SQE) g.l. = c-1 Variação Total (STQ) g.l. = n-1 Variação dentro dos grupos (SQD) g.l. = n-c Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Admitindo que os c grupos que representam as populações, cujas medidas são extraídas de maneira aleatória e independente, seguem uma distribuição normal, e possuem variâncias homogêneas, então A hipótese nula de nenhuma diferença nas médias aritméticas das populações: É testada em relação à hipótese alternativa de que nem todas as c médias aritméticas das populações são iguais: Ho: 1 = 2 = ... = c H1: Nem todas as j são iguais (onde j = 1, 2, ...,c) Para realizar um teste ANOVA de igualdade entre médias aritméticas das populações, a variação total nas medidas é subdividida em duas partes: Aquela devida às diferenças entre os grupos (tratamentos) Aquela devida à variação dentro dos grupos (erros ou resíduos) Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Variação Total A variação total é representada através da soma total dos quadrados (STQ). Como as médias aritméticas da população dos c grupos são assumidos como sendo iguais no âmbito da hipótese nula. A variação total é obtida através da soma das diferenças ao quadrado entre cada observação individual e a média geral ou grande média. É calculada pela equação: Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Variação entre grupos (tratamentos) A variação entre grupos, usualmente chamada de soma dos quadrados entre grupos (SQE) é medida através da soma das diferenças ao quadrado entre a média aritmética da amostra de cada grupo, e a média geral , ponderada com base no tamanho da amostra em cada grupo. É calculada pela equação: Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Variação dentro do grupo A variação dentro dos grupos, conhecida como soma dos quadrados dentro dos grupos (SQD), mede a diferenças entre cada observação e a média aritmética de seu próprio grupo, e a com soma dos quadrados dessas diferenças ao longo de todos os grupos. É calculada pela equação: Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Graus de liberdade: Uma vez que c níveis do fator estão sendo comparados, existem c-1 graus de liberdade associados à soma dos quadrados entre grupos (SQE) Como cada um dos c níveis contribui com n-1 graus de liberdade, existem n-c graus de liberdade associados a soma dos quadrados dentro dos grupos (SQD) Além disto, existem n-1 graus de liberdade associados à soma total dos quadrados, uma vez que cada observação está sendo comparada com a média geral ou grande média, baseada em todas as n observações. Assim: Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Quadrados da média aritmética: Se dividirmos cada uma dessas somas de quadrados pelos seus graus de liberdade associados, três variâncias, ou termos de quadrados da média são obtidos. Como a variância é calculada através da divisão da soma das diferenças ao quadrado, pelos graus de liberdade, todos os termos de quadrados da média correspondem a variâncias. A estatística do teste F é calculada como sendo igual à razão entre duas das variâncias, MQE e MQD Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Estatística do teste F: A estatística do teste F segue uma distribuição F, com c-1 graus de liberdade, correspondente a MQE no numerador e n-c graus de liberdade correspondente ao MQD no denominador Para um dado nível de significância, α, a hipótese nula é rejeitada, se estatística do teste F calculada for maior do que o valor crítico da causa superior, Fs, a partir da distribuição F, tendo c-1 graus de liberdade, no numerador e n-c graus de liberdade no denominador Rejeita-se Ho se F > Fs (Fc) Caso contrário, não se rejeita Ho Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Tabela 1 – Tabela resumida da análise da variância um fator Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: medida de resistência à tração dos paraquedas Deseja-se testar as hipóteses: Ho: a resistência das fibras dos quatro fornecedores são iguais; e H1: a resistência das fibras dos quatro fornecedores não são iguais. Repetições Grupos (tratamentos) Fornecedor 1 Fornecedor 1 Fornecedor 1 Fornecedor 1 1 18,5 26,3 20,6 25,4 2 24,0 25,3 25,2 19,9 3 17,2 24,0 20,8 22,6 4 19,9 21,3 24,7 17,5 5 18,0 24,5 22,9 20,4 Média Desvio-padrão Grande média Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: medida de resistência à tração dos paraquedas Repetições Grupos (tratamentos) Fornecedor 1 Fornecedor 1 Fornecedor 1 Fornecedor 1 1 18,5 26,3 20,6 25,4 2 24,0 25,3 25,2 19,9 3 17,2 24,0 20,8 22,6 4 19,9 21,3 24,7 17,5 5 18,0 24,5 22,9 20,4 Média 19,52 24,26 22,84 21,16 Desvio-padrão 2,69 1,92 2,13 2,98 Grande média 21,945 depois Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Inspeção visual dos dados através do diagrama de dispersão depoi s Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Preenchimento da tabela ANOVA Fonte de variação Graus de liberdade Entre grupos (tratamentos) c–1=4-1=3 Dentro de grupos (resíduos) n – c = 20 – 4 = 16 Total n – 1 = 20 - 1 = 19 Soma dos quadrados c = número de grupos (nº de fornecedores) n = número de observações Quadrados da média Prof. Franke, 2015 F Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Preenchimento da tabela ANOVA Fonte de variação Entre grupos (tratamentos) Graus de liberdade 4-1 = 3 Soma dos quadrados SQE = 63,2855 Grupos (tratamentos) Repetiç ões Forn 1 Forn 2 Forn 3 Forn 4 1 18,5 26,3 20,6 25,4 25,3F 25,2 19,9 Quadrados da 2 média24,0 3 17,2 24,0 20,8 22,6 4 19,9 21,3 24,7 17,5 5 18,0 24,5 22,9 20,4 Dentro de grupos (resíduos) 20–4 = 16 SQD = 97,504 Média 19,52 24,26 22,84 21,16 Total 20-1 = 19 SQT = 160,7895 Desvio 2,69 1,92 2,13 2,98 Grande 21,945 = 5(19,52 - 21,945)² + ... + 5(21,16 - 21,945)² = 63,2855 = (18,5 – 19,52)²+ ... + (26,3-24,26)²+...+ (20,6-22,84)²+...+ (25,4-21,16)²= 97,504 = (18,5-21,945)² +...+ (20,4 – 21,945)² = 160,7895 Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Preenchimento da tabela ANOVA Fonte de variação Graus de liberdade Soma dos quadrados Quadrados da média F calculado Entre grupos (tratamentos) 4-1 = 3 SQE = 63,2855 MQE = 21,095 3,46 Dentro de grupos (resíduos) 20–4 = 16 SQD = 97,504 MQD = 6,094 -- Total 20-1 = 19 SQT = 160,7895 = 63,2855/4-1 = 21,095 = 97,504/20-4 = 6,094 = 21,095/6,094 = 3,46 -- F crítico tabelado -- • Qual a conclusão? • Aceitamos ou rejeitamos Ho? • Há diferença entre as fibras dos fornecedores quanto à resistência? • Precisamos definir o F Crítico! Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Preenchimento da tabela ANOVA Fonte de variação Soma dos quadrados Quadrados da média F calculado F crítico tabelado 3,24 Entre grupos (tratamentos) 4-1 = 3 SQE = 63,2855 MQE = 21,095 3,46 Dentro de grupos (resíduos) 20–4 = 16 SQD = 97,504 MQD = 6,094 -- Total 20-1 = 19 SQT = 160,7895 -- -- Valor crítico da cauda superior, Fc, a partir da distribuição F: Graus de liberdade No exemplo existem 3 g.l. no numerador e 16 g.l. no denominador Fc = 3,24 Como a estatística calculada do teste F = 3,46 é maior que F crítico, Fc = 3,24 a hipótese nula é rejeitada e, conclui-se que existem evidências de uma diferença significativa na média da resistência à tração das fibras dos fornecedores. Prof. Franke, 2015 Prof. Franke, 2015 Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Por que existem diferenças entre os valores? Por que as observações não são todas iguais? Depois de realizar o teste ANOVA de fator único, e encontrar uma diferença significativa entre fornecedores, precisamos conhecer qual fornecedor é diferente Há pelo menos uma combinação de médias significativamente diferente! Para determinar exatamente quais fornecedores diferem entre si, podem ser feitas todas as possíveis comparações, em pares de médias, entre os fornecedores, utilizando o procedimento de Tukey (Teste Tukey) Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Aplicação do teste de Tukey 1° - Ordenar as médias referente à resistência dos paraquedas: 24,26 f3 = 22,84 f4 = 21,16 f1 = 19,52 2° - Calcular a diferença absoluta entre todas as possíveis comparação de médias 1. |ẍf1 - ẍf2|= |19,52-24,26| = 4,74 f2= 2. |ẍf1 - ẍf3|= |19,52-22,84| = 3,32 3. |ẍf1 - ẍf4|= |19,52-21,16| = 1,64 4. |ẍf2 - ẍf3|= |24,26-22,84| = 1,42 5. |ẍf2 - ẍf4|= |24,26-21,16| = 3,10 6. |ẍf3 - ẍf4|= |22,84-21,16| = 1,68 3° - Obter o intervalo crítico em que há diferença significativa entre médias Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Aplicação do teste de Tukey 3° - Obter o intervalo crítico em que há diferença significativa entre médias Onde: ∆ = intervalo crítico entre médias; Qs = é o valor crítico da cauda superior a partir da distribuição de intervalos de Student, com c g.l. no numerador e n-c g.l. no denominador; MQD = quadrado da média dentro de grupos (tabela ANOVA); n = número de repetições Aplicando a equação acima obtém-se: Que é a diferença mínima significativa, ou seja, toda diferença entre duas médias igual ou superior a ∆ = 4,47, é significativa ao nível de 5% de probabilidade. Prof. Franke, 2015 Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Aplicação do teste de Tukey 4° - Qual a conclusão? Compara-se o intervalo crítico, ∆, calculado com as diferenças absolutas entre as média que foi calculado no 2° passo 1. |ẍf1 - ẍf2|= |19,52-24,26| = 4,74 2. |ẍf1 - ẍf3|= |19,52-22,84| = 3,32 3. |ẍf1 - ẍf4|= |19,52-21,16| = 1,64 4. |ẍf2 - ẍf3|= |24,26-22,84| = 1,42 5. |ẍf2 - ẍf4|= |24,26-21,16| = 3,10 6. |ẍf3 - ẍf4|= |22,84-21,16| = 1,68 ∆ = 4,47 Como 4,74 > 4,47, pode-se concluir que existe uma diferença significativa, ao nível de ∝ = 5%, entre as médias dos fornecedores 1 e 2. Todas as outras diferenças entre pares são pequenas o suficiente, e podem ser atribuídas ao acaso. Paraquedas feitos com fibras do fornecedor 1 possuem resistência menor do que aqueles fabricados utilizando a fibra do fornecedor 2. Prof. Franke, 2015 Análise da variância (Anova) Análise da variância de fator único Exemplo: Medida de resistência à tração dos paraquedas Inspeção visual dos dados através do diagrama de dispersão Prof. Franke, 2015 Premissas da ANOVA Como é possível saber se o teste F de fator único foi um procedimento apropriado? Para aplicar o teste F ANOVA deve-se assumir as seguintes premissas: 1ª - Aleatoriedade e independência Sempre deve estar presente sob risco de afetar 2ª - as inferências Normalidade Enquanto as populações não se afastarem muito da distribuição normal o teste F ANOVA continua sendo robusto, especialmente para grandes amostras Quando a premissa da normalidade é seriamente violada, deve-se usar alternativas não-paramétricas (Kruskal-Wallis ou Wilcoxon) 3ª Homogeneidade da variância A variância dentro de cada população deve ser igual para todas as populações Se o tamanhos das amostras forem iguais em cada grupo, as inferências baseadas no teste F não são seriamente afetadas em função de variâncias desiguais Quando a 2ª e a 3ª premissa tiverem sido violadas, pode-se optar por: uma transformação apropriada dos dados pode ser utilizada, de modo a normalizar os dados e reduzir as diferenças nas variâncias; ou, aplicar teste não-paramétricos Prof. Franke, 2015 Análise da variância (Anova) Exercício: Um produtor de vinho queria saber se deveria eliminar, de seu parreiral, as videiras infestadas pela virose do enrolamento da folha visto que suspeitava que afetavam o teor de açúcar das uvas. Um enólogo fez um experimento para responder ao produtor. Diferenciou três tipos de plantas: Plantas sadias, plantas com infecção média da virose e plantas com infecção severa. Selecionou no parreiral, de forma aleatória, 10 plantas de cada tipo nas quais analisou os teores de açúcar. Obteve os resultados abaixo: Repetições Plantas sadias Infecção média Infecção severa Teores de açúcar (gramas/litro) 1 182 143 149 2 182 185 164 3 175 182 175 4 182 182 167 5 167 172 167 6 172 161 149 7 178 170 149 8 154 192 146 9 167 182 158 10 200 172 154 • Houve diferenças entre os tipos de plantas quanto ao teor de açúcar nas uvas? • Qual deve ser a recomendação do enólogo? • Para saber, faça a análise da variância e a comparação das médias entre os grupos de plantas. Prof. Franke, 2015