UTFPR - Universidade Tecnológica Federal do Paraná Desvendando a Estatística com o R Commander Prof. MSc. Jonas Joacir Radtke Sumário 1 Introdução p. 3 1.1 Instalação do R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3 1.2 Dados no R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5 1.2.1 Importação de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5 1.2.2 Transformação de Dados . . . . . . . . . . . . . . . . . . . . . . . . p. 8 1.2.3 Conversão de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10 2 Estatística Descritiva p. 13 2.1 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 2.2 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16 3 Testes de Hipóteses de Uma Amostra 3.1 Teste de Shapiro-Wilk para Normalidade da População . . . . . . . . . . . . 4 Testes de Hipóteses de Duas Amostras p. 20 p. 21 p. 25 4.1 Teste t para Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . p. 25 4.2 Teste t para Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . p. 29 5 Testes de Hipóteses de Mais de Duas Amostras 5.1 p. 34 Análise de Variância para Um Fator (ANOVA) . . . . . . . . . . . . . . . . . p. 34 5.1.1 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 5.1.2 Teste de Levene para Homogeneidade da Variância . . . . . . . . . . p. 41 Referências Bibliográficas p. 43 Anexo A -- Tabela da distribuição Normal p. 44 Anexo B -- Tabela da distribuição t de Student p. 45 Anexo C -- Tabela da distribuição F de Fisher p. 46 Anexo D -- Tabela da Distribuição de Intervalos de Student p. 47 Anexo E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk p. 48 Anexo F -- Tabela dos Valores Críticos do Teste de Shapiro-Wilk p. 49 3 1 Introdução O presente material pretende apresentar de forma bastante sucinta as ideias relacionadas as diversas ferramentas estatísticas abordadas. O foco principal deste texto é ajudar o leitor a resolver problemas estatísticos utilizando o software R com a interface gráfica R Commander. O R é um programa estatístico muito utilizado no meio acadêmico e comercial. Dentre as vantagens de utilização deste programa está o fato de ser gratuito e muito robusto. A criação de uma interface gráfica para o R, denominada R Commander, ampliou muito o número de adeptos a este programa. Tal interface permite a exploração de todo o potencial do R de forma simples e amigável. Convém resaltar que a utilização direta de softwares amigáveis, sem o prévio conhecimento dos fundamentos da metodologia, pode constituir um grande risco e levar o usuário a interpretações perigosamente equivocadas (RODRIGUES; IEMMA, 2005). 1.1 Instalação do R Commander O primeiro passo para a utilização do R Commander é a instalação do programa R. O download deste programa pode ser feito no seguinte site: http://cran.r-project.org/ Após o download e a instalação do programa R, o próximo passo é a instalação dos pacotes básicos para o funcionamento da interface gráfica. Para tanto, abra o programa R e siga os seguintes passos: [Pacotes] ◮ [Instalar pacote(s)] (Fig. 1.1). Na sequência, escolha um espelho para o download e em seguida o pacote Rcmdr. 1.1 Instalação do R Commander 4 Figura 1.1: Instalação de pacotes no R. Para inicializar o R Commander digite o seguinte comando no terminal do R: > require(Rcmdr) Na primeira vez que o R Commander for inicializado será solicitada a instalação de vários pacotes necessários para o seu correto funcionamento. Aceite a solicitação, escolha o espelho para download dos pacotes e aguarde a finalização da instalação e a abertura do R Commander (Fig. 1.2). Figura 1.2: Visão geral do R Commander. 1.2 Dados no R Commander 5 1.2 Dados no R Commander Os dados utilizados pelo R Commander podem ser digitados diretamente nele, seguindo os seguintes passos: [Dados] ◮ [Novo conjunto de dados...], e em seguinda escolhendo um nome para o conjunto de dados. Contudo, na prática, os resultados são digitados em planilhas eletrônicas para posteriormente serem importados para os programas estatísticos. 1.2.1 Importação de Dados A forma mais comum de obter os dados para o R Commander é através de arquivos oriundos de planilhas eletrônicas dos programas Microsoft Excel ou OpenOffice Calc. Ambos os programas possuem uma opção de salvar as planilhas como arquivos de texto puro (com extensão CSV, do inglês, Comma Separated Values). Importação de Arquivos do Excel O R Commander possui uma opção de importação dos dados de planilhas do Excel e de arquivos CSV. A importação de arquivos de dados do Excel pode ser executada através dos seguintes passos: [Dados] ◮ [Importar arquivos de dados] ◮ [de conjunto de dados do Excel, Access, dBase...] (Fig. 1.3). Figura 1.3: Importação de dados de arquivos do Excel. Uma janela será aberta para que seja informado o nome do conjunto de dados. Na sequência, outra janela será aberta para que seja selecionado o arquivo do Excel. Após escolher o arquivo de origem dos dados será solicitada a planilha do arquivo que deve ser importada, caso o arquivo possua mais de uma planilha. 1.2 Dados no R Commander 6 Importação de Arquivos CSV Todas as planilhas de arquivos do Excel e do Calc podem ser salvas com extensão CSV. Para fazer isto, abra o arquivo no programa Excel ou Calc e execute os seguintes passos: [Arquivo] ◮ [Salvar como...]. Na janela que abrir informe o nome do arquivo e, logo abaixo, escolha a opção “CSV (separado por vírgulas)” no Excel ou “Texto CSV (.csv)” no Calc. Apesar do Excel informar que o os campos serão separados por vírgula, eles serão separador por ponto e vírgula. No Calc uma janela será aberta para escolher o delimitador de campo, que deve ser alterado para ponto e vírgula (Fig. 1.4), porque, no Brasil, a vírgula é utilizada como separador de decimais. Figura 1.4: Escolha do delimitador de campo para arquivos CSV no Calc. A importação de dados de arquivos com extensão CSV é realizada de forma similar a de arquivos do Excel. Observando que os arquivos com extensão CSV são arquivos de texto puro, cujos campos são separados por ponto e vírgula (;), siga os seguintes passos: [Dados] ◮ [Importar arquivos de dados] ◮ [de arquivos texto, clipboard ou URL...] (Fig. 1.5). Figura 1.5: Importação de dados de arquivos com extensão CSV. Na janela que abrirá escolha um nome para o conjunto de dados, altere o separador de campos para “Outro - Defina: [;]” e o separador de decimais para “Vírgula [,]” (Fig. 1.6). Logo após, será aberta uma janela para informar o nome do arquivo com formato CSV que deseja importar. 1.2 Dados no R Commander 7 Figura 1.6: Definição de parâmetros para importação de dados de arquivos com extensão CSV. Cuidados na Elaboração e Importação de Planilhas de Dados Cuidados ao digitar os dados nas planilhas: • O nome das variáveis de uma determinada coluna deve estar na primeira linha; • Não devem ser utilizados caractéres especiais (ç, ascentos, entre outros) nos dados informados na planilha; • A planilha deve conter apenas o nome da variável e os dados do experimento. • A utilização de células mescladas não é permitida. Dicas: • Evite a utilização de nomes compostos e/ou muito compridos; • Exclua todas as linhas e colunas da planilha que já haviam sido utilizadas e que não pertençam ao conjunto de dados do experimento; • Visualize os dados no R Commander clicando em “Ver conjunto de dados” para certificar-se que que foram carregados de forma correta. 8 1.2 Dados no R Commander 1.2.2 Transformação de Dados Em algumas situações é necessário realizar a transformação dos dados amostrais, com o objetivo de atingir determinadas exigências de certos testes estatísticos (pressupostos). A transformação obtida geralmente melhora a aproximação dos dados à distribuição normal. A normalidade dos dados é uma exigência comum para a aplicação de testes de hipótese. Se a suposição de normalidade dos dados não é aceitável, podemos adotar a estratégia de transformação da variável. Transformações são nada mais do que uma forma de reescrever os dados numa unidade diferente. Em muitas situações práticas a escolha da transformação para melhorar a aproximação à distribuição normal não é óbvia. Segue abaixo algumas transformações comumente utilizadas: • Contagens: √ x - Contribui para tornar as variâncias muito menores e desta forma mais facilmente obter homocedasticidade (variâncias iguais). √ x 1 ou arcsen ( x) - Contribuem para alterar a forma da log • Proporções: 2 1−x distribuição dos dados. 1+x 1 • Correlações: Fisher: z(x) = log 2 1−x • Concentrações: log(x) ou ln(x) - Contribui para tornar as variâncias muito menores e desta forma mais facilmente obter homocedasticidade. Para ilustrar como é realizada a transformação de dados no R Commander tomamos como exemplo os valores apresentados na tabela abaixo. Tabela 1.1: Dados amostrais referentes ao número diário de peças defeituosas em uma linha de produção. 4 5 4 3 2 9 5 4 2 4 O primeiro passo é a digitação destes valores em um única coluna no R Commander, conforme apresentado na seção anterior (1a coluna da Fig. 1.7). 1.2 Dados no R Commander 9 Figura 1.7: Planilha do R Commander com os dados originais (cont) e transformados (raiz_cont). Para criar uma nova variável com os dados transformados deve-se seguir os seguintes passos: [Dados] ◮ [Modificação de variáveis no conjunto de dados...] ◮ [Computar nova variável...] (Fig. 1.8). Figura 1.8: Opção no R Commander para criar uma variável transformada. Uma janela será aberta para informar o nome da nova variável e a expressão matemática para calcular os valores desta variável (raiz = sqrt, arcsen = asin, log10 = log10 e ln = log). 1.2 Dados no R Commander Figura 1.9: 10 Configuração do nome da nova variável e da expressão para realizar a transformação. Os resultados da nova variável, chamada raiz_cont, são apresentados na segunda coluna da figura 1.7. Como podemos observar pelos histogramas apresentados na figura abaixo, a variável transformada se ajusta mais a forma de um sino (distribuição normal) do que a variável original. Esta conclusão pode ser estatísticamente comprovada por um teste de hipóteses (seção 3.1). Figura 1.10: Histogramas da variável original (cont) e da variável transformada (raiz_cont). 1.2.3 Conversão de Dados Muitas vezes necessita-se converter dados amostrais em formato numérico para um fator, ou vice-versa. O R Commander possui uma opção para fazer isto de forma automática. Para exemplificar o uso desta opção considere o seguinte exemplo: Exemplo: A tabela abaixo possui a nota de estatística de uma amostra de 8 alunos. Deseja-se saber qual o conceito de cada aluno. Alunos com nota maior ou igual a 9 devem ter conceito A, entre 7,5 e 8,9 conceito B, entre 6 e 7,4 conceito C e conceito D para notas menores que 6. 11 1.2 Dados no R Commander Tabela 1.2: Notas de estatística de uma amostra de 8 alunos. 8,3 7,4 6,2 9,1 2,8 4,7 7,1 7,7 O primeiro passo é informar ou importar estes valores para o R Commander (1a coluna da Fig. 1.11). Figura 1.11: Notas e conceitos de estatística na amostra de alunos no R Commander. Para converter cada nota em um conceito (fator), siga os seguintes passos: [Dados] ◮ [Modificação de variáveis no conjunto de dados...] ◮ [Recodificar variável...] (Fig. 1.12). Figura 1.12: Opção no R Commander para conversão de dados. Uma janela será aberta para informar o nome da nova variável e as definições para recodificação (Fig. 1.13). O comando “:” é utilizado para indicar sequência, ou seja, a primeira linha da definição abaixo diz que o conceito “D” corresponde as notas entre 0 e 5,9. O resultado da conversão é apresentada na segunda coluna da figura 1.11. A conversão de fatores para dados numéricos segue a mesma metodologia. 1.2 Dados no R Commander 12 Figura 1.13: Configuração no R Commander do nome da nova variável e das definições para recodificação. 13 2 Estatística Descritiva A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumarizar um conjunto de dados. O tratamento dos dados na estatística descritiva tem como objetivo organizá-los e resumi-los, a fim de facilitar a interepretação de uma determinada variável através de uma amostra. Para compreender as diversas ferramentas da estatística descritiva considere o seguinte exemplo. Exemplo: Na tabela abaixo são apresentadas 48 medidas em milímetros do comprimento de uma peça, por sinal, uma das características essenciais da peça. Tabela 2.1: Medidas em milímetros do comprimento de uma amostra de 48 peças. 101,22 99,06 97,57 100,81 100,92 99,92 100,41 99,14 100,00 99,79 100,27 100,41 99,57 100,24 99,96 98,87 101,16 100,01 99,85 101,47 101,78 101,17 101,73 100,17 100,82 100,42 99,25 100,81 99,98 102,14 98,98 99,07 98,47 99,18 100,98 98,13 101,55 100,35 100,63 98,94 Uma tabela de números não é nada interessante para um engenheiro que deseja analisar a qualidade das peças produzidas. A questão que a estatística descritiva deseja responder é de como este conjunto de informações pode ser apresentado de forma resumida e de fácil interpretação. A forma correta de informar o conjunto de dados da tabela 2 no R Commander é através de uma tabela com apenas uma única coluna, pois todos os dados são referentes a mesma amostra. 14 2.1 Gráficos 2.1 Gráficos Sem a menor dúvida, a melhor maneira de analisar uma série de dados é graficamente. A tentativa de ver padrões e tendências em uma relação de dados escritos em uma tabela certamente resultará em fracasso, especialmente quando o número de dados é grande. Para criar um gráfico (histograma) dos resultados apresentados na tabela 2, o primeiro passo é determinar em quantas classes (k) os valores serão divididos. Este valor comumente é dado pela raiz quadrada do tamanho da amostra (n), ou seja, k= √ √ n = 40 ≈ 6,3245 (2.1) Assim, para este exemplo, podemos utilizar 6 ou 7 classes no histograma. Optaremos por 6 classes. O próximo passo é calcular a amplitude total (AT ) da amostra, que é dada pela diferença entre o maior e o menor valor observado (xi ), ou seja, AT = max xi − min xi = 102,14 − 97,57 = 4,57 1≤i≤n 1≤i≤n (2.2) Para definir o intervalo referente a cada classe calcula-se a amplitude de classe (AC ), dada por: AC = AT 4,57 = = 0,7617 k 6 (2.3) O início da primeira classe pode ser arredondado para baixo para utilizar um valor que facilite a interpretação do gráfico. A amplitude de classe também pode ser arredondada, para cima ou para baixo, com o mesmo objetivo. Tais arredondamentos podem variar um pouco o número de classes pré-definido sem perda da qualidade do resultado. A determinação do intervalo correspondente a cada classe é realizada tomando-se como base o menor valor da amostra (ou o valor arredondado) e somando-se sucessivamente a amplitude de classe. A cada soma é definido um intervalo correspondente a uma das classes. Arredondando a amplitude de classe para 1 mm e iniciando a primeira classe em 97 mm, obtemos da tabela 2 os seguintes resultados: 15 2.1 Gráficos Tabela 2.2: Tabela de frequências do comprimento de uma amostra de 48 peças. Classe Ponto médio Frequência Frequência relativa 97 ⊢ 98 97,5 1 2,5% 98 ⊢ 99 98,5 5 12,5% 99 ⊢ 100 99,5 12 30,0% 100 ⊢ 101 100,5 14 35,0% 101,5 7 17,5% 102 ⊢ 103 102,5 1 2,5% 40 100,0% 101 ⊢ 102 Total A frequência de cada classe é obtida verificando-se quantos valores da amostra estão contidos em cada intervalo. A notação ⊢ indica que o intervalo é fechado no valor a esquerda e aberto no valor da direita. O histograma dos valores da tabela 2.1 é construído desenhando-se 8 6 0 2 4 frequency 10 12 14 retângulos justapostos com altura proporcional a frequência de cada classe (Fig. 2.1). 97 98 99 100 101 102 103 Conjunto1$comprimento Figura 2.1: Histograma de frequências dos comprimentos de uma amostra de 40 peças. Importando ou digitando os valores no R Commander, podemos gerar o histograma apresentado na figura 2.1 efetuando os seguintes passos: [Gráficos] ◮ [Histograma...] (Fig. 2.2). 2.2 Medidas Descritivas 16 Figura 2.2: Opção no R Commander para criação de histograma de uma variável do conjunto de dados ativo. Na janela aberta (Fig. 2.3) deve-se escolher a variável a ser plotada e o número de classes utilizado no histograma. O R Commander ajusta este valor caso julge necessário para melhorar a apresentação do gráfico. Figura 2.3: Configuração para criação de um histograma no R Commander. 2.2 Medidas Descritivas Medidas descritivas são valores que resumem uma característica de um conjunto de dados. Podem ser utilizadas de forma alternativa ou complementar ao uso de gráficos, para descrever e explorar dados quantitativos. Todas as medidas descrivivas apresentadas nesta seção podem ser obtidas no R Commander seguindo os seguintes passos: [Estatísticas] ◮ [Resumos] ◮ [Resumos numéricos...] (Fig. 2.4). A escolha de quais variáveis e medidas serão apresentadas é realizada na janela que se abrirá. Os resultados são apresentados na janela de resultados do R Commander com a seguinte notação: “mean”, “sd” e “cv”, respectivamente para a média, o desvio padrão e o coeficiente de variação. 17 2.2 Medidas Descritivas Figura 2.4: Opção no R Commander para obtenção das principais medidas descritivas. Média A média (ou média aritmética) é uma das principais medidas descritivas. Ela fornece uma valor típico do conjunto de dados. Duas médias aritméticas diferentes são consideradas ao longo deste material, a média populacional (µ ) e a média amostral (x). A primeira, em geral, não pode ser encontrada, pois para isto teriamos que conhecer todos os valores de uma população. Comumente podemos determinar apenas a média amostral, pois avaliamos a propriedade de uma amostra de tamanho finito e bastante limitado. A média amostral é dada pela soma de todos os valores amostrais (xi ) dividido pelo tamanho da amostra (n), ou seja, n ∑x x= i=1 n (2.4) Para determinar a média dos valores apresentados na tabela 2, somamos os comprimentos de todos os parafusos e em seguida dividimos o resultado pelo tamanho da amostra (n = 40), ou seja, x= 101,22 + 99,06 + 97,57 + 100,81 + . . .+ 100,63 + 98,94 = 100,13 40 (2.5) Mediana Além da média, uma propriedade de um conjunto de dados pode ser resumido utilizando a mediana (Md ). Esta medida tem o mesmo objetivo da média, mas é menos sensível a valores discrepantes. Para determinar a mediana devemos colocar os dados amostrais em ordem crescente. A mediana é dada pelo dado amostral que divide tal ordenação ao meio. A posição (l) do valor da mediana na ordenação é dada por: l= n+1 2 (2.6) 2.2 Medidas Descritivas 18 Se l for fracionário, toma-se como mediana a média dos valores de posições mais próximas a l. Para os dados amostrais da tabela 2 temos que a posição da mediana é dada por l = (40 + 1)/2 = 20,5. Colocando os dados em ordem crescente observamos que os valores de posição 20 e 21 são respectivamente iguais a 100,17 e 100,24. Logo, a mediana é Md = (100,17 + 100,24)/2 = 100,205. Quartis e Extremos Os quartis são valores que junto com a mediana dividem a amostra em quatro partes iguais, cada uma contendo 25% dos dados. Na prática, podemos utilizar os cálculos realizados para obter uma mediana para a primeira metade dos dados (valores menores do que a mediana) e outra mediana para a segunda metade (valores maiores que a mediana). Estes dois divisores são chamados respectivamente de quartil inferior (QI ) e quartil superior (QS ). Para os dados amostrais da tabela 2 temos que a mediana tem posição l = 20,5. Arredondando este valor para baixo calculamos a posição do quartil inferior [l = (20 + 1)/2 = 10,5]. Assim, o valor do quartil inferior é dado pela média dos valores das posições 10 e 11, ou seja, QI = (99,18 + 99,25)/2 = 99,215. O valor do quartil superior pode ser calculado utilizando a(s) mesma(s) posição(ões) já determinadas para o quartil inferior, a diferença é que para o quartil superior conta-se a posição do último para o primeiro, como se os dados fossem ordenados decrescentemente. Portanto, o quartil superior é igual a QS = (100,92 + 100,82)/2 = 100,87. Os extremos inferior EI e superior ES são dados, respectivamente, pelo menor e maior valor observado na amostra. Nos dados amostrais apresentados na tabela 2 temos que o extremo inferior (EI ) é igual a 97,57 e o extremo superior (ES ) igual a 102,14. Variância e Desvio Padrão Tão importante quanto as medidas de tendência central (média e mediana) são as medidas de dispersão, variância e desvio padrão. Tais medidas são grandezas estatísticas que representam como os dados se espalham ao redor da média, ou seja, exprimem o quão dispersos estão os dados. O desvio padrão e a variância populacionais são representados pelas letras σ e σ 2 , respectivamente. O desvio padrão e a variância amostrais são representados pelas letras s e 19 2.2 Medidas Descritivas s2 , respectivamente, e podem ser calculados por v v u n u n u u 2 u ∑ (xi − x) u ∑ x2i − n · x2 t i=1 t i=1 s= = n n e n n s2 = ∑ (xi − x)2 i=1 n (2.7) = ∑ x2i − n · x2 i=1 n (2.8) Coeficiente de Variação Muitas vezes, em situações práticas, precisamos comparar a variabilidade de dois ou mais conjuntos de dados. Ocorre que tais conjuntos podem estar descritos com diferentes unidades de medidas, por exemplo: metros e quilos, impossibilitando a comparação através das variâncias ou dos desvios padrão. Para viabilizar comparações desse tipo, definiu-se o Coeficiente de Variação (cv), que presta-se para comparar dispersões relativas de distribuições de dados, de mesma unidade ou de unidades diferentes. Tal medida exprime a variação em relação a média e, independe de unidades de medidas: cv = s x · 100% (2.9) 20 3 Testes de Hipóteses de Uma Amostra A estatística inferencial é um conjunto de técnicas utilizadas com o objetivo de determinar uma característica da população a partir dos valores de uma amostra. Os testes de hipótese fazem parte destas técnicas. Hipótese estatística é uma suposição sobre algum parâmetro da população, que será posta à prova através do teste de hipótese. De forma geral, os testes de hipóteses são elaborados a partir de duas hipóteses, nula (H0 ) e alternativa (H1 ). Na hipótese nula (H0 ) as diferenças observadas em relação aos valores esperados, são consideradas fruto do acaso, devido a aleatoriedade dos dados. Na hipótese alternativa (H1 ) considera-se que tais diferenças são devidas ao fato da população ter realmente tal característica. A relação existente entre as variáveis é traduzida pelo valor de p (ou, p-valor). Para valores de p < α rejeita-se a hipótese nula, ou seja, a probabilidade das diferenças registadas na amostra serem devidas ao acaso é muito pequena (existe portanto grande probabilidade de estas diferenças existirem de fato na população). No caso de p > α , diz-se não existir evidência suficiente para rejeitar a hipótese nula (logo, aceita-se H0 ). Protocolo para a realização de um teste de hipóteses: (a) Enunciar claramente as hipóteses H0 e H1 ; (b) Fixar o nível de significância (α ). Em geral α = 0,05 (5%); (c) Calcular o valor da estatística do teste, que depende do parâmetro que se deseja testar; (d) Decisão: Se p > α aceita-se H0 , caso contrário, rejeita-se H0 ; (e) Enunciar claramente a conclusão do teste. 21 3.1 Teste de Shapiro-Wilk para Normalidade da População 3.1 Teste de Shapiro-Wilk para Normalidade da População Um fato importante a ser ressaltado é que a validade dos resultados obtidos através dos testes de hipótese paramétricos (teste t, análise de variância, entre outros) é fortemente dependente da normalidade dos dados analisados. Salvo raras exceções, resultados de análises estatísticas efetuadas através de métodos paramétricos não são confiáveis se os dados não pertencem a amostras extraídas de populações com distribuições normais (RODRIGUES; IEMMA, 2005). O teste de Shapiro-Wilk é utilizado para verificar se a amostra provém, ou não, de uma população com distribuição normal. Portanto, este teste é baseado nas seguintes hipóteses: H0 : A amostra provém de uma população normal H1 : A amostra não provém de uma população normal O primeiro passo para aplicação do teste de Shapiro-Wilk é a ordenação crescente dos dados amostrais. Assim, denotamos x1 o menor e xn o maior valor observado. O próximo passo é o cálculo do valor da constante b, determinada da seguinte forma: n/2 b = ∑ an−i+1 · (xn−i+1 − xi ) (3.1) i=1 em que os xi são os valores amostrais ordenado e os an−i+1 são constantes tabeladas cujos valores são apresentados no anexo E. O valor observado da estatística do teste de Shapiro-Wilk é denotata por Wo e obtido através da seguinte expressão: Wo = b2 n ∑ (xi − x) i=1 = 2 b2 n ∑ i=1 (3.2) x2i − n · x2 Os valores críticos para o teste de Shapiro-Wilk são apresentados no anexo F. Quanto maior o valor observado da estatística (Wo ), maior são as evidências de que os dados são normais, assim, caso o valor de Wo seja maior do que o valor crítico Wc , aceita-se H0 , ou seja, aceita-se que a amostra provém de uma população com distribuição normal. Exemplo: Avaliar a normalidade dos dados de uma amostra aleatória do comprimento de 10 peças. 22 3.1 Teste de Shapiro-Wilk para Normalidade da População Tabela 3.1: Dados referentes ao comprimento, em centímetros, de 10 peças de uma amostra aleatória. 1,90 2,22 2,10 1,69 1,52 2,75 2,31 1,98 1,42 1,99 Solução manual: Ordenando os dados amostrais fornecidos pela tabela 3.1 obtemos x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 1,42 1,52 1,69 1,90 1,98 1,99 2,10 2,22 2,31 2,75 i n−i+1 an−i+1 xn−i+1 xi an−i+1 · (xn−i+1 − xi ) 1 10 0,5739 2,75 1,42 0,7633 2 9 0,3291 2,31 1,52 0,2600 3 8 0,2141 2,22 1,69 0,1135 4 7 0,1224 2,10 1,90 0,0245 5 6 0,0399 1,99 1,98 0,0004 Obtendo os valores de a da tabela do anexo E e multiplicando pela diferença entre os valores de xn−i+1 e xi , conforme apresentado na tabela acima, podemos calcular o valor de b através da equação 3.1, donde obtemos n/2 b = ∑ an−i+1 · (xn−i+1 − xi ) = 0,7633 + 0,2600 + 0,1135 + 0,0245 + 0,0004 = 1,1617 (3.3) i=1 Utilizando a equação 3.2 podemos determinar o valor observado da estatística (Wo ) do teste de Shapiro-Wilk, dado por: Wo = b2 n ∑ i=1 x2i − n · x2 = 1,16172 = 0,972 1,422 + 1,522 + . . . + 2,752 − 10 · 1,9882 (3.4) Considerando que o valor observado da estatística (Wo ) é maior do que o valor crítico (Wc = 0,842), dado pela tabela do anexo F, aceita-se H0 , ou seja, concluimos que a amostra provém de uma população com distribuição normal. 3.1 Teste de Shapiro-Wilk para Normalidade da População 23 Solução com o R Commander: Para aplicar o teste de Shapiro-Wilk aos dados amostrais da tabela 3.1 com o R Commander, o primeiro passo é carregar tais valores no programa. Os dados devem ser informados em uma única coluna. Como visto na seção 1.2, uma das formas de carregar estes dados é digitá-los diretamente no R Commander (Fig. 3.1). Figura 3.1: Digitação dos dados amostrais diretamente no R Commander. Em seguida podemos aplicar o teste de Shapiro-Wilk seguindo os seguintes passos: [Estatísticas] ◮ [Resumos] ◮ [Teste de normalidade de Shapiro-Wilk...] (Fig. 3.2). Figura 3.2: Aplicação do teste de Shapiro-Wilk no R Commander. Uma janela será aberta para informar qual variável do conjunto de dados ativo deve ser avaliada (Fig. 3.3). Figura 3.3: Configuração da variável para o teste de Shapiro-Wilk no R Commander. 3.1 Teste de Shapiro-Wilk para Normalidade da População 24 Dois resultados do teste são apresentados na janela de resultados do R Commander, o valor observado da estatística, Wo = 0,9713, e o p-valor = 0,9024. Considerando que o p-valor é maior do que o nível de significância de 5% (α = 0,05), aceita-se H0 , ou seja, concluimos que os dados amostrais provém de uma população com distribuição normal. 25 4 Testes de Hipóteses de Duas Amostras 4.1 Teste t para Amostras Pareadas O chamado teste t é apropriado para comparar dois conjuntos de dados quantitativos, em termos de seus valores médios. Nesta seção, trataremos do caso em que os dados são pareados. Os pressupostos para a aplicação deste teste são os seguintes: • Dados pareados; • Normalidade da distribuição da variável de interesse (D). As hipóteses do teste t são dadas a respeito da média populacional. Na hipótese nula (H0 ) admite-se que não há diferença entre as médias populacionais das duas amostras, enquanto que a hipótese alternativa (H1 ) admite que há diferença. A hipótese alternativa pode ser formulada considerando simplesmente diferença (bilateral) ou admitindo-se que uma média é maior do que a outra (unilateral), dependendo do contexto do problema. Exemplo: H0 : µ1 = µ2 H1 : µ1 6= µ2 (bilateral) A estatística do teste t para dados pareados baseia-se nos valores observados da variável D, definida pela diferença de valores de cada par de dados do experimento. Num estudo antes-e-depois: Di = (medida depois)i − (medida antes)i (4.1) Para encontrar a estatística do teste, precisamos calcular a média (D) e o desvio padrão (sD ) das diferenças, definidos respectivamente por: v v u n u n n u u 2 2 D (D − D) u u ∑ D2i − n · D i ∑ i ∑ t i=1 t i=1 i=1 D= e sD = = n n−1 n−1 (4.2) 26 4.1 Teste t para Amostras Pareadas em que n é o tamanho da amostra (número de pares observados). A estatística do teste é conhecida como estatística t para dados pareados, definida por: √ D· n t= (4.3) sD O último passo é utilizar a tabela da distribuição t (anexo B) para determinar o p-valor, utilizando o valor calculado de t e o número de graus de liberdade, dado por: gl = n − 1 (4.4) Caso o p-valor seja menor do que o nível de significância (α ) rejeita-se H0 , ou seja, concluimos que existe diferença significativa entre as médias ao nível de significância adotado. Caso contrário, aceita-se que a diferença observada na amostra é devida apenas ao acaso (aleatoriedade dos dados amostrais), e que as populações possuem médias iguais. Exemplo: Tendo interesse em estudar os efeitos de determinada dieta alimentar sobre o aumento do peso corporal em cobaias adultas, um investigador tomou uma amostra de 9 cobaias. Determinou seus pesos antes e três meses após a administração da nova dieta. Com os dados a seguir, analise o efeito da nova dieta, para α = 0,05. Tabela 4.1: Peso das cobaias antes e depois da aplicação da nova dieta. Antes: 54 61 50 74 79 58 55 49 63 Depois: 57 66 53 73 82 58 56 53 63 Hipóteses: As hipóteses deste problema são dadas em relação a média, por: H0 : µD = µA ou µD − µA = 0 H1 : µD > µA ou µD − µA > 0 (unilateral) Na hipótese nula (H0 ) considera-se a situação onde a dieta não altera o peso das cobaias, ou seja, o peso médio das cobaias antes da nova dieta será o mesmo que o peso médio depois da nova dieta. Em contrapartida, a hipótese alternativa (H1 ) considera a situação onde a nova dieta provoca aumento do peso médio das cobaias, ou seja, a peso médio das cobaias depois da nova dieta será maior do que o peso médio antes da nova dieta. 27 4.1 Teste t para Amostras Pareadas Solução manual: O primeiro passo é obter as diferenças entre o peso depois e o peso antes da nova dieta, dadas por: Tabela 4.2: Diferença entre os pesos antes e depois da aplicação da nova dieta. Diferença (D): 3 5 3 -1 3 0 1 4 0 O próximo passo é o cálculo da média e do desvio padrão da variável D, equações (4.2): D= sD = s 3 + 5 + 3 + (−1) + 3 + 0 + 1 + 4 + 0 =2 9 32 + 52 + 32 + (−1)2 + 32 + 02 + 12 + 42 + 02 − 9 · 22 = 2,0616 9−1 A estatística t é determinada utilizando-se a equação (4.3): √ 2· 9 t= = 2,9104 2,0616 (4.5) (4.6) (4.7) Utilizando a equação (4.4) determinamos o número de graus de liberdade: gl = 9 − 1 = 8 (4.8) Através da tabela da distribuição t de Student (anexo B) obtemos o p-valor, observando a linha correspondente ao gl = 8, verificando na tabela que t = 2,9104 está entre 1,860 e 2,306. Logo, como ilustrado na figura 4.1, a probabilidade de significância esta entre 0,005 e 0,01, ou seja, 0,005 < p-valor < 0,01. Figura 4.1: Utilização da distribuição t de Student com gl = 8 para obtenção da probabilidade de significância num teste unilateral com t = 2,9104. Considerando que o p-valor é menor do que 0,01, portanto, também é menor do que α = 0,05, rejeita-se H0 e conclui-se que há diferença significativa entre as médias de peso ao nível 4.1 Teste t para Amostras Pareadas 28 de significância de 5%. Ou seja, concluimos que a nova dieta provoca aumento de peso nas cobaias ao nível de significância de 5%. Solução com o R Commander: Para resolver o problema utilizando o R Commander, o primeiro passo é o carregamento dos dados da tabela 4.1. Para isso, podemos digitá-los em uma planilha eletrônica do Excel ou diretamento do R Commander. Para testes pareados os resultados devem ser informados em duas colunas, neste caso, uma com os valores antes e outra com os valores depois da nova dieta (Fig. 4.2). Figura 4.2: Lançamento dos dados para o teste t para dados pareados no R Commander. Após os lançamento dos dados no próprio R Commander ou do carregamento dos dados a partir de um arquivo, o próximo passo é escolher o teste que deve ser aplicado. Para tanto, clique nas seguintes opções: [Estatísticas] ◮ [Médias] ◮ [Teste t (dados pareados)] (Fig. 4.3). Figura 4.3: Aplicação do teste t para dados pareados. Na janela que será aberta deve-se escolher as variáveis a serem comparadas, o nível de confiânça e a hipótese alternativa (Fig. 4.4). 29 4.2 Teste t para Amostras Independentes Figura 4.4: Opções para a aplicação do teste t para dados pareados. Os resultados do teste são apresentados na janela de resultados do R Commander. Dentre outros valores é apresentado o valor da estatística t = 2,9104, e o p-valor = 0,009788. Considerando que o p-valor é menor do que 0,05, rejeitamos H0 , ou seja, concluimos que a nova dieta provoca aumento de peso nas cobaias, ao nível de significância de 5%. 4.2 Teste t para Amostras Independentes Nesta seção o teste t é aplicado a casos onde desejamos comparar a média de duas amostras aleatórias. Ao contrário da seção anterior, trataremos do caso em que os dados não são pareados. Pressupostos para aplicação do teste t para amostras independentes: • Aleatoriedade das amostras; • Normalidade da distribuição da variável de interesse em cada grupo; • Homogeneidade das variâncias amostrais dos grupos. O objetivo deste método é verificar se existe, ou não, diferença estatística significativa entre as médias de dois grupos. Logo, as hipóteses deste teste realizará a comparação entre a média de um grupo com a média de outro grupo. Para aplicar o teste t para amostras independentes precisamos calcular inicialmente a média e a variância de cada grupo, utilizando as seguintes fórmulas: n n ∑x x= i=1 n e s2 = ∑ x2 − n · x2 i=1 n−1 (4.9) Como o tamanho da amostra do grupo 1 pode ser diferente do grupo 2, utiliza-se o subscrito para identificar qual das amostras está sendo considerada. Assim, n1 , x1 e s21 são, 30 4.2 Teste t para Amostras Independentes respectivamente, o tamanho da amostra, a média e a variância do grupo 1, enquanto que n2 , x2 e s22 são, respectivamente, o tamanho da amostra, a média e a variância do grupo 2. O número de graus de liberdade (gl) para o teste t para amostras independentes é dado por: gl = n1 + n2 − 2 (4.10) O desvio padrão agregado (sa ) é dado por: s (n1 − 1) · s21 + (n2 − 1) · s22 sa = gl (4.11) A estatística do teste é dada por: t= x − x2 r1 1 1 sa · + n1 n2 (4.12) O último passo é a obtenção do p-valor através da tabela da distribuição t (anexo B), utilizando os valores de gl e t calculados. Exemplo: Para comparar dois métodos, A e B de ensinar matemática para crianças, aplicou-se o método A num grupo de crianças e o método B em outro grupo. A comparação entre os dois grupos foi realizada através de uma avaliação que mensurou o conhecimento de matemática de cada criança. Os resultados obtidos são apresentados na tabela abaixo. Determine ao nível de significância de 5% se existe diferença nos resultados obtidos pelos diferentes métodos. Tabela 4.3: Notas da avaliação de matemática obtidas pela crianças submetidas a dois métodos de ensino diferentes. Método de ensino A Método de ensino B 45 51 50 62 43 45 35 43 59 48 42 53 50 48 55 45 41 43 49 39 Hipóteses: As hipóteses para o teste são dadas por: H0 : µA = µB ou µA − µB = 0 H1 : µA 6= µB ou µA − µB 6= 0 31 4.2 Teste t para Amostras Independentes A hipótese nula admite que não existe diferença entre os métodos de ensino, ou seja, em média os métodos produzem o mesmo resultado no desempenho dos alunos. Em contrapartida, a hipótese alternativa diz que existe diferença entre os métodos de ensino, ou seja, em média, os alunos submetidos ao método de ensino A terão desempenho diferente dos alunos submetidos ao método de ensino B. Solução manual: O primeiro passo para resolver o problema é o cálculo da média e do desvio padrão de cada um dos dois grupos, utilizando as equações (4.9) obtemos: x1 = 49,9 x2 = 44,7 s1 = 5,9712 s2 = 6,4987 (4.13) O número de graus de liberdade é dado pela equação (4.10), donde temos: gl = 10 + 10 − 2 Utilizando a equação (4.11) para calcular o desvio padrão agregado temos: r (10 − 1) · 5,97122 + (10 − 1) · 6,49872 sa = = 6,2405 18 (4.14) (4.15) Utilizando a equação (4.12) obtemos a estatística do teste: t= 49,9 − 44,7 r = 1,8632 1 1 + 6,2405 · 10 10 (4.16) O próximo passo é obter o p-valor através da tabela da distribuição t (anexo B). Para tanto, olhamos na distribuição t a linha relacionada ao grau de liberdade (gl) igual a 18 e a coluna cujo intervalo contenha o valor de t = 1,8632 (Fig. 4.5). 4.2 Teste t para Amostras Independentes 32 Figura 4.5: Utilização da distribuição t de Student com gl = 18 para obtenção da probabilidade de significância num teste unilateral com t = 1,8632. Pela tabela da distribuição t de student (anexo B) obtemos um intervalo para o p-valor entre 0,025 e 0,05 para um teste unilateral. Lembrando que o problema dado é bilateral (H1 : µA 6= µB ), toma-se o dobro de cada um destes valores, obtendo-se então 0,05 < p < 0,1. Como o p-valor é maior do que o nível de significância (α = 0,05), aceita-se H0 , ou seja, ao nível de significância de 5%, conclui-se que não existe diferença no resultado médio obtido pelos diferentes métodos de ensino. Solução com o R Commander: O primeiro passo para resolver o problema com o R Commander é a digitação dos resultados obtidos no experimento. No teste t para amostras independentes os dados devem ser informados em duas colunas, uma com as notas e a outra com o método de ensino associado a cada nota (Fig. 4.6). No início de cada coluna deve ser informado um título para os dados. Figura 4.6: Digitação dos dados no Excel para aplicação do teste t para amostras independentes. Os dados digitados em uma planilha do Excel devem ser importados para o R Commander (conforme seção 1.2.1) informando um nome para o conjunto de dados. Para aplicar o teste 4.2 Teste t para Amostras Independentes 33 t para amostras independentes sobre o conjuto de dados ativo, siga os seguintes passos: [Estatísticas] ◮ [Médias] ◮ [Teste t para amostras independentes...] (Fig. 4.7) Figura 4.7: Aplicação do teste t para amostras independentes no R Commander. Uma janela será aberta para configurar as informações relativas ao teste: variáveis que contém o grupo e a resposta, o tipo de hipótese alternativa e o nível de confiança (Fig. 4.8). Figura 4.8: Configurações para aplicação do teste t para amostras independentes bilateral e com nível de confiança de 95%.. Os resultados do teste serão apresentados na janela de resultados do R Commander. Dentre os principais valores destacamos o valor da estatística t = 1,8632 e o p-valor = 0,07883. Considerando que o p-valor é maior do que o nível de significância (α = 0,05) aceita-se H0 , ou seja, concluimos que não existe diferença significativa entre os dois métodos de ensino de matemática. 34 5 Testes de Hipóteses de Mais de Duas Amostras 5.1 Análise de Variância para Um Fator (ANOVA) A análise de variância (ANOVA) é um teste de hipóteses apropriado para comparar três ou mais conjuntos de dados quantitativos, em termos de seus valores médios. Nesta seção em particular, é tratado o caso onde apenas um único fator pode influenciar os resultados. Pressupostos para a aplicação da análise de variância (ANOVA): • Aleatoriedade e independência; • Normalidade dos valores da amostra em cada um dos grupos; • Homogeneidade de variância dos grupos (variância iguais em todos os grupos). Considerando c grupos diferentes, as hipóteses consideradas na análise de variância são: H0 : µ1 = µ2 = ... = µc H1 : nem todas as médias são iguais Na hipótese nula (H0 ) considera-se que o fator variado entre os grupos não afeta de forma significativa a média dos resultados obtidos. Em contrapartida, a hipótese alternativa (H1 ) admite que ao menos uma das médias é diferente das demais devido ao fator considerado. O primeiro passo para obter a estatística F, utilizada na análise de variância, é o cálculo da média geral (x) e da média de cada grupo (x j , onde j indica o grupo). Estes valores são definidos por: c nj ∑ ∑ xi j x= j=1i=1 n (5.1) 35 5.1 Análise de Variância para Um Fator (ANOVA) nj ∑ xi j xj = i=1 (5.2) nj onde c é o número de grupos, xi j é o i-ésimo valor do grupo j, n é o número total de amostras e n j é o número de amostras do grupo j. O próximo passo é o cálculo da variação total (ST ), da variação entre os grupos (SE ) e da variação dentro dos grupos (SD ). Estas variações são também conhecidas respectivamente como: soma dos quadrados total, soma dos quadrados entre os grupos e soma dos quadrados dentro dos grupos. As expressões para o cálculo destes valores são apresentados nas equações seguintes: c ST = ∑ nj 2 x − x ∑ ij (5.3) j=1 i=1 c 2 SE = ∑ n j x j − x (5.4) j=1 c SD = nj ∑∑ j=1 i=1 xi j − x j 2 (5.5) A variação dentro dos grupos pode ser calculada pela diferença entre a variação total ST e a variação entre os grupos SE , ou seja SD = ST − SE (5.6) Na sequência devemos calcular a média total dos quadrados (MQ ), a média dos quadrados entre os grupos (ME ) e a média dos quadrados dentro dos grupos (MD ), dadas respectivamente por: ST n−1 SE ME = c−1 SD MD = n−c MQ = (5.7) (5.8) (5.9) Por fim, calcula-se o valor observado da estatística F (Fo ), dada por Fo = ME MD (5.10) a qual segue uma distribuição F, com c − 1 graus de liberdade no numerador e n − c graus de liberdade no denominador. O valor do F crítico (Fc ) é obtido da tabela da distribuição F (anexo C) considerando a 36 5.1 Análise de Variância para Um Fator (ANOVA) (c − 1)-ésima linha e a (n − c)-ésima coluna. Se Fo > Fc rejeita-se H0 , caso contrário, aceita-se H0 (Fig. 5.1). Figura 5.1: Gráfico da distribuição F com as regiões de aceitação e rejeição de H0 . Quando conclui-se pela análise de variância que existe diferença entre as médias dos grupos, não obtem-se quais dos grupos possui média diferente dos demais. Para responder tal questão utiliza-se um teste auxiliar chamado teste de Tukey, apresentado na sequência. 5.1.1 Teste de Tukey O teste de Tukey é um dos testes de comparação de média mais utilizados, por ser bastante rigoroso e de fácil aplicação. Este teste é utilizado para testar toda e qualquer diferença entre duas médias de tratamento. O teste de Tukey faz a comparação entre a média de dois em dois grupos. Para cada par de grupos (denotados por i e j) que serão comparados, o primeiro passo para aplicar o teste de Tukey é calcular o intervalo crítico (Ic ) dado por: s MD 1 1 Ic = Qc + 2 ni n j (5.11) onde Qc é o valor crítico da cauda superior, a partir da distribuição de intervalos de Student, possuindo c tratamentos e n − c graus de liberdade no denominador (anexo D). Conhecido o intervalo crítico (Ic ), deve-se calcular o módulo da diferença entre as médias dos grupos i e j, ou seja: |xi − x j | (5.12) 37 5.1 Análise de Variância para Um Fator (ANOVA) Quando esta diferença é maior do que o intervalo crítico conclui-se que existe diferença significativa entre as médias dos grupos i e j, caso contrário conclui-se que as médias dos grupos i e j são iguais. Exemplo: Você supervisiona a produção de uma padaria, cujos pães são fabricados com farinha oriunda de um dentre quatro diferentes fornecedores. A qualidade dos pães produzidos é uma característica importante que garante o aumento das vendas e consequentemente da produção. Estabeleça se os pães produzidos com as diferentes marcas de farinha são igualmente saborosos com base nos dados amostrais abaixo. Tabela 5.1: Notas atribuidas pela análise sensorial dos pães produzidos com a farinha de quatro diferentes fornecedores. Forncedor A Forncedor B Forncedor C Forncedor D 68,5 76,3 70,6 75,4 74,0 75,3 75,2 69,9 67,2 74,0 70,8 72,6 69,9 71,2 74,7 67,5 68,0 74,5 72,9 70,4 ∑x 347,6 371,3 364,2 355,8 xj 69,52 74,26 72,84 71,16 n i=1 Hipóteses: As hipóteses para a análise de variância são as seguintes: H0 : µA = µB = µC = µD H1 : ao menos uma das médias é diferente A hipótese nula (H0 ) considera que as farinhas de todos os quatro diferentes fornecedores produzem em média pães com a mesma qualidade sensorial. Em contrapartida, a hipótese alternativa (H1 ) considera o fato de que o fator fornecedor afeta a qualidade sensorial dos pães, dizendo que existe diferença em ao menos uma das médias comparada as outras. 5.1 Análise de Variância para Um Fator (ANOVA) 38 Solução manual: A média geral definida pela equação (5.1) fornece: x = 71,945 (5.13) Os valores das médias de cada grupo são dados na tabela do problema. As variações total, entre grupos e dentro dos grupos, dadas respectivamente pelas equações (5.3), (5.4) e (5.6) fornecem ST = 160,7895 (5.14) SE = 63,2855 (5.15) SD = 160,7895 − 63,2855 = 97,5040 (5.16) Na sequência são obtidas as médias entre grupos e dentro dos grupos, utilizando as equações (5.8) e (5.9) obtemos SE 63,2855 = = 21,0952 c−1 4−1 97,5040 SD = = 6,0940 MD = n−c 20 − 4 ME = (5.17) (5.18) Por fim, podemos calcular o valor de F observado (Fo ) através da equação (5.10) Fo = 21,0952 ME = = 3,4616 MD 6,0940 (5.19) Pela tabela da distribuição F com nível de significância de 5% (anexo C), considerando c − 1 graus de liberdade no numerador e n − c graus de liberdade no denominador, obtemos o valor do F crítico (Fc = 3,24). Como o valor de Fo > Fc rejeita-se H0 , ou seja, concluimos que existe diferença sensorial média entre os diferentes fornecedores de farinha. Para identificar quais os pares de médias que são significativamente diferentes aplicamos o teste de Tukey. Como todos os grupos possuem amostras do mesmo tamanho, calcula-se apenas um único valor para o invevalor crítico. Pela valor da décima sexta coluna e terceira linha da tabela da distribuição de intervalos de Student (anexo D) obtemos o valor crítico da amplitude de Student (Qc = 3,65). Utilizando a equação 5.11 obtemos s 6,0940 1 1 Ic = 4,05 = 4,4712 + 2 5 5 (5.20) Por fim, calcula-se o módulo da diferença entre a médias para cada combinação de 5.1 Análise de Variância para Um Fator (ANOVA) 39 fornecedores, donde obtemos: A=B: |xA − xB | = |69,52 − 74,26| = 4,74 > 4,4712 ∗ A=C : |xA − xC | = |69,52 − 72,84| = 3,32 < 4,4712 A=D: |xA − xD | = |69,52 − 71,16| = 1,64 < 4,4712 B=C : |xB − xC | = |74,26 − 72,84| = 1,42 < 4,4712 B=D: |xB − xD | = |74,26 − 71,16| = 3,10 < 4,4712 C=D: |xC − xD | = |72,84 − 71,16| = 1,68 < 4,4712 Na comparação entre o valor absoluto das diferenças com o valor do intervalo crítico, observa-se que apenas os fornecedor A com o fornecedor B apresenta diferença significativa (denotada por ∗). Solução com o R Commander: A forma de informar os dados do experimento ao R Commander é similar a do teste t para amostras independentes. Novamente na primeira linha é colocada o nome de cada variável. Na primeira coluna é informado o fornecedor e na segunda coluna é informada a respectiva nota (Fig. 5.2). Figura 5.2: Digitação dos dados no Excel para aplicação da análise da variância pelo R Commander. Caso os dados forem digitados em uma planilha do Excel, o próximo passo é importá-la para o R Commander. Em seguida, para aplicar a análise de variância execute os seguintes passos: [Estatísticas] ◮ [Médias] ◮ [ANOVA para um fator (one way)...] (Fig. 5.3). 5.1 Análise de Variância para Um Fator (ANOVA) 40 Figura 5.3: Aplicação da análise de variância no R Commander. Uma janela será aberta para informar o nome da coluna que contém os grupos e a que contém a variável resposta. O teste de Tukey pode ser aplicado ativando-se a opção “Comparação de médias 1 a 1” nesta janela (Fig. 5.4). Figura 5.4: Configuração da análise de variância no R Commander. Na janela de resultados do R Commander são apresentados os resultados inerentes a análise de variância. Dentre os principais resultados é apresentada uma tabela com a soma dos quadrados dentro dos grupos e entre os grupos (“Sum Sq”). Ao lado é apresentado as médias dentro dos grupos e entre grupos (“Mean Sq”) e em seguida o F observado (“F value”) e o p-valor (“Pr(>F)”) (Fig. 5.5). Figura 5.5: Principais resultados da análise de variância apresentados pelo R Commander. Caso o teste de Tukey tenha sido ativado, informações a respeito da comparação entre as médias obtidas pelos diferentes grupos serão apresentado na janela de resultados. Um resumo do teste é apresentado em uma tabela que mostra cada uma das comparações realizadas, 41 5.1 Análise de Variância para Um Fator (ANOVA) juntamente com o valor da estatística t e o p-valor. Um código é apresentado onde é detectada diferença significativa entre as médias: “·” para 10%, “∗” para 5% e “∗∗” para 1%. Figura 5.6: Principais resultados do teste de Tukey apresentados no R Commander. Exercício: Os próximos dados referem-se à redução no peso corporal de animais de laboratório submetidos a diferentes dietas. Os animais foram previamente divididos em cinco grupos, por faixa de peso no início do experimento. Compare as dietas entre si e verifique também se a redução no peso varia entre as faixas de peso. Use 0,05 como nível de significância no teste. Faixa de peso Dieta A Dieta B Dieta C Total (B) I 15 10 12 37 II 17 8 16 41 III 20 12 16 48 IV 24 16 15 55 V 19 18 22 59 ∑x 95 64 81 240 1851 888 1365 4104 ∑ x2 5.1.2 Teste de Levene para Homogeneidade da Variância Embora a análise de variância de fator único seja relativamente robusto com respeito ao pressuposto de variâncias iguais nos grupos, grandes diferenças nas variâncias dos grupos podem afetar seriamente o nível de significância e a eficácia do teste. Um dos procedimentos com alta eficácia estatística é o teste de Levene. Para testar a homogeneidade da variância, utilize as seguintes hipóteses: H0 : σ12 = σ22 = ... = σc2 H1 : Nem todas as variâncias são iguais 5.1 Análise de Variância para Um Fator (ANOVA) 42 O primeiro passo para aplicar o teste de Levene é obter a mediana de cada grupo. Em seguida, calcula-se o valor absoluto da diferença entre cada valor amostral e a mediana do grupo a qual ele pertence. Sobre os resultados obtidos aplica-se a análise de variância. Caso o p-valor deste teste for maior do que o nível de significância, aceita-se H0 , ou seja, conclui-se que as variâncias são iguais em todos os grupos. 43 Referências Bibliográficas BARBETTA, P. A. Estatística aplicada às Ciências Sociais. 7. ed. Florianópolis, SC: Ed. da UFSC, 2008. FOX, J. The R Commander: A basic-statistics graphical user interface to R. Hamilton, Ontario, Canada, September 2005. v. 14, n. 9. LEVINE, D. M. et al. Estatística: teoria e aplicações. Rio de Janeiro: LTC, 2008. RODRIGUES, M. I.; IEMMA, A. F. Planejamento de experimentos e otimização de processos: Uma estratégia sequencial de planejamentos. 1. ed. Campinas, SP: Casa do Pão Editora, 2005. TEAM, R. D. C. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2009. Disponível em: <http://www.R-project.org>. 44 ANEXO A -- Tabela da distribuição Normal 45 ANEXO B -- Tabela da distribuição t de Student 46 ANEXO C -- Tabela da distribuição F de Fisher 47 ANEXO D -- Tabela da Distribuição de Intervalos de Student 48 ANEXO E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk 49 ANEXO F -- Tabela dos Valores Críticos do Teste de Shapiro-Wilk