Desvendando a Estatística com o R Commander

UTFPR - Universidade Tecnológica Federal do Paraná
Desvendando a Estatística
com o R Commander
Prof. MSc. Jonas Joacir Radtke
Sumário
1 Introdução
p. 3
1.1
Instalação do R Commander . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 3
1.2
Dados no R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 5
1.2.1
Importação de Dados . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 5
1.2.2
Transformação de Dados . . . . . . . . . . . . . . . . . . . . . . . .
p. 8
1.2.3
Conversão de Dados . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 10
2 Estatística Descritiva
p. 13
2.1
Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 14
2.2
Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 16
3 Testes de Hipóteses de Uma Amostra
3.1
Teste de Shapiro-Wilk para Normalidade da População . . . . . . . . . . . .
4 Testes de Hipóteses de Duas Amostras
p. 20
p. 21
p. 25
4.1
Teste t para Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . .
p. 25
4.2
Teste t para Amostras Independentes . . . . . . . . . . . . . . . . . . . . . .
p. 29
5 Testes de Hipóteses de Mais de Duas Amostras
5.1
p. 34
Análise de Variância para Um Fator (ANOVA) . . . . . . . . . . . . . . . . .
p. 34
5.1.1
Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 36
5.1.2
Teste de Levene para Homogeneidade da Variância . . . . . . . . . .
p. 41
Referências Bibliográficas
p. 43
Anexo A -- Tabela da distribuição Normal
p. 44
Anexo B -- Tabela da distribuição t de Student
p. 45
Anexo C -- Tabela da distribuição F de Fisher
p. 46
Anexo D -- Tabela da Distribuição de Intervalos de Student
p. 47
Anexo E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk
p. 48
Anexo F -- Tabela dos Valores Críticos do Teste de Shapiro-Wilk
p. 49
3
1
Introdução
O presente material pretende apresentar de forma bastante sucinta as ideias relacionadas
as diversas ferramentas estatísticas abordadas. O foco principal deste texto é ajudar o leitor a
resolver problemas estatísticos utilizando o software R com a interface gráfica R Commander.
O R é um programa estatístico muito utilizado no meio acadêmico e comercial. Dentre as
vantagens de utilização deste programa está o fato de ser gratuito e muito robusto. A criação de
uma interface gráfica para o R, denominada R Commander, ampliou muito o número de adeptos
a este programa. Tal interface permite a exploração de todo o potencial do R de forma simples
e amigável.
Convém resaltar que a utilização direta de softwares amigáveis, sem o prévio conhecimento
dos fundamentos da metodologia, pode constituir um grande risco e levar o usuário a
interpretações perigosamente equivocadas (RODRIGUES; IEMMA, 2005).
1.1 Instalação do R Commander
O primeiro passo para a utilização do R Commander é a instalação do programa R. O
download deste programa pode ser feito no seguinte site:
http://cran.r-project.org/
Após o download e a instalação do programa R, o próximo passo é a instalação dos pacotes
básicos para o funcionamento da interface gráfica. Para tanto, abra o programa R e siga os
seguintes passos: [Pacotes] ◮ [Instalar pacote(s)] (Fig. 1.1). Na sequência, escolha um
espelho para o download e em seguida o pacote Rcmdr.
1.1 Instalação do R Commander
4
Figura 1.1: Instalação de pacotes no R.
Para inicializar o R Commander digite o seguinte comando no terminal do R:
> require(Rcmdr)
Na primeira vez que o R Commander for inicializado será solicitada a instalação de vários
pacotes necessários para o seu correto funcionamento. Aceite a solicitação, escolha o espelho
para download dos pacotes e aguarde a finalização da instalação e a abertura do R Commander
(Fig. 1.2).
Figura 1.2: Visão geral do R Commander.
1.2 Dados no R Commander
5
1.2 Dados no R Commander
Os dados utilizados pelo R Commander podem ser digitados diretamente nele, seguindo
os seguintes passos: [Dados] ◮ [Novo conjunto de dados...], e em seguinda escolhendo um
nome para o conjunto de dados. Contudo, na prática, os resultados são digitados em planilhas
eletrônicas para posteriormente serem importados para os programas estatísticos.
1.2.1 Importação de Dados
A forma mais comum de obter os dados para o R Commander é através de arquivos
oriundos de planilhas eletrônicas dos programas Microsoft Excel ou OpenOffice Calc. Ambos
os programas possuem uma opção de salvar as planilhas como arquivos de texto puro (com
extensão CSV, do inglês, Comma Separated Values).
Importação de Arquivos do Excel
O R Commander possui uma opção de importação dos dados de planilhas do Excel e de
arquivos CSV. A importação de arquivos de dados do Excel pode ser executada através dos
seguintes passos: [Dados] ◮ [Importar arquivos de dados] ◮ [de conjunto de dados do
Excel, Access, dBase...] (Fig. 1.3).
Figura 1.3: Importação de dados de arquivos do Excel.
Uma janela será aberta para que seja informado o nome do conjunto de dados. Na
sequência, outra janela será aberta para que seja selecionado o arquivo do Excel. Após escolher
o arquivo de origem dos dados será solicitada a planilha do arquivo que deve ser importada,
caso o arquivo possua mais de uma planilha.
1.2 Dados no R Commander
6
Importação de Arquivos CSV
Todas as planilhas de arquivos do Excel e do Calc podem ser salvas com extensão CSV. Para
fazer isto, abra o arquivo no programa Excel ou Calc e execute os seguintes passos: [Arquivo]
◮ [Salvar como...]. Na janela que abrir informe o nome do arquivo e, logo abaixo, escolha a
opção “CSV (separado por vírgulas)” no Excel ou “Texto CSV (.csv)” no Calc.
Apesar do Excel informar que o os campos serão separados por vírgula, eles serão separador
por ponto e vírgula. No Calc uma janela será aberta para escolher o delimitador de campo, que
deve ser alterado para ponto e vírgula (Fig. 1.4), porque, no Brasil, a vírgula é utilizada como
separador de decimais.
Figura 1.4: Escolha do delimitador de campo para arquivos CSV no Calc.
A importação de dados de arquivos com extensão CSV é realizada de forma similar a de
arquivos do Excel. Observando que os arquivos com extensão CSV são arquivos de texto
puro, cujos campos são separados por ponto e vírgula (;), siga os seguintes passos: [Dados]
◮ [Importar arquivos de dados] ◮ [de arquivos texto, clipboard ou URL...] (Fig. 1.5).
Figura 1.5: Importação de dados de arquivos com extensão CSV.
Na janela que abrirá escolha um nome para o conjunto de dados, altere o separador de
campos para “Outro - Defina: [;]” e o separador de decimais para “Vírgula [,]” (Fig. 1.6).
Logo após, será aberta uma janela para informar o nome do arquivo com formato CSV que
deseja importar.
1.2 Dados no R Commander
7
Figura 1.6: Definição de parâmetros para importação de dados de arquivos com extensão CSV.
Cuidados na Elaboração e Importação de Planilhas de Dados
Cuidados ao digitar os dados nas planilhas:
• O nome das variáveis de uma determinada coluna deve estar na primeira linha;
• Não devem ser utilizados caractéres especiais (ç, ascentos, entre outros) nos dados
informados na planilha;
• A planilha deve conter apenas o nome da variável e os dados do experimento.
• A utilização de células mescladas não é permitida.
Dicas:
• Evite a utilização de nomes compostos e/ou muito compridos;
• Exclua todas as linhas e colunas da planilha que já haviam sido utilizadas e que não
pertençam ao conjunto de dados do experimento;
• Visualize os dados no R Commander clicando em “Ver conjunto de dados” para
certificar-se que que foram carregados de forma correta.
8
1.2 Dados no R Commander
1.2.2 Transformação de Dados
Em algumas situações é necessário realizar a transformação dos dados amostrais, com
o objetivo de atingir determinadas exigências de certos testes estatísticos (pressupostos). A
transformação obtida geralmente melhora a aproximação dos dados à distribuição normal.
A normalidade dos dados é uma exigência comum para a aplicação de testes de hipótese.
Se a suposição de normalidade dos dados não é aceitável, podemos adotar a estratégia de
transformação da variável. Transformações são nada mais do que uma forma de reescrever
os dados numa unidade diferente.
Em muitas situações práticas a escolha da transformação para melhorar a aproximação à
distribuição normal não é óbvia. Segue abaixo algumas transformações comumente utilizadas:
• Contagens:
√
x - Contribui para tornar as variâncias muito menores e desta forma mais
facilmente obter homocedasticidade (variâncias iguais).
√
x
1
ou arcsen ( x) - Contribuem para alterar a forma da
log
• Proporções:
2
1−x
distribuição dos dados.
1+x
1
• Correlações: Fisher: z(x) = log
2
1−x
• Concentrações: log(x) ou ln(x) - Contribui para tornar as variâncias muito menores e
desta forma mais facilmente obter homocedasticidade.
Para ilustrar como é realizada a transformação de dados no R Commander tomamos como
exemplo os valores apresentados na tabela abaixo.
Tabela 1.1: Dados amostrais referentes ao número diário de peças defeituosas em uma linha de
produção.
4
5
4
3
2
9
5
4
2
4
O primeiro passo é a digitação destes valores em um única coluna no R Commander,
conforme apresentado na seção anterior (1a coluna da Fig. 1.7).
1.2 Dados no R Commander
9
Figura 1.7: Planilha do R Commander com os dados originais (cont) e transformados
(raiz_cont).
Para criar uma nova variável com os dados transformados deve-se seguir os seguintes
passos: [Dados] ◮ [Modificação de variáveis no conjunto de dados...] ◮ [Computar nova
variável...] (Fig. 1.8).
Figura 1.8: Opção no R Commander para criar uma variável transformada.
Uma janela será aberta para informar o nome da nova variável e a expressão matemática
para calcular os valores desta variável (raiz = sqrt, arcsen = asin, log10 = log10 e ln = log).
1.2 Dados no R Commander
Figura 1.9:
10
Configuração do nome da nova variável e da expressão para realizar a
transformação.
Os resultados da nova variável, chamada raiz_cont, são apresentados na segunda coluna da
figura 1.7. Como podemos observar pelos histogramas apresentados na figura abaixo, a variável
transformada se ajusta mais a forma de um sino (distribuição normal) do que a variável original.
Esta conclusão pode ser estatísticamente comprovada por um teste de hipóteses (seção 3.1).
Figura 1.10: Histogramas da variável original (cont) e da variável transformada (raiz_cont).
1.2.3 Conversão de Dados
Muitas vezes necessita-se converter dados amostrais em formato numérico para um fator,
ou vice-versa. O R Commander possui uma opção para fazer isto de forma automática. Para
exemplificar o uso desta opção considere o seguinte exemplo:
Exemplo: A tabela abaixo possui a nota de estatística de uma amostra de 8 alunos.
Deseja-se saber qual o conceito de cada aluno. Alunos com nota maior ou igual a 9 devem
ter conceito A, entre 7,5 e 8,9 conceito B, entre 6 e 7,4 conceito C e conceito D para notas
menores que 6.
11
1.2 Dados no R Commander
Tabela 1.2: Notas de estatística de uma amostra de 8 alunos.
8,3
7,4
6,2
9,1
2,8
4,7
7,1
7,7
O primeiro passo é informar ou importar estes valores para o R Commander (1a coluna da
Fig. 1.11).
Figura 1.11: Notas e conceitos de estatística na amostra de alunos no R Commander.
Para converter cada nota em um conceito (fator), siga os seguintes passos: [Dados] ◮
[Modificação de variáveis no conjunto de dados...] ◮ [Recodificar variável...] (Fig. 1.12).
Figura 1.12: Opção no R Commander para conversão de dados.
Uma janela será aberta para informar o nome da nova variável e as definições para
recodificação (Fig. 1.13). O comando “:” é utilizado para indicar sequência, ou seja, a primeira
linha da definição abaixo diz que o conceito “D” corresponde as notas entre 0 e 5,9. O resultado
da conversão é apresentada na segunda coluna da figura 1.11. A conversão de fatores para dados
numéricos segue a mesma metodologia.
1.2 Dados no R Commander
12
Figura 1.13: Configuração no R Commander do nome da nova variável e das definições para
recodificação.
13
2
Estatística Descritiva
A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e
sumarizar um conjunto de dados. O tratamento dos dados na estatística descritiva tem como
objetivo organizá-los e resumi-los, a fim de facilitar a interepretação de uma determinada
variável através de uma amostra.
Para compreender as diversas ferramentas da estatística descritiva considere o seguinte
exemplo.
Exemplo: Na tabela abaixo são apresentadas 48 medidas em milímetros do comprimento
de uma peça, por sinal, uma das características essenciais da peça.
Tabela 2.1: Medidas em milímetros do comprimento de uma amostra de 48 peças.
101,22 99,06 97,57 100,81 100,92 99,92 100,41 99,14
100,00
99,79
100,27 100,41
99,57 100,24
99,96
98,87 101,16 100,01
99,85 101,47
101,78 101,17 101,73 100,17 100,82
100,42
99,25 100,81
99,98 102,14
98,98
99,07
98,47
99,18 100,98
98,13 101,55 100,35 100,63
98,94
Uma tabela de números não é nada interessante para um engenheiro que deseja analisar
a qualidade das peças produzidas. A questão que a estatística descritiva deseja responder
é de como este conjunto de informações pode ser apresentado de forma resumida e de fácil
interpretação.
A forma correta de informar o conjunto de dados da tabela 2 no R Commander é através de
uma tabela com apenas uma única coluna, pois todos os dados são referentes a mesma amostra.
14
2.1 Gráficos
2.1 Gráficos
Sem a menor dúvida, a melhor maneira de analisar uma série de dados é graficamente.
A tentativa de ver padrões e tendências em uma relação de dados escritos em uma tabela
certamente resultará em fracasso, especialmente quando o número de dados é grande.
Para criar um gráfico (histograma) dos resultados apresentados na tabela 2, o primeiro passo
é determinar em quantas classes (k) os valores serão divididos. Este valor comumente é dado
pela raiz quadrada do tamanho da amostra (n), ou seja,
k=
√
√
n = 40 ≈ 6,3245
(2.1)
Assim, para este exemplo, podemos utilizar 6 ou 7 classes no histograma. Optaremos por 6
classes. O próximo passo é calcular a amplitude total (AT ) da amostra, que é dada pela diferença
entre o maior e o menor valor observado (xi ), ou seja,
AT = max xi − min xi = 102,14 − 97,57 = 4,57
1≤i≤n
1≤i≤n
(2.2)
Para definir o intervalo referente a cada classe calcula-se a amplitude de classe (AC ), dada
por:
AC =
AT
4,57
=
= 0,7617
k
6
(2.3)
O início da primeira classe pode ser arredondado para baixo para utilizar um valor que
facilite a interpretação do gráfico. A amplitude de classe também pode ser arredondada, para
cima ou para baixo, com o mesmo objetivo. Tais arredondamentos podem variar um pouco o
número de classes pré-definido sem perda da qualidade do resultado.
A determinação do intervalo correspondente a cada classe é realizada tomando-se como
base o menor valor da amostra (ou o valor arredondado) e somando-se sucessivamente a
amplitude de classe. A cada soma é definido um intervalo correspondente a uma das classes.
Arredondando a amplitude de classe para 1 mm e iniciando a primeira classe em 97 mm, obtemos
da tabela 2 os seguintes resultados:
15
2.1 Gráficos
Tabela 2.2: Tabela de frequências do comprimento de uma amostra de 48 peças.
Classe Ponto médio Frequência Frequência relativa
97 ⊢ 98
97,5
1
2,5%
98 ⊢ 99
98,5
5
12,5%
99 ⊢ 100
99,5
12
30,0%
100 ⊢ 101
100,5
14
35,0%
101,5
7
17,5%
102 ⊢ 103
102,5
1
2,5%
40
100,0%
101 ⊢ 102
Total
A frequência de cada classe é obtida verificando-se quantos valores da amostra estão
contidos em cada intervalo. A notação ⊢ indica que o intervalo é fechado no valor a esquerda e
aberto no valor da direita. O histograma dos valores da tabela 2.1 é construído desenhando-se
8
6
0
2
4
frequency
10
12
14
retângulos justapostos com altura proporcional a frequência de cada classe (Fig. 2.1).
97
98
99
100
101
102
103
Conjunto1$comprimento
Figura 2.1: Histograma de frequências dos comprimentos de uma amostra de 40 peças.
Importando ou digitando os valores no R Commander, podemos gerar o histograma
apresentado na figura 2.1 efetuando os seguintes passos: [Gráficos] ◮ [Histograma...] (Fig.
2.2).
2.2 Medidas Descritivas
16
Figura 2.2: Opção no R Commander para criação de histograma de uma variável do conjunto
de dados ativo.
Na janela aberta (Fig. 2.3) deve-se escolher a variável a ser plotada e o número de classes
utilizado no histograma. O R Commander ajusta este valor caso julge necessário para melhorar
a apresentação do gráfico.
Figura 2.3: Configuração para criação de um histograma no R Commander.
2.2 Medidas Descritivas
Medidas descritivas são valores que resumem uma característica de um conjunto de dados.
Podem ser utilizadas de forma alternativa ou complementar ao uso de gráficos, para descrever
e explorar dados quantitativos.
Todas as medidas descrivivas apresentadas nesta seção podem ser obtidas no R Commander
seguindo os seguintes passos: [Estatísticas] ◮ [Resumos] ◮ [Resumos numéricos...] (Fig.
2.4). A escolha de quais variáveis e medidas serão apresentadas é realizada na janela que se
abrirá. Os resultados são apresentados na janela de resultados do R Commander com a seguinte
notação: “mean”, “sd” e “cv”, respectivamente para a média, o desvio padrão e o coeficiente de
variação.
17
2.2 Medidas Descritivas
Figura 2.4: Opção no R Commander para obtenção das principais medidas descritivas.
Média
A média (ou média aritmética) é uma das principais medidas descritivas. Ela fornece uma
valor típico do conjunto de dados. Duas médias aritméticas diferentes são consideradas ao longo
deste material, a média populacional (µ ) e a média amostral (x). A primeira, em geral, não pode
ser encontrada, pois para isto teriamos que conhecer todos os valores de uma população.
Comumente podemos determinar apenas a média amostral, pois avaliamos a propriedade
de uma amostra de tamanho finito e bastante limitado. A média amostral é dada pela soma de
todos os valores amostrais (xi ) dividido pelo tamanho da amostra (n), ou seja,
n
∑x
x=
i=1
n
(2.4)
Para determinar a média dos valores apresentados na tabela 2, somamos os comprimentos
de todos os parafusos e em seguida dividimos o resultado pelo tamanho da amostra (n = 40),
ou seja,
x=
101,22 + 99,06 + 97,57 + 100,81 + . . .+ 100,63 + 98,94
= 100,13
40
(2.5)
Mediana
Além da média, uma propriedade de um conjunto de dados pode ser resumido utilizando
a mediana (Md ). Esta medida tem o mesmo objetivo da média, mas é menos sensível a
valores discrepantes. Para determinar a mediana devemos colocar os dados amostrais em ordem
crescente. A mediana é dada pelo dado amostral que divide tal ordenação ao meio. A posição
(l) do valor da mediana na ordenação é dada por:
l=
n+1
2
(2.6)
2.2 Medidas Descritivas
18
Se l for fracionário, toma-se como mediana a média dos valores de posições mais próximas
a l.
Para os dados amostrais da tabela 2 temos que a posição da mediana é dada por l = (40 +
1)/2 = 20,5. Colocando os dados em ordem crescente observamos que os valores de posição
20 e 21 são respectivamente iguais a 100,17 e 100,24. Logo, a mediana é Md = (100,17 +
100,24)/2 = 100,205.
Quartis e Extremos
Os quartis são valores que junto com a mediana dividem a amostra em quatro partes iguais,
cada uma contendo 25% dos dados. Na prática, podemos utilizar os cálculos realizados para
obter uma mediana para a primeira metade dos dados (valores menores do que a mediana) e
outra mediana para a segunda metade (valores maiores que a mediana). Estes dois divisores são
chamados respectivamente de quartil inferior (QI ) e quartil superior (QS ).
Para os dados amostrais da tabela 2 temos que a mediana tem posição l = 20,5.
Arredondando este valor para baixo calculamos a posição do quartil inferior [l = (20 + 1)/2 =
10,5]. Assim, o valor do quartil inferior é dado pela média dos valores das posições 10 e 11, ou
seja, QI = (99,18 + 99,25)/2 = 99,215.
O valor do quartil superior pode ser calculado utilizando a(s) mesma(s) posição(ões) já
determinadas para o quartil inferior, a diferença é que para o quartil superior conta-se a posição
do último para o primeiro, como se os dados fossem ordenados decrescentemente. Portanto, o
quartil superior é igual a QS = (100,92 + 100,82)/2 = 100,87.
Os extremos inferior EI e superior ES são dados, respectivamente, pelo menor e maior valor
observado na amostra. Nos dados amostrais apresentados na tabela 2 temos que o extremo
inferior (EI ) é igual a 97,57 e o extremo superior (ES ) igual a 102,14.
Variância e Desvio Padrão
Tão importante quanto as medidas de tendência central (média e mediana) são as
medidas de dispersão, variância e desvio padrão. Tais medidas são grandezas estatísticas que
representam como os dados se espalham ao redor da média, ou seja, exprimem o quão dispersos
estão os dados.
O desvio padrão e a variância populacionais são representados pelas letras σ e σ 2 ,
respectivamente. O desvio padrão e a variância amostrais são representados pelas letras s e
19
2.2 Medidas Descritivas
s2 , respectivamente, e podem ser calculados por
v
v
u n
u n
u
u
2
u ∑ (xi − x)
u ∑ x2i − n · x2
t i=1
t i=1
s=
=
n
n
e
n
n
s2 =
∑ (xi − x)2
i=1
n
(2.7)
=
∑ x2i − n · x2
i=1
n
(2.8)
Coeficiente de Variação
Muitas vezes, em situações práticas, precisamos comparar a variabilidade de dois ou mais
conjuntos de dados. Ocorre que tais conjuntos podem estar descritos com diferentes unidades de
medidas, por exemplo: metros e quilos, impossibilitando a comparação através das variâncias
ou dos desvios padrão.
Para viabilizar comparações desse tipo, definiu-se o Coeficiente de Variação (cv), que
presta-se para comparar dispersões relativas de distribuições de dados, de mesma unidade ou
de unidades diferentes. Tal medida exprime a variação em relação a média e, independe de
unidades de medidas:
cv =
s
x
· 100%
(2.9)
20
3
Testes de Hipóteses de Uma Amostra
A estatística inferencial é um conjunto de técnicas utilizadas com o objetivo de determinar
uma característica da população a partir dos valores de uma amostra. Os testes de hipótese
fazem parte destas técnicas. Hipótese estatística é uma suposição sobre algum parâmetro da
população, que será posta à prova através do teste de hipótese.
De forma geral, os testes de hipóteses são elaborados a partir de duas hipóteses, nula (H0 )
e alternativa (H1 ). Na hipótese nula (H0 ) as diferenças observadas em relação aos valores
esperados, são consideradas fruto do acaso, devido a aleatoriedade dos dados. Na hipótese
alternativa (H1 ) considera-se que tais diferenças são devidas ao fato da população ter realmente
tal característica.
A relação existente entre as variáveis é traduzida pelo valor de p (ou, p-valor). Para
valores de p < α rejeita-se a hipótese nula, ou seja, a probabilidade das diferenças registadas
na amostra serem devidas ao acaso é muito pequena (existe portanto grande probabilidade de
estas diferenças existirem de fato na população). No caso de p > α , diz-se não existir evidência
suficiente para rejeitar a hipótese nula (logo, aceita-se H0 ).
Protocolo para a realização de um teste de hipóteses:
(a) Enunciar claramente as hipóteses H0 e H1 ;
(b) Fixar o nível de significância (α ). Em geral α = 0,05 (5%);
(c) Calcular o valor da estatística do teste, que depende do parâmetro que se deseja testar;
(d) Decisão: Se p > α aceita-se H0 , caso contrário, rejeita-se H0 ;
(e) Enunciar claramente a conclusão do teste.
21
3.1 Teste de Shapiro-Wilk para Normalidade da População
3.1 Teste de Shapiro-Wilk para Normalidade da População
Um fato importante a ser ressaltado é que a validade dos resultados obtidos através
dos testes de hipótese paramétricos (teste t, análise de variância, entre outros) é fortemente
dependente da normalidade dos dados analisados. Salvo raras exceções, resultados de análises
estatísticas efetuadas através de métodos paramétricos não são confiáveis se os dados não
pertencem a amostras extraídas de populações com distribuições normais (RODRIGUES;
IEMMA, 2005).
O teste de Shapiro-Wilk é utilizado para verificar se a amostra provém, ou não, de uma
população com distribuição normal. Portanto, este teste é baseado nas seguintes hipóteses:
H0 :
A amostra provém de uma população normal
H1 :
A amostra não provém de uma população normal
O primeiro passo para aplicação do teste de Shapiro-Wilk é a ordenação crescente dos dados
amostrais. Assim, denotamos x1 o menor e xn o maior valor observado. O próximo passo é o
cálculo do valor da constante b, determinada da seguinte forma:
n/2
b = ∑ an−i+1 · (xn−i+1 − xi )
(3.1)
i=1
em que os xi são os valores amostrais ordenado e os an−i+1 são constantes tabeladas cujos
valores são apresentados no anexo E.
O valor observado da estatística do teste de Shapiro-Wilk é denotata por Wo e obtido através
da seguinte expressão:
Wo =
b2
n
∑ (xi − x)
i=1
=
2
b2
n
∑
i=1
(3.2)
x2i − n · x2
Os valores críticos para o teste de Shapiro-Wilk são apresentados no anexo F. Quanto maior
o valor observado da estatística (Wo ), maior são as evidências de que os dados são normais,
assim, caso o valor de Wo seja maior do que o valor crítico Wc , aceita-se H0 , ou seja, aceita-se
que a amostra provém de uma população com distribuição normal.
Exemplo: Avaliar a normalidade dos dados de uma amostra aleatória do comprimento de
10 peças.
22
3.1 Teste de Shapiro-Wilk para Normalidade da População
Tabela 3.1: Dados referentes ao comprimento, em centímetros, de 10 peças de uma amostra
aleatória.
1,90
2,22
2,10
1,69
1,52
2,75
2,31
1,98
1,42
1,99
Solução manual:
Ordenando os dados amostrais fornecidos pela tabela 3.1 obtemos
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
1,42
1,52
1,69
1,90
1,98
1,99
2,10
2,22
2,31
2,75
i
n−i+1
an−i+1
xn−i+1
xi
an−i+1 · (xn−i+1 − xi )
1
10
0,5739
2,75
1,42
0,7633
2
9
0,3291
2,31
1,52
0,2600
3
8
0,2141
2,22
1,69
0,1135
4
7
0,1224
2,10
1,90
0,0245
5
6
0,0399
1,99
1,98
0,0004
Obtendo os valores de a da tabela do anexo E e multiplicando pela diferença entre os valores
de xn−i+1 e xi , conforme apresentado na tabela acima, podemos calcular o valor de b através da
equação 3.1, donde obtemos
n/2
b = ∑ an−i+1 · (xn−i+1 − xi ) = 0,7633 + 0,2600 + 0,1135 + 0,0245 + 0,0004 = 1,1617 (3.3)
i=1
Utilizando a equação 3.2 podemos determinar o valor observado da estatística (Wo ) do teste
de Shapiro-Wilk, dado por:
Wo =
b2
n
∑
i=1
x2i − n · x2
=
1,16172
= 0,972
1,422 + 1,522 + . . . + 2,752 − 10 · 1,9882
(3.4)
Considerando que o valor observado da estatística (Wo ) é maior do que o valor crítico (Wc =
0,842), dado pela tabela do anexo F, aceita-se H0 , ou seja, concluimos que a amostra provém
de uma população com distribuição normal.
3.1 Teste de Shapiro-Wilk para Normalidade da População
23
Solução com o R Commander:
Para aplicar o teste de Shapiro-Wilk aos dados amostrais da tabela 3.1 com o R Commander,
o primeiro passo é carregar tais valores no programa. Os dados devem ser informados em uma
única coluna. Como visto na seção 1.2, uma das formas de carregar estes dados é digitá-los
diretamente no R Commander (Fig. 3.1).
Figura 3.1: Digitação dos dados amostrais diretamente no R Commander.
Em seguida podemos aplicar o teste de Shapiro-Wilk seguindo os seguintes passos:
[Estatísticas] ◮ [Resumos] ◮ [Teste de normalidade de Shapiro-Wilk...] (Fig. 3.2).
Figura 3.2: Aplicação do teste de Shapiro-Wilk no R Commander.
Uma janela será aberta para informar qual variável do conjunto de dados ativo deve ser
avaliada (Fig. 3.3).
Figura 3.3: Configuração da variável para o teste de Shapiro-Wilk no R Commander.
3.1 Teste de Shapiro-Wilk para Normalidade da População
24
Dois resultados do teste são apresentados na janela de resultados do R Commander, o valor
observado da estatística, Wo = 0,9713, e o p-valor = 0,9024. Considerando que o p-valor é
maior do que o nível de significância de 5% (α = 0,05), aceita-se H0 , ou seja, concluimos que
os dados amostrais provém de uma população com distribuição normal.
25
4
Testes de Hipóteses de Duas Amostras
4.1 Teste t para Amostras Pareadas
O chamado teste t é apropriado para comparar dois conjuntos de dados quantitativos, em
termos de seus valores médios. Nesta seção, trataremos do caso em que os dados são pareados.
Os pressupostos para a aplicação deste teste são os seguintes:
• Dados pareados;
• Normalidade da distribuição da variável de interesse (D).
As hipóteses do teste t são dadas a respeito da média populacional. Na hipótese nula (H0 )
admite-se que não há diferença entre as médias populacionais das duas amostras, enquanto que
a hipótese alternativa (H1 ) admite que há diferença. A hipótese alternativa pode ser formulada
considerando simplesmente diferença (bilateral) ou admitindo-se que uma média é maior do
que a outra (unilateral), dependendo do contexto do problema. Exemplo:
H0 :
µ1 = µ2
H1 :
µ1 6= µ2
(bilateral)
A estatística do teste t para dados pareados baseia-se nos valores observados da variável
D, definida pela diferença de valores de cada par de dados do experimento. Num estudo
antes-e-depois:
Di = (medida depois)i − (medida antes)i
(4.1)
Para encontrar a estatística do teste, precisamos calcular a média (D) e o desvio padrão (sD )
das diferenças, definidos respectivamente por:
v
v
u n
u n
n
u
u
2
2
D
(D
−
D)
u
u ∑ D2i − n · D
i
∑ i
∑
t i=1
t i=1
i=1
D=
e
sD =
=
n
n−1
n−1
(4.2)
26
4.1 Teste t para Amostras Pareadas
em que n é o tamanho da amostra (número de pares observados).
A estatística do teste é conhecida como estatística t para dados pareados, definida por:
√
D· n
t=
(4.3)
sD
O último passo é utilizar a tabela da distribuição t (anexo B) para determinar o p-valor,
utilizando o valor calculado de t e o número de graus de liberdade, dado por:
gl = n − 1
(4.4)
Caso o p-valor seja menor do que o nível de significância (α ) rejeita-se H0 , ou seja,
concluimos que existe diferença significativa entre as médias ao nível de significância adotado.
Caso contrário, aceita-se que a diferença observada na amostra é devida apenas ao acaso
(aleatoriedade dos dados amostrais), e que as populações possuem médias iguais.
Exemplo: Tendo interesse em estudar os efeitos de determinada dieta alimentar sobre o
aumento do peso corporal em cobaias adultas, um investigador tomou uma amostra de 9 cobaias.
Determinou seus pesos antes e três meses após a administração da nova dieta. Com os dados a
seguir, analise o efeito da nova dieta, para α = 0,05.
Tabela 4.1: Peso das cobaias antes e depois da aplicação da nova dieta.
Antes: 54 61 50 74 79 58 55 49 63
Depois: 57
66 53 73 82
58 56 53 63
Hipóteses:
As hipóteses deste problema são dadas em relação a média, por:
H0 :
µD = µA
ou
µD − µA = 0
H1 :
µD > µA
ou
µD − µA > 0 (unilateral)
Na hipótese nula (H0 ) considera-se a situação onde a dieta não altera o peso das cobaias, ou
seja, o peso médio das cobaias antes da nova dieta será o mesmo que o peso médio depois da
nova dieta. Em contrapartida, a hipótese alternativa (H1 ) considera a situação onde a nova dieta
provoca aumento do peso médio das cobaias, ou seja, a peso médio das cobaias depois da nova
dieta será maior do que o peso médio antes da nova dieta.
27
4.1 Teste t para Amostras Pareadas
Solução manual:
O primeiro passo é obter as diferenças entre o peso depois e o peso antes da nova dieta,
dadas por:
Tabela 4.2: Diferença entre os pesos antes e depois da aplicação da nova dieta.
Diferença (D):
3 5
3 -1
3 0
1 4 0
O próximo passo é o cálculo da média e do desvio padrão da variável D, equações (4.2):
D=
sD =
s
3 + 5 + 3 + (−1) + 3 + 0 + 1 + 4 + 0
=2
9
32 + 52 + 32 + (−1)2 + 32 + 02 + 12 + 42 + 02 − 9 · 22
= 2,0616
9−1
A estatística t é determinada utilizando-se a equação (4.3):
√
2· 9
t=
= 2,9104
2,0616
(4.5)
(4.6)
(4.7)
Utilizando a equação (4.4) determinamos o número de graus de liberdade:
gl = 9 − 1 = 8
(4.8)
Através da tabela da distribuição t de Student (anexo B) obtemos o p-valor, observando a
linha correspondente ao gl = 8, verificando na tabela que t = 2,9104 está entre 1,860 e 2,306.
Logo, como ilustrado na figura 4.1, a probabilidade de significância esta entre 0,005 e 0,01, ou
seja, 0,005 < p-valor < 0,01.
Figura 4.1: Utilização da distribuição t de Student com gl = 8 para obtenção da probabilidade
de significância num teste unilateral com t = 2,9104.
Considerando que o p-valor é menor do que 0,01, portanto, também é menor do que α =
0,05, rejeita-se H0 e conclui-se que há diferença significativa entre as médias de peso ao nível
4.1 Teste t para Amostras Pareadas
28
de significância de 5%. Ou seja, concluimos que a nova dieta provoca aumento de peso nas
cobaias ao nível de significância de 5%.
Solução com o R Commander:
Para resolver o problema utilizando o R Commander, o primeiro passo é o carregamento
dos dados da tabela 4.1. Para isso, podemos digitá-los em uma planilha eletrônica do Excel ou
diretamento do R Commander. Para testes pareados os resultados devem ser informados
em duas colunas, neste caso, uma com os valores antes e outra com os valores depois da nova
dieta (Fig. 4.2).
Figura 4.2: Lançamento dos dados para o teste t para dados pareados no R Commander.
Após os lançamento dos dados no próprio R Commander ou do carregamento dos dados
a partir de um arquivo, o próximo passo é escolher o teste que deve ser aplicado. Para tanto,
clique nas seguintes opções: [Estatísticas] ◮ [Médias] ◮ [Teste t (dados pareados)] (Fig.
4.3).
Figura 4.3: Aplicação do teste t para dados pareados.
Na janela que será aberta deve-se escolher as variáveis a serem comparadas, o nível de
confiânça e a hipótese alternativa (Fig. 4.4).
29
4.2 Teste t para Amostras Independentes
Figura 4.4: Opções para a aplicação do teste t para dados pareados.
Os resultados do teste são apresentados na janela de resultados do R Commander. Dentre
outros valores é apresentado o valor da estatística t = 2,9104, e o p-valor = 0,009788.
Considerando que o p-valor é menor do que 0,05, rejeitamos H0 , ou seja, concluimos que a
nova dieta provoca aumento de peso nas cobaias, ao nível de significância de 5%.
4.2 Teste t para Amostras Independentes
Nesta seção o teste t é aplicado a casos onde desejamos comparar a média de duas amostras
aleatórias. Ao contrário da seção anterior, trataremos do caso em que os dados não são pareados.
Pressupostos para aplicação do teste t para amostras independentes:
• Aleatoriedade das amostras;
• Normalidade da distribuição da variável de interesse em cada grupo;
• Homogeneidade das variâncias amostrais dos grupos.
O objetivo deste método é verificar se existe, ou não, diferença estatística significativa entre
as médias de dois grupos. Logo, as hipóteses deste teste realizará a comparação entre a média
de um grupo com a média de outro grupo.
Para aplicar o teste t para amostras independentes precisamos calcular inicialmente a média
e a variância de cada grupo, utilizando as seguintes fórmulas:
n
n
∑x
x=
i=1
n
e
s2 =
∑ x2 − n · x2
i=1
n−1
(4.9)
Como o tamanho da amostra do grupo 1 pode ser diferente do grupo 2, utiliza-se o
subscrito para identificar qual das amostras está sendo considerada. Assim, n1 , x1 e s21 são,
30
4.2 Teste t para Amostras Independentes
respectivamente, o tamanho da amostra, a média e a variância do grupo 1, enquanto que n2 , x2
e s22 são, respectivamente, o tamanho da amostra, a média e a variância do grupo 2.
O número de graus de liberdade (gl) para o teste t para amostras independentes é dado por:
gl = n1 + n2 − 2
(4.10)
O desvio padrão agregado (sa ) é dado por:
s
(n1 − 1) · s21 + (n2 − 1) · s22
sa =
gl
(4.11)
A estatística do teste é dada por:
t=
x − x2
r1
1
1
sa ·
+
n1 n2
(4.12)
O último passo é a obtenção do p-valor através da tabela da distribuição t (anexo B),
utilizando os valores de gl e t calculados.
Exemplo: Para comparar dois métodos, A e B de ensinar matemática para crianças,
aplicou-se o método A num grupo de crianças e o método B em outro grupo. A comparação
entre os dois grupos foi realizada através de uma avaliação que mensurou o conhecimento
de matemática de cada criança. Os resultados obtidos são apresentados na tabela abaixo.
Determine ao nível de significância de 5% se existe diferença nos resultados obtidos pelos
diferentes métodos.
Tabela 4.3: Notas da avaliação de matemática obtidas pela crianças submetidas a dois métodos
de ensino diferentes.
Método de ensino A
Método de ensino B
45 51
50 62 43
45 35
43 59 48
42 53
50 48 55
45 41
43 49 39
Hipóteses:
As hipóteses para o teste são dadas por:
H0 :
µA = µB
ou
µA − µB = 0
H1 :
µA 6= µB
ou
µA − µB 6= 0
31
4.2 Teste t para Amostras Independentes
A hipótese nula admite que não existe diferença entre os métodos de ensino, ou seja, em
média os métodos produzem o mesmo resultado no desempenho dos alunos. Em contrapartida,
a hipótese alternativa diz que existe diferença entre os métodos de ensino, ou seja, em média, os
alunos submetidos ao método de ensino A terão desempenho diferente dos alunos submetidos
ao método de ensino B.
Solução manual:
O primeiro passo para resolver o problema é o cálculo da média e do desvio padrão de cada
um dos dois grupos, utilizando as equações (4.9) obtemos:
x1 = 49,9
x2 = 44,7
s1 = 5,9712
s2 = 6,4987
(4.13)
O número de graus de liberdade é dado pela equação (4.10), donde temos:
gl = 10 + 10 − 2
Utilizando a equação (4.11) para calcular o desvio padrão agregado temos:
r
(10 − 1) · 5,97122 + (10 − 1) · 6,49872
sa =
= 6,2405
18
(4.14)
(4.15)
Utilizando a equação (4.12) obtemos a estatística do teste:
t=
49,9 − 44,7
r
= 1,8632
1
1
+
6,2405 ·
10 10
(4.16)
O próximo passo é obter o p-valor através da tabela da distribuição t (anexo B). Para tanto,
olhamos na distribuição t a linha relacionada ao grau de liberdade (gl) igual a 18 e a coluna cujo
intervalo contenha o valor de t = 1,8632 (Fig. 4.5).
4.2 Teste t para Amostras Independentes
32
Figura 4.5: Utilização da distribuição t de Student com gl = 18 para obtenção da probabilidade
de significância num teste unilateral com t = 1,8632.
Pela tabela da distribuição t de student (anexo B) obtemos um intervalo para o p-valor entre
0,025 e 0,05 para um teste unilateral. Lembrando que o problema dado é bilateral (H1 : µA 6=
µB ), toma-se o dobro de cada um destes valores, obtendo-se então 0,05 < p < 0,1.
Como o p-valor é maior do que o nível de significância (α = 0,05), aceita-se H0 , ou seja,
ao nível de significância de 5%, conclui-se que não existe diferença no resultado médio obtido
pelos diferentes métodos de ensino.
Solução com o R Commander:
O primeiro passo para resolver o problema com o R Commander é a digitação dos resultados
obtidos no experimento. No teste t para amostras independentes os dados devem ser informados
em duas colunas, uma com as notas e a outra com o método de ensino associado a cada nota
(Fig. 4.6). No início de cada coluna deve ser informado um título para os dados.
Figura 4.6: Digitação dos dados no Excel para aplicação do teste t para amostras independentes.
Os dados digitados em uma planilha do Excel devem ser importados para o R Commander
(conforme seção 1.2.1) informando um nome para o conjunto de dados. Para aplicar o teste
4.2 Teste t para Amostras Independentes
33
t para amostras independentes sobre o conjuto de dados ativo, siga os seguintes passos:
[Estatísticas] ◮ [Médias] ◮ [Teste t para amostras independentes...] (Fig. 4.7)
Figura 4.7: Aplicação do teste t para amostras independentes no R Commander.
Uma janela será aberta para configurar as informações relativas ao teste: variáveis que
contém o grupo e a resposta, o tipo de hipótese alternativa e o nível de confiança (Fig. 4.8).
Figura 4.8: Configurações para aplicação do teste t para amostras independentes bilateral e com
nível de confiança de 95%..
Os resultados do teste serão apresentados na janela de resultados do R Commander. Dentre
os principais valores destacamos o valor da estatística t = 1,8632 e o p-valor = 0,07883.
Considerando que o p-valor é maior do que o nível de significância (α = 0,05) aceita-se H0 ,
ou seja, concluimos que não existe diferença significativa entre os dois métodos de ensino de
matemática.
34
5
Testes de Hipóteses de Mais de Duas
Amostras
5.1 Análise de Variância para Um Fator (ANOVA)
A análise de variância (ANOVA) é um teste de hipóteses apropriado para comparar três
ou mais conjuntos de dados quantitativos, em termos de seus valores médios. Nesta seção em
particular, é tratado o caso onde apenas um único fator pode influenciar os resultados.
Pressupostos para a aplicação da análise de variância (ANOVA):
• Aleatoriedade e independência;
• Normalidade dos valores da amostra em cada um dos grupos;
• Homogeneidade de variância dos grupos (variância iguais em todos os grupos).
Considerando c grupos diferentes, as hipóteses consideradas na análise de variância são:
H0 :
µ1 = µ2 = ... = µc
H1 :
nem todas as médias são iguais
Na hipótese nula (H0 ) considera-se que o fator variado entre os grupos não afeta de forma
significativa a média dos resultados obtidos. Em contrapartida, a hipótese alternativa (H1 )
admite que ao menos uma das médias é diferente das demais devido ao fator considerado.
O primeiro passo para obter a estatística F, utilizada na análise de variância, é o cálculo
da média geral (x) e da média de cada grupo (x j , onde j indica o grupo). Estes valores são
definidos por:
c nj
∑ ∑ xi j
x=
j=1i=1
n
(5.1)
35
5.1 Análise de Variância para Um Fator (ANOVA)
nj
∑ xi j
xj =
i=1
(5.2)
nj
onde c é o número de grupos, xi j é o i-ésimo valor do grupo j, n é o número total de amostras e
n j é o número de amostras do grupo j.
O próximo passo é o cálculo da variação total (ST ), da variação entre os grupos (SE ) e
da variação dentro dos grupos (SD ). Estas variações são também conhecidas respectivamente
como: soma dos quadrados total, soma dos quadrados entre os grupos e soma dos quadrados
dentro dos grupos. As expressões para o cálculo destes valores são apresentados nas equações
seguintes:
c
ST =
∑
nj
2
x
−
x
∑ ij
(5.3)
j=1 i=1
c
2
SE = ∑ n j x j − x
(5.4)
j=1
c
SD =
nj
∑∑
j=1 i=1
xi j − x j
2
(5.5)
A variação dentro dos grupos pode ser calculada pela diferença entre a variação total ST e
a variação entre os grupos SE , ou seja
SD = ST − SE
(5.6)
Na sequência devemos calcular a média total dos quadrados (MQ ), a média dos quadrados
entre os grupos (ME ) e a média dos quadrados dentro dos grupos (MD ), dadas respectivamente
por:
ST
n−1
SE
ME =
c−1
SD
MD =
n−c
MQ =
(5.7)
(5.8)
(5.9)
Por fim, calcula-se o valor observado da estatística F (Fo ), dada por
Fo =
ME
MD
(5.10)
a qual segue uma distribuição F, com c − 1 graus de liberdade no numerador e n − c graus de
liberdade no denominador.
O valor do F crítico (Fc ) é obtido da tabela da distribuição F (anexo C) considerando a
36
5.1 Análise de Variância para Um Fator (ANOVA)
(c − 1)-ésima linha e a (n − c)-ésima coluna. Se Fo > Fc rejeita-se H0 , caso contrário, aceita-se
H0 (Fig. 5.1).
Figura 5.1: Gráfico da distribuição F com as regiões de aceitação e rejeição de H0 .
Quando conclui-se pela análise de variância que existe diferença entre as médias dos
grupos, não obtem-se quais dos grupos possui média diferente dos demais. Para responder
tal questão utiliza-se um teste auxiliar chamado teste de Tukey, apresentado na sequência.
5.1.1 Teste de Tukey
O teste de Tukey é um dos testes de comparação de média mais utilizados, por ser bastante
rigoroso e de fácil aplicação. Este teste é utilizado para testar toda e qualquer diferença entre
duas médias de tratamento.
O teste de Tukey faz a comparação entre a média de dois em dois grupos. Para cada par
de grupos (denotados por i e j) que serão comparados, o primeiro passo para aplicar o teste de
Tukey é calcular o intervalo crítico (Ic ) dado por:
s
MD 1
1
Ic = Qc
+
2 ni n j
(5.11)
onde Qc é o valor crítico da cauda superior, a partir da distribuição de intervalos de Student,
possuindo c tratamentos e n − c graus de liberdade no denominador (anexo D).
Conhecido o intervalo crítico (Ic ), deve-se calcular o módulo da diferença entre as médias
dos grupos i e j, ou seja:
|xi − x j |
(5.12)
37
5.1 Análise de Variância para Um Fator (ANOVA)
Quando esta diferença é maior do que o intervalo crítico conclui-se que existe diferença
significativa entre as médias dos grupos i e j, caso contrário conclui-se que as médias dos
grupos i e j são iguais.
Exemplo: Você supervisiona a produção de uma padaria, cujos pães são fabricados com
farinha oriunda de um dentre quatro diferentes fornecedores. A qualidade dos pães produzidos
é uma característica importante que garante o aumento das vendas e consequentemente da
produção. Estabeleça se os pães produzidos com as diferentes marcas de farinha são igualmente
saborosos com base nos dados amostrais abaixo.
Tabela 5.1: Notas atribuidas pela análise sensorial dos pães produzidos com a farinha de quatro
diferentes fornecedores.
Forncedor A
Forncedor B Forncedor C Forncedor D
68,5
76,3
70,6
75,4
74,0
75,3
75,2
69,9
67,2
74,0
70,8
72,6
69,9
71,2
74,7
67,5
68,0
74,5
72,9
70,4
∑x
347,6
371,3
364,2
355,8
xj
69,52
74,26
72,84
71,16
n
i=1
Hipóteses:
As hipóteses para a análise de variância são as seguintes:
H0 :
µA = µB = µC = µD
H1 :
ao menos uma das médias é diferente
A hipótese nula (H0 ) considera que as farinhas de todos os quatro diferentes fornecedores
produzem em média pães com a mesma qualidade sensorial. Em contrapartida, a hipótese
alternativa (H1 ) considera o fato de que o fator fornecedor afeta a qualidade sensorial dos pães,
dizendo que existe diferença em ao menos uma das médias comparada as outras.
5.1 Análise de Variância para Um Fator (ANOVA)
38
Solução manual:
A média geral definida pela equação (5.1) fornece:
x = 71,945
(5.13)
Os valores das médias de cada grupo são dados na tabela do problema. As variações total,
entre grupos e dentro dos grupos, dadas respectivamente pelas equações (5.3), (5.4) e (5.6)
fornecem
ST = 160,7895
(5.14)
SE = 63,2855
(5.15)
SD = 160,7895 − 63,2855 = 97,5040
(5.16)
Na sequência são obtidas as médias entre grupos e dentro dos grupos, utilizando as equações
(5.8) e (5.9) obtemos
SE
63,2855
=
= 21,0952
c−1
4−1
97,5040
SD
=
= 6,0940
MD =
n−c
20 − 4
ME =
(5.17)
(5.18)
Por fim, podemos calcular o valor de F observado (Fo ) através da equação (5.10)
Fo =
21,0952
ME
=
= 3,4616
MD
6,0940
(5.19)
Pela tabela da distribuição F com nível de significância de 5% (anexo C), considerando
c − 1 graus de liberdade no numerador e n − c graus de liberdade no denominador, obtemos o
valor do F crítico (Fc = 3,24). Como o valor de Fo > Fc rejeita-se H0 , ou seja, concluimos que
existe diferença sensorial média entre os diferentes fornecedores de farinha.
Para identificar quais os pares de médias que são significativamente diferentes aplicamos o
teste de Tukey. Como todos os grupos possuem amostras do mesmo tamanho, calcula-se apenas
um único valor para o invevalor crítico. Pela valor da décima sexta coluna e terceira linha da
tabela da distribuição de intervalos de Student (anexo D) obtemos o valor crítico da amplitude
de Student (Qc = 3,65). Utilizando a equação 5.11 obtemos
s
6,0940 1 1
Ic = 4,05
= 4,4712
+
2
5 5
(5.20)
Por fim, calcula-se o módulo da diferença entre a médias para cada combinação de
5.1 Análise de Variância para Um Fator (ANOVA)
39
fornecedores, donde obtemos:
A=B:
|xA − xB | = |69,52 − 74,26| = 4,74 > 4,4712 ∗
A=C :
|xA − xC | = |69,52 − 72,84| = 3,32 < 4,4712
A=D:
|xA − xD | = |69,52 − 71,16| = 1,64 < 4,4712
B=C :
|xB − xC | = |74,26 − 72,84| = 1,42 < 4,4712
B=D:
|xB − xD | = |74,26 − 71,16| = 3,10 < 4,4712
C=D:
|xC − xD | = |72,84 − 71,16| = 1,68 < 4,4712
Na comparação entre o valor absoluto das diferenças com o valor do intervalo crítico,
observa-se que apenas os fornecedor A com o fornecedor B apresenta diferença significativa
(denotada por ∗).
Solução com o R Commander:
A forma de informar os dados do experimento ao R Commander é similar a do teste t para
amostras independentes. Novamente na primeira linha é colocada o nome de cada variável. Na
primeira coluna é informado o fornecedor e na segunda coluna é informada a respectiva nota
(Fig. 5.2).
Figura 5.2: Digitação dos dados no Excel para aplicação da análise da variância pelo R
Commander.
Caso os dados forem digitados em uma planilha do Excel, o próximo passo é importá-la
para o R Commander. Em seguida, para aplicar a análise de variância execute os seguintes
passos: [Estatísticas] ◮ [Médias] ◮ [ANOVA para um fator (one way)...] (Fig. 5.3).
5.1 Análise de Variância para Um Fator (ANOVA)
40
Figura 5.3: Aplicação da análise de variância no R Commander.
Uma janela será aberta para informar o nome da coluna que contém os grupos e a
que contém a variável resposta. O teste de Tukey pode ser aplicado ativando-se a opção
“Comparação de médias 1 a 1” nesta janela (Fig. 5.4).
Figura 5.4: Configuração da análise de variância no R Commander.
Na janela de resultados do R Commander são apresentados os resultados inerentes a análise
de variância. Dentre os principais resultados é apresentada uma tabela com a soma dos
quadrados dentro dos grupos e entre os grupos (“Sum Sq”). Ao lado é apresentado as médias
dentro dos grupos e entre grupos (“Mean Sq”) e em seguida o F observado (“F value”) e o
p-valor (“Pr(>F)”) (Fig. 5.5).
Figura 5.5: Principais resultados da análise de variância apresentados pelo R Commander.
Caso o teste de Tukey tenha sido ativado, informações a respeito da comparação entre
as médias obtidas pelos diferentes grupos serão apresentado na janela de resultados. Um
resumo do teste é apresentado em uma tabela que mostra cada uma das comparações realizadas,
41
5.1 Análise de Variância para Um Fator (ANOVA)
juntamente com o valor da estatística t e o p-valor. Um código é apresentado onde é detectada
diferença significativa entre as médias: “·” para 10%, “∗” para 5% e “∗∗” para 1%.
Figura 5.6: Principais resultados do teste de Tukey apresentados no R Commander.
Exercício: Os próximos dados referem-se à redução no peso corporal de animais de
laboratório submetidos a diferentes dietas. Os animais foram previamente divididos em cinco
grupos, por faixa de peso no início do experimento. Compare as dietas entre si e verifique
também se a redução no peso varia entre as faixas de peso. Use 0,05 como nível de significância
no teste.
Faixa de peso Dieta A
Dieta B
Dieta C Total (B)
I
15
10
12
37
II
17
8
16
41
III
20
12
16
48
IV
24
16
15
55
V
19
18
22
59
∑x
95
64
81
240
1851
888
1365
4104
∑
x2
5.1.2 Teste de Levene para Homogeneidade da Variância
Embora a análise de variância de fator único seja relativamente robusto com respeito ao
pressuposto de variâncias iguais nos grupos, grandes diferenças nas variâncias dos grupos
podem afetar seriamente o nível de significância e a eficácia do teste. Um dos procedimentos
com alta eficácia estatística é o teste de Levene. Para testar a homogeneidade da variância,
utilize as seguintes hipóteses:
H0 :
σ12 = σ22 = ... = σc2
H1 :
Nem todas as variâncias são iguais
5.1 Análise de Variância para Um Fator (ANOVA)
42
O primeiro passo para aplicar o teste de Levene é obter a mediana de cada grupo. Em
seguida, calcula-se o valor absoluto da diferença entre cada valor amostral e a mediana do
grupo a qual ele pertence. Sobre os resultados obtidos aplica-se a análise de variância. Caso o
p-valor deste teste for maior do que o nível de significância, aceita-se H0 , ou seja, conclui-se
que as variâncias são iguais em todos os grupos.
43
Referências Bibliográficas
BARBETTA, P. A. Estatística aplicada às Ciências Sociais. 7. ed. Florianópolis, SC: Ed. da
UFSC, 2008.
FOX, J. The R Commander: A basic-statistics graphical user interface to R. Hamilton, Ontario,
Canada, September 2005. v. 14, n. 9.
LEVINE, D. M. et al. Estatística: teoria e aplicações. Rio de Janeiro: LTC, 2008.
RODRIGUES, M. I.; IEMMA, A. F. Planejamento de experimentos e otimização de processos:
Uma estratégia sequencial de planejamentos. 1. ed. Campinas, SP: Casa do Pão Editora, 2005.
TEAM, R. D. C. R: A Language and Environment for Statistical Computing. Vienna, Austria,
2009. Disponível em: <http://www.R-project.org>.
44
ANEXO A -- Tabela da distribuição Normal
45
ANEXO B -- Tabela da distribuição t de Student
46
ANEXO C -- Tabela da distribuição F de Fisher
47
ANEXO D -- Tabela da Distribuição de Intervalos de
Student
48
ANEXO E -- Tabela dos Coeficientes para o Teste de
Shapiro-Wilk
49
ANEXO F -- Tabela dos Valores Críticos do Teste de
Shapiro-Wilk