Série Monográfica Qualidade Estatística Industrial

Propaganda
Série Monográfica Qualidade
Estatística Industrial
José Luis Duarte Ribeiro & Carla ten Caten
Editores
Universidade Federal do Rio Grande do Sul
Escola de Engenharia
Programa de Pós Graduação em Engenharia de Produção
Porto Alegre, RS
2000
Estatística Industrial
José Luis Duarte Ribeiro & Carla ten Caten, editores
2000 by José Luis Duarte Ribeiro & Carla ten Caten
Direitos em língua portuguesa para o Brasil adquiridos por
Universidade Federal do Rio Grande do Sul
Escola de Engenharia
Programa de Pós Graduação em Engenharia de Produção
Praça Argentina, 9 sala 404
90040-020 Porto Alegre – RS – Brasil
Tel. 55 51 316 3490 / 316 3948 / 316 3491
Fax: 55 51 316 4007
e-mail: [email protected]
Projeto Gráfico
Lia Buarque de Macedo Guimarães
Editoração Eletrônica
Andréia Fabiane Nahra Leal
Fabiane Ely
Ilustração da Capa
Arcângelo Ianelli, Natureza-morta
1960 óleo s/ tela 70 X 83 cm
IPHAN, Museu Nacional de Belas Artes
Estatística Industrial
Introdução .......................................................................................................................... 1
Variabilidade ................................................................................................................................................... 1
Métodos estatísticos ....................................................................................................................................... 2
Coleta de dados .............................................................................................................................................. 3
Funções .......................................................................................................................................................... 5
Gráficos ........................................................................................................................................................... 5
Exercícios........................................................................................................................................................ 6
Distribuições de freqüência............................................................................................ 10
Intervalos de classe ......................................................................................................................................10
Regras gerais para elaborar uma distribuição de freqüência .......................................................................11
Histogramas e polígono de freqüência .........................................................................................................11
Distribuição de freqüências relativas ............................................................................................................12
Distribuição de freqüências acumuladas ......................................................................................................12
Curvas de freqüência suavizadas .................................................................................................................13
Tipos de distribuições de probabilidade (frequência relativa) ......................................................................13
Medidas de tendência central e variabilidade ............................................................... 16
Medidas de tendência central .......................................................................................................................16
Medidas de variabilidade ..............................................................................................................................20
Exercícios......................................................................................................................................................22
Probabilidade ................................................................................................................... 24
Campo amostral e eventos ...........................................................................................................................24
Operações com conjuntos ............................................................................................................................24
Definição de probabilidade ...........................................................................................................................25
Soma de probabilidades ...............................................................................................................................25
Exemplo 1: ....................................................................................................................................................26
Exemplo 2: ....................................................................................................................................................27
Produto de probabilidades ............................................................................................................................27
Eventos independentes ................................................................................................................................28
Probabilidade total ........................................................................................................................................29
Teorema de Bayes ........................................................................................................................................30
Distribuições de probabilidade ...................................................................................... 34
Distribuições discretas mais importantes .....................................................................................................35
Distribuições contínuas mais importantes ....................................................................................................38
Estimativa de parâmetros ............................................................................................... 53
Estimativas pontuais .....................................................................................................................................53
Estimativas por intervalo de confiança .........................................................................................................54
Intervalo de confiança para a média, variância conhecida...........................................................................55
Erro de estimação .........................................................................................................................................57
Intervalo de confiança para a média, variância desconhecida .....................................................................58
Intervalo de confiança para a diferença entre duas médias, variância conhecida .......................................60
Intervalo de confiança para a diferença entre duas médias, variância desconhecida .................................61
Intervalo de confiança para a diferença entre observações .........................................................................62
Intervalo de confiança para a variância ........................................................................................................63
Intervalo de confiança para o quociente entre duas variâncias ...................................................................65
Intervalo de confiança para o parâmetro da Binomial ..................................................................................67
Testes de hipótese .......................................................................................................... 71
Comentários iniciais ......................................................................................................................................71
Comparação de médias, variância conhecida ..............................................................................................72
Comparação de médias, variância desconhecida ........................................................................................74
Comparação de pares de observações ....................................................................................................... 77
Comparação de variâncias .......................................................................................................................... 78
Comparação dos parâmetros da Binomial ................................................................................................... 80
Comparação de vários grupos: a análise de variância.................................................85
Comentários iniciais ..................................................................................................................................... 85
One-way ANOVA ......................................................................................................................................... 85
Regressão linear simples .............................................................................................103
Comentários iniciais ................................................................................................................................... 103
Correlação .................................................................................................................................................. 103
Teste de hipótese para o coeficiente de correlação .................................................................................. 106
Regressão linear simples ........................................................................................................................... 107
Relação entre o coeficiente de correlação e a regressão ......................................................................... 108
Variância dos estimadores ......................................................................................................................... 109
Intervalos de confiança e testes de hipótese ............................................................................................. 109
Previsão de valores de Y .......................................................................................................................... 111
Análise da validade do modelo .................................................................................................................. 112
Intervalo de variação para X ...................................................................................................................... 114
A análise de variância e a regressão ......................................................................................................... 114
Dados atípicos............................................................................................................................................ 116
Regressão não-linear simples.................................................................................................................... 116
Regressão linear múltipla ............................................................................................120
O modelo da regressão linear múltipla ...................................................................................................... 120
Notação matricial ....................................................................................................................................... 121
Estimativa dos coeficientes ........................................................................................................................ 121
Matriz de variâncias e covariâncias ........................................................................................................... 126
Testes de hipótese ..................................................................................................................................... 127
Coeficientes de determinação para o modelo de regressão múltipla ........................................................ 129
Previsão de valores de Y .......................................................................................................................... 130
Análise das suposições do modelo de regressão...................................................................................... 131
Regressão polinomial ................................................................................................................................. 131
1
Introdução
José Luis Duarte Ribeiro
Carla ten Caten
VARIABILIDADE
Apesar de nossa formação ser basicamente determinística, ensinando que
1 + 1 é igual a 2 e 15 +5 é igual a 20, vivemos em um mundo onde tudo
varia. Por exemplo, alguém que tem o hábito de preparar um churrasco
no fim de semana pode ter comprado dois quilos de carne inúmeras
vezes, mas ele nunca recebeu exatamente 2,00 Kg. Da mesma forma, o
seu trajeto para o trabalho pode incluir um trecho de 15 min., feito de
automóvel, mais um trecho de 5 min., feito a pé, mas você nunca fez
todo o trajeto em exatamente 20:00 min.
Similarmente, os processos produtivos dependem de vários parâmetros
(pressão, temperatura, velocidade, etc.); esses parâmetros deveriam ser
mantidos em certos níveis, mas eles irão apresentar variabilidade.
Conseqüentemente, os produtos resultantes de processos de manufatura,
ou de processos de prestação de serviço, também irão apresentar
variabilidade. Um eixo usinado terá um diâmetro final de
aproximadamente 50,0 mm. Em um restaurante, você será servido em
aproximadamente 20 min.
A variabilidade está sempre presente em qualquer processo onde ocorre
a produção de bens ou serviços, independentemente de quão bem ele
seja projetado e operado. Se compararmos duas peças quaisquer,
produzidas pelo mesmo processo, suas medidas jamais serão exatamente
idênticas. As medidas feitas em um lote, podem estar todas dentro das
especificações, mas mesmo assim a variabilidade estará presente.
As fontes de variabilidade podem agir de forma diferente sobre o
processo. Conforme a fonte de variabilidade, o resultado pode ser: (i)
pequenas diferenças peça-a-peça, em função da habilidade do operador
ou diferenças de matéria-prima, (ii) alteração gradual no processo, em
função do desgaste de ferramentas ou mudança na temperatura do dia, e
(iii) alteração brusca no processo, devido a alguma mudança de
procedimento, ou queda de corrente, ou troca de setup, etc.
As fontes de variabilidade interferem nos processos de produção de bens
ou serviços, fazendo com que os produtos finais não sejam exatamente
idênticos. Isso pode conduzir a produtos defeituosos, ou seja, produtos
cujas características não satisfazem a uma determinada especificação.
2
1. Introdução
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Variação
Figura 1 - Processo de fabricação
Entrada
Processo de fabricação
(bens ou serviços)
Saída
Fontes de variabilidade
A redução de variabilidade no processo gera itens cujas características
estão mais próximas de um valor alvo. Isso reduz o número de produtos
percebidos como defeituosos e, por conseguinte, os custos da má
qualidade.
Redução de variabilidade
Resultados mais próximos dos valores alvos
Redução de produtos defeituosos
Redução dos custos da má qualidade
A redução da variabilidade depende do conhecimento e análise da
variabilidade presente no processo, para que as fontes de variabilidade
possam ser identificadas, analisadas e bloqueadas.
MÉTODOS ESTATÍSTICOS Todos os processos apresentam problemas e, por conseguinte,
oportunidades de melhoria. Algumas vezes os problemas são simples de
identificar e resolver. No entanto, outras vezes podem ser muito difíceis.
Quando o problema é difícil, a coleta sistemática de dados e a
subseqüente análise estatística podem revelar a solução.
Assim, todo o gerente, administrador e engenheiro deveria ter o domínio
dos métodos estatísticos. Esses métodos contribuem em diferentes
aspectos:
redução do tempo da coleta dos dados;
redução do custo da coleta dos dados;
melhor organização e consolidação dos dados;
maior agilidade no processamento dos dados;
máxima informação é extraída dos dados;
maior precisão (confiança) na análise;
melhor apresentação dos resultados.
Todos esses aspectos asseguram um suporte mais qualificado à tomada
Estatística Industrial
1. Introdução
3
de decisão gerencial e auxiliam a reduzir:
tempo de ciclo das melhorias contínuas;
tempo de desenvolvimento do produto;
tempo de validação de projetos;
tempo de otimização de processos.
As equipes que reúnem conhecimentos técnicos sobre o problema em
estudo e domínio dos métodos estatísticos têm seu potencial largamente
ampliado.
Definição de estatística
A disciplina estatística engloba um conjunto de métodos científicos para
a coleta, organização, resumo, análise e apresentação de dados, bem
como a obtenção de conclusões válidas, que dêem suporte à tomada de
decisões baseadas em tais análises.
Em sentido mais restrito, o termo estatística é usado para designar um
resultado extraído dos dados, como, por exemplo, a média ou desvio
padrão.
COLETA DE DADOS
Os dados são a base para a tomada de decisões confiáveis durante a
análise de um problema; os dados são úteis quando eles geram algum
tipo de ação. Por isso, é importante ter bem claro quais são os objetivos
da coleta de dados. Em unidades de produção de bens ou serviços, os
principais objetivos podem ser:
desenvolvimento de novos produtos;
inspeção;
monitoramento dos processos;
melhoria nos processos.
A coleta de dados pode se basear em dados históricos ou em
experimentos planejados. Dados históricos são dados que já estão
disponíveis na empresa e, por isso, podem ser obtidos sem interferência
no processo. Um experimento planejado envolve mudanças propositais
realizadas nos fatores do processo (causas), de modo que se possa
avaliar as possíveis alterações sofridas pelas características de qualidade
(efeitos), como também as razões destas alterações.
População e amostra
Ao coletar os dados referentes às características de um grupo de objetos
ou indivíduos, como por exemplo número de parafusos defeituosos
produzidos em uma fábrica, é muitas vezes impraticável observar todo o
grupo.
Em vez de examinar o grupo inteiro, denominado população,
examinamos uma pequena parte, chamada amostra.
Uma população pode ser finita ou infinita. Por exemplo, a população
constituída de todos os parafusos produzidos por uma fábrica em um
mês é finita. Enquanto que a população constituída de todos os
resultados (cara ou coroa) em sucessivos lances de uma moeda é infinita.
Se a amostra é representativa da população, os resultados da amostra
podem ser usados para inferir sobre a população. Essa parte é chamada
4
1. Introdução
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
de Inferência Estatística e será a ênfase deste texto.
Há uma outra parte da Estatística que procura somente descrever e
analisar um certo grupo, sem tirar conclusões ou inferências a respeito
de um grupo maior. É a chamada Estatística Descritiva
Figura 2 - População x amostra
Quantos ?
Amostra
DADOS
População
INFERÊNCIA
Para que as inferências sejam válidas e suficientemente precisas, é
importante que seja feita uma boa amostragem. As possíveis causas de
erros nas inferências, muitas vezes têm origem em problemas de
amostragem, por exemplo:
Tipos de dados
falta da determinação correta da população;
falta de aleatoriedade na escolhas das unidades da população,
gerando uma amostra que não é representativa da população;
erro no dimensionamento do tamanho da amostra, gerando uma
amostra insuficiente para lidar com a variação aleatória presente no
processo em estudo.
Uma variável é representada por um símbolo como X, Y, H, Z, e pode
assumir qualquer valor de um conjunto de valores. O conjunto de
valores possíveis é chamado de domínio da variável. Se a variável só
pode assumir um valor, é chamada de constante.
Se uma variável pode assumir qualquer valor entre dois limites
quaisquer, é chamada de Variável Contínua. Do contrário, é chamada de
Variável Discreta.
Exemplo 1: O diâmetro de uma peça torneada pode ser 2,50 ou 2,533
ou 2,5389, dependendo da precisão da medida; é uma variável contínua.
Exemplo 2: O número de unidades defeituosas em lotes de 100
unidades é uma variável discreta (0, 1, 2, etc.).
Algarismos significativos
No caso de variáveis contínuas, um valor 2,51 indica que o verdadeiro
valor está compreendido entre 2,505 e 2,515. Os algarismos corretos,
não contando os zeros necessários para a localização da vírgula,
chamam-se Algarismos Significativos.
1,668
apresentado como 1,67
tem 3 A. S.
Estatística Industrial
1. Introdução
0,001803
apresentado como 0,0018
tem 2 A. S.
0,001803
apresentado como 0,00180
tem 3 A. S.
453,807
apresentado como 453,807
tem 6 A. S.
453,807
apresentado como 454
tem 3 A. S.
5
A noção de algarismos significativos não se aplica para o caso de
variáveis discretas (que teriam uma infinidade de algarismos
significativos).
FUNÇÕES
Se a cada valor que a variável X pode assumir, corresponder um ou mais
valores da variável Y, diz-se que Y é uma função de X e a notação é:
Y = F(X)
A variável X chama-se variável independente, e a variável Y chama-se
variável dependente.
Exemplo: A força de tração (T) em um tirante depende do peso (W)
colocado em sua extremidade.
T = F(W)
Exemplo: A resistência (H) de uma liga metálica depende da
temperatura (T) do tratamento térmico.
H=F(T)
GRÁFICOS
Muitos tipos de gráficos são utilizados na Estatística. Eles
complementam a análise numérica e auxiliam nas comparações e na
observação de tendências. Entre os vários tipos de gráficos, cita-se:
gráficos de barras, gráficos circulares, gráficos de dispersão,
histogramas, curvas de regressão, séries temporais, etc.
Gráfico de Barras
Gráfico Circular
Produção do modelo S.M. 93
Vendas durante o ano de 1994
C D
7% 3%
2000
1500
XYZ
40%
B
30%
1000
500
0
J
F
M
A
MESES
M
Figura 3 - Exemplos de gráficos
utilizados na Estatística.
Gráfico de Dispersão
J
A
20%
Curva de Regressão
XYZ
A
B
C
D
6
1. Introdução
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
20
16
16
DUREZA
12
12
R
8
8
4
4
0
0
1
2
3
4
ESPAÇAMENTO
5
6
0
2
4
6
8
10 12 14 16 18
TEMPO DE TRAT. TÉRMICO
EXERCÍCIOS
Exercício 1.1.
Identifique se as seguintes variáveis são contínuas ou discretas:
(1) número de livros em uma biblioteca;
(2) número de unidades defeituosas em um lote de produção;
(3) tempo de processamento de uma peça usinada;
(4) resistência de uma fibra sintética;
(5) número de defeitos de solda em uma carroceria;
(6) volume de um refrigerante.
Exercício 1.2.
Indique um exemplo de variável contínua e um exemplo de variável
discreta com as quais você lida no seu dia a dia. Informe também o
domínio dessas variáveis, ou seja, seu intervalo de variação possível.
Exercício 1.3.
Arredonde os valores a seguir, apresentando-os com 2 e com 3
algarismos significativos.
X1 = 0,8078
X2 = 52,35
X3 = 6927
Exercício 1.4.
Em relação ao exercício anterior, considere que os valores originais são
exatos e calcule o erro cometido em cada arredondamento efetuado.
Exercício 1.5.
Os dados a seguir representam a capacidade em litros dos porta-malas
dos carros populares produzidos no Brasil em 1996. Plote esses dados
usando um gráfico de barras.
Corsa: 240 l
Uno:
224 l
Hobby: 325 l
Gol:
Exercício 1.6.
146 l
Os dados a seguir representam os cinco automóveis mais vendidos no
Brasil no ano de 1996. Plote esses dados em um gráfico circular.
Marca
Volume
Gol
235.000
Estatística Industrial
1. Introdução
Uno
225.000
Corsa
110.000
Tipo
107.000
Escort
97.000
Total
774.000
7
Os dados a seguir apresentam a evolução do número de cursos de
mestrado e doutorado na UFRGS nos últimos 30 anos. Plote esses
gráficos como uma série temporal.
Exercício 1.7.
Ano
1967
1972
1977
1982
1987
1992
1993
1994
Cursos de
Mestrado
9
22
28
33
39
47
48
50
Cursos de
Doutorado
3
3
5
5
12
25
26
27
Os dados a seguir foram coletados em um processo de produção de
fibras sintéticas. Plote um gráfico de dispersão (X e Y) e conclua a
respeito.
Exercício 1.8.
X: Espaçamento
entre rolos
5,1
5,5
4,8
1,2
1,8
4,2
3,5
1,0
Y: Resistência
11,8
12,8
13,0
13,0
13,5
14,3
14,4
14,6
X: Espaçamento
entre rolos
4,7
2,2
1,6
2,8
2,3
4,0
3,3
2,3
Y: Resistência
15,0
15,2
15,6
16,0
17,0
17,1
17,8
18,1
A empresa JKL fez um levantamento das vendas, obtendo as seguintes
informações:
Exercício 1.9.
Modelo \ UF
RS
SP
RJ
AB3
532
633
587
XP9
459
501
492
ZC4
146
152
149
KW1
721
930
773
Construa um gráfico de barras.
Exercício 1.10.
Construa o gráfico de dispersão para as notas de certa turma em
matemática
Mat
Est
Exercício 1.11.
3
6
5
5
3
5
2
6
7
10
9
8
4
7
8
8
6
7
Na operação 3 foram verificados os defeitos encontrados na
montagem da bomba hidráulica . Construa o gráfico de barras e
analise.
Tipo de defeito
Freqüência
5
9
8
1. Introdução
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Compressor
Selo
Junta
Mangueira
Vedação
outros
7
2
12
6
30
3
2
Distribuições de freqüência
José Luis Duarte Ribeiro
Carla ten Caten
Na análise de conjuntos de dados é costume dividi-los em classes ou
categorias e verificar o número de indivíduos pertencentes a cada classe,
ou seja, a freqüência da classe. Os dados a seguir apresentam um
conjunto de 50 observações da principal característica dimensional de
um tipo de peça usinada (dados em ordem crescente).
12,58
12,97
13,45
13,53
13,59
13,61
13,62
13,78
13,97
14,21
14,47
14,51
14,53
14,58
14,65
14,78
14,83
14,97
15,06
15,13
15,17
15,23
15,29
15,37
15,40
15,45
15,51
15,62
15,67
15,73
15,83
15,98
16,01
16,11
16,17
16,23
16,35
16,43
16,49
16,52
16,67
16,83
16,97
17,05
17,13
17,22
17,3
17,48
17,8
18,47
A Tabela 1 apresenta uma tabela de freqüência de 50 observações de
uma característica dimensional.
Tabela 1 - Tabela de freqüência
absoluta
Intervalos de classe da
característica dimensional
Freqüência absoluta
12,50 a 13,50
3
13,51 a 14,50
8
14,51 a 15,50
15
15,51 a 16,50
13
16,51 a 17,50
9
17,51 a 18,50
2
A tabela de freqüência apresenta dados agrupados. Nesse caso, os detalhes
originais dos dados são perdidos, mas a vantagem está em observar aspectos
globais do problema.
INTERVALOS DE
CLASSE
Os limites tais como 12,50 a 13,50 são chamados de intervalos de classe. O
número menor (12,50), é o limite inferior da classe; e o maior (13,50) é o
limite superior da classe. Em alguns casos, pode-se usar intervalos abertos, do
tipo 13,50 ou menor; 17,50 ou maior.
Amplitude do intervalo
de classe
Quando todos os intervalos de classe têm a mesma amplitude, essa é calculada
fazendo-se a diferença entre dois limites inferiores ou dois limites superiores
sucessivos. Caso contrário, teremos uma amplitude variável.
Para o exemplo, a amplitude é 13,50-12,50 = 14,50-13,50=1
Estatística Industrial
2. Distribuições de freqüência
11
Ponto médio de uma
classe
É obtido somando-se o limite inferior ao superior e dividindo por dois. Assim,
o ponto médio do intervalo 12,50 a 13,50 é (12,50+13,50)/2 = 13,00
REGRAS GERAIS
PARA ELABORAR
UMA DISTRIBUIÇÃO
DE FREQÜÊNCIA
a) Determina-se o maior e menor valor do conjunto de dados;
Para o exemplo, Mín = 12,58 e Máx = 18,47
b) Define-se o limite inferior da primeira classe (LI), que deve ser igual ou
ligeiramente inferior ao menor valor das observações;
Para o exemplo, LI = 12,50
c) Define-se o limite superior da última classe (LS), que deve ser igual ou
ligeiramente superior ao maior valor das observações;
Para o exemplo, LS = 18,50
d) Define-se o número de classes (K), que pode ser calculado usando
K= n
e deve estar compreendido entre 5 a 20;
Para o exemplo, K = 50 ≅ 7 , mas por praticidade, foi escolhido K = 6
e) Conhecido o número de classes define-se a amplitude de cada classe: a =
(LS - LI) / K;
Para o exemplo, a =
( LS − LI ) (18,50 − 12,50)
=
=1
K
6
f) Conhecida a amplitude das classes, define-se os limites inferior e superior
para cada classe. Por exemplo, para a 1a classe: lim. inf. = LI; lim. sup. = LI+
a;
Para o exemplo, lim inf = 12,50 e
lim sup = 12,50 + 1 = 13,50
g) Calcula-se a freqüência de cada classe, ou seja, o número de observações
pertencentes a cada classe, e completa-se a tabela de freqüência;
Para o exemplo, o número de observações pertencentes ao intervalo 12,50 a
13,50 é 3.
HISTOGRAMAS E
POLÍGONO DE
FREQÜÊNCIA
Histogramas e polígonos de freqüência são representações gráficas da tabela
de freqüências. Um histograma consiste de um conjunto de retângulos que
têm:
a) a base sobre um eixo horizontal com centro no ponto médio e largura igual
a amplitude do intervalo de classes;
b) a área proporcional às freqüências das classes.
12
2. Distribuições de freqüência
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Figura 4 - Histograma e
polígono de freqüências
absolutas para o exemplo
anterior
16
16
12
12
8
8
4
4
0
12 13 14 15 16 17 18 19
0
12
13
14
15
16
17
18
19
Se todos os intervalos tiverem a mesma amplitude, as alturas dos retângulos
serão proporcionais às freqüências das classes, e então costuma-se tomar as
alturas numericamente iguais a essas freqüências.
Um polígono é um gráfico obtido ligando-se os pontos médios dos topos dos
retângulos de um histograma.
DISTRIBUIÇÃO DE
FREQÜÊNCIAS
RELATIVAS
A freqüência relativa de uma classe é calculada dividindo-se a freqüência
dessa classe pelo total de todas as classes e é, geralmente, expressa em
percentagem.
Eq 1:
Freq. relativa =
∑
freq. da classe
x100
freq. todas classes
Por exemplo, a freqüência relativa da 1a classe da Eq 1 é :
Eq 2:
Freq. relativa =
∑
freq. da classe
3
x 100 =
x 100 = 6%
freq. todas classes
50
Se as freqüências da Tabela 2 forem substituídas pelas freqüências relativas,
teremos uma tabela de freqüências relativas e então pode ser plotado um
histograma de freqüências relativas ou um polígono de freqüências relativas.
Intervalos de classe da
característica
dimensional
Freqüência absoluta
12,50 a 13,50
3
6%
13,51 a 14,50
8
16%
14,51 a 15,50
15
30%
15,51 a 16,50
13
26%
16,51 a 17,50
9
18%
17,51 a 18,50
2
4%
Tabela 2 - Distribuição de
freqüência relativa
Figura 5 - Histograma e
polígono de freqüência relativa
para o exemplo anterior
DISTRIBUIÇÃO DE
Freqüência
relativa
32%
32%
24%
24%
16%
16%
8%
8%
0%
0%
12
13
14
15
16
17
18
19
12
13
14
15
16
17
18
19
A freqüência total de todos os valores inferiores ao limite superior de uma
Estatística Industrial
2. Distribuições de freqüência
FREQÜÊNCIAS
ACUMULADAS
13
dada classe é denominada freqüência acumulada para aquele intervalo.
Por exemplo, a freqüência acumulada até e inclusive o intervalo 13,51 a
14,50 é 3 + 8 = 11, o que significa que 11 das 50 peças cerâmicas
apresentam característica dimensional inferior a 14,50.
Uma tabela que apresente essas freqüências é chamada de tabela de
freqüência acumulada. Um gráfico que apresente a freqüência acumulada é
denominado de polígono de freqüência acumulada.
Intervalos de
Freqüência
classe da caract. absoluta
dimensional
abaixo de 12,50
0
Tabela 3 - Distribuição de
freqüência acumulada
Freqüência
relativa
0%
Freqüência
acumulada
absoluta
0
Freqüência
acumulada
relativa
0%
12,50 a 13,50
3
6%
3
6%
13,51 a 14,50
8
16%
11
22%
14,51 a 15,50
15
30%
26
52%
15,51 a 16,50
13
26%
39
78%
16,51 a 17,50
9
18%
48
96%
17,51 a 18,50
2
4%
50
100%
Dividindo-se a freqüência acumulada pelo total das observações, tem-se a
tabela de freqüências acumuladas relativas e o correspondente polígono de
freqüências acumuladas relativas.
Figura 6 - Polígono de
freqüências acumulada
absolutas e relativas
CURVAS DE
FREQÜÊNCIA
SUAVIZADAS
50
100%
40
80%
30
60%
20
40%
10
20%
0
0%
12,5
13,5
14,5
15,5
16,5
17,5
18,5
12,5 13,5 14,5 15,5 16,5 17,5 18,5
O polígono de freqüência e o polígono de freqüência acumulado pode ser
suavizado. Isso ajuda a filtrar o ruído presente em qualquer conjunto de dados.
O polígono de freqüência suavizado é a distribuição de freqüência ou
distribuição de probabilidade de uma característica.
A análise das distribuições de probabilidade indica o comportamento de uma
característica que seria observado no caso de uma amostra muito grande ou
infinita.
TIPOS DE
DISTRIBUIÇÕES DE
PROBABILIDADE
(FREQÜÊNCIA
RELATIVA)
A Figura 7 apresenta diversos tipos de distribuições de probabilidade.
14
2. Distribuições de freqüência
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Simétrica
Forma de Sino
Assimétrica à Direita
Assimetria Positiva
Assimétrica à Esquerda
Assimetria Negativa
EMBED PBrush
Figura 7 - Tipos de
distribuições de freqüência.
Uniforme
Exponencial
5,1
5,3
5,3
5,6
5,8
5,9
6,0
6,1
6,2
6,2
6,3
6,3
6,3
6,4
6,4
6,4
6,5
6,5
6,6
6,7
6,7
6,8
6,8
6,9
6,9
7,0
7,1
7,1
7,2
7,2
7,3
7,4
7,5
7,5
7,6
7,6
7,6
7,7
7,7
7,8
7,8
7,9
7,9
8,0
8,0
8,1
8,2
8,3
8,3
8,4
8,5
8,5
8,6
8,7
8,8
8,8
8,9
9,0
9,1
9,2
9,4
9,4
9,5
9,5
9,6
9,8
9,9
10,0
10,2
10,2
10,4
10,6
10,8
10,9
11,2
11,5
11,8
12,3
12,7
14,9
Exercício 2.2.
Suavize o gráfico de freqüências acumuladas obtido no exercício anterior, e então
estime o percentual das operações onde o tempo deverá ultrapassar 10 minutos.
Exercício 2.3.
Os dados a seguir representam a espessura (em mm) de uma peça mecânica.
Organize esses dados em uma tabela de freqüências relativas e depois plote o
histograma de freqüências relativas, o polígono de freqüências relativas e o gráfico
de freqüências relativas acumuladas.
20,4
22,3
23,1
23,5
23,8
24,1
24,3
24,3
24,6
24,8
24,9
25,0
25,1
25,3
25,3
25,4
25,6
25,7
25,8
26,0
26,0
26,1
26,2
26,2
26,3
26,5
26,6
26,7
26,8
26,9
27,1
27,1
27,3
27,5
27,7
27,9
28,0
28,3
28,7
29,6
Exercício 2.4.
Suavize o gráfico de freqüências acumuladas obtido no exercício anterior, e
então estime o percentual de peças que deve apresentar uma espessura inferior
a 24 mm.
Exercício 2.5.
Tendo em vista os polígonos de freqüência obtidos nos exercícios 2.1. e 2.3.
você diria que as populações do tempo e da espessura apresentam distribuição
de probabilidade simétrica ou assimétrica?
Exercício 2.6.
Plote os histogramas correspondentes às tabelas de freqüência a seguir e
indique o tipo de curva de freqüência em cada caso.
X1: Característica dimensional de uma peça;
X2: Tempo de uso (horas/semana) de um produto;
Estatística Industrial
2. Distribuições de freqüência
15
X3: Tempo até a falha de um produto.
X1
Freq.
X2
Freq.
X3
Freq.
25,52 a 25,53
6
0a4
1
0 a 100
20
25,53 a 25,54
14
4a8
2
100 a 200
16
25,54 a 25,55
20
8 a 12
9
200 a 300
11
25,55 a 25,56
18
12 a 16
24
300 a 400
7
25,56 a 25,57
15
16 a 20
48
400 a 500
4
25,57 a 25,58
7
20 a 24
6
500 a 600
2
3
Medidas de tendência central e
variabilidade
José Luis Duarte Ribeiro
Carla ten Caten
MEDIDAS DE TENDÊNCIA Há várias medidas de tendência central. Entre elas citamos a média
aritmética, a mediana, a média harmônica, etc. Cada uma dessas
CENTRAL
medidas apresenta vantagens e desvantagens, e a escolha depende dos
objetivos desejados. A seguir veremos como é feito o cálculo dessas
medidas.
Média aritmética
A média aritmética, ou simplesmente média, de um conjunto de n
valores x1, ..., xn é definida como:
Eq 3:
x1 +...+ x n 1 n
X =
= ∑ xi
n
n i =1
a média aritmética do conjunto 7,5 7,9 8,1 8,2 8,7 é
Exemplo:
Eq 4:
X =
7,5 + 7,9 + 8,1 + 8,2 + 8,7
= 8,08
5
Na Estatística, é usual utilizar as letras gregas para representar
parâmetros populacionais e as letras comuns para representar estimativas
amostrais. A média de uma amostra é representada por X e a média da
população é representada pela letra grega µ.
Média aritmética para
dados agrupados
Quando a informação disponível é o ponto médio do intervalo i (Xi) e a
freqüência do intervalo i (fi), a média é calculada como:
Eq 5:
K
∑ fi X i
f 1 X 1 + .... + f K X K i =1
X =
=
K
f 1 + .... + f K
∑ fi
i =1
Para os dados da Tabela 2.1. resulta:
Eq 6:
Média aritmética
ponderada
X =
3(13) + 8(14) + 15(15) + 13(16) + 9(17) + 2(18)
= 15,46
50
Algumas vezes associa-se a cada observação um peso Wi, onde esse peso
representa a importância atribuída a cada observação. Nesse caso a
Estatística Industrial
3. Medidas de tendência central e probabilidade
17
média ponderada é calculada como:
Eq 7:
n
∑ wi x i
w1 x1 +....+ wn x n i =1
X =
=
n
w1 +....+ wn
∑ wi
i =1
Por exemplo, um exame de seleção pode ser composto de três provas
onde as duas primeiras tem peso 1 e a terceira tem peso 2. Um
candidato com notas 70 75 e 90 terá média final:
Eq 8:
Mediana
X =
1( 70) + 1( 75) + 2( 90)
= 81,25
4
Dado um conjunto de valores em ordem crescente, a mediana é definida
como:
Se n é impar, o valor central;
Se n é par, a média simples dos dois valores centrais.
Exemplo 1:
Exemplo 2:
na amostra 25 26 26 28 30 a mediana é ~
x = 26
(74 + 75)
na amostra 71 73 74 75 77 79 a mediana é ~
x=
= 74,5
2
Moda
A moda é o valor que ocorre com maior freqüência, ou seja, é o valor
mais comum. A moda pode ser múltipla ou pode não existir.
Exemplo 1:
na amostra 23 25 25 26 26 26 27 29 a moda é 26.
Exemplo 2:
na amostra 71 73 73 75 76 77 77 79 81 a moda é 73 e 77
Relações empíricas entre
média, moda e mediana
Para distribuições simétricas a média, a mediana e a moda coincidem
aproximadamente. Para distribuições assimétricas observa-se a relação
que aparece na Figura 8.
B
Figura 8 : Distribuições assimétricas
Exemplo:
Para as amostras a seguir a relação entre média e mediana é
C
18
3. Medidas de tendência central e probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
A
Distribuição
simétrica
10 12 14 16 18
x = 14 = ~
x = 14
B
Distribuição
assimétrica à direita
10 12 14 16 23
x = 15 > ~
x = 14
C
Distribuição
assimétrica à
esquerda
05 12 14 16 18
x = 13 < ~
x = 14
Média geométrica
É a raiz de ordem n do produto dos valores da amostra:
Eq 9: G = n X X .... X
1 2
n
a média geométrica de 12 14 16 é:
Exemplo:
Eq 10: G = 3 12 × 14 × 16 = 13,90
Média harmônica
É a recíproca da média aritmética das recíprocas das observações:
Eq 11:
H=
1
1
1
∑X
n
i
=
n
1
∑X
i
a média harmônica de 12 14 16 é:
Exemplo:
Eq 12:
Relação entre média
aritmética, geométrica e
harmônica:
H=
3
= 13,81
1
1
1
+
+
12 14 16
A média geométrica e a média harmônica são menores, ou no máximo
igual, à média aritmética (ver Eq 13). A igualdade só ocorre no caso em
que todos os valores da amostra são idênticos. Quanto maior a
variabilidade, maior será a diferença entre as médias harmônica e
geométrica e a média aritmética.
Eq 13: H ≤ G ≤ X
Exemplo:
para a amostra 12 14 16 tem-se:
Eq 14: H = 13,81 < G = 13,90 < X = 14,00
Quartis
Se um conjunto de dados é organizado em ordem crescente, o valor
central, que divide o conjunto em duas partes iguais, é a mediana.
Valores que dividem o conjunto em quatro partes iguais são
representados por Q1, Q2, Q3, e denominam-se primeiro, segundo e
terceiro quartis, respectivamente.
O segundo quartil é a mediana. O primeiro e o terceiro quartil são
calculados usando-se o seguinte procedimento:
(1) partindo de uma amostra de tamanho n, colocar os valores em ordem
crescente e identificar a ordem i (1, 2, 3, …, n) e o percentil p(i) = (i0,5)/n associado a cada valor.
Estatística Industrial
3. Medidas de tendência central e probabilidade
19
(2) identificar os valores associados aos percentis imediatamente acima e
abaixo de 0,25; esses valores são chamados respectivamente de x(inf),
associado ao percentil p(inf), e x(sup), associado ao percentil p(sup).
(3) e então calcular o primeiro quartil usando:
Eq 15:
Q1 =
[ p(sup) − 0,25] × x(inf) + [0,25 − p(inf)]× x(sup)
p(sup) − p(inf)
(4) similarmente, para o terceiro quartil, identifica-se os valores
associados aos percentis imediatamente acima e abaixo de 0,75; esses
valores são chamados respectivamente de x(inf), associado ao percentil
p(inf), e x(sup), associado ao percentil p(sup). E então calcula-se o
terceiro quartil usando:
Eq 16:
Q3 =
[ p(sup) − 0,75] × x(inf) + [0,75 − p(inf)] × x(sup)
p(sup) − p(inf)
Para a amostra a seguir calcular o primeiro e terceiro quartis:
Exemplo:
13,3 13,5 17,2 13,8 12,3 12,7 13,0 14,5 14,9 15,8 13,1 13,3 14,1
(1) valores em ordem crescente e cálculo de p(i):
x(i)
12,3
12,7
13,0
13,1
13,3
13,3
13,5
13,8
14,1
14,5
14,9
15,8
17,2
i
1
2
3
4
5
6
7
8
9
10
11
12
13
p(i) = (i-0,5)/n
0,038
0,115
0,192
0,269
0,346
0,423
0,500
0,577
0,654
0,731
0,808
0,885
0,962
(2) valores imediatamente acima e abaixo de 0,25: x(inf) = 13,0 e x(sup)
= 13,1 associados com p(inf) = 0,192 e p(sup) = 0,269
(3) primeiro quartil:
Eq 17:
Q1 =
[0,269 − 0,25] × (13,0) + [0,25 − 0,192] ×13,1
= 13,08
0,269 − 0,192
(4) valores imediatamente acima e abaixo de 0,75: x(inf) = 14,5 e x(sup)
= 14,9 associados com p(inf) = 0,731 e p(sup) = 0,808, resultando para o
terceiro quartil:
Eq 18:
Q3 =
[0,808 − 0,75] × (14,5) + [0,75 − 0,731] × 14,9
= 14,60
0,808 − 0,731
20
3. Medidas de tendência central e probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
MEDIDAS DE
VARIABILIDADE
Invariavelmente as observações individuais irão apresentar alguma
dispersão em torno do valor médio. Isso é chamado de variabilidade
ou dispersão dos dados. Há muitas medidas de variabilidade, como por
exemplo, a amplitude total, o desvio padrão ou a distância interquartílica. Essas medidas serão detalhadas na seqüência.
Amplitude total
A amplitude total é definida como a diferença entre o maior e o menor
valor das observações.
Por exemplo, para a amostra: 8,5 8,7 8,9 10,1 10,5 10,7 11,5
11,9
A amplitude é: R = 11,9 - 8,5 = 3,4
A amplitude é fácil de calcular e fornece uma idéia da magnitude da
faixa de variação dos dados. A amplitude não informa a respeito da
dispersão dos valores que se encontram entre os dois extremos. Quando
n < 10, a amplitude pode resultar em uma medida de variação bastante
satisfatória.
Desvio-padrão
Para uma amostra de n observações, x1, ..., xn , o desvio- -padrão S
é definido como:
Eq 19:
S=
∑ ( x i − x )2
n −1
=
∑ xi2 − [(∑ xi ) 2 / n]
n −1
A vantagem do desvio-padrão é que se trata de uma medida de
variabilidade que leva em conta toda a informação contida na amostra.
A desvantagem é que seu cálculo é mais trabalhoso.
Para amostras pequenas (n < 30) usa-se n - 1 no denominador da
equação anterior. Quando a amostra é grande (n > 30) ou quando tratase da população usa-se n no denominador.
O desvio-padrão de uma população é representado pela letra grega σ.
Exemplo: para a amostra 10 12 14 16 18
A média é x = 14 e o desvio-padrão é calculado como:
Eq 20:
S=
Variância
(10 − 14)2 + (12 − 14)2 + (14 − 14)2 + (16 − 14) 2 + (18 − 14)2
= 3,16
n −1
A variância S2 é definida como o quadrado do desvio-padrão, ou seja,
9,98.
Eq 21:
S
2
(xi − x )2 ∑ xi2 − [(∑ xi ) 2 / n]
∑
=
=
n −1
n −1
A variância de uma população é representada pela letra grega σ2 .
Amplitude inter-quartílica
É definida como a amplitude do intervalo entre o primeiro e o terceiro
Estatística Industrial
3. Medidas de tendência central e probabilidade
21
quartis, ou seja:
Eq 22: Q = Q − Q
3
1
Ás vezes também é usada a semi-amplitude inter-quartílica, que é a
metade da anterior.
A amplitude inter-quartílica é uma medida de variabilidade bastante
robusta, que é pouco afetada pela presença de dados atípicos. A
amplitude inter-quartílica guarda a seguinte relação aproximada com o
desvio-padrão:
Eq 23: Q = (4/3) x desvio-padrão
Coeficiente de variação
Eq 24:
É definido como o quociente entre o desvio-padrão e a média e, em
geral, é expresso em percentual, conforme a equação a seguir.
CV = 100 ×
S
X
O coeficiente de variação é uma medida adimensional, útil para
comparar resultados de amostras cujas unidades podem ser diferentes.
Uma desvantagem do coeficiente de variação é que ele deixa de ser útil
quando a média é próxima de zero.
Exemplo:
Dois processos, medindo itens diferentes, obtiveram os seguintes
resultados:
Folha de aço: Média=2,49 mm Desvio-padrão=0,12 mm
Chapa de madeira: Média=3,75 cm Desvio Padrão=0,15 cm
Qual dos dois processos é relativamente mais preciso?
CV1 = 0,12 / 2,49 x 100 = 4,8%
CV2 = 0,15 / 3,75 x 100 = 4,0%
O segundo processo é relativamente mais preciso.
Variável reduzida ou
padronizada
A variável Z =
X−X
é denominada de variável reduzida ou
S
padronizada.
Ela mede a magnitude do desvio em relação à média, em unidades do
desvio-padrão. Z = 1,5 significa uma observação desviada 1,5 desvios
padrão para cima da média. A variável reduzida é muito útil para
comparar distribuições e detectar dados atípicos. Os dados são
considerados atípicos quando o módulo de Z é maior que 2,5 ou 3.
Exemplo 1:
Um engenheiro está analisando as espessuras de peças fabricadas em
duas máquinas de corte. O operador mediu uma peça da máquina A com
espessura de 90 mm e outra peça da máquina B com espessura de 100
mm. O engenheiro deve considerar esses dados coletados reais ou
22
3. Medidas de tendência central e probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
atípicos?
A máquina A possui média 51 mm e desvio-padrão 12 mm.
Z=
90 − 51
= 3,25
12
Como |Z| > 3 o dado pode ser considerado
atípico
A máquina B possui média 72 mm e desvio-padrão 16 mm.
Z=
100 − 72
= 1,75 Como |Z| < 3 o dado não pode ser considerado
16
atípico
Exemplo 2:
Supondo que 51 fosse a média em uma prova de inglês, onde o desvio
padrão é 12, para um candidato que obtivesse 90 acertos tem-se:
Z =
X − X
90 − 51
=
= 3 , 25
S
12
Conclui-se que na prova de inglês este candidato está 3,25 desviospadrão acima da média.
EXERCÍCIOS
Exercício3.1.
Para os dados do exercício 2.1, calcule a média aritmética e a mediana e
verifique que a relação média > mediana, é válida para distribuições
assimétricas à direita.
Exercício 3.2.
Ainda em relação aos dados do exercício 2.1, calcule a média aritmética
usando a fórmula para dados agrupados e a tabela de freqüência que
você construiu.
Exercício 3.3.
Para os dados do exercício 2.3., calcule a média e a mediana e verifique
a relação média ≅ mediana para distribuições simétricas.
Exercício 3.4.
A partir dos dados do exercício 2.6., use a fórmula para o cálculo da
média de dados agrupados e calcule a média para:
X1: Característica dimensional de uma peça;
X2: Tempo de uso (horas/semana) de um produto;
X3: Tempo até a falha de um produto.
Exercício 3.5.
As amostras a seguir representam valores de tempos de fabricação de
uma peça produzidas por três máquinas diferentes. Para cada máquina,
calcule a amplitude total, o desvio padrão e a amplitude inter-quartílica.
Após, conclua a respeito de diferenças de variabilidade entre tempos
dessas máquinas.
M A 20,2 24,7 25,7 21,7 19,2 22,3 23,0 23,1 21,3 26,8 20,7 23,6 25,4 24,6 22,5
M B 21,3 22,7 22,5 23,8 20,4 23,3 23,7 23,4 25,5 22,4 23,1 21,7 24,3 24,7 22,2
M C 22,1 24,4 24,0 21,5 23,2 22,0 25,4 27,8 23,5 23,0 20,6 23,6 22,5 22,8 21,4
Estatística Industrial
3. Medidas de tendência central e probabilidade
23
Exercício 3.6.
Calcule o valor da variável reduzida Z para os pontos extremos das
amostras que aparecem no exercício anterior. Após indique se há
evidência de dados atípicos em alguma dessas amostras (obs: para
n=15, um valor de Z > 2,5 já seria evidência de dado atípico).
Exercício 3.7.
Caso haja indícios de dados atípicos, elimine esse resultado e refaça os
cálculos da amplitude total, desvio padrão e amplitude inter-quartílica
para a amostra correspondente. Se necessário, revise as conclusões do
exercício 3.5.
Exercício 3.8.
Para a amostra a seguir (Tempos de uso em horas/semana de um
produto), calcule a média, o desvio padrão e o coeficiente de variação.
Calcule também os valores de Z para cada observação. Analise os
valores de Z e indique se a amostra vem de uma população com
distribuição simétrica, assimétrica à direita ou assimétrica à esquerda.
Exercício 3.9.
4,5
7,0
9,0
11
13
14
16
16
17
18
18
20
21
22
22
23
24
24
24
24
25
25
26
26
26
27
28
28
29
30
Idem ao anterior, Tempos de uso (horas/semana) de um produto
concorrente
0,2
0,2
0,3
0,4
0,6
0,6
0,8
1,0
1,0
1,2
1,2
1,3
1,4
1,5
1,5
1,7
1,8
2,0
2,2
2,5
2,5
2,7
3,3
3,5
3,8
4,3
5,1
12,0
12,
15,0
4
Probabilidade
José Luis Duarte Ribeiro
Carla ten Caten
A Teoria das Probabilidades estuda os fenômenos aleatórios.
Fenômeno Aleatório: são os fenômenos cujo resultado não pode ser
previsto exatamente. Se o fenômeno se repetir, sob condições similares,
o resultado não será sempre o mesmo.
Experimento Aleatório: Qualquer fenômeno aleatório que possa ser
executado pelo homem.
CAMPO AMOSTRAL E
EVENTOS
Os resultados de um experimento aleatório podem ser representados em
um espaço amostral ao qual chamaremos de S.
O espaço S pode ser uni ou k-dimensional, discreto ou contínuo, finito
ou infinito. A figura a seguir apresenta um espaço bidimensional onde
aparecem os eventos A e B.
Figura 9 - Campo amostral.
Como pode ser visto, os eventos A e B estão completamente contidos
em S e apresentam intersecção, ou seja, a sua ocorrência simultânea é
possível.
ESPAÇO AMOSTRAL E
EVENTOS:
Evento: É um conjunto de resultados possíveis do experimento. É um
subconjunto de S.
Exemplo:
Em uma linha de produção, peças são fabricadas em série. Conte o nº de
peças defeituosas em cada 200 peças produzidas. S = {0, 1, 2, ..., 200};
OPERAÇÕES COM
CONJUNTOS
Eventos:
A: ocorrer 10 peças defeituosas. A = {10};
B: ocorrer entre 10 e 15 peças defeituosas. B = {10, 11, 12, 13, 14, 15};
Usando o símbolo ∪ para união e o símbolo ∩ para intersecção,
Estatística Industrial
4. Probabilidade
25
podemos definir os eventos C e D:
Eq 25: C = A ∪ B
representa o conjunto de valores que pertence a A ou B ou a ambos,
enquanto que:
Eq 26 D = A ∩ B
representa o conjunto de valores que pertencem simultaneamente a A e
B.
Usaremos a letra φ para representar o conjunto vazio, e uma barra sobre
a letra, por exemplo A , para representar o complemento de A, isto é,
o conjunto de pontos que não pertence a A.
DEFINIÇÃO DE
PROBABILIDADE
Um experimento será chamado aleatório se puder ser repetido um grande
número de vezes sob condições similares e se o resultado de uma
observação não pode ser exatamente previsto. Uma variável será
chamada aleatória se descreve os resultados de um experimento
aleatório.
Para um evento E em S, podemos definir a existência de uma função
P tal que P represente a probabilidade que x pertença a E. Isto é:
Eq 27
P(E) = Pr (x ∈ E)
Essa função P deve satisfazer algumas propriedades:
1) 0 ≤ P ≤ 1
2) Se E1 e E2 são tais que E1 ∩ E2 = 0,
tem-se que P(E1 ∪ E2) = P(E1) + P(E2)
3) A probabilidade de x pertencer a qualquer ponto do espaço amostral
S deve ser igual a 1: P(S)=1
Essas propriedades são importantes para derivar várias regras de cálculo
de probabilidades.
Para determinar a probabilidade de um evento, usaremos o ponto de
vista das freqüências relativas:
Eq 28 P(E) = m(E) / m(S)
onde m(E) e m(S) representam as medidas de E e S.
SOMA DE
PROBABILIDADES
Dois eventos são ditos mutuamente exclusivos se a sua intersecção é
nula. Para eventos mutuamente exclusivos, a soma das probabilidades é
dada pela generalização da propriedade 2.
Eq 29 P(E1 ∪ E2. ∪....∪ Ek) = Σ P(Ei)
Se os eventos E1 e E2 não são mutuamente exclusivos, mas são
independentes, pode-se demonstrar que:
26
4. Probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Eq 30 P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2)
Para o caso de três eventos, a generalização anterior é:
Eq 31 P(E1 ∪ E2 ∪ E3) = P(E1) + P(E2) + P(E3) - [P(E1 ∩ E2) + P(E1 ∩ E3) +
P(E2 ∩ E3)] + P(E1 ∩ E2 ∩ E3)
Figura 10 - Intersecção de três
eventos.
EXEMPLO 1:
Um digestor químico é alimentado por material que vem de dois tanques
independentes. O material do tanque 1 pode ser uma concentração de
ácido que varia uniformemente entre 4 e 8, enquanto que o material do
tanque 2 pode apresentar uma concentração de base entre 5 e 10 (ver
Figura 11). Sejam os seguintes eventos:
A: material do tanque 1 com concentração superior a 6
B: material do tanque 2 com concentração inferior a 6
Calcule a P(A), P( A ), P(B), P( B ), P(A ∪ B), P(A ∩ B)
Figura 11- Exemplo do digestor
químico.
Solução:
Usando o ponto de vista das freqüências relativas, tem-se:
P(A) = m(A) / m(S)
P(A) = 10 / 20 = 0,5
Estatística Industrial
4. Probabilidade
27
P( A ) = 1 - P(A) = 0,5
P(B) = 4 / 20 = 0,20
P( B ) = 1 - P(B) = 0,80
P(A ∩ B) = 2/20 = 0,10
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
= 0,50 + 0,20 - 0,10 = 0,60
Considerando os dados do exemplo anterior, e sabendo que o processo
apresenta problemas quando a concentração de ácido supera a
concentração de base, calcule a probabilidade disso acontecer.
EXEMPLO 2:
Solução:
P(E1) = m(E1) / m(S)
P(E1) =
3× 3
/ 20 = 0,225
2
Figura 12- Exemplo do digestor
químico.
PRODUTO DE
PROBABILIDADES
A probabilidade de um evento A foi definida como a medida do
conjunto A dividida pela medida de S. Poderíamos, então, escrever
P(A/S) para indicar de forma explícita que a probabilidade de A está
referida a todo o espaço amostral S. Assim:
Eq 32: P(A) = P(A/S) = m(A) / m(S)
Algumas vezes, no entanto, estaremos interessados em calcular a
probabilidade de um evento E1 referida a um sub-espaço de S, por
exemplo, ao espaço definido por E2:
Eq 33: P(E1/E2) = m (E1 ∩ E2) / m(E2)
Dividindo-se numerador e denominador por m(S):
Eq 34: P(E1/E2) = [m (E1 ∩ E2) / m(S)] / [m(E2) / m(S)]
Eq 35: P(E1/E2) = P(E1 ∩ E2) / P(E2)
28
4. Probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Essa expressão define a probabilidade de E1 dado E2 ou referida a E2.
A partir dessa expressão, obtém-se:
Eq 36: P(E1 ∩ E2) = P(E1/E2) . P(E2)
Da mesma forma, poderíamos escrever:
Eq 37: P(E2/E1) = P(E1 ∩ E2) / P(E1)
e então obter:
Eq 38: P(E1 ∩ E2) = P(E2/E1) . P(E1)
As equações 36 e 38 são análogas e definem a probabilidade do produto,
ou seja, da ocorrência simultânea de E1 e E2.
Para três eventos tem-se:
Eq 39: P(E1 ∩ E2 ∩ E3)= P(E1) . P(E2/E1) . P(E3/E1 ∩ E2)
ou expressões equivalentes usando P(E2) ou P(E3).
Exemplo 3:
Para o exemplo do digestor químico calcule a probabilidade da
concentração de ácido superar a concentração de base quando sabe-se
que a concentração de ácido é superior a 6,0.
Solução: O que se pede é a P(E1) dado A. Essa probabilidade é:
P(E1/A) =
EVENTOS
INDEPENDENTES
m(E1 ∩ A)/m(S) 4/20
=
= 0,40
m(A)/m(S)
10/20
Dois eventos, E1 e E2 são ditos independentes se:
Eq 40: P(E1/E2) = P(E1)
nesse caso,
Eq 41: P(E1 ∩ E2) = P(E1) . P(E2)
Para k eventos independentes, tem-se:
Eq 42: P(E1 ∩ .... ∩ Ek) = Σ P(Ei)
Exemplo 4:
Um construtor se submete a licitação para duas obras independentes, A
e B. Baseado na experiência, os engenheiros estimam que a
probabilidade de ganhar a obra A é 0,25; e a probabilidade de ganhar a
obra B é 0,33. Pede-se:
a) Estimar a probabilidade de ganhar ao menos uma das duas obras:
P(A ∪ B) = P(A) + P(B) - P(A∩B) = 0,25 + 0,33 - (0,25 . 0,33) = 0,5
b) Estimar a probabilidade de ganhar a obra A, sabendo-se que o
construtor irá ganhar ao menos uma obra:
Estatística Industrial
4. Probabilidade
P(A/A ∪ B) =
29
P(A ∩ (A ∪ B)) 0,25
=
= 0,50
P(A ∪ B)
0,50
Note que P(A ∩ (A ∪ B)) é obviamente o mesmo que A, já que A
está completamente contido em (A ∪ B).
c) Se o construtor submete-se a outra licitação para uma obra C, com
probabilidade de ganhar igual a 0,25, qual a probabilidade de ganhar ao
menos uma obra?
P(A ∪ B ∪ C) = 0,25 + 0,33 + 0,25 - (0,25 . 0,33 + 0,25 . 0,25 +
+ 0,33 . 0,25) + (0,25 . 0,33 . 0,25)= 0,625
Note que para o caso de eventos independentes vale também:
P(A∪B∪C) = 1 - P( A ∩ B ∩ C) = 1 - (0,75 . 0,67 . 0,75) = 0,625
PROBABILIDADE TOTAL
Seja que no campo amostral S exista um evento B que consiste de k
componentes mutuamente exclusivos:
Eq 43: B = B1 ∪ B2 ∪ ... ∪Bk;
Bi ∩ Bj = 0
Figura 13 - Probabilidade total.
E seja que no campo do evento B exista um outro evento A que pode
ou não ocorrer simultaneamente com todos os componentes de B.
Nesse caso, podemos escrever:
Eq 44: A = (A ∩ B1) ∪ (A ∩ B2) ∪ ..... ∪ (A ∩ Bk)
Isso quer dizer que o evento A está descrito em forma total pelos
componentes B1....Bk do evento B, os quais são mutuamente
exclusivos. Então:
Eq 45: P(A) = P(A ∩ B1) +....+ P(A ∩ Bk)
Eq 46: P(A) = P(B1) . P(A/B1) +....+ P(Bk) . P(A/Bk)
Eq 47: P(A) = Σ P(Bi) . P(A/Bi)
Exemplo 5:
Na construção de um edifício usa-se 1000 Kg de material por dia; desse
total, 600 Kg são adquiridos do fornecedor B1 e 400 Kg do fornecedor
B2.
30
4. Probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Assim B = B1 ∪ B2, onde B é a provisão de 1000 Kg/dia
O material pode ser defeituoso e por experiência prévia sabe-se que B1
e B2 têm as probabilidades de 0,03 e 0,01, respectivamente, de serem
defeituosos.
Chamando A o evento material defeituoso tem-se:
A = (A ∩ B1) ∪ (A ∩ B2)
Isto é, se o material é defeituoso, pode vir de B1 ou B2. Então A pode
ser calculado a partir de:
P(B1) = 0,6;
P(A/B1) = 0,03;
P(B2) = 0,4
P(A/B2) = 0,01
P(A) = P(B1) . P(A/B1) + P(B2) . P(A/B2)
P(A) = (0,6) . (0,03) + (0,4) . (0,01) = 0,018 + 0,004 = 0,022
Assim a probabilidade total de que o material seja defeituoso, vindo de
B1 ou B2, é igual a 0,022.
TEOREMA DE BAYES
O Teorema de Bayes permite calcular a probabilidade posterior de um
evento B j , P(Bj/A), baseada em nova informação referente ao evento
A e conhecendo-se a probabilidade anterior B j , P(Bj).
Usando o conceito de probabilidade condicional, tem-se:
Eq 48: P(Bj/A) = P(Bj ∩ A) / P(A)
Como A está descrito em termos de B1,.....,Bk, tem-se o Teorema de
Bayes:
Eq 49: P(Bj/A) = P(Bj ∩ A) / Σ P(Bj) . P(A/Bj)
Eq 50: P(Bj/A) = P(Bj) . P(A/Bj) / [ Σ P(Bj) . P(A/Bj)]
Nota-se que o Teorema de Bayes determina a probabilidade posterior de
um evento B j , em função de um evento A e da probabilidade anterior
de B j .
Exemplo 6:
Uma seção de pavimento de concreto é aceita se sua espessura for
superior a 7,5 cm. A experiência prévia indica que 90% das seções
construídas são aceitas. A medição da espessura é feita usando um
aparelho ultra-sônico, cuja confiabilidade é de 80%, ou seja, há uma
probabilidade de 80% que a conclusão baseada neste aparelho seja
correta.
Pede-se:
a) Qual a probabilidade que a seção esteja bem construída e seja aceita
na inspeção?
Estatística Industrial
4. Probabilidade
31
Solução:
Seja A: seção bem construída, isto é, e > 7,5 cm. P(A) = ?
Seja B: O aparelho indica que a seção está bem construída, ou seja,
indica que e > 7,5 cm. P(B)=0,90
Ainda,
P(A/B) = 0,80
Assim, o que se pede é a P(A ∩ B):
P(A ∩ B) = P(B) . P(A/B) = (0,90) . (0,80) = 0,72
b) A probabilidade que a seção não esteja bem construída e seja aceita:
P(A ∩ B) = P(B).P( A/B) = (0,90).(0,20) = 0,18
c) A probabilidade que a seção seja aceita quando se sabe que a seção
está bem construída.
Essa probabilidade pode ser estimada usando o Teorema de Bayes. O
que se pede é a P(B/A).
Como somente podemos dizer que a seção está bem construída baseado
nas medições temos:
A = (B ∩ A) ∪ (B ∩ A)
Assim, P(A) = P(B) . P(A/B) + P( B) . P(A/ B )
P(A) = (0,90) . (0,80) + (0,10) . (0,20) = 0,74
P(B/A) =
P(B) . P(A/B) (0,90) . (0,80)
=
= 0,973
P(A)
0,74
Como se vê, a probabilidade anterior P(B) = 0,90 é agora modificada
para P(B/A) = 0,973 depois de se saber o evento: a seção está bem
construída.
Exercícios
Exercício 4.1.
Dois eventos são ditos mutuamente exclusivos se eles não tem elementos
em comum, ou seja, se eles não podem ocorrer simultaneamente. E um
grupo de eventos é dito coletivamente exaustivo se eles esgotam todos os
resultados possíveis para o experimento em questão. Dê um exemplo de
eventos mutuamente exclusivos e coletivamente exaustivo.
Exercício 4.2.
Qual a probabilidade de um candidato ao vestibular acertar o dia da
semana em que nasceu Pedro Alvarez Cabral? Que suposição você fez
para calcular essa probabilidade?
Exercício 4.3.
Seja P(A) = 0,30 e P(B) = 0,80 e P(A∩B) = 0,15. Pede-se:
a) A e B são mutuamente exclusivos?
32
4. Probabilidade
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
b) Determine P(B)
c) Determine P(A∪B)
Exercício 4.4.
Sejam A e B mutuamente exclusivos, P(A) = 0,52 e P(B) = 0,27. Pedese:
a) A e B são coletivamente exaustivos?
b) Determine P(A∪B)
c) Determine P(A∩B)
Exercício 4.5.
As falhas de diferentes equipamentos são independentes uma das outras.
Se há três equipamentos e as suas respectivas probabilidades de falha em
um determinado dia são 1%, 2% e 5%, indique:
a) a probabilidade de todos os equipamentos falharem em um mesmo dia
b) de nenhum falhar
Exercício 4.6.
Uma fábrica de azulejos tem um processo de inspeção em 3 etapas. A
probabilidade de um lote defeituoso passar sem ser detectado em uma
dessas etapas é de aproximadamente 25%. Com base nessa informação,
calcule a probabilidade de um lote defeituoso passar sem ser detectado
por todas as 3 etapas.
Exercício 4.7.
Há 99% de probabilidade de uma máquina fabricar uma peça sem
defeitos. Supondo que a fabricação de peças sucessivas constitua
eventos independentes, calcule as seguintes probabilidades:
a) de duas peças em seqüência serem defeituosas
b) de dez peças em seqüência sem defeitos
Exercício 4.8.
Três máquinas A, B e C fabricam matrizes para a estamparia. O
histórico dessas máquinas revela que elas produzem respectivamente
1%, 2% e 3% de defeituosos. Um inspetor examina uma matriz e
verifica que ela está perfeita. Sabendo que cada máquina é responsável
por 1/3 da produção total, calcule a probabilidade de ela ser produzida
por cada uma das máquinas.
Exercício 4.9.
Repita o exercício 8 para o caso em que o inspetor tivesse examinado a
matriz e verificado que ela era defeituosa.
Exercício 4.10.
Repita o exercício 8 para o caso em que as máquinas A, B e C fossem
responsáveis, respectivamente, pelos seguintes percentuais da produção
total: 20%, 40% e 40%.
Exercício 4.11.
Uma cidade tem 30 mil habitantes e três jornais X, Y, Z. Uma pesquisa
de opinião revela que: 12 mil lêem X, 8 mil Y, 7 mil X e Y, 6 mil Z,
4.500 lêem X e Z, mil Y e Z e 500 lêem X,Y e Z. Qual a probabilidade
de que um habitante leia:
a) pelo menos um jornal
Estatística Industrial
4. Probabilidade
33
b) só um jornal
c) ler o jornal X sabendo que ele lê o jornal Z
Exercício 4.12.
Uma empresa exploradora de petróleo perfura um poço quando acha que
há pelo menos 25% de chance de encontrar petróleo. Ela perfura 4
poços, aos quais são atribuídas probabilidades de 0,3 ; 0,4 ; 0,7 e 0,8.
a) Determine a probabilidade de nenhum poço produzir petróleo, com
base nas estimativas da empresa.
b) Determine a probabilidade de os quatro poços produzirem petróleo.
c) Qual a probabilidade de só os poços com probabilidades 0,3 e 0,7
produzirem petróleo?
Exercício 4.13.
Os arquivos da polícia revelam que, das vítimas de acidente
automobilístico que utilizam cinto de segurança, apenas 10% sofrem
ferimentos graves, enquanto que a incidência é de 50% entre as vítimas
que não utilizam cinto de segurança. Estima-se que em 60% a
porcentagem dos motoristas que usam o cinto. A polícia acaba de ser
chamada para investigar um acidente em que houve um indivíduo
gravemente ferido. Calcule a probabilidade de ele estar usando o cinto
no momento do acidente. A pessoa que dirigia o outro carro não sofreu
ferimentos graves. Calcule a probabilidade dela estar usando o cinto no
momento do acidente.
5
Distribuições de probabilidade
José Luis Duarte Ribeiro
Carla ten Caten
Conforme visto anteriormente, o histograma é usado para
apresentar dados amostrais extraídos de uma população. Por
exemplo, os 50 valores de uma característica dimensional
apresentados anteriormente representam uma amostra de um
processo industrial. O uso de métodos estatísticos permite que
se analise essa amostra e se tire algumas conclusões sobre o
processo de manufatura.
Uma distribuição de probabilidade é um modelo matemático
que relaciona um certo valor da variável em estudo com a sua
probabilidade de ocorrência. Há dois tipos de distribuição de
probabilidade:
1.Distribuições Contínuas: Quando a variável que está sendo
medida é expressa em uma escala contínua, como no caso de
uma característica dimensional.
2. Distribuições Discretas: Quando a variável que está sendo
medida só pode assumir certos valores, como, por exemplo os
valores inteiros 0, 1, 2, etc.
Figura 14 - Distribuição de
probabilidade discreta e
contínua.
No caso de distribuições discretas, a probabilidade que a
variável X assuma um valor específico xo é dados por:
Eq 51: P{X = xo} = P(xo)
No caso de variáveis contínuas, as probabilidades são
especificadas em termos de intervalos, pois a probabilidade
associada a um número específico é zero.
Eq 52:
b
P{a ≤ x ≤ b} = ∫ f ( x ) dx
a
Estatística Industrial
Erro! Resultado não válido para índice.
DISTRIBUIÇÕES
DISCRETAS MAIS
IMPORTANTES
Distribuição Binomial
A distribuição binomial é adequada para descrever situações em
que os resultados de uma variável aleatória podem ser
agrupados em apenas duas classes ou categorias. As categorias
devem ser mutuamente excludentes, de forma que não haja
dúvidas na classificação do resultado da variável nas categorias
e coletivamente exaustivas, de forma que não seja possível
nenhum outro resultado diferente das categorias.
Por exemplo, um produto manufaturado pode ser classificado
como perfeito ou defeituoso, a resposta de um questionário pode
ser verdadeira ou falsa, as chamadas telefônicas podem ser
locais ou interurbanas.
Mesmo as variáveis contínuas podem ser divididas em duas
categorias, como, por exemplo, a velocidade de um automóvel
pode ser classificada como dentro ou fora do limite legal.
Geralmente, denomina-se as duas categorias como sucesso ou
falha. Como as duas categorias são mutuamente excludentes e
coletivamente exaustivas:
P ( sucesso ) + P ( falha ) = 1
Consequentemente, sabendo-se que, por exemplo, a
probabilidade de sucesso é P(sucesso) = 0,6, a probabilidade de
falha é P(falha) = 1 - 0,6 = 0,4.
Condições de aplicação do modelo binomial
a) são feitas n repetições do experimento, onde n é uma
constante;
b) há apenas dois resultados possíveis em cada repetição,
denominados sucesso e falha
c) a probabilidade p de um sucesso e (1-p) de falha permanece
constante em todas as repetições;
d) as repetições são independentes, ou seja, o resultado de uma
repetição não é influenciado por outros resultados.
Seja um processo composto de uma seqüência de n observações
independentes com probabilidade de sucesso constante igual a
p, a distribuição do número de sucessos seguirá o modelo
Binomial:
Eq 53:
()
x = 0, 1, ...., n.
onde (xn ) representa o número de combinações de n objetos
P( x ) = xn p x ( 1 − p )n − x
6-35
36
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
tomados x de cada vez, calculado como:
Eq 54:
(xn ) = x!(nn−! x)!
Os parâmetros da distribuição Binomial são n e p. A média e
a variância são calculadas como:
Eq 55:
µ = np
Eq 56:
σ 2 = np (1 − p )
A distribuição Binomial é usada com freqüência no controle de
qualidade. É o modelo apropriado quando a amostragem é feita
sobre uma população infinita ou muito grande. Nas aplicações
de controle da qualidade, x em geral representa o número de
defeituosos observados em uma amostra de n itens.
Por exemplo, se p = 0,10 e n = 15, a probabilidade de obter x
itens não conformes é calculada usando a equação da binomial.
Para x=1:
Eq 57:
( 115 ) = 1!(1515−! 1)! = 15
Eq 58:
1
15−1
P( 1 ) = 15
= 15 × 0 ,10 x 0 ,23 = 0,34
1 x 0,10 x ( 1 − 0 ,10 )
( )
Figura 15 - Distribuição
Binomial com p = 0,10 e n =
15
Outra estatística de interesse para o controle de qualidade é a
fração de defeituosos de uma amostra:
Distribuição de
Poisson
x
n
Eq 59:
pˆ =
Eq 60:
σ 2pˆ =
p(1 − p )
n
A distribuição de Poisson é adequada para descrever situações
onde existe uma probabilidade de ocorrência em um campo ou
intervalo contínuo, geralmente tempo ou área. Por exemplo, o
número de acidentes por mês, o número de defeitos por metro
Estatística Industrial
Erro! Resultado não válido para índice.
quadrado, número de clientes atendidos por hora, etc.
Nota-se que a variável aleatória é discreta (número de
ocorrência), no entanto, a unidade de medida é contínua (tempo,
área). Além disso, as falhas não são contáveis, pois não é
possível contar o número de acidentes que não ocorreram, nem
tampouco o número de defeitos que não ocorreram.
A distribuição de Poisson fica completamente caracterizada por
um único parâmetro λ que representa a taxa média de ocorrência
por unidade de medida.
Condições para a aplicação do modelo de Poisson:
a) número de ocorrências durante qualquer intervalo depende
somente da extensão do intervalo;
b) as ocorrências ocorrem independentemente, ou seja, um
excesso ou falta de ocorrências em algum intervalo não
exerce efeito sobre o número de ocorrências em outro
intervalo;
c) a possibilidade de duas ou mais ocorrências acontecerem em
um pequeno intervalo é muito pequena quando comparada à
de uma única ocorrência.
A equação para calcular a probabilidade de x ocorrências é dada
por:
Eq 61:
e −λ λx
P( x ) =
x!
x = 0, 1,....
A média e a variância da distribuição de Poisson são:
Eq 62:
µ=λ
Eq 63:
σˆ = λ
A aplicação típica da distribuição de Poisson no controle da
qualidade é como um modelo para o número de defeitos (não
conformidades) que ocorre por unidade de produto (por m2, por
volume ou por tempo, etc.).
Como um exemplo, suponha que o número de defeitos de
pintura siga uma distribuição de Poisson com λ = 2. Então, a
probabilidade que uma peça apresente mais de 4 defeitos de
pintura virá dada por:
Eq 64:
1 − P{X ≤ 4} = 1 −
4 e −2 2 x
∑
x =0
Eq 65:
x!
1 − P{X ≤ 4} = 1 − 0,945 = 0,055 = 5,5%
6-37
38
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
x
P(x)
0 0,135
1 0,270
2 0,270
3 0,180
4 0,090
5 0,036
Figura 16 - Distribuição de
Poisson com λ = 2.
6 0,012
A distribuição de Poisson é uma forma limite da distribuição
Binomial, quando n → ∞ e p → 0 , mas mantendo o
quociente np = λ
DISTRIBUIÇÕES
CONTÍNUAS MAIS
IMPORTANTES
Distribuição
Exponencial
Na distribuição de Poisson, a variável aleatória é definida como
o número de ocorrências em determinado período, sendo a
média das ocorrências no período definida como λ. Na
Distribuição Exponencial a variável aleatória é definida como o
tempo entre duas ocorrências, sendo a média de tempo entre
ocorrências de 1/λ.
Por exemplo, se a média de atendimentos no caixa bancário é de
λ = 6 atendimentos por minuto, então o tempo médio entre
atendimentos é 1/λ = 1/6 de minuto ou 10 segundos.
Condição de aplicação do modelo exponencial:
a) o número de ocorrências deve seguir uma distribuição de
Poisson.
Se considerarmos a distribuição de Poisson como o modelo para
o número de ocorrências de um evento no intervalo de [0, t]
teremos:
Eq 66:
P( x ) =
e − λt ( λt ) x
x!
E nesse caso pode ser demonstrado que a distribuição dos
intervalos entre ocorrências irá seguir o modelo Exponencial
com parâmetro λ. O modelo da distribuição Exponencial é o
seguinte:
Eq 67:
f (t ) = λe − λt ;
t≥0
Estatística Industrial
Erro! Resultado não válido para índice.
onde λ > 0 é uma constante.
Figura 17 - Distribuição
Exponencial.
A média e o desvio-padrão da distribuição Exponencial são
calculados usando:
Eq 68:
Eq 69:
µ=
σ=
1
λ
1
λ
A distribuição Exponencial acumulada vem dada por:
Eq 70:
F (t ) = P{T ≤ t} = ∫ λe − λx dx = 1 − e − λt
t
0
t≥0
A distribuição Exponencial é largamente utilizada no campo da
confiabilidade, como um modelo para a distribuição dos tempos
até a falha de componentes eletrônicos. Nessas aplicações o
parâmetro λ representa a taxa de falha para o componente, e
1/λ é o tempo médio até a falha.
Por exemplo, suponha que uma máquina falhe em média uma
vez a cada dois anos λ=1/2=0,5. Calcule a probabilidade da
máquina falhar durante o próximo ano.
Eq 71:
F (t ) = P{T ≤ 1} = 1 − e −0,5x1 = 1 - 0,607 = 0,393
A probabilidade de falhar no próximo ano é de 0,393 e de não
falhar no próximo ano é de
1-0,393=0,607. Ou seja, se forem vendidos 100 máquinas
39,3% irão falhar no período de um ano.
Conhecendo-se os tempos até a falha de um produto é possível
definir os períodos de garantia.
Distribuição de Weibull O modelo da distribuição de Weibull é:
6-39
40
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Eq 72:
γ  x−L
f ( x) = 

θ θ 
γ −1 
γ
 x−L 
e − 
  θ
 
 
  x − L γ 
F
(
x
)
=
1
−
e
− 
Eq 73:
 
  θ  
onde:
γ: parâmetro de forma
θ: parâmetro de escala
L: parâmetro de localização
A média e a variância da distribuição de Weibull vêm dadas por:
Eq 74:
Eq 75:

1


µ = L + θ Γ1 + 
γ
σ
2
2
 

2
1 
= θ Γ1 +  − Γ1 +  
  γ
 γ  

2
A distribuição de Weibull é muito flexível e pode assumir uma
variedade de formas. Ela tem sido usada extensivamente para
modelar tempos de processo ou tempos até a falha de
componentes elétricos, componentes mecânicos, elementos
estruturais e sistemas complexos.
Distribuição Normal
A distribuição Normal é a mais importante das distribuições
estatísticas, tanto na teoria como na prática. Uma das razões, é
que a distribuição Normal representa a distribuição de
freqüência de muitos fenômenos naturais. Outra razão é que a
distribuição Normal serve como aproximação da distribuição
Binomial, quando n é grande. No entanto, o motivo mais
importante é que as médias e as proporções de grandes amostras
segue a distribuição Normal, como será visto no teorema do
Limite Central.
A distribuição de freqüência do modelo Normal apresenta forma
de sino, é unimodal, simétrica em relação à sua média e tende
assintoticamente a zero à medida que os valores se afastam da
média. Ou seja, teoricamente os valores da variável aleatória
podem variar de − ∞ a + ∞ .
Em termos de probabilidade de ocorrência, a área sob toda a
curva normal soma 100%. A probabilidade de uma observação
proveniente de uma variável aleatória normal assumir um valor
entre dois pontos quaisquer é igual à área compreendida entre
esses dois pontos.
Estatística Industrial
Erro! Resultado não válido para índice.
área=1
área=0,5 área=0,5
Figura 18 - Percentuais da
distribuição Normal.
A distribuição Normal fica complemente caracterizada por dois
parâmetros: a média e o desvio-padrão. Ou seja, diferentes
médias e desvio-padrões originam curvas normais distintas,
como se pode visualizar nos exemplos contidos na Tabela 4
onde há amostras provenientes de distribuições com média e
desvios-padrões distintos.
Tabela 4 - Amostras de três
distribuições distintas.
Amostras
Dados
A
10 12 14 16
18
x = 14
B
22 24 26 28
30
x = 26
C
6 10 14 18 22
Localização ( x )
x = 14
Variabilidade (R)
R =8
R =8
R = 16
6-41
42
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
f(x)
A
B
C
Figura 19 - Distribuição de
probabilidade com média e
desvios-padrões distintos.
Na Figura 19, pode-se visualizar que:
a) da distribuição A para B muda a tendência central, mas a
variabilidade é constante;
b) da distribuição A para C muda a variabilidade, mas a
tendência central é constante;
c) da distribuição B para C muda a tendência central e a
variabilidade.
Uma conseqüência importante do fato de uma distribuição
Normal ser completamente caracterizada por sua média e
desvio-padrão é que a área sob a curva entre um ponto qualquer
e a média é função somente do número de desvios-padrões que
o ponto está distante da média.
Como existem uma infinidade de distribuições normais (uma
para cada média e desvio-padrão), transformamos a unidade
estudada seja ela qual for (peso, espessura, tempo, etc.) na
unidade Z, que indica o número de desvios-padrão a contar da
média.
Dessa forma, o cálculo de probabilidades (área sob a curva)
pode ser realizado através de uma distribuição Normal
padronizada, onde o parâmetro é a variável reduzida Z, que
representa o número de desvios-padrões distantes da média.
A distribuição Normal pode ser representada por uma equação
matemática dada por:
Eq 76:
f ( x) =
1
σ 2Π
1  x − µ 2
− 

e 2 σ 
A distribuição Normal acumulada é obtida calculando a
probabilidade de X ser menor que um dado valor xo:
Eq 77:
x
P ( X ≤ xo ) = F ( xo ) = ∫ o f ( x ) dx
−∞
Essa integral não pode ser resolvida em forma fechada, mas a
solução está apresentada em tabelas da distribuição Normal
Estatística Industrial
Erro! Resultado não válido para índice.
padronizada onde se entra com a variável reduzida Z (número
de desvios-padrões distantes da média) e encontra-se F(Z) ou
vice-versa.
Eq 78:
x −µ

P{X ≤ x} = P Z ≤
 = F ( Z ) ⇒ Tabelado
σ 

Para sabermos o valor da probabilidade, utilizamos a tabela da
distribuição Normal. Essa tabela nos fornece a área acumulada
até o valor de Z
Área=0,84
Figura 20
1,0
0,84
0,0
O cálculo da variável reduzida Z é feito através da
transformação dos valores reais em valores codificados. Essa
transformação é feita descontando-se a média para eliminar o
efeito de localização (tendência central) e dividindo-se pelo
desvio-padrão para eliminar o efeito de escala (variabilidade).
Uma vez calculada a variável reduzida Z, consulta-se a tabela
Normal padronizada para identificar a probabilidade acumulada
à esquerda de Z, ou seja, a probabilidade de ocorrerem valores
menores ou iguais a um certo valor de Z consultado.
A seguir serão apresentados exemplos do cálculo do percentual
fora de especificação.
Exemplo 1
A resistência à tração do papel usado em sacolas de super
mercado é uma característica de qualidade importante. Sabe-se
que essa resistência segue um modelo Normal com média 40 psi
e desvio padrão 2 psi. Se a especificação estabelece que a
resistência deve ser maior que 35 psi, qual a probabilidade que
uma sacola produzida com este material satisfaça a
especificação?
P{X ≥ 35} = 1 − P{X ≤ 35}
35 − 40 

P{X ≤ 35} = P Z ≤
 = P{Z ≤ −2,5}
2 

6-43
44
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Tabela da distribuição normal:
F(-2,5) = 0,0062
Assim a resposta é 1 - 0,0062 = 99,38%
Figura 21 - Distribuição de
valores reais e codificados.
Distribuição para X (valores reais)
codificados)
Distribuição para Z (valores
O diâmetro do eixo principal de um disco rígido segue uma
distribuição Normal com média 25,08 in e desvio-padrão 0,05
in. Se as especificações para esse eixo são 25,00 ± 0,15 in,
determine o percentual de unidades produzidas em
conformidades com as especificações.
Exemplo 2
Eq 79:
P{24,85 ≤ x ≤ 25,15} = P{x ≤ 25,15} − P{x ≤ 24,85}
25,15 − 25,08 
24,85 − 25,08 


= P Z ≤
 − P Z ≤

0,05
0,05




= P{Z ≤ 1,40} − P{Z ≤ −4,60} = 0,9192 − 0,0000 = 0,9192
ou seja, 91,92% (área cinza na figura abaixo) dentro das
especificações e 8,08% fora das especificações.
LEI
x
LES
25,08
25,15
σ=0,05
Figura 22- Distribuição de
probabilidade do processo e os
limites de especificação 24,85
Exemplo 3
No exemplo anterior tem-se cerca de 8% de unidades não-conformes, e essas unidades são invariavelmente do tipo “eixo
muito largo”. Recalcule o percentual de unidades conformes se
o processo estivesse centrado em 25,00.
25,15 − 25,00 
24,85 − 25,00 


P Z ≤
 − P Z ≤

0,05
0,05




P{Z ≤ 3,0} − P{Z ≤ −3,0} = 0,9987 − 0,00135 = 0,9973
Estatística Industrial
Erro! Resultado não válido para índice.
ou seja, 99,73% dentro das especificações e 0,27% fora das
especificações.
Suponha que X → N (85; 9). Encontre um valor limite x, tal
que P{ X > x} = 0,05.
Exemplo 4
x − 85 

P{ X > x} = 1 − P{ X ≤ x} = 1 − P Z ≤
 = 0,05
9 

x − 85 

P Z ≤
 = 0,95
9 

Tabela da distribuição normal: Z = 1,645
Assim,
PROPRIEDADES DA
DISTRIBUIÇÃO
NORMAL
1,645 =
x − 85
;
9
x = 99,805
A distribuição Normal tem muitas propriedades úteis. Uma
dessas propriedades é que qualquer combinação linear de
variáveis normalmente distribuídas também seguirá o modelo
Normal, ou seja:
Se X1, X2,........., Xn têm distribuição normal independentes,
então uma combinação linear dessas variáveis, por exemplo,
Eq 80: Y = a1X1 + a2X2 +.....+ akXk
Também Seguirá o modelo normal, com média e variância
dados por:
Eq 81:
µγ = a1µ1 +.......+ an µ n
Eq 82:
σ Y2 = a12σ 12 +........+ an2σ n2
onde a1, ..., an são constantes.
Teorema do Limite
Central
O Teorema do Limite Central indica que a soma (e, por
conseguinte, a média) de n variáveis independentes seguirá o
modelo Normal, independentemente da distribuição das
variáveis individuais.
A aproximação melhora na medida em que n aumenta. Se as
distribuições individuais não são muito diferentes da Normal,
basta n = 4 ou 5 para se obter uma boa aproximação. Se as
distribuições individuais forem radicalmente diferentes da
Normal, então será necessário n = 20 ou mais.
Na Figura 23, pode ser visto um desenho esquemático do
teorema do limite central.
6-45
46
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
n
Figura 23 - Teorema do limite
central.
n
f(x)
σx
σ
LNI
Figura 24
x = µ
LCI
LNS
LCS
x
Os limites da distribuição dos valores individuais são chamados
de limites naturais e os limites da distribuição de probabilidade
das médias são chamados de limites de controle.
A distribuição de probabilidade da variável resultante do
lançamento de um dado segue a distribuição uniforme, ou seja,
qualquer valor (1, 2, 3, 4, 5, 6) tem a mesma probabilidade (1/6)
de ocorrer. No entanto, se ao invés de lançar um dado, sejam
lançados dois dados e calculada a média, essa média seguirá
uma distribuição aproximadamente Normal como pode-se
visualizar no histograma abaixo. Na Tabela 5, apresenta-se as
médias dos lançamentos de dois dados
Exemplo 5
Tabela 5 - Tabela com as
médias dos dois dados.
10
dado
20
dado
Soma
Média
10
dado
20
dado
Soma
Média
1
1
2
1,0
5
2
7
3,5
1
2
3
1,5
3
4
7
3,5
2
1
3
1,5
4
3
7
3,5
1
3
4
2,0
2
6
8
4,0
3
1
4
2,0
6
2
8
4,0
2
2
4
2,0
3
5
8
4,0
1
4
5
2,5
5
3
8
4,0
4
1
5
2,5
4
4
8
4,0
3
2
5
2,5
3
6
9
4,5
2
3
5
2,5
6
3
9
4,5
1
5
6
3,0
4
5
9
4,5
5
1
6
3,0
5
4
9
4,5
Estatística Industrial
Erro! Resultado não válido para índice.
2
4
6
3,0
4
6
10
5,0
4
2
6
3,0
6
4
10
5,0
3
3
6
3,0
5
5
10
5,0
1
6
7
3,5
5
6
11
5,5
6
1
7
3,5
6
5
11
5,5
2
5
7
3,5
6
6
12
6,0
A tabela de freqüência da média dos dois dados resulta
conforme Tabela 6.
Média de dois dados
Freqüência
1,0
1
1,5
2
2,0
3
2,5
4
3,0
5
3,5
6
4,0
5
4,5
4
5,0
3
5,5
2
6,0
1
Tabela 6 - Tabela de freqüência da
média dos dois dados.
Conforme pode ser visto na Figura 25, o histograma da média
dos dois dados resulta aproximadamente Normal. Além disso,
observa-se que a aproximação da distribuição Normal melhora
na medida que se fizesse a média do lançamento de mais dados.
f(x)
6/36
5/36
4/36
3/36
2/36
1/36
Figura 25 - Histograma da
média dos dois dados.
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
O teorema do limite central é básico para a maioria das
aplicações do controle estatístico da qualidade. O controle
estatístico do processo, em geral, trabalha com a média das
x
6-47
48
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
amostras, pois independentemente da distribuição dos valores
individuais, a média desses valores irá seguir aproximadamente
a distribuição Normal.
A partir do teorema do limite central, sabe-se que a distribuição
amostral das médias apresenta os seguintes parâmetros:
Eq 83: Média: x
=µ
onde:
x representa a média das médias amostrais;
µ representa a média dos valores individuais da população.
Eq 84: Desvio-padrão:
σx =
σ
n
onde:
σ x representa o desvio-padrão das médias amostrais;
σ
representa o desvio-padrão dos valores individuais da
população;
representa o tamanho da amostra.
n
Exemplo 6
Um pesquisador deseja saber a média de idade dos alunos de pós-graduação. Supondo que a população dos alunos seja:
25, 35, 24, 43, 35, 22, 49, 56, 34, 26, 35, 52, 40, 35, 35,25,
61,42, 58, 56, 45, 40, 38, 45, 33, 53, 22, 35, 23, 25, 36, 39
µ = ∑ x i = 25 + ... + 39 = 38,19
32
N
σ=
( xi − µ ) 2
=
N
(25 − 38,19)2 + ... + (39 − 38,19)2
32
= 11,11
Exemplo 7
Supondo que não fosse possível analisar a população inteira, e os
dados fossem coletados por amostras de tamanho n=4.
Média( x )
1
25
34
61
33
38,25
2
35
26
42
53
39
3
24
35
58
22
34,75
4
43
52
56
35
46,5
5
35
40
45
23
35,75
6
22
35
40
25
30,5
7
49
35
38
36
39,5
8
56
25
45
39
41,25
Estatística Industrial
Erro! Resultado não válido para índice.
Desvio(S)
∑ xi
x=
k
σˆ x =
=
15,69
=
11,4
16,52
9,40
9,43
8,43
6,45
12,9
38,25 + ... + 41,25
= 38,18
8
∑  x i − x 
2
=
k −1
(38,25 − 38,18)2 + ... + (41,25 − 38,18)2
8 −1
= 4,75
x = 38 ,18 ≅ µ = 38 ,19
σˆ x = 4,75
Exemplo 3
σx =
σ
n
=
11,11
4
= 5,55
Com base no exemplo 2, supomos que os dados fossem coletados por
amostras de tamanho n=8.
1
25
34
61
33
35
26
42
53
38,62
12,71
Média ( x )
Desvio (S)
x=
∑ xi
k
=
3
35
40
45
23
22
35
40
25
33,12
8,74
4
49
35
38
36
56
25
45
39
40,37
9,50
38,62 + ... + 40,37
= 38,18
4
∑ (x i − x )
2
σˆ x =
2
24
35
58
22
43
52
56
35
40,62
13,94
k −1
=
(38,62 − 38,18)2 + ... + (40,37 − 38,18)2
4 −1
x = 38,18 ≅ µ = 38,19
σˆ x = 3,49
σx =
σ
n
=
11,11
8
= 3,93
Como aparece ilustrado na Figura 26, a média das médias
amostrais é igual a média dos valores individuais e o desviopadrão das médias é menor do que o desvio-padrão dos valores
individuais na razão de 1 / n .
= 3,49
6-49
50
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
f(x)
σx
σ
Figura 26 - Distribuição de
probabilidade dos valores
individuais versus distribuição
de probabilidade das médias.
LNI
LCI
x = µ
LCS
LNS
Exercícios
Exercício 5.1
Suponha que dois dados sejam lançados e seja X a soma dos
valores obtidos. Descreva o espaço amostral deste experimento e
determine a distribuição de probabilidade de X.
Exercício 5.2
Um processo industrial opera com média de 1% de defeituosos.
Baseado em amostras de 100 unidades, calcule as probabilidades
de uma amostra apresentar 0, 1, 2, 3 e 4 defeituosos. Plote a
distribuição de probabilidade correspondente.
Exercício 5.3
Imagine que para o processo anterior, fossem coletadas amostras
de 50 unidades e o critério para parar o processo e procurar causas
especiais fosse X = 1 ou mais. Calcule a percentagem de vezes
que o processo seria interrompido logo após a amostragem.
Exercício 5.4
Em uma indústria automotiva, defeitos superficiais de pintura
ocorrem a uma taxa de 0,15 defeitos/unidade. Encontre a
probabilidade que uma unidade escolhida ao acaso apresente 1 ou
mais defeitos superficiais.
Exercício 5.5
O setor financeiro de uma loja de departamentos está tentando
controlar o número de erros cometido na emissão das notas fiscais.
Suponha que esses erros sigam o modelo de Poisson com média λ
= 0,03. Qual a probabilidade de uma nota selecionada ao acaso
conter 1 ou mais erros?
Exercício 5.6
A resistência à tração de isoladores cerâmicos apresenta
distribuição Normal com média 95 Kg e desvio-padrão 4 Kg. Se
são produzidas 10.000 unidades desses isoladores, quantos
apresentarão resistência inferior a 85 Kg? E quantos apresentarão
resistência superior a 90 Kg?
Exercício 5.7
A saída de uma bateria segue o modelo Normal com média 12,15
V e desvio-padrão 0,2 V. Encontre o percentual que irá falhar em
atender às especificações 12 V ± 0,5 V.
Exercício 5.8
Se X representa medições feitas em um processo que segue o
modelo Normal com média 100 e desvio padrão 10, que
comportamento irá seguir a média de amostras de 4 unidades
retiradas desse processo? E qual será o comportamento da média
de 9 unidades retiradas desse processo?
Estatística Industrial
Erro! Resultado não válido para índice.
Exercício 5.9
Os tempos até a falha de um dispositivo eletrônico seguem o
modelo Exponencial, com uma taxa de falha λ= 0,012 falhas/hora.
Plote a distribuição de probabilidade correspondente. Depois
indique qual a probabilidade de um dispositivo escolhido ao acaso
sobreviver a 50 horas? E a 100 horas?
Exercício 5.10
O tempo até a venda de um certo modelo de eletrodoméstico, que
é regularmente abastecido em um supermercado, segue uma
distribuição Exponencial, com parâmetros λ = 0,4 aparelhos/dia.
Indique a probabilidade de um aparelho indicado ao acaso ser
vendido logo no primeiro dia.
Exercício 5.11
Num lote que tem 2% de defeituosos, foram retiradas 40 peças,
que será rejeitado se forem encontradas duas ou mais peças
defeituosas. Qual a probabilidade de rejeitar o lote?
Exercício 5.12
Os registros de uma pequena companhia indicam que 40% das
faturas por ela emitidas são pagas após o vencimento. De 14
faturas expedidas, determine a probabilidade de:
a) nenhuma ser paga com atraso.
b) no máximo 2 serem pagas com atraso.
c) pelo menos 3 serem pagas com atraso.
d) uma ser paga em dia.
Exercício 5.13
Uma amostra de 3 m de cabo foi retirada de uma bobina. O cabo
tem em média uma falha por m. Qual a probabilidade de não
encontrar falha na amostra?
Exercício 5.14
O tempo necessário, em uma oficina, para o conserto de
transmissão para certo carro é normalmente distribuído com média
45 min e desvio-padrão 8 min. O mecânico planeja começar o
conserto do carro 10 min após o cliente deixá-lo na oficina,
comunicando que o carro estará pronto em 1 h. Qual a
probabilidade de que o cliente tenha que esperar caso o mecânico
esteja enganado e o cliente fique esperando?
Exercício 5.15
Uma fábrica de pneus fez um teste para medir o desgaste de seis
pneus e verificou que ele seguia o comportamento de uma curva
normal com média 48.000 km e desvio-padrão de 2.000 km.
Calcule a probabilidade de um pneu escolhido ao acaso:
a) dure mais que 47.000 km?
b) dure entre 45.000 e 51.000 km?
c) até que quilometragem duram 90% dos pneus?
Exercício 5.16
O consumo de gasolina por Km rodado para certo tipo de carro,
tem distribuição normal com média de 100 ml com desvio-padrão
de 5 ml.
a) calcular a probabilidade de um carro consumir entre 92 e 106
6-51
52
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
ml.
b) sabe-se que 73,24% dos carros consumem menos que certa
quantidade de gasolina qual é essa quantidade?
c) num grupo de 5 carros qual a probabilidade de dois consumirem
mais que 107 ml?
Exercício 5.17
Em uma indústria trabalham 1260 pessoas, cujos os salários tem
média $34.600 e desvio-padrão $ 8.500. Calcule a probabilidade
de ser inferior a $34.100 o valor da média de uma amostra
aleatória constituída por:
300 pessoas
100 pessoas
6
Estimativa de parâmetros
José Luis Duarte Ribeiro
Carla ten Caten
Uma variável aleatória é caracterizada ou descrita pela sua distribuição
de probabilidade. Em aplicações industriais, as distribuições de
probabilidade são usadas para modelar tempos de processo ou
características de qualidade tais como dimensionais críticos ou
percentuais de não conformes.
A distribuição de probabilidade, por sua vez, é descrita pelos seus
parâmetros populacionais. Por exemplo, a média µ e o desvio-padrão σ
são os parâmetros populacionais da distribuição Normal, enquanto λ é
o parâmetro da distribuição de Poisson.
Em aplicações industriais, as distribuições são usadas para modelar
tempos de processo ou características de qualidade tais como
dimensionais críticos ou percentuais de não conformes.
Assim, existe interesse em conhecer os parâmetros populacionais da
distribuição de probabilidade. Como geralmente os parâmetros
populacionais da distribuição de probabilidade não são conhecidos, é
preciso desenvolver procedimentos para estimar esses parâmetros.
As estimativas dos parâmetros populacionais da distribuição são
realizadas a partir dos resultados (dados) de uma variável aleatória de
uma amostra representativa extraída dessa população. Esse
procedimento é chamado de estatística inferencial, pois estima-se um
parâmetro populacional desconhecido da distribuição de probabilidade
através de uma amostra representativa extraída dessa população.
A estatística inferencial compreende a estimação de parâmetros
populacionais e testes de hipótese a respeito da população. Na verdade, a
estatística inferencial forma a base das atividades de controle da
qualidade e também pode auxiliar na tomada de decisão e em muitas
outras situações.
ESTIMATIVAS PONTUAIS
A estimação de parâmetros populacionais pode ser por ponto (pontual)
ou por intervalo de confiança. A estimativa pontual é um valor obtido a
partir dos resultados (dados) de uma variável aleatória de uma amostra
representativa extraída da população.
Seja a variável aleatória X, com distribuição de probabilidade f(X), e
seja que o valor dos parâmetros populacionais da média µ e da
variância σ2 são desconhecidos. Se uma amostra representativa da
variável aleatória X é extraída da população, a média X e a variância
S2 dessa amostra podem ser usadas como estimadores pontuais dos
54
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
parâmetros populacionais µ e σ2.
Por exemplo, pode haver interesse em estimar a média e a variância de
uma característica dimensional de um processo. Se uma amostra de 15
unidades indica X = 5,026 cm e S = 0,0012 cm2, então esses valores são
tomados como estimativas pontuais dos parâmetros populacionais µ e
σ2.
Há várias propriedades que fazem um estimador ser um bom estimador,
entre elas citamos:
1. Um estimador deve ser não tendencioso, isto é, ele não deve
subestimar ou superestimar sistematicamente o valor do parâmetro que
está sendo estimado.
2. Ele deve apresentar variância mínima, isto é, sua variabilidade deve
ser menor que a variabilidade de qualquer outro estimador que possa ser
concebido.
ESTIMATIVAS POR
INTERVALO DE
CONFIANÇA
A estimação de parâmetros populacionais por intervalo de confiança
consiste em gerar um intervalo, centrado na estimativa pontual, no qual
se admite que esteja o parâmetro populacional.
A estimativa pontual é calculada a partir de uma amostra extraída da
população. No entanto, pode-se extrair várias amostras de uma
população. Por exemplo, conforme Figura 27, para estimar a média
populacional (µ) pode-se retirar várias amostras diferentes que podem
gerar várias estimativas pontuais X diferentes.
Figura 27 - Diferentes amostras
retiradas de uma população
População
µ=?
x
x
µ
xk
Se a amostra for representativa da população, ela tende a gerar valor
próximo do parâmetro populacional, mas não igual. Como a estimativa é
baseada em uma única amostra, o quão próximo o valor encontrado
nessa amostra está do verdadeiro parâmetro populacional?
Não há como saber se a amostra coletada foi extraída da cauda superior
ou inferior da distribuição.
Logo, para se ter confiança de estimar o verdadeiro parâmetro
populacional, gera-se um intervalo de possíveis valores para o parâmetro
populacional, a partir do valor encontrado da amostra. Quanto maior a
amplitude do intervalo, maior a confiança (probabilidade) de estimar
corretamente o verdadeiro parâmetro populacional.
Estatística Industrial
6. Estimativa de parâmetros
55
Intervalo
de confiança
Figura 28 - Intervalo de confiança
centrado em um valor amostral
x - z σx
α/2
x
x + z σx
α/2
Conforme a amplitude do intervalo, existe uma probabilidade (1-α) de
que o parâmetro populacional esteja contido no intervalo. Essa
probabilidade (1-α) é chamada nível de confiança, sendo α a
probabilidade do erro, ou seja, a probabilidade do intervalo não conter o
verdadeiro parâmetro populacional.
Um intervalo de confiança de 100(1-α)% é estabelecido a partir de dois
limites, tais que a probabilidade do verdadeiro valor do parâmetro estar
incluído dentro do intervalo é 100(1-α)% .
Por exemplo, para construir um intervalo de confiança de 95% para a
média , nós precisamos achar os limites L e U tais que:
Eq 85:
P{L ≤ µ ≤ U } = 95%
A interpretação do intervalo de confiança é a seguinte: se um grande
número desses intervalos fosse construído, a partir de diversas amostras
aleatórias, então 95% desses intervalos iria incluir o verdadeiro valor da
média populacional µ, ou seja, 5% dos intervalos de confiança
estimados baseados nas médias amostrais não conteria o verdadeiro
parâmetro populacional µ.
O intervalo de confiança apresentado acima é um intervalo bilateral.
Também pode haver interesse em construir intervalos unilaterais. O
limite inferior para um intervalo unilateral de 100(1-α)% é definido
calculando-se o valor de L tal que:
Eq 86:
P{L ≤ µ } = 1 − α
O limite superior para um intervalo unilateral de 100(1-α)% é definido
calculando-se o valor tal que:
Eq 87:
INTERVALO DE
CONFIANÇA PARA A
MÉDIA, VARIÂNCIA
CONHECIDA
P{µ ≤ U } = 1 − α
Seja X uma variável aleatória qualquer que siga a distribuição Normal
X → N(µ, σ) e seja x1, ..., xn uma amostra aleatória desse processo. A
partir do teorema do limite central, sabe-se que a distribuição da média
segue a distribuição Normal. Mais ainda, para n suficientemente grande
este resultado é válido mesmo que a distribuição de origem não seja
Normal.
Seja que uma variável aleatória X tenha média desconhecida e variância
conhecida. E seja que amostras dessa população apresentem média igual
a X , conforme Figura 29.
56
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
µ
Figura 29 - Distribuição amostral
das médias
Distribuição amostral de x
Amostra 1
x1-1,96σx
x1+1,96σx
x1
Amostra 2
x2
Amostra 3
x3
Como pode-se observar na Figura 29, para obter-se um intervalo de
confiança de 95% (1-α = 0,95, α = 0,05), ou seja, 95% dos intervalos,
construídos a partir das amostras coletadas, contenham o verdadeiro
parâmetro populacional, é preciso gerar um intervalo cuja amplitude
contenha 95% das possíveis amostras coletadas. Ou seja, um intervalo
proporcional a ± Zα / 2
σ
n
, onde Zα / 2 neste caso é Z 0,025 =1,96.
α/2
Figura 30 - Intervalo de confiança de
95%.
α/2
µ
-1,96
+1,96
O intervalo bilateral de confiança de 100(1-α)% para µ é:
Eq 88:
X − Zα / 2
σ
n
≤ µ ≤ X + Zα / 2
σ
n
Observa-se que, para n suficiente grande, as médias seguem a
(
)
distribuição Normal X → N µ ,σ / n independentemente da
distribuição original de X. Consequentemente, a Eq 88 é o intervalo de
confiança para a média de observações que apresentam uma distribuição
de origem qualquer.
Estatística Industrial
6. Estimativa de parâmetros
57
A variabilidade do tempo de atendimento em um caixa bancário é
conhecida σ = 0,10 min. Uma amostragem com 20 pessoas indicou
tempo médio de atendimento de X = 1,5 min . Construa um intervalo de
confiança de 95% para o tempo médio de atendimento.
Exemplo 1
σ
X − Zα / 2
1,5 − 1,96
1,5 − 1,96
≤ µ ≤ X + Zα / 2
n
0,10
≤ µ ≤ 1,5 + 1,96
20
0,10
≤ µ ≤ 1,5 + 1,96
20
σ
n
0,10
20
0,10
20
1,46 ≤ µ ≤ 1,54
Um intervalo unilateral de 100(1-α)% com limite superior é
estabelecido a partir de:
Eq 89:
µ ≤ X + Zα
σ
n
Um intervalo unilateral de 100(1-α)% com limite inferior é:
Eq 90:
ERRO DE ESTIMAÇÃO
X − Zα
σ
n
≤µ
O intervalo de confiança bilateral tem a forma X ± Z α / 2
σ
n
.
Aumentando a amplitude do intervalo, aumenta-se o nível de confiança
do intervalo, no entanto, aumenta-se o erro máximo de estimação que é o
valor absoluto da diferença entre o parâmetro amostral ( X ) e o
parâmetro populacional µ, representado como ε = X − µ .
Como o intervalo de confiança tem centro na média amostral, o erro
máximo é igual a metade da amplitude do intervalo.
Como X ± Z α / 2
σ
n
Onde erro: e = Z α / 2
, pode-se escrever X ± erro
σ
n
Para determinar o tamanho da amostra mínimo para estimar um
parâmetro populacional, basta isolar o valor de n na equação acima.
58
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Eq 91:
σ

n =  Zα / 2 
e

2
Como pode ser visto, o tamanho da amostra dependerá:
- grau de confiança desejado;
- dispersão na população σ;
- valor especificado para o erro tolerável.
Qual o tamanho da amostra necessário para estimar a média
populacional de uma característica dimensional de um processo cujo
desvio-padrão σ = 3 cm, com 95% de confiança e precisão de 0,5 cm ?
Exemplo 2
α = 0,05 ==> zα/2 = 1,96; σ = 3,0 cm; e = 0,5 cm?
2
 1,96 × 3,0 
n=
 = 138,3
 0,5 
Logo, são necessários n = 139 peças
INTERVALO DE
CONFIANÇA PARA A
MÉDIA, VARIÂNCIA
DESCONHECIDA
Outra distribuição muito útil é a distribuição de Student t. Sejam X e
χ 2 variáveis aleatórias independentes normal-padronizada e quiquadrada. Então, a variável:
Eq 92:
tk =
X
χ k2 / k
Segue a distribuição t com k graus de liberdade. Sua função
densidade de probabilidade é:

Γ[(k + 1) / 2]  t 2

f
(
t
)
=
+
1
Eq 93:

kπ Γ(k/2)  k

−∞<t < ∞
− (k +1) / 2
Estatística Industrial
6. Estimativa de parâmetros
59
Figura 31 - Distribuição de Student t.
Exemplo de uso da distribuição t:
Exemplo 3
Seja X → N ( µ , σ ) ;
X −µ
Eq 94: X − µ = σ / n =
S /σ
S/ n
X1, ..., Xn uma amostra aleatória. Então:
N (0,1)
χ n2−1 / (n − 1)
Ou seja,
Eq 95:
X −µ
S/ n
≈t
De forma que a distribuição t é a base para inferências a respeito de X
quando σ2 não é conhecido.
Seja X uma variável aleatória Normal com média e variância
desconhecidas. Se uma amostra de n valores indica média X e
variância S2, o intervalo de confiança de 100(1-α)% é calculado usandose a distribuição de Student t.
Eq 96:
X − tα / 2, n −1
S
S
≤ µ ≤ X + tα / 2, n −1
n
n
Os intervalos unilaterais de confiança de 100(1-α)% com limites
superior e inferior são respectivamente:
Exemplo 2
Eq 97:
µ ≤ X + tα , n −1
Eq 98:
X − tα , n −1
S
n
S
≤µ
n
A quantidade mensal de produtos entregues por uma empresa segue uma
60
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
distribuição Normal com média e variância desconhecidas. Analise os
dados a seguir, que representam uma amostra de 20 meses e construa um
intervalo de 95% para a média.
17,4
18,2
18,3
18,8
19,0
19,2
19,3
19,6
19,6
19,9
20,2
20,2
20,5
20,7
20,9
21,0
21,3
21,5
21,9
22,6
X = 20,01
S = 1,34
t0,025;19 = 2,093
20,01 − 2,093
1,34
1,34
≤ µ ≤ 20,01 + 2,093
20
20
ou
19,38 ≤ µ ≤ 20,64
Exemplo 4
A empresa pode estar preocupada exclusivamente com a quantidade
mensal de produtos entregues muito baixa. Construa um intervalo de
confiança unilateral com 95% de confiança no limite inferior.
t 0,05;19 = 1,729
20,01 − 1,729
Exemplo 5
1,34
20
≤µ
19,49 ≤ µ
ou
Qual o tamanho da amostra necessário para estimar a média
populacional de uma característica dimensional de um processo com
95% de confiança e precisão de 0,5cm ?
Sem conhecimento da variabilidade populacional, estima-se o desviopadrão populacional através de uma amostra piloto.
A partir de uma amostra de 20 peças, calculou-se o desvio-padrão S.
7
11
12
11
13
8
15
8
11
16
10
12
9
6
11
10
11
10
12
9
Como a variabilidade não é previamente conhecida, mas calculada a
partir da amostra, usa-se a distribuição Student t.
α = 0,05 ==> t0.025,19 = 2,093 e = 0,5 cm, S=2,45
2
2
 tα / 2,n −1S 
 2,093x 2,46 
 = 
n = 
 = 106
e
0,5




Logo é necessário coletar mais 86 (106-20) peças.
Sejam X1 e X2 duas variáveis aleatórias com médias µ1 e µ2
INTERVALO DE
CONFIANÇA PARA A
desconhecidas e variâncias ∂ 1 e ∂ 2 conhecidas. Um intervalo de
DIFERENÇA ENTRE DUAS confiança 100(1-α)% para a diferença entre as médias pode ser
MÉDIAS, VARIÂNCIA
Estatística Industrial
6. Estimativa de parâmetros
CONHECIDA
61
construído a partir dos resultados de amostras aleatórias de cada uma
dessas populações.
Pode ser demonstrado que a variância das diferenças entre as médias
vem dada por:
Eq 99:
 σ 12
2
σ
+ 2
 n1
n2

σ2 =



Assim o intervalo de confiança bilateral de 100(1-α)% será:
Eq 100:
( X 1 − X 2 ) − Z α / 2σ ≤ ( µ1 − µ 2 ) ≤ ( X 1 − X 2 ) + Z α / 2σ
E os correspondentes intervalos unilaterais serão:
Eq 101:
INTERVALO DE
CONFIANÇA PARA A
DIFERENÇA ENTRE DUAS
MÉDIAS, VARIÂNCIA
DESCONHECIDA
Eq 102:
(µ1 − µ 2 ) ≤ (X 1 − X 2 ) + Zα σ
(µ1 − µ 2 ) ≥ (X 1 − X 2 ) − Zα σ
Sejam X1 e X2 duas variáveis aleatórias Normais com médias µ1 e µ2
e variâncias σ 12 e σ 2 2 desconhecidas. Se for possível assumir que as
variâncias sejam iguais, ou seja, σ 12 = σ 2 2 , uma estimativa da
variância pode ser obtida como:
2
Sp =
(n1 − 1)S12 + (n 2 − 1)S 2 2
n1 + n 2 − 2
Uma vez encontrada a estimativa da variância dos valores individuais,
pode ser demonstrado que a estimativa da variância da diferença entre as
médias será:
Eq 103:
 S p2 S p2 
 = S 2  1 + 1 
S2 = 
+
p

 n1
n2 
 n1 n 2 


com graus de liberdade v = n1 + n2 − 2 . De modo que o intervalo de
confiança bilateral 100(1-α)% será:
Eq 104
( X 1 − X 2 ) − tα / 2,ν S ≤ ( µ1 − µ 2 ) ≤ ( X 1 − X 2 ) + tα / 2,ν S
Os correspondentes intervalos de confiança unilaterais serão:
Eq 105
Exemplo 6
(µ1 − µ 2 ) ≤ (X 1 − X 2 ) + tα ,ν S
(µ1 − µ 2 ) ≥ (X 1 − X 2 ) − tα ,ν S
Um eixo deve ser montado no interior de um rolamento. Uma amostra
de doze unidades indicou para o diâmetro interno do rolamento
X 1 = 2,538cm e S1 = 0,008 ; e para o diâmetro do eixo
X 2 = 2,520cm e S 2 = 0,006 . Calcule o intervalo de confiança de
62
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
99% para a folga de montagem.
Solução: Supondo variâncias iguais têm-se:
S p2 =
(11)0,008 2 + (11)0,006 2
12 + 12 − 2
= 0,000050
1
1
S = S p 2  +  = 0,00289
 12 12 
ν = 12 + 12 − 2 = 22
t 0,005;22 = 2,82
Assim o intervalo de confiança de 99% para a folga média resulta:
(2,538 − 2,52) − 2,82(0,00289) ≤ folga ≤ (2,538- 2,52) + 2,82(0,00289)
0,00986 ≤ folga ≤ 0,026
INTERVALO DE
CONFIANÇA PARA A
DIFERENÇA ENTRE
OBSERVAÇÕES
No caso em que se deseja comparar dois sistemas é possível, e ás vezes
necessário, trabalhar com a diferença entre as observações.
Por exemplo, para comparar dois métodos de tratamento contra corrosão,
pode-se escolher diversos blocos de terreno, colocar dois tubos (de
marcas diferentes ) em cada bloco e observar as diferenças.
Seja
X1 os resultados do sistema 1;
X2 os resultados do sistema 2;
d = X 1 − X 2 , as diferenças medidas bloco a bloco.
A partir dos resultados de n blocos, calcula-se d e Sd e usa-se a
distribuição Student t para construir o intervalo de confiança para a
média da diferença µd :
Eq 106
S
S
d − tα / 2 d ≤ µ d ≤ d + tα / 2 d
n
n
Se o valor zero estiver contido neste intervalo, então, não pode ser
descartada a hipótese que o desempenho dos dois sistemas seja o
mesmo.
Uma empresa quer verificar se o conhecimento de seus alunos a respeito
de um determinado assunto melhorou após 30 horas de treinamento.
Para isso foi realizado com os quinze alunos do treinamento um teste
antes e após o treinamento. Os dados a seguir representam as notas
obtidas pelos alunos. Conclua a respeito da eficiência do treinamento
com 95% de confiança.
Exemplo 7
Alunos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Antes
6,5
6,7
7,0
7,0
6,5
7,3
7,8
6,9
6,7
7,2
7,5
7,5
7,2
7,0
6,8
Estatística Industrial
6. Estimativa de parâmetros
63
Depois
7,5
7,7
7,9
8,0
7,4
8,3
8,8
8,9
7,7
8,2
8,5
8,5
8,2
8,0
8,8
Difer.
1,0
1,0
0,9
1,0
0,9
1,0
1,0
2,0
1,0
1,0
1,0
1,0
1,0
1,0
2,0
d = 1,12
S d = 0,36
t0,025;14 = 2,145
1,12 − 2,145
0,36
0,36
≤ µ ≤ 1,12 + 2,145
15
15
ou
0,92 ≤ µ d ≤ 1,32
Como o valor zero não está incluído no intervalo, rejeita-se a hipótese de
que as notas antes e depois sejam as mesmas, logo conclui-se que o
treinamento foi eficiente.
INTERVALO DE
CONFIANÇA PARA A
VARIÂNCIA
Outra distribuição importante, definida a partir da distribuição Normal é
a distribuição do Qui-quadrado χ 2 .
Seja X → N(0, 1)
E seja x1, ..., xn uma amostra aleatória deste processo.
Então, a variável aleatória
Eq 107:
χ n2 = x12 + x22 + ....... + xn2
Distribui-se de acordo com a distribuição do χ 2 , cuja função densidade
de probabilidade é:
Eq 108:
f (χ 2 ) =
1
n
2 n / 2 Γ 
2
2
( χ 2 ) ( n / 2 ) −1 e − χ / 2
χ2 > 0
É uma distribuição assimétrica à direita, com Média e Variância dadas
por:
Eq 109:
µ=n
Eq 110:
σ 2 = 2n
64
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Figura 32 - Distribuição do Qui2
quadrado χ .
Exemplo do uso da distribuição do χ 2 :
Seja X → N ( µ , σ ) ; x1, ..., xn uma amostra aleatória. Então:
n
Eq 111:
∑ (X i − X )
2
i =1
σ
≈ χ n2−1
2
ou
( n − 1) S 2
σ
2
≈ χ n2−1
Ou seja, a distribuição χ 2 é a base para inferências a respeito da
variância σ2.
Suponha que X é uma variável aleatória Normal com média e variância
desconhecidas. Seja que a variância amostral S2 é computada para uma
amostra de n observações. Então, um intervalo bilateral de confiança
100(1-α)% é obtido usando-se a distribuição do qui-quadrado:
Eq 112:
(n − 1)S 2
χ 2α / 2,n −1
≤σ
2
≤
(n − 1)S 2
χ 21−α / 2,n −1
No caso do interesse residir em intervalos unilaterais de 100(1-α)%
teremos:
Limite inferior:
Eq 113:
σ2≥
(n − 1)S 2
χ 2α , n −1
Limite superior:
Eq 114:
Exemplo 8
σ2 ≤
(n − 1)S 2
χ 21−α , n −1
Ache o intervalo de 95% para a variância no exemplo da quantidade
Estatística Industrial
6. Estimativa de parâmetros
mensal de produtos entregues.
S 2 = 1,34 2 = 1,80
X 2 0,025;19 = 32,85 ; X 2 0,975;19 = 8,91
19(1,80 )
19(1,80 )
≤σ 2 ≤
32,85
8,91
1,04 ≤ σ 2 ≤ 3,84
INTERVALO DE
CONFIANÇA PARA O
QUOCIENTE ENTRE
DUAS VARIÂNCIAS
Eq 115:
1,02 ≤ σ ≤ 1,96
ou
Se χ u2 e χ v2 são duas variáveis aleatórias independentes com
distribuição do Qui-quadrado, a razão:
Fu, v =
χ u2 / u
χ v2 / v
irá seguir a distribuição F com u, v graus de liberdade. A função
densidade de probabilidade para F é:
u/2
 u + v  u 
Γ
 
2  v 

Eq 116: f ( F ) =
u v
Γ  Γ 
2 2
F (u / 2 ) − 1
=
 u 

 v  F + 1
 

(u + v ) / 2
Exemplo de uso da distribuição F
Seja X 1 → N ( µ1 , σ 1 ) e X 2 → N ( µ 2 , σ 2 ) ; Se S1 e S2 são
variâncias amostrais, medidas em amostras de tamanho n1 e n2,
teremos:
Eq 117:
S12 / σ 12
S 22 / σ 22
≈ Fn1 −1, n 2 −1
Assim, a distribuição F pode ser usada para fazer inferências sobre a
variância de duas distribuições Normais
65
66
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Figura 33 - Distibuição F
Para comparar duas variâncias, σ 12 e σ 2 2 , oriundas de populações
com distribuição Normal, é vantajoso trabalhar com o quociente
σ 12 / σ 2 2 , uma vez que este se distribui conforme a distribuição F. O
intervalo de confiança para este quociente virá dado por:
Eq 118:
S1 2
S22
Onde
F1−α / 2;n1−1;n2 −1 ≤
σ 12
σ 22
≤
S1 2
S22
Fα / 2;n1−1;n2 −1
são os pontos percentuais da distribuição F com u e v
Fα ,u ,v
{
}
graus de liberdade, tais que P F ≥ Fα , u, v = α .
Se o valor 1 estiver contido neste intervalo, então não pode ser
descartada a hipótese de que a variância das duas populações seja a
mesma. Os respectivos intervalos unilaterais serão dados por:
Limite inferior:
Eq 119:
σ 12
S 2
≥ 1 F1−α ; n1 −1; n 2 −1
σ 22 S22
Limite superior:
Eq 120:
σ 12
σ 22
≤
S1 2
S2 2
Fα ;n1−1;n2 −1
As tabelas da distribuição F costumam fornecer apenas os valores de
Fα , mas F1−α pode ser obtido a partir da seguinte relação:
Eq 121:
Exemplo 9
1
F1 − α , u, v =
Fα , v, u
Os valores a seguir representam os tempos de produção de duas
máquinas. Analise os dados e conclua a respeito da variabilidade das
Estatística Industrial
6. Estimativa de parâmetros
67
máquinas A e B:
A
91,0
90,3
90,2
92,1
91,8
91,3
89,3
91,0
B
91,8
91,2
89,4
89,2
90,7
92,6
91,3
91,2
91,2
89,6
2
Máquina A: S1 = 0,8307
2
Máquina B: S 2 = 1,316
F0,025;9,7 = 4,82
F0,975;9,7 =
1
F0,025;7,9
=
1
= 0,238
4,20
σ 12 0,8307
0,8307
(0,238) ≤ 2 ≤
(4,82 )
1,316
1,316
σ2
2
σ
0,1502 ≤ 1 ≤ 3,0425
σ 22
O intervalo inclui o valor 1, assim não pode ser descartada a hipótese de
que a variabilidade das duas máquinas seja a mesma.
Além de servir para a comparação direta de duas variâncias, a
distribuição F é a chave para a comparação de vários grupos, o que é
feito usando o procedimento conhecido como Análise de Variância.
Esse assunto será abordado em um capítulo posterior.
INTERVALO DE
CONFIANÇA PARA O
PARÂMETRO DA
BINOMIAL
A variável aleatória X com função de probabilidade:
p
P( x ) = 
(1 − p ) = q
x =1
x=0
é chamada uma variável do tipo Bernoulli. Cada observação dessa
variável é chamada uma observação de Bernoulli. Uma seqüência de
observações é chamada um processo de Bernoulli.
Seja que uma amostra de n observações, x1,...xn , é extraída de um
processo de Bernoulli, com probabilidade de sucesso constante igual a
p. Então, a soma das observações seguirá o modelo Binomial com
parâmetros n e p. Além disso, como cada xi pode ser 0 ou 1, a média
1 n
Eq 122: X = ∑ x i
n i =1
será uma variável discreta contida no espaço {0, 1/n, 2/n,...,1}. A
distribuição de X pode ser obtida a partir da Binomial, uma vez que:
68
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Eq 123:
P{X ≤ a} = P{X ≤ na} =
[an ]
∑ (nk )p k (1 − p )n − k
k =0
onde [an] é o maior inteiro menor que an. A média e a variância de
são:
Eq 124:
µX = p
Eq 125:
σ2 =
X
X
p (1 − p )
n
Intervalos de confiança para proporções, por exemplo, fração de não
conformes em um processo, podem ser estabelecidos utilizando-se a
distribuição Binomial.
Se n é grande (n ≥ 30) e p ≥ 0,1, então a aproximação Normal para a
Binomial pode ser usada, resultando no seguinte intervalo de confiança
de 100(1-α)%:
Eq 126:
p − zα / 2
p (1 − p )
p (1 − p )
≤ π ≤ p + zα / 2
n
n
Se n é pequeno, o problema deve ser resolvido usando tabelas da
distribuição Binomial. Se p é pequeno, é possível usar a distribuição de
Poisson.
Exemplo 10
Um empresário deseja conhecer a satisfação de seus clientes em relação
aos serviços prestados por sua empresa. Em uma amostra aleatória de
n=100 clientes entrevistados, 4 pessoas demonstraram insatisfação com
os serviços prestados. Construa um intervalo de 95% de confiança para a
proporção de clientes insatisfeitos.
p − zα / 2
0,04 − 1,96
p (1 − p )
p (1 − p )
≤ π ≤ p + zα / 2
n
n
0,04(1 − 0,04 )
0,04(1 − 0,04 )
≤ π ≤ 0,04 + 1,96
100
100
0,03 ≤ π ≤ 0,05
Exemplo 11
O fornecedor alega que entrega 10% de produtos defeituosos. Qual o
tamanho de amostra suficiente para estimar a proporção de produtos
defeituosos entregues por este fornecedor com precisão de 0,03 e 95%
de confiança?
Solução:
α = 0,05 ==> z0,025 = 1,96; p = 0,10; e = 0,03
Como deseja-se estimar uma variável do tipo percentual, utiliza-se a
Estatística Industrial
6. Estimativa de parâmetros
69
distribuição Binomial.
n=
Zα2 2 × p (1 − p )
e2
n=
1,96 2 × 0,10 × (1 − 0,10)
0,032
= 384,16
Logo, é necessário uma amostra de 385 produtos.
Quando não se conhece o percentual p, usa-se p=0,5, pois requer o
maior tamanho da amostra.
Exercícios
Exercício 6.1
O tempo de atendimento em um restaurante apresenta variância
σ 2 = 0,0015 . Uma amostra aleatória de 12 mesas indicou tempo
médio de atendimento de X = 12,258min . Construa um intervalo de
95% de confiança para o tempo médio de atendimento no restaurante.
Exercício 6.2
Exercício 6.3
Recalcule o intervalo de confiança para o exercício 6.1, supondo que a
variância não fosse conhecida e o valor S 2 = 0,0015 tivesse sido
medido diretamente na amostra.
O peso de frangos apresenta variância conhecida igual a σ2=900g. Uma
amostra aleatória de 20 unidades indica X = 508g . Construa um
intervalo com 90% de confiança para o peso médio desses frangos.
Exercício 6.4
Exercício 6.5
Em um processo, as características dimensionais do produto resultante
segue o modelo normal. A partir da amostra apresentada a seguir, defina
o limite inferior de um intervalo unilateral de 95% de confiança para a
característica dimensional média.
35.2
36.7
37.5
38.2
38.7
39.5
36.3
37.3
37.8
38.3
39.3
40.1
Uma máquina é usada para encher pacotes de leite. O volume segue
aproximadamente o modelo normal. Uma amostra de 16 potes indicou:
1021
1016
1012
1011
1014
1018
1022
1027
1008
1015
1013
1013
1017
1019
1007
1003
a) construa um intervalo unilateral de 99% com limite inferior para a
média;
b) construa um intervalo de 95% para a média;
Exercício 6.6
Considere os dados do exercício 6.4. Construa um intervalo de 90%
para a variância da característica dimensional. Depois converta esse
intervalo e apresente-o em termos de desvio-padrão.
Exercício 6.7
Considere os dados do exercício 6.5. Construa um intervalo de 95%
para o desvio-padrão do volume dos pacotes de leite.
70
6. Estimativa de parâmetros
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Exercício 6.8
Ainda em relação ao problema 6.5. Imagine que há uma segunda
máquina de enchimento para a qual uma amostra de 16 pacotes indicou:
1011
1015
1017
1015
1021
1021
1010
1007
1022
1018
1016
1015
1020
1022
1025
1030
Construa um intervalo de 95% para a diferença entre as duas médias das
máquinas. Baseado nos resultado desses cálculos você concluiria que as
duas máquinas fornecem mesmo volume médio?
Exercício 6.9
Em uma indústria química, os engenheiros desejam saber se o
alongamento de um composto de borracha permanece inalterado ao
passar por uma máquina extrusora. Como o alongamento do composto
depende do lote de matéria prima usado na sua confecção, os dados
foram coletados aos pares. Construa um intervalo de confiança para a
diferença entre os pares de observações:
Lote
1
2
3
4
5
6
7
8
9
10
Antes
360
370
380
345
365
380
390
395
385
410
Depois
360
365
355
340
350
370
390
375
375
395
Exercício 6.10
Em relação ao problema anterior, calcule o quociente entre as variâncias
dos alongamentos medidos antes e depois do composto passar pela
extrusora. Depois construa um intervalo de confiança para esse
quociente.
Exercício 6.11
Uma amostra aleatória de 250 dispositivos eletrônicos apresentou 27
unidades defeituosas. Estime a fração de não conformes e construa um
intervalo de 95% de confiança para o verdadeiro valor da fração de não
conformes.
Exercício 6.12
Qual o tamanho da amostra necessário para estimar o tempo médio de
atendimento de um serviço com desvio-padrão conhecido de σ=3 min
com 95% de confiança e precisão de 0,2 min?
Exercício 6.13
Qual o tamanho da amostra necessário para estimar o tempo médio de
atendimento de um serviço com 95% de confiança e precisão de 0,2
min? Uma amostra de 20 tempos foi coletada para estimar o desviopadrão S.
Exercício 6.14
8
10
12
11
13
8
15
8
11
14
12
12
9
7
12
10
11
10
12
8
Em uma pesquisa eleitoral, 60 das 180 pessoas entrevistadas
responderam que votariam no candidato da oposição. Essa amostra é
suficiente para estimar a verdadeira proporção de eleitores desse
candidato, com uma precisão de 0,04 e confiança 95%?
7
Testes de hipótese
José Luis Duarte Ribeiro
Carla ten Caten
COMENTÁRIOS INICIAIS
Uma hipótese estatística é uma afirmativa a respeito de um parâmetro de
uma distribuição de probabilidade. Por exemplo, podemos formular a
hipótese que a produtividade 2,5 peças/hora. Formalmente isso é escrito
como:
H 0 : µ = 2,5 peças/hora
H1 : µ ≠ 2,5 peças/hora
Ho é chamada de hipótese nula e H1 de hipótese alternativa. Nesse
caso, a alternativa formulada é bilateral, mas também podem ser
estabelecidas alternativas unilaterais, tais como:
H 0 : µ = 2,5 peças / hora
H1 : µ < 2,5 peças/hora
Os testes de hipótese são uma das aplicações da estatística mais usadas.
Via de regra, a hipótese nula é feita com base no comportamento
passado do produto/processo/serviço, enquanto a alternativa é formulada
em função de alterações/inovações recentes. No ambiente atual de
melhoria contínua, é fácil entender a importância dos testes de hipótese,
eles permitem confirmar a eficácia das medidas de melhoria adotadas.
Ao testar a hipótese, toma-se uma amostra aleatória do sistema em
estudo e se calcula a estimativa desejada. Conforme o valor da
estimativa, a hipótese nula será aceita ou rejeitada, a partir de
procedimentos estatísticos.
Ao testar uma hipótese, há dois tipos de erros que podemos cometer:
α = P {rejeitar Ho/Ho é verdadeira} = erro do tipo I
β = P {aceitar Ho/Ho é falsa} = erro do tipo II
O procedimento usual é fixar o valor de α e verificar o valor de β. O
risco β é uma função do tamanho da amostra, e é controlado
indiretamente. Quanto maior o tamanho da amostra, menor será o risco
β.
Na seqüência os seguintes pontos serão cobertos:
- Comparação de médias, variância conhecida;
72
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
- Comparação de médias, variância desconhecida;
- Comparação de pares de observações;
- Comparação de variâncias;
- Comparação dos parâmetros da Binomial.
COMPARAÇÃO DE
MÉDIAS, VARIÂNCIA
CONHECIDA
Suponha que X é uma variável aleatória com média µ desconhecida e
2
variância σ conhecida. E queremos testar a hipótese que a média é
igual a um certo valor especificado µ0. O teste de hipótese pode ser
formulado como segue:
Eq 127:
H o : µ = µ0
H1 : µ ≠ µ 0
Para testar a hipótese, toma-se uma amostra aleatória de n observações
e se calcula a estatística
Eq 128:
Zo =
X − µo
σ/ n
Note que o teste é feito usando-se σ / n no denominador, uma vez
que esse é o desvio padrão da média.
A hipótese Ho é rejeitada se Z 0 > Zα / 2 onde Z α / 2 é um valor
limite da distribuição normal reduzida tal que a probabilidade de se obter
valores externos a ± Z α / 2 é α. Ou seja, a probabilidade do valor Zo
acontecer segundo a hipótese nula é menor do que α , logo rejeita-se a
hipótese nula Ho.
Assim, se X resultar próximo de µo , ou seja, Z o ≤ Z a / 2 , a
hipótese Ho é aceita; caso contrário, se X resultar longe de µ o , ou
seja, Z o > Z a / 2 , a hipótese Ho é rejeitada.
Exemplo 1
Um processo deveria produzir mesas com 0,85 m de altura. O
engenheiro desconfia que as mesas que estão sendo produzidas são
diferentes que o especificado. Uma amostra de 8 mesas foi coletada e
indicou X = 0,84 m . Sabendo que o desvio padrão é σ = 0,010 m,
teste a hipótese do engenheiro usando um nível de significância α=0,05.
Solução:
H o : µ = 0,850
H1 : µ ≠ 0,850
Zo =
0,847 − 0,850
0,010 / 8
= −0,85
Z o = −0,85 > − Z 0,025 = −1,96 ou Z o = 0,85 < Z 0,025 = 1,96 ⇒
Estatística Industrial
7. Testes de hipótese
73
Ho não pode ser rejeitada
α/2
α/2
µ =0,850
Zα / 2 = -1,96
Zα / 2 =
+1,96
Z 0 ≤ Zα / 2
Z 0 > Zα / 2
Figura 34 - Teste de hipótese para o
exemplo 7.1 Rejeita Ho
Aceita Ho
Z 0 > Zα / 2
Rejeita Ho
Em alguns casos, o objetivo pode ser rejeitar Ho somente se a verdadeira
média for maior que µo. Assim, a hipótese alternativa unilateral será
H 1 : µ > µ o , e a hipótese nula será rejeitada somente se Z o > Z α .
Se o objetivo for rejeitar Ho somente quando a verdadeira média for
menor que µo, a hipótese alternativa será H 1 : µ < µ o , e a hipótese
nula será rejeitada somente se Z o < − Z α ou Z o > Z α .
Quando há duas populações com médias desconhecidas, digamos
µ o e µ 1 e variâncias conhecidas, σ 12 e σ 22 , o teste para verificar a
hipótese que as médias sejam iguais é o seguinte:
Eq 129:
H o : µ1 = µ 2
H 1 : µ1 ≠ µ 2
Nesse caso, a partir de uma amostra aleatória de n1 observações da
população 1 e n2 observações da população 2, calcula-se:
Eq 130
Zo =
X1 − X 2
σ 12
n1
+
σ 22
n2
E Ho é rejeitada se Z 0 > Zα / 2 , ou seja, a probabilidade do valor Zo
acontecer segundo a hipótese nula é menor do que α , logo rejeita-se a
hipótese nula Ho.
No caso da alternativa unilateral H 1 : µ1 > µ 2 , a hipótese nula Ho será
rejeitada quando Z o > Z α . E se a alternativa unilateral for
H1 : µ1 < µ 2 , a hipótese Ho será rejeitada quando resultar Z o < − Z α
ou Z o > Z α .
Hipótese
Tabela 7 - Teste de médias, variância
Estatística
Critério para
rejeitar Ho
74
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
conhecida
H o : µ = µ0
Z 0 > Zα / 2
H1 : µ ≠ µo
H o : µ = µ0
Zo =
H1 : µ > µo
X − µo
Z o > Zα
σ/ n
Z o < − Z α ou
H o : µ = µ0
H1 : µ < µo
Z o > Zα
H o : µ1 = µ 2
H 1 : µ1 ≠ µ 2
H o : µ1 = µ 2
H 1 : µ1 > µ 2
H o : µ1 = µ 2
H 1 : µ1 < µ 2
COMPARAÇÃO DE
MÉDIAS, VARIÂNCIA
DESCONHECIDA
Z 0 > Zα / 2
Zo =
X1 − X 2
σ 12
2
σ
+ 2
n1 n 2
Z o > Zα
Z o < − Z α ou
Z o > Zα
Suponha que X é uma variável aleatória Normal com média µ e
variância σ 2 desconhecidas. Para testar a hipótese que a média é igual
a um valor especificado µo, formulamos:
H o : µ = µ0
H1 : µ ≠ µo
Esse problema é idêntico aquele da seção anterior, exceto que agora a
variância é desconhecida. Como a variância é desconhecida, é
necessário fazer a suposição adicional que a variável tenha distribuição
Normal. Essa suposição é necessária para poder desenvolver a
estatística do teste; contudo, os resultados ainda serão válidos se o
afastamento da normalidade não for forte.
Como σ 2 não é conhecido, usa-se a distribuição de Student-t para
construir a estatística do teste:
Eq 131:
to =
X − µo
S/ n
E a hipótese nula H o : µ = µ 0 é rejeitada se t 0 > tα / 2,n −1 onde t
é um valor limite da distribuição de Student-t tal que a
probabilidade de se obter valores externos a t α / 2 é α.
α/2
A Tabela 8 mostra os testes apropriados para os casos de hipóteses
Estatística Industrial
7. Testes de hipótese
75
unilaterais.
Um empresário desconfia que o tempo médio de espera para
atendimento de seus clientes é superior a 20 minutos. Para testar essa
hipótese ele entrevistou 20 pessoas e questionou quanto tempo demorou
para ser atendido. O resultado dessa pesquisa aparece a seguir:
Exemplo 2
22
20
21
23
22
20
23
22
20
24
21
20
21
24
22
22
23
22
20
24
Solução:
H o : µ = 20 min
H1 : µ > 20 min
X = 21,8 min
S = 1,40 min
to =
X − µo 21,8 − 20
=
= 5,75
S/ n
1,40 / 20
t0 = 5,75 > t0,05,19 = 1,729 Rejeita-se Ho
Quando há duas populações normais com médias µ1 µ 2 e variâncias
σ 12 σ 22 desconhecidas, as hipóteses para testar se as médias são iguais
são as seguintes:
H o : µ1 = µ 2
H 1 : µ1 ≠ µ 2
O procedimento do teste irá depender se σ 12 = σ 22 . Se essa suposição
for razoável, então calcula-se a variância combinada:
Eq 132:
S 2p =
(n1 − 1)S12 + (n2 − 1)S22
n1 + n 2 − 2
E a seguir calcula-se a estatística
Eq 133:
t0 =
x1 − x 2
1
1
Sp
+
n1 n 2
Ho será rejeitada se t 0 > tα / 2,n + n − 2 . Os testes unilaterais
1 2
correspondentes aparecem na Tabela 8.
76
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Um engenheiro desconfia que a qualidade de um material pode depender
da matéria-prima utilizada. Há dois fornecedores de matéria-prima
sendo usados. Testes com 10 observações de cada fornecedor
indicaram: X 1 = 39 , S1 = 7 , X 2 = 43 , S 2 = 9 . Use um nível de
significância α = 0,05 e teste a hipótese do engenheiro.
Exemplo 3
Solução:
H o : µ1 = µ 2
H 1 : µ1 ≠ µ 2
Supondo σ 12 = σ 22 temos:
S 2p
(
9 )7 2 + (9)9 2
=
= 65 ⇒ S p = 8,06
t0 =
10 + 10 − 2
39 − 43
1
1
8,06
+
10 10
= −1,11
t 0 = 1,11 < t 0,025;18 = 2,101 ⇒ Ho não pode ser rejeitada
Se houver evidências que σ 12 ≠ σ 22 , então a estatística a ser usada é:
t0 =
Eq 134:
x1 − x 2
S12 S 22
+
n1 n 2
e o número de graus de liberdade para t é calculado de forma
aproximada:
Eq 135:
2
[
( S12 / n1 ) + ( S 22 / n 2 )]
ν=
( S12 / n1 ) 2 ( S 22 / n 2 ) 2
+
n1 + 1
n2 + 1
−2
Ho será rejeitada se t0 > tα / 2,ν . Os testes unilaterais correspondentes
aparecem na Tabela 8.
Tabela 8 - Teste de médias, variância
Hipótese
Estatística
Critério para rejeitar
Ho
Estatística Industrial
7. Testes de hipótese
desconhecida
H o : µ = µ0
H1 : µ ≠ µo
H o : µ = µ0
H1 : µ > µo
77
t0 > tα / 2,n −1
to =
X − µo
S/ n
t o > tα ,n −1
H o : µ = µ0
H1 : µ < µo
t o < −tα ,n −1 ou
to > tα , n −1
H o : µ1 = µ 2
H 1 : µ1 ≠ µ 2
t0 =
x1 − x 2
1
1
Sp
+
n1 n 2
t 0 > tα / 2,ν
ν = n1 + n 2 − 2
H o : µ1 = µ 2
H 1 : µ1 > µ 2
H o : µ1 = µ 2
H 1 : µ1 < µ 2
COMPARAÇÃO DE
PARES DE
OBSERVAÇÕES
to =
X1 − X 2
S12 S 22
+
n1 n 2
[
( S12 / n1 ) + ( S 22 / n
ν=
( S12 / n1 ) 2 ( S 22 /
+
n1 + 1
n2
t o > t α ,ν
to < −tα ,ν ou
to > tα ,ν
Em algumas situações os dados de duas populações são coletados e
comparados em pares. Isso é feito para impedir que fatores não
controláveis inflacionem as estimativas das variâncias. A hipótese
testada é se existe diferenças significativas entre pares de observações.
H o : µd = 0
H1 : µ d ≠ 0
O teste baseia-se na estatística:
Eq 136:
t=
d
Sd / n
onde:
dé a diferença entre os pares de observações.
Sdé o desvio-padrão das diferenças entre os pares de observações
78
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
né o número de pares de observações
Ho será rejeitada se t0 > tα / 2, n −1 .
Exemplo 7.4
Duas espécies de um certo tipo de cereal estão sendo testadas quanto ao
seu crescimento. O experimento foi feito escolhendo 10 blocos de
terreno e plantando em cada bloco mudas de ambas as espécies. Os
resultados a seguir são as alturas medidas ao final do primeiro mês.
Usando-se α = 0,05
Terreno
1
2
3
4
5
6
7
8
9
10
Espécie 1
22
27
18
33
25
21
15
33
21
24
Espécie 2
21
31
24
32
29
23
19
37
22
27
Os dados deste experimento foram coletados aos pares para impedir que
as diferenças de fertilidade entre os blocos de terreno (que podem ser
grandes) mascarem os resultados.
Solução:
H o : µd = 0
H1 : µ d ≠ 0
A análise é feita computando a média e o desvio-padrão da diferença:
d = (1 − 4 − 6 + 1 − 4 − 2 − 4 − 4 − 1 − 3) / 10 = −2,6
S d = 2,32
t=
− 2,6
2,32
10
= −3,54
como t = 3,54 > t 0,025;9 = 2,262 , a hipótese nula H 0 : µ d = 0 é
rejeitada.
COMPARAÇÃO DE
VARIÂNCIAS
Os testes descritos a seguir assumem que as distribuições das variáveis
aleatórias sigam o modelo Normal. Se essa suposição é violada, o teste
deixa de ser exato.
Uma hipótese testada com freqüência é que a variância tenha um valor
especificado σ 20 :
H 0 : σ 2 = σ 02
H 1 : σ 2 ≠ σ 02
A estatística para o teste é:
Estatística Industrial
7. Testes de hipótese
Eq 137:
χ 02 =
79
(n − 1)S 2
σ 02
onde S2 é o valor da variância medida para uma mostra aleatória de n
observações.
A hipótese nula é rejeitada se χ 02 ultrapassar os limites inferior e
superior da distribuição do Qui-quadrado, mais especificamente, se
χ02 > χ 2
α / 2;n −1
ou se χ 02 < χ 2
1−α / 2;n −1
.
Testes unilaterais também podem ser formulados. A Tabela 9 mostra os
limites correspondentes.
No caso em que se deseja testar se a variância de duas populações com
distribuição Normal são idênticas, as hipóteses são formuladas como:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
Esse teste tem larga aplicação no controle da qualidade, uma vez que o
monitoramento da variabilidade é essencial para a garantia de qualidade.
Pode-se, por exemplo, comparar a variabilidade antes e após a
implantação do controle estatístico de processo.
A comparação de variâncias é feita usando-se a distribuição F:
S12
F
=
Eq 138:
0
S 22
H0 é rejeitada se F0 > Fα / 2,n −1,n −1 ou se F0 < F1−α / 2,n −1,n −1 .
1
2
1
2
A Tabela 9 indica os limites apropriados para os testes unilaterais.
Exemplo 7.5
Para o exemplo da qualidade do material (dois tipos de fornecedores, 10
observações de cada fornecedor S1 = 7 microns e S2 = 9 microns),
testar a hipótese de que as variâncias sejam as mesmas, usando α = 5%.
Solução:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
F0 =
72
92
= 0,605
80
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
F0,025;9,9 = 4,03
F0,975;9,9 = 1 / 4,03 = 0,248
A hipótese H0 não pode ser rejeitada, uma vez que o valor calculado F0
= 0,605 está dentro dos limites de decisão [0,248 ; 4,03].
Tabela 9 - Comparação de
variâncias
Hipótese
Estatística
Critério para rejeitar
H0
2
χ0 > χ 2
ou
α / 2;n −1
H 0 : σ 2 = σ 02
H 1 : σ 2 ≠ σ 02
H 0 : σ 2 = σ 02
H 1 : σ 2 > σ 02
χ 02 < χ 2
1−α / 2;n −1
χ 02 =
(n − 1)S
σ 02
2
χ 02 > χ 2
α ;n −1
H 0 : σ 2 = σ 02
χ 02 < χ 2
H 1 : σ 2 < σ 02
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
H 0 : σ 12 = σ 22
H 1 : σ 12 > σ 22
H 0 : σ 12 = σ 22
H 1 : σ 12 < σ 22
1−α ;n −1
S2
F0 = 1
S 22
S2
F0 = 1
S 22
S2
F0 = 2
S12
F0 > Fα / 2,n1 −1,n2 −1
ou
F0 < F1−α / 2,n1 −1,n2 −1
F0 > Fα ,n1−1,n2 −1
F0 < F1−α ,n1−1,n2 −1
πo
COMPARAÇÃO DOS
PARÂMETROS DA
BINOMIAL
Seja que queremos testar a hipótese que o parâmetro π da Binomial é
igual a um certo valor πo . O teste que será descrito se baseia na
aproximação Binomial através da distribuição Normal.
Se uma amostra aleatória de n observações é coletada e se observam x
itens que pertencem a classe associada com p, então para testar:
H0 :π = πo
H1 : π ≠ π o
Usa-se a estatística
Estatística Industrial
7. Testes de hipótese
Eq 139:
Z0 =
81
p − πo
π o (1 − π o )
n
A hipótese nula é rejeitada se resultar Z 0 > Zα / 2 . No caso de
alternativas unilaterais usa-se o mesmo raciocínio.
Um engenheiro deseja testar a hipótese de que seu fornecedor entrega
lotes com 10% de não conformes. Um lote de 180 unidades revelou 14
não conformes. Use α = 5% e conclua a respeito.
Exemplo 7.6
Solução:
H 0 : π = 0,1
H1 : π ≠ 0,1
p = 14 / 180 = 0,078
Z0 =
0,078 − 0,1
0,1(1 − 0,1)
180
= −0,98
Z 0 = 0,98 < Z 0,025 = 1,96 ⇒ H0 não pode se rejeitada
A aproximação Normal também pode ser usada para testar a hipótese
que dois parâmetros de Binomiais sejam iguais, ou seja, para testar:
H 0 : π1 = π 2
H1 : π 1 ≠ π 2
Nesse caso, amostras de tamanho n1 e n2 são retiradas de cada
população gerando x1 e x2 itens pertencentes a classe associada com
p. Então p1 = x1 / n1 e p2 = x2 / n2 são os estimadores de π para
cada população.
A estatística para o teste é:
Z0 =
Eq 140:
p1 − p2
1
1 
p(1 − p ) + 
 n1 n2 
onde:
Eq 141:
n p n p
p = 1 1+ 2 2
n1 + n2
E a hipótese nula é rejeitada quando Z 0 > Zα / 2
Exemplo 7.7
Um empresário deseja saber se o percentual de satisfação de seus
clientes em relação a dois produtos oferecidos por sua empresa são
82
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
similares. Para isso entrevistou 150 pessoas, das quais 80 disseram estar
satisfeitas com o produto A e 100 com o produto B. Use α = 5% e
conclua a respeito.
H 0 : π1 = π 2
H1 : π 1 ≠ π 2
p1 =
80
= 0,53
150
p2 =
100
= 0,67
150
150 x 0,53 + 150 x 0,67
n p n p
= 0,60
p = 1 1+ 2 2 =
150 + 150
n1 + n2
Z0 =
p1 − p2
0,53 − 0,67
− 0,14
=
=
= −2,47
1  0,0567
 1
1
1 
0,60 x (1 − 0,60)x 
+


p (1 − p ) +
 150 150 
 n1 n2 
Z o = 2,47 > Zα / 2 = 1,96 Rejeita-se Ho
Exercícios
Exercício 7.1
Estabeleça a hipótese nula e a hipótese alternativa para as seguintes
situações:
a) Um fornecedor afirma que o tempo de vida de um produto que ele
comercializa é maior que 3 meses.
B) Um engenheiro desconfia que uma máquina está fora do ajuste,
produzindo peças com diâmetro diferente do especificado que é de =
2,54.
c) Um fabricante atesta que o consumo de um certo modelo de
eletrodoméstico é inferior a 20 watts.
Exercício 7.2
Uma amostra de vinte observações de um produto indicou um tempo de
vida média de 217 ciclos. Sabendo que o desvio padrão é de 20 ciclos,
teste a hipótese de que o tempo de vida é inferior a 250 ciclos, conforme
atestam alguns engenheiros. Use α = 0,05.
Exercício 7.3
Dois tipos de combustíveis estão sendo testados. A hipótese é que eles
tenham o mesmo desempenho. Teste essa hipótese, sabendo que o
desvio-padrão é conhecido
σ= 0,7 Km/l e os resultados de testes feitos com 10 automóveis usando
cada tipo combustível indicaram
X1 = 13,3Km / l e X 2 = 13,9 Km / l. Use α = 0,05.
Exercício 7.4
Os dados a seguir representam a produtividade de um processo. Use α
= 0,05 e teste a hipótese de que nas condições atuais a produtividade
seja superior a 1,5.
1,50
1,55
1,59
1,42
1,53
1,58
1,48
1,52
Estatística Industrial
7. Testes de hipótese
1,53
Exercício 7.5
1,62
1,46
1,56
1,63
1,54
1,58
83
1,68
Repita o exercício 7.3 supondo que o desvio-padrão não fosse
conhecido, mas que tivesse sido medido nas duas amostras de 10
valores, resultando em S1 = 0,6 Km/l e S2 = 0,8 Km/l. (Suponha
σ 12 = σ 22 e use α = 0,05).
Exercício 7.6
Um médico está estudando o crescimento de dois tipos de bactérias.
Essas bactérias foram cultivadas em diferentes substratos. Como pode
haver um efeito significativo do substrato, os dois tipos de bactérias
foram cultivados em cada substrato. Use α = 0,01 e teste a hipótese de
que a bactéria 1 cresce mais que a bactéria 2.
Substrato
1
2
3
4
5
6
7
8
B1
3,0
3,2
2,7
2,5
3,8
4,3
3,5
4,8
B2
3,2
3,1
2,4
2,1
3,2
3,7
3,2
4,0
Exercício 7.7
Um fabricante atesta que as máquinas de enchimento que ele produz
apresentam um coeficiente de variação inferior a 2%. Um experimento
aleatório realizado com garrafas de 2 litros indicou S2=0,0024 litros2
para uma amostra de 15 garrafas. Teste a hipótese do fabricante para um
nível de significância α = 0,05.
Exercício 7.8
Uma nova unidade de desalinização foi instalada em uma indústria
química. Uma amostra com n = 10, coletada antes da instalação da
nova unidade indicou concentração de sal X 1 = 19,55 e S12 = 15,35 .
Enquanto que, após a instalação, uma amostra com n = 16 indicou
X 2 = 17,85 e S22 = 8,65 . Baseado nesses dados, pede-se:
a) Teste a hipótese que as duas variâncias sejam iguais?
b) Teste a hipótese que a nova unidade reduziu a concentração média de
sal?
Exercício 7.9
Um engenheiro deseja testar a hipótese que o percentual de peças
defeituosas é inferior a 10%. Uma amostra aleatória com 75 peças
revelou 6 peças defeituosas. Use α = 0,05 e conclua a respeito.
Exercício 7.10
Um engenheiro desconfia que o percentual de produtos defeituosos
reduziu depois da implantação do controle estatístico de processo. Em
uma amostragem de 500 produtos realizada antes da implantação do
CEP, identificou-se 5 produtos defeituosos. Após a implantação do
CEP, coletou-se uma amostra de 700 produtos e identificou-se 1
defeituoso. Teste a hipótese do engenheiro usando 2,5% de significância.
Exercício 7.11
Num estudo do tempo médio de adaptação para uma amostra aleatória de
50 homens num grande complexo industrial, surgiram as seguintes
estatísticas: média da amostra = 3,2 anos e desvio padrão da amostra =
0,8 anos. Pode-se concluir, ao nível de 1% de significância que os
homens tenham um tempo de adaptação menor que as mulheres que é de
3,7 anos?
84
8. Comparação de vários grupos: a aálise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Exercício 7.12
Um fabricante alega que apenas 2% das peças que ele fornece estão
abaixo das condições de utilização. Em 200 peças escolhidas
aleatoriamente de uma remessa de 5.000 encontraram-se 10 falhas. A
alegação do fabricante parece aceitável ao nível de 5% de significância?
Exercício 7.13
Os dados abaixo dão os acertos obtidos por 8 soldados num experimento
destinado a determinar se a precisão do tiro é afetada pela maneira de
dispor os olhos.
(a) com o olho direito aberto
(b) com o olho esquerdo aberto
Que tipo de conclusão você poderia tirar?
Exercício 7.14
Exercício 7.15
Exercício 7.16
Soldado
1
2
3
4
5
6
7
8
Direito
44
39
33
56
43
56
47
58
Esquerdo
40
37
28
53
48
51
45
60
Para verificar o grau de adesão de uma nova cola para vidros, preparamse dois tipos de montagem; Cruzado (A) onde a cola é posta em forma
de X e Quadrado (B), onde a fórmula é posta nas 4 bordas. O resultado
para a resistência das duas amostras de 10 cada estão abaixo. Para um
nível de 5% de significância que tipo de conclusão poderia ser tirada?
Método A
16
14
19
18
19
20
15
18
17
18
Método B
13
19
14
17
21
24
10
14
13
15
A fim de comparar a eficácia de dois operários, foram tomadas, para
cada um, oito medidas do tempo gasto, em segundos, para realizar certa
operação. Os resultados obtidos são dados a seguir. Pergunta-se se, ao
nível de 5% de significância, os operários devem ser considerados
igualmente eficazes ou não.
Operário 1
35
32
40
36
35
32
33
Operário 2
29
35
36
34
30
33
31
Uma pesquisa nacional indica que aproximadamente 25% das contas de
grandes magazines incorrem em penalidade por atraso nos pagamentos.
Se um magazine local constata 40 atrasos numa amostra de 200 clientes,
pode necessariamente admitir que seus clientes sejam melhores que os
clientes de todo país? Adote 5% de significância.
8
Comparação de vários grupos: a
análise de variância
José Luis Duarte Ribeiro
Carla ten Caten
COMENTÁRIOS INICIAIS
Os testes de hipótese apresentados até aqui limitaram-se à comparação
de duas médias ou duas variâncias.
Há situações onde se deseja comparar várias médias, cada uma oriunda
de um grupo diferente. Esses grupos poderiam ser: a performace em
Km/l de carros consumindo 4 marcas de combustíveis, a eficiência de 3
métodos de treinamento, comparação da produtividade entre 5 máquinas
ou 3 postos de trabalho ou 2 layouts.
ONE-WAY ANOVA
Experimentos que envolvem:
1 Variável de resposta
1 Fator controlável a vários níveis (grupos)
Os ensaios feitos em cada nível do fator controlável configuram um
grupo. O objetivo é identificar se os valores da variável de resposta
medidos nos diversos níveis do fator controlável diferem entre si.
Exemplo
Um profissional deseja estudar se a temperatura ambiente influencia na
produtividade dos funcionários. Para isso realizou três medidas de
produtividade (peças/hora) em três temperaturas diferentes.
Fator controlável: temperatura
Níveis do fator controlável: 15, 25, 35
Variável de resposta: produtividade
Repetições: 3 valores para cada nível
Existem dois tipos de
experimentos:
- Fatores controláveis a níveis fixos: quando o efeito de cada nível é fixo,
como no caso em que os tratamentos são 4 pressões de operações, ou 4
layouts fixados pelo engenheiro; Por ex., 5 valores de temperatura.
- Fatores controláveis a níveis aleatórios: quando o efeito de cada nível é
86
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
aleatório, como no caso em que os níveis são k lotes de produção, ou k
operadores escolhidos aleatoriamente; Por ex., 3 fábricas escolhidas ao
acaso.
Disposição dos dados:
Os dados são dispostos da seguinte forma:
Fator A
A1
A2
...
Ak
y11
y21
...
yk1
y12
y22
...
yk2
:
:
:
:
:
:
yij
:
:
:
:
:
y1,n1
y2,n2
...
yk,nk
Ti.
T1.
T2.
...
Tk.
T.. =
No.Obs. ni
n1
n2
...
nk
N =
Y1.
Y2.
...
Yk.
Y.. =
Totais
Médias
Modelo estatístico:
Yi.
Os resultados poderiam ser representados por um modelo aditivo:
Eq 142
Yij = µ + τ i. + ε ij ;
i = 1,....., k
j = 1, ..., n j
onde:
Yij é a observação j medida no tratamento i;
µ média geral de todas as observações;
τi.efeito do tratamento i;
εij erro aleatório;
Hipóteses
Ho: não há diferenças significativas entre os grupos: µ1 = µ 2 = .... = µ k
H1: há diferenças significativas entre os grupos: µ1 ≠ µ 2 ≠ .... ≠ µ k
A Análise de Variância se baseia na decomposição da variabilidade total.
Mais especificamente, os desvios das observações individuais em relação
a média global podem ser escritos como:
Eq 143:
(Yij − Y.. ) = (Y i. − Y.. ) + (Yij − Y i. )
onde:
(Y i. − Y.. )é o desvio da média do tratamento i em relação à média
global;
Estatística Industrial
87
8. Comparação de vários grupos: a análise de variância
(Yij − Y i. ) é o desvio da observação individual em relação a média do
tratamento i correspondente;
Para o exemplo anterior:
Temperatura
15
25
35
12
20
17
13
19
16
11
18
18
Ti .=
36
57
51
T.. = 144
ni . =
3
3
3
N =9
Yi. =
12
19
17
Y.. = 16
Modelo Estatístico, Yij =
µ + τ i. + ε ij
20 = 16 + 3 +1
Podemos ver esses dados no gráfico abaixo:
Y2. = 19
(Y ij − Y i. )=20−19=1
(Y i. − Y ..)=19−16=3
Y=20
ij
(Yij
− Y
)
.. =20−16=4
Y3 . = 17
Y.. = 16
Y1. = 12
Figura 35 - Decomposição dos
resíduos
15°
35°
25°
Elevando ao quadrado ambos os termos da Eq 143 e efetuando o
somatório, resulta:
Eq 144:
∑ (Y
ij
ij
)
(
)
− Y.. = ∑ ni Y. − Y.. + ∑ (Yij − Yi. )
2
2
2
i
Desde que é fácil demonstrar que
∑ (Y
i.
)(
)
− Y .. Yij − Y i. = 0
Na Eq 144, identificamos as seguintes somas quadradas:
88
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Eq 145: SQT = SQG + SQR
onde:
SQT soma dos quadrados totais, decomposta em:
SQG soma dos quadrados dos grupos (tratamentos), associada
exclusivamente a um efeito dos grupos;
SQR soma dos quadrados dos resíduos, devida exclusivamente ao erro
aleatório, medida dentro dos grupos.
Teste F
Voltando a Eq 144 observamos que a soma quadrada dos resíduos
dividida pelos seus graus de liberdade fornecerá uma estimativa da
variância dentro dos grupos:
Eq 146:
MQR =
SQR
=
N −k
∑ (Y
ij
− Yi.
i, j
N −k
)
2
=σ2
Da mesma forma, se não houver efeito dos grupos, a divisão da SGQ
pelos respectivos graus de liberdade também fornecerá uma estimativa
da variância dentro dos grupos:
(
 Y i. − Y ..
SQG
∑
= n
Eq 147: MQG =
k −1
k −1


)  = n(σ / n ) = σ

2
2
2

Notem que, se não há efeito dos grupos, a quantidade entre colchetes é a
variância das médias, a qual sabe-se que é igual a σ2/n.
As grandezas apresentadas acima são chamadas de médias quadradas.
Observa-se que as Médias Quadradas são simplesmente uma outra
notação para Variância.
MQG = SQG/(k-1)é a Média Quadrada dos Grupos;
MQR = SQR/(N-k)é a Média Quadrada dos Resíduos;
Observa-se que para as somas quadradas vale a aditividade:
Eq 148: SQT = SQG + SQR
Eq 149: N-1 = (k-1) + (N-k)
Mas o mesmo não vale para as Médias Quadradas, ou seja, MQT ≠ MQG
+ MQR.
Se não há diferença significativa entre os grupos: E(MQG) = E (MQR)
Para testar a hipótese referente ao efeito dos grupos, usamos a
distribuição F :
Eq 150
Fcalc =
MQG
MQR
Estatística Industrial
89
8. Comparação de vários grupos: a análise de variância
que é o modelo adequado para a distribuição do quociente de duas
variâncias.
A partir das Eq 150 verifica-se que, se não há efeito dos grupos, esse
quociente deve ser próximo de 1 (um).
Caso contrário, se há efeito dos grupos, esse quociente será
significativamente maior que 1. O limite de decisão é estabelecido
usando os valores tabelados da distribuição F, ou seja, usando:
Fα ,k −1,N − k
onde:
∝ nível de significância
k-1 graus de liberdade do numerador:
N-k graus de liberdade do denominador:
Figura 36 - Exemplo da distribuição
F de Snedecor
A hipótese nula µ1 = µ2 = ... = µk será rejeitada sempre que F
calculado for maior que o valor tabelado Fα ,k −1,N − k . Logo, há
diferença significativa entre os grupos. Caso contrário, não há diferenças
significativas entre os grupos.
Formulário para os
cálculos
Para o cálculo das Somas Quadradas é recomendado o uso do seguinte
formulário:
Eq 151:
TC = ( T ..)2 N (Termo de Correção)
Eq 152:
SQT = ∑ Yij2 − TC
Eq 153:
Eq 154:
( )
SQG = ∑ (Ti2. ni ) − TC
SQR = ∑ (Yij2 )− ∑ (Ti2. ni ) = SQT − SQG
onde:
T.. é a soma de todas as observações
Ti. é a soma das observações no grupo i
90
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Tabela ANOVA
Os cálculos associados à Análise de Variância são apresentados em uma
tabela, chamada de Tabela de Análise de Variância ou Tabela ANOVA
(Analysis of Variance):
Tabela 10 - Tabela ANOVA
Fonte de
Variação
SQ
GDL
MQ
Teste F
Entre Grupos
SQG
k-1
MQG
MQG/MQR
Dentro
Grupos
SQR
N-k
MQR
Total
SQT
N-1
Os dados a seguir representam o alongamento (maior é melhor) medido
Exemplo de um
experimento a níveis fixos sobre um composto de borracha, em função da quantidade de agente de
processo adicionado durante a mistura.
Agente
Cálculos iniciais:
0
5
10
15
20
43
47
55
50
52
47
53
50
54
49
46
52
54
54
54
45
50
55
55
55
45
49
52
56
55
46
51
53
52
56
47
55
55
57
56
44
48
56
57
53
42
49
59
55
57
48
50
56
60
60
49
47
57
56
57
44
49
54
58
55
Totais
546
600
656
664
659
T..= 3125
No. obs.
12
12
12
12
12
N = 60
Médias
45,5
50,0
54,7
55,3
54,9
Y.. = 52,08
TC = T..2 / N = (3125)2 / 60 = 162.760,42
SQT = Σ (Yij)2 - TC = 163.971,00 - 162.760,42 = 1210,58
SQG = Σ (Ti.2 / ni) - TC = [(546)2 / 12] + ... + [(659)2 / 12] 162.760,42 = 875,33
SQR = SQT - SQG = 1210,58 - 875,33 = 335,25
Tabela Anova:
Fonte
SQ
GDL
MQ
Teste F
Entre Grupos
(Agente)
875,33
4
218,83
35,9
Estatística Industrial
91
8. Comparação de vários grupos: a análise de variância
Dentro
Grupos
(Residual)
335,25
55
Total
1210,58
59
F calculado
35,9
>
>
6,09
F tabelado = F 0,05,4,55
2,55
Como F calculado é maior do que F tabelado conclui-se que há
diferenças significativas entre os grupos,ou seja,a quantidade de agente
na mistura influencia significativamente o alongamento
Qual a melhor quantidade considerando qualidade e economia?
Comparação múltipla de
médias
1. Calcular o desvio-padrão das médias
s x = MQR / nc = 2,47 / 3,46 = 0,71
onde nc = (n1 + n2 + ... + nk) / k
2. Calcular o limite de decisão
Ld = 3 × s = 3 x 0,71 = 2,13
3. Escrever as médias em ordem crescente ou decrescente e compará-las
duas a duas.
Y(1)= 45,5 Y(2) = 50,0 Y(3) =54,7 Y(4) 54,9 Y(5) =55,3
4. A diferença será significativa se for maior que o Ld
Y(2) – Y(1) = 50,0 - 45,5 = 4,5 > Ld = 2,13 Dif. Signif.
Y(3) – Y(2) = 54,7 - 50,0 = 4,7 > Ld = 2,13 Dif.Signif.
Y(5) – Y(3) = 54,9 - 54,7 = 0,2 < Ld = 2,13 Dif. Não Signif.
Y(4) – Y(5) = 55,3 - 54,9 = 0,4 < Ld = 2,13 Dif. Não Signif.
5. Usar barras contínuas sobre as médias que não diferem entre si
Otimização:
___
___
_________
Y(1)
Y(2)
Y(3) Y(5) Y(4)
A análise técnica deve acompanhar e completar a análise estatística.
Para isso é recomendável representar graficamente os dados. Para os
dados do experimento anterior, poderia se usar, por exemplo, um
boxplot:
92
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Boxplot
Alongamento
65
55
45
35
G1
G2
G3
G4
G5
Agente de processo
Figura 37 - Gráfico Boxplot
Na otimização devemos considerar o binômio qualidade e custo. Os
resultados estatísticos, em conjunto com a análise gráfica dão suporte à
tomada de decisão a respeito do processo. Via de regra, o experimento
revela opções para a redução de custos e melhoria da qualidade,
simultaneamente.
Como não existe diferença significativa entre as quantidades de agente
10, 15 e 20, a quantidade ótima de agente é 10 (dez) pois otimiza
simultaneamente qualidade e custos.
Exemplo de um
experimento a níveis
aleatórios
Uma fábrica de embalagens de papel recebe a matéria prima (papel) em
rolos. É desejável que as características dos rolos sejam homogêneas, de
modo a fornecerem papel com a mesma resistência à tração. O
engenheiro suspeita que além da variabilidade usual (dentro dos rolos)
também possa haver uma variação significativa entre os rolos. Medições
de resistência feitas em embalagens produzidas com material
proveniente de cinco rolos aleatoriamente indicaram:
Ho: não há diferenças significativas entre os rolos στ = 0
H1: há diferenças significativas entre os rolos στ > 0
Rolo
Cálculos iniciais:
Resistência
1
72
73
70
74
74
75
78
77
80
76
2
63
70
69
65
66
66
62
65
67
63
3
78
74
82
76
76
73
75
4
75
74
73
78
75
71
67
73
5
85
82
80
86
83
92
89
86
Totais e médias:
Rolo
Ti.
ni
Yi .
1
749
10
74,90
2
656
10
65,60
3
534
7
76,29
4
586
8
73,25
5
603
8
85,38
T.. = 3128
N = 43
Y .. = 74,60
Estatística Industrial
93
8. Comparação de vários grupos: a análise de variância
Cálculo das Somas Quadrada
TC = (T..)2 / N = (3208)2/43 = 239331,7
SQT = Σ( Yij2 ) - TC = 241476,0 - 239331,7 = 2144,28
SQG = Σ( Ti2. /ni) - TC = [(749)2/10] + ... + [(683)2/8] - 239331,7
= 1774,18
SQR = SQT - SQG = 2144,28 - 1774,18 = 370,10
Tabela ANOVA
Fonte
SQ
GLD
MQ
Teste F
Rolos
1774,18
4
443,54
45,54
Resíduos
370,10
38
9,74
Total
2144,28
42
Fcalculado = 45,54 > F0,05,4,38 = 2,856
⇒ Há diferenças significativas entre os rolos.
Pode ser demonstrado que o valor esperado das médias quadradas vale:
Estimativa dos
componentes de variação:
Eq 155: E (MQG) = σ2 + nc σ 2
τ
Eq 156: E (MQR) = σ2
A partir das Eq 155 e Eq 156, podemos obter as estimativas para os
componentes de variação σ2 e σ 2τ :
Eq 157: σ2 = MQR
Eq 158:
σ τ2 =
MQG − σ 2 MQG − MQR
=
nc
nc
Conhecidos os componentes de variação, podemos calcular a
contribuição percentual de cada termo na composição da variabilidade
total:
Eq 159:
( )
2
Var Yij = σTOTAL
= σ τ2 + σ 2
Percentual correspondente aos
tratamentos:
100 x
σ τ2
2
σTOTAL
94
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Percentual correspondente ao erro
aleatório:
100 x
σ2
2
σTOTAL
Estimativa dos componentes de variação para o exemplo:
σ2 = MQR = 9,74
σ τ2 =
MQG − MQR 443 ,54 − 9 ,74
=
= 50 ,44
nc
8 ,6
2
σTOTAL
= σ 2τ + σ 2 = 50 ,44 + 9 ,74 = 60 ,18
Os resultados indicam que 50,44 / 60,18 = 83,81 % da variabilidade total
se deve a diferenças entre rolos. As causas dessas diferenças deveriam
ser investigadas e, na medida do possível, eliminadas.
Otimização
A análise técnica deve acompanhar e completar a análise estatística.
Para isso é recomendável representar graficamente os dados. Para os
dados do experimento anterior, poderia se usar, por exemplo, um gráfico
de dispersão:
100
90
Re
80
70
60
0
Figura 38 - Gráfico de dispersão
1
2
3
4
5
6
Rolo
Via de regra, a variabilidade devida aos grupos se deve a causas
especiais que podem (e devem) ser eliminadas.
Por exemplo, diferenças entre máquinas podem ser devidas a falta de
manutenção apropriada ou diferenças de setup. Essas causas especiais
devem ser corrigidas.
Similarmente, diferenças entre lotes de produção podem ser devidas a
qualidade da matéria prima usada na produção de cada lote. Nesse caso,
deveriam ser investigados os fornecedores, ou as condições de
estocagem, etc.
Por outro lado, a variabilidade devida ao erro aleatório deve-se, via de
regra, a causas comuns, inerentes ao sistema em estudo. Para eliminar as
causas comuns é preciso modificar o sistema como um todo, o que pode
Estatística Industrial
95
8. Comparação de vários grupos: a análise de variância
não se justificar economicamente.
Exercícios
Exercício 8.1
Quatro concentrações de catalisadores que podem afetar o tempo de
processo de uma mistura química estão sendo investigados. Os seguintes
tempos de misturas foram obtidos:
Catalisadores
1
2
3
4
56,7
56,3
53,0
54,4
58,2
55,9
51,2
53,0
57,2
54,5
54,2
51,4
58,4
57,0
53,2
51,5
55,8
55,3
53,3
54,9
Totais
T.. =
n
N =
Médias
Y. .
=
Pede-se:
Fazer a análise de Variância e concluir a respeito do efeito dos
catalisadores.
Fazer uma comparação múltipla de médias se for o caso.
Fazer um gráfico de barras, indicando a concentração média obtida para
cada catalisador e concluir a respeito do que deve ser feito para (i)
assegurar qualidade e (ii) assegurar economia.
Cálculos iniciais:
2
TC = T.. / N =
2
Σ (Yij ) =
2
SQT = Σ (Yij ) - TC =
2
SQG = Σ (Ti. / ni) - TC =
SQR = SQT - SQG =
Tabela Anova:
96
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Fonte
SQ
GDL
MQ
Teste F
Entre Grupos
(Catalis)
Dentro
Grupos
(Residual)
Total
F calculado =
F tabelado =
Efeito dos catalisadores é significativo ?
Comparação múltipla de médias
(1) Calcular o desvio padrão das médias
s x = MQR / nc =
onde nc = (n1 + n2 + ... + nk) / k
(2) Calcular o limite de decisão
Ld = 3 x S X
=
(3) Escrever as médias em ordem crescente ou decrescente e compará-las
duas a duas. A diferença será significativa se for maior que o Ld
Y(1) – Y(2) =
Y(1) - Y(3) =
Y(1) – Y(4) =
Y(2) – Y(3) =
Y(2) – Y(4) =
Y(3) – Y(4) =
(4) Usar barras contínuas sobre as médias que não diferem entre si
Exercício 8.2
Um jogo de oito pneus das marcas M1, M2 e M3 foram testados quanto
à durabilidade. Os resultados obtidos (em milhares de Km) foram os que
seguem:
Estatística Industrial
97
8. Comparação de vários grupos: a análise de variância
Marca:
M1
M2
M3
45 40
42 44
40 35
48 44
44 47
41 39
44 46
41 40
31 36
43 41
43 45
33 38
Totais
Média
Qual a variável de resposta e qual o fator controlável ?
Quantos níveis possui o fator controlável ?
Faça a tabela de análise de variância e conclua a respeito do fator em
estudo;
Caso necessário, faça uma comparação múltipla de médias;
Plote um gráfico relacionando o fator controlável com a resposta
medida;
Indique o que deve ser feito para assegurar qualidade;
Indique o que deve ser feito para obter economia;
Exercício 8.3
Um grupo de engenheiros está estudando o efeito do ângulo de uma
ferramenta de corte sobre o acabamento superficial resultante após a
operação. As medições de rugosidade (menor é melhor) efetuadas
revelaram:
Ângulo:
0o
5o
10o
15o
10 12 12
8
7 9
4 6 4
5
7
11 12 14
10 7 7
5 5 7
6
8 10
12 12
6
3 6 4
6 10 6
9
8 8
Totais
Média
Qual a variável de resposta e qual o fator controlável ?
Quantos níveis possui o fator controlável ?
Faça a tabela de análise de variância e conclua a respeito do fator em
estudo;
Plote um gráfico de ângulo da ferramenta x rugosidade;
Indique o que deve ser feito para assegurar qualidade;
Indique o que deve ser feito para obter economia;
6
98
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Exercício 8.4
Uma indústria têxtil tem um grande número de teares mecânicos.
Supõem-se que a velocidade desses teares seja a mesma. Para verificar
essa hipótese, foram escolhidos aleatoriamente cinco teares e a produção
medida em um período de uma hora foi anotada:
Tear
Produção (Kg)
1
23,8
24,0
23,8
23,6
23,9
2
23,9
23,7
23,6
23,8
24,0
3
24,0
23,9
24,1
24,2
24,1
4
24,0
24,0
23,9
23,8
23,9
5
24,0
24,1
24,0
24,1
24,2
a) Indique se esse é um experimento a níveis fixos ou aleatórios.
b) Faça a análise de variância e conclua a respeito do efeito dos teares.
c) Estime os componentes de variação.
Exercício 8.5
Resultados de corpos de prova de concreto com adição de Microssílica
indicaram os seguintes resultados de resistência à compressão:
Adição
Resistência (MPa)
0%
28,1
26,5
24,3
5%
35,3
34,3
37,5
10%
39,8
44,1
42,3
15%
39,1
40,8
43,0
a) Indique se esse é um experimento a níveis fixos ou aleatórios.
b) Faça a análise da variância e conclua a respeito do efeito da adição de
microssílica.
c) Se for o caso, faça uma comparação múltipla de médias.
d) Plote um gráfico de linha para a mediana.
Exercício 8.6
Um engenheiro deseja que os azulejos produzidos em uma indústria
cerâmica apresentem a menor absorção de água possível. Os resultados
de um experimento feito com três tipos diferentes de argila indicaram o
seguinte:
Tipo de
Argila
Absorção (gramas)
A1
141
112
128
122
102
A2
132
115
98
121
108
A3
135
122
158
143
155
139
126
Estatística Industrial
99
8. Comparação de vários grupos: a análise de variância
a) Indique se esse é um experimento a níveis fixos ou aleatórios.
b) Faça a análise da variância e conclua a respeito do efeito do tipo de
argila.
c) Se for o caso, faça uma comparação múltipla de médias.
d) Plote um gráfico de barras para as médias.
Exercício 8.7
Uma metalúrgica tem um grande número de fornos usados para fundição
de metais. A temperatura desses fornos deveria ser a mesma. Para testar
essa hipótese foram feitas medições em 4 fornos escolhidos
aleatoriamente. Analise os resultados e conclua a respeito de possíveis
diferenças entre os fornos.
Forno
Exercício 8.8
Temperatura
1
824
821
829
808
815
2
817
830
819
809
825
3
822
810
831
824
818
4
826
828
810
820
815
Um engenheiro industrial desenvolveu um modelo estocástico de
simulação que prevê a produtividade mensal em função do intervalo de
tempo entre manutenções preventivas. Se esse intervalo for muito curto,
as máquinas estarão constantemente em manutenção e a produtividade
será baixa. Se o intervalo for muito longo, haverá quebras, exigindo
manutenção corretiva, mais demorada, novamente prejudicando a
produtividade. Os resultados da simulação aparecem a seguir.
Intervalo
Produtividade
4
136
137
135
140
136
6
145
146
147
147
148
8
146
144
148
145
145
10
134
131
136
134
133
12
117
119
117
115
116
a) Faça a análise da variância, plote um gráfico de barras para a
produtividade média e conclua a respeito do intervalo ótimo para as
intervenções da manutenção produtiva.
Exercício 8.9
Em uma indústria química um catalisador é utilizado para acelerar um
processo de deposição metálica. Foi feito um experimento variando-se a
concentração desse catalisador e anotando-se o tempo necessário para
completar o processo. Analise os dados usando a Tabela Anova. Depois
faça uma comparação múltipla de médias, plote um gráfico de linhas e
conclua a respeito da concentração ideal.
100
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Concentração
Exercício 8.10
Tempos
10
11,2
10,4
10,1
10,6
15
10,6
11,1
10,8
11,7
20
12,5
12,0
13,2
12,6
25
18,8
19,0
18,4
19,6
Um profissional da área de ergonomia realizou um estudo para verificar
qual posto de trabalho gerava um melhor bem estar para o funcionário.
Para isso foram projetados três postos de trabalho e durante um mês 10
funcionários testaram os novos postos. Ao final de um mês os
funcionários responderam um questionário gerando uma nota para o bem
estar do funcionário. Analise os dados e conclua a respeito do melhor
posto de trabalho.
Postos
Exercício 8.11
Func.
1
2
3
1
7
5
8
2
8
6
9
3
7
7
8
4
8
6
9
5
9
5
8
6
7
6
8
7
8
7
9
8
6
5
10
9
7
6
8
10
6
6
9
Para analisar a variabilidade na qualidade de um tipo de tijolo de
cimento fornecido por uma fábrica, selecionou-se aleatoriamente 5 sacos
de cimento durante um certo período de produção e para cada saco
foram tomadas três amostras aleatórias. Estime o percentual da
variabilidade dentro dos sacos e entre os sacos de cimento.
Saco cimento
Resistências
Exercício 8.12
1
2
3
4
5
74
68
75
72
79
76
71
77
74
81
75
72
77
73
79
Três layout estão sendo testado em relação a produtividade. Para isso 12
operadores foram avaliados em relação a produtividade medida em
peças/ hora. Os valores de produtividade estão apresentados na tabela
abaixo. Analise os dados e conclua a respeito do melhor layout.
Estatística Industrial
101
8. Comparação de vários grupos: a análise de variância
Layout
Exercício 8.13
Func
1
2
3
1
120
125
130
2
122
126
129
3
124
127
131
4
118
125
128
5
116
128
128
6
120
126
127
7
119
129
126
8
117
128
125
9
121
129
128
10
122
130
129
11
117
127
127
12
120
128
128
Um grupo de engenheiros acredita que a resistência mecânica (maior é
melhor) de um certo componente cerâmico é afetada pela pressão e
temperatura de cozimento. Foi realizado um experimento que revelou os
seguintes dados:
Pressão
Temperatura
30
35
40
200 C
44 42
47 46
42 44
225 oC
41 43
45 46
39 41
45 47
48 49
44 41
o
o
250 C
Qual a variável de resposta e quais os fatores controláveis ?
Observe os dados e indique qual o valor mínimo e qual o valor máximo
medido para a variável de resposta
Faça a análise de variância e conclua a respeito dos fatores e interações
significativos
Plote um gráfico de dois fatores
Qual o ajuste que você recomendaria para este processo ?
Exercício 8.14
A montagem de um cabo de aço revestido está apresentando problemas
devido à excessiva retração do núcleo. Os engenheiros desconfiam de
dois fatores: Fornecedor do núcleo e temperatura do núcleo na
montagem. Foi feito um experimento e as medidas de retração (menor é
melhor) foram:
102
8. Comparação de vários grupos: a análise de variância
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Fornecedor do Núcleo
Temperatura
1
2
3
4
75 C
21 24 26
12 13 15
12 11 14
13 13 11
85 oC
26 26 30
16 14 17
15 13 19
18 17 13
o
Faça a análise de variância e conclua a respeito dos fatores e interações
significativos;
Plote um gráfico de dois fatores;
O que fazer para assegurar qualidade ?
O que fazer para obter economia ?
Caso as investigações fossem continuar, quais os ensaios você
recomendaria ?
9
Regressão linear simples
José Luis Duarte Ribeiro
Carla ten Caten
COMENTÁRIOS INICIAIS
Em muitos problemas há duas ou mais variáveis que são relacionadas e
pode ser importante modelar essa relação. Por exemplo, a resistência à
abrasão de um composto de borracha pode depender da quantidade de
óleo adicionada à mistura. Assim, é possível construir um modelo
relacionando resistência à abrasão com quantidade de óleo, e então podese usar esse modelo para fins de otimização e controle de processo.
Outro exemplo, as vendas de um produto podem estar relacionadas ao
valor gasto em marketing com esse produto. Assim, é possível construir
um modelo relacionando vendas à gastos com marketing, e então podese usar esse modelo para fins previsão de vendas.
Em geral vamos supor que há uma variável dependente (ou variável de
resposta) Y que depende de k variáveis independentes (ou variáveis
regressoras) X1, ..., Xk. A relação entre essas variáveis será descrita por
um modelo matemático, chamado modelo de regressão, o qual é definido
(ajustado) a um conjunto de dados.
Algumas vezes a relação funcional entre Y e X1, ..., Xk é conhecida
exatamente. Outras vezes o pesquisador deverá buscar o modelo
apropriado testando diferentes funções. Modelos polinomiais são
largamente utilizados como uma função aproximada da verdadeira
relação entre Y e X, e por isso serão descritos no capítulo 10.
Modelos de regressão são usados com freqüência na análise de dados
provenientes de experimentos não planejados (observações de um
fenômeno não controlado ou dados históricos).
Mas a análise de regressão também é muito útil no caso de experimentos
planejados que incluem fatores a níveis contínuos. Nesse caso a análise
de variância é usada para identificar os fatores significativos, e a seguir a
análise de regressão é usada para construir um modelo que incorpore
esses fatores.
CORRELAÇÃO
Para uma amostra de n pares de valores (x,y) o coeficiente de
correlação r fornece uma medida da relação linear que existe entre duas
variáveis aleatórias X e Y.
104
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Figura 39 - Gráfico de dispersão
O valor de r é calculado como:
Eq 160:
r=
S XY
S XX × SYY
Desvio-padrão de X
Eq 161:
S XX = ∑ x i2 − (∑ xi )
2
n
Desvio-padrão de Y
Eq 162:
SYY = ∑ y i2 − (∑ y i )
2
n
Covariância de X,Y:
Eq 163:
S XY = ∑ xi yi − (∑ xi )(∑ yi ) n
Para uma interpretação adequada do coeficiente de correlação, X e Y
deveriam ser variáveis aleatórias, ao contrário do que acontece nos
problemas de regressão, onde Y é aleatória, mas X é considerada uma
variável fixa.
Mesmo assim, é prática comum calcular r em quase todos os casos, isto é, com
X aleatória ou não. O coeficiente de correlação linear “r” mede a
intensidade da relação linear entre duas variáveis
Pode ser demonstrado que -1 ≤ r ≤ 1, onde r = +1 ou r = -1
correspondem ao caso de uma relação linear perfeita entre X e Y,
enquanto que r = 0 indica nenhuma relação, ou seja:
valores de “r” próximos de +1 indicam uma forte correlação positiva
entre x e y
valores de “r” próximos de -1 indicam uma forte correlação negativa
entre x e y
valores de “r” próximos de 0 indicam uma fraca correlação entre x e y
Deve-se ter em conta que r é uma medida da relação linear entre as
duas variáveis e não tem sentido quando a relação é não linear. Além
disso, o pesquisador deve ter em mente que a existência de uma
correlação entre duas variáveis não implica necessariamente na
Estatística Industrial
9. Regressão linear simples
105
existência de um relacionamento de causa e efeito entre elas.
Exemplo 9.1
Tabela 11 - Valores de rendimento de
combustível
Após uma regulagem eletrônica um veículo apresenta um rendimento
ideal no que tange a rendimento de combustível. Contudo, com o passar
do tempo esse rendimento vai se degradando. Os dados que aparecem
na Tabela 11 representam o rendimento medido mês a mês após a
regulagem. Calcule o coeficiente de correlação.
X: meses após a
regulagem
1
2
3
4
5
6
Y: rendimento
10,7
10,9
10,8
9,3
9,5
10,4
X: meses após a
regulagem
7
8
9
10
11
12
Y: rendimento
9,0
9,3
7,6
7,6
7,9
7,7
12
Co
11
10
9
8
7
Figura 40 - Valores observados do
rendimento em função do tempo após
a regulagem.
0
2
4
6
8
10 12
Tempo após a regulagem
Para o exemplo do rendimento de combustível, teríamos:
Cálculos iniciais
106
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Meses(X) Rendimento(Y)
1
10,7
2
10,9
3
10,8
4
9,3
5
9,5
6
10,4
7
9
8
9,3
9
7,6
10
7,6
11
7,9
12
7,7
78
110,7
6,5
9,225
X^2
1
4
9
16
25
36
49
64
81
100
121
144
650
Y^2
114,49
118,81
116,64
86,49
90,25
108,16
81
86,49
57,76
57,76
62,41
59,29
1039,55
X*Y
10,7
21,8
32,4
37,2
47,5
62,4
63
74,4
68,4
76
86,9
92,4
673,1
Σxi = 78,00;Σxi2 = 650,00; X = 6,50
Σyi = 110,70;Σyi2 = 1039,55; Y = 9,225
Desvio-padrão de X
S XX = ∑ xi2 − (∑ xi ) n = 650 − (78)2 / 12 = 143,00
2
Desvio-padrão de Y
SYY = ∑ yi2 − (∑ yi ) n = 1039,55 − (110,70 )2 / 12 = 18,34
2
Covariância de X,Y:
S XY = ∑ x i y i − (∑ x i )(∑ y i ) n = 673,1 − (78 × 110,70) / 12 = −46,45
Coeficiente de correlação
r=
S xy
S xx × S yy
=
− 46,45
143,00 x 18,34
= −0,907
Interpretação:
Existe uma correlação linear inversa na amostra entre meses após a
regulagem e rendimento. A intensidade desta correlação é forte.
A hipótese da existência de uma relação entre X e Y, pode ser
TESTE DE HIPÓTESE
PARA O COEFICIENTE DE formulada usando-se:
CORRELAÇÃO
H0 : ρ = 0
H1 : ρ ≠ 0
onde a letra ρ é usada para representar o valor populacional do
coeficiente de correlação. Pode ser demonstrado que o valor de t pode
Estatística Industrial
9. Regressão linear simples
107
ser calculado usando:
Eq 164:
t=
r n−2
1− r2
Assim a hipótese da existência de uma relação entre X e Y pode ser
verificada diretamente a partir do valor amostral do coeficiente de
correlação. Como sempre a hipótese nula será rejeitada se o valor
calculado for maior que o tabelado, ou seja, se:
Eq 165:
t > tα / 2,n −2
Para o exemplo em estudo tem-se:
t=
− 0,907 12 − 2
1 − ( −0,907) 2
= − 6,82 > t0,025;10 = 2,228 ⇒ rejeita - se H 0,
ou seja, descarta-se a hipótese nula e conclui-se que existe correlação
entre as variáveis estudadas.
REGRESSÃO LINEAR
SIMPLES
A regressão linear simples estima uma equação matemática (ou modelo)
que dado o valor de X (variável independente), prevê o valor de Y
(variável dependente). É dito relação linear simples, pois supõe-se
tendência linear entre as variáveis e simples por ser uma única variável
independente
Seja que existam dados coletados (pares de valores) associando uma
variável de resposta Y (variável dependente) com uma variável
regressora X (variável independente). E suponha que a relação entre Y
e X seja aproximadamente linear. Então o valor esperado de Y para
cada valor de X virá dado por:
Eq 166: E (Y/X) = β 0 + β 1 X
onde os parâmetros da relação linear, β0 e β1, são desconhecidos.
Vamos supor que cada observação Y possa ser descrita pelo modelo:
Eq 167 Y = β 0 + β 1 X + ε
onde ε é o erro aleatório, com média 0 e variância σ2. A Eq 167 é
chamada de modelo de regressão linear simples. Nesta equação, o
coeficiente β0 é a interseção (valor de Y para X = 0) enquanto que β1
é a inclinação da reta, que pode ser positiva, negativa ou nula. A
inclinação da reta representa o quanto Y varia para cada unidade da
variável X.
Se há n pares de dados (y1, x1), ..., (yn, xn) é possível estimar os
parâmetros β0 e β1 usando o método dos Mínimos Quadrados, o qual
busca minimizar:
Eq 168: L = Σ (yi - b0 - b1 xi)2
onde b0 e b1 são estimativas amostrais de β0 e β1. O uso do método
108
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
conduz as seguintes estimativas:
Eq 169: b1 = SXY / SXX
Eq 170: b0 =
Y − b1 X
Usando os dados do problema do rendimento de combustível, obtenha as
estimativas para os parâmetros b0 e b1 e a equação da reta de regressão.
Exemplo 9.2
Cálculos iniciais
Σxi = 78,00Σxi2 = 650,00 X = 6,50
Σyi = 110,70Σyi2 = 1039,55 Y = 9,225
S XX = ∑ x i2 − (∑ xi )
n = 143,00
SYY = ∑ y i2 − (∑ y i )
n = 18,34
2
2
S XY = ∑ x i y i − (∑ x i )(∑ y i ) n = −46,45
Estimativa dos parâmetros:
b1 = SXY / SXX = -46,45 / 143,00 = -0,325
b0 = Y − b1 X = 9,225 - (-0,325) 6,50 = 11,34
Equação de regressão
Y = 11,34 - 0,325 X
RELAÇÃO ENTRE O
COEFICIENTE DE
CORRELAÇÃO E A
REGRESSÃO
O valor de r é um valor sem dimensão, que apenas fornece uma idéia
da relação linear entre duas variáveis. No caso de regressão, além de se
ter uma idéia da relação entre as duas variáveis, também se encontra uma
equação que pode ser usada para fornecer estimativas.
Pode ser demonstrado que existe a seguinte relação:
Eq 171:
S2 =
(
)
n −1
1 − r 2 S 2y
n−2
onde S2 é a variância dos desvios em relação ao modelo, e
variância dos valores de Y. Se n é grande, temos:
Eq 172:
(
)
S 2 ≅ 1 − r 2 S 2y
S y2
éa
Estatística Industrial
9. Regressão linear simples
Yi
(Y$i − Y )
Y
Figura 41 - Decomposição dos
resíduos
Y= bo+b1 X
(Yi − Y$i )
(Yi − Y )
109
Xi
X
Nessa forma observamos que r2 equivale a proporção da variabilidade
dos valores de Y que pode ser atribuída à regressão com a variável X.
r2 é conhecido como coeficiente de Determinação. Para o exemplo
analisado resultou r =(-0,907)2 = 0,82, ou seja, 82% da variabilidade
nos resultados de rendimento de combustível pode ser devida ao tempo
decorrido após a regulagem e 18% da variabilidade total é devido a
outros fatores que não foram investigados.
Também pode ser demonstrado que:
Eq 173: r = b1 SX / SY
Assim, dado um conjunto de pares (x,y), conhecida a inclinação b1, é
possível calcular o coeficiente de correlação r, ou vice-versa.
VARIÂNCIA DOS
ESTIMADORES
Para verificar a precisão das estimativas, determinar intervalos de
confiança e testar hipóteses é importante conhecer a variância dos
estimadores. Pode ser demonstrado que uma estimativa da variância
residual, σ2, vem dada por
Eq 174: S2 = SQR / (n-2)
onde:
Eq 175:
2
SQR = ∑ [ yi − (b0 + b1xi )] = SYY − b1S XY
E a partir de σ2 obtém-se as estimativas das variâncias de b1 e b0:
INTERVALOS DE
Eq 176:
Sb21 = S 2 S XX
Eq 177:
1 X 2
Sb2 0 = S 2  +
 n S XX



Como os resíduos de Y supostamente seguem a distribuição Normal, e
110
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
CONFIANÇA E TESTES
DE HIPÓTESE
como os valores de b0 e b1 são funções lineares de Y, é possível
demonstrar que:
)
(
b1 → N (β1, σ b21 )
b0 → N β 0 , σ b2 0
Esses resultados podem ser usados em testes de hipótese. Por exemplo,
se a hipótese é:
H 0 : β1 = β10
H 1 : β1 ≠ β10
então calcula-se:
Eq 178: Z = (b1 - β 10) / σb1
e, para um nível de probabilidade α, H0 será rejeitada se resultar
Z > Z α / 2 . Como em geral a variância S2 não é conhecida, usa-se:
Eq 179: t = (b1 - β 10) / Sb1
e nesse caso H0 é rejeitada se t > tα / 2,n − 2 . O intervalo de confiança
para β1 virá dado por
Eq 180:
b1 − tα / 2 S b 1 < β1 < b1 + tα / 2 S b 1
Uma hipótese testada com freqüência é:
H 0 : β1 = 0
H 1 : β1 ≠ 0
Isto é, testa-se se a inclinação é igual a zero, o que equivale a testar se
existe uma relação entre Y e X. Usando a eq. (2) tem-se:
Eq 181: t = b1 / Sb1
o qual deve ser comparado com o valor tabelado tα / 2,n − 2 . Como
sempre, H0 será rejeitado se t > tα / 2,n − 2 .
Exemplo 9.3
Usando os dados do problema do rendimento de combustível, obtenha as
estimativas para a variância residual e para a variância dos parâmetros
b0 e b1. Construa um intervalo de confiança para a inclinação b1 e
verifique a hipótese H 0 : β 1 = 0 .
Estimativa das variâncias
SQR = SYY − b1 S XY = 3,24
Estatística Industrial
9. Regressão linear simples
S 2 = SQR /( n − 2) = 0,324 ;
S b21 = S 2 / S XX = 0,00227
X2
2
2  1
Sb 0 = S
+
 n S XX

111
S = 0,569
;

 = 0,123 ;


S b 1 = 0,0476
S b 0 = 0,351
Intervalo de confiança para b1
t0,025;10 = 2,228
- 0,325 - 2,228 (0,0476)< β1 <- 0,325 + 2,228 (0,0476)
- 0,431< β1 <- 0,219
Como esse intervalo não inclui o zero, a hipótese β1 = 0 é rejeitada, ou
seja, existe uma relação entre o rendimento de combustível e o tempo
decorrido após a regulagem.
PREVISÃO DE VALORES
DE Y
A análise de regressão produz uma relação entre as variáveis
consideradas, a qual pode ser usada para prever valores de Y.
Dado um certo valor de X = x0, há dois tipos de previsão: previsão de
um valor médio de Y e previsão de um valor individual de Y. Nos dois
casos a estimativa pontual de Y é a mesma, mas a amplitude do
intervalo de confiança é diferente. O intervalo de confiança é mais
amplo para o caso de previsões de valores individuais.
Previsão de um valor
médio de Y
A variância dos valores preditos irá depender não somente de S2, mas
também do valor de x0. Isso acontece porque as previsões são mais
precisas quando x0 ∼ X e menos precisas quando x0 aproxima-se dos
extremos investigados.
Pode ser demonstrado que a variância da previsão de um valor médio de
Y vem dada por:
(
1 x − X
2
= S2 + 0
Eq 182: S
Yp
S XX
 n
)2 

Como pode ser visto, a variância da previsão é mínima quando x0 = X
e aumenta quando x0 afasta-se de X . Assim, o intervalo de confiança
para a previsão de um valor médio virá dado por:
Eq 183: µY = (b0 + b1 X0) ± tα/2 ; n-2
Previsão de um valor
individual de Y
 S

Y
p


A variância da previsão de valores individuais de Y segue o mesmo
comportamento observado para os valores médios. Contudo, a variância
é maior no caso de valores individuais.
Pode ser demonstrado que a variância da previsão de um valor individual
de Y vem dada por:
112
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
(
)2 
 1 x −X
2
2
0
Eq 184: SYp = S 1 + +
S XX
 n

De modo que o intervalo de confiança para a previsão de um valor
individual de Y é:
Eq 185: Y = (b0 + b1 X0) ± tα/2 ; n-2
Exemplo 9.4
(S )
Yp
Usando os dados do problema do rendimento de combustível, obtenha os
intervalos de confiança de 95% para a previsão de um valor médio e um
valor individual de Y para um tempo x0 = 8 meses.
(b0 + b1 x0) = 8,74;
(x0 − X )2 = 0,0157
S XX
1

= 0,324  + 0,0157 = 0,0321 ;
Y p
12


1


SY2 p = 0,324 1 + + 0,0157 = 0,356 ;
 12

S2
S
Y p
= 0,179
SY p = 0,597
Valor médio para x0 = 8
µY = 8,74 ± 2,228 . (0,179)
µY = 8,74 ± 0,399
Valor individual para x0 = 8
Y = 8,74 ± 2,228 . (0,597)
Y = 8,74 ± 1,33
12
Co
11
10
9
8
7
0
Figura 42 - Intervalo de Confiança
de 95%
ANÁLISE DA VALIDADE
2
4
6
8
10 12
Tempo após a regulagem
A adequação do ajuste e as suposições do modelo podem ser verificadas
Estatística Industrial
9. Regressão linear simples
DO MODELO
113
através de uma análise dos resíduos. Os resíduos padronizados são
calculados como:
y i − (b0 + b1 x i )
S
Eq 186: R =
i
SQR = SYY − b1SXY
S2 = SQR / n − 2
Adequação do ajuste
A adequação do ajuste é testada plotando os resíduos em função de X.
Se o ajuste for bom, os resíduos seguirão um padrão aleatório. Caso
contrário, alguma tendência curvilíneo será observada.
Na Figura 43, (a) representa uma situação onde o ajuste é adequado,
enquanto que (b) representa uma situação onde o modelo linear não se
ajusta bem aos dados.
2
2
1
1
Re 0
Re 0
-1
-1
-2
-2
0
4
8
12
16
0
20
8
12
16
20
X
X
Figura 43 - Análise de resíduos.
4
(a)
(b)
Se o modelo linear não fornece um bom ajuste, as vezes o problema
pode ser contornado trabalhando-se com valores transformados de X ou
Y, por exemplo,
Eq 187:
Homogeneidade da
variância
Y = b0 + b1 X
Y = b0 + b1 X ∗
onde X∗ =
X
A suposição de homogeneidade da variância σ2 ao longo de todo o
intervalo de X também pode ser verificada analisando o gráfico de
Resíduos × X.
A Figura 44 apresenta duas situações: (a) onde verifica-se a suposição de
homogeneidade, e (b) onde essa suposição é violada.
114
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
3
2
2
1
1
Re 0
Re 0
-1
-1
-2
-2
Figura 44 - Verificação da
homogeneidade da variância.
0
(a)
4
8
-3
12 16 20
X
0
4
8
X
12
16
20
(b)
Se a suposição de homogeneidade da variância é rejeitada, pode-se usar
o método da regressão linear ponderada, onde se busca os valores de β0
e β1 que minimizam
Eq 188: L = Σ wi (yi - (b0 + b1 xi))2
Nesse caso, os pesos wi são inversamente proporcionais à variância.
Normalidade dos
Resíduos
O teste da normalidade da distribuição dos resíduos pode ser feito
plotando-se os resíduos em papel de probabilidade ou utilizando testes
analíticos de normalidade, como o teste do Chi-quadrado ou o teste de
Kolmorov-Smirnov.
Se a suposição de normalidade é rejeitada, muitas vezes uma
transformação matemática nos valores de X e Y (logaritmo, inverso,
raiz quadrada) irá gerar valores transformados com resíduos
normalmente distribuídos.
Então o problema é analisado no espaço das variáveis transformadas e ao
final retorna-se ao espaço original.
INTERVALO DE
VARIAÇÃO PARA X
A variância da inclinação b1 aumenta quando se reduz o intervalo de
variação de X. Se o intervalo é pequeno, Sb1 será grande e nesse caso
será difícil rejeitar a hipótese H0 : b1 = 0. Em outras palavras, se a
relação entre X e Y é medida em um intervalo reduzido de X, os
parâmetros estimados não terão muito significado estatístico.
Se o objetivo é construir um modelo de regressão, deve-se coletar dados
nos extremos do intervalo de X, ou seja, nos limites do interesse e
viabilidade práticos ou nos limites em que se supõem válida a relação
linear.
A ANÁLISE DE
VARIÂNCIA E A
REGRESSÃO
A análise de variância também é aplicável aos problemas de regressão.
Na regressão simples, podemos decompor os resíduos da seguinte
maneira:
Eq 189:
(Yi − Y ) = [ y i − (b0 + b1 X i )] + [(b0 + b1 X i ) − Y ]
Elevando ao quadrado e somando, obtém-se:
Eq 190:
∑ (Yi − Y ) 2 = ∑ [ y i − (b0 + b1 X i )]2 + ∑ [(b0 + b1 X i ) − Y ]
2
Estatística Industrial
9. Regressão linear simples
115
Uma vez que ;o produto cruzado resulta nulo. Essa equação também
pode ser escrita como:
SYY = SQR + SQReg
Cujos graus de liberdade valem respectivamente:
(n - 1) = (n - 2) + 1
Assim, a média quadrada associada com o modelo de regressão e a
média quadrada dos resíduos resultam:
MQReg = SQReg / 1
MQR = SQR / (n - 2)
E o teste F é feito comparando MQReg, com MQR, ou seja,
F = MQReg / MQR
A hipótese nula, H0 : β1 = 0, será rejeitada sempre que
F > Fα, 1, n-2
A Tabela 12 apresenta a tabela ANOVA, contendo o formulário prático
para o cálculo das Somas Quadradas e os demais desenvolvimentos até o
teste F.
Tabela 12 - Tabela ANOVA para a
análise de regressão.
Exemplo 9.5
Fonte de
Variação
SQ
GDL
MQ
F
Regressão
SQReg = b1
SXY
1
MQReg
MQReg/MQR
Residual
SQR=SYY b1SXY
n-2
MQR
Total
SYY
n-1
Faça a análise de variância para o problema do rendimento de
combustível e confirme a significância do modelo de regressão linear.
Solução:
Já tínhamos calculado as Somas Quadradas SYY e SQR como:
SYY = 18,34;SXY = - 46,45;b1 = - 0,325
SQR = 3,24;
Assim
SQReg = b1 SXY = - 0,325 (- 46,45) = 15,10
De modo que a ANOVA resulta conforme aparece na Tabela 13.
116
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Tabela 13 - Tabela ANOVA para o
exemplo do combustível.
Fonte de
Variação
SQ
GDL
MQ
F
Regressão
15,10
1
15,10
46,6
Residual
3,24
10
0,324
Total
18,34
11
O valor de F calculado (46,6) é muito maior que o tabelado (4,96) e
assim confirma-se a significância do modelo.
Nota: o coeficiente de determinação r2 também pode ser calculado
usando:
r2 =
DADOS ATÍPICOS
SQ Re g 15,10
=
= 0,82 ou 82%
SYY
18,34
Algumas vezes, o conjunto de dados pode estar contaminado com alguns
dados atípicos. Esses dados atípicos podem ser o resultado do efeito de
algum fator externo ao estudo, ou podem ser simplesmente um erro de
leitura e registro.
Existe um procedimento para testar a significância de um dado atípico.
Este procedimento (ver Snedcor (1982)) está baseado na determinação
de uma nova equação, com o dado atípico eliminado, seguido de um
teste de hipótese comparando os valores preditos pela equação original
com aqueles preditos pela nova equação.
Se o conjunto pode estar contaminado por vários dados atípicos, a
solução será usar técnicas de regressão robusta. Neste tipo de análise, é
dado um peso menor aqueles dados que se afastam do conjunto. Por
exemplo, uma alternativa é minimizar
Eq 191: L = Σ wi [yi - (b0 + b1 xi)]2
onde os pesos wi são proporcionais ao inverso do resíduo Ri, e a
solução é obtida após algumas iterações.
REGRESSÃO NÃO
LINEAR SIMPLES
Se o ajuste linear é deficiente, muitas vezes é possível encontrar uma
solução aproximada, e em geral satisfatória, utilizando uma
transformação em X e/ou em Y.
Em forma genérica, teríamos:
Eq 192: f(y) = b0 + b1 g(X) + ε
Eq 193: Y* = b0 + b1 X* + ε
Os possíveis valores de Y* = f(y) seriam y, 1/y, y2, ln y, etc.
Igualmente, para X* = g(x) poderíamos usar x, 1/x, x2, ln x, etc.
Uma vez definida a transformação, e confirmada em um gráfico de
Estatística Industrial
9. Regressão linear simples
117
dispersão a relação aproximadamente linear entre Y* e X*, poderia se
usar o método apresentado anteriormente para obter-se as estimativas de
β0 e β1.
Note-se que o método dos mínimos quadrados aplicado aos valores
transformados, isto é, minimizando:
L = Σ [ f (yi) - (b0 + bi g (xi))]2
não vai fornecer os mesmos resultados que seriam obtidos minimizando:
L = Σ [ yi - h (xi)]2
onde h (x) é uma função não linear de x. Contudo, as diferenças em
geral são pequenas e não comprometem a análise.
Exercícios
Em um processo químico a quantidade de sólidos depositada pode
depender da concentração de um componente A que é adicionado à
mistura. Ajuste um modelo de regressão linear aos dados que aparecem
a seguir. Depois plote a reta de regressão e os valores observados
Exercício 9.1
Conc.
0
Depos.
0
0
2
2
2
4
4
4
6
6
6
8
8
8
13,3 11,5 12,9 14,1 13,3 16,1 14,9 15,9 18,1 17,5 16,5 18,9 20,3 18,5 20,2
Exercício 9.2
Para os dados do exercício 9.1, calcule a variância residual e a variância
dos parâmetros b0 e b1. Após construa um intervalo de confiança de
95% para a inclinação b1 e verifique a hipótese H0 : β1 = 0
Exercício 9.3
Calcule os resíduos padronizados Ri = [Yi - (b0 + b1 Xi)] / S para os
dados do exercício 9.1. Em seguida, plote um gráfico de Resíduos × X
e verifique se há evidências de falta de ajuste do modelo linear ou falta
de homogeneidade da variância.
Exercício 9.4
Ainda em relação aos dados do exercício 9.1, calcule os intervalos de
confiança para um valor médio e para um valor individual de Y usando
x0 = 0 e x0 = 8.
Exercício 9.5
Um torno mecânico pode ser operado a diversas velocidades. Contudo,
a qualidade do acabamento, ou seja, a rugosidade superficial, pode
piorar com o aumento da velocidade de operação. Ajuste um modelo de
regressão linear aos dados que aparecem a seguir e depois plote a reta de
regressão e os valores observados.
Velocidade
3
3
3
6
6
6
9
9
9
12
12
12
Rugosidade
26,0
21,5
33,5
36,0
27,5
37,0
41,5
28,0
39,5
43,0
37,0
50,5
Exercício 9.6
Para os dados do exercício 9.5, calcule a variância residual e a variância
dos parâmetros b0 e b1. Após construa um intervalo de confiança de
95% para a inclinação b1 e verifique a hipótese da existência de uma
relação entre velocidade e rugosidade superficial.
118
Regressão linear simples 9. Regressão linear simples
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Exercício 9.7
Faça a análise de variância para os dados do exercício 9.5 e confirme
a significância do modelo de regressão linear. Em seguida calcule o
valor do coeficiente de determinação e indique qual o significado técnico
desse coeficiente para o problema em questão.
Exercício 9.8
O gerente de uma indústria localizada em um país tropical suspeita que
há uma correlação entre a temperatura do dia e produtividade. Dados
coletados aleatoriamente ao longo de um período de seis meses
revelaram o seguinte.
Temperatura
21,2 20,3 22,7 22,0 22,3 23,5 24,8 24,2 25,5 25,2 25,5 25,8
Produtividade
142
Temperatura
27,5 26,3 28,2 28,6 29,0 29,7 30,7 30,3 30,2 31,4 32,5 32,7
Produtividade
132
148
137
131
124
132
117
145
122
138
131
144
124
136
111
141
119
124
129
133
123
128
116
Calcule o valor do coeficiente de correlação entre a Temperatura e a
produtividade e verifique a hipótese H0 : ρ = 0. Depois plote um gráfico
de dispersão e visualize a natureza da correlação entre Temperatura e
Produtividade.
Exercício 9.9
A análise de 20 pares de valores indicou que a resistência à tração (Y)
de uma fibra sintética usada na indústria têxtil guarda uma relação linear
com a percentagem de algodão (X) presente na fibra. A equação obtida
foi Y = 35,7 + 0,85X (X fornecido em percentagem, equação válida
para o intervalo de X entre 20 e 35%). Conhecidos os valores das Somas
Quadradas SXY=43,68 e SYY=79,43 pede-se:
a) Faça a análise de Variância e conclua a respeito da significância do
modelo.
b) Calcule o valor do coeficiente de determinação r2 e indique qual
o seu significado técnico.
Exercício 9.10
Vol. de Tráfego 3
Um sofisticado simulador estocástico de tráfego fornece a velocidade
média em avenidas de uma metrópole em função do volume de
automóveis. O resultado de 14 simulações revelou o seguinte:
3
5
5
10
10
15
15
20
20
25
25
Velocid. Média 95,6 93,8 74,4 74,8 50,5 51,5 44,6 42,4 35,8 38,7 32,0 3,2
30
30
30,1 29,1
Ajuste um modelo linear a esses dados e ache a equação de regressão Y
= b 0+ b 1 X
Exercício 9.11
Calcule os resíduos padronizados para os dados do exercício 9.10. Após,
plote um gráfico de Resíduos × X e verifique se há evidências de falta de
ajuste do modelo linear.
Exercício 9.12
Utilize o seguinte modelo para ajustar os dados do exercício 9.10 Y=b0 +
Estatística Industrial
9. Regressão linear simples
119
b1 (1 / √ X). Estime o valor dos coeficientes b0 e b1 para esse modelo
não linear e depois repita a análise de resíduos pedida em 9.11
verificando se para o presente modelo há evidências de falta de ajuste.
10
Regressão linear múltipla
José Luis Duarte Ribeiro
Carla ten Caten
Muitos problemas de regressão envolvem mais de uma variável
regressora. Por exemplo, a qualidade de um processo químico pode
depender da temperatura, pressão e taxa de agitação. Nesse caso há
três variáveis regressoras.
O MODELO DA
REGRESSÃO LINEAR
MÚLTIPLA
Eq 194 :
O modelo geral da regressão linear múltipla é:
Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + ε
O problema então é estimar o valor dos coeficientes βi a partir de um
conjunto de dados, conforme o esquema apresentado na Tabela 14.
Tabela 14 - Apresentação de um
conjunto de dados.
Y
X2
X1
....
Xk
y1
x12
x11
....
x1k
y2
x22
x21
....
x2k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
yn
xn2
xn1
....
xnk
Novamente, o método dos mínimos quadrados é usado para minimizar:
Eq 195:
[
(
L = ∑ y j − b0 + b1 x1 j + ... + bk x kj
)]2
Observa-se que a aplicação do método dos mínimos quadrados fica
simplificada se o modelo da Eq 194 é escrito como:
Eq 196:
Y = β 0, + β1 ( X 1 − x1 ) + ... + β k ( X k − xk ) + ε
nesse caso é fácil demostrar que:
Eq 197:
β 0, = β 0 + β1 x1 + ... + β k x k
enquanto que os demais coeficientes β1,...,βk ficam inalterados. O que
está sendo feito é simplesmente eliminar o valor médio das variáveis
regressoras. Além de simplificar a estimativa dos coeficientes, o uso do
Estatística Industrial
10. Regressão linear múltipla
121
modelo da Eq 196 também facilita outras tarefas associadas a
inferências.
Usando a Eq 196 , a função a ser minimizada é:
Eq 198:
NOTAÇÃO MATRICIAL
[ (
(
)
(
L = ∑ yi − b0, + b1 x1 j − x1 + ... + bk x kj − x k
))]2
Para lidar com o problema de regressão linear múltipla, é mais
conveniente usar notação matricial, pois assim tem-se uma apresentação
muito compacta dos dados, do modelo e dos resultados.
Em notação matricial o modelo da Eq 196 aparece representado como:
Eq 199:
Y = Xβ + ε
onde:
β , 
1 (x11 − x1 ) ... ( x k1 − x k ) 
Y1 
ε 1 
 0
.

. 
. 
.
.
. 


 
 
 ; β = .  ; ε = . 
.
.
Eq 200: Y =  .  ; X =  .
 


 
 
. 
.
.
.
.


 
. 


1 (x1n − x1 ) ... (x kn − x k )
Yn 
ε n 
 β k 
Genericamente, tem-se que Y é o vetor n x 1 das observações, X é a
matriz n x p com os níveis das variáveis regressoras, β é o vetor p x 1
com os coeficientes da regressão e ε é o vetor n x 1 com os erros
aleatórios. (Sendo p = k + 1).
ESTIMATIVA DOS
COEFICIENTES
Pode ser demonstrado que a aplicação do método dos mínimos
quadrados conduz a seguinte solução:
Eq 201:
b = ( X ' X )−1 X ' Y
onde b é o vetor p x 1 com as estimativas dos coeficientes β. A
solução da Eq 199 irá existir sempre que as variáveis regressoras forem
linearmente independentes.
(Nota: as variáveis regressoras não serão independentes quando uma
coluna da matriz X for uma combinação linear de outras colunas).
Exemplo 10.1
ver (Montgomery (1984)) Um distribuidor de cerveja está analisando
seu sistema de distribuição. Especificamente ele está interessado em
prever o tempo requerido para atender um ponto de venda. O
engenheiro industrial acredita que os dois fatores mais importantes são o
número de caixas de cerveja fornecidas e a distância do depósito ao
posto de venda. Os dados coletados aparecem na Tabela 15.
122
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
X1: No de caixas
X2: Distância
Y: Tempo
10
30
24
15
25
27
10
40
29
20
18
31
25
22
25
18
31
33
12
26
26
14
34
28
16
29
31
22
37
39
24
20
33
17
25
30
13
27
25
30
23
42
24
33
40
Tabela 15 - Exemplo do distribuidor
de cervejas.
Solução:
Escolhemos ajustar o seguinte modelo a esses dados:
Eq 202:
(
)
(
)
Y = β 0, + β1 X 1 − x + β 2 X 2 − x + ε
Desde que x1 = 18 e x 2 = 28 , esse modelo em notação matricial é:
Estatística Industrial
10. Regressão linear múltipla
24 1 - 8 2 
27 1 - 3 - 3 

  
29 1 - 8 12 

  
31  1 2 - 10
25 1 7 - 6 

  
33  1 0 3
26 1 - 6 - 2 

  
28 = 1 - 4 6 
31  1 - 2 1 

  
39  1 4 9 
33  1 6 - 8 

  
30  1 - 1 - 3 
25 1 - 5 - 1 

  
42 1 12 - 5 

  
40 1 6 5 
123
ε1 
ε 
 2 
ε 3 
 
ε 4 
ε 5 
 
ε 6 
,
β 
ε 
 0
 7 
 β1  + ε 8 
β 
ε 
 2 
 9 
ε10 
 
ε11 
ε12 
 
ε13 
ε14 
 
ε15 
E usando as regras para produto e inversão de matriz, obtemos:
0
15 0

X X = 0 504 - 213 ;


0 - 213 548
463
X Y = 345
 
 63 
,
,
e
−1
(X ' X )
0,06667
= 0

 0
0
0,002374
0,0009228
0

0,0009228

0,002183 
De forma que o vetor das estimativas dos coeficientes resulta:
b, 
 30,87 
 0
−1
b = b1  = ( X ' X ) X ' Y = 0,8772 


b 
0
,
4559



 2 
E o modelo de regressão é:
Yˆ = 30,87 + 0,8772( X 1 − 18) + 0,4559( X 2 − 28)
ou
Yˆ = 2,315 + 0,8772 X 1 + 0,4559 X 2
A tabela a seguir apresenta os valores observados, os valores previstos
pelo modelo e os respectivos resíduos r j = Y j − Yˆ j .
124
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Tabela 16 - Valores observados,
valores previstos e resíduos.
Yj
Y$j
rj = Yj − Y$j
24
24,76
-0,76
27
26,87
0,13
29
29,32
-0,32
31
28,06
2,94
25
34,27
-9,27
33
32,23
0,77
26
24,69
1,31
28
30,09
-2,09
31
29,57
1,43
39
38,48
0,52
38
32,48
0,52
30
28,62
1,38
25
26,02
-1,02
42
39,11
2,89
40
38,41
1,59
Para testar se o ajuste é adequado, os resíduos poderiam ser plotados em
função de Y$ , em função de X1 ou em função de X2 . Os resíduos
também poderiam ser plotados em papel de probabilidade, para testar a
suposição de normalidade.
Resíduos x X1
Resíduos x X2
10
10
6
6
2
Re
-6
( )
-10
10
14
18
22
26
-2
<=
-2
-6
<=
Re
2
( )
-10
18
30
22
26
30
X1
99.9
99
95
80
50
20
5
1
0.1
6
2
<=
Figura 45 - Gráficos do distribuidor
de cervejas.
( )
-10
24
27
30
33
42
Papel de Probabilidade
Y$
10
-2
-6
38
36
39
Valor predito de Y
42
<=
Resíduos x
Re
34
X2
( )
-10
-7
-4
-1
2
5
Resíduos
Qualquer um desses gráficos iria evidenciar que a observação da linha 5
é, sem dúvida, um dado atípico.
Estatística Industrial
10. Regressão linear múltipla
125
Se houver registro de alguma causa especial que tenha afetado esta
entrega em particular, essa observação poderia ser eliminada do conjunto
e a análise poderia ser refeita, possivelmente fornecendo um modelo
mais preciso.
Exemplo 10.2
(ver Montgomery (1984)) Esse exemplo ilustra o uso da Análise de
Regressão em conjunto com Projeto de Experimentos.
O ganho em um processo químico está sendo estudado. O engenheiro
escolheu 3 fatores (temperatura, pressão e concentração) e rodou um
experimento fixando cada um desses fatores a dois níveis.
Os dados aparecem a seguir. Vejam que os níveis dos fatores foram
codificados como -1 (nível baixo) e +1 (nível alto).
Tabela 17 - Valores observados em
um processo químico.
Ganho %
X1 (Temp.)
X2 Pressão)
X3 (Concent.)
32
-1
-1
-1
36
-1
-1
1
57
-1
1
-1
46
1
-1
-1
65
1
1
-1
57
-1
1
1
48
1
-1
1
68
1
1
1
Solução:
Escolhemos ajustar o seguinte modelo ( X i = 0 )
Y = β0 + β1X1 + β2X2 + β3X3 + ε
As matrizes X’X e X’Y resultam:
8
0
'
X X =
0

0
0 0 0
8 0 0
 = 8 I4 ;
0 8 0

0 0 8
409
 45 

X 'Y = 
 85 


 9 
E como X’X é diagonal, a sua inversa (X’X)-1=(1/8)I4 . Assim as
estimativas dos coeficientes resultam:
b0  51,125 
b   5,625

b= 1= 
b2  10,625
  

b3   1,125 
E o modelo de regressão é:
126
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Yˆ = 51,125 + 5,625 X 1 + 10,625 X 2 + 1,125 X 3
Nesse exemplo a matriz inversa é fácil de obter porque X’X é diagonal.
Há várias vantagens quando X’X é diagonal. Os cálculos são mais
fáceis e a estimativa dos coeficientes está livre de qualquer correlação [
Cov (bi,bj) = 0 ].
Se nós podemos escolher os níveis de Xi é vantajoso fazer essa escolha
de modo a obter X’X diagonal. Projetos de Experimentos que
apresentam essa propriedade são chamados de projetos ortogonais. Um
exemplo de projetos desse tipo é a classe dos projetos 2k. Esses projetos
têm sido usados com freqüência crescente no meio industrial.
MATRIZ DE VARIÂNCIAS
E COVARIÂNCIAS
A matriz (X’X)-1 é chamada de matriz de variâncias e covariâncias. É
uma matriz simétrica de ordem p x p e seus elementos são usados na
determinação das variâncias Sij2.
Usando a notação:
C 00
C
 10
.
-1
Eq 203: (X' X) = 
.
.

C k0
C 01 ... C 0k 
C11 ... C1k 


.
.

.
.


.
.

C k1 ... C kk 
É possível demonstrar que:
Eq 204: Var(bi) = Cii S2
i = 0,...,k
Eq 205: Covar(bi,bj) = Cij S2
i,j = 0,...,k
onde S2 é a variância residual, associada com os desvios em relação ao
hiperplano do modelo de regressão:
Eq 206:
(
)
2
(n − k − 1) ;j = 1,n
S 2 = ∑ Y j − Yˆ j
A partir da matriz de variâncias e covariâncias também é possível
encontrar a matriz de correlação, uma vez que têm-se:
Eq 207:
rij = Cij
Cii C jj ;i,j = 0,...,k
onde, naturalmente, para i = j tem-se rii = 1 .
A matriz de correlações também é simétrica, de ordem p x p :
Estatística Industrial
10. Regressão linear múltipla
1
r
 10
.
Eq 208: K = 
.
.

rk 0
127
r01 ... r0k 
1 ... r1k 

.
. 

.
. 
.
. 

rk1 ... 1 
A matriz de correlações R é útil para detectar problemas de
multicolinearidade. Se um coeficiente rij qualquer fora da diagonal
tiver módulo ≅ 1,0 teremos uma dependência entre as variáveis
independentes i e j.
Nesse caso, a estimativa dos coeficientes associados às variáveis i e j
estará comprometida. (Não é possível distinguir se o efeito sobre a
variável de resposta se deve a variável regressora i ou j, uma vez que
elas estão variando sempre no mesmo sentido).
O ideal é que a matriz de correlações seja diagonal, com zeros ou valores
próximos de zeros nas posições fora da diagonal. Isso assegura
estimativas não-confundidas dos diversos coeficientes βi .
TESTES DE HIPÓTESE
Para construir os testes de hipótese relativos a regressão múltipla, vamos
supor que os resíduos εj sigam o modelo normal com média 0 e
variância S2 .
Há dois tipos de teste que podem ser feitos: testes individuais sobre a
significância de cada parâmetro bj e um teste global para o modelo.
Significância de cada
parâmetro
Eq 209:
Se os resíduos seguem o modelo normal, os parâmetros bj também irão
seguir esse modelo, ou seja:
(
2
b j → N β j ,σ bj
)
De modo que para testar as hipóteses
H0: βj = 0
H1: β j ≠ 0
Usamos a distribuição de Student, calculando
Eq 210: tj = bj / Sbj
Como sempre, a hipótese nula será rejeitada se
Eq 211:
Significância do modelo
de regressão
t j > tα / 2 , n − k − 1
Para testar a significância do modelo de regressão múltipla, usaremos o
(
teste F. Os desvios Y j − Y
) podem ser escritos na forma:
128
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Eq 212:
(Y j − Y ) = (Y j − Yˆ j ) + (Yˆ j − Y )
elevando ao quadrado e somando, obtemos:
Eq 213:
∑ (Y j − Y )
2
(
)
(
)
2
2
= ∑ Y j − Yˆ j + ∑ Y j − Y
uma vez que pode ser demonstrado que o produto cruzado é nulo. Dessa
forma temos:
Eq 214: SYY = SQR + SQReg
onde os correspondentes GDL valem:
Eq 215: (n-1) = (n-k-1) + (k)
de forma que as médias quadradas resultam:
Eq 216: MQR = SQR / (n-k-1)
Eq 217: MQReg = SQReg / k
e usamos,
Eq 218: F = MQR / MQReg
para testar a significância do modelo. A hipótese (inexistência de
relação entre X e Y ) deve ser rejeitada se resultar,
F > Fα/2, k, n-k-1
para o cálculo das somas quadradas as seguintes fórmulas práticas
podem ser usadas:
Eq 219:
SYY =
n
∑
j =1
 n

y
∑ j 
 j =1 
y 2j − 

2
n
k
Eq 220:
SQR = SYY − ∑ bi Siy
i =1
k
Eq 221:
SQReg = ∑ bi Siy
i =1
Eq 222: onde os valores Siy aparecem no vetor X’Y , ou seja,
Estatística Industrial
10. Regressão linear múltipla
129
∑Y j 


 S1 y 
 . 

Eq 223: X ' Y = 
 . 


 . 
 S ky 
A fórmula para o cálculo do coeficiente de determinação r2 é a mesma
COEFICIENTES DE
DETERMINAÇÃO PARA O apresentada ao final do capítulo 9, ou seja:
MODELO DE
REGRESSÃO MÚLTIPLA
Eq 224:
r2 =
SQReg
SYY
O coeficiente r2 indica a percentagem da variabilidade total que é
explicada pelo modelo de regressão. Se r2 =1, todas as observações
estarão sobre o hiperplano definido pelo modelo. Se r2 = 0 , não há
nenhuma relação entre a variável de resposta e as variáveis regressoras.
Exemplo 10.3
Para o problema da distribuição das caixas de cerveja, pede-se:
Apresente a matriz de variâncias e covariâncias e a matriz de correlação;
Calcule a variância residual S2 e a variância de b1, Sb12;
Teste de significância de b1;
Teste a significância do modelo;
Calcule o coeficiente de determinação;
Solução:
A matriz de variâncias e covariâncias é a matriz (X’X)-1 , enquanto que a
matriz de correlações é obtida dividindo os termos da matriz X’X pelos
correspondentes termos da diagonal. Assim,
−1
(X ' X )
0
0,06667

= 0
0,002374

0,0009228
0
0
0 
1

r= 0
1 0,405


1 
0 0,405
Para calcular S2 e Sb12 , usamos:
0

0,0009228

0,002183 
130
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
(
)
2
S 2 = ∑ Yi − Yˆ (n − k − 1) = 118,37 12 = 9,86
S b21 = S 2C11 = 9,86(0,002374 ) = 0,0234 ; S b1 = 0,153
o teste de significância para b1 é:
t1 = b1 / Sb1 = 0,8772 / 0,153 = 5,73
t1 = 5,73 > t0,025;12 = 2,179⇒rejeita-se a hipótese nula
O teste de significância para o modelo é feito usando a tabela ANOVA.
SYY = Σyj2 - (Σyj)2 / n = 449,73
SQReg = b1S1y + b2S2y = 331,36
SQR = SYY - SQReg = 118,37
Fonte
SQ
GDL
MQ
F
Modelo
331,36
2
165,58
16,80
Residual
118,37
12
9,86
449,73
14
Tabela 18 - Tabela ANOVA Total
F = 16,80 > F0,05;2;12 = 3,89; rejeita-se a hipótese nula
E nesse exemplo o coeficiente de determinação vale SQReg/SYY = 0,737;
ou seja 73,7% da variabilidade total no tempo de entrega é explicada
pela relação que essa variável mantém com o número de caixas e a
distância do posto de vendas.
PREVISÃO DE VALORES
DE Y
Assim como o caso da regressão simples, a relação encontrada pode ser
usada para a previsão de um valor médio ou individual de Y. Seja:
 X 10 
X 
 20 
 . 
Eq 225: X 0 = 

 . 
 . 


 X k0 
Eq 226:
Yˆ0 = b0 + b1 X10 + ... + bk X k 0
Pode ser demonstrado o intervalo de confiança de 100(1-α)% para um
valor médio e individual de Y são, respectivamente:
Valor médio:
Estatística Industrial
10. Regressão linear múltipla
Eq 227:
(
131
)1
Yˆ0 ± tα / 2,n − k −1 S 2 X 0, ( X ' X )−1 2
Valor individual.:
Eq 228:
(
)1
Yˆ0 ± tα / 2,n − k −1 S 2 1 + X 0, ( X ' X ) −1 X 0 2
O fator que multiplica tα/2 nas fórmulas acima corresponde ao erro de
previsão. A divisão desse fator por Yˆ0 produz o coeficiente de
variação da previsão.
ANÁLISE DAS
SUPOSIÇÕES DO
MODELO DE
REGRESSÃO
Nas seções anteriores foi feita a suposição ε → N(0,σ2) , ou seja, supõese normalidade na distribuição dos resíduos e homogeneidade da
variância residual. A suposição de normalidade dos resíduos pode ser
testada por testes gráficos (papel de probabilidade) ou analíticos (teste
do Chi-quadrado, Kolmogorov-Smirnov, etc.).
Para o teste de normalidade, usa-se os resíduos padronizados:
Eq 229:
[
]
R j = Y j − Yˆ j S 2
onde:
Eq 230:
Ŷj = b0 + b1 X 1 j + ... + bk X kj
Para examinar se o erro padrão da estimativa é constante, analisa-se os
gráficos R j × Yˆ j e R j × X i .
Se a suposição de normalidade ou de homogeneidade não forem
satisfeitas, muitas vezes é possível contornar o problema aplicando
certas transformações matemáticas aos dados. Os resíduos também
podem ser analisados para verificar a existência de dados atípicos.
REGRESSÃO
POLINOMIAL
O modelo aditivo Y = Xβ + ε é um modelo geral e pode ser usado para
ajustar qualquer relação que seja linear com referência aos parâmetros
desconhecidos β. Veja que a exigência de linearidade refere-se a β e
não a X. Assim, o modelo pode ser usado para ajustar um polinômio de
ordem k em uma variável:
Eq 231: Y = β 0 + β 1x + β 2x2 + ... + βkxk + ε
ou então para ajustar um polinômio de segundo grau em duas variáveis:
Eq 232: Y = β 0 + β 1 x1 + β 2 x2 + β 3 x12 + β 4 x22 + β 5 x1 x2 + ε
O uso do modelo Y = Xβ + ε para ajustar um polinômio é ilustrado a
seguir.
Exemplo 10.4
(ver Montgomery (1984)) Pede-se para ajustar o modelo Y = β0 + β1 x
+ β2 x2 + ε aos dados que aparecem a seguir:
132
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Tabela 19 - Valores observados do
exemplo
x
1,0
1,2
1,4
1,6
1,8
2
y
6,15
7,90
9,40
10,50
11,00
14,00
Em notação matricial, usando X − X , tem-se:
 6,15 
 7,90 


 9,40 
Eq 233: Y = 

10,50
11,00 


14,00
1 - 0,5 0,25 
1 - 0,3 0,09 


1 - 0,1 0,01 
X=

0,1 0,01 
1
1
0,3 0,09


0,5 0,25
1
β0 
β =  β1 
 β 2 
As matrizes X’X e X’Y resultam:
6,0

Eq 234: X ' X = 0,0

0,7
0,0
0,7 
0,7
0,0  ;

0,0 0,1414
58,95
X' Y = 4,965


6,938
De modo que as estimativas de β são:
Eq 235:
−1
b = (X ' X )
- 1,9527  58,95 9,70
 0,3945 φ

φ
φ  4,965 = 7,08
X 'Y =
1,4286


 

16,737 6,938 1,00 
− 1,9527 φ
Assim o modelo de regressão:
Eq 236:
(
)
(
)
2
Yˆ = 9,70 + 7,08 X − X + 1,00 X − X
ou
Eq 237:
Yˆ = 1,33 + 4,08 X + 1,00 X 2
Esse método geral pode ser usado para ajustar dados que tenham um
formato qualquer. No entanto, se os níveis das variáveis regressoras
forem eqüidistantes, então o uso de polinômios ortogonais simplifica
bastante o esforço de cálculo. O uso de polinômios ortogonais aparece
descrito em Montgomery & PecK (1991) e Nanni & Ribeiro (1991).
(1) Os polinômios são muito úteis para fornecer uma aproximação para
Comentários em relação
aos modelos polinomiais: relações não lineares complexas e desconhecidas. Esse tipo de aplicação
aparece com freqüência na prática.
(2) É importante manter a ordem do polinômio tão baixa quanto
possível. Polinômios de ordem mais alta (k > 2) devem ser evitados, a
menos que hajam justificativas técnicas para o seu uso.
(3) Um modelo de ordem mais baixa usando variáveis transformadas é
Estatística Industrial
10. Regressão linear múltipla
133
sempre preferível à modelos de ordem mais alta na métrica original.
(4) Vale lembrar que sempre pode ser obtido um polinômio de ordem n1 que ajusta-se perfeitamente aos dados. Tal modelo não ajudaria em
nada para a compreensão do fenômeno em estudo e nem tampouco seria
um bom estimador.
(5) Extrapolações com polinômios devem ser feitas com muito cuidado.
Além do intervalo investigado, os polinômios podem apresentar um
comportamento estranho, girando na direção oposta do esperado.
(6) Na medida que cresce a ordem do polinômio, a matriz X’X torna-se
mal condicionada e a precisão das estimativas diminui. Esse problema é
aliviado quando se centra as variáveis regressoras, isto é, quando se usa
(X ij − X i ) .
(7) A matriz X’X também tende a tornar-se mal condicionada quando os
valores de X estão limitados a um intervalo muito estreito. De forma
geral, ampliando o intervalo de investigação, melhoram as estimativas
dos coeficientes.
Exercícios
Exercício 10.1
A resistência de uma cera depende da quantidade de Etil-Vinil-Acetato
(EVA) e da quantidade de Parafina adicionados à cera. Ajuste um
modelo do tipo Y = β0 + β1 X1 + β2 X2 aos dados que aparecem a
seguir
X1: EVA
4
4
6
6
8
8
4
4
6
6
8
8
X2: Paraf.
8
8
8
8
8
8
12
12
12
12
12
12
Y: Resist.
Exercício 10.2
28,5 26,4 33,0 32,1 35,3 36,7 36,6 34,2 37,9 39,9 42,6 44,2
Calcule o valor dos resíduos R j = Y j − Y$j para os dados do exercício
anterior e a seguir analise esses resíduos plotando os gráficos:
R j × Y$j , R j × X 1 , R j × X 2 .
Exercício 10.3
Ainda em relação aos dados do exercício 10.1, pede-se:
Apresente a matriz de variâncias e covariâncias e a matriz de
correlações. Analise a matriz de correlações e indique se há indícios de
mal condicionamento;
Calcule a variância residual S2 e a variância de b1 e b2 ;
Teste de significância de b1 e b2 ;
Teste de significância do modelo;
Calcule o coeficiente de determinação e indique o seu significado
técnico;
Exercício 10.4
Considere os dados do exercício 8.2 e use um modelo do tipo Y = β0 +
134
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
β1 X + β2 X2 para ajustar a resistência à compressão em função da
adição de microssílica.
Adição
Exercício 10.5
Resistência (MPa)
0%
28,1
26,5
24,3
5%
35,3
34,3
37,5
10%
39,8
44,1
42,3
15%
39,1
40,8
43,0
Considere os dados do exercício 8.5 e use o modelo do tipo Y = β0 + β1X
+ β2X2 para ajustar a produtividade mensal em função do intervalo entre
manutenções preventivas.
Intervalo
Exercício 10.6
Exercício 10.7
Produtividade
4
136
137
135
140
136
6
145
146
147
147
148
8
146
144
148
145
145
10
134
131
136
134
133
12
117
119
117
115
116
Os dados a seguir mostram os valores da distribuição normal acumulada
para diferentes valores da variável reduzida Z . Ajuste um modelo do
tipo Y = β0 + Σβi Xi a esses dados. Após, calcule o valor da variância
residual (que no caso deve-se exclusivamente à falta de ajuste) e indique
se o ajuste é satisfatório para a maioria das aplicações práticas. Por fim,
use o modelo para extrapolações, ou seja, calcule por exemplo F(-4) e
F(+4) e indique se o modelo pode ser usado para extrapolações.
Z
-3
-2,5
-2,0
-1,5
-1,0
-0,5
0
0,5
1,0
F(Z)
,0013
,0062
,0228
,0668
,1587
,3085
,5000
,6915
,8413
Z
1,5
2,0
2,5
3,0
F(Z)
,9332
,9772
,9938
,9987
Repita o exercício 10.1 acrescentando um termo β3 X1 X2 ao modelo.
Teste a significância deste termo e conclua se há razões para mantê-lo no
modelo.
Bibliografia
Bibliografia (as cinco bibliografias mais recomendadas estão em
negrito)
1.
Bowker & Lieberman, (1959), Engineering Statistics. Prentice
Hall, Inc., Englewood Cliffs, New Jersey, USA.
2.
Clarke, G.M. & Cook, D. (1983), A Basic Course in Statistics. 2nd
ed., Edward Arnold Ltda, London.
3.
Costa Neto, P. L. O. (1977), Estatística. Edgar Blücher, São Paulo.
4.
Drumond, F., Werkema, M. C. C. e Aguiar, S. (1996) Análise de
variância: comparação de várias situações. Universidade Federal
de Minas Gerais. Escola de Engenharia, Fundação Cristiano
Ottoni.
5.
Duncan, A.J. (1974), Quality Control and Industrial Statistics, 4th
ed., Irwin, Homewood, ILL.
6.
Guttman, Wilks & Hunter (1971), Introductory Engineering
Statistics. 2nd ed., John Wiley and Sons, New York.
7.
Kume, H. (1993), Métodos Estatísticos para a melhoria da
Qualidade; tradução de Dario Miyake; revisão técnica de Alberto
Ramos. São Paulo: Editora Gene.
8.
Miller, I. & Freund, J.E. (1977), Probability and Statistics for
Engineers. 2nd ed., Prentice Hall, Inc., Englewood Cliffs, New
Jersey, USA.
9.
Montgomery, D.C. (1984), Design and analysis of experiments.
John Wiley and Sons, New York, 2nd ed.
10. Montgomery, D.C. (1985), Introduction to Statistical Quality
Control. John Wiley and Sons, New York.
11. Montgomery, D. C. & Peck, E. A. (1991), Introduction to Linear
Regression Analysis. John Wiley and Sons, 2nd ed, New York.
12. Lopes, A. F. (1999) Probabilidades e Estatísticas. Reichmann &
Afonso Editores, Rio de Janeiro, RJ, Brasil.
13. Ott, E.R. (1975), Process Quality Control. McGraw Hill, New
York.
14. Spiegel, M. R. (1993) Estatística. Makron Books Brasil Editora, São
Paulo, SP, Brasil.
15. Snedcor, G.W. & Cochran, W.G. (1980), Statistical Methods. 7th
ed., The Iowa State Univ. Press, Iowa, USA.
16. Stevenson, W. J. (1981), Estatística Aplicada à Administração;
tradução Alfredo de Farias. Harper & Raw do Brasil, São
136
10. Regressão linear múltipla
José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS
Paulo, SP, Brasil.
17. Werkema, M. C. (1996) Como Estabelecer Conclusões com
Confiança: Entendendo Inferência Estatística. Fundação
Cristiano Ottoni, Escola de Engenharia da UFMG, Belo
Horizonte, MG, Brasil.
18. Werkema, M. C. C. e Aguiar, S. (1996) Análise de regressão:
como entender o relacionamento entre variáveis de um processo.
Universidade Federal de Minas Gerais. Escola de Engenharia,
Fundação Cristiano Ottoni.
Áreas sob a curva normal
(Cauda da esquerda)
z
0,09
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0,00
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
-3,9
-3,8
-3,7
-3,6
-3,5
-3,4
-3,3
-3,2
-3,1
-3,0
-2,9
-2,8
-2,7
-2,6
-2,5
-2,4
-2,3
-2,2
-2,1
-2,0
-1,9
-1,8
-1,7
-1,6
-1,5
-1,4
-1,3
-1,2
-1,1
-1,0
-0,9
-0,8
-0,7
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1
0,0
0,0000
0,0001
0,0001
0,0001
0,0002
0,0002
0,0003
0,0005
0,0007
0,0010
0,0014
0,0019
0,0026
0,0036
0,0048
0,0064
0,0084
0,0110
0,0143
0,0183
0,0233
0,0294
0,0367
0,0455
0,0559
0,0681
0,0823
0,0985
0,1170
0,1379
0,1611
0,1867
0,2148
0,2451
0,2776
0,3121
0,3483
0,3859
0,4247
0,4641
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0004
0,0005
0,0007
0,0010
0,0014
0,0020
0,0027
0,0037
0,0049
0,0066
0,0087
0,0113
0,0146
0,0188
0,0239
0,0301
0,0375
0,0465
0,0571
0,0694
0,0838
0,1003
0,1190
0,1401
0,1635
0,1894
0,2177
0,2483
0,2810
0,3156
0,3520
0,3897
0,4286
0,4681
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0004
0,0005
0,0008
0,0011
0,0015
0,0021
0,0028
0,0038
0,0051
0,0068
0,0089
0,0116
0,0150
0,0192
0,0244
0,0307
0,0384
0,0475
0,0582
0,0708
0,0853
0,1020
0,1210
0,1423
0,1660
0,1922
0,2206
0,2514
0,2843
0,3192
0,3557
0,3936
0,4325
0,4721
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0004
0,0006
0,0008
0,0011
0,0015
0,0021
0,0029
0,0039
0,0052
0,0069
0,0091
0,0119
0,0154
0,0197
0,0250
0,0314
0,0392
0,0485
0,0594
0,0721
0,0869
0,1038
0,1230
0,1446
0,1685
0,1949
0,2236
0,2546
0,2877
0,3228
0,3594
0,3974
0,4364
0,4761
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0004
0,0006
0,0008
0,0011
0,0016
0,0022
0,0030
0,0040
0,0054
0,0071
0,0094
0,0122
0,0158
0,0202
0,0256
0,0322
0,0401
0,0495
0,0606
0,0735
0,0885
0,1056
0,1251
0,1469
0,1711
0,1977
0,2266
0,2578
0,2912
0,3264
0,3632
0,4013
0,4404
0,4801
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0004
0,0006
0,0008
0,0012
0,0016
0,0023
0,0031
0,0041
0,0055
0,0073
0,0096
0,0125
0,0162
0,0207
0,0262
0,0329
0,0409
0,0505
0,0618
0,0749
0,0901
0,1075
0,1271
0,1492
0,1736
0,2005
0,2296
0,2611
0,2946
0,3300
0,3669
0,4052
0,4443
0,4840
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0004
0,0006
0,0009
0,0012
0,0017
0,0023
0,0032
0,0043
0,0057
0,0075
0,0099
0,0129
0,0166
0,0212
0,0268
0,0336
0,0418
0,0516
0,0630
0,0764
0,0918
0,1093
0,1292
0,1515
0,1762
0,2033
0,2327
0,2643
0,2981
0,3336
0,3707
0,4090
0,4483
0,4880
0,0000
0,0001
0,0001
0,0001
0,0002
0,0003
0,0005
0,0006
0,0009
0,0013
0,0018
0,0024
0,0033
0,0044
0,0059
0,0078
0,0102
0,0132
0,0170
0,0217
0,0274
0,0344
0,0427
0,0526
0,0643
0,0778
0,0934
0,1112
0,1314
0,1539
0,1788
0,2061
0,2358
0,2676
0,3015
0,3372
0,3745
0,4129
0,4522
0,4920
0,0000
0,0001
0,0001
0,0002
0,0002
0,0003
0,0005
0,0007
0,0009
0,0013
0,0018
0,0025
0,0034
0,0045
0,0060
0,0080
0,0104
0,0136
0,0174
0,0222
0,0281
0,0351
0,0436
0,0537
0,0655
0,0793
0,0951
0,1131
0,1335
0,1562
0,1814
0,2090
0,2389
0,2709
0,3050
0,3409
0,3783
0,4168
0,4562
0,4960
0,0000
0,0001
0,0001
0,0002
0,0002
0,0003
0,0005
0,0007
0,0010
0,0013
0,0019
0,0026
0,0035
0,0047
0,0062
0,0082
0,0107
0,0139
0,0179
0,0228
0,0287
0,0359
0,0446
0,0548
0,0668
0,0808
0,0968
0,1151
0,1357
0,1587
0,1841
0,2119
0,2420
0,2743
0,3085
0,3446
0,3821
0,4207
0,4602
0,5000
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159
0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,9990
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
1,0000
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,9975
0,9982
0,9987
0,9991
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
1,0000
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9898
0,9922
0,9941
0,9956
0,9967
0,9976
0,9982
0,9987
0,9991
0,9994
0,9995
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0,9991
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0,9992
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0,9992
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9985
0,9989
0,9992
0,9994
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0,9992
0,9995
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0,9993
0,9995
0,9996
0,9997
0,9998
0,9999
0,9999
0,9999
1,0000
0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
0,9999
1,0000
Distribuição de Student - cauda da direita
Pr (t > talfa) = alfa
GL
Nível de significância
- alfa
0,250
0,100
0,050
0,025
0,010
0,005
1
2
3
4
5
6
1,000
0,816
0,765
0,741
0,727
0,718
3,078
1,886
1,638
1,533
1,476
1,440
6,314
2,920
2,353
2,132
2,015
1,943
12,706
4,303
3,182
2,776
2,571
2,447
31,821
6,965
4,541
3,747
3,365
3,143
63,656
9,925
5,841
4,604
4,032
3,707
7
8
9
10
11
0,711
0,706
0,703
0,700
0,697
1,415
1,397
1,383
1,372
1,363
1,895
1,860
1,833
1,812
1,796
2,365
2,306
2,262
2,228
2,201
2,998
2,896
2,821
2,764
2,718
3,499
3,355
3,250
3,169
3,106
12
13
14
15
16
0,695
0,694
0,692
0,691
0,690
1,356
1,350
1,345
1,341
1,337
1,782
1,771
1,761
1,753
1,746
2,179
2,160
2,145
2,131
2,120
2,681
2,650
2,624
2,602
2,583
3,055
3,012
2,977
2,947
2,921
17
18
19
20
21
0,689
0,688
0,688
0,687
0,686
1,333
1,330
1,328
1,325
1,323
1,740
1,734
1,729
1,725
1,721
2,110
2,101
2,093
2,086
2,080
2,567
2,552
2,539
2,528
2,518
2,898
2,878
2,861
2,845
2,831
22
23
24
25
26
0,686
0,685
0,685
0,684
0,684
1,321
1,319
1,318
1,316
1,315
1,717
1,714
1,711
1,708
1,706
2,074
2,069
2,064
2,060
2,056
2,508
2,500
2,492
2,485
2,479
2,819
2,807
2,797
2,787
2,779
27
28
29
inf
0,684
0,683
0,683
0,674
1,314
1,313
1,311
1,282
1,703
1,701
1,699
1,645
2,052
2,048
2,045
1,960
2,473
2,467
2,462
2,326
2,771
2,763
2,756
2,576
Distribuição do Qui Quadrado - cauda da direita
Pr (QQ > QQalfa) = alfa
GL
Nível de
significância - alfa
0,995
0,990
0,975
0,950
0,900
0,010
0,050
0,025
0,010
0,005
1
2
3
4
5
6
0,0000
0,010
0,072
0,207
0,412
0,676
0,0002
0,020
0,115
0,297
0,554
0,872
0,0010
0,051
0,216
0,484
0,831
1,237
0,0039
0,103
0,352
0,711
1,145
1,635
0,016
0,211
0,584
1,064
1,610
2,204
6,635
9,210
11,345
13,277
15,086
16,812
3,841
5,991
7,815
9,488
11,070
12,592
5,024
7,378
9,348
11,143
12,832
14,449
6,635
9,210
11,345
13,277
15,086
16,812
7,879
10,597
12,838
14,860
16,750
18,548
7
8
9
10
11
0,989
1,344
1,735
2,156
2,603
1,239
1,647
2,088
2,558
3,053
1,690
2,180
2,700
3,247
3,816
2,167
2,733
3,325
3,940
4,575
2,833
3,490
4,168
4,865
5,578
18,475
20,090
21,666
23,209
24,725
14,067
15,507
16,919
18,307
19,675
16,013
17,535
19,023
20,483
21,920
18,475
20,090
21,666
23,209
24,725
20,278
21,955
23,589
25,188
26,757
12
13
14
15
16
3,074
3,565
4,075
4,601
5,142
3,571
4,107
4,660
5,229
5,812
4,404
5,009
5,629
6,262
6,908
5,226
5,892
6,571
7,261
7,962
6,304
7,041
7,790
8,547
9,312
26,217
27,688
29,141
30,578
32,000
21,026
22,362
23,685
24,996
26,296
23,337
24,736
26,119
27,488
28,845
26,217
27,688
29,141
30,578
32,000
28,300
29,819
31,319
32,801
34,267
17
18
19
20
21
5,697
6,265
6,844
7,434
8,034
6,408
7,015
7,633
8,260
8,897
7,564
8,231
8,907
9,591
10,283
8,672
9,390
10,117
10,851
11,591
10,085
10,865
11,651
12,443
13,240
33,409
34,805
36,191
37,566
38,932
27,587
28,869
30,144
31,410
32,671
30,191
31,526
32,852
34,170
35,479
33,409
34,805
36,191
37,566
38,932
35,718
37,156
38,582
39,997
41,401
22
23
24
25
26
8,643
9,260
9,886
10,520
11,160
9,542
10,196
10,856
11,524
12,198
10,982
11,689
12,401
13,120
13,844
12,338
13,091
13,848
14,611
15,379
14,041
14,848
15,659
16,473
17,292
40,289
41,638
42,980
44,314
45,642
33,924
35,172
36,415
37,652
38,885
36,781
38,076
39,364
40,646
41,923
40,289
41,638
42,980
44,314
45,642
42,796
44,181
45,558
46,928
48,290
27
28
29
30
11,808
12,461
13,121
13,787
12,878
13,565
14,256
14,953
14,573
15,308
16,047
16,791
16,151
16,928
17,708
18,493
18,114
18,939
19,768
20,599
46,963
48,278
49,588
50,892
40,113
41,337
42,557
43,773
43,195
44,461
45,722
46,979
46,963
48,278
49,588
50,892
49,645
50,994
52,335
53,672
Distribuição F - cauda da direita
Pr (F > Falfa(n1,n2)) = alfa
Nível de significância - alfa =
1
2
3
4
Nível de significância - alfa =
0,05
n2 \
n1
1
2
3
4
5
6
5
6
7
8
161,4
18,51
10,13
7,71
6,61
5,99
199,5
19,00
9,55
6,94
5,79
5,14
215,7
19,16
9,28
6,59
5,41
4,76
224,6
19,25
9,12
6,39
5,19
4,53
230,2
19,30
9,01
6,26
5,05
4,39
234,0
19,33
8,94
6,16
4,95
4,28
236,8
19,35
8,89
6,09
4,88
4,21
238,9
19,37
8,85
6,04
4,82
4,15
7
8
9
10
11
5,59
5,32
5,12
4,96
4,84
4,74
4,46
4,26
4,10
3,98
4,35
4,07
3,86
3,71
3,59
4,12
3,84
3,63
3,48
3,36
3,97
3,69
3,48
3,33
3,20
3,87
3,58
3,37
3,22
3,09
3,79
3,50
3,29
3,14
3,01
12
13
14
15
16
4,75
4,67
4,60
4,54
4,49
3,89
3,81
3,74
3,68
3,63
3,49
3,41
3,34
3,29
3,24
3,26
3,18
3,11
3,06
3,01
3,11
3,03
2,96
2,90
2,85
3,00
2,92
2,85
2,79
2,74
17
18
19
20
21
4,45
4,41
4,38
4,35
4,32
3,59
3,55
3,52
3,49
3,47
3,20
3,16
3,13
3,10
3,07
2,96
2,93
2,90
2,87
2,84
2,81
2,77
2,74
2,71
2,68
22
23
24
25
26
4,30
4,28
4,26
4,24
4,23
3,44
3,42
3,40
3,39
3,37
3,05
3,03
3,01
2,99
2,98
2,82
2,80
2,78
2,76
2,74
27
28
29
30
40
4,21
4,20
4,18
4,17
4,08
3,35
3,34
3,33
3,32
3,23
2,96
2,95
2,93
2,92
2,84
60
80
100
500
4,00
3,96
3,94
3,86
3,15
3,11
3,09
3,01
2,76
2,72
2,70
2,62
9
10
12
15
20
0,05
240,5
19,38
8,81
6,00
4,77
4,10
n2 \
n1
1
2
3
4
5
6
30
40
241,9
19,40
8,79
5,96
4,74
4,06
243,9
19,41
8,74
5,91
4,68
4,00
245,9
19,43
8,70
5,86
4,62
3,94
248,0
19,45
8,66
5,80
4,56
3,87
250,1
19,46
8,62
5,75
4,50
3,81
251,1
19,47
8,59
5,72
4,46
3,77
3,73
3,44
3,23
3,07
2,95
3,68
3,39
3,18
3,02
2,90
7
8
9
10
11
3,64
3,35
3,14
2,98
2,85
3,57
3,28
3,07
2,91
2,79
3,51
3,22
3,01
2,85
2,72
3,44
3,15
2,94
2,77
2,65
3,38
3,08
2,86
2,70
2,57
2,91
2,83
2,76
2,71
2,66
2,85
2,77
2,70
2,64
2,59
2,80
2,71
2,65
2,59
2,54
12
13
14
15
16
2,75
2,67
2,60
2,54
2,49
2,69
2,60
2,53
2,48
2,42
2,62
2,53
2,46
2,40
2,35
2,54
2,46
2,39
2,33
2,28
2,70
2,66
2,63
2,60
2,57
2,61
2,58
2,54
2,51
2,49
2,55
2,51
2,48
2,45
2,42
2,49
2,46
2,42
2,39
2,37
17
18
19
20
21
2,45
2,41
2,38
2,35
2,32
2,38
2,34
2,31
2,28
2,25
2,31
2,27
2,23
2,20
2,18
2,66
2,64
2,62
2,60
2,59
2,55
2,53
2,51
2,49
2,47
2,46
2,44
2,42
2,40
2,39
2,40
2,37
2,36
2,34
2,32
2,34
2,32
2,30
2,28
2,27
22
23
24
25
26
2,30
2,27
2,25
2,24
2,22
2,23
2,20
2,18
2,16
2,15
2,73
2,71
2,70
2,69
2,61
2,57
2,56
2,55
2,53
2,45
2,46
2,45
2,43
2,42
2,34
2,37
2,36
2,35
2,33
2,25
2,31
2,29
2,28
2,27
2,18
2,25
2,24
2,22
2,21
2,12
27
28
29
30
40
2,20
2,19
2,18
2,16
2,08
2,53
2,49
2,46
2,39
2,37
2,33
2,31
2,23
2,25
2,21
2,19
2,12
2,17
2,13
2,10
2,03
2,10
2,06
2,03
1,96
2,04
2,00
1,97
1,90
60
80
100
500
1,99
1,95
1,93
1,85
60
120
500
252,2
19,48
8,57
5,69
4,43
3,74
253,3
19,49
8,55
5,66
4,40
3,70
254,1
19,49
8,53
5,64
4,37
3,68
3,34
3,04
2,83
2,66
2,53
3,30
3,01
2,79
2,62
2,49
3,27
2,97
2,75
2,58
2,45
3,24
2,94
2,72
2,55
2,42
2,47
2,38
2,31
2,25
2,19
2,43
2,34
2,27
2,20
2,15
2,38
2,30
2,22
2,16
2,11
2,34
2,25
2,18
2,11
2,06
2,31
2,22
2,14
2,08
2,02
2,23
2,19
2,16
2,12
2,10
2,15
2,11
2,07
2,04
2,01
2,10
2,06
2,03
1,99
1,96
2,06
2,02
1,98
1,95
1,92
2,01
1,97
1,93
1,90
1,87
1,97
1,93
1,89
1,86
1,83
2,15
2,13
2,11
2,09
2,07
2,07
2,05
2,03
2,01
1,99
1,98
1,96
1,94
1,92
1,90
1,94
1,91
1,89
1,87
1,85
1,89
1,86
1,84
1,82
1,80
1,84
1,81
1,79
1,77
1,75
1,80
1,77
1,75
1,73
1,71
2,13
2,12
2,10
2,09
2,00
2,06
2,04
2,03
2,01
1,92
1,97
1,96
1,94
1,93
1,84
1,88
1,87
1,85
1,84
1,74
1,84
1,82
1,81
1,79
1,69
1,79
1,77
1,75
1,74
1,64
1,73
1,71
1,70
1,68
1,58
1,69
1,67
1,65
1,64
1,53
1,92
1,88
1,85
1,77
1,84
1,79
1,77
1,69
1,75
1,70
1,68
1,59
1,65
1,60
1,57
1,48
1,59
1,54
1,52
1,42
1,53
1,48
1,45
1,35
1,47
1,41
1,38
1,26
1,41
1,35
1,31
1,16
Distribuição F - cauda da direita
Pr (F > Falfa(n1,n2)) = alfa
Nível de significância - alfa = 0,025
1
2
3
4
5
Nível de significância - alfa = 0,025
n2 \
n1
1
2
3
4
5
6
6
7
8
647,8
38,51
17,44
12,22
10,01
8,81
799,5
39,00
16,04
10,65
8,43
7,26
864,2
39,17
15,44
9,98
7,76
6,60
899,6
39,25
15,10
9,60
7,39
6,23
921,8
39,30
14,88
9,36
7,15
5,99
937,1
39,33
14,73
9,20
6,98
5,82
948,2
39,36
14,62
9,07
6,85
5,70
956,6
39,37
14,54
8,98
6,76
5,60
7
8
9
10
11
8,07
7,57
7,21
6,94
6,72
6,54
6,06
5,71
5,46
5,26
5,89
5,42
5,08
4,83
4,63
5,52
5,05
4,72
4,47
4,28
5,29
4,82
4,48
4,24
4,04
5,12
4,65
4,32
4,07
3,88
4,99
4,53
4,20
3,95
3,76
12
13
14
15
16
6,55
6,41
6,30
6,20
6,12
5,10
4,97
4,86
4,77
4,69
4,47
4,35
4,24
4,15
4,08
4,12
4,00
3,89
3,80
3,73
3,89
3,77
3,66
3,58
3,50
3,73
3,60
3,50
3,41
3,34
17
18
19
20
21
6,04
5,98
5,92
5,87
5,83
4,62
4,56
4,51
4,46
4,42
4,01
3,95
3,90
3,86
3,82
3,66
3,61
3,56
3,51
3,48
3,44
3,38
3,33
3,29
3,25
22
23
24
25
26
5,79
5,75
5,72
5,69
5,66
4,38
4,35
4,32
4,29
4,27
3,78
3,75
3,72
3,69
3,67
3,44
3,41
3,38
3,35
3,33
27
28
29
30
40
5,63
5,61
5,59
5,57
5,42
4,24
4,22
4,20
4,18
4,05
3,65
3,63
3,61
3,59
3,46
60
80
100
500
5,29
5,22
5,18
5,05
3,93
3,86
3,83
3,72
3,34
3,28
3,25
3,14
9
963,3
39,39
14,47
8,90
6,68
5,52
n2 \
n1
1
2
3
4
5
6
10
12
15
20
30
40
60
120
500
968,6
39,40
14,42
8,84
6,62
5,46
976,7
39,41
14,34
8,75
6,52
5,37
984,9
39,43
14,25
8,66
6,43
5,27
4,90
4,43
4,10
3,85
3,66
4,82
4,36
4,03
3,78
3,59
7
8
9
10
11
4,76
4,30
3,96
3,72
3,53
4,67
4,20
3,87
3,62
3,43
4,57
4,10
3,77
3,52
3,33
4,47
4,00
3,67
3,42
3,23
4,36
3,89
3,56
3,31
3,12
4,31
3,84
3,51
3,26
3,06
4,25
3,78
3,45
3,20
3,00
4,20
3,73
3,39
3,14
2,94
4,16
3,68
3,35
3,09
2,90
3,61
3,48
3,38
3,29
3,22
3,51
3,39
3,29
3,20
3,12
3,44
3,31
3,21
3,12
3,05
12
13
14
15
16
3,37
3,25
3,15
3,06
2,99
3,28
3,15
3,05
2,96
2,89
3,18
3,05
2,95
2,86
2,79
3,07
2,95
2,84
2,76
2,68
2,96
2,84
2,73
2,64
2,57
2,91
2,78
2,67
2,59
2,51
2,85
2,72
2,61
2,52
2,45
2,79
2,66
2,55
2,46
2,38
2,74
2,61
2,50
2,41
2,33
3,28
3,22
3,17
3,13
3,09
3,16
3,10
3,05
3,01
2,97
3,06
3,01
2,96
2,91
2,87
2,98
2,93
2,88
2,84
2,80
17
18
19
20
21
2,92
2,87
2,82
2,77
2,73
2,82
2,77
2,72
2,68
2,64
2,72
2,67
2,62
2,57
2,53
2,62
2,56
2,51
2,46
2,42
2,50
2,44
2,39
2,35
2,31
2,44
2,38
2,33
2,29
2,25
2,38
2,32
2,27
2,22
2,18
2,32
2,26
2,20
2,16
2,11
2,26
2,20
2,15
2,10
2,06
3,22
3,18
3,15
3,13
3,10
3,05
3,02
2,99
2,97
2,94
2,93
2,90
2,87
2,85
2,82
2,84
2,81
2,78
2,75
2,73
2,76
2,73
2,70
2,68
2,65
22
23
24
25
26
2,70
2,67
2,64
2,61
2,59
2,60
2,57
2,54
2,51
2,49
2,50
2,47
2,44
2,41
2,39
2,39
2,36
2,33
2,30
2,28
2,27
2,24
2,21
2,18
2,16
2,21
2,18
2,15
2,12
2,09
2,14
2,11
2,08
2,05
2,03
2,08
2,04
2,01
1,98
1,95
2,02
1,99
1,95
1,92
1,90
3,31
3,29
3,27
3,25
3,13
3,08
3,06
3,04
3,03
2,90
2,92
2,90
2,88
2,87
2,74
2,80
2,78
2,76
2,75
2,62
2,71
2,69
2,67
2,65
2,53
2,63
2,61
2,59
2,57
2,45
27
28
29
30
40
2,57
2,55
2,53
2,51
2,39
2,47
2,45
2,43
2,41
2,29
2,36
2,34
2,32
2,31
2,18
2,25
2,23
2,21
2,20
2,07
2,13
2,11
2,09
2,07
1,94
2,07
2,05
2,03
2,01
1,88
2,00
1,98
1,96
1,94
1,80
1,93
1,91
1,89
1,87
1,72
1,87
1,85
1,83
1,81
1,66
3,01
2,95
2,92
2,81
2,79
2,73
2,70
2,59
2,63
2,57
2,54
2,43
2,51
2,45
2,42
2,31
2,41
2,35
2,32
2,22
2,33
2,28
2,24
2,14
60
80
100
500
2,27
2,21
2,18
2,07
2,17
2,11
2,08
1,97
2,06
2,00
1,97
1,86
1,94
1,88
1,85
1,74
1,82
1,75
1,71
1,60
1,74
1,68
1,64
1,52
1,67
1,60
1,56
1,42
1,58
1,51
1,46
1,31
1,51
1,43
1,38
1,19
993,1 1001,4 1005,6 1009,8 1014,0 1017,2
39,45 39,46 39,47 39,48 39,49 39,50
14,17 14,08 14,04 13,99 13,95 13,91
8,56
8,46
8,41
8,36
8,31
8,27
6,33
6,23
6,18
6,12
6,07
6,03
5,17
5,07
5,01
4,96
4,90
4,86
Distribuição F - cauda da direita
Pr (F > Falfa(n1,n2)) = alfa
Nível de significância
- alfa =
n2 \
1
2
3
n1
1
4052 4999 5404
2
98,50 99,00 99,16
3
34,12 30,82 29,46
4
21,20 18,00 16,69
5
16,26 13,27 12,06
6
13,75 10,92
9,78
0,01
4
5
6
7
8
9
5624
99,25
28,71
15,98
11,39
9,15
5764
99,30
28,24
15,52
10,97
8,75
5859
99,33
27,91
15,21
10,67
8,47
5928
99,36
27,67
14,98
10,46
8,26
5981
99,38
27,49
14,80
10,29
8,10
6022
99,39
27,34
14,66
10,16
7,98
Nível de significância
- alfa =
n2 \
10
12
15
n1
1
6056 6107 6157
2
99,40 99,42 99,43
3
27,23 27,05 26,87
4
14,55 14,37 14,20
5
10,05
9,89
9,72
6
7,87
7,72
7,56
0,01
20
6209
99,45
26,69
14,02
9,55
7,40
30
40
6260 6286
99,47 99,48
26,50 26,41
13,84 13,75
9,38
9,29
7,23
7,14
60
120
500
6313
99,48
26,32
13,65
9,20
7,06
6340
99,49
26,22
13,56
9,11
6,97
6360
99,50
26,15
13,49
9,04
6,90
7
8
9
10
11
12,25
11,26
10,56
10,04
9,65
9,55
8,65
8,02
7,56
7,21
8,45
7,59
6,99
6,55
6,22
7,85
7,01
6,42
5,99
5,67
7,46
6,63
6,06
5,64
5,32
7,19
6,37
5,80
5,39
5,07
6,99
6,18
5,61
5,20
4,89
6,84
6,03
5,47
5,06
4,74
6,72
5,91
5,35
4,94
4,63
7
8
9
10
11
6,62
5,81
5,26
4,85
4,54
6,47
5,67
5,11
4,71
4,40
6,31
5,52
4,96
4,56
4,25
6,16
5,36
4,81
4,41
4,10
5,99
5,20
4,65
4,25
3,94
5,91
5,12
4,57
4,17
3,86
5,82
5,03
4,48
4,08
3,78
5,74
4,95
4,40
4,00
3,69
5,67
4,88
4,33
3,93
3,62
12
13
14
15
16
9,33
9,07
8,86
8,68
8,53
6,93
6,70
6,51
6,36
6,23
5,95
5,74
5,56
5,42
5,29
5,41
5,21
5,04
4,89
4,77
5,06
4,86
4,69
4,56
4,44
4,82
4,62
4,46
4,32
4,20
4,64
4,44
4,28
4,14
4,03
4,50
4,30
4,14
4,00
3,89
4,39
4,19
4,03
3,89
3,78
12
13
14
15
16
4,30
4,10
3,94
3,80
3,69
4,16
3,96
3,80
3,67
3,55
4,01
3,82
3,66
3,52
3,41
3,86
3,66
3,51
3,37
3,26
3,70
3,51
3,35
3,21
3,10
3,62
3,43
3,27
3,13
3,02
3,54
3,34
3,18
3,05
2,93
3,45
3,25
3,09
2,96
2,84
3,38
3,19
3,03
2,89
2,78
17
18
19
20
21
8,40
8,29
8,18
8,10
8,02
6,11
6,01
5,93
5,85
5,78
5,19
5,09
5,01
4,94
4,87
4,67
4,58
4,50
4,43
4,37
4,34
4,25
4,17
4,10
4,04
4,10
4,01
3,94
3,87
3,81
3,93
3,84
3,77
3,70
3,64
3,79
3,71
3,63
3,56
3,51
3,68
3,60
3,52
3,46
3,40
17
18
19
20
21
3,59
3,51
3,43
3,37
3,31
3,46
3,37
3,30
3,23
3,17
3,31
3,23
3,15
3,09
3,03
3,16
3,08
3,00
2,94
2,88
3,00
2,92
2,84
2,78
2,72
2,92
2,84
2,76
2,69
2,64
2,83
2,75
2,67
2,61
2,55
2,75
2,66
2,58
2,52
2,46
2,68
2,59
2,51
2,44
2,38
22
23
24
25
26
7,95
7,88
7,82
7,77
7,72
5,72
5,66
5,61
5,57
5,53
4,82
4,76
4,72
4,68
4,64
4,31
4,26
4,22
4,18
4,14
3,99
3,94
3,90
3,85
3,82
3,76
3,71
3,67
3,63
3,59
3,59
3,54
3,50
3,46
3,42
3,45
3,41
3,36
3,32
3,29
3,35
3,30
3,26
3,22
3,18
22
23
24
25
26
3,26
3,21
3,17
3,13
3,09
3,12
3,07
3,03
2,99
2,96
2,98
2,93
2,89
2,85
2,81
2,83
2,78
2,74
2,70
2,66
2,67
2,62
2,58
2,54
2,50
2,58
2,54
2,49
2,45
2,42
2,50
2,45
2,40
2,36
2,33
2,40
2,35
2,31
2,27
2,23
2,33
2,28
2,24
2,19
2,16
27
28
29
30
40
7,68
7,64
7,60
7,56
7,31
5,49
5,45
5,42
5,39
5,18
4,60
4,57
4,54
4,51
4,31
4,11
4,07
4,04
4,02
3,83
3,78
3,75
3,73
3,70
3,51
3,56
3,53
3,50
3,47
3,29
3,39
3,36
3,33
3,30
3,12
3,26
3,23
3,20
3,17
2,99
3,15
3,12
3,09
3,07
2,89
27
28
29
30
40
3,06
3,03
3,00
2,98
2,80
2,93
2,90
2,87
2,84
2,66
2,78
2,75
2,73
2,70
2,52
2,63
2,60
2,57
2,55
2,37
2,47
2,44
2,41
2,39
2,20
2,38
2,35
2,33
2,30
2,11
2,29
2,26
2,23
2,21
2,02
2,20
2,17
2,14
2,11
1,92
2,12
2,09
2,06
2,03
1,83
60
80
100
500
7,08
6,96
6,90
6,69
4,98
4,88
4,82
4,65
4,13
4,04
3,98
3,82
3,65
3,56
3,51
3,36
3,34
3,26
3,21
3,05
3,12
3,04
2,99
2,84
2,95
2,87
2,82
2,68
2,82
2,74
2,69
2,55
2,72
2,64
2,59
2,44
60
80
100
500
2,63
2,55
2,50
2,36
2,50
2,42
2,37
2,22
2,35
2,27
2,22
2,07
2,20
2,12
2,07
1,92
2,03
1,94
1,89
1,74
1,94
1,85
1,80
1,63
1,84
1,75
1,69
1,52
1,73
1,63
1,57
1,38
1,63
1,53
1,47
1,23
Estatística Industrial
10. Regressão linear múltipla
143
Download