“Pensar estatisticamente será um dia, para a eficiente prática da

Propaganda
Estatística Aplicada
“Pensar estatisticamente será um
dia, para a eficiente prática da
cidadania, tão necessário como a
habilidade de ler e escrever.”
H. G. Wells (Escritor, considerado o pai da moderna
Ficção Científica, 1895)
1
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Motivação das empresas para estudo e uso de
Estatística:
Foco no Processo: Um dos principais requisitos
da ISO 9001:2000
Fatores Controláveis
x1 x 2
...
xp
Entrada
Saída
Processo
z1 z2
...
y1
y2
ym
zq
Fatores Incontroláveis (ruído)
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
2
Estatística Aplicada
Y=f(X)+Z
X
•Pressão de ar air strip
•Pressão de ar air bag
•Pressão de ar front piston
•Pressão Hidráulica
•Temperatura
Aplicação: Pense
•Vazão de óleo Solúvel
em um problema
•Pressão do Nitrogênio
similar em sua
área de atuação
Exemplo de Processo
Processo Bodymaker de
fabricação de latas
Y
Z
•Espessura da parede Top Wall
•Operador
•Espessura da Parede Mid Wall
•Rede Elétrica
•Profundidade do Dome
•Qualidade da Bobina
•Altura da Lata
•Visualização
É complexo inferir sobre X,Y e Z sem Estatística!
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
3
Estatística Aplicada
Cone of Learning
DO THE
REAL
THING!
Faça anotações!
Aplicando os
conhecimentos na
sua área é a única
forma de
sedimentá-los!
4
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Recursos de Software
O uso de recursos computacionais
tornou os cálculos atividades fáceis
permitindo uma maior ênfase na
compreensão e interpretação dos
resultados
Statgame e Statquiz
(Interessante para verificar
o conhecimento básico)
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
5
Estatística Aplicada
www.minitab.com
www.e-academy.com
Pratique:
1.
Gere a planilha ao lado e entenda a diferença entre
Worksheet e Project. Observe o que é Session.
2.
Calcule as principais Estatísticas Descritivas da planilha
gerada.
Siga o caminho: <Stat> <Basic Statistics> <Graphical
Summary>
3.
Navegue no Statguide
4.
Navegue pelo Tutorial do Minitab
5.
Observe os ícones para Worksheet, Session, Show Graphs
Folder e Edit Last Dialog
6
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
6.
Gere uma série de 100 valores aleatórios que poderia
simular uma variabilidade em Temperatura;
Use <Calc> <Random Data> <Normal Distribution> e
inclua os parâmetros convenientes (Ex.: Média=100,
S=10).
7.
Calcule as principais estatísticas descritivas da planilha
usando Graphical Summary. Faça outros gráficos.
8.
Entenda o procedimento <Calc> <Set Base>?
9.
Salve a planilha na Desktop com um nome qualquer.
10. Feche o programa minitab e depois abra a planilha que
você salvou.
7
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Um bom Material de Apoio
Obtenha domínio
sobre o Minitab a
partir do arquivo
minitab.pdf.
8
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Uma ótima bibliografia:
Montgomery, D.C., Runger, G.C., Estatística
Aplicada e Probabilidade para Engenheiros, 2ª ed.,
LTC Livros Técnicos e Científicos, 2002, 461 p.
Não deixe de ler:
Fora de Série (Outliers) – Malcolm Gladwell –
Editora Sextante – Descubra por que algumas
pessoas tem sucesso e outras não
Uma Senhora Toma Chá – David Salsburg –
Editora Zahar – Como a estatística revolucionou
a ciência no século XX
9
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
SUMÁRIO
1 – Estatística Descritiva
2 – Distribuições de Probabilidade
3 – Estimação e Intervalos de Confiança
4 – Testes de Hipótese
5– Análise de Variância
6 – Correlação e Regressão
7– Testes de Independência
10
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
1 - Estatística Descritiva
“Deus não joga dados com o universo” (Albert Einstein)
“Os experimentos geralmente não são determinísticos” (Fisher)
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
11
Estatística Aplicada
Do que trata a Estatística
A essência da ciência é a observação.
Estatística: A ciência que se preocupa com a organização, descrição, análise e
interpretação dos dados experimentais. Ramo da Matemática Aplicada. A
palavra estatística provêm de Status.
Simulação / PO
Estatística Básica (Anova,
TH, Regressão)
DOE /Taguchi /RSM
Séries Temporais
Data Mining
Análise do Sistema de
Medição
Six Sigma
Estatística Multivariada
Redes Neurais
Amostragem / Pesquisa
Controle de Qualidade
Confiabilidade
Estatística Bayseana
Caos
Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
12
Estatística Aplicada
População e Amostra
™ A População (ou Distribuição) é a coleção de todas as
observações potenciais sobre determinado fenômeno.
™ O conjunto de dados efetivamente observados, ou
extraídos, constitui uma Amostra da população.
™Um Censo é uma coleção de dados relativos a Todos os
elementos de uma população.
™Um Parâmetro está para a População assim como uma
Estatística está para a Amostra.
13
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Tipos de Dados
(Também Dados Categóricos ou de Atributos)
Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Contínua
(Variáveis)
Ex.: Para uma população de peças produzidas em um determinado processo,
poderíamos ter:
Variável
Tipo
Estado: Perfeita ou defeituosa
Qualitativa Nominal
Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal
No de peças defeituosas
Quantitativa Discreta
Diâmetro das peças
Quantitativa Contínua
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
14
Estatística Aplicada
<Calc> <Random Data> Números Aleatórios
Aplicação: Gere sequências de valores aleatórios que represente
problemas em sua área.
O que significa o procedimento <Calc> <Set Base>?
Amostragem: Gere a sequência 1 2 3 ...100.
<Calc> <Make Patterned Data>
Selecione uma amostra com 10 valores a partir das sequências geradas
anteriormente.
Use <Calc> Random Data> <Sample from Column>
15
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
<Graphical Summary>
Ex.:Número de acessos à página do Site da Empresa
durante os últimos 100 dias úteis.
Aplicação:
Gere uma sequência de
dados que represente um
processo em sua área e
calcule as estatísticas
desse conjunto de dados.
Use:
<Random> e
<Graphical Summary>
16
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Medidas de Posição: Média
n
Aritmética Simples
x1 + x 2 ++...+
L + xn
x=
=
n
∑x
i =1
i
n
n
Aritmética Ponderada
x1 p1 + x2 p2 +...+
+L+ xn pn
x=
=
L+ pn
p1 + p2 ++...+
∑x p
i=1
n
i
i
∑p
i=1
i
Um pouco sobre arredondamento de médias:
‰ Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73
‰ Em várias operações, arredonde apenas o resultado final
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
17
Estatística Aplicada
Um Cidadão Americano “Médio”
‰ Chama-se Robert
‰ Pesa 78 Kg
‰ Manequim 48
‰ 85 cm de cintura
‰ Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de
batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.
‰ Vê TV por ano 2567 horas
‰ Recebe anualmente 585 “coisas” por correio (cartas e outros)
‰ Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e
trabalha 6,1 horas
18
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Se n é ímpar:
⎛ n + 1⎞
~
⎟ termo
x =⎜
⎝ 2 ⎠
o
Ex.:
Medidas de Posição: Mediana
Se n é par:
o
o
⎛n ⎞
⎛n⎞
⎜ ⎟ termo + ⎜ + 1⎟ termo
⎝2 ⎠
⎝2⎠
~
x=
2
{35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ x~ = 40
15 + 16
~
{12, 14, 14, 15, 16, 16, 17, 20} ⇒ x = 2 = 15,5
Mediana é o valor “do meio” de um conjunto de dados dispostos em
ordem crescente ou decrescente.
Inconveniente: Não considera todos os valores da amostra!
19
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ex.:
Média x Mediana
{ 200, 250, 250, 300, 450, 460, 510 }
x = 345,7
x~ = 300
Ambas são boas medidas
de Tendência Central.
Prefira a média
{ 200, 250, 250, 300, 450, 460, 2300 }
x
= 601
x~ = 300
Devido ao Outlier
2300, a mediana é
melhor estatística que
a média.
20
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Medidas de Dispersão
Rode e Entenda o
programa Interativo da
PQ Systems
Discuta:
1) Porque os bancos adotam fila única?
2) “Por favor, com quantos dias de antecedência eu
devo postar uma carta de aniversário para minha
mãe?”
21
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
A = { 3, 4, 5, 6, 7 }
B = { 1, 3, 5, 7, 9 }
C = { 5, 5, 5, 5 }
D = { 3, 5, 5, 7 }
E = { 3.5, 5, 6.5 }
Variabilidade
Uma medida de Posição não é
suficiente para descrever um conjunto
de dados. Os Conjuntos ao lado
mostram isso! Eles possuem mesma
média, sendo diferentes.
Algumas medidas de Variabilidade:
Amplitude (H): Tem o inconveniente de levar em conta apenas os
dois valores extremos:
HÁ =7-3=4
Amplitude=Range
22
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Medidas de Dispersão
Considerando os desvios em relação à média, temos, para A, por
exemplo:
{-2, -1, 0, 1, 2}
xi - x
A = { 3, 4, 5, 6, 7 }
n
n
n
∑ ( x − x ) =∑ x − ∑ x =nx − nx ≡ 0
Inconveniente:
i=1
i
i=1
i
i=1
Uma opção para analisar os desvios das observações é:
considerar o total dos quadrados dos desvios.
5
∑ (x
i =1
− x ) = 4 + 1 + 0 + 1 + 4 = 10
2
i
23
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Desvio Padrão
Associando ao número de elementos da amostra (n), tem-se:
.
n
∑ (x
S2
=
S = S2
i =1
i
− x)
2
...que é a Variância ( Var(x))
n
...que é o Desvio Padrão (DP(x)), uma
medida que é expressa na mesma unidade
dos dados originais
24
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
n
σ =
2
∑ (x − x )
i=1
Dispersão: Fórmulas Alternativas
n
2
i
n
=
∑x
i=1
n
∑ (x
2
i
n
Variância Populacional
(σ2 ou σn 2 )
−x
2
S =
2
i =1
i
− x)
2
n−1
Variância
Amostral
n-1 está
Relacionado a
um problema de
tendenciosidade
25
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo
Calcular a Variância e o Desvio Padrão de X
5
4
3
1
2
Uma Regra
Prática para
conjunto de dados
típicos:
S=Amplitude/4
(X − X )
X
X
Média
Média==33
X=
Soma dos pontos de dados
2
1
0
-2
-1
(X − X )
2
4
1
0
4
1
Número dos pontos de dados
S= S
2
Raiz
RaizQadrada
Qadrada
da
daVariância
Variância
==Desv.Pa.
Desv.Pa.==SS
==1,58
1,58
S2
Divide
DivideaaSoma
Soma
por
por(n-1):
(n-1):
22
==Variância
=
S
Variância = S
==2,5
2,5
Soma
Somada
da
última
últimacoluna
coluna
==10
10
26
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Expressões para Média e Variância
N
µ=
Média da População
∑X
i
i =1
N
N
Desvio Padrão da População
σ =
2
(X
µ
)
−
∑ i
i=1
N
n
x=
Média da Amostra
∑x
i=1
n
N
Desvio Padrão da Amostra
s=
i
∑ (X
i
−X)
2
i=1
N -1
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
27
Estatística Aplicada
Outlier ( fora da distância do Q3 + 1,5D )
Observação Máxima
75%
109
Q3=75ª Percentil
104
DBP
*
Outra Estratégia: Percentis e Boxplot
50%
99
D=Q3-Q1
94
25%
Interquartil
Q2=Mediana (50ª Percentil)
EDA (Exploratory Data
Analysis) e Método dos
Cinco Números
Q1=25ª Percentil
Boxplot é desgastante quando feito sem computador pois
supõe a ordenação de dados.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
28
Estatística Aplicada
Percentis e Boxplot
graficos.mtw
ÍValor do meio
3.(n+1)/4 0
2.(n+1)/4
Quartis:
0
Î Q1=Quarta Observação Crescente=71.7
Î Q3=Quarta Observação Decrescente=150.6
(n+1)/4 0
Para valores
não inteiros
dos quartis,
usa-se
interpolação
Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95
Î São outliers valores maiores que 268.95
29
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
xi − x
zi =
s
xi -
Escores padronizados (z)
x considera o afastamento de xi em relação à média.
A divisão por s torna s como unidade ou padrão de medida.
Ex.: Dois grupos de pessoas acusam os seguintes dados:
Nesses grupos há duas
Grupo Peso médio Desvio Padrão
pessoas que pesam
A
66.5 kg
6.38 kg
respectivamente, 81.2 kg e
B
72.9 kg
7.75 kg
88.0 kg.
81,2 − 66,5
88 − 72,9
em A : z A =
= 2,3 e em B : z B =
= 1,95
6,38
7,75
Logo, a pessoa de A revela um maior excesso relativo de peso.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
30
Distribuição Normal
Estatística Aplicada
z=
X : N (µ ;σ )
x−µ
Z: N(0; 1)
σ
ϕ(z)
Tal fórmula está tabelada e
fornece valores acumulados
Distribuião Normal
Reduzida ou Padronizada
-3
-2
-1
µ-3σ µ -2σ µ -σ
0
1
µ
2
3
µ+σ µ+2σ µ+3σ
z
x
Qual o formato da
curva acumulada?
N(0,1) é a
distribuição
Benchmark
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
31
Estatística Aplicada
Escores padronizados (z)
Uma mulher deu à luz um filho 308 dias após a visita de seu
marido que serve na marinha dos EUA. Sabendo-se que uma
gravidez normal tem média de 268 dias e desvio-padrão de 15
dias, determine se o tempo de gravidez da mulher pode ser
considerado comum.
O marido tem razão de se preocupar?
xi − x
zi =
s
32
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regra 68 -- 95 -- 99
Escores padronizados (z)
Regra 68 -- 95 -- 99
xi − x
zi =
s
9 Cerca de 68% dos valores estão a menos de 1 desvio padrão a
contar da média (-1 < z < 1)
9 Cerca de 95% dos valores estão a menos de 2 desvios padrão a
contar da média (-2 < z < 2)
9 Cerca de 99% dos valores estão a menos de 3 desvios padrão a
contar da média (-3 < z < 3)
33
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Skewness and Kurtosis
Assimetria (Skewness)
Próximo de 0: Simétrico
Menor que 0: Assimétrico à
Esquerda
Maior que 0: Assimétrico à
Direita
Achatamento (Kurtosis)
Próximo de 0: Pico Normal
Menor que 0: Mais achatada
que o Normal (Uniforme)
Maior que 0: Menos achatada
que o normal (Afinada)
34
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Assimetria, Percentis e Boxplot
35
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exercício
Encontre todas as estatísticas descritivas para a
série da tabela a seguir.
10
23
34
40
58
74
13
24
35
41
58
80
15
25
37
48
63
82
15
25
38
53
64
88
20
30
39
58
70
250
21
32
39
58
70
254
36
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição de Freqüências
Ex.: População = X=Diâmetro de determinada peça (em mm).
Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 }
Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 }
Amplitude (H) = 168 - 163 = 5
K
ni
fi
Ni
Fi
(Frequência
Absoluta)
(Frequência
Relativa)
(Frequência
Absoluta
Acumulada)
Frequência
Relativa
Acumulada)
163
1
0.1
1
0.1
164
3
0.3
4
0.4
X
∑n
1
i
=n
ni
fi =
n
K
165
2
0.2
6
0.6
168
4
0.4
10
1.0
Σ
10
1
∑f
i=1
i
=1
Ni
Fi =
n
37
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Classes (ou Categorias)
DISTRIBUIÇÃO DE FREQUÊNCIAS
x
xi
ni
fi
f%
(Variável)
(ponto
médio)
(frequência
absoluta)
(frequência
relativa)
(frequência
percentual)
10 ├ ─ 20
15
2
0.04
4
2
0.04
4
20 ├ ─ 30
25
12
0.24
24
14
0.28
28
30 ├ ─ 40
35
18
0.36
36
32
0.64
64
40 ├ ─ 50
45
13
0.26
26
45
0.9
90
50 ├ ─ 60
55
5
0.1
10
50
1.0
100
50
1
100
Σ
Ni
Fi
(Absoluta (Relativa
Acum.)
Acum.)
F%
(Percentual
Acum.)
38
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Classes (ou Categorias)
Estatística Aplicada
EXEMPLO – MÉDIA P/DADOS AGRUPADOS
x
xi
ni
(Variável) (ponto (frequência
médio) absoluta)
(Xi).(ni)
Média = X =
10 ├ ─ 20
15
2
30
20 ├ ─ 30
25
12
300
30 ├ ─ 40
35
18
630
40 ├ ─ 50
45
13
585
50 ├ ─ 60
55
5
275
50
1820
Σ
n
∑ x .n
i =1
n
i
i
∑n
i =1
i
1820
X=
= 36,4
50
39
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Histogramas
Construção da tabela de distribuição de
freqüências a partir do histograma de classes
desiguais.
Exercício: Complete a tabela.
ni
X
10
fi
|-- 20
8
10
6
20 |-- 30
4
ni
30 |-- 40
2
40 |-- 60
10
20
30
40
60
x
Σ
1
40
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Soma de Normais
Processo A
Processo B
Tempo Total (A+B)
?
3
X=3
s=1
7
X =7
s=2
S A +B =
2
SA
+
2
SB
=
2
(1) + (2)
2
=
5 = 2.23
≠ 1+ 2 = 3
Correto;
Some as
variâncias e
depois
obtenha o
Desvio
Padrão
Incorreto;
41
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Diferença de Normais
Linha A
Diferença:
Linha A – Linha B
Linha B
?
-10
0
-5
5
X = 3
s = 1
X A −B = X A - XB = 3 - 7 = - 4
2
2
2
2
SA – B = SA + SB = (1) + (2)
10
15
X = 7
s = 2
= 5 = 2.23
Correto
≠ 1 − 2= −1
Incorreto
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
42
Representação Gráfica:Ramo-e-folhas
Estatística Aplicada
⎯ x
Ramos ⎯ x x
⎯ x x x x x
graficos.mtw
Ex.:
Folhas
⎯ x x x
81
113
108
74
79
78
90
93
105
109
93
106
103
100
100
100
101
101
101
95
90
94
90
91
92
93
87
89
78
89
85
94
86
11
3
10
8
5
9
6
3
0
0
0
1 1
1
9
0
3
3
5
0
4
0
1
2 3
4
8
1
7
9
9
5
6
7
4
9
8
8
11
3
10+
8
5
9
6
10-
3
0
0
0
1
1
1
9-
0
3
3
5
0
4
0
8
1
7
9
9
5
6
7
4
9
8
8
1
2
3
4
43
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ramo-e-folhas
Stem-and-Leaf Display: folha_ramo
Obtendo o
seguinte Folha
e Ramo.
Compare os
resultados
fazendo um
Histograma.
O que
representa tal
coluna?
Stem-and-leaf of Ramo
Leaf Unit = 1.0
1
4
5
10
(10)
13
12
5
1
7
7
8
8
9
9
10
10
11
N = 33
4
889
1
Coluna
56799
0001233344 folha_ramo
5
0001113
5689
3
44
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Plot
Exercício no Minitab: Faça o gráfico
abaixo a partir dos dados seguintes.
45
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
<Marginal Plot>
Faça o gráfico
bidimensional a partir
dos dados a seguir
graficos.mtw
46
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Runchart
<Stat> <Quality Tools>
<Run Chart>
•Column=Tempo na fila
•Subgroup Size=1
runchart.mtw
™
Os dados representam uma série temporal
™
Tal gráfico é útil para ver a estabilidade de
um processo.
™
Control Chart é Melhor!
47
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Multi-Vari
•Identifica Diversos tipos de variação
•A análise de efeitos é similar em DOE
Sinter.mtw
•Permite identificar interações
•Não é o mesmo que Estatística Multivariada
TempoSinter
Use os
0,5
23,5
Dados a seguir
1,0
2,0
22,5
<Stat>
21,5
Força
<Quality Tools>
<Multi-Vari>:
20,5
19,5
Response: Força (y)
18,5
Factor1: TempoSinter (x1)
Factor2: TipoMetal (x2)
17,5
15
18
TipoMetal
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
21
48
Estatística Aplicada
Nível 0,5
x1 x2
y
0,5 15 23
0,5 15 20
0,5 15 21
0,5 18 22
0,5 18 19
0,5 18 20
0,5 21 19
0,5 21 18
0,5 21 21
Multi-Vari – Monte a Tabela
Nível 1,0
x1 x2
y
1
15 22
1
15 20
1
15 19
1
18 24
1
18 25
1
18 22
1
21 20
1
21 19
1
21 22
Nível 2,0
x1 x2 y
2
15 18
2
15 18
2
15 16
2
18 21
2
18 23
2
18 20
2
21 20
2
21 22
2
21 24
49
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
2 - DISTRIBUIÇÕES DE PROBABILIDADE
50
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Sumário
1 - Motivação
2 - Distribuições de Probabilidade
• Distribuições Contínuas
• Distribuição Discretas
51
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Motivação
•O reconhecimento da importância dos
processos estocásticos;
•A consideração da “Incerteza” associada aos
eventos;
•Exatidão na modelagem matemática;
•Correta determinação da probabilidade de
ocorrência dos fenômenos;
•A otimização de processos industriais e de
serviços através de técnicas de SIMULAÇÃO.
52
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
DISTRIBUIÇÕES DE PROBABILIDADE
53
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Formatos de Distribuições
54
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuições Contínuas de Probabilidade
f ( x )≥0
Área da curva é unitária
Probabilidade está
associada a área
∫
∞
−∞
f (x ) = 1
P(a ≤ X ≤ b ) = ∫ f ( x)dx
b
a
f(x) => fdp
Função densidade
de probabilidade
(b > a )
Algumas Distribuições Contínuas:
Normal Uniforme Chi-square Fisher(F) Student(t)
Beta Cauchy Exponential Gamma Laplace Logistic Lognormal Weibull
55
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição Normal
Estatística Aplicada
a)
∫
∞
−∞
f ( x )dx = 1
b) f ( x ) ≥ 0
f(x)
c) lim f ( x ) = 0
x→ ∞
e
lim f ( x ) = 0
x→ −∞
d ) f(µ + x) = f(µ - x)
µ
1
f ( x) =
e
σ 2π
µ+σ
⎡ x−µ ⎤
− (1 2 )⎢
⎥
⎣ σ ⎦
2
x
e) M áx f(x) o co rre em x = µ
f) O s p o nto s d e inflexão são x = µ ± σ
g ) E (X ) = µ
h) V a r(X ) = σ 2
56
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição Normal
Estatística Aplicada
Pouca Utilidade
Prática
Retorna a probabilidade
Acumulada
Retorna a Variável quando
é dada a probabilidade
acumulada
Exemplo
X:N(100,5)
P(X<=95)=0,1587
57
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição Normal
Estatística Aplicada
Se a dimensão de uma peça
segue uma distribuição Normal
X: N(80,3) qual a Probabiliade
de ter uma peça defeituosa de
acordo com a figura?
µµ
X : N (µ ;σ )
1σ
1σ
p(d)
TT
LSE
LSE
3σ
Used With Permission
© 6 Sigma Academy Inc. 1995
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
58
Estatística Aplicada
Distribuição Normal
Exercício 1:
Em uma população onde as medidas
tem Média 100 e Desvio Padrão 5,
determine a probabilidade de se ter
uma medida:
a)
Entre 100 e 115
Dica:
b)
Entre 100 e 90
c)
Superior a 110
d)
Inferior a 95
e)
Inferior a 105
Crie uma
coluna com
os valores
100 115...98
no Minitab
f)
Superior a 97
g)
Entre 105 e 112
h)
Entre 89 e 93
i)
98
Use: <Calc><Probability
Distribution><Normal>
Crie uma
coluna com
os valores
0,74...0,05
no Minitab
Exercício 2:
Em uma população onde as medidas tem
Média 100 e Desvio Padrão 5, determine
os valores k tais que se tenha a
probabilidade:
a)
P(X>k)=0,26
b)
P(X<k)=0,32
c)
P(100-k<100<100+k)=0,47
d)
P(x<100-k)+P(x>100+k)=5%
59
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exemplo
Um cliente tem um portfólio de investimentos cuja média é US$
500.000 com desvio padrão de US$ 15.000. Determine a
probabilidade de que o valor de seu portfólio esteja entre US$
485.000 e US$ 530.000.
zi =
xi − µ
σ
60
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exemplo
Se X tem distribuição normal N(15, 4), encontre a
probabilidade de X ser maior que 18.
Exemplo
Uma companhia produz lâmpadas cuja vida segue
uma distribuição normal com média 1.200 horas e
desvio padrão de 250 horas. Escolhendo-se
aleatoriamente uma lâmpada, qual é a
probabilidade de sua durabilidade estar entre 900 e
1.300 horas?
61
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exemplo
Um grupo de estudantes obtém notas que são normalmente
distribuídas com média 60 e desvio padrão 15. Que proporção
dos estudantes obtiveram notas entre 85 e 95?
Exemplo
No caso da prova do exercício anterior, determine a
nota acima da qual estão 10% dos melhores alunos
da classe.
62
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Escores padronizados (z)
Exercício
É sabido que a quantidade anual de dinheiro gasto em livros por
alunos de uma universidade, segue uma distribuição normal com
média $380 e desvio padrão de $50.
Qual é a probabilidade de que
um aluno escolhido
aleatoriamente no campus gaste
mais do que $ 360 por ano?
63
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Produção
Exercício
A demanda antecipada de consumo de um certo produto é
representada por uma distribuição normal com média 1.200
unidades e desvio padrão de 100.
a) Qual é a probabilidade de que as vendas
excedam 1.000 unidades?
b) Qual é a probabilidade de que as vendas
estejam entre 1.100 e 1300 unidades?
c) A probabilidade de se vender mais do que
k unidades é de 10%. Determine k.
64
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Investimentos
Exercício
Um portfólio de investimentos contém ações de um grande número
de empresas. Ao longo do último ano as taxas de retorno das ações
dessas corporações seguiram distribuição normal com média de
12,2% e desvio padrão de 7,2%.
a) Para que proporção de empresas o
retorno foi maior que 20%?
b) Para que proporção de empresas o
retorno foi negativo?
c) Que proporção de empresas tiveram
retornos entre 5% e 15%?
65
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Investimentos
Exercício
Considere dois investimentos. Em ambos, a taxa de retorno segue
uma distribuição normal, com média e desvio padrão conhecidos
conforme tabela a seguir. Deseja saber qual dos investimentos é
mais provável de produzir retornos de no mínimo 10%. Que
investimento deveria ser escolhido?
Média Desvio
Investimento A
10,4
1,2
Investimento B
11,0
4,0
66
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Probabilidades e Finanças
Exercício
Um portifólio de investimentos contém ações de um grande número
de empresas. Ao longo do último ano as taxas de retorno das ações
dessas corporações seguiram distribuição normal com média de
12,2% e desvio padrão de 7,2%.
a) Para que proporção de empresas o
retorno foi maior que 20%?
b) Para que proporção de empresas o
retorno foi negativo?
c) Que proporção de empresas tiveram
retornos entre 5% e 15%?
67
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Uniforme
+∞
+∞
−∞
−∞
µ = E ( X ) = ∫ xf ( x)dx σ 2 = Var ( X ) =
2
(
)
x
−
µ
f ( x) dx
∫
A =1
A = b.h = (b − a ) f ( x) = 1
F(x)
a
1
f ( x) =
(b − a )
b
1
a+b
dx =
µ = E(X ) = ∫ x
b−a
2
a
b
σ 2 = Var ( X ) =
+∞
2
(
)
−
x
µ
∫
−∞
⎡ ⎛ a + b ⎞⎤ ⎛ 1 ⎞
(
b − a)
f ( x)dx = ∫ ⎢ x − ⎜
⎟⎥ ⎜
⎟dx =
12
⎝ 2 ⎠⎦ ⎝ b − a ⎠
− ∞⎣
68
+∞
2
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
2
Estatística Aplicada
Distribuição Exponencial
Função Exponencial
0
0,06
f ( x ) = λ.e
0,05
− λxi
F(x)
0,04
0,03
0,02
0,01
0,00
0
0
20
40
60
80
100
120
140
x
∞
1
− λx
(
)
µ = E X = ∫ xλe dx =
λ
0
σ 2 = Var ( X ) =
+∞
2
(
)
x
−
µ
∫
−∞
+∞
2
⎡ ⎛ 1 ⎞⎤
1
− λx
f ( x )dx = ∫ ⎢ x − ⎜ ⎟⎥ λe dx = 2
λ
⎝ λ ⎠⎦
0 ⎣
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
69
Estatística Aplicada
Distribuição Weibull
Weibull
0
1,0
Variable
C 7 * Weibull 1 1
C 8 * Weibull 3,4 2
C 9 * Weibull 4,5 6.2
Y-Data
0,8
β ⎛x⎞
f (x ) = ⎜ ⎟
δ ⎝δ ⎠
β −1
e
⎛x⎞
−⎜ ⎟
⎝δ ⎠
β
0,6
0,4
0,2
0,0
0
0
2
4
6
8
10
X-Data
70
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Uniforme
Exemplo
A espessura de um componente é uma variável aleatória
uniformemente distribuída entre os valores 0,95 a 1,05 cm.
a) Determine a proporção de componentes
que excedem a espessura de 1,02 cm.
b) Qual é o valor de espessura que é excedida
por 90% dos componentes?
c) Qual é o valor da espessura abaixo da qual
estão 75% dos componentes?
71
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Uniforme
Exemplo
Suponha que uma variável aleatória seja uniformemente distribuída
no intervalo [1.5; 5.5].
a) Determine a probabilidade de x ser menor
que 2,5.
b) Qual é a probabilidade de x ser maior que
3,5?
c) Determine o valor de k, de modo que a
probabilidade de x ser maior que k seja de
40%
72
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Exponencial
Exemplo
Considere o seguinte conjunto de dados: [26, 22, 21, 19, 8, 4].
Ajustando estes dados por distribuição exponencial, determine:
a) A probabilidade de uma v.a. x ser menor
que 10.
b) A probabilidade de uma v.a. x ser menor
que 5.
c) P(5< x < 10).
73
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Exponencial
Exemplo
Suponha que X tem uma distribuição exponencial com média igual
a 10. Determine:
a) A probabilidade de uma v.a. x ser maior
que 10.
b) A probabilidade de uma v.a. x ser menor
que 20.
c) Encontre k tal que P(X<k)=0,95
74
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre as chamadas telefônicas para uma loja de
suprimentos é distribuído exponencialmente com um tempo médio
de 15 minutos entre as chamadas. Determine:
a) A probabilidade de não haver chamadas por um
período de 30 minutos.
b) A probabilidade de que no mínimo uma chamada
chegue dentro do intervalo de 10 minutos.
c) A probabilidade de que a primeira chamada chegue
entre 5 e 10 minutos.
d) O intervalo de tempo, tal que exista uma
probabilidade de 90% de haver no mínimo uma
chamada no intervalo.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
75
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre as chegadas de ônibus a uma estação rodoviária é
distribuído exponencialmente, com média 10 min. Determine:
a) x, tal que a probabilidade de vc esperar
mais de x minutos seja de 10%.
b) x, tal que a probabilidade de vc esperar
menos de x minutos seja de 90%.
c) x, tal que a probabilidade de vc esperar
menos de x minutos seja de 50%.
76
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre a chegada de e-mails em seu computador é
distribuído exponencialmente com média igual a duas horas.
Determine:
a) Qual a probabilidade de vc não receber
uma mensagem durante o período de
duas horas?
b) Se vc não tiver recebido uma
mensagem na últimas quatro horas,
qual será a probabilidade de vc não
receber mensagens nas próximas duas
horas?
77
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Exponencial
Exemplo
O tempo entre as chamadas para o escritório do CEO de uma
corporação é exponencialmente distribuído com média igual a 10
minutos. Determine:
a) Qual a probabilidade de não haver
chamadas dentro de meia hora?
b) Se a secretária do CEO se ausentar por
5 minutos, qual será probabilidade dela
não atender (e repassar) uma
“importante” ligação para o chefe?
78
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Discretas de Probabilidade
f ( xi )≥0
Algumas Distribuições
Discretas
A Distribuição Binomial
A Distribuição de Poisson
A soma das
frequências é
unitária
n
∑ f (x ) = 1
i =1
i
A Distribuição Geométrica
A Distribuição de Pascal
A Distribuição Multinomial
A Distribuição Hipergeométrica
P( X = xi ) = f ( xi )
A probabilidade
é a frequência
79
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Binomial
Use o programa
Statdisk
<Analysis>
<Probability
Distribution>
<Binomial
Distribution>
Observe em <Options> os valores acumulados
80
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Binomial
⎛
n! ⎞ x
⎟⎟ p (1 − p ) n − x x = 0,1,2,...n
P ( X = x ) = ⎜⎜
⎝ x!(n − x )! ⎠
=0
para outros valores
E(X) = np e
Var (X) = npq
Ex.: A probabilidade de um teste “Burn in / Burn out”
queimar um componente eletrônico é 0,2 (p). Colocando-se
três (n) componentes sob teste, qual a probabilidade de que
pelo menos dois deles (x) se “queime”?
81
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Binomial
E = {QQQ, QQN, QNQ, NQQ, NNQ, NQN, QNN, NNN}
onde Q e N representam a queima ou não do componente
x
P(x)
0
P{NNN} = P(X = 0) = q3 = (0.8)3
1
P{NNQ} + P{NQN} + P{QNN} = P(X = 1) = 3pq2 = 3(0.2)(0.8)2
2
P{QQN} + P{QNQ} + P{NQQ} = P(X = 2) = 3p2q = 3(0.2)2(0.8)
3
P{QQQ} = P(X = 3) = p3 = (0.2)3
X: Número de Queimas Q
P(X ≥ 2) = P(X=2) + P(X= 3) = 3p2q + p3 = 0.104 = 10,4%
82
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição Binomial
Exercício:
Suponha que uma válvula eletrônica, instalada em determinado
circuito, tenha probabilidade 0.2 de funcionar durante o tempo de
garantia. São ensaiadas 20 válvulas.
a) Qual a probabilidade de que delas, exatamente k,
funcionem durante o tempo de garantia (k = 0, 1, 2, ...
20)?
b) Qual a probabilidade de que 4 funcionem durante o
tempo de garantia?
c) Qual o número médio e o desvio padrão de válvulas que
irão funcionar durante o tempo de garantia?
X ≡ Número de válvulas que funcionam durante o tempo de garantia.
p = 0.2
X = 0, 1, 2, ... 20
83
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição Binomial
Estatística Aplicada
P(X = x)
⎛n⎞ x
P( X = x ) = ⎜⎜ ⎟⎟ p (1 − p ) n − x x = 0,1,2,Ln
⎝ x⎠
=0
para outros valores
E(X) = np e
Var (X) = npq
com média E(x) = np = 20.(0.2) = 4
.
e desvio padrão npq = 1788
⎛ 20 ⎞
k
20 − k
P ( X = k ) =⎜⎜ ⎟⎟(0.2 ) (0.8)
⎝k ⎠
0 1 2 3 4 5 6 7 8 9
18
x
84
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição Binomial
Estatística Aplicada
Exercício: Complete a tabela referente a Distribuição Binomial a seguir:
n
p
k
4
0,2 2
8
0,5 4
12
0,7 3
20
0,8 12
P(X=k)
F(k)
P(X>k) P(X<k) E(x)
100 0,6 63
85
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição Binomial
Estatística Aplicada
n
p
k P(X=k)
F(k)
P(X>k) P(X<k) E(x)
4
0,2 2
0,1536 0,1536 0,0272
0,8192
0,8
8
0,5 4
0,2734 0,2734 0,3633
0,0899
4
12 0,7 3
0,0015 0,0015 0,9983
0,0002
8,4
20 0,8 12 0,0222 0,0222 0,9679
0,0099
16
100 0,6 63 0,0682 0,0682 0,2386
0,6932
60
86
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição
Hipergeométrica
Ex.: Pequenos motores elétricos são expedidos em lotes de 50
unidades. Antes que uma remessa seja aprovada, um inspetor
escolhe 5 desses motores e os inspeciona. Se nenhum dos
motores inspecionados for defeituoso, o lote é aprovado. Se um
ou mais forem verificados defeituosos, todos os motores da
remessa são inspecionados. Suponha que existam, de fato, três
motores defeituosos no lote. Qual a probabilidade de que a
inspeção 100% seja necessária?
⎛ 3⎞ ⎛ 47⎞
⎜ ⎟⎜ ⎟
⎝ 0⎠ ⎝ 5 ⎠
≅ 0.28
P( X ≥ 1) = 1 − P( X = 0) = 1 −
⎛50⎞
⎜ ⎟
⎝5⎠
87
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição
Hipergeométrica
P(X ≥1) =1− P(X = 0)
88
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição de Poisson
Estatística Aplicada
e − λ λk
P( X = k ) =
X = 0 , 1, 2,L
k!
λ = µ = np σ = µ = np
Ex.: Em uma experiência de laboratório passam, em média, por
um contador, quatro partículas radioativas por milissegundo.
Qual a probabilidade de entrarem no contador seis partículas em
determinado milissegundo?
Utilizando a distribuição de Poisson com λ = 4, então:
−4
6
e 4
= 0.1042
P( X = 6) =
6!
No Minitab use: <Calc> <Probability Distribution> <Poisson>
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
89
Estatística Aplicada
Distribuição de Poisson
Use o programa
Statdisk
<Analysis>
<Probability
Distribution>
<Poisson
Distribution>
Observe em <Options> os valores acumulados
90
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição de Poisson
Estatística Aplicada
Exercício: Complete a tabela referente à Distribuição Poisson:
Média
k
4
2
8
4
12
3
20
12
100
63
P(X=k)
F(k)
P(X>k)
P(X<k)
91
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição de Poisson
Ex.: Chegam, em média, 10 naviostanque por dia a um movimentado
porto, que tem capacidade para 15
desses navios. Qual a probabilidade
de que, em determinado dia, um ou
mais navios tanque tenham de ficar ao
largo, aguardando vaga?
Temos aqui que, para λ = 10:
P ( X > 15) = 1 − P ( X ≤ 15) = 1 − 0.9513 = 0.0487
92
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição de Poisson
Ex.: Uma central telefônica recebe em média
300 chamadas por hora e pode processar no
máximo 10 ligações por minuto. Estimar a
probabilidade de a capacidade da mesa ser
ultrapassada.
Temos agora:
λ = 300/60 = 5 chamadas/minuto em média
P ( X > 10) = 1 − P ( X ≤ 10) = 1 − 0.986 = 0.014 = 1,4%
93
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição de Poisson
Estatística Aplicada
Aproximação da Distribuição Binomial
Seja X uma v.a. distribuída binomialmente com parâmetro p
(baseado em n repetições de um experimento). Isto é,
⎛n⎞ k
n−k
P( X = k) =⎜ ⎟ p (1− p)
⎝k⎠
Admita-se que quando n → ∞, p →0 e np → λ.
Nessas condições é possível demonstrar uma importante consideração:
e−λλk
limP(X = k) =
n→∞
k!
94
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição de Poisson
Aproximação da Distribuição Binomial
Ex.: A probabilidade de um indivíduo ter reação negativa a certa
injeção é de 0,001. Determinar a probabilidade de que de 2.000
indivíduos injetados, exatamente 3 tenham reação negativa.
Usando a distribuição binomial com n = 2.000 e p = 0.001 temos:
⎛ 2000 ⎞
⎟⎟(0.001) 3 (0.999)1997
P ( X = 3) = ⎜⎜
⎝ 3 ⎠
O cálculo desses números dá origem a considerável dificuldade. Pela
aproximação de Poisson temos:
−2 3
e
2
α = np = (2000)(0.001) = 2
P( X = 3) =
= 0.1804
3!
95
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Distribuição de Poisson
Estatística Aplicada
Aproximação da Distribuição Binomial
Ex.: Consideremos um experimento binomial com n = 200, p = 0.04
em que se pede a probabilidade de, no máximo, 5 sucessos.
O cálculo direto é impraticável, usando a Distribuição Binomial
⎛ 200 ⎞
⎟⎟(0.04) k (0.96) 5− k
P( X ≤ 5) = ∑ ⎜⎜
k =0 ⎝ k ⎠
5
λ = np = (200) (0.04) = 8
P(X ≤ 5) = 0.1912 Obtido de Tabela (ou micro)
96
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Distribuição de Poisson
Ex.: A probabilidade de um indivíduo ter reação negativa a certa
injeção é de 0,001. Determinar a probabilidade de que de 2.000
indivíduos injetados, mais de quatro tenham reação negativa.
α = np = (2000)(0.001) = 2
P( X > 4 ) = 1 − [ P( X = 4 ) + P( X = 3) + P( X = 2 ) + P( X = 1) + P( X = 0 )]
⎡ e − 2 2 4 e − 2 23 e − 2 2 e − 2 2 0 ⎤
= 1− ⎢
+
+
+
⎥
4
!
3
!
1
!
0
!
⎣
⎦
8 4
⎤
− 2 ⎡ 16
= 1 − e ⎢ + + + 2 + 1⎥ = 0.0526
⎣ 24 6 2
⎦
97
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
3 - Estimação de Parâmetros e Intervalos de
Confiança
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Estimação de Parâmetros e IC
Idéia Central:
Criar e avaliar intervalos de Confiança
para dados amostrais.
Tópicos abordados:
• Inferência Estatística
• O Teorema Central do Limite
• Intervalos de Confiança
• A Distribuição t de Student.
99
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
População
Ex.: Para a
distribuição
normal os
parâmetros são
µ e σ2.
Estimação de
Parâmetros Noções
Amostragem
Estimação de parâmetros
Inferência
e escolha da Distribuição
Estatística
Cálculo de Probabilidades
(Usando a Distribuição acima)
Os termos
população e
distribuição são
equivalentes.
Informação para
tomada de decisão
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
100
Estatística Aplicada
Nomenclatura
101
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
O Teorema Central do Limite
“Para uma população não normal com média µ e
desvio padrão σ, a distribuição da média
amostral X
para amostras de tamanho n
suficientemente grande é aproximadamente
normal com média µ e desvio padrão σ n ,
isto é:
X − µ ~ N : (0,1)”
Ζ=
σ
n
Ou seja:
Se X:(µ, σ) então a distribuição amostral de X é N(:(µ, σ
n)
102
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
TCL
“Para uma população normal com média µ e
desvio padrão σ, a média amostral X para amostras
de tamanho n suficientemente grande é
aproximadamente normal com média µ e desvio
padrão σ n , isto é:
Ou seja:
X −µ
~ N : (0,1)”
Ζ=
σ n
Se X:N(µ, σ) então a média amostral de X é N:(µ,
Erro Padrão = Standard Error=SE=
σ
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
σ
n
n)
103
Estatística Aplicada
IC ( µ :95%) ... para Sigma conhecido
Consideremos uma população normal com média µ, desvio padrão σ e uma
amostra dessa população.
X −u
σ n
Fixando α em 0.05,
ou seja, 1- α=0.95,
~ N : (0,1)
Pelos resultados do Teorema do
Limite Central
0.95
P (−1.96 < Z < 1.96) = 0.95
0.025
0.025
X
-1.96
0
1.96
z
104
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Confiança e Significância
Estatística Aplicada
População normal com média µ e desvio padrão σ
Pelos resultados do TCL:
X −u
σ n
α : Nível de significância
1- α: Nível de confiança
~ N : (0,1)
P (−1.96 < Z < 1.96) = 0.95
⎡
⎤
X −µ
P⎢− 1.96 <
< 1.96⎥ = 0.95
σ n
⎣
⎦
[
]
[θˆ ;θˆ ] = [X − 1.96(σ n ); X + 1.96(σ n )] =IC (µ :95%)
P X − 1.96(σ
0
n ) < µ < X + 1.96(σ
n ) = 0.95
1
105
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
[
IC - Interpretação
P X − 1.96(σ
n ) < µ < X + 1.96(σ
]
n ) = 0.95
Ela não significa que a
probabilidade
do
parâmetro µ cair dentro
de
um
intervalo
especificado seja igual a
0.95.
µ
sendo
o
parâmetro, está ou não,
dentro do intervalo.
θ
“0.95 é a probabilidade de que um
intervalo aleatório contenha µ .”
106
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
IC ( µ :95%) ... para Sigma Desconhecido
[
(
IC ( µ : (1 − α )100 ) = X − tα 2 S
)
(
n ; X + tα 2 S
n
)]
1 n
2
S =
(
X
−
X
)
∑
i
n − 1 i =1
(X − µ)
t=
S n
2
1-α
α/2
α/2
t
- tα/2
0
tα/2
107
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
“Distribuição t de
Student”, com v
graus de liberdade
v=n-1
(Distribuição t de Student)
( X − µ)
t=
S n
1 n
2
S =
(
X
−
X
)
∑ i
n − 1 i =1
2
Normal
hv(t)
Tal distribuição é
usualmente tabelada para
alguns valores de v e α
t
108
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Intervalos de Confiança para PROPORÇÕES
Exemplo
Uma amostra aleatória de 85 camisas, 10 apresentaram algum tipo
de defeito (furos, manchas, costuras soltas etc). Construa um
intervalo de confiança de 95% para a proporção populacional de
defeituosos.
pˆ − Zα 2
pˆ (1 − pˆ )
≤ p ≤ pˆ + Zα 2
n
pˆ (1 − pˆ )
n
Usando a aproximação pela NORMAL.
109
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Tamanho de Amostra
Exemplo
Um candidato político deseja avaliar se as
suas intenções de votos são maiores do
que as do concorrente, com uma margem
de pelo menos 5%. Possui, na última
pesquisa realizada, 35% da preferência
do eleitorado.
Admitindo a = 1% e b = 5%, qual o tamanho
de amostra necessária?
110
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Power and Sample Size
selecionar: Stat > Power and Sample Size > 2 Proportions
“Proportion 1 values”: < 0,35 >
“Power values”: < 0,95 >
“Proportion 2”: < 0,30 >
selecionar: Options
marcar “Greater Then”
“Significance level”: < 0,01 >
OK
OK
111
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
4 – TESTES DE HIPÓTESE
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Experimentos
Comparativos Simples
Idéia Central:
Estudar os experimentos
envolvendo Teste de Hipóteses
para um e dois tratamentos.
Tópicos abordados:
• Teste de Hipóteses
113
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplos:
• Duas linhas de produção supostamente
idênticas estão apresentando resultados
diferentes. Como confirmar isso?
• A variabilidade de um processo é maior
que outro. Temos certeza?
• Os dados estão normalmente
distribuídos?
• Como saber estatisticamente se dois
funcionários tem o mesmo desempenho?
114
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Decisão Estatística
Um produto original é identificado pelo seu peso (em
libras) e reconhecidamente segue uma distribuição
normal N(50; 0.8).
Do mesmo modo, produtos falsificados tem pesos
significativamente maiores que 50 lb, seguindo
distribuição também normal N(52, 0.8).
Uma amostra aleatória revelou
um peso médio de 51,3 lb.
Baseado nesta amostra a que
conclusões se pode chegar?
115
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
• Qual é a probabilidade de que (em função da amostra)
um produto original seja classificado como Falso?
• Qual a probabilidade de que o produto original seja
corretamente identificado?
• Qual a probabilidade de que um produto falsificado seja
classificado como original?
• Qual é a probabilidade de se detectar produtos
falsificados neste caso?
116
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
50
52
100
80
60
40
20
0
48
49
50
51
52
53
54
117
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
50
51,3
52
100
80
60
40
20
0
48
49
50
51
52
53
54
118
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
50
51,3
52
100
80
60
40
5%
Erro Tipo 1
(Alfa)
20
0
48
49
50
51
52
53
54
119
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
50
51,3
52
100
80
60
40
19%
Erro Tipo 2
(Beta)
20
0
48
49
5%
Erro Tipo 1
(Alfa)
50
51
52
53
54
120
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
50
51,3
52
100
80
CONFIANÇA
(1-Alfa)
60
40
19%
Erro Tipo 2
(Beta)
20
0
48
49
5%
Erro Tipo 1
(Alfa)
50
51
52
53
54
121
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
50
51,3
52
100
80
POWER
(1-Beta)
CONFIANÇA
(1-Alfa)
60
40
19%
Erro Tipo 2
(Beta)
20
0
48
49
5%
Erro Tipo 1
(Alfa)
50
51
52
53
54
122
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
• Na afirmação: “Uma pessoa é considerada
inocente até que se prove o contrário pois é um erro
maior condenar um inocente do que libertar um
culpado.”, defina:
• Erros Tipo I e Tipo II
• Hipóteses Nula e Alternativa
H0: o réu é inocente (hipótese fundamental)
H1: o réu é culpado (hipótese alternativa)
123
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Hipóteses e Erros
Estatística Aplicada
Os erros de julgamento poderiam
ser : condenar um réu inocente ou,
então, absolver um réu culpado.
REALIDADE
H0 verdadeira
H0 falsa
aceitar
H0
decisão correta
1-α
erro tipo II
β
rejeitar
H0
erro tipo I
α
decisão correta
1-β
DECISÃO
124
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Tipos de Erros
Estatística Aplicada
• ERRO DO TIPO I
Rejeitar Ho sendo Ho verdadeira
P(Erro I) = P(rejeitar Ho|Ho é verdadeira) = α
• ERRO DO TIPO II
Não rejeitar Ho sendo Ho falsa
P(Erro II) = P(não rejeitar Ho|Ho
é falsa) = β
125
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Construção de T.H.
1) Definir as hipóteses;
2) Escolher a estatística de teste adequada;
3) Escolher α e estabelecer a Região Crítica (RC);
4) Com base em uma amostra de tamanho n, extraída da
população, calcular θ;
5) Rejeitar Ho caso θ ∈ RC. Não rejeitar Ho em caso
contrário.
No Minitab: Análise do P-value !
126
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Testes Paramétricos
Testes de Hipóteses Estatísticas
Os testes de hipóteses em Estatística podem ser
empregados para avaliar ou comparar:
•
•
•
•
médias;
variâncias (ou desvios-padrão);
proporções;
distribuições de probabilidade e correlação.
Estas análises podem se do tipo “igual”, “menor
que” ou, ainda, “maior que”.
127
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
TH p/ Média
• Para avaliar médias, empregam-se dois
diferentes tipos de testes: z ou t.
• o teste z é empregado somente se o desviopadrão da população (s) é conhecido (caso
pouco provável);
• o teste t é utilizado nas demais
circunstâncias e, por isso, este é que será
visto no curso.
128
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ex.
The production manager of a company has asked
you to evaluate a proposed new procedure for
producing its double-hung windows. The present
process has a mean production of 80 units per
hour with a population standard deviation of 8
units. The manager indicates that she does not
want to change to a new procedure unless there is
strong evidence that the mean production level is
higher with the new process.
A random sample of 25 units revealed the sample mean was 83. Based
on this sample, is there strong evidence to support the conclusion that
the new process resulted in higher productivity?
129
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
⎧ H 0 : µ ≤ 80
X − µ0
Z=
⎪
σ n
⎨
⎪ H : µ > 80
⎩ 1
130
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
P-Value
Estatística Aplicada
•P-Value é a área ou
probabilidade que fica
acima (ou abaixo) do
valor obtido
experimentalmente.
P-Value = P(1-Ø)
Quanto menor o PValue, menor será
a chance de
se
cometer um erro do
tipo 1!
131
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Alfa
132
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Unilateral e Bilateral
Estatística Aplicada
Teste Unilateral Esquerdo
A2
α
A1
P-Value = A1ÎAceita-se Ho
P-Value = A2ÎRejeita-se Ho
A1
Teste Unilateral Direito
α
A2
P-Value = A1ÎAceita-se Ho
P-Value = A2ÎRejeita-se Ho
Teste Bilateral
α/2
A2
A1
P-Value = A1+A2
133
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo
A manufacturing process involves drilling holes
whose diameters are normally distributed with
population mean of 2 inches and population
standard deviation 0.06 inches. A random sample
of 9 measurements had a sample mean of 1.95
inches. Use a significance level of 5% to
determine if the observed sample mean is unusual
and suggests that the drilling machine should be
adjusted.
X − µ0
⎧H 0 : µ = 2
Z=
⎨
σ n
⎩ H1 : µ ≠ 2
134
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
EXERCÍCIOS
Question 1:
A company which receives shipments of batteries
tests a random sample of nine of them before
agreeing to take a shipment. The company is
concerned that the true mean lifetime for all
batteries in the shipment should be at least 50
hours. From past experience, it is safe to conclude
that the population distribution of lifetimes is
normal, with standard deviation of 3 hours. For
one particular shipment, the mean lifetime for a
sample of nine batteries was 48.2 hours. Test at
5% level the null hypothesis that the population
mean lifetime is at least 50 hours.
135
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
EXERCÍCIOS
Estatística Aplicada
Question 2:
An engineering research center claims that through the use of a
new computer control system, automobiles should achieve on
average an additional 3 miles per gallon of gas. A random sample
of 100 automobiles was used to evaluate this product. The sample
mean increase in miles per gallon achieved was 2.4 and the
sample standard deviation was 1.8 miles per gallon.
Test the hypothesis that the population
mean is at least 3 miles per gallon using
5% significance level. Find the P-value of
this test, and interpret your findings.
136
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
EXERCÍCIOS
Question 3:
A beer distributor claims that a new
display, featuring a life-size picture of a
well-known rock singer, will increase
product sales in supermarkets by an
average of 50 cases in a week. For a
random sample of 20 liquor weekly sales,
the average sales increase was 41.3
cases and the sample standard deviation
was 12.2 cases. Test at the 5% level the
hypothesis that the population mean sales
increase is at least 50 cases.
137
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
EXERCÍCIOS
Question 4:
In contract negotiations, a company claims that a
new incentive scheme has resulted in
average weekly earning of at least $400 for all
customer service workers. A union
representative takes a random sample of 15
workers and finds that their weekly earnings
have an average of $381.25 and a standard
deviation of $48.60. Assume a normal
distribution.
a)
b)
Test the company’s claim;
If the same sample results had been obtained
from a random sample of 50 employees,
could the company’s claim be rejected at a
lower significance level than in part (a)?
138
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
EXERCÍCIOS
Question 5:
A bearing used in an automotive application is supposed to have a
nominal inside diameter of 1.5 inches. A random sample of 25 bearings
is selected and the average inside diameter of these bearing is 1.4975
inches. Bearing diameter is known to be normally distributed with
standard deviation 0.01 inch. Test the null hypothesis using a two-sided
approach and considering.
139
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
EXERCÍCIOS
Question 6:
A process that produces bottles of
shampoo, when operating correctly,
produces bottles whose contents
weigh, on average, 20 ounces. A
random sample of nine bottles from a
single production run yielded the
following content weights (in ounces):
21,4 19,7 19,7 20,6 20,8 20,1 19,7 20,3 20,9.
Assuming that the population distribution is normal, test at
the 5% level against a two-sided alternative the null
hypothesis that the process is operating correctly.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
140
Estatística Aplicada
Exemplo 1Z
A Resistência ao Estufamento das latas
para a inspeção final deve ser maior que
90 psi. Tal resistência obedece a uma
distribuição normal com desvio padrão
de 1 psi . As medidas da Resistência para
uma determinada linha/turno estão dadas
na planilha Resistência.MTW
Teste a Hipótese de que as medidas da
Resistência ao Estufamento estão dentro
do limite de especificação. (Prove que as
medidas são maiores que 90)
Gere: N(91; 0.83)
141
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
•TH - Proporções
Estatística Aplicada
H0 : π ≥ π0
H0 : π ≤ π0
H0 : π = π0
H1 : π < π0
H1 : π > π0
H1 : π ≠ π0
T.U.E
T.U.D
H0 : π1 ≥ π 2
H0 : π1 ≤ π 2
H0 : π1 = π 2
H1 : π1 < π 2
H1 : π1 > π 2
H1 : π1 ≠ π2
T.U.D
Bilateral
T.U.E
Bilateral
Onde: π é a proporção populacional e π0 é uma constante
142
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Exemplo – 1 Proportion
Estatística Aplicada
Em uma indústria de autopeças, historicamente 3,5% das
peças produzidas contém algum tipo não-conformidade.
Uma equipe está trabalhando na redução desta
incidência de defeitos e, no último mês, foram produzidas
1500 peças e somente 45 estavam fora da especificação.
A equipe obteve melhoria no desempenho ?
H 0 : π ≥ 0,035
H1 : π < 0,035
143
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
<Stat > <Basic Statistics > <1 Proportion>
Selecione Summarized data
“Number of trials”: 1500
45
p=
= 3,0%
“Number of successes”: 45
1500
Options
“test proportion”: < 0,035 >
π0
“alternative”: < less than >
144
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Uma equipe deseja aumentar a porcentagem (ou
proporção) de pedidos aceitos pelos clientes.
A equipe acredita ter identificado uma das causas de
perdas de pedidos que é o prazo elevado para envio
da cotação ao cliente. Conseguiram reduzir este
tempo e os resultados das últimas 10 semanas estão
fornecidos no arquivo pedidos.mtw.
Qual é a conclusão ?
145
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
2 Proportions
<Stat > <Basic Statistics > <2 Proportions>
Selecione Samples in different columns
First= antes
Second= depois
Obs: no arquivo, “s”
indica pedido aceito, e
Options
“n”, pedido recusado
“test difference”: < 0 >
“alternative”: < less than >
146
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Test and CI for Two Proportions: antes; depois
Success = s
Variable
antes
depois
X
11
14
N
43
30
Sample p
0,255814
0,466667
Estimate for p(antes) - p(depois): -0,210853
95% upper bound for p(antes) - p(depois): -0,0253151
Test for p(antes) - p(depois) = 0 (vs < 0): Z = -1,87
P-Value = 0,031
Rejeita-se H0
147
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
<Stat><Basic Statistics> <1 Sample Z>
Selecione Resistencia
Sigma=1 (isso geralmente não é fornecido)
Test mean= 90
<Options>
Alternative= Greater than
<Graphs...>
Individual plot
148
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
One-Sample Z: Resistencia
H0
H1
Test of mu = 90 vs mu > 90
The assumed sigma = 1
Variable
Resistencia
Variable
Resistencia
N
15
Uma boa regra:
Se P-Value < α,
rejeita-se Ho
Valor dentro da Região Crítica
Mean
91,111
95,0% Lower Bound
90,686
StDev
0,834
Z
4,30
Região Crítica
SE Mean
0,258
P
0,000
Rejeita-se H0
149
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo 1t
Teste de média t para 1 amostra
A especificação da Largura da Flange das
latas para a inspeção final é definida como
0.082’’+/- 0.010’’ e obedece a uma
distribuição normal. As medidas da Largura
da Flange para uma determinada linha/turno
estão dadas na planilha.
Teste a Hipótese de que as medidas da
Largura da Flange estão dentro do limite de
especificação. (Prove que os valores são em
média maiores que 0,072” e menores que
0,092”)
Gere: N(0.0835; 0.00345)
150
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Teste 1 (Para provar
que os valores são
menores que 0,092)
<Stat><Basic Statistics> <1 Sample t>
Selecione Largura Flange
Test mean= 0,092
<Options>
Alternative= Less than
<Graphs...>
<Stat><Basic Statistics> <1 Sample t>
Selecione Largura Flange
Histogram of data
Teste 2 (Para provar
que os valores são
maiores que 0,072)
Test mean= 0,072
<Options>
Alternative= Greater than
<Graphs...>
Histogram of data
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
151
1Z e 1t
Estatística Aplicada
Teste de Hipótese para Médias – Uma amostra
H0 : µ ≥ µ0
H0 : µ ≤ µ0
H0 : µ = µ0
H1 : µ < µ0
H1 : µ > µ0
H1 : µ ≠ µ0
T.U.E
Teste Z:
Bilateral
T.U.D
X − µ0
Z0 =
σ/ n
Teste T:
X − µ0
T=
S/ n
152
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
2Z e 2t
Estatística Aplicada
Teste de Hipótese para Médias – Duas amostras
H 0 : µ1 ≥ µ 2
H 0 : µ1 ≤ µ 2
H 0 : µ1 = µ 2
H1 : µ1 < µ 2
H1 : µ1 > µ 2
H1 : µ1 ≠ µ 2
T.U.E
T.U.D
Variâncias Conhecidas
Z0 =
X 1 − X 2 − (µ1 − µ 2 )
σ 12
n1
+
σ 22
n2
Bilateral
Variâncias Desconhecidas
T=
X 1 − X 2 − (µ1 − µ 2 )
1 1 1
+
S p n1 n2
153
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
2t – Cálculo da Variância
Estatística Aplicada
Estimador Combinado
S
2
1
S
2
p
(
n1 − 1)S + (n2 − 1)S
=
(n1 − 1) + (n2 − 1)
2
1
: Variância Amostral Grupo 1
n1 :
Tamanho do Grupo 1
2
2
2
Variância Amostral Grupo 2
2
S :
n2 : Tamanho do Grupo 2
154
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
TH p/ Variâncias
Estatística Aplicada
H 0 : σ 21 ≥ σ 2 2
H 0 : σ 21 ≤ σ 2 2
H 0 : σ 21 = σ 2 2
H1 : σ 21 < σ 2 2
H1 : σ 21 > σ 2 2
H1 : σ 21 ≠ σ 2 2
T.U.E
T.U.D
Estatística de Teste:
Bilateral
S12
F0 = 2
S2
155
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo
Dois tipos de Bico de Aplicação de
verniz (Tipo I e Tipo II) foram avaliados.
Deseja-se investigar o efeito desses
dois Bicos com relação ao Peso do
Verniz (em mg) medido após o
processo. Tais medidas são dadas na
planilha ao lado.
As variâncias são iguais? (Teste a
Hipótese nula de que os dois bicos
produzem um peso de Verniz com
mesma variância.)
Peso_Verniz.MTW
156
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
<Stat><Basic Statistics> <2 Variances>
Selecione Samples in different columns
First= Verniz_tipo1
Second= Verniz_tipo2
Obs.: Teste o Procedimento Stack Columns
Para usar Samples in one column
157
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Levene’s Test
Estatística Aplicada
Test for Equal Variances for Verniz_tipo1; Verniz_tipo2
F-Test
Test Statistic
P-Value
Verniz_tipo1
2,74
0,150
Lev ene's Test
Test Statistic
P-Value
Verniz_tipo2
0,2
0,4
0,6
0,8
1,0
95% Bonferroni Confidence Intervals for StDevs
1,2
Prefira
sempre, pois
independe da
distribuição
dos dados.
As variâncias são iguais!
Verniz_tipo1
Verniz_tipo2
110,0
110,5
111,0
111,5
112,0
1,51
0,236
112,5
Data
158
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Test for Equal Variances
Estatística Aplicada
Após empilhamento dos dados faça: <Anova> <test for equal variances>
Esse método é melhor, pois pode testar mais que dois conjuntos de dados.
Bonferroni confidence intervals for standard deviations
Lower
Sigma
Upper
N
Factor Levels
0.358564
0.548160
1.10380
10
Verniz_tipo1
0.216713
0.331303
0.66713
10
Verniz_tipo2
F-Test (normal distribution)
Test Statistic: 2.738
P-Value
: 0.150
Levene's Test (any continuous distribution)
Test Statistic: 1.505
P-Value
: 0.236
(variâncias iguais)
159
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo: Em relação ao problema anterior, teste se as
médias são diferentes. (Peso_Verniz.MTW)
<Stat><Basic Statistics> <2 Sample t>
Selecione Samples in different columns
First= Verniz_tipo1
Second= Verniz_tipo2
Selecione: Assume equal variances
<Options>
Test mean= 0
Alternative= not equal
<Graphs>
Selecione Boxplots of data
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
160
Estatística Aplicada
Two-Sample T-Test and CI: Verniz_tipo1, Verniz_tipo2
Two-sample T for Verniz_tipo1 vs Verniz_tipo2
N
Mean
StDev
SE Mean
Verniz_t
10
110.792
0.548
0.17
Verniz_t
10
112.205
0.331
0.10
Difference = mu Verniz_tipo1 - mu Verniz_tipo2
Estimate for difference:
-1.413
95% CI for difference: (-1.838, -0.987)
T-Test of difference = 0 (vs not =): T-Value = -6.97
P-Value = 0.000
DF = 18 Both use Pooled StDev = 0.453
Médias diferentes
161
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Boxplot of Verniz_tipo1; Verniz_tipo2
112,5
112,0
Data
111,5
111,0
110,5
110,0
Verniz_tipo1
Verniz_tipo2
162
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Paired t
Estatística Aplicada
Observações Emparelhadas
H 0 : ∆ 0 = µ1 − µ 2 = 0 H 0 : ∆ 0 = µ1 − µ 2 ≥ 0
H 0 : ∆ 0 = µ1 − µ 2 ≤ 0
H1 : ∆ 0 = µ1 − µ 2 ≠ 0
H1 : ∆ 0 = µ1 − µ 2 > 0
Desvio Padrão das
diferenças entre 1 e 2
H1 : ∆ 0 = µ1 − µ 2 < 0
D − ∆0
T0 =
SD / n
Diferença Amostral
Média
163
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Paired t - Características
• Consiste em dois testes (um antes e outro depois) com a
mesma unidade experimental (amostra).
Ex.: O peso de pessoas antes e depois de um tratamento.
• Em geral, as unidades
experimentais são
heterogêneas (σ grande)
e exibem alta correlação
positiva.
164
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo - Paired t
Suspeita-se
que
dois
funcionários
estão
monitorando o manômetro
de um processo de uma
forma
desigual.
Para
diferentes pressões foram
lidas (de uma forma
emparelhada)
os
resultados da planilha ao
lado.
Teste a Hipótese de que os dois operadores tem o mesmo
desempenho.
165
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Paired t
<Stat><Basic Statistics> <Paired t>
Selecione Samples in columns
First sample= Operador 1
Second sample= Operador 2
<Options>
Test mean= 0
Alternative= not equal
<Graphs>
Individual value plot
166
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Paired T-Test and CI: Operador 1, Operador 2
Paired T for Operador 1 - Operador 2
N
Mean
StDev
SE Mean
Operador 1
10
194
428
135
Operador 2
10
196
428
135
Difference
10
-2.400
1.075
0.340
95% CI for mean difference: (-3.169, -1.631)
T-Test of mean difference = 0 (vs not = 0): T-Value
= -7.06 P-Value = 0.000
Médias diferentes
167
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Power Sample Size
Estatística Aplicada
Tamanho de Amostras em Testes de Hipóteses
Fatores determinantes do
Tamanho da Amostra (n)
Fonte
Efeito sobre “n”
1
Desvio Padrão dos dados
Deve ser estimado.
Quando o Desvio Padrão
diminui, n cresce.
2
Nível de Significância (α)
Em geral, 0.05.
Se α diminui, n cresce.
3
4
Quanto menor for a
Diferença a ser detectada Você decide o tamanho
diferença desejada, maior
(d)
adequado.
n.
Poder do Teste: (1-β)
Se o poder do teste
Probabilidade de detectar
Usualmente, 90%
cresce, n cresce.
uma diferença quando ela
realmente existir.
168
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
•Exemplo
Uma equipe de melhoria desenvolveu um novo
procedimento de manutenção. Espera-se que o tempo de
manutenção diminua com a utilização do novo
procedimento. Para identificar se as mudanças foram
eficazes, a equipe decide coletar amostras dos dois
processos: o novo e o antigo.
169
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Questionamentos
Questão 1: Qual o teste de Hipóteses adequado para
esta situação?
• 2 Sample-t (média de dois grupos)
Questão 2: Que Informações são necessárias para se
determinar o tamanho de amostra necessária ao teste?
• Uma estimativa do desvio padrão do tempo de
manutenção;
• A diferença que deve ser detectada entre os
tempos médios dos dois processos;
• A probabilidade de detectar esta diferença
(Geralmente 90%);
• O nível de significância desejado (Geralmente5%);
170
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Questão 3:
Que suposições a equipe está fazendo?
• Que o processo é estável;
• Que os dados são Normais.
Questão 4:
Como estas suposições podem ser
verificadas?
• Carta de Controle;
• Teste de Normalidade.
171
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
•Exemplo – Verificação
Estatística Aplicada
120
UCL=118
Time (minutes)
110
100
90
X=87
80
70
60
LCL=56
50
0
10
20
30
40
Examinando-se a carta de controle, verifica-se:
O processo é estável e a média atual é 87 minutos
172
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
120
UCL=118
Time (minutes)
110
100
90
X=87
80
70
60
LCL=56
50
0
10
UCL − LCL 118 −56
=
= 10.3
6
6
20
30
40
UCL − Avg 118 −87
=
= 10.1
3
3
Portanto, pode-se adotar um desvio padrão de 10.
173
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Se a equipe deseja provar que o
tempo médio de manutenção
utilizando-se o novo
procedimento é de 75 minutos, e
se considerarem a probabilidade
de 90% de chance de detecção
desta diferença (12 minutos),
com um nível de significância de
0,05, qual será o tamanho da
amostra necessária?
174
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
<Stat > <Power and Sample Size> <2 Sample t>
Differences= 12
Power values= 0,9
Sigma= 10
<Options>
Selecione Not equal como Alternative Hypothesis
175
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
2-Sample t Test
Testing mean 1 = mean 2 (versus not =)
Calculating power for mean 1 = mean 2 + difference
Alpha = 0,05 Sigma = 10
Difference
12
Sample
Target
Actual
Size
Power
Power
16
0,9000
0,9072
Tamanho de amostra necessária.
176
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
5– ANÁLISE DE VARIÂNCIA (ANOVA)
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
ANOVA
Estatística Aplicada
Análise de Variância
•
•
•
•
•
As bases da Análise de Variância
Um fator (One-way)
Dois fatores (Two-way)
Análise de Médias (ANOM)
Balanced ANOVA
ANOVA é um Teste para
Comparar Médias
(O nome é enganoso!)
178
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA - Visualmente
Entendendo o
significado da
ANOVA...
179
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
As Bases da
ANOVA
Tratamentos
A
B
C
5
9
10
4
1
5
6
8
8
7
11
7
8
6
10
Somatório
30
35
40
Médias
6
7
8
Resposta
As médias são
realmente diferentes
ou tudo não passa de
casualidade?
H 0 : µ A = µ B = µC
H1 : Pelo menos um dos sinais = vai ser negado
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
180
Estatística Aplicada
Algoritmo: Variação Total
Média geral
(A, B e C)
Passo 1: Cálculo da Variação Total
∑
Xi
X i − X = xi
5
5-7=-2
4
4
4-7=-3
9
Etc.
Etc.
Etc
7
0
0
10
3
9
105
0
96
Foram considerados 15
observações: Glib=14
xi
2
VT - Variação Total
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Como VT>0 é
razoável
imaginar que ela
se compõe de
variações que
ocorrem Dentro
dos Grupos (VD
- Within) e
Entre os
tratamentos (VE
- Between)
181
Estatística Aplicada
Algoritmo: Variação Within
Passo 2: Cálculo da Variação Dentro do Grupo - Within
X A X A − X A ( X A − X A ) ( X B − X B ) ( X C − X C )2
2
5
5-6=-1
1
4
-2
4
6
0
0
7
1
1
8
2
4
10
VD=10+58+18=86
2
58
18
Foram considerados 5 observações em
cada caso: Glib=12
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
182
Estatística Aplicada
Algoritmo: Variação Between
Passo 3: Cálculo da Variação Entre Tratamentos (Between)
XA
XA − X
(X A − X )
6
-1
1
6
-1
1
6
-1
1
6
-1
1
6
-1
1
5
VE=5+0+5=10
2
(X B − X )
0
2
(XC − X )
5
Foram considerados 3 observações :
Glib=2
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
2
183
Estatística Aplicada
VT=VD+VE !
Algoritmo: Graus de Liberdade
96=86+10
Graus de Liberdade:
A VT possui (15-1)=14 GLIB
(3 Tratamentos) (5 Observ/Trat)
A VD possui (5-1)(3)=12 GLIB
(5 Observ/Amostra)(3 Amostras)
A
B
C
5
9
10
4
1
5
6
8
8
7
11
7
8
6
10
A VE possui (3-1)=2 GLIB
(3 Tratamentos -1)
GLIBVT=GLIBVD+GLIBVE !
14=12+02
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
184
Estatística Aplicada
VT=VD+VE !
Algoritmo: Teste de Fisher para Médias
96=86+10
GLIBVT=GLIBVD+GLIBVE !
14=12+02
Estimativas de Variâncias:
VD/GLIBVD = 86/12 = 7,17
VE/GLIBVE= 10/2 = 5
F0= 5/7,17=0,70
Fcrítico= 3,89 (em função dos GLIBVE GLIBVD e alfa=5%
F0<Fcrítico
Não se Rejeita Ho
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
185
Estatística Aplicada
Algoritmo: Quadro resumo
Quadro Resumo Básico
Fonte de
Variação
Própria
Variação
GLIB
Variância
Estimada
F0
VE
10
2
10/2=5
5/7,17=0,70
VD
86
12
86/12=7,17
VT
96
14
186
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Minitab <ANOVA>One-Way Unstacked
One-way ANOVA: A; B; C (use unstacked)
Analysis of Variance
Source
DF
SS
MS
F
P
Factor
2
10,00
5,00
0,70
0,517
Error
12
86,00
7,17
Total
14
96,00
Individual 95% CIs For Mean
Based on Pooled StDev
Level
N
Mean
StDev
A
5
6,000
1,581
B
5
7,000
3,808
C
5
8,000
2,121
----+---------+---------+---------+-(------------*------------)
(------------*------------)
(------------*------------)
----+---------+---------+---------+--
Pooled StDev =
2,677
4,0
6,0
8,0
10,0
187
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
One-Way
ANOVA
Exemplo
Na definição do Setup dos
fatores para o processo
Inside Spray quatro
conjuntos de níveis para os
parâmetros de Temperatura
foram avaliados. Deseja-se
investigar o efeito desses
quatro Setups com relação a
Distribuição do Verniz interno
no fundo para cerveja
medidas em mg/pol2 após o
processo. Tais medidas são
dadas na planilha ao lado.
188
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA One-Way (Unstacked)
ANOVA One-Way (Unstacked)
Usar o Procedimento Stack Columns para executar o
Teste ANOVA One-Way (preferível pois faz a
análise de resíduos!!)
189
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA One-Way: Resultados
As médias são
diferentes
190
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA One-Way: Boxplots
Boxplots of Setup1 - Setup4
(means are indicated by solid circles)
8.5
7.5
6.5
5.5
Setup4
Setup3
Setup2
Setup1
4.5
191
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA One-Way: Residuals x Fitted
Residuals Versus the Fitted Values
(response is mg)
1.5
1.0
Residual
0.5
0.0
-0.5
-1.0
-1.5
6.0
6.5
7.0
Fitted Value
192
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo
Two-Way
ANOVA
Processo de fabricação de latas
No processo Bodymaker desejase investigar a Profundidade do
Dome em função de 3 conjuntos
de parâmetros (envolvendo
pressão, Temperatura Vazão,
etc...) e também em dois turnos
de operação. Foram então
colhidas amostras da
Profundidade do Dome (em
polegadas) para diferentes Turnos
e diferentes Conjuntos de
Parâmetros.
Anova_2.MTW
193
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA Two-Way: Follow along
194
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOVA Two-Way: Resultados
Diferentes
Iguais
195
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOM
Análise de Médias
Exemplo 3
Foram avaliados três níveis de
pressões de ar draw pad (em psi) e
também três níveis de pressões de ar
blow off (em psi) na influência de
problemas visuais após o processo
Minster. O número de defeitos
visuais (Riscos, Abaulamento,
orelhas, rebarbas, rugas e ovalização)
está mostrado na planilha ao lado.
Anova_3.MTW
ANOM: Para identificar qual média é diferente e avaliar a Interação!
196
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOM
Isso é melhor
estudado em DOE!
197
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOM: Gráficos
Não há interação entre
as pressões Blow e
Draw. O Efeito de
Blow é significativo!
198
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
ANOM: Resultados
Blow
Draw
A Pressão Blow
afeta mais a
média
3,0 e 8,83 são
valores distantes
de 6,22
199
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Balanced
Anova
Exemplo 5
Processo de fabricação de latas
Deseja-se avaliar o tempo gasto (em
minutos) por seis funcionários para
ajustar o Setup de dois processos (I e
II) usando dois diferentes
procedimentos (um novo e um
antigo). A planilha seguinte mostra
os resultados obtidos.
Isso é a base para
DOE - Delineamento
de Experimentos!
Anova_5.MTW
200
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Balanced ANOVA
201
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Balanced ANOVA: Resultados
Diferentes
202
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
TWO-WAY
Estatística Aplicada
Ex.6: An engineer suspects
that the surface finish of metal
parts is influenced by paint
used and the drying time.
Using a 5% significance
level, test the influence of
these two factors as also its
interaction.
203
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
TWO-WAY
Estatística Aplicada
Drying Time (min)
Paint
20
25
30
Total
(yi..)
1
74 64 50 188 73 61 44 178 78 85 92 255
621
2
92 86 68 246 98 73 88 259 66 45 85 196
701
Total:
(y.j.)
434
437
451
1322
(y…)
204
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
TWO-WAY
Estatística Aplicada
Ex.7: Am experiment describes
na investigation about the effect
of glass type and phosphor type
on the brigtness of a television
tube. The response is the current
(mA) necessary to obtain a
specified brightness level.
Using a 5% significance
level, test the influence of
these two factors as also its
interaction.
205
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
6 – CORRELAÇÃO E REGRESSÃO
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Análise de Regressão
•
•
•
•
•
•
Correlação
Procedimentos Gerais Y=f(X)
Regressão linear
Ajuste da Regressão
Regressão linear Múltipla
Best Subsets
„A
análise de regressão é uma técnica estatística usada para modelar e
investigar a relação entre duas ou mais variáveis. O modelo é freqüentemente
usado para previsões.
„Regressão é um teste de hipótese
Ha: O modelo permite significativamente prever a resposta.
207
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Coeficiente de
Correlação
Agente
x
y
A
2
48
B
4
56
C
5
64
D
6
60
E
8
72
Diagrama de
Dispersão
70
Clientes
Ex.: Suponha que o nosso desejo
seja o de quantificar a
associabilidade entre duas
variáveis relacionadas a cinco
agentes de uma seguradora.
Assim, temos:
X≡ Anos de experiência do agente.
Y ≡ Número de clientes do agente.
60
50
2
3
4
5
6
Anos de
Experiência
7
8
(x, y) é um par aleatório
– Dados emparelhados
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
208
Estatística Aplicada
r=Correlação de Pearson
y− y
= zy
sy
y−y
y
x
Série de dados
originais (x e y)
são valores
quantitativos.
x−x
O conjunto de pontos
é deslocado, tendo
agora como centro, os
valores médios.
1 n
r = Corr ( X , Y ) = ∑ z xi z yi
n i =1
x−x
= zx
sx
A escala de x e y é
agora padronizada.
Isso torna os valores
independente da sua
unidade.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
209
Estatística Aplicada
Coeficiente de Correlação
x−x y−y
Agente
x
y
A
2
48
-3
B
4
56
C
5
D
zx
zy
zx . zy
-12
-1.5
-1.5
2,25
-1
-4
-0.5
-0.5
0,25
64
0
4
0
0.5
0
6
60
1
0
0.5
0
0
E
8
72
3
12
1.5
1.5
2,25
Total
25
300
0
0
0
0
4,75
x = 5 y = 60
4,75
S x = 2 S y = 8 r = Correlação ( X , Y ) = 5 = 0,95 = 95%
210
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
P_value p/ Correlação
1 n
1 n ⎛ xi − x ⎞⎛ yi −
r = Corr ( X , Y ) = ∑ z xi z yi = ∑ ⎜
⎟⎜
n i =1
n i =1 ⎝ s x ⎠ ⎝ s y
y⎞
⎟
⎠
1 ∑ ( x i − x )( y i − y ) Covariância ( X , Y )
−1 ≤ r ≤ 1
r=
=
n
sx ⋅ s y
sx ⋅ s y
A correlação apresentada aqui é linear. Existem outros tipos de correlação!
Agente
x
y
A
2
48
B
4
56
C
5
64
D
6
60
E
8
72
Ex.: Cálculo da correlação da tabela ao lado
Pearson correlation of Anos Exp and Clientes = 0,950
P-Value = 0,013
Forte Correlação pois P-Value <0,05
211
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Correlação no Minitab
Faça a análise de Correlação das
variáveis ao lado na planilha
Bidimensional.mtw
O Coeficiente de
Correlação é
também chamado
de Coeficiente de
Pearson.
212
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Algumas questões sobre Correlação:
A)
Uma medida de Correlação fornece dois tipos de informações a respeito do
relacionamento de duas variáveis. Quais são elas?
B)
Qual coeficiente de correlação abaixo indica o mais forte relacionamento?
a) 0.70
b) 0.03 c)-0.77 d) 0.10
C) Se a correlação Rxy=0.45, então Ryx=
D) Qual o valor do coeficiente de correlação melhor descreve os seguintes
valores das variáveis X e Y, relacionadas abaixo:
X: 20 30 40 50 60
Y: 40 30 20 10 0
a)
-1.0
b)
0.0
c)
0.5
d)
1.0
E) Qual a correlação do
gráfico abaixo?
213
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
F)
Algumas questões sobre Correlação:
Se um coeficiente de correlação for de +1.4, o que ocorre?
a)
O Relacionamento é extremamente forte
b)
O Relacionamento é positivo
c)
As respostas acima estão corretas
d)
Um erro computacional foi cometido
G) Um coeficiente de Pearson de -0.5 entre os valores de Leitura (X) e o número
de dias ausentes da escola (Y) indica que:
a) Metade dos valores de Leitura são menos do que o número de dias
ausentes da escola
b) Maiores valores de Leitura são associados com menor ausência da escola
c)A soma do produto XY é igual a -0.5
d) Quase não existe relacionamento entre X e Y
214
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Dia
1
2
3
4
Variável Comum
Fator 1
Água
Água
Água
Água
Fator 2
Whisky
Vodka
Rum
Bourbon
Resultado
Ficou Bêbado
Ficou Bêbado
Ficou Bêbado
Ficou Bêbado
Conclusão: a água embebeda
É comum associar-se um defeito com uma variável
que está sempre presente quando ele ocorre (é o caso
do operador que é culpado, pois quando ele executa a
operação ocorre um defeito – Toda operação
geralmente tem um operador).
215
© 1995 Six Sigma Academy Inc.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
As “armadilhas”: correlações casuais
Se a história servisse de base, os Republicanos deveriam estar vestindo a camisa
dos Yankees e dando uma força para o New York vencer o campeonato. Desde a
Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição,
o Partido Republicano assumiu a Casa Branca.
Variável Comum
Yankees
Republicanos
GANHARAM PERDERAM
GANHARAM PERDERAM
1976
1964
1960
1956
1952
216
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
As “armadilhas”: causa reversa
Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo
é a conseqüência do “Y” .
Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as
Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes .
Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente .
Com os novos descontos e a nova promoção fica mais difícil
ainda administrar o Serviço de Atendimento ao Cliente,
ocasionando num aumento da insatisfação do cliente e
diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) .
217
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
As “armadilhas”: fatores omitidos
Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais
aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto,
deveríamos evitar hospitais grandes?
Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a
gravidade da condição do paciente quando é admitido ao hospital. Os casos mais
sérios tendem a ser levados aos hospitais maiores!
Fumar cigarros causa câncer? E se eu dissesse que ...
(1) Médicos franceses não encontram esta correlação;
(2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e
preservativos contendo substâncias conhecidamente cancerígenas, e;
(3) O tabaco francês raramente entra em contato com tais substâncias químicas.
218
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
O Fazendeiro Radiofóbico
Em
Em1950,
1950,um
umfazendeiro
fazendeiroafirmou
afirmouque
quesuas
suasárvores
árvoresfrutíferas
frutíferasestavam
estavamsendo
sendoprejudicadas
prejudicadas
pelas
ondas
de
rádio
de
uma
estação
local
próxima.
Ele
colocou
uma
tela
de
pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela dearame
arameao
ao
redor
redorde
dealgumas
algumasdas
dasárvores
árvorespara
para“protegê-las”
“protegê-las”destas
destasondas
ondasde
derádio
rádioe,e,realmente,
realmente,as
as
árvores
árvoresprotegidas
protegidasse
serecuperaram
recuperaramrapidamente,
rapidamente,enquanto
enquantoque
queas
asdesprotegidas
desprotegidasainda
ainda
sofriam.
sofriam.
Na
Namesma
mesmaépoca,
época,muitas
muitasárvores
árvorescítricas
cítricasem
emtodo
todopaís
paísforam
foramameaçadas
ameaçadaspor
poruma
umadoença
doença
chamada
chamadade
de“folha
“folhapequena”.
pequena”. Alguns
Algunsfazendeiros
fazendeirosTexanos
Texanosdescobriram
descobriramque
queuma
umasolução
solução
de
desulfato
sulfatode
deferro
ferrocurava
curavaaadoença.
doença.No
Noentanto,
entanto,nem
nemsempre
semprefuncionava
funcionavano
noTexas,
Texas,ee
praticamente
praticamentenunca
nuncafuncionava
funcionavana
naFlórida
Flóridaou
ouna
naCalifórnia.
Califórnia.
OOmistério
mistériofoi
foidesvendado
desvendadoquando
quandoooproblema
problemaverdadeiro
verdadeirofoi
foirevelado
revelado----deficiência
deficiênciade
dezinco
zinco
no
solo.
A
cerca
do
fazendeiro
Radiofóbico
era
de
tela
galvanizada,
sendo
que
traços
do
no solo. A cerca do fazendeiro Radiofóbico era de tela galvanizada, sendo que traços do
zinco
zincoda
dagalvanização
galvanizaçãoeram
eramlevados
levadosda
datela
telapara
paraoosolo.
solo.
OOsulfato
sulfatode
deferro
ferronada
nadatinham
tinhamaaver
vercom
comaacura,
cura,mas
massim
simos
osbaldes
baldesde
deferro
ferrogalvanizados
galvanizados
usados
para
espalhar
a
substância!
Em
outras
regiões,
onde
outros
tipos
de
baldes
usados para espalhar a substância! Em outras regiões, onde outros tipos de baldeseram
eram
usados,
as
árvores
continuaram
doentes.
usados, as árvores continuaram doentes.
219
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
As “armadilhas”: multicolinearidade
É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a
ocorrer juntos regularmente.
• “Tenho visto uma redução dramática nas perdas desde que comecei a
implementar as ferramentas estatísticas na fábrica!” No entanto, foi
exatamente na mesma época em que o RH introduziu seu novo sistema
de recompensa e reconhecimento. O que ocasionou a melhoria?
• Em 1967, um artigo rotulou um determinado tipo de carro como sendo
inseguro. O modelo em questão era um carro pequeno esportivo de alto
desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu
dissesse que a maioria dos proprietários deste carro tendiam a ser
motoristas jovens menores de 25 anos com novas idéias. Esta faixa etária
não paga prêmios de seguro mais elevados devido a maior incidência de
acidentes?
220
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Y=f(x)
y
Linha de Regressão
A variável X é dita variável
independente (ou exógena), enquanto
Y é dita variável dependente (ou
endógena).
x
•Y=f(x) Simples
•Y=f(x,y,z...) Múltipla
221
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão
Linear Simples (Um X)
Múltipla (Dois ou mais Xs)
Y
Curvilínea (Um X)
Y
Y
X2
X
X
Curvilínear (Dois ou mais Xs)
X
1
Variáveis Indicativas
(para Xs Discretos)
Logística (Ys Discretos)
1
x
Y
Y
x
x
x
x
x
x
x
x
x x
x
x
x
x
Xb
Xc
% yes
Xa
X2
X
0
1
Xi
X
222
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Resíduos
y
y = α + βx
yˆ = a + bx,
Curva de
Resíduos (e)
x1
x2
x3
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
x
Uma
importante
condição para
o uso de
regressão
simples é que
os resíduos (e)
sejam
independentes
de x. Porque?
223
Estatística Aplicada
Regressão Linear
Simples
8
yˆ = a + bx
7
ŷi
6
y
ei
ei
5
Σ e
n
2
i=1 i
yi
4
3
2
2
n
ˆ
minΣ e = minΣ ( yi − yi ) = minΣ i=1( yi − a − bxi )
n
2
i=1 i
n
i=1
2
50
55
60
65
70
75
x
224
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Σ e
n
2
i=1 i
A matemática da Regressão Linear
yˆ = a + bx
minΣ e = minΣ
2
n
i=1 i
n
i=1
( yi − yˆ i )
2
= minΣ
n
i=1
( yi − a − bxi )
2
∂
∂
n
n
2
2
d = 0 e ∑i =1 d i = 0.
∑
i =1 i
∂a
∂b
− 2∑i =1 ( yi − a − bxi ) = 0,
n
− 2∑i =1 xi ( yi − a − bxi ) = 0,
n
225
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ufa!
⎧⎪∑n yi = na + b∑n xi ,
i =1
i =1
⎨ n
n
n
2
=
+
x
y
a
x
b
x
⎪⎩∑i =1 i i
∑i =1 i ∑i =1 i
n
⎧
( xi − x ) yi S xy
∑
i =1
⎪b =
,
=
n
2
⎨
S
(
x
x
)
−
xx
∑
i
i =1
⎪
⎩a = y − bx ,
226
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo
Ex.: Obter a equação da reta (chamada de reta dos mínimos
quadrados) para os seguintes pontos experimentais:
x
y
1
0,5
2
0,6
3
0,9
4
0,8
5
1,2
6
1,5
7
1,7
8
2,0
Traçar a reta no diagrama de dispersão. Calcular o coeficiente de
correlação linear.
Qual o valor previsto para x=9?
Qual a Tolerância de X para 1<Y<1.5?
227
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão: By Hand
36 ⋅ 9,2
S xy = 50,5 −
= 50,5 − 41,4 = 9,1,
8
(36) 2
S xx = 204 −
= 204 − 162 = 42.
8
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
228
Estatística Aplicada
Regressão: Cálculos
36 ⋅ 9,2
S xy = 50,5 −
= 50,5 − 41,4 = 9,1,
8
(36) 2
S xx = 204 −
= 204 − 162 = 42.
8
9,1
b=
=
≅ 0,217,
S xx 42
9,2
36
a = y − bx ≅
− 0,217 ⋅ = 1,150 − 0,976 = 0,174.
8
8
S xy
yˆ = 0,174 + 0,217 x
229
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão: Gráfico
Fitted Line Plot
y = 0,1750 + 0,2167 x
S
R-Sq
R-Sq(adj)
2,00
0,121335
95,7%
95,0%
1,75
y
1,50
1,25
1,00
0,75
0,50
0
1
2
3
4
x
5
6
7
8
230
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão: Correlação
2
(9,2)
= 12,64 − 10,58 = 2,06,∴
S yy = 12,64 −
8
S xy
9,1
=
≅ 0,98
r=
42 ⋅ 2,06
S xx S yy
Relembre Correlação!
231
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão linear simples no Minitab
Previsão
232
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Linear
Ajuste da Regressão
„R-quadrado
éa
porcentagem da variação
explicada pelo seu modelo.
„R-quadrado
(ajustado) é a
porcentagem da variação
explicada pelo seu modelo,
ajustada para o número de
termos em seu modelo e o
número de pontos de dados.
„O
“valor-p” para a
regressão é para ver se o
modelo de regressão inteiro
é significativo.
—Ha: O modelo permite
significativamente
prever a resposta.
233
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ajuste Quadrático
Quadrático
234
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ajuste Cúbico
Cúbico
235
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Intervalos de confiança e de previsão
Ajuste da Regressão
„Uma
faixa (ou intervalo) de
confiança é uma medida da
certeza da forma da linha de
regressão ajustada. Em geral,
uma faixa de 95% implica em
uma chance de 95% de que
as linha verdadeira fique
dentro da faixa. [Linhas
vermelhas]
„Uma
faixa (ou intervalo) de
previsão é uma medida da
certeza da dispersão dos
pontos individuais em torno da
linha de regressão. Em geral,
95% dos pontos individuais
(da população em que a linha
de regressão se baseia)
estarão contidos dentro da
faixa. [Linhas azuis]
236
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Estreitando Tolerâncias
CTQ
2
1
237
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Estreitando Tolerâncias
CTQ
2’
1
2
1’
238
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Pratique Regressão Linear Simples
Determine a função de transferência entre o Número de Setups
e o Tempo de Ciclo para diversas operações em uma certa
empresa. Use a planilha cycletime.mtw.
Faça a análise de Resíduos.
Qual a previsão do Tempo de Ciclo para uma operação que
consiste em 10 Setups de equipamento?
A equação final é adequada? Se não for, como melhorá-la?
239
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão
Múltipla
Uma reação Química foi realizada
sob seis pares de diferentes
condições de pressão e
temperatura. Em cada caso foi
medido o tempo necessário para
que a reação se completasse. Obter
a equação de regressão do tempo
em relação a pressão e
temperatura.
Regressão.mtw
240
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão Múltipla: Resultados
Menores
que 0,05
Maior melhor
241
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
92 estudantes americanos
participam de um simples
experimento. Cada estudante
registra o seu peso, altura,
gênero, pulso e se é fumante
ou não. Todos eles jogam uma
moeda e sorteiam se vão dar
uma corrida (cara) ou não por
um minuto. Após a corrida,
todos os alunos registram o
seu pulso novamente. Um
aluno sugere que seja inserida
a seguinte “importante”
consideração: Se a pessoa
pinta o cabelo ou não.
Best Subsets
Regressão.mtw
Deseja-se fazer uma regressão
do segundo pulso em relação a
todas as outras variáveis.
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
242
Estatística Aplicada
Best Subsets: Resultados
Equação de regressão
inicial. Muito complexa
Correlação muito alta.
Quem pinta cabelo é
“geralmente” mulher
243
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Best Subsets: Resultados
Melhor
ajuste
244
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Análise de Resíduos
Ruim
Bom
Residuals vs
Each X
Residual
Residual
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
3
Time Plot of
Residuals
4
5
6
7
8
X
9
10
11
12
Residual
3
2
2
1
1
0
0
-1
-1
-2
-2
30
-3
0
50
Time Order
100
0
50
100
Time Order
Residual
3
Residual
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
30
Normal
Probability Plot
of Residuals
20
X
Residual
3
-3
Residuals vs
Predicted Y
(Fits)
10
40
50
Pred. Y
Nscore
3
2
0
50
100
Pred. Y
Nscore
3
1
0
0
-1
-1
-2
-2
-3
-3
-3
Considere a
possibilidade da
existência de
variáveis ocultas que
não foram
consideradas no
modelo (Lurking)
Entenda que X e Y não
precisam ser normalmente
distribuídos. Os resíduos,
245
Balestrassi
– Paiva – Ferreira
(UNIFEI – IEPG)contudo, deveriam ser.
Residual
Residual
2
1
Nos casos ruins tente
uma transformação
em X,em Y ou
ambos. Use Box-Cox
Transformation
-2
-1
0
1
2
3
-1
0
1
2
3
4
Estatística Aplicada
Regressão Curvilínea
Um laboratório está fazendo testesSeal Strength
(g/cm2)
em adesivos em função da
2100
temperatura. Quando a
2050
temperatura aumenta a força do
2000
contato entre duas superfícies
aumenta Em um determinado
1950
ponto, contudo a força desse
1900
contato começa a diminuir em
função de propriedades térmicas
200
250
300
do adesivo. Qual o modelo
Temperature
empírico da força (Seal Strength)
em função da temperatura?
Curve.mtw
350
400
246
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Termo quadrático da regressão
Deve-se criar a variável
quadrática e em seguida rodar
o modelo em Regression
Termo quadrático
Observe resíduos
Função
quadrática
VIF
Armazena
resíduos
247
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Regressão Curvilínea
The regression equation is
SealStrength = 923 + 7.45 Temperature - 0.0125 TempSqrd
X
X2
Predictor
Constant
Temperat
TempSqrd
Coef
922.98
7.4469
-0.0124596
S = 25.18
StDev
72.33
0.5033
0.0008499
R-Sq = 69.4%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
Temperat
TempSqrd
DF
1
1
DF
2
97
99
SS
139321
61498
200819
T
12.76
14.80
-14.66
P
0.000
0.000
0.000
X e X2 são
fortemente
correlacionados.
Nenhuma
surpresa
VIF
132.9
132.9
R-Sq(adj) = 68.7%
Conclusão: Existe uma curvatura
significativa
MS
69661
634
F
109.87
P
0.000
Seq SS
3051
136270
248
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
PORTFÓLIO
Estatística Aplicada
Ex.1: De acordo com os
dados da tabela ao
lado, há correlação
entre o preço de um
produto e o respectivo
volume de vendas?
n
PREÇO
VENDAS
1
5,5
420
2
6,0
380
3
6,5
350
4
6,0
400
5
5,0
440
6
6,5
380
7
4,5
450
8
5,0
420
249
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
PORTFÓLIO
Estatística Aplicada
Exercício 2:
n
Price
Sales
A liquor wholesaler is
interested in assessing
the effect of the price of a
whiskey on the quantity
sold. The results in table
represent the price (US$)
and the respective eight
weeks of sales. What are
your conclusions?
1
2
3
4
5
6
7
8
19,2
20,5
19,7
21,3
20,8
19,9
17,8
17,2
25,4
14,7
18,6
12,4
11,1
15,7
29,2
35,2
250
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
PORTFÓLIO
Estatística Aplicada
Exercício 3:
Doctors are interested in the relationship between the dosage
of a medicine and the time required for a patient’s recovery.
Based on the following data, verify if the variables are
correlated.
n
Dosage Recovery Time
1
1,2
25
2
1,0
40
3
1,5
10
4
1,2
27
5
1,4
16
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
251
PORTFÓLIO
Estatística Aplicada
Exercício 4:
n
x
y
The table shows, for eight
vintages of select wine,
purchase per buyer (y) and
the wine buyer’s rating in a
year (x).
1
2
3
4
5
6
7
8
3,6
3,3
2,8
2,6
2,7
2,9
2,0
2,6
24
21
22
22
18
13
9
6
Are the variables correlated?
* Vintage: safra de vinho
252
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Exemplo: Determine a correlação entre o tempo de
experiência e o salário anual do funcionário e se existe
diferença significativa entre os salários dos homens e das
mulheres. (Use Anova e 2-sample t)
Mulheres
Salário ($)
Experiência
36730 40650 46820 50149 59679
5
7
9
10
14
67360
17
Homens
Salário ($)
Experiência
51535 62289 72486 75022 93379 105979
5
7
9
10
14
17
253
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
PORTFÓLIO
Estatística Aplicada
Exercício 6:
Determinar a composição ótima da seguinte carteira:
A
B
Retorno:
0,15
0,20
D.P. :
0,20
0,30
Variância: 0,04
0,09
254
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
PORTFÓLIO
Estatística Aplicada
Exercício 7:
n
ATIVO 1
ATIVO 2
Determinar a
composição ótima da
carteira formada pelos
ativos a seguir,
considerando-se um
retorno mínimo de 9%.
1
2
3
0,15
0,17
0,04
0,12
0,13
0,09
4
5
6
7
8
9
10
-0,08
0,15
0,22
0,03
-0,14
0,02
0,15
0,07
0,09
0,11
0,09
0,06
0,08
0,10
255
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
7 – TESTES DE INDEPENDÊNCIA ( χ )
2
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Suponha que uma amostra com n observações possa ser
classificada em uma tabela cruzada, formada por um fator de
linha e um de coluna.
Se a hipótese nula puder ser escrita como:
H0: Não há associação entre os dois atributos.
Então a freqüência esperada dentro de cada célula será:
Eij =
Ri C j
n
Onde: Ri = total da linha i; Cj = total da coluna j
257
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
A rejeição da hipótese nula se dará se:
r
c
χ = ∑∑
2
T
i =1 j =1
(O
ij
− Eij )
2
Eij
>χ
2
( r −1)( c −1),α
O teste é baseado na magnitude da
discrepância entre as quantidades
observadas e esperadas.
258
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ex.1: De acordo com os dados da tabela abaixo,
avalie se existe relação entre o método de reserva
de passagens e o sexo do passageiro.
Método
Agência
H
M
256 (233,5) 74 (96,5)
Total
330
Internet
41 (58,7)
42 (24,3)
83
Toll-free
66 (70,8)
34 (29,2)
100
Total:
363
150
513
259
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
A rejeição da hipótese nula se dará se:
2
2
2
(
)
(
)
(
)
256
233
,
5
74
96
,
5
34
29
,
2
−
−
−
χ2 =
+
+ ... +
T
233,5
96,5
29,2
= 26,8
O valor crítico do teste será:
χ (2r −1)( c −1),α = χ 22,0.05 = 5,99
Como o valor de teste é maior que o valor crítico, rejeita
H0. Logo, o tipo de reserva está relacionado ao sexo do
2
passageiro. O indício da diferença está no maior χ cel .
260
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Estatística Aplicada
Ex.2: Following a presidential debate, people were
asked how they might vote in the forth coming
election. Is there any association between one’s
gender and choice of a candidate?
Gender
Total
Candidate
Male
Female
A
B
Total
150
100
250
130
120
250
280
220
500
261
Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)
Download