1-Estatística

Propaganda
Estatística
A essência da ciência é a observação.
Estatística: A ciência que se preocupa com a organização, descrição, análise e
interpretação dos dados experimentais. Ramo da Matemática Aplicada. A
palavra estatística provêm de Status.
Curiosidade: Em 1662, John Graunt
publicou os primeiros informes estatísticos.
Era sobre nascimento e mortes.
Estatística Básica (Anova,
TH, Regressão)
Simulação / PO
Séries Temporais
DOE /Taguchi /RSM
Data Mining
Análise de Sistema de Medição
Six Sigma
Estatística Multivariada
Redes Neurais
Amostragem / Pesquisa
Controle de Qualidade
Confiabilidade
1-Estatística
População e Amostra
™ A População (ou Distribuição) é a coleção de todas as
observações potenciais sobre determinado fenômeno.
™ O conjunto de dados efetivamente observados, ou
extraídos, constitui uma Amostra da população.
™Um Censo é uma coleção de dados relativos a Todos os
elementos de uma população.
™Um Parâmetro está para a População assim como uma
Estatística está para a Amostra.
2
1-Estatística
Tipos de Dados
(Também Dados Categóricos
ou de Atributos)
Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Contínua
(Variáveis)
Ex.: Para uma população de peças produzidas em um
determinado processo, poderíamos ter:
Variável
Tipo
Estado: Perfeita ou defeituosa
Qualitativa Nominal
Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal
No de peças defeituosas
Quantitativa Discreta
Diâmetro das peças
Quantitativa Contínua
3
1-Estatística
<Calc> <Random Data> Números Aleatórios
Aplicação: Gere sequências de valores aleatórios que represente
problemas em sua área.
O que significa o procedimento <Calc> <Set Base>?
Amostragem: Gere a sequência 1 2 3 ...100.
<Calc> <Make Patterned Data>
Selecione uma amostra com 10 valores a partir das sequências geradas
anteriormente.
Use <Calc> Random Data> <Sample from Column>
4
1-Estatística
<Graphical Summary>
Ex.:Número de acessos à página do Site da Empresa
durante os últimos 100 dias úteis.
Aplicação:
Gere uma sequência de
dados que represente um
processo em sua área e
calcule as estatísticas
desse conjunto de dados.
Use:
<Random> e
<Display Descriptive
Statistics>
5
1-Estatística
Medidas de Posição: Média
n
Aritmética Simples
x1 + x 2 ++...+
L + xn
x=
=
n
∑x
i =1
i
n
n
Aritmética Ponderada
x1 p1 + x 2 p2 ++...+
L + x n pn
x=
=
p1 + p2 ++...+
L + pn
∑xp
i =1
n
i
∑p
i =1
i
i
Um pouco sobre arredondamento de médias:
‰ Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73
‰ Em várias operações, arredonde apenas o resultado final
6
1-Estatística
Um Cidadão Americano “Médio”
‰ Chama-se Robert
‰ Pesa 78 Kg
‰ Manequim 48
‰ 85 cm de cintura
‰ Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de
batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.
‰ Vê TV por ano 2567 horas
‰ Recebe anualmente 585 “coisas” por correio (cartas e outros)
‰ Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e
trabalha 6,1 horas
7
1-Estatística
Medidas de Posição: Mediana
Se n é ímpar:
⎛ n + 1⎞
~
⎟ termo
x =⎜
⎝ 2 ⎠
o
Ex.:
Se n é par:
o
o
⎛n ⎞
⎛n⎞
⎜ ⎟ termo + ⎜ + 1⎟ termo
⎝2 ⎠
⎝2⎠
~
x=
2
{35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ x~ = 40
15 + 16
~
{12, 14, 14, 15, 16, 16, 17, 20} ⇒ x = 2 = 15,5
Mediana é o valor “do meio” de um conjunto de dados dispostos em
ordem crescente ou decrescente.
Inconveniente: Não considera todos os valores da amostra!
8
1-Estatística
Ex.:
Média x Mediana
{ 200, 250, 250, 300, 450, 460, 510 }
x = 345,7
x~ = 300
Ambas são boas medidas
de Tendência Central.
Prefira a média
{ 200, 250, 250, 300, 450, 460, 2300 }
x
= 601
x~ = 300
Devido ao Outlier
2300, a mediana é
melhor estatística que
a média.
9
1-Estatística
Medidas de Dispersão
Rode e Entenda o
programa Interativo da
PQ Systems
Discuta:
1) Porque os bancos adotam fila única?
2) “Por favor, com quantos dias de antecedência eu
devo postar uma carta de aniversário para minha
mãe?”
10
1-Estatística
A = { 3, 4, 5, 6, 7 }
B = { 1, 3, 5, 7, 9 }
C = { 5, 5, 5, 5 }
D = { 3, 5, 5, 7 }
E = { 3.5, 5, 6.5 }
Variabilidade
Uma medida de Posição não é
suficiente para descrever um conjunto
de dados. Os Conjuntos ao lado
mostram isso! Eles possuem mesma
média, sendo diferentes.
Algumas medidas de Variabilidade:
Amplitude (H): Tem o inconveniente de levar em conta apenas os
dois valores extremos:
HÁ =7-3=4
Amplitude=Range
11
1-Estatística
Medidas de Dispersão
Considerando os desvios em relação à média, temos, para A, por
exemplo:
{-2, -1, 0, 1, 2}
xi - x
A = { 3, 4, 5, 6, 7 }
n
∑ (x
Inconveniente:
i =1
1
n
n
i =1
i =1
− x ) = ∑ x1 − ∑ x = n x − n x ≡ 0
Uma opção para analisar os desvios das observações é:
considerar o total dos quadrados dos desvios.
5
∑ (x
i =1
− x ) =4 + 1 + 0 + 1 + 4 = 10
2
i
12
1-Estatística
Desvio Padrão
Associando ao número de elementos da amostra (n), tem-se:
.
n
∑ (x
S2
=
S = S2
i =1
i
− x)
2
...que é a Variância ( Var(x))
n
...que é o Desvio Padrão (DP(x)), uma
medida que é expressa na mesma unidade
dos dados originais
13
1-Estatística
Dispersão: Fórmulas Alternativas
n
n
∑ (x
S2 =
i =1
i
n
− x)
∑ (x
n
∑
2
=
i =1
xi 2
n
Variância Populacional
(σ2 ou σn 2 )
S =
2
− x2
i =1
i
− x)
2
n−1
Variância
Amostral
n-1 está
Relacionado a
um problema de
tendenciosidade
14
1-Estatística
Exemplo
Calcular a Variância e o Desvio Padrão de X
X
X
5
4
3
1
2
Uma Regra
Prática para
conjunto de dados
típicos:
S=Amplitude/4
Média
Média==33
X
=
Soma dos pontos de dados
(X − X )
(X − X )
2
1
0
-2
-1
4
1
0
4
1
2
Número dos pontos de dados
S= S
2
Raiz
RaizQadrada
Qadrada
da
daVariância
Variância
==Desv.Pa.
Desv.Pa.==SS
==1,58
1,58
S2
Soma
Somada
da
última
últimacoluna
coluna
==10
10
Divide
DivideaaSoma
Soma
por
por(n-1):
(n-1):
2
==Variância
Variância==SS2
==2,5
2,5
15
1-Estatística
Expressões para Média e Variância
N
µ =
Média da População
∑X
i
i =1
N
N
Desvio Padrão da População
σ =
2
(X
µ
)
−
∑ i
i=1
N
n
∑x
x=
Média da Amostra
i=1
n
N
∑ (X
Desvio Padrão da Amostra
s=
i
i
−X)
2
i=1
n -1
16
1-Estatística
Outlier ( fora da distância do Q3 + 1,5D )
Observação Máxima
75%
109
Q3=75ª Percentil
104
DBP
*
Outra Estratégia: Percentis e Boxplot
50%
99
D=Q3-Q1
94
25%
Interquartil
Q2=Mediana (50ª Percentil)
Q1=25ª Percentil
EDA (Exploratory
Data Analysis) e
Método dos Cinco
Números
Boxplot é desgastante quando feito sem
computador pois supõe a ordenação de dados.
17
1-Estatística
Percentis e Boxplot
ÍValor do meio
(n+1)/4 0
Quartis:
2.(n+1)/4
0
Î Q1=Quarta Observação Crescente=71.7
Î Q3=Quarta Observação Decrescente=150.6
3.(n+1)/4 0
Para valores
não inteiros
dos quartis,
usa-se
interpolação
Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95
Î São outliers valores maiores que 268.95
Use Boxplot.mtw e faça o
Graphical Summary
18
1-Estatística
Percentis e Boxplot
Exercício: <StatGame><Describing Data><BoxPlot>
19
1-Estatística
Boxplot – Stack Columns
Exercício: Como conduzir uma análise de questionário
(com escala de Likert) usando Boxplot?
Use:
<Graph> <Boxplot>
Use a opção <Frame>
<Multiple Graph>
Likert.mtw
Entenda o
procedimento de
empilhamento de
colunas (Stack):
Avaliacao
100
50
0
<Manip>
<Stack Columns>
Perg1
Perg2
Perg3
Perg4
Perg5
Perg6
Perguntas
20
1-Estatística
Plot
Exercício no Minitab: Faça o gráfico
abaixo a partir da planilha grafico.mtw
21
1-Estatística
<Marginal Plot>
Faça o gráfico abaixo a
partir da planilha
grafico.mtw
22
1-Estatística
Runchart
Abra runchart.mtw
<Stat> <Quality Tools>
<Run Chart>
•Column=Tempo na fila
•Subgroup Size=1
™
Os dados representam uma série temporal
™
Tal gráfico é útil para ver a estabilidade de
um processo.
™
Control Chart é Melhor!
23
1-Estatística
Multi-Vari
•Identifica Diversos tipos de variação
•A análise de efeitos é similar em DOE
•Permite identificar interações
•Não é o mesmo que Estatística Multivariada
Use
TempoSinter
Sinter.mtw
0,5
23,5
<Stat>
2,0
22,5
<Quality Tools>
Response: Força
Factor1: TempoSinter
21,5
Força
<Multi-Vari>:
1,0
20,5
19,5
18,5
Factor2: TipoMetal
17,5
15
18
21
TipoMetal
24
1-Estatística
xi − x
zi =
s
Escores padronizados (z)
xi -
x considera o afastamento de xi em relação à média.
A divisão por s torna s como unidade ou padrão de medida.
Ex.: Dois grupos de pessoas acusam os seguintes dados:
Nesses grupos há duas
Grupo Peso médio Desvio Padrão
pessoas que pesam
A
66.5 kg
6.38 kg
respectivamente, 81.2 kg e
B
72.9 kg
7.75 kg
88.0 kg.
81,2 − 66,5
88 − 72,9
em A : z A =
= 2,3 e em B : z B =
= 1,95
6,38
7,75
Logo, a pessoa de A revela um maior excesso relativo de peso.
25
1-Estatística
Regra 68 -- 95 -- 99
Escores padronizados (z)
Regra 68 -- 95 -- 99
xi − x
zi =
s
9 Cerca de 68% dos valores estão a menos de 1 desvio padrão a
contar da média (-1 < z < 1)
9 Cerca de 95% dos valores estão a menos de 2 desvios padrão a
contar da média (-2 < z < 2)
9 Cerca de 99% dos valores estão a menos de 3 desvios padrão a
contar da média (-3 < z < 3)
26
1-Estatística
Regra 68 -- 95 -- 99
P(µ - 1.00 σ ≤ X ≤ 1.00 σ) = 0.6826
P(µ - 1.645 σ ≤ X ≤ µ + 1.645 σ) = 0.90
P(µ - 1.96 σ ≤ X ≤ µ + 1.96 σ) = 0.95
P(µ - 2.00 σ ≤ X ≤ µ + 2.00 σ) = 0.9545
P(µ - 2.57 σ ≤ X ≤ µ + 2.57 σ) = 0.99
P(µ - 3.00 σ ≤ X ≤ µ + 3.00 σ) = 0.9978
Probabilidade do valor da amostra
Alguns intervalos
simétricos que são
usados
freqüentemente.
40%
68%
30%
95%
20%
99.73%
10%
0%
-4
-3
-2
-1
0
1
2
3
4
Número de Desvios Padrão da Média
27
1-Estatística
Distribuição Normal (ou Gaussiana)
Observe no programa Quality
Gamebox o Processo de Construção de
uma Distribuição Normal.
A distribuição mais importante em Estatística (“The Bell Curve”)
Aplicação: Cite variáveis, em sua área de interesse,
que tem uma distribuição Normal. Complete a tabela
Descrição da Variável
Média (estimada)
Desvio Padrão (estimada)
28
1-Estatística
Statdisk
Use o programa
Statdisk
<Analysis>
<Probability
Distribution>
<Normal
Distribution>
Observe em <Options> os valores acumulados
29
1-Estatística
<Calc> <Probability Distributions>
30
1-Estatística
Exercício
Em uma população onde as medidas
tem Média 100 e Desvio Padrão 5,
determine a probabilidade de se ter
uma medida:
a)
Entre 100 e 115
b)
Entre 100 e 90
c)
Superior a 110
d)
Inferior a 95
e)
Inferior a 105
f)
Superior a 97
g)
Entre 105 e 112
h)
Entre 89 e 93
i)
98
Dica:
Crie uma
coluna com
os valores
100 115...98
no Minitab
Crie uma
coluna com
os valores
0,74...0,32...
no Minitab
Em uma população onde as medidas
tem Média 100 e Desvio Padrão 5,
determine os valores k tais que se tenha
a probabilidade:
a)
P(X>k)=0,26
b)
P(X<k)=0,32
c)
P(k1<100<k2)=0,47
(k1 e k2 simétricos em
relação a 100)
31
1-Estatística
X : N (µ ;σ )
Target e Upper Spec. Limit
µµ
Ponto de Inflexão
1σ
1σ
p(d)
TT
USL
USL
3σ
32
1-Estatística
Normal Reduzida ou Padronizada
z=
ϕ(z)
x−µ
σ
ZBench
-3
-2
-1
µ-3σ µ -2σ µ -σ
0
µ
1
2
3
µ+σ µ+2σ µ+3σ
Tal fórmula está tabelada e
fornece valores acumulados
z
Z: N(0; 1)
x
X : N (µ ;σ )
Qual o formato da
curva acumulada?
33
1-Estatística
Exemplo – Cumulative Probability
Suponha que X: N(100; 2) e que desejamos avaliar P(X ≤ 104).
P(x≤104) = 0.9772 = F(104)
104 − 100
z0 =
=2
2
100
0
104
z0 = 2
x
Φ( 2) = 0.9772
z
34
1-Estatística
Exemplo – Usando Normal Reduzida
A tensão de ruptura (em newtons) de uma fibra sintética é representada por X e
distribuída como N(800; 12). O controle de qualidade na fabricação da fibra exige
uma tensão de no mínimo 772 N. Uma amostra da fibra é randomicamente testada.
A probabilidade de obtermos P(X ≥ 772) é obtido a partir de:
⎛ x − µ 772 − 800 ⎞
P( X < 772 ) = P⎜
<
⎟
12
⎝ σ
⎠
= P(Z < −2.33)
= Φ(− 2.33) = 0.01
3
σ = 12
σ=1
P(X ≥ 772)=1 - P(X <77 2) = 0.99
772
800
x
-2.33
0
z
35
1-Estatística
Normal Probability Plot
Gere uma sequência de dados qualquer. Ex.: 100 valores
Weibull (5,8) e faça o gráfico Probability Plot
99
95
90
Percent
10%
80
10
70
60
50
40
30
20
10%
10%
10%
10%
30
50
20
70
80
10
90
10%
5
1
25
35
45
55
Observe:
Data
Dados no eixo X e
Espaços diferentes no eixo Y
… são Propositais devido aos percentis da curva Normal!
36
1-Estatística
Testando Normalidade
3 Maneiras de Ver se Seus Dados estão Distribuídos Normalmente
Normal Distribution
Normal Probability Plots
.999
.99
.95
Probability
Frequency
100
50
.80
.50
.20
.05
.01
.001
0
26
20
30
40
50
60
70
80
90
100
36
46
56
66
76
Average: 70
Std Dev: 10
N of data: 500
C1
86
96
106
Normal
110
Anderson-Darling Normality Test
A-Squared: 0.418
p-value: 0.328
Positive Skewed Distribution
Normal Probability Plots
Probability
Frequency
300
200
.999
.99
.95
.80
.50
.20
100
.05
.01
.001
0
60
70
80
90
100
110
120
60
130
80
90
100
110
Average: 70
Std Dev: 10
N of data: 500
120
130
Anderson-Darling Normality Test
A-Squared: 46.447
p-value: 0.000
Negative Skewed Distribution
Normal Probability Plots
300
.999
.99
.95
.80
200
Probability
Frequency
70
Pos Skew
C2
100
.50
.20
.05
.01
.001
Se
SeooTeste
Testede
de
Normalidade
Normalidade
mostrar
mostrarum
um
"valor-P"
"valor-P"
Menor
Menor que
que
0,05,
0,05,então
entãoos
os
dados
dados NÃO
NÃO
ESTÃO
ESTÃObem
bem
representados
representados
por
poruma
uma
distribuição
distribuição
normal
normal
0
0
10
20
30
40
C3
50
60
70
0
80
10
20
30
40
50
60
70
80
Used With Permission
Neg Skew
Average: 70
Std Dev: 10
N of data: 500
Anderson-Darling Normality Test
A-Squared: 43.953
p-value: 0.000
© AlliedSignal 1995 -
37
Dr. Steve Zinkgraf
1-Estatística
Teste Anderson-Darling
A distribuição pode ser
considerada Normal
Exercício:
Gere diferentes sequências de dados de uma forma aleatória e
teste a normalidade usando o Minitab
38
1-Estatística
Soma de Normais
Processo A
Processo B
Tempo Total (A+B)
?
3
X=3
s=1
7
X=7
s=2
S A +B =
2
SA
+
2
SB
=
2
(1) + (2)
≠ 1+ 2 = 3
2
=
5 = 2.23
Correto;
Some as
variâncias e
depois
obtenha o
Desvio
Padrão
Incorreto;
39
1-Estatística
Diferença de Normais
Linha A
Diferença:
Linha A – Linha B
Linha B
?
-10
0
-5
X = 3
s = 1
X A −B = X A - XB = 3 - 7 = - 4
2
2
2
5
2
SA – B = SA + SB = (1) + (2)
10
15
X = 7
s = 2
= 5 = 2.23
Correto
≠ 1 − 2= −1
Incorreto
40
1-Estatística
Pratique
O orçamento de uma empresa para uma certa conta é
R$ 100. Variações de 3% acima e abaixo deste valor
são consideradas aceitáveis, ou seja, de R$ 97 a R$
103. Sabe-se, pela análise de dados históricos, que a
variação nesta conta obedece à distribuição normal,
com média de R$ 99 e desvio-padrão de R$ 1,25.
• Que porcentagem de vezes o orçamento encontra-se
fora da faixa aceitável?
Resp 5,55%
41
1-Estatística
1.
2.
3.
Exercícios
Em um banco há uma norma de que nenhum cliente deve permanecer
na fila por mais de 15 minutos. Se o tempo de espera é normal, com
média 9,45 minutos e desvio-padrão de 2,75 minutos, em que
porcentagem das vezes a norma não é cumprida?
O tempo que Alarico leva do seu trabalho até sua casa tem distribuição
normal, com média 90 minutos e desvio-padrão de 5 minutos. Qual é a
probabilidade dele levar mais do que 110 minutos no trajeto?
Uma pessoa precisa pegar um trem que parte pontualmente em 20 min,
podendo optar por dois trajetos para chegar à estação: T1 ou T2. Sabe-se
que o tempo para percorrer T1 é normal com média 18 min e desviopadrão de 5 min, e idem para T2, mas com média 20 min e desviopadrão 2 min. Qual é a melhor decisão de trajeto? Sabendo que o trem
está com atraso de 3 min, qual é a melhor decisão agora?
42
1-Estatística
Estudar é preciso!
1) Definina um Projeto de Melhoria de Processos abordando: Processos,
Fatores Controláveis e Incontroláveis, Respostas, SIPOC, etc... Prepare
uma rápida apresentação. Coloque as palavras-chave relacionadas (em
Inglês).
2)
Rode o Programa PQSystems e procure entender todos os 5 tópicos
existentes:
•
Central Limit Theorem
•
Quincunx
•
Demmning’s Funnel
•
Red Bead Experiment
•
Dice Experiment
3) Refaça todos os exemplos do capítulo 1
4) Observe os arquivos contidos no CD do curso.
43
Download