Do que trata a Estatística Estatística Básica (Anova, TH, Regressão

Propaganda
1-Estatística
Descritiva
Do que trata a Estatística
A essência da ciência é a observação.
Estatística: A ciência que se preocupa com a organização, descrição, análise e
interpretação dos dados experimentais. Ramo da Matemática Aplicada. A
palavra estatística provêm de Status.
Curiosidade: Em 1662, John Graunt
publicou os primeiros informes estatísticos.
Era sobre nascimento e mortes.
Estatística Básica (Anova,
TH, Regressão)
Simulação / PO
Séries Temporais
DOE /Taguchi /RSM
Data Mining
Análise de Sistema de Medição
Six Sigma
Estatística Multivariada
Redes Neurais
Amostragem / Pesquisa
Controle de Qualidade
Confiabilidade
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
1
1-Estatística
Descritiva
População e Amostra
v A População (ou Distribuição) é a coleção de todas as
observações potenciais sobre determinado fenômeno.
v O conjunto de dados efetivamente observados, ou
extraídos, constitui uma Amostra da população.
vUm Censo é uma coleção de dados relativos a Todos os
elementos de uma população.
vUm Parâmetro está para a População assim como uma
Estatística está para a Amostra.
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
2
1-Estatística
Descritiva
Tipos de Dados
(Também Dados Categóricos
ou de Atributos)
Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Contínua
Ex.: Para uma população de peças produzidas em um
determinado processo, poderíamos ter:
Variável
Tipo
Estado: Perfeita ou defeituosa
Qualitativa Nominal
(Variáveis)
Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal
No de peças defeituosas
Quantitativa Discreta
Diâmetro das peças
Quantitativa Contínua
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
3
1-Estatística
Descritiva
<Calc> <Random Data> Números Aleatórios
Aplicação: Gere sequências de valores aleatórios que represente
problemas em sua área.
O que significa o procedimento <Calc> <Set Base>?
Amostragem: Gere a sequência 1 2 3 ...100.
<Calc> <Make Patterned Data>
Selecione uma amostra com 10 valores a partir das sequências geradas
anteriormente.
Use <Calc> Random Data> <Sample from Column>
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
4
1-Estatística
Descritiva
<Graphical Summary>
Ex.:Número de acessos à página do Site da Empresa
durante os últimos 100 dias úteis.
Aplicação:
Gere uma sequência de
dados que represente um
processo em sua área e
calcule as estatísticas
desse conjunto de dados.
Use:
<Random> e
<Display Descriptive
Statistics>
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
5
1-Estatística
Descritiva
Medidas de Posição: Média
n
Aritmética Simples
x=
x1 + x 2 ++...+
L+ xn
n
=
∑x
i =1
i
n
n
Aritmética Ponderada
x1 p1 + x2 p2 ++...+
L + x n pn
x=
=
p1 + p2 ++...+
L + pn
∑xp
i =1
n
i
i
∑p
i =1
i
Um pouco sobre arredondamento de médias:
q Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73
q Em várias operações, arredonde apenas o resultado final
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
6
1-Estatística
Descritiva
Um Cidadão Americano “Médio”
q Chama-se Robert
q Pesa 78 Kg
q Manequim 48
q 85 cm de cintura
q Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de
batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.
q Vê TV por ano 2567 horas
q Recebe anualmente 585 “coisas” por correio (cartas e outros)
q Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e
trabalha 6,1 horas
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
7
1-Estatística
Descritiva
Medidas de Posição: Mediana
Se n é ímpar:
 n + 1
~
 termo
x =
 2 
o
Ex.:
Se n é par:
o
o
n 
n

  termo +  + 1 termo
2 
2

~
x=
2
{35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ ~x = 40
15 + 16
~
{12 , 14, 14 ,15, 16, 16,17 , 20} ⇒ x = 2 = 15,5
Mediana é o valor “do meio” de um conjunto de dados dispostos em
ordem crescente ou decrescente.
Inconveniente: Não considera todos os valores da amostra!
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
8
1-Estatística
Descritiva
Ex.:
Média x Mediana
{ 200, 250, 250, 300, 450, 460, 510 }
x = 345,7
~
x = 300
Ambas são boas medidas
de Tendência Central.
Prefira a média
{ 200, 250, 250, 300, 450, 460, 2300 }
x
= 601
~
x = 300
Devido ao Outlier
2300, a mediana é
melhor estatística que
a média.
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
9
1-Estatística
Descritiva
Medidas de Dispersão
Rode e Entenda o
programa Interativo da
PQ Systems
Discuta:
1) Porque os bancos adotam fila única?
2) “Por favor, com quantos dias de antecedência eu
devo postar uma carta de aniversário para minha
mãe?”
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
10
1-Estatística
Descritiva
Variabilidade
A = { 3, 4, 5, 6, 7 }
B = { 1, 3, 5, 7, 9 }
C = { 5, 5, 5, 5 }
D = { 3, 5, 5, 7 }
E = { 3.5, 5, 6.5 }
Uma medida de Posição não é
suficiente para descrever um conjunto
de dados. Os Conjuntos ao lado
mostram isso! Eles possuem mesma
média, sendo diferentes.
Algumas medidas de Variabilidade:
Amplitude (H): Tem o inconveniente de levar em conta apenas os
dois valores extremos:
HÁ =7-3=4
Amplitude=Range
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
11
1-Estatística
Descritiva
Medidas de Dispersão
Considerando os desvios em relação à média, temos, para A, por
exemplo:
xi - x
{-2, -1, 0, 1, 2}
A = { 3, 4, 5, 6, 7 }
n
∑ (x
Inconveniente:
i =1
1
n
n
i =1
i =1
− x ) = ∑ x1 − ∑ x = n x − n x ≡ 0
Uma opção para analisar os desvios das observações é:
considerar o total dos quadrados dos desvios.
∑ (x
5
i =1
− x ) =4 + 1 + 0 + 1 + 4 = 10
2
i
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
12
1-Estatística
Descritiva
Desvio Padrão
Associando ao número de elementos da amostra (n), tem-se:
.
∑ (x
n
S2
=
S = S2
i =1
i
− x)
2
...que é a Variância ( Var(x))
n
...que é o Desvio Padrão (DP(x)), uma
medida que é expressa na mesma unidade
dos dados originais
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
13
1-Estatística
Descritiva
Dispersão: Fórmulas Alternativas
∑ (x
n
n
S =
2
∑ (x
i =1
i
n
− x)
n
2
=
∑x
i =1
n
2
S =
2
i
−x
2
Variância Populacional
(σ2 ou σn 2 )
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
i =1
i
− x)
2
n−1
Variância
Amostral
n-1 está
Relacionado a
um problema de
tendenciosidade
14
1-Estatística
Descritiva
Exemplo
Calcular a Variância e o Desvio Padrão de X
X
X
5
4
3
1
2
Uma Regra
Prática para
conjunto de dados
típicos:
S=Amplitude/4
Média
Média==33
X
=
Soma dos pontos de dados
(X − X )
(X − X )
2
1
0
-2
-1
4
1
0
4
1
2
Número dos pontos de dados
S= S
2
Raiz
RaizQadrada
Qadrada
da
daVariância
Variância
==Desv.Pa.
Desv.Pa.==SS
==1,58
1,58
S2
Soma
Somada
da
última
últimacoluna
coluna
==10
10
Divide
DivideaaSoma
Soma
por
por(n-1):
(n-1):
2
==Variância
Variância==SS2
==2,5
2,5
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
15
1-Estatística
Descritiva
Expressões para Média e Variância
N
µ =
Média da População
∑X
i =1
i
N
N
Desvio Padrão da População
σ =
2
(X
−
µ
)
∑ i
i=1
N
n
x=
Média da Amostra
xi
∑
i=1
n
N
Desvio Padrão da Amostra
s=
2
(X
X
)
−
∑ i
i=1
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
n -1
16
1-Estatística
Descritiva
Outlier ( fora da distância do Q3 + 1,5D )
Observação Máxima
75%
109
Q3=75ª Percentil
104
DBP
*
Outra Estratégia: Percentis e Boxplot
50%
99
D=Q3-Q1
94
25%
Interquartil
Q2=Mediana (50ª Percentil)
Q1=25ª Percentil
EDA (Exploratory
Data Analysis) e
Método dos Cinco
Números
Boxplot é desgastante quando feito sem
computador pois supõe a ordenação de dados.
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
17
1-Estatística
Descritiva
Percentis e Boxplot
Use Boxplot.mtw e faça o
Graphical Summary
çValor do meio
(n+1)/4 0
2.(n+1)/4
Quartis:
0
è Q1=Quarta Observação Crescente=71.7
è Q3=Quarta Observação Decrescente=150.6
3.(n+1)/4 0
Para valores
não inteiros
dos quartis,
usa-se
interpolação
Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95
è São outliers valores maiores que 268.95
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
18
1-Estatística
Descritiva
Percentis e Boxplot
Exercício: <StatGame><Describing Data><BoxPlot>
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
19
1-Estatística
Descritiva
Boxplot – Stack Columns
Exercício: Como conduzir uma análise de questionário
(com escala de Likert) usando Boxplot?
Use:
<Graph> <Boxplot>
Use a opção <Frame>
<Multiple Graph>
Likert.mtw
Entenda o
procedimento de
empilhamento de
colunas (Stack):
Avaliacao
100
50
<Manip>
<Stack Columns>
0
Perg1
Perg2
Perg3
Perg4
Perg5
Perg6
Perguntas
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
20
1-Estatística
Descritiva
xi − x
zi =
s
Escores padronizados (z)
xi - x considera o afastamento de xi em relação à média.
A divisão por s torna s como unidade ou padrão de medida.
Ex.: Dois grupos de pessoas acusam os seguintes dados:
Nesses grupos há duas
Grupo Peso médio Desvio Padrão
pessoas que pesam
A
66.5 kg
6.38 kg
respectivamente, 81.2 kg e
B
72.9 kg
7.75 kg
88.0 kg.
81,2 − 66,5
88 − 72,9
em A : z A =
= 2,3 e em B : z B =
= 1,95
6,38
7,75
Logo, a pessoa de A revela um maior excesso relativo de peso.
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
21
1-Estatística
Descritiva
Regra 68 -- 95 -- 99
Escores padronizados (z)
Regra 68 -- 95 -- 99
xi − x
zi =
s
ü Cerca de 68% dos valores estão a menos de 1 desvio padrão a
contar da média (-1 < z < 1)
ü Cerca de 95% dos valores estão a menos de 2 desvios padrão a
contar da média (-2 < z < 2)
ü Cerca de 99% dos valores estão a menos de 3 desvios padrão a
contar da média (-3 < z < 3)
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
22
1-Estatística
Descritiva
Distribuição de Freqüências
Ex.: População = X=Diâmetro de determinada peça (em mm).
Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 }
Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 }
Amplitude (H) = 168 - 163 = 5
∑n
K
ni
fi
Ni
Fi
X
(Frequência
Absoluta)
(Frequência
Relativa)
(Frequência
Absoluta
Acumulada)
Frequência
Relativa
Acumulada)
163
1
0.1
1
0.1
164
3
0.3
4
0.4
165
2
0.2
6
0.6
168
4
0.4
10
1.0
Σ
10
1
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
i
=n
1
ni
fi =
n
K
∑f
i=1
i
=1
Ni
Fi =
n
23
1-Estatística
Descritiva
Classes (ou Categorias)
x
xi
ni
fi
f%
(Variável)
(ponto
médio)
(frequência
absoluta)
(frequência
relativa)
(frequência
percentual)
Ni
Fi
(Absoluta (Relativa
Acum.)
Acum.)
F%
(Percentual
Acum.)
10
20
15
2
0.04
4
2
0.04
4
20
30
25
12
0.24
24
14
0.28
28
30
40
35
18
0.36
36
32
0.64
64
40
50
45
13
0.26
26
45
0.9
90
50
60
55
5
0.1
10
50
1.0
100
50
1
100
Σ
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
24
1-Estatística
Descritiva
Histogramas
Construção da tabela de distribuição de
freqüências a partir do histograma de classes
desiguais.
Exercício: Complete a tabela.
ni
X
10
fi
|-- 20
8
10
6
20 |-- 30
4
ni
30 |-- 40
2
40 |-- 60
10
20
30
40
60
x
Σ
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
1
25
1-Estatística
Descritiva
Ramo-e-folhas
 x
Ramos  x x
Folhas
 x x x x x
 x x x
Ex.:
11
81
113
108
74
79
78
90
93
105
109
93
106
103
100
100
100
101
101
101
95
90
94
90
91
92
93
87
89
78
89
85
94
86
3
10
8
5
9
6
3
0
0
0
1 1
1
9
0
3
3
5
0
4
0
1
2 3
4
8
1
7
9
9
5
6
7
4
9
8
8
11
3
10+
8
5
9
6
10-
3
0
0
0
1
1
1
9-
0
3
3
5
0
4
0
8
1
7
9
9
5
6
7
4
9
8
8
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
1
2
3
4
26
1-Estatística
Descritiva
Ramo-e-folhas
Obtenha o
seguinte Folha
e Ramo na
planilha
grafico.mtw
Compare os
resultados
fazendo um
Histograma.
O que
representa tal
coluna?
Stem-and-Leaf Display:
folha_ramo
Stem-and-leaf of Ramo
Leaf Unit = 1.0
1
4
5
10
(10)
13
12
5
1
7
7
8
8
9
9
10
10
11
N = 33
4
889
Coluna
1
folha_ramo
56799
0001233344
5
0001113
5689
3
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
27
1-Estatística
Descritiva
Plot
Exercício no Minitab: Faça o gráfico
abaixo a partir da planilha grafico.mtw
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
28
1-Estatística
Descritiva
<Marginal Plot>
Faça o gráfico abaixo a
partir da planilha
grafico.mtw
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
29
1-Estatística
Descritiva
Runchart
Abra runchart.mtw
<Stat> <Quality Tools>
<Run Chart>
•Column=Tempo na fila
•Subgroup Size=1
v
Os dados representam uma série temporal
v
Tal gráfico é útil para ver a estabilidade de
um processo.
v
Control Chart é Melhor!
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
30
1-Estatística
Descritiva
Multi-Vari
•Identifica Diversos tipos de variação
•A análise de efeitos é similar em DOE
•Permite identificar interações
•Não é o mesmo que Estatística Multivariada
Use
TempoSinter
0,5
Sinter.mtw
23,5
<Stat>
22,5
<Quality Tools>
21,5
1,0
Força
2,0
<Multi-Vari>:
20,5
Response: Força
19,5
Factor1: TempoSinter
18,5
Factor2: TipoMetal
17,5
15
18
21
TipoMetal
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
31
1-Estatística
Descritiva
S
cv =
x
Coeficiente de Variação (cv)
cv exprime a variabilidade em termos relativos. É uma medida
adimensional e sua grande utilidade é permitir a comparação
das variabilidades em diferentes conjuntos de dados.
Ex.: Testes de resistência à tração aplicados a dois tipos diferentes de aço:
Média (kg/mm2) s (kg/mm2)
Tipo I 27,45
2,0
Tipo II 147,00
17,25
2
cvI =
= 7,29 %
27 ,45
17,25
cv II =
= 11,73 %
147
Assim, apesar do Tipo I ser menos resistente, é ele mais estável, mais consistente. O
uso do coeficiente de variação pode ser pensado considerando a questão: Um desvio
padrão de 10 se a média é 10.000 é bem diferente se a média é 100!
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
32
1-Estatística
Descritiva
Skewness and Kurtosis
Assimetria (Skewness)
Próximo de 0: Simétrico
Menor que 0: Assimétrico à
Esquerda
Maior que 0: Assimétrico à
Direita
Achatamento (Kurtosis)
Próximo de 0: Pico Normal
Menor que 0: Mais achatada
que o Normal (Uniforme)
Maior que 0: Menos achatada
que o normal (Afinada)
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
33
1-Estatística
Descritiva
Estudar é preciso!
• Livro Texto: Montgomery/Runger
– Capítulo 1: Ler
– Capítulo 2: Resolver todos os
exercícios em que o uso de computador
é indicado. Os arquivos de dados do
Minitab podem ser obtidos na página
www.iem.efei.br/pedro.
Pedro Paulo Balestrassi www.iem.efei.br/pedro 35-3629-1161
34
Download