Estatística A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada. A palavra estatística provêm de Status. Curiosidade: Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes. Estatística Básica (Anova, TH, Regressão) Simulação / PO Séries Temporais DOE /Taguchi /RSM Data Mining Análise de Sistema de Medição Six Sigma Estatística Multivariada Redes Neurais Amostragem / Pesquisa Controle de Qualidade Confiabilidade 1-Estatística População e Amostra A População (ou Distribuição) é a coleção de todas as observações potenciais sobre determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população. Um Censo é uma coleção de dados relativos a Todos os elementos de uma população. Um Parâmetro está para a População assim como uma Estatística está para a Amostra. 2 1-Estatística Tipos de Dados (Também Dados Categóricos ou de Atributos) Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua (Variáveis) Ex.: Para uma população de peças produzidas em um determinado processo, poderíamos ter: Variável Tipo Estado: Perfeita ou defeituosa Qualitativa Nominal Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal No de peças defeituosas Quantitativa Discreta Diâmetro das peças Quantitativa Contínua 3 1-Estatística <Calc> <Random Data> Números Aleatórios Aplicação: Gere sequências de valores aleatórios que represente problemas em sua área. O que significa o procedimento <Calc> <Set Base>? Amostragem: Gere a sequência 1 2 3 ...100. <Calc> <Make Patterned Data> Selecione uma amostra com 10 valores a partir das sequências geradas anteriormente. Use <Calc> Random Data> <Sample from Column> 4 1-Estatística <Graphical Summary> Ex.:Número de acessos à página do Site da Empresa durante os últimos 100 dias úteis. Aplicação: Gere uma sequência de dados que represente um processo em sua área e calcule as estatísticas desse conjunto de dados. Use: <Random> e <Display Descriptive Statistics> 5 1-Estatística Medidas de Posição: Média n Aritmética Simples x1 + x 2 ++...+ L + xn x= = n ∑x i =1 i n n Aritmética Ponderada x1 p1 + x 2 p2 ++...+ L + x n pn x= = p1 + p2 ++...+ L + pn ∑xp i =1 n i ∑p i =1 i i Um pouco sobre arredondamento de médias: Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73 Em várias operações, arredonde apenas o resultado final 6 1-Estatística Um Cidadão Americano “Médio” Chama-se Robert Pesa 78 Kg Manequim 48 85 cm de cintura Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne. Vê TV por ano 2567 horas Recebe anualmente 585 “coisas” por correio (cartas e outros) Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e trabalha 6,1 horas 7 1-Estatística Medidas de Posição: Mediana Se n é ímpar: ⎛ n + 1⎞ ~ ⎟ termo x =⎜ ⎝ 2 ⎠ o Ex.: Se n é par: o o ⎛n ⎞ ⎛n⎞ ⎜ ⎟ termo + ⎜ + 1⎟ termo ⎝2 ⎠ ⎝2⎠ ~ x= 2 {35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ x~ = 40 15 + 16 ~ {12, 14, 14, 15, 16, 16, 17, 20} ⇒ x = 2 = 15,5 Mediana é o valor “do meio” de um conjunto de dados dispostos em ordem crescente ou decrescente. Inconveniente: Não considera todos os valores da amostra! 8 1-Estatística Ex.: Média x Mediana { 200, 250, 250, 300, 450, 460, 510 } x = 345,7 x~ = 300 Ambas são boas medidas de Tendência Central. Prefira a média { 200, 250, 250, 300, 450, 460, 2300 } x = 601 x~ = 300 Devido ao Outlier 2300, a mediana é melhor estatística que a média. 9 1-Estatística Medidas de Dispersão Rode e Entenda o programa Interativo da PQ Systems Discuta: 1) Porque os bancos adotam fila única? 2) “Por favor, com quantos dias de antecedência eu devo postar uma carta de aniversário para minha mãe?” 10 1-Estatística A = { 3, 4, 5, 6, 7 } B = { 1, 3, 5, 7, 9 } C = { 5, 5, 5, 5 } D = { 3, 5, 5, 7 } E = { 3.5, 5, 6.5 } Variabilidade Uma medida de Posição não é suficiente para descrever um conjunto de dados. Os Conjuntos ao lado mostram isso! Eles possuem mesma média, sendo diferentes. Algumas medidas de Variabilidade: Amplitude (H): Tem o inconveniente de levar em conta apenas os dois valores extremos: HÁ =7-3=4 Amplitude=Range 11 1-Estatística Medidas de Dispersão Considerando os desvios em relação à média, temos, para A, por exemplo: {-2, -1, 0, 1, 2} xi - x A = { 3, 4, 5, 6, 7 } n ∑ (x Inconveniente: i =1 1 n n i =1 i =1 − x ) = ∑ x1 − ∑ x = n x − n x ≡ 0 Uma opção para analisar os desvios das observações é: considerar o total dos quadrados dos desvios. 5 ∑ (x i =1 − x ) =4 + 1 + 0 + 1 + 4 = 10 2 i 12 1-Estatística Desvio Padrão Associando ao número de elementos da amostra (n), tem-se: . n ∑ (x S2 = S = S2 i =1 i − x) 2 ...que é a Variância ( Var(x)) n ...que é o Desvio Padrão (DP(x)), uma medida que é expressa na mesma unidade dos dados originais 13 1-Estatística Dispersão: Fórmulas Alternativas n n ∑ (x S2 = i =1 i n − x) ∑ (x n ∑ 2 = i =1 xi 2 n Variância Populacional (σ2 ou σn 2 ) S = 2 − x2 i =1 i − x) 2 n−1 Variância Amostral n-1 está Relacionado a um problema de tendenciosidade 14 1-Estatística Exemplo Calcular a Variância e o Desvio Padrão de X X X 5 4 3 1 2 Uma Regra Prática para conjunto de dados típicos: S=Amplitude/4 Média Média==33 X = Soma dos pontos de dados (X − X ) (X − X ) 2 1 0 -2 -1 4 1 0 4 1 2 Número dos pontos de dados S= S 2 Raiz RaizQadrada Qadrada da daVariância Variância ==Desv.Pa. Desv.Pa.==SS ==1,58 1,58 S2 Soma Somada da última últimacoluna coluna ==10 10 Divide DivideaaSoma Soma por por(n-1): (n-1): 2 ==Variância Variância==SS2 ==2,5 2,5 15 1-Estatística Expressões para Média e Variância N µ = Média da População ∑X i i =1 N N Desvio Padrão da População σ = 2 (X µ ) − ∑ i i=1 N n ∑x x= Média da Amostra i=1 n N ∑ (X Desvio Padrão da Amostra s= i i −X) 2 i=1 n -1 16 1-Estatística Outlier ( fora da distância do Q3 + 1,5D ) Observação Máxima 75% 109 Q3=75ª Percentil 104 DBP * Outra Estratégia: Percentis e Boxplot 50% 99 D=Q3-Q1 94 25% Interquartil Q2=Mediana (50ª Percentil) Q1=25ª Percentil EDA (Exploratory Data Analysis) e Método dos Cinco Números Boxplot é desgastante quando feito sem computador pois supõe a ordenação de dados. 17 1-Estatística Percentis e Boxplot ÍValor do meio (n+1)/4 0 Quartis: 2.(n+1)/4 0 Î Q1=Quarta Observação Crescente=71.7 Î Q3=Quarta Observação Decrescente=150.6 3.(n+1)/4 0 Para valores não inteiros dos quartis, usa-se interpolação Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95 Î São outliers valores maiores que 268.95 Use Boxplot.mtw e faça o Graphical Summary 18 1-Estatística Percentis e Boxplot Exercício: <StatGame><Describing Data><BoxPlot> 19 1-Estatística Boxplot – Stack Columns Exercício: Como conduzir uma análise de questionário (com escala de Likert) usando Boxplot? Use: <Graph> <Boxplot> Use a opção <Frame> <Multiple Graph> Likert.mtw Entenda o procedimento de empilhamento de colunas (Stack): Avaliacao 100 50 0 <Manip> <Stack Columns> Perg1 Perg2 Perg3 Perg4 Perg5 Perg6 Perguntas 20 1-Estatística Plot Exercício no Minitab: Faça o gráfico abaixo a partir da planilha grafico.mtw 21 1-Estatística <Marginal Plot> Faça o gráfico abaixo a partir da planilha grafico.mtw 22 1-Estatística Runchart Abra runchart.mtw <Stat> <Quality Tools> <Run Chart> •Column=Tempo na fila •Subgroup Size=1 Os dados representam uma série temporal Tal gráfico é útil para ver a estabilidade de um processo. Control Chart é Melhor! 23 1-Estatística Multi-Vari •Identifica Diversos tipos de variação •A análise de efeitos é similar em DOE •Permite identificar interações •Não é o mesmo que Estatística Multivariada Use TempoSinter Sinter.mtw 0,5 23,5 <Stat> 2,0 22,5 <Quality Tools> Response: Força Factor1: TempoSinter 21,5 Força <Multi-Vari>: 1,0 20,5 19,5 18,5 Factor2: TipoMetal 17,5 15 18 21 TipoMetal 24 1-Estatística xi − x zi = s Escores padronizados (z) xi - x considera o afastamento de xi em relação à média. A divisão por s torna s como unidade ou padrão de medida. Ex.: Dois grupos de pessoas acusam os seguintes dados: Nesses grupos há duas Grupo Peso médio Desvio Padrão pessoas que pesam A 66.5 kg 6.38 kg respectivamente, 81.2 kg e B 72.9 kg 7.75 kg 88.0 kg. 81,2 − 66,5 88 − 72,9 em A : z A = = 2,3 e em B : z B = = 1,95 6,38 7,75 Logo, a pessoa de A revela um maior excesso relativo de peso. 25 1-Estatística Regra 68 -- 95 -- 99 Escores padronizados (z) Regra 68 -- 95 -- 99 xi − x zi = s 9 Cerca de 68% dos valores estão a menos de 1 desvio padrão a contar da média (-1 < z < 1) 9 Cerca de 95% dos valores estão a menos de 2 desvios padrão a contar da média (-2 < z < 2) 9 Cerca de 99% dos valores estão a menos de 3 desvios padrão a contar da média (-3 < z < 3) 26 1-Estatística Regra 68 -- 95 -- 99 P(µ - 1.00 σ ≤ X ≤ 1.00 σ) = 0.6826 P(µ - 1.645 σ ≤ X ≤ µ + 1.645 σ) = 0.90 P(µ - 1.96 σ ≤ X ≤ µ + 1.96 σ) = 0.95 P(µ - 2.00 σ ≤ X ≤ µ + 2.00 σ) = 0.9545 P(µ - 2.57 σ ≤ X ≤ µ + 2.57 σ) = 0.99 P(µ - 3.00 σ ≤ X ≤ µ + 3.00 σ) = 0.9978 Probabilidade do valor da amostra Alguns intervalos simétricos que são usados freqüentemente. 40% 68% 30% 95% 20% 99.73% 10% 0% -4 -3 -2 -1 0 1 2 3 4 Número de Desvios Padrão da Média 27 1-Estatística Distribuição Normal (ou Gaussiana) Observe no programa Quality Gamebox o Processo de Construção de uma Distribuição Normal. A distribuição mais importante em Estatística (“The Bell Curve”) Aplicação: Cite variáveis, em sua área de interesse, que tem uma distribuição Normal. Complete a tabela Descrição da Variável Média (estimada) Desvio Padrão (estimada) 28 1-Estatística Statdisk Use o programa Statdisk <Analysis> <Probability Distribution> <Normal Distribution> Observe em <Options> os valores acumulados 29 1-Estatística <Calc> <Probability Distributions> 30 1-Estatística Exercício Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine a probabilidade de se ter uma medida: a) Entre 100 e 115 b) Entre 100 e 90 c) Superior a 110 d) Inferior a 95 e) Inferior a 105 f) Superior a 97 g) Entre 105 e 112 h) Entre 89 e 93 i) 98 Dica: Crie uma coluna com os valores 100 115...98 no Minitab Crie uma coluna com os valores 0,74...0,32... no Minitab Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine os valores k tais que se tenha a probabilidade: a) P(X>k)=0,26 b) P(X<k)=0,32 c) P(k1<100<k2)=0,47 (k1 e k2 simétricos em relação a 100) 31 1-Estatística X : N (µ ;σ ) Target e Upper Spec. Limit µµ Ponto de Inflexão 1σ 1σ p(d) TT USL USL 3σ 32 1-Estatística Normal Reduzida ou Padronizada z= ϕ(z) x−µ σ ZBench -3 -2 -1 µ-3σ µ -2σ µ -σ 0 µ 1 2 3 µ+σ µ+2σ µ+3σ Tal fórmula está tabelada e fornece valores acumulados z Z: N(0; 1) x X : N (µ ;σ ) Qual o formato da curva acumulada? 33 1-Estatística Exemplo – Cumulative Probability Suponha que X: N(100; 2) e que desejamos avaliar P(X ≤ 104). P(x≤104) = 0.9772 = F(104) 104 − 100 z0 = =2 2 100 0 104 z0 = 2 x Φ( 2) = 0.9772 z 34 1-Estatística Exemplo – Usando Normal Reduzida A tensão de ruptura (em newtons) de uma fibra sintética é representada por X e distribuída como N(800; 12). O controle de qualidade na fabricação da fibra exige uma tensão de no mínimo 772 N. Uma amostra da fibra é randomicamente testada. A probabilidade de obtermos P(X ≥ 772) é obtido a partir de: ⎛ x − µ 772 − 800 ⎞ P( X < 772 ) = P⎜ < ⎟ 12 ⎝ σ ⎠ = P(Z < −2.33) = Φ(− 2.33) = 0.01 3 σ = 12 σ=1 P(X ≥ 772)=1 - P(X <77 2) = 0.99 772 800 x -2.33 0 z 35 1-Estatística Normal Probability Plot Gere uma sequência de dados qualquer. Ex.: 100 valores Weibull (5,8) e faça o gráfico Probability Plot 99 95 90 Percent 10% 80 10 70 60 50 40 30 20 10% 10% 10% 10% 30 50 20 70 80 10 90 10% 5 1 25 35 45 55 Observe: Data Dados no eixo X e Espaços diferentes no eixo Y … são Propositais devido aos percentis da curva Normal! 36 1-Estatística Testando Normalidade 3 Maneiras de Ver se Seus Dados estão Distribuídos Normalmente Normal Distribution Normal Probability Plots .999 .99 .95 Probability Frequency 100 50 .80 .50 .20 .05 .01 .001 0 26 20 30 40 50 60 70 80 90 100 36 46 56 66 76 Average: 70 Std Dev: 10 N of data: 500 C1 86 96 106 Normal 110 Anderson-Darling Normality Test A-Squared: 0.418 p-value: 0.328 Positive Skewed Distribution Normal Probability Plots Probability Frequency 300 200 .999 .99 .95 .80 .50 .20 100 .05 .01 .001 0 60 70 80 90 100 110 120 60 130 80 90 100 110 Average: 70 Std Dev: 10 N of data: 500 120 130 Anderson-Darling Normality Test A-Squared: 46.447 p-value: 0.000 Negative Skewed Distribution Normal Probability Plots 300 .999 .99 .95 .80 200 Probability Frequency 70 Pos Skew C2 100 .50 .20 .05 .01 .001 Se SeooTeste Testede de Normalidade Normalidade mostrar mostrarum um "valor-P" "valor-P" Menor Menor que que 0,05, 0,05,então entãoos os dados dados NÃO NÃO ESTÃO ESTÃObem bem representados representados por poruma uma distribuição distribuição normal normal 0 0 10 20 30 40 C3 50 60 70 0 80 10 20 30 40 50 60 70 80 Used With Permission Neg Skew Average: 70 Std Dev: 10 N of data: 500 Anderson-Darling Normality Test A-Squared: 43.953 p-value: 0.000 © AlliedSignal 1995 - 37 Dr. Steve Zinkgraf 1-Estatística Teste Anderson-Darling A distribuição pode ser considerada Normal Exercício: Gere diferentes sequências de dados de uma forma aleatória e teste a normalidade usando o Minitab 38 1-Estatística Soma de Normais Processo A Processo B Tempo Total (A+B) ? 3 X=3 s=1 7 X=7 s=2 S A +B = 2 SA + 2 SB = 2 (1) + (2) ≠ 1+ 2 = 3 2 = 5 = 2.23 Correto; Some as variâncias e depois obtenha o Desvio Padrão Incorreto; 39 1-Estatística Diferença de Normais Linha A Diferença: Linha A – Linha B Linha B ? -10 0 -5 X = 3 s = 1 X A −B = X A - XB = 3 - 7 = - 4 2 2 2 5 2 SA – B = SA + SB = (1) + (2) 10 15 X = 7 s = 2 = 5 = 2.23 Correto ≠ 1 − 2= −1 Incorreto 40 1-Estatística Pratique O orçamento de uma empresa para uma certa conta é R$ 100. Variações de 3% acima e abaixo deste valor são consideradas aceitáveis, ou seja, de R$ 97 a R$ 103. Sabe-se, pela análise de dados históricos, que a variação nesta conta obedece à distribuição normal, com média de R$ 99 e desvio-padrão de R$ 1,25. • Que porcentagem de vezes o orçamento encontra-se fora da faixa aceitável? Resp 5,55% 41 1-Estatística 1. 2. 3. Exercícios Em um banco há uma norma de que nenhum cliente deve permanecer na fila por mais de 15 minutos. Se o tempo de espera é normal, com média 9,45 minutos e desvio-padrão de 2,75 minutos, em que porcentagem das vezes a norma não é cumprida? O tempo que Alarico leva do seu trabalho até sua casa tem distribuição normal, com média 90 minutos e desvio-padrão de 5 minutos. Qual é a probabilidade dele levar mais do que 110 minutos no trajeto? Uma pessoa precisa pegar um trem que parte pontualmente em 20 min, podendo optar por dois trajetos para chegar à estação: T1 ou T2. Sabe-se que o tempo para percorrer T1 é normal com média 18 min e desviopadrão de 5 min, e idem para T2, mas com média 20 min e desviopadrão 2 min. Qual é a melhor decisão de trajeto? Sabendo que o trem está com atraso de 3 min, qual é a melhor decisão agora? 42 1-Estatística Estudar é preciso! 1) Definina um Projeto de Melhoria de Processos abordando: Processos, Fatores Controláveis e Incontroláveis, Respostas, SIPOC, etc... Prepare uma rápida apresentação. Coloque as palavras-chave relacionadas (em Inglês). 2) Rode o Programa PQSystems e procure entender todos os 5 tópicos existentes: • Central Limit Theorem • Quincunx • Demmning’s Funnel • Red Bead Experiment • Dice Experiment 3) Refaça todos os exemplos do capítulo 1 4) Observe os arquivos contidos no CD do curso. 43