Estatística Aplicada “Pensar estatisticamente será um dia, para a eficiente prática da cidadania, tão necessário como a habilidade de ler e escrever.” H. G. Wells (Escritor, considerado o pai da moderna Ficção Científica, 1895) 1 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Motivação das empresas para estudo e uso de Estatística: Foco no Processo: Um dos principais requisitos da ISO 9001:2000 Fatores Controláveis x1 x 2 ... xp Entrada Saída Processo z1 z2 ... y1 y2 ym zq Fatores Incontroláveis (ruído) Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 2 Estatística Aplicada Y=f(X)+Z X •Pressão de ar air strip •Pressão de ar air bag •Pressão de ar front piston •Pressão Hidráulica •Temperatura Aplicação: Pense •Vazão de óleo Solúvel em um problema •Pressão do Nitrogênio similar em sua área de atuação Exemplo de Processo Processo Bodymaker de fabricação de latas Y Z •Espessura da parede Top Wall •Operador •Espessura da Parede Mid Wall •Rede Elétrica •Profundidade do Dome •Qualidade da Bobina •Altura da Lata •Visualização É complexo inferir sobre X,Y e Z sem Estatística! Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 3 Estatística Aplicada Cone of Learning DO THE REAL THING! Faça anotações! Aplicando os conhecimentos na sua área é a única forma de sedimentá-los! 4 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Recursos de Software O uso de recursos computacionais tornou os cálculos atividades fáceis permitindo uma maior ênfase na compreensão e interpretação dos resultados Statgame e Statquiz (Interessante para verificar o conhecimento básico) Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 5 Estatística Aplicada www.minitab.com www.e-academy.com Pratique: 1. Gere a planilha ao lado e entenda a diferença entre Worksheet e Project. Observe o que é Session. 2. Calcule as principais Estatísticas Descritivas da planilha gerada. Siga o caminho: <Stat> <Basic Statistics> <Graphical Summary> 3. Navegue no Statguide 4. Navegue pelo Tutorial do Minitab 5. Observe os ícones para Worksheet, Session, Show Graphs Folder e Edit Last Dialog 6 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 6. Gere uma série de 100 valores aleatórios que poderia simular uma variabilidade em Temperatura; Use <Calc> <Random Data> <Normal Distribution> e inclua os parâmetros convenientes (Ex.: Média=100, S=10). 7. Calcule as principais estatísticas descritivas da planilha usando Graphical Summary. Faça outros gráficos. 8. Entenda o procedimento <Calc> <Set Base>? 9. Salve a planilha na Desktop com um nome qualquer. 10. Feche o programa minitab e depois abra a planilha que você salvou. 7 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Um bom Material de Apoio Obtenha domínio sobre o Minitab a partir do arquivo minitab.pdf. 8 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Uma ótima bibliografia: Montgomery, D.C., Runger, G.C., Estatística Aplicada e Probabilidade para Engenheiros, 2ª ed., LTC Livros Técnicos e Científicos, 2002, 461 p. Não deixe de ler: Fora de Série (Outliers) – Malcolm Gladwell – Editora Sextante – Descubra por que algumas pessoas tem sucesso e outras não Uma Senhora Toma Chá – David Salsburg – Editora Zahar – Como a estatística revolucionou a ciência no século XX 9 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada SUMÁRIO 1 – Estatística Descritiva 2 – Distribuições de Probabilidade 3 – Estimação e Intervalos de Confiança 4 – Testes de Hipótese 5– Análise de Variância 6 – Correlação e Regressão 7– Testes de Independência 10 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 1 - Estatística Descritiva “Deus não joga dados com o universo” (Albert Einstein) “Os experimentos geralmente não são determinísticos” (Fisher) Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 11 Estatística Aplicada Do que trata a Estatística A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada. A palavra estatística provêm de Status. Simulação / PO Estatística Básica (Anova, TH, Regressão) DOE /Taguchi /RSM Séries Temporais Data Mining Análise do Sistema de Medição Six Sigma Estatística Multivariada Redes Neurais Amostragem / Pesquisa Controle de Qualidade Confiabilidade Estatística Bayseana Caos Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 12 Estatística Aplicada População e Amostra A População (ou Distribuição) é a coleção de todas as observações potenciais sobre determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população. Um Censo é uma coleção de dados relativos a Todos os elementos de uma população. Um Parâmetro está para a População assim como uma Estatística está para a Amostra. 13 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Tipos de Dados (Também Dados Categóricos ou de Atributos) Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua (Variáveis) Ex.: Para uma população de peças produzidas em um determinado processo, poderíamos ter: Variável Tipo Estado: Perfeita ou defeituosa Qualitativa Nominal Qualidade: 1a, 2a ou 3a categoria Qualitativa Ordinal No de peças defeituosas Quantitativa Discreta Diâmetro das peças Quantitativa Contínua Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 14 Estatística Aplicada <Calc> <Random Data> Números Aleatórios Aplicação: Gere sequências de valores aleatórios que represente problemas em sua área. O que significa o procedimento <Calc> <Set Base>? Amostragem: Gere a sequência 1 2 3 ...100. <Calc> <Make Patterned Data> Selecione uma amostra com 10 valores a partir das sequências geradas anteriormente. Use <Calc> Random Data> <Sample from Column> 15 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada <Graphical Summary> Ex.:Número de acessos à página do Site da Empresa durante os últimos 100 dias úteis. Aplicação: Gere uma sequência de dados que represente um processo em sua área e calcule as estatísticas desse conjunto de dados. Use: <Random> e <Graphical Summary> 16 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Medidas de Posição: Média n Aritmética Simples x1 + x 2 ++...+ L + xn x= = n ∑x i =1 i n n Aritmética Ponderada x1 p1 + x2 p2 +...+ +L+ xn pn x= = L+ pn p1 + p2 ++...+ ∑x p i=1 n i i ∑p i=1 i Um pouco sobre arredondamento de médias: Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73 Em várias operações, arredonde apenas o resultado final Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 17 Estatística Aplicada Um Cidadão Americano “Médio” Chama-se Robert Pesa 78 Kg Manequim 48 85 cm de cintura Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne. Vê TV por ano 2567 horas Recebe anualmente 585 “coisas” por correio (cartas e outros) Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e trabalha 6,1 horas 18 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Se n é ímpar: ⎛ n + 1⎞ ~ ⎟ termo x =⎜ ⎝ 2 ⎠ o Ex.: Medidas de Posição: Mediana Se n é par: o o ⎛n ⎞ ⎛n⎞ ⎜ ⎟ termo + ⎜ + 1⎟ termo ⎝2 ⎠ ⎝2⎠ ~ x= 2 {35, 36, 37, 38, 40, 40, 41, 43 ,46} ⇒ x~ = 40 15 + 16 ~ {12, 14, 14, 15, 16, 16, 17, 20} ⇒ x = 2 = 15,5 Mediana é o valor “do meio” de um conjunto de dados dispostos em ordem crescente ou decrescente. Inconveniente: Não considera todos os valores da amostra! 19 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ex.: Média x Mediana { 200, 250, 250, 300, 450, 460, 510 } x = 345,7 x~ = 300 Ambas são boas medidas de Tendência Central. Prefira a média { 200, 250, 250, 300, 450, 460, 2300 } x = 601 x~ = 300 Devido ao Outlier 2300, a mediana é melhor estatística que a média. 20 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Medidas de Dispersão Rode e Entenda o programa Interativo da PQ Systems Discuta: 1) Porque os bancos adotam fila única? 2) “Por favor, com quantos dias de antecedência eu devo postar uma carta de aniversário para minha mãe?” 21 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada A = { 3, 4, 5, 6, 7 } B = { 1, 3, 5, 7, 9 } C = { 5, 5, 5, 5 } D = { 3, 5, 5, 7 } E = { 3.5, 5, 6.5 } Variabilidade Uma medida de Posição não é suficiente para descrever um conjunto de dados. Os Conjuntos ao lado mostram isso! Eles possuem mesma média, sendo diferentes. Algumas medidas de Variabilidade: Amplitude (H): Tem o inconveniente de levar em conta apenas os dois valores extremos: HÁ =7-3=4 Amplitude=Range 22 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Medidas de Dispersão Considerando os desvios em relação à média, temos, para A, por exemplo: {-2, -1, 0, 1, 2} xi - x A = { 3, 4, 5, 6, 7 } n n n ∑ ( x − x ) =∑ x − ∑ x =nx − nx ≡ 0 Inconveniente: i=1 i i=1 i i=1 Uma opção para analisar os desvios das observações é: considerar o total dos quadrados dos desvios. 5 ∑ (x i =1 − x ) = 4 + 1 + 0 + 1 + 4 = 10 2 i 23 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Desvio Padrão Associando ao número de elementos da amostra (n), tem-se: . n ∑ (x S2 = S = S2 i =1 i − x) 2 ...que é a Variância ( Var(x)) n ...que é o Desvio Padrão (DP(x)), uma medida que é expressa na mesma unidade dos dados originais 24 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada n σ = 2 ∑ (x − x ) i=1 Dispersão: Fórmulas Alternativas n 2 i n = ∑x i=1 n ∑ (x 2 i n Variância Populacional (σ2 ou σn 2 ) −x 2 S = 2 i =1 i − x) 2 n−1 Variância Amostral n-1 está Relacionado a um problema de tendenciosidade 25 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo Calcular a Variância e o Desvio Padrão de X 5 4 3 1 2 Uma Regra Prática para conjunto de dados típicos: S=Amplitude/4 (X − X ) X X Média Média==33 X= Soma dos pontos de dados 2 1 0 -2 -1 (X − X ) 2 4 1 0 4 1 Número dos pontos de dados S= S 2 Raiz RaizQadrada Qadrada da daVariância Variância ==Desv.Pa. Desv.Pa.==SS ==1,58 1,58 S2 Divide DivideaaSoma Soma por por(n-1): (n-1): 22 ==Variância = S Variância = S ==2,5 2,5 Soma Somada da última últimacoluna coluna ==10 10 26 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Expressões para Média e Variância N µ= Média da População ∑X i i =1 N N Desvio Padrão da População σ = 2 (X µ ) − ∑ i i=1 N n x= Média da Amostra ∑x i=1 n N Desvio Padrão da Amostra s= i ∑ (X i −X) 2 i=1 N -1 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 27 Estatística Aplicada Outlier ( fora da distância do Q3 + 1,5D ) Observação Máxima 75% 109 Q3=75ª Percentil 104 DBP * Outra Estratégia: Percentis e Boxplot 50% 99 D=Q3-Q1 94 25% Interquartil Q2=Mediana (50ª Percentil) EDA (Exploratory Data Analysis) e Método dos Cinco Números Q1=25ª Percentil Boxplot é desgastante quando feito sem computador pois supõe a ordenação de dados. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 28 Estatística Aplicada Percentis e Boxplot graficos.mtw ÍValor do meio 3.(n+1)/4 0 2.(n+1)/4 Quartis: 0 Î Q1=Quarta Observação Crescente=71.7 Î Q3=Quarta Observação Decrescente=150.6 (n+1)/4 0 Para valores não inteiros dos quartis, usa-se interpolação Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95 Î São outliers valores maiores que 268.95 29 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada xi − x zi = s xi - Escores padronizados (z) x considera o afastamento de xi em relação à média. A divisão por s torna s como unidade ou padrão de medida. Ex.: Dois grupos de pessoas acusam os seguintes dados: Nesses grupos há duas Grupo Peso médio Desvio Padrão pessoas que pesam A 66.5 kg 6.38 kg respectivamente, 81.2 kg e B 72.9 kg 7.75 kg 88.0 kg. 81,2 − 66,5 88 − 72,9 em A : z A = = 2,3 e em B : z B = = 1,95 6,38 7,75 Logo, a pessoa de A revela um maior excesso relativo de peso. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 30 Distribuição Normal Estatística Aplicada z= X : N (µ ;σ ) x−µ Z: N(0; 1) σ ϕ(z) Tal fórmula está tabelada e fornece valores acumulados Distribuião Normal Reduzida ou Padronizada -3 -2 -1 µ-3σ µ -2σ µ -σ 0 1 µ 2 3 µ+σ µ+2σ µ+3σ z x Qual o formato da curva acumulada? N(0,1) é a distribuição Benchmark Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 31 Estatística Aplicada Escores padronizados (z) Uma mulher deu à luz um filho 308 dias após a visita de seu marido que serve na marinha dos EUA. Sabendo-se que uma gravidez normal tem média de 268 dias e desvio-padrão de 15 dias, determine se o tempo de gravidez da mulher pode ser considerado comum. O marido tem razão de se preocupar? xi − x zi = s 32 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regra 68 -- 95 -- 99 Escores padronizados (z) Regra 68 -- 95 -- 99 xi − x zi = s 9 Cerca de 68% dos valores estão a menos de 1 desvio padrão a contar da média (-1 < z < 1) 9 Cerca de 95% dos valores estão a menos de 2 desvios padrão a contar da média (-2 < z < 2) 9 Cerca de 99% dos valores estão a menos de 3 desvios padrão a contar da média (-3 < z < 3) 33 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Skewness and Kurtosis Assimetria (Skewness) Próximo de 0: Simétrico Menor que 0: Assimétrico à Esquerda Maior que 0: Assimétrico à Direita Achatamento (Kurtosis) Próximo de 0: Pico Normal Menor que 0: Mais achatada que o Normal (Uniforme) Maior que 0: Menos achatada que o normal (Afinada) 34 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Assimetria, Percentis e Boxplot 35 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exercício Encontre todas as estatísticas descritivas para a série da tabela a seguir. 10 23 34 40 58 74 13 24 35 41 58 80 15 25 37 48 63 82 15 25 38 53 64 88 20 30 39 58 70 250 21 32 39 58 70 254 36 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição de Freqüências Ex.: População = X=Diâmetro de determinada peça (em mm). Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 } Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 } Amplitude (H) = 168 - 163 = 5 K ni fi Ni Fi (Frequência Absoluta) (Frequência Relativa) (Frequência Absoluta Acumulada) Frequência Relativa Acumulada) 163 1 0.1 1 0.1 164 3 0.3 4 0.4 X ∑n 1 i =n ni fi = n K 165 2 0.2 6 0.6 168 4 0.4 10 1.0 Σ 10 1 ∑f i=1 i =1 Ni Fi = n 37 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Classes (ou Categorias) DISTRIBUIÇÃO DE FREQUÊNCIAS x xi ni fi f% (Variável) (ponto médio) (frequência absoluta) (frequência relativa) (frequência percentual) 10 ├ ─ 20 15 2 0.04 4 2 0.04 4 20 ├ ─ 30 25 12 0.24 24 14 0.28 28 30 ├ ─ 40 35 18 0.36 36 32 0.64 64 40 ├ ─ 50 45 13 0.26 26 45 0.9 90 50 ├ ─ 60 55 5 0.1 10 50 1.0 100 50 1 100 Σ Ni Fi (Absoluta (Relativa Acum.) Acum.) F% (Percentual Acum.) 38 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Classes (ou Categorias) Estatística Aplicada EXEMPLO – MÉDIA P/DADOS AGRUPADOS x xi ni (Variável) (ponto (frequência médio) absoluta) (Xi).(ni) Média = X = 10 ├ ─ 20 15 2 30 20 ├ ─ 30 25 12 300 30 ├ ─ 40 35 18 630 40 ├ ─ 50 45 13 585 50 ├ ─ 60 55 5 275 50 1820 Σ n ∑ x .n i =1 n i i ∑n i =1 i 1820 X= = 36,4 50 39 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Histogramas Construção da tabela de distribuição de freqüências a partir do histograma de classes desiguais. Exercício: Complete a tabela. ni X 10 fi |-- 20 8 10 6 20 |-- 30 4 ni 30 |-- 40 2 40 |-- 60 10 20 30 40 60 x Σ 1 40 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Soma de Normais Processo A Processo B Tempo Total (A+B) ? 3 X=3 s=1 7 X =7 s=2 S A +B = 2 SA + 2 SB = 2 (1) + (2) 2 = 5 = 2.23 ≠ 1+ 2 = 3 Correto; Some as variâncias e depois obtenha o Desvio Padrão Incorreto; 41 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Diferença de Normais Linha A Diferença: Linha A – Linha B Linha B ? -10 0 -5 5 X = 3 s = 1 X A −B = X A - XB = 3 - 7 = - 4 2 2 2 2 SA – B = SA + SB = (1) + (2) 10 15 X = 7 s = 2 = 5 = 2.23 Correto ≠ 1 − 2= −1 Incorreto Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 42 Representação Gráfica:Ramo-e-folhas Estatística Aplicada ⎯ x Ramos ⎯ x x ⎯ x x x x x graficos.mtw Ex.: Folhas ⎯ x x x 81 113 108 74 79 78 90 93 105 109 93 106 103 100 100 100 101 101 101 95 90 94 90 91 92 93 87 89 78 89 85 94 86 11 3 10 8 5 9 6 3 0 0 0 1 1 1 9 0 3 3 5 0 4 0 1 2 3 4 8 1 7 9 9 5 6 7 4 9 8 8 11 3 10+ 8 5 9 6 10- 3 0 0 0 1 1 1 9- 0 3 3 5 0 4 0 8 1 7 9 9 5 6 7 4 9 8 8 1 2 3 4 43 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ramo-e-folhas Stem-and-Leaf Display: folha_ramo Obtendo o seguinte Folha e Ramo. Compare os resultados fazendo um Histograma. O que representa tal coluna? Stem-and-leaf of Ramo Leaf Unit = 1.0 1 4 5 10 (10) 13 12 5 1 7 7 8 8 9 9 10 10 11 N = 33 4 889 1 Coluna 56799 0001233344 folha_ramo 5 0001113 5689 3 44 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Plot Exercício no Minitab: Faça o gráfico abaixo a partir dos dados seguintes. 45 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada <Marginal Plot> Faça o gráfico bidimensional a partir dos dados a seguir graficos.mtw 46 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Runchart <Stat> <Quality Tools> <Run Chart> •Column=Tempo na fila •Subgroup Size=1 runchart.mtw Os dados representam uma série temporal Tal gráfico é útil para ver a estabilidade de um processo. Control Chart é Melhor! 47 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Multi-Vari •Identifica Diversos tipos de variação •A análise de efeitos é similar em DOE Sinter.mtw •Permite identificar interações •Não é o mesmo que Estatística Multivariada TempoSinter Use os 0,5 23,5 Dados a seguir 1,0 2,0 22,5 <Stat> 21,5 Força <Quality Tools> <Multi-Vari>: 20,5 19,5 Response: Força (y) 18,5 Factor1: TempoSinter (x1) Factor2: TipoMetal (x2) 17,5 15 18 TipoMetal Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 21 48 Estatística Aplicada Nível 0,5 x1 x2 y 0,5 15 23 0,5 15 20 0,5 15 21 0,5 18 22 0,5 18 19 0,5 18 20 0,5 21 19 0,5 21 18 0,5 21 21 Multi-Vari – Monte a Tabela Nível 1,0 x1 x2 y 1 15 22 1 15 20 1 15 19 1 18 24 1 18 25 1 18 22 1 21 20 1 21 19 1 21 22 Nível 2,0 x1 x2 y 2 15 18 2 15 18 2 15 16 2 18 21 2 18 23 2 18 20 2 21 20 2 21 22 2 21 24 49 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 2 - DISTRIBUIÇÕES DE PROBABILIDADE 50 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Sumário 1 - Motivação 2 - Distribuições de Probabilidade • Distribuições Contínuas • Distribuição Discretas 51 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Motivação •O reconhecimento da importância dos processos estocásticos; •A consideração da “Incerteza” associada aos eventos; •Exatidão na modelagem matemática; •Correta determinação da probabilidade de ocorrência dos fenômenos; •A otimização de processos industriais e de serviços através de técnicas de SIMULAÇÃO. 52 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada DISTRIBUIÇÕES DE PROBABILIDADE 53 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Formatos de Distribuições 54 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuições Contínuas de Probabilidade f ( x )≥0 Área da curva é unitária Probabilidade está associada a área ∫ ∞ −∞ f (x ) = 1 P(a ≤ X ≤ b ) = ∫ f ( x)dx b a f(x) => fdp Função densidade de probabilidade (b > a ) Algumas Distribuições Contínuas: Normal Uniforme Chi-square Fisher(F) Student(t) Beta Cauchy Exponential Gamma Laplace Logistic Lognormal Weibull 55 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição Normal Estatística Aplicada a) ∫ ∞ −∞ f ( x )dx = 1 b) f ( x ) ≥ 0 f(x) c) lim f ( x ) = 0 x→ ∞ e lim f ( x ) = 0 x→ −∞ d ) f(µ + x) = f(µ - x) µ 1 f ( x) = e σ 2π µ+σ ⎡ x−µ ⎤ − (1 2 )⎢ ⎥ ⎣ σ ⎦ 2 x e) M áx f(x) o co rre em x = µ f) O s p o nto s d e inflexão são x = µ ± σ g ) E (X ) = µ h) V a r(X ) = σ 2 56 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição Normal Estatística Aplicada Pouca Utilidade Prática Retorna a probabilidade Acumulada Retorna a Variável quando é dada a probabilidade acumulada Exemplo X:N(100,5) P(X<=95)=0,1587 57 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição Normal Estatística Aplicada Se a dimensão de uma peça segue uma distribuição Normal X: N(80,3) qual a Probabiliade de ter uma peça defeituosa de acordo com a figura? µµ X : N (µ ;σ ) 1σ 1σ p(d) TT LSE LSE 3σ Used With Permission © 6 Sigma Academy Inc. 1995 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 58 Estatística Aplicada Distribuição Normal Exercício 1: Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine a probabilidade de se ter uma medida: a) Entre 100 e 115 Dica: b) Entre 100 e 90 c) Superior a 110 d) Inferior a 95 e) Inferior a 105 Crie uma coluna com os valores 100 115...98 no Minitab f) Superior a 97 g) Entre 105 e 112 h) Entre 89 e 93 i) 98 Use: <Calc><Probability Distribution><Normal> Crie uma coluna com os valores 0,74...0,05 no Minitab Exercício 2: Em uma população onde as medidas tem Média 100 e Desvio Padrão 5, determine os valores k tais que se tenha a probabilidade: a) P(X>k)=0,26 b) P(X<k)=0,32 c) P(100-k<100<100+k)=0,47 d) P(x<100-k)+P(x>100+k)=5% 59 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Escores padronizados (z) Exemplo Um cliente tem um portfólio de investimentos cuja média é US$ 500.000 com desvio padrão de US$ 15.000. Determine a probabilidade de que o valor de seu portfólio esteja entre US$ 485.000 e US$ 530.000. zi = xi − µ σ 60 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Escores padronizados (z) Exemplo Se X tem distribuição normal N(15, 4), encontre a probabilidade de X ser maior que 18. Exemplo Uma companhia produz lâmpadas cuja vida segue uma distribuição normal com média 1.200 horas e desvio padrão de 250 horas. Escolhendo-se aleatoriamente uma lâmpada, qual é a probabilidade de sua durabilidade estar entre 900 e 1.300 horas? 61 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Escores padronizados (z) Exemplo Um grupo de estudantes obtém notas que são normalmente distribuídas com média 60 e desvio padrão 15. Que proporção dos estudantes obtiveram notas entre 85 e 95? Exemplo No caso da prova do exercício anterior, determine a nota acima da qual estão 10% dos melhores alunos da classe. 62 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Escores padronizados (z) Exercício É sabido que a quantidade anual de dinheiro gasto em livros por alunos de uma universidade, segue uma distribuição normal com média $380 e desvio padrão de $50. Qual é a probabilidade de que um aluno escolhido aleatoriamente no campus gaste mais do que $ 360 por ano? 63 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Produção Exercício A demanda antecipada de consumo de um certo produto é representada por uma distribuição normal com média 1.200 unidades e desvio padrão de 100. a) Qual é a probabilidade de que as vendas excedam 1.000 unidades? b) Qual é a probabilidade de que as vendas estejam entre 1.100 e 1300 unidades? c) A probabilidade de se vender mais do que k unidades é de 10%. Determine k. 64 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Investimentos Exercício Um portfólio de investimentos contém ações de um grande número de empresas. Ao longo do último ano as taxas de retorno das ações dessas corporações seguiram distribuição normal com média de 12,2% e desvio padrão de 7,2%. a) Para que proporção de empresas o retorno foi maior que 20%? b) Para que proporção de empresas o retorno foi negativo? c) Que proporção de empresas tiveram retornos entre 5% e 15%? 65 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Investimentos Exercício Considere dois investimentos. Em ambos, a taxa de retorno segue uma distribuição normal, com média e desvio padrão conhecidos conforme tabela a seguir. Deseja saber qual dos investimentos é mais provável de produzir retornos de no mínimo 10%. Que investimento deveria ser escolhido? Média Desvio Investimento A 10,4 1,2 Investimento B 11,0 4,0 66 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Probabilidades e Finanças Exercício Um portifólio de investimentos contém ações de um grande número de empresas. Ao longo do último ano as taxas de retorno das ações dessas corporações seguiram distribuição normal com média de 12,2% e desvio padrão de 7,2%. a) Para que proporção de empresas o retorno foi maior que 20%? b) Para que proporção de empresas o retorno foi negativo? c) Que proporção de empresas tiveram retornos entre 5% e 15%? 67 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Uniforme +∞ +∞ −∞ −∞ µ = E ( X ) = ∫ xf ( x)dx σ 2 = Var ( X ) = 2 ( ) x − µ f ( x) dx ∫ A =1 A = b.h = (b − a ) f ( x) = 1 F(x) a 1 f ( x) = (b − a ) b 1 a+b dx = µ = E(X ) = ∫ x b−a 2 a b σ 2 = Var ( X ) = +∞ 2 ( ) − x µ ∫ −∞ ⎡ ⎛ a + b ⎞⎤ ⎛ 1 ⎞ ( b − a) f ( x)dx = ∫ ⎢ x − ⎜ ⎟⎥ ⎜ ⎟dx = 12 ⎝ 2 ⎠⎦ ⎝ b − a ⎠ − ∞⎣ 68 +∞ 2 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 2 Estatística Aplicada Distribuição Exponencial Função Exponencial 0 0,06 f ( x ) = λ.e 0,05 − λxi F(x) 0,04 0,03 0,02 0,01 0,00 0 0 20 40 60 80 100 120 140 x ∞ 1 − λx ( ) µ = E X = ∫ xλe dx = λ 0 σ 2 = Var ( X ) = +∞ 2 ( ) x − µ ∫ −∞ +∞ 2 ⎡ ⎛ 1 ⎞⎤ 1 − λx f ( x )dx = ∫ ⎢ x − ⎜ ⎟⎥ λe dx = 2 λ ⎝ λ ⎠⎦ 0 ⎣ Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 69 Estatística Aplicada Distribuição Weibull Weibull 0 1,0 Variable C 7 * Weibull 1 1 C 8 * Weibull 3,4 2 C 9 * Weibull 4,5 6.2 Y-Data 0,8 β ⎛x⎞ f (x ) = ⎜ ⎟ δ ⎝δ ⎠ β −1 e ⎛x⎞ −⎜ ⎟ ⎝δ ⎠ β 0,6 0,4 0,2 0,0 0 0 2 4 6 8 10 X-Data 70 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Uniforme Exemplo A espessura de um componente é uma variável aleatória uniformemente distribuída entre os valores 0,95 a 1,05 cm. a) Determine a proporção de componentes que excedem a espessura de 1,02 cm. b) Qual é o valor de espessura que é excedida por 90% dos componentes? c) Qual é o valor da espessura abaixo da qual estão 75% dos componentes? 71 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Uniforme Exemplo Suponha que uma variável aleatória seja uniformemente distribuída no intervalo [1.5; 5.5]. a) Determine a probabilidade de x ser menor que 2,5. b) Qual é a probabilidade de x ser maior que 3,5? c) Determine o valor de k, de modo que a probabilidade de x ser maior que k seja de 40% 72 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Exponencial Exemplo Considere o seguinte conjunto de dados: [26, 22, 21, 19, 8, 4]. Ajustando estes dados por distribuição exponencial, determine: a) A probabilidade de uma v.a. x ser menor que 10. b) A probabilidade de uma v.a. x ser menor que 5. c) P(5< x < 10). 73 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Exponencial Exemplo Suponha que X tem uma distribuição exponencial com média igual a 10. Determine: a) A probabilidade de uma v.a. x ser maior que 10. b) A probabilidade de uma v.a. x ser menor que 20. c) Encontre k tal que P(X<k)=0,95 74 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre as chamadas telefônicas para uma loja de suprimentos é distribuído exponencialmente com um tempo médio de 15 minutos entre as chamadas. Determine: a) A probabilidade de não haver chamadas por um período de 30 minutos. b) A probabilidade de que no mínimo uma chamada chegue dentro do intervalo de 10 minutos. c) A probabilidade de que a primeira chamada chegue entre 5 e 10 minutos. d) O intervalo de tempo, tal que exista uma probabilidade de 90% de haver no mínimo uma chamada no intervalo. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 75 Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre as chegadas de ônibus a uma estação rodoviária é distribuído exponencialmente, com média 10 min. Determine: a) x, tal que a probabilidade de vc esperar mais de x minutos seja de 10%. b) x, tal que a probabilidade de vc esperar menos de x minutos seja de 90%. c) x, tal que a probabilidade de vc esperar menos de x minutos seja de 50%. 76 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre a chegada de e-mails em seu computador é distribuído exponencialmente com média igual a duas horas. Determine: a) Qual a probabilidade de vc não receber uma mensagem durante o período de duas horas? b) Se vc não tiver recebido uma mensagem na últimas quatro horas, qual será a probabilidade de vc não receber mensagens nas próximas duas horas? 77 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Exponencial Exemplo O tempo entre as chamadas para o escritório do CEO de uma corporação é exponencialmente distribuído com média igual a 10 minutos. Determine: a) Qual a probabilidade de não haver chamadas dentro de meia hora? b) Se a secretária do CEO se ausentar por 5 minutos, qual será probabilidade dela não atender (e repassar) uma “importante” ligação para o chefe? 78 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Discretas de Probabilidade f ( xi )≥0 Algumas Distribuições Discretas A Distribuição Binomial A Distribuição de Poisson A soma das frequências é unitária n ∑ f (x ) = 1 i =1 i A Distribuição Geométrica A Distribuição de Pascal A Distribuição Multinomial A Distribuição Hipergeométrica P( X = xi ) = f ( xi ) A probabilidade é a frequência 79 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Binomial Use o programa Statdisk <Analysis> <Probability Distribution> <Binomial Distribution> Observe em <Options> os valores acumulados 80 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Binomial ⎛ n! ⎞ x ⎟⎟ p (1 − p ) n − x x = 0,1,2,...n P ( X = x ) = ⎜⎜ ⎝ x!(n − x )! ⎠ =0 para outros valores E(X) = np e Var (X) = npq Ex.: A probabilidade de um teste “Burn in / Burn out” queimar um componente eletrônico é 0,2 (p). Colocando-se três (n) componentes sob teste, qual a probabilidade de que pelo menos dois deles (x) se “queime”? 81 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Binomial E = {QQQ, QQN, QNQ, NQQ, NNQ, NQN, QNN, NNN} onde Q e N representam a queima ou não do componente x P(x) 0 P{NNN} = P(X = 0) = q3 = (0.8)3 1 P{NNQ} + P{NQN} + P{QNN} = P(X = 1) = 3pq2 = 3(0.2)(0.8)2 2 P{QQN} + P{QNQ} + P{NQQ} = P(X = 2) = 3p2q = 3(0.2)2(0.8) 3 P{QQQ} = P(X = 3) = p3 = (0.2)3 X: Número de Queimas Q P(X ≥ 2) = P(X=2) + P(X= 3) = 3p2q + p3 = 0.104 = 10,4% 82 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Binomial Exercício: Suponha que uma válvula eletrônica, instalada em determinado circuito, tenha probabilidade 0.2 de funcionar durante o tempo de garantia. São ensaiadas 20 válvulas. a) Qual a probabilidade de que delas, exatamente k, funcionem durante o tempo de garantia (k = 0, 1, 2, ... 20)? b) Qual a probabilidade de que 4 funcionem durante o tempo de garantia? c) Qual o número médio e o desvio padrão de válvulas que irão funcionar durante o tempo de garantia? X ≡ Número de válvulas que funcionam durante o tempo de garantia. p = 0.2 X = 0, 1, 2, ... 20 83 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição Binomial Estatística Aplicada P(X = x) ⎛n⎞ x P( X = x ) = ⎜⎜ ⎟⎟ p (1 − p ) n − x x = 0,1,2,Ln ⎝ x⎠ =0 para outros valores E(X) = np e Var (X) = npq com média E(x) = np = 20.(0.2) = 4 . e desvio padrão npq = 1788 ⎛ 20 ⎞ k 20 − k P ( X = k ) =⎜⎜ ⎟⎟(0.2 ) (0.8) ⎝k ⎠ 0 1 2 3 4 5 6 7 8 9 18 x 84 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição Binomial Estatística Aplicada Exercício: Complete a tabela referente a Distribuição Binomial a seguir: n p k 4 0,2 2 8 0,5 4 12 0,7 3 20 0,8 12 P(X=k) F(k) P(X>k) P(X<k) E(x) 100 0,6 63 85 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição Binomial Estatística Aplicada n p k P(X=k) F(k) P(X>k) P(X<k) E(x) 4 0,2 2 0,1536 0,1536 0,0272 0,8192 0,8 8 0,5 4 0,2734 0,2734 0,3633 0,0899 4 12 0,7 3 0,0015 0,0015 0,9983 0,0002 8,4 20 0,8 12 0,0222 0,0222 0,9679 0,0099 16 100 0,6 63 0,0682 0,0682 0,2386 0,6932 60 86 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Hipergeométrica Ex.: Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes que uma remessa seja aprovada, um inspetor escolhe 5 desses motores e os inspeciona. Se nenhum dos motores inspecionados for defeituoso, o lote é aprovado. Se um ou mais forem verificados defeituosos, todos os motores da remessa são inspecionados. Suponha que existam, de fato, três motores defeituosos no lote. Qual a probabilidade de que a inspeção 100% seja necessária? ⎛ 3⎞ ⎛ 47⎞ ⎜ ⎟⎜ ⎟ ⎝ 0⎠ ⎝ 5 ⎠ ≅ 0.28 P( X ≥ 1) = 1 − P( X = 0) = 1 − ⎛50⎞ ⎜ ⎟ ⎝5⎠ 87 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição Hipergeométrica P(X ≥1) =1− P(X = 0) 88 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição de Poisson Estatística Aplicada e − λ λk P( X = k ) = X = 0 , 1, 2,L k! λ = µ = np σ = µ = np Ex.: Em uma experiência de laboratório passam, em média, por um contador, quatro partículas radioativas por milissegundo. Qual a probabilidade de entrarem no contador seis partículas em determinado milissegundo? Utilizando a distribuição de Poisson com λ = 4, então: −4 6 e 4 = 0.1042 P( X = 6) = 6! No Minitab use: <Calc> <Probability Distribution> <Poisson> Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 89 Estatística Aplicada Distribuição de Poisson Use o programa Statdisk <Analysis> <Probability Distribution> <Poisson Distribution> Observe em <Options> os valores acumulados 90 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição de Poisson Estatística Aplicada Exercício: Complete a tabela referente à Distribuição Poisson: Média k 4 2 8 4 12 3 20 12 100 63 P(X=k) F(k) P(X>k) P(X<k) 91 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição de Poisson Ex.: Chegam, em média, 10 naviostanque por dia a um movimentado porto, que tem capacidade para 15 desses navios. Qual a probabilidade de que, em determinado dia, um ou mais navios tanque tenham de ficar ao largo, aguardando vaga? Temos aqui que, para λ = 10: P ( X > 15) = 1 − P ( X ≤ 15) = 1 − 0.9513 = 0.0487 92 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição de Poisson Ex.: Uma central telefônica recebe em média 300 chamadas por hora e pode processar no máximo 10 ligações por minuto. Estimar a probabilidade de a capacidade da mesa ser ultrapassada. Temos agora: λ = 300/60 = 5 chamadas/minuto em média P ( X > 10) = 1 − P ( X ≤ 10) = 1 − 0.986 = 0.014 = 1,4% 93 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição de Poisson Estatística Aplicada Aproximação da Distribuição Binomial Seja X uma v.a. distribuída binomialmente com parâmetro p (baseado em n repetições de um experimento). Isto é, ⎛n⎞ k n−k P( X = k) =⎜ ⎟ p (1− p) ⎝k⎠ Admita-se que quando n → ∞, p →0 e np → λ. Nessas condições é possível demonstrar uma importante consideração: e−λλk limP(X = k) = n→∞ k! 94 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição de Poisson Aproximação da Distribuição Binomial Ex.: A probabilidade de um indivíduo ter reação negativa a certa injeção é de 0,001. Determinar a probabilidade de que de 2.000 indivíduos injetados, exatamente 3 tenham reação negativa. Usando a distribuição binomial com n = 2.000 e p = 0.001 temos: ⎛ 2000 ⎞ ⎟⎟(0.001) 3 (0.999)1997 P ( X = 3) = ⎜⎜ ⎝ 3 ⎠ O cálculo desses números dá origem a considerável dificuldade. Pela aproximação de Poisson temos: −2 3 e 2 α = np = (2000)(0.001) = 2 P( X = 3) = = 0.1804 3! 95 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Distribuição de Poisson Estatística Aplicada Aproximação da Distribuição Binomial Ex.: Consideremos um experimento binomial com n = 200, p = 0.04 em que se pede a probabilidade de, no máximo, 5 sucessos. O cálculo direto é impraticável, usando a Distribuição Binomial ⎛ 200 ⎞ ⎟⎟(0.04) k (0.96) 5− k P( X ≤ 5) = ∑ ⎜⎜ k =0 ⎝ k ⎠ 5 λ = np = (200) (0.04) = 8 P(X ≤ 5) = 0.1912 Obtido de Tabela (ou micro) 96 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Distribuição de Poisson Ex.: A probabilidade de um indivíduo ter reação negativa a certa injeção é de 0,001. Determinar a probabilidade de que de 2.000 indivíduos injetados, mais de quatro tenham reação negativa. α = np = (2000)(0.001) = 2 P( X > 4 ) = 1 − [ P( X = 4 ) + P( X = 3) + P( X = 2 ) + P( X = 1) + P( X = 0 )] ⎡ e − 2 2 4 e − 2 23 e − 2 2 e − 2 2 0 ⎤ = 1− ⎢ + + + ⎥ 4 ! 3 ! 1 ! 0 ! ⎣ ⎦ 8 4 ⎤ − 2 ⎡ 16 = 1 − e ⎢ + + + 2 + 1⎥ = 0.0526 ⎣ 24 6 2 ⎦ 97 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 3 - Estimação de Parâmetros e Intervalos de Confiança Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Estimação de Parâmetros e IC Idéia Central: Criar e avaliar intervalos de Confiança para dados amostrais. Tópicos abordados: • Inferência Estatística • O Teorema Central do Limite • Intervalos de Confiança • A Distribuição t de Student. 99 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada População Ex.: Para a distribuição normal os parâmetros são µ e σ2. Estimação de Parâmetros Noções Amostragem Estimação de parâmetros Inferência e escolha da Distribuição Estatística Cálculo de Probabilidades (Usando a Distribuição acima) Os termos população e distribuição são equivalentes. Informação para tomada de decisão Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 100 Estatística Aplicada Nomenclatura 101 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada O Teorema Central do Limite “Para uma população não normal com média µ e desvio padrão σ, a distribuição da média amostral X para amostras de tamanho n suficientemente grande é aproximadamente normal com média µ e desvio padrão σ n , isto é: X − µ ~ N : (0,1)” Ζ= σ n Ou seja: Se X:(µ, σ) então a distribuição amostral de X é N(:(µ, σ n) 102 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada TCL “Para uma população normal com média µ e desvio padrão σ, a média amostral X para amostras de tamanho n suficientemente grande é aproximadamente normal com média µ e desvio padrão σ n , isto é: Ou seja: X −µ ~ N : (0,1)” Ζ= σ n Se X:N(µ, σ) então a média amostral de X é N:(µ, Erro Padrão = Standard Error=SE= σ Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) σ n n) 103 Estatística Aplicada IC ( µ :95%) ... para Sigma conhecido Consideremos uma população normal com média µ, desvio padrão σ e uma amostra dessa população. X −u σ n Fixando α em 0.05, ou seja, 1- α=0.95, ~ N : (0,1) Pelos resultados do Teorema do Limite Central 0.95 P (−1.96 < Z < 1.96) = 0.95 0.025 0.025 X -1.96 0 1.96 z 104 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Confiança e Significância Estatística Aplicada População normal com média µ e desvio padrão σ Pelos resultados do TCL: X −u σ n α : Nível de significância 1- α: Nível de confiança ~ N : (0,1) P (−1.96 < Z < 1.96) = 0.95 ⎡ ⎤ X −µ P⎢− 1.96 < < 1.96⎥ = 0.95 σ n ⎣ ⎦ [ ] [θˆ ;θˆ ] = [X − 1.96(σ n ); X + 1.96(σ n )] =IC (µ :95%) P X − 1.96(σ 0 n ) < µ < X + 1.96(σ n ) = 0.95 1 105 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada [ IC - Interpretação P X − 1.96(σ n ) < µ < X + 1.96(σ ] n ) = 0.95 Ela não significa que a probabilidade do parâmetro µ cair dentro de um intervalo especificado seja igual a 0.95. µ sendo o parâmetro, está ou não, dentro do intervalo. θ “0.95 é a probabilidade de que um intervalo aleatório contenha µ .” 106 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada IC ( µ :95%) ... para Sigma Desconhecido [ ( IC ( µ : (1 − α )100 ) = X − tα 2 S ) ( n ; X + tα 2 S n )] 1 n 2 S = ( X − X ) ∑ i n − 1 i =1 (X − µ) t= S n 2 1-α α/2 α/2 t - tα/2 0 tα/2 107 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada “Distribuição t de Student”, com v graus de liberdade v=n-1 (Distribuição t de Student) ( X − µ) t= S n 1 n 2 S = ( X − X ) ∑ i n − 1 i =1 2 Normal hv(t) Tal distribuição é usualmente tabelada para alguns valores de v e α t 108 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Intervalos de Confiança para PROPORÇÕES Exemplo Uma amostra aleatória de 85 camisas, 10 apresentaram algum tipo de defeito (furos, manchas, costuras soltas etc). Construa um intervalo de confiança de 95% para a proporção populacional de defeituosos. pˆ − Zα 2 pˆ (1 − pˆ ) ≤ p ≤ pˆ + Zα 2 n pˆ (1 − pˆ ) n Usando a aproximação pela NORMAL. 109 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Tamanho de Amostra Exemplo Um candidato político deseja avaliar se as suas intenções de votos são maiores do que as do concorrente, com uma margem de pelo menos 5%. Possui, na última pesquisa realizada, 35% da preferência do eleitorado. Admitindo a = 1% e b = 5%, qual o tamanho de amostra necessária? 110 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Power and Sample Size selecionar: Stat > Power and Sample Size > 2 Proportions “Proportion 1 values”: < 0,35 > “Power values”: < 0,95 > “Proportion 2”: < 0,30 > selecionar: Options marcar “Greater Then” “Significance level”: < 0,01 > OK OK 111 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 4 – TESTES DE HIPÓTESE Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Experimentos Comparativos Simples Idéia Central: Estudar os experimentos envolvendo Teste de Hipóteses para um e dois tratamentos. Tópicos abordados: • Teste de Hipóteses 113 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplos: • Duas linhas de produção supostamente idênticas estão apresentando resultados diferentes. Como confirmar isso? • A variabilidade de um processo é maior que outro. Temos certeza? • Os dados estão normalmente distribuídos? • Como saber estatisticamente se dois funcionários tem o mesmo desempenho? 114 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Decisão Estatística Um produto original é identificado pelo seu peso (em libras) e reconhecidamente segue uma distribuição normal N(50; 0.8). Do mesmo modo, produtos falsificados tem pesos significativamente maiores que 50 lb, seguindo distribuição também normal N(52, 0.8). Uma amostra aleatória revelou um peso médio de 51,3 lb. Baseado nesta amostra a que conclusões se pode chegar? 115 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada • Qual é a probabilidade de que (em função da amostra) um produto original seja classificado como Falso? • Qual a probabilidade de que o produto original seja corretamente identificado? • Qual a probabilidade de que um produto falsificado seja classificado como original? • Qual é a probabilidade de se detectar produtos falsificados neste caso? 116 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 50 52 100 80 60 40 20 0 48 49 50 51 52 53 54 117 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 50 51,3 52 100 80 60 40 20 0 48 49 50 51 52 53 54 118 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 50 51,3 52 100 80 60 40 5% Erro Tipo 1 (Alfa) 20 0 48 49 50 51 52 53 54 119 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 50 51,3 52 100 80 60 40 19% Erro Tipo 2 (Beta) 20 0 48 49 5% Erro Tipo 1 (Alfa) 50 51 52 53 54 120 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 50 51,3 52 100 80 CONFIANÇA (1-Alfa) 60 40 19% Erro Tipo 2 (Beta) 20 0 48 49 5% Erro Tipo 1 (Alfa) 50 51 52 53 54 121 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 50 51,3 52 100 80 POWER (1-Beta) CONFIANÇA (1-Alfa) 60 40 19% Erro Tipo 2 (Beta) 20 0 48 49 5% Erro Tipo 1 (Alfa) 50 51 52 53 54 122 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada • Na afirmação: “Uma pessoa é considerada inocente até que se prove o contrário pois é um erro maior condenar um inocente do que libertar um culpado.”, defina: • Erros Tipo I e Tipo II • Hipóteses Nula e Alternativa H0: o réu é inocente (hipótese fundamental) H1: o réu é culpado (hipótese alternativa) 123 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Hipóteses e Erros Estatística Aplicada Os erros de julgamento poderiam ser : condenar um réu inocente ou, então, absolver um réu culpado. REALIDADE H0 verdadeira H0 falsa aceitar H0 decisão correta 1-α erro tipo II β rejeitar H0 erro tipo I α decisão correta 1-β DECISÃO 124 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Tipos de Erros Estatística Aplicada • ERRO DO TIPO I Rejeitar Ho sendo Ho verdadeira P(Erro I) = P(rejeitar Ho|Ho é verdadeira) = α • ERRO DO TIPO II Não rejeitar Ho sendo Ho falsa P(Erro II) = P(não rejeitar Ho|Ho é falsa) = β 125 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Construção de T.H. 1) Definir as hipóteses; 2) Escolher a estatística de teste adequada; 3) Escolher α e estabelecer a Região Crítica (RC); 4) Com base em uma amostra de tamanho n, extraída da população, calcular θ; 5) Rejeitar Ho caso θ ∈ RC. Não rejeitar Ho em caso contrário. No Minitab: Análise do P-value ! 126 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Testes Paramétricos Testes de Hipóteses Estatísticas Os testes de hipóteses em Estatística podem ser empregados para avaliar ou comparar: • • • • médias; variâncias (ou desvios-padrão); proporções; distribuições de probabilidade e correlação. Estas análises podem se do tipo “igual”, “menor que” ou, ainda, “maior que”. 127 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada TH p/ Média • Para avaliar médias, empregam-se dois diferentes tipos de testes: z ou t. • o teste z é empregado somente se o desviopadrão da população (s) é conhecido (caso pouco provável); • o teste t é utilizado nas demais circunstâncias e, por isso, este é que será visto no curso. 128 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ex. The production manager of a company has asked you to evaluate a proposed new procedure for producing its double-hung windows. The present process has a mean production of 80 units per hour with a population standard deviation of 8 units. The manager indicates that she does not want to change to a new procedure unless there is strong evidence that the mean production level is higher with the new process. A random sample of 25 units revealed the sample mean was 83. Based on this sample, is there strong evidence to support the conclusion that the new process resulted in higher productivity? 129 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ⎧ H 0 : µ ≤ 80 X − µ0 Z= ⎪ σ n ⎨ ⎪ H : µ > 80 ⎩ 1 130 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) P-Value Estatística Aplicada •P-Value é a área ou probabilidade que fica acima (ou abaixo) do valor obtido experimentalmente. P-Value = P(1-Ø) Quanto menor o PValue, menor será a chance de se cometer um erro do tipo 1! 131 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Alfa 132 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Unilateral e Bilateral Estatística Aplicada Teste Unilateral Esquerdo A2 α A1 P-Value = A1ÎAceita-se Ho P-Value = A2ÎRejeita-se Ho A1 Teste Unilateral Direito α A2 P-Value = A1ÎAceita-se Ho P-Value = A2ÎRejeita-se Ho Teste Bilateral α/2 A2 A1 P-Value = A1+A2 133 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo A manufacturing process involves drilling holes whose diameters are normally distributed with population mean of 2 inches and population standard deviation 0.06 inches. A random sample of 9 measurements had a sample mean of 1.95 inches. Use a significance level of 5% to determine if the observed sample mean is unusual and suggests that the drilling machine should be adjusted. X − µ0 ⎧H 0 : µ = 2 Z= ⎨ σ n ⎩ H1 : µ ≠ 2 134 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada EXERCÍCIOS Question 1: A company which receives shipments of batteries tests a random sample of nine of them before agreeing to take a shipment. The company is concerned that the true mean lifetime for all batteries in the shipment should be at least 50 hours. From past experience, it is safe to conclude that the population distribution of lifetimes is normal, with standard deviation of 3 hours. For one particular shipment, the mean lifetime for a sample of nine batteries was 48.2 hours. Test at 5% level the null hypothesis that the population mean lifetime is at least 50 hours. 135 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) EXERCÍCIOS Estatística Aplicada Question 2: An engineering research center claims that through the use of a new computer control system, automobiles should achieve on average an additional 3 miles per gallon of gas. A random sample of 100 automobiles was used to evaluate this product. The sample mean increase in miles per gallon achieved was 2.4 and the sample standard deviation was 1.8 miles per gallon. Test the hypothesis that the population mean is at least 3 miles per gallon using 5% significance level. Find the P-value of this test, and interpret your findings. 136 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada EXERCÍCIOS Question 3: A beer distributor claims that a new display, featuring a life-size picture of a well-known rock singer, will increase product sales in supermarkets by an average of 50 cases in a week. For a random sample of 20 liquor weekly sales, the average sales increase was 41.3 cases and the sample standard deviation was 12.2 cases. Test at the 5% level the hypothesis that the population mean sales increase is at least 50 cases. 137 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada EXERCÍCIOS Question 4: In contract negotiations, a company claims that a new incentive scheme has resulted in average weekly earning of at least $400 for all customer service workers. A union representative takes a random sample of 15 workers and finds that their weekly earnings have an average of $381.25 and a standard deviation of $48.60. Assume a normal distribution. a) b) Test the company’s claim; If the same sample results had been obtained from a random sample of 50 employees, could the company’s claim be rejected at a lower significance level than in part (a)? 138 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada EXERCÍCIOS Question 5: A bearing used in an automotive application is supposed to have a nominal inside diameter of 1.5 inches. A random sample of 25 bearings is selected and the average inside diameter of these bearing is 1.4975 inches. Bearing diameter is known to be normally distributed with standard deviation 0.01 inch. Test the null hypothesis using a two-sided approach and considering. 139 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada EXERCÍCIOS Question 6: A process that produces bottles of shampoo, when operating correctly, produces bottles whose contents weigh, on average, 20 ounces. A random sample of nine bottles from a single production run yielded the following content weights (in ounces): 21,4 19,7 19,7 20,6 20,8 20,1 19,7 20,3 20,9. Assuming that the population distribution is normal, test at the 5% level against a two-sided alternative the null hypothesis that the process is operating correctly. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 140 Estatística Aplicada Exemplo 1Z A Resistência ao Estufamento das latas para a inspeção final deve ser maior que 90 psi. Tal resistência obedece a uma distribuição normal com desvio padrão de 1 psi . As medidas da Resistência para uma determinada linha/turno estão dadas na planilha Resistência.MTW Teste a Hipótese de que as medidas da Resistência ao Estufamento estão dentro do limite de especificação. (Prove que as medidas são maiores que 90) Gere: N(91; 0.83) 141 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) •TH - Proporções Estatística Aplicada H0 : π ≥ π0 H0 : π ≤ π0 H0 : π = π0 H1 : π < π0 H1 : π > π0 H1 : π ≠ π0 T.U.E T.U.D H0 : π1 ≥ π 2 H0 : π1 ≤ π 2 H0 : π1 = π 2 H1 : π1 < π 2 H1 : π1 > π 2 H1 : π1 ≠ π2 T.U.D Bilateral T.U.E Bilateral Onde: π é a proporção populacional e π0 é uma constante 142 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Exemplo – 1 Proportion Estatística Aplicada Em uma indústria de autopeças, historicamente 3,5% das peças produzidas contém algum tipo não-conformidade. Uma equipe está trabalhando na redução desta incidência de defeitos e, no último mês, foram produzidas 1500 peças e somente 45 estavam fora da especificação. A equipe obteve melhoria no desempenho ? H 0 : π ≥ 0,035 H1 : π < 0,035 143 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada <Stat > <Basic Statistics > <1 Proportion> Selecione Summarized data “Number of trials”: 1500 45 p= = 3,0% “Number of successes”: 45 1500 Options “test proportion”: < 0,035 > π0 “alternative”: < less than > 144 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Uma equipe deseja aumentar a porcentagem (ou proporção) de pedidos aceitos pelos clientes. A equipe acredita ter identificado uma das causas de perdas de pedidos que é o prazo elevado para envio da cotação ao cliente. Conseguiram reduzir este tempo e os resultados das últimas 10 semanas estão fornecidos no arquivo pedidos.mtw. Qual é a conclusão ? 145 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 2 Proportions <Stat > <Basic Statistics > <2 Proportions> Selecione Samples in different columns First= antes Second= depois Obs: no arquivo, “s” indica pedido aceito, e Options “n”, pedido recusado “test difference”: < 0 > “alternative”: < less than > 146 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Test and CI for Two Proportions: antes; depois Success = s Variable antes depois X 11 14 N 43 30 Sample p 0,255814 0,466667 Estimate for p(antes) - p(depois): -0,210853 95% upper bound for p(antes) - p(depois): -0,0253151 Test for p(antes) - p(depois) = 0 (vs < 0): Z = -1,87 P-Value = 0,031 Rejeita-se H0 147 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada <Stat><Basic Statistics> <1 Sample Z> Selecione Resistencia Sigma=1 (isso geralmente não é fornecido) Test mean= 90 <Options> Alternative= Greater than <Graphs...> Individual plot 148 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada One-Sample Z: Resistencia H0 H1 Test of mu = 90 vs mu > 90 The assumed sigma = 1 Variable Resistencia Variable Resistencia N 15 Uma boa regra: Se P-Value < α, rejeita-se Ho Valor dentro da Região Crítica Mean 91,111 95,0% Lower Bound 90,686 StDev 0,834 Z 4,30 Região Crítica SE Mean 0,258 P 0,000 Rejeita-se H0 149 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo 1t Teste de média t para 1 amostra A especificação da Largura da Flange das latas para a inspeção final é definida como 0.082’’+/- 0.010’’ e obedece a uma distribuição normal. As medidas da Largura da Flange para uma determinada linha/turno estão dadas na planilha. Teste a Hipótese de que as medidas da Largura da Flange estão dentro do limite de especificação. (Prove que os valores são em média maiores que 0,072” e menores que 0,092”) Gere: N(0.0835; 0.00345) 150 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Teste 1 (Para provar que os valores são menores que 0,092) <Stat><Basic Statistics> <1 Sample t> Selecione Largura Flange Test mean= 0,092 <Options> Alternative= Less than <Graphs...> <Stat><Basic Statistics> <1 Sample t> Selecione Largura Flange Histogram of data Teste 2 (Para provar que os valores são maiores que 0,072) Test mean= 0,072 <Options> Alternative= Greater than <Graphs...> Histogram of data Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 151 1Z e 1t Estatística Aplicada Teste de Hipótese para Médias – Uma amostra H0 : µ ≥ µ0 H0 : µ ≤ µ0 H0 : µ = µ0 H1 : µ < µ0 H1 : µ > µ0 H1 : µ ≠ µ0 T.U.E Teste Z: Bilateral T.U.D X − µ0 Z0 = σ/ n Teste T: X − µ0 T= S/ n 152 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 2Z e 2t Estatística Aplicada Teste de Hipótese para Médias – Duas amostras H 0 : µ1 ≥ µ 2 H 0 : µ1 ≤ µ 2 H 0 : µ1 = µ 2 H1 : µ1 < µ 2 H1 : µ1 > µ 2 H1 : µ1 ≠ µ 2 T.U.E T.U.D Variâncias Conhecidas Z0 = X 1 − X 2 − (µ1 − µ 2 ) σ 12 n1 + σ 22 n2 Bilateral Variâncias Desconhecidas T= X 1 − X 2 − (µ1 − µ 2 ) 1 1 1 + S p n1 n2 153 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 2t – Cálculo da Variância Estatística Aplicada Estimador Combinado S 2 1 S 2 p ( n1 − 1)S + (n2 − 1)S = (n1 − 1) + (n2 − 1) 2 1 : Variância Amostral Grupo 1 n1 : Tamanho do Grupo 1 2 2 2 Variância Amostral Grupo 2 2 S : n2 : Tamanho do Grupo 2 154 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) TH p/ Variâncias Estatística Aplicada H 0 : σ 21 ≥ σ 2 2 H 0 : σ 21 ≤ σ 2 2 H 0 : σ 21 = σ 2 2 H1 : σ 21 < σ 2 2 H1 : σ 21 > σ 2 2 H1 : σ 21 ≠ σ 2 2 T.U.E T.U.D Estatística de Teste: Bilateral S12 F0 = 2 S2 155 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo Dois tipos de Bico de Aplicação de verniz (Tipo I e Tipo II) foram avaliados. Deseja-se investigar o efeito desses dois Bicos com relação ao Peso do Verniz (em mg) medido após o processo. Tais medidas são dadas na planilha ao lado. As variâncias são iguais? (Teste a Hipótese nula de que os dois bicos produzem um peso de Verniz com mesma variância.) Peso_Verniz.MTW 156 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada <Stat><Basic Statistics> <2 Variances> Selecione Samples in different columns First= Verniz_tipo1 Second= Verniz_tipo2 Obs.: Teste o Procedimento Stack Columns Para usar Samples in one column 157 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Levene’s Test Estatística Aplicada Test for Equal Variances for Verniz_tipo1; Verniz_tipo2 F-Test Test Statistic P-Value Verniz_tipo1 2,74 0,150 Lev ene's Test Test Statistic P-Value Verniz_tipo2 0,2 0,4 0,6 0,8 1,0 95% Bonferroni Confidence Intervals for StDevs 1,2 Prefira sempre, pois independe da distribuição dos dados. As variâncias são iguais! Verniz_tipo1 Verniz_tipo2 110,0 110,5 111,0 111,5 112,0 1,51 0,236 112,5 Data 158 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Test for Equal Variances Estatística Aplicada Após empilhamento dos dados faça: <Anova> <test for equal variances> Esse método é melhor, pois pode testar mais que dois conjuntos de dados. Bonferroni confidence intervals for standard deviations Lower Sigma Upper N Factor Levels 0.358564 0.548160 1.10380 10 Verniz_tipo1 0.216713 0.331303 0.66713 10 Verniz_tipo2 F-Test (normal distribution) Test Statistic: 2.738 P-Value : 0.150 Levene's Test (any continuous distribution) Test Statistic: 1.505 P-Value : 0.236 (variâncias iguais) 159 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo: Em relação ao problema anterior, teste se as médias são diferentes. (Peso_Verniz.MTW) <Stat><Basic Statistics> <2 Sample t> Selecione Samples in different columns First= Verniz_tipo1 Second= Verniz_tipo2 Selecione: Assume equal variances <Options> Test mean= 0 Alternative= not equal <Graphs> Selecione Boxplots of data Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 160 Estatística Aplicada Two-Sample T-Test and CI: Verniz_tipo1, Verniz_tipo2 Two-sample T for Verniz_tipo1 vs Verniz_tipo2 N Mean StDev SE Mean Verniz_t 10 110.792 0.548 0.17 Verniz_t 10 112.205 0.331 0.10 Difference = mu Verniz_tipo1 - mu Verniz_tipo2 Estimate for difference: -1.413 95% CI for difference: (-1.838, -0.987) T-Test of difference = 0 (vs not =): T-Value = -6.97 P-Value = 0.000 DF = 18 Both use Pooled StDev = 0.453 Médias diferentes 161 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Boxplot of Verniz_tipo1; Verniz_tipo2 112,5 112,0 Data 111,5 111,0 110,5 110,0 Verniz_tipo1 Verniz_tipo2 162 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Paired t Estatística Aplicada Observações Emparelhadas H 0 : ∆ 0 = µ1 − µ 2 = 0 H 0 : ∆ 0 = µ1 − µ 2 ≥ 0 H 0 : ∆ 0 = µ1 − µ 2 ≤ 0 H1 : ∆ 0 = µ1 − µ 2 ≠ 0 H1 : ∆ 0 = µ1 − µ 2 > 0 Desvio Padrão das diferenças entre 1 e 2 H1 : ∆ 0 = µ1 − µ 2 < 0 D − ∆0 T0 = SD / n Diferença Amostral Média 163 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Paired t - Características • Consiste em dois testes (um antes e outro depois) com a mesma unidade experimental (amostra). Ex.: O peso de pessoas antes e depois de um tratamento. • Em geral, as unidades experimentais são heterogêneas (σ grande) e exibem alta correlação positiva. 164 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo - Paired t Suspeita-se que dois funcionários estão monitorando o manômetro de um processo de uma forma desigual. Para diferentes pressões foram lidas (de uma forma emparelhada) os resultados da planilha ao lado. Teste a Hipótese de que os dois operadores tem o mesmo desempenho. 165 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Paired t <Stat><Basic Statistics> <Paired t> Selecione Samples in columns First sample= Operador 1 Second sample= Operador 2 <Options> Test mean= 0 Alternative= not equal <Graphs> Individual value plot 166 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Paired T-Test and CI: Operador 1, Operador 2 Paired T for Operador 1 - Operador 2 N Mean StDev SE Mean Operador 1 10 194 428 135 Operador 2 10 196 428 135 Difference 10 -2.400 1.075 0.340 95% CI for mean difference: (-3.169, -1.631) T-Test of mean difference = 0 (vs not = 0): T-Value = -7.06 P-Value = 0.000 Médias diferentes 167 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Power Sample Size Estatística Aplicada Tamanho de Amostras em Testes de Hipóteses Fatores determinantes do Tamanho da Amostra (n) Fonte Efeito sobre “n” 1 Desvio Padrão dos dados Deve ser estimado. Quando o Desvio Padrão diminui, n cresce. 2 Nível de Significância (α) Em geral, 0.05. Se α diminui, n cresce. 3 4 Quanto menor for a Diferença a ser detectada Você decide o tamanho diferença desejada, maior (d) adequado. n. Poder do Teste: (1-β) Se o poder do teste Probabilidade de detectar Usualmente, 90% cresce, n cresce. uma diferença quando ela realmente existir. 168 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada •Exemplo Uma equipe de melhoria desenvolveu um novo procedimento de manutenção. Espera-se que o tempo de manutenção diminua com a utilização do novo procedimento. Para identificar se as mudanças foram eficazes, a equipe decide coletar amostras dos dois processos: o novo e o antigo. 169 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Questionamentos Questão 1: Qual o teste de Hipóteses adequado para esta situação? • 2 Sample-t (média de dois grupos) Questão 2: Que Informações são necessárias para se determinar o tamanho de amostra necessária ao teste? • Uma estimativa do desvio padrão do tempo de manutenção; • A diferença que deve ser detectada entre os tempos médios dos dois processos; • A probabilidade de detectar esta diferença (Geralmente 90%); • O nível de significância desejado (Geralmente5%); 170 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Questão 3: Que suposições a equipe está fazendo? • Que o processo é estável; • Que os dados são Normais. Questão 4: Como estas suposições podem ser verificadas? • Carta de Controle; • Teste de Normalidade. 171 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) •Exemplo – Verificação Estatística Aplicada 120 UCL=118 Time (minutes) 110 100 90 X=87 80 70 60 LCL=56 50 0 10 20 30 40 Examinando-se a carta de controle, verifica-se: O processo é estável e a média atual é 87 minutos 172 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 120 UCL=118 Time (minutes) 110 100 90 X=87 80 70 60 LCL=56 50 0 10 UCL − LCL 118 −56 = = 10.3 6 6 20 30 40 UCL − Avg 118 −87 = = 10.1 3 3 Portanto, pode-se adotar um desvio padrão de 10. 173 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Se a equipe deseja provar que o tempo médio de manutenção utilizando-se o novo procedimento é de 75 minutos, e se considerarem a probabilidade de 90% de chance de detecção desta diferença (12 minutos), com um nível de significância de 0,05, qual será o tamanho da amostra necessária? 174 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada <Stat > <Power and Sample Size> <2 Sample t> Differences= 12 Power values= 0,9 Sigma= 10 <Options> Selecione Not equal como Alternative Hypothesis 175 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 2-Sample t Test Testing mean 1 = mean 2 (versus not =) Calculating power for mean 1 = mean 2 + difference Alpha = 0,05 Sigma = 10 Difference 12 Sample Target Actual Size Power Power 16 0,9000 0,9072 Tamanho de amostra necessária. 176 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 5– ANÁLISE DE VARIÂNCIA (ANOVA) Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) ANOVA Estatística Aplicada Análise de Variância • • • • • As bases da Análise de Variância Um fator (One-way) Dois fatores (Two-way) Análise de Médias (ANOM) Balanced ANOVA ANOVA é um Teste para Comparar Médias (O nome é enganoso!) 178 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA - Visualmente Entendendo o significado da ANOVA... 179 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada As Bases da ANOVA Tratamentos A B C 5 9 10 4 1 5 6 8 8 7 11 7 8 6 10 Somatório 30 35 40 Médias 6 7 8 Resposta As médias são realmente diferentes ou tudo não passa de casualidade? H 0 : µ A = µ B = µC H1 : Pelo menos um dos sinais = vai ser negado Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 180 Estatística Aplicada Algoritmo: Variação Total Média geral (A, B e C) Passo 1: Cálculo da Variação Total ∑ Xi X i − X = xi 5 5-7=-2 4 4 4-7=-3 9 Etc. Etc. Etc 7 0 0 10 3 9 105 0 96 Foram considerados 15 observações: Glib=14 xi 2 VT - Variação Total Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Como VT>0 é razoável imaginar que ela se compõe de variações que ocorrem Dentro dos Grupos (VD - Within) e Entre os tratamentos (VE - Between) 181 Estatística Aplicada Algoritmo: Variação Within Passo 2: Cálculo da Variação Dentro do Grupo - Within X A X A − X A ( X A − X A ) ( X B − X B ) ( X C − X C )2 2 5 5-6=-1 1 4 -2 4 6 0 0 7 1 1 8 2 4 10 VD=10+58+18=86 2 58 18 Foram considerados 5 observações em cada caso: Glib=12 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 182 Estatística Aplicada Algoritmo: Variação Between Passo 3: Cálculo da Variação Entre Tratamentos (Between) XA XA − X (X A − X ) 6 -1 1 6 -1 1 6 -1 1 6 -1 1 6 -1 1 5 VE=5+0+5=10 2 (X B − X ) 0 2 (XC − X ) 5 Foram considerados 3 observações : Glib=2 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 2 183 Estatística Aplicada VT=VD+VE ! Algoritmo: Graus de Liberdade 96=86+10 Graus de Liberdade: A VT possui (15-1)=14 GLIB (3 Tratamentos) (5 Observ/Trat) A VD possui (5-1)(3)=12 GLIB (5 Observ/Amostra)(3 Amostras) A B C 5 9 10 4 1 5 6 8 8 7 11 7 8 6 10 A VE possui (3-1)=2 GLIB (3 Tratamentos -1) GLIBVT=GLIBVD+GLIBVE ! 14=12+02 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 184 Estatística Aplicada VT=VD+VE ! Algoritmo: Teste de Fisher para Médias 96=86+10 GLIBVT=GLIBVD+GLIBVE ! 14=12+02 Estimativas de Variâncias: VD/GLIBVD = 86/12 = 7,17 VE/GLIBVE= 10/2 = 5 F0= 5/7,17=0,70 Fcrítico= 3,89 (em função dos GLIBVE GLIBVD e alfa=5% F0<Fcrítico Não se Rejeita Ho Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 185 Estatística Aplicada Algoritmo: Quadro resumo Quadro Resumo Básico Fonte de Variação Própria Variação GLIB Variância Estimada F0 VE 10 2 10/2=5 5/7,17=0,70 VD 86 12 86/12=7,17 VT 96 14 186 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Minitab <ANOVA>One-Way Unstacked One-way ANOVA: A; B; C (use unstacked) Analysis of Variance Source DF SS MS F P Factor 2 10,00 5,00 0,70 0,517 Error 12 86,00 7,17 Total 14 96,00 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev A 5 6,000 1,581 B 5 7,000 3,808 C 5 8,000 2,121 ----+---------+---------+---------+-(------------*------------) (------------*------------) (------------*------------) ----+---------+---------+---------+-- Pooled StDev = 2,677 4,0 6,0 8,0 10,0 187 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada One-Way ANOVA Exemplo Na definição do Setup dos fatores para o processo Inside Spray quatro conjuntos de níveis para os parâmetros de Temperatura foram avaliados. Deseja-se investigar o efeito desses quatro Setups com relação a Distribuição do Verniz interno no fundo para cerveja medidas em mg/pol2 após o processo. Tais medidas são dadas na planilha ao lado. 188 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA One-Way (Unstacked) ANOVA One-Way (Unstacked) Usar o Procedimento Stack Columns para executar o Teste ANOVA One-Way (preferível pois faz a análise de resíduos!!) 189 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA One-Way: Resultados As médias são diferentes 190 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA One-Way: Boxplots Boxplots of Setup1 - Setup4 (means are indicated by solid circles) 8.5 7.5 6.5 5.5 Setup4 Setup3 Setup2 Setup1 4.5 191 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA One-Way: Residuals x Fitted Residuals Versus the Fitted Values (response is mg) 1.5 1.0 Residual 0.5 0.0 -0.5 -1.0 -1.5 6.0 6.5 7.0 Fitted Value 192 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo Two-Way ANOVA Processo de fabricação de latas No processo Bodymaker desejase investigar a Profundidade do Dome em função de 3 conjuntos de parâmetros (envolvendo pressão, Temperatura Vazão, etc...) e também em dois turnos de operação. Foram então colhidas amostras da Profundidade do Dome (em polegadas) para diferentes Turnos e diferentes Conjuntos de Parâmetros. Anova_2.MTW 193 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA Two-Way: Follow along 194 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOVA Two-Way: Resultados Diferentes Iguais 195 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOM Análise de Médias Exemplo 3 Foram avaliados três níveis de pressões de ar draw pad (em psi) e também três níveis de pressões de ar blow off (em psi) na influência de problemas visuais após o processo Minster. O número de defeitos visuais (Riscos, Abaulamento, orelhas, rebarbas, rugas e ovalização) está mostrado na planilha ao lado. Anova_3.MTW ANOM: Para identificar qual média é diferente e avaliar a Interação! 196 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOM Isso é melhor estudado em DOE! 197 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOM: Gráficos Não há interação entre as pressões Blow e Draw. O Efeito de Blow é significativo! 198 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada ANOM: Resultados Blow Draw A Pressão Blow afeta mais a média 3,0 e 8,83 são valores distantes de 6,22 199 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Balanced Anova Exemplo 5 Processo de fabricação de latas Deseja-se avaliar o tempo gasto (em minutos) por seis funcionários para ajustar o Setup de dois processos (I e II) usando dois diferentes procedimentos (um novo e um antigo). A planilha seguinte mostra os resultados obtidos. Isso é a base para DOE - Delineamento de Experimentos! Anova_5.MTW 200 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Balanced ANOVA 201 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Balanced ANOVA: Resultados Diferentes 202 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) TWO-WAY Estatística Aplicada Ex.6: An engineer suspects that the surface finish of metal parts is influenced by paint used and the drying time. Using a 5% significance level, test the influence of these two factors as also its interaction. 203 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) TWO-WAY Estatística Aplicada Drying Time (min) Paint 20 25 30 Total (yi..) 1 74 64 50 188 73 61 44 178 78 85 92 255 621 2 92 86 68 246 98 73 88 259 66 45 85 196 701 Total: (y.j.) 434 437 451 1322 (y…) 204 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) TWO-WAY Estatística Aplicada Ex.7: Am experiment describes na investigation about the effect of glass type and phosphor type on the brigtness of a television tube. The response is the current (mA) necessary to obtain a specified brightness level. Using a 5% significance level, test the influence of these two factors as also its interaction. 205 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 6 – CORRELAÇÃO E REGRESSÃO Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Análise de Regressão • • • • • • Correlação Procedimentos Gerais Y=f(X) Regressão linear Ajuste da Regressão Regressão linear Múltipla Best Subsets A análise de regressão é uma técnica estatística usada para modelar e investigar a relação entre duas ou mais variáveis. O modelo é freqüentemente usado para previsões. Regressão é um teste de hipótese Ha: O modelo permite significativamente prever a resposta. 207 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Coeficiente de Correlação Agente x y A 2 48 B 4 56 C 5 64 D 6 60 E 8 72 Diagrama de Dispersão 70 Clientes Ex.: Suponha que o nosso desejo seja o de quantificar a associabilidade entre duas variáveis relacionadas a cinco agentes de uma seguradora. Assim, temos: X≡ Anos de experiência do agente. Y ≡ Número de clientes do agente. 60 50 2 3 4 5 6 Anos de Experiência 7 8 (x, y) é um par aleatório – Dados emparelhados Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 208 Estatística Aplicada r=Correlação de Pearson y− y = zy sy y−y y x Série de dados originais (x e y) são valores quantitativos. x−x O conjunto de pontos é deslocado, tendo agora como centro, os valores médios. 1 n r = Corr ( X , Y ) = ∑ z xi z yi n i =1 x−x = zx sx A escala de x e y é agora padronizada. Isso torna os valores independente da sua unidade. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 209 Estatística Aplicada Coeficiente de Correlação x−x y−y Agente x y A 2 48 -3 B 4 56 C 5 D zx zy zx . zy -12 -1.5 -1.5 2,25 -1 -4 -0.5 -0.5 0,25 64 0 4 0 0.5 0 6 60 1 0 0.5 0 0 E 8 72 3 12 1.5 1.5 2,25 Total 25 300 0 0 0 0 4,75 x = 5 y = 60 4,75 S x = 2 S y = 8 r = Correlação ( X , Y ) = 5 = 0,95 = 95% 210 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada P_value p/ Correlação 1 n 1 n ⎛ xi − x ⎞⎛ yi − r = Corr ( X , Y ) = ∑ z xi z yi = ∑ ⎜ ⎟⎜ n i =1 n i =1 ⎝ s x ⎠ ⎝ s y y⎞ ⎟ ⎠ 1 ∑ ( x i − x )( y i − y ) Covariância ( X , Y ) −1 ≤ r ≤ 1 r= = n sx ⋅ s y sx ⋅ s y A correlação apresentada aqui é linear. Existem outros tipos de correlação! Agente x y A 2 48 B 4 56 C 5 64 D 6 60 E 8 72 Ex.: Cálculo da correlação da tabela ao lado Pearson correlation of Anos Exp and Clientes = 0,950 P-Value = 0,013 Forte Correlação pois P-Value <0,05 211 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Correlação no Minitab Faça a análise de Correlação das variáveis ao lado na planilha Bidimensional.mtw O Coeficiente de Correlação é também chamado de Coeficiente de Pearson. 212 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Algumas questões sobre Correlação: A) Uma medida de Correlação fornece dois tipos de informações a respeito do relacionamento de duas variáveis. Quais são elas? B) Qual coeficiente de correlação abaixo indica o mais forte relacionamento? a) 0.70 b) 0.03 c)-0.77 d) 0.10 C) Se a correlação Rxy=0.45, então Ryx= D) Qual o valor do coeficiente de correlação melhor descreve os seguintes valores das variáveis X e Y, relacionadas abaixo: X: 20 30 40 50 60 Y: 40 30 20 10 0 a) -1.0 b) 0.0 c) 0.5 d) 1.0 E) Qual a correlação do gráfico abaixo? 213 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada F) Algumas questões sobre Correlação: Se um coeficiente de correlação for de +1.4, o que ocorre? a) O Relacionamento é extremamente forte b) O Relacionamento é positivo c) As respostas acima estão corretas d) Um erro computacional foi cometido G) Um coeficiente de Pearson de -0.5 entre os valores de Leitura (X) e o número de dias ausentes da escola (Y) indica que: a) Metade dos valores de Leitura são menos do que o número de dias ausentes da escola b) Maiores valores de Leitura são associados com menor ausência da escola c)A soma do produto XY é igual a -0.5 d) Quase não existe relacionamento entre X e Y 214 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Dia 1 2 3 4 Variável Comum Fator 1 Água Água Água Água Fator 2 Whisky Vodka Rum Bourbon Resultado Ficou Bêbado Ficou Bêbado Ficou Bêbado Ficou Bêbado Conclusão: a água embebeda É comum associar-se um defeito com uma variável que está sempre presente quando ele ocorre (é o caso do operador que é culpado, pois quando ele executa a operação ocorre um defeito – Toda operação geralmente tem um operador). 215 © 1995 Six Sigma Academy Inc. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada As “armadilhas”: correlações casuais Se a história servisse de base, os Republicanos deveriam estar vestindo a camisa dos Yankees e dando uma força para o New York vencer o campeonato. Desde a Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição, o Partido Republicano assumiu a Casa Branca. Variável Comum Yankees Republicanos GANHARAM PERDERAM GANHARAM PERDERAM 1976 1964 1960 1956 1952 216 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada As “armadilhas”: causa reversa Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo é a conseqüência do “Y” . Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes . Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente . Com os novos descontos e a nova promoção fica mais difícil ainda administrar o Serviço de Atendimento ao Cliente, ocasionando num aumento da insatisfação do cliente e diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) . 217 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada As “armadilhas”: fatores omitidos Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto, deveríamos evitar hospitais grandes? Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a gravidade da condição do paciente quando é admitido ao hospital. Os casos mais sérios tendem a ser levados aos hospitais maiores! Fumar cigarros causa câncer? E se eu dissesse que ... (1) Médicos franceses não encontram esta correlação; (2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e preservativos contendo substâncias conhecidamente cancerígenas, e; (3) O tabaco francês raramente entra em contato com tais substâncias químicas. 218 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada O Fazendeiro Radiofóbico Em Em1950, 1950,um umfazendeiro fazendeiroafirmou afirmouque quesuas suasárvores árvoresfrutíferas frutíferasestavam estavamsendo sendoprejudicadas prejudicadas pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela de pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela dearame arameao ao redor redorde dealgumas algumasdas dasárvores árvorespara para“protegê-las” “protegê-las”destas destasondas ondasde derádio rádioe,e,realmente, realmente,as as árvores árvoresprotegidas protegidasse serecuperaram recuperaramrapidamente, rapidamente,enquanto enquantoque queas asdesprotegidas desprotegidasainda ainda sofriam. sofriam. Na Namesma mesmaépoca, época,muitas muitasárvores árvorescítricas cítricasem emtodo todopaís paísforam foramameaçadas ameaçadaspor poruma umadoença doença chamada chamadade de“folha “folhapequena”. pequena”. Alguns Algunsfazendeiros fazendeirosTexanos Texanosdescobriram descobriramque queuma umasolução solução de desulfato sulfatode deferro ferrocurava curavaaadoença. doença.No Noentanto, entanto,nem nemsempre semprefuncionava funcionavano noTexas, Texas,ee praticamente praticamentenunca nuncafuncionava funcionavana naFlórida Flóridaou ouna naCalifórnia. Califórnia. OOmistério mistériofoi foidesvendado desvendadoquando quandoooproblema problemaverdadeiro verdadeirofoi foirevelado revelado----deficiência deficiênciade dezinco zinco no solo. A cerca do fazendeiro Radiofóbico era de tela galvanizada, sendo que traços do no solo. A cerca do fazendeiro Radiofóbico era de tela galvanizada, sendo que traços do zinco zincoda dagalvanização galvanizaçãoeram eramlevados levadosda datela telapara paraoosolo. solo. OOsulfato sulfatode deferro ferronada nadatinham tinhamaaver vercom comaacura, cura,mas massim simos osbaldes baldesde deferro ferrogalvanizados galvanizados usados para espalhar a substância! Em outras regiões, onde outros tipos de baldes usados para espalhar a substância! Em outras regiões, onde outros tipos de baldeseram eram usados, as árvores continuaram doentes. usados, as árvores continuaram doentes. 219 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada As “armadilhas”: multicolinearidade É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a ocorrer juntos regularmente. • “Tenho visto uma redução dramática nas perdas desde que comecei a implementar as ferramentas estatísticas na fábrica!” No entanto, foi exatamente na mesma época em que o RH introduziu seu novo sistema de recompensa e reconhecimento. O que ocasionou a melhoria? • Em 1967, um artigo rotulou um determinado tipo de carro como sendo inseguro. O modelo em questão era um carro pequeno esportivo de alto desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu dissesse que a maioria dos proprietários deste carro tendiam a ser motoristas jovens menores de 25 anos com novas idéias. Esta faixa etária não paga prêmios de seguro mais elevados devido a maior incidência de acidentes? 220 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Y=f(x) y Linha de Regressão A variável X é dita variável independente (ou exógena), enquanto Y é dita variável dependente (ou endógena). x •Y=f(x) Simples •Y=f(x,y,z...) Múltipla 221 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão Linear Simples (Um X) Múltipla (Dois ou mais Xs) Y Curvilínea (Um X) Y Y X2 X X Curvilínear (Dois ou mais Xs) X 1 Variáveis Indicativas (para Xs Discretos) Logística (Ys Discretos) 1 x Y Y x x x x x x x x x x x x x x Xb Xc % yes Xa X2 X 0 1 Xi X 222 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Resíduos y y = α + βx yˆ = a + bx, Curva de Resíduos (e) x1 x2 x3 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) x Uma importante condição para o uso de regressão simples é que os resíduos (e) sejam independentes de x. Porque? 223 Estatística Aplicada Regressão Linear Simples 8 yˆ = a + bx 7 ŷi 6 y ei ei 5 Σ e n 2 i=1 i yi 4 3 2 2 n ˆ minΣ e = minΣ ( yi − yi ) = minΣ i=1( yi − a − bxi ) n 2 i=1 i n i=1 2 50 55 60 65 70 75 x 224 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Σ e n 2 i=1 i A matemática da Regressão Linear yˆ = a + bx minΣ e = minΣ 2 n i=1 i n i=1 ( yi − yˆ i ) 2 = minΣ n i=1 ( yi − a − bxi ) 2 ∂ ∂ n n 2 2 d = 0 e ∑i =1 d i = 0. ∑ i =1 i ∂a ∂b − 2∑i =1 ( yi − a − bxi ) = 0, n − 2∑i =1 xi ( yi − a − bxi ) = 0, n 225 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ufa! ⎧⎪∑n yi = na + b∑n xi , i =1 i =1 ⎨ n n n 2 = + x y a x b x ⎪⎩∑i =1 i i ∑i =1 i ∑i =1 i n ⎧ ( xi − x ) yi S xy ∑ i =1 ⎪b = , = n 2 ⎨ S ( x x ) − xx ∑ i i =1 ⎪ ⎩a = y − bx , 226 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo Ex.: Obter a equação da reta (chamada de reta dos mínimos quadrados) para os seguintes pontos experimentais: x y 1 0,5 2 0,6 3 0,9 4 0,8 5 1,2 6 1,5 7 1,7 8 2,0 Traçar a reta no diagrama de dispersão. Calcular o coeficiente de correlação linear. Qual o valor previsto para x=9? Qual a Tolerância de X para 1<Y<1.5? 227 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão: By Hand 36 ⋅ 9,2 S xy = 50,5 − = 50,5 − 41,4 = 9,1, 8 (36) 2 S xx = 204 − = 204 − 162 = 42. 8 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 228 Estatística Aplicada Regressão: Cálculos 36 ⋅ 9,2 S xy = 50,5 − = 50,5 − 41,4 = 9,1, 8 (36) 2 S xx = 204 − = 204 − 162 = 42. 8 9,1 b= = ≅ 0,217, S xx 42 9,2 36 a = y − bx ≅ − 0,217 ⋅ = 1,150 − 0,976 = 0,174. 8 8 S xy yˆ = 0,174 + 0,217 x 229 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão: Gráfico Fitted Line Plot y = 0,1750 + 0,2167 x S R-Sq R-Sq(adj) 2,00 0,121335 95,7% 95,0% 1,75 y 1,50 1,25 1,00 0,75 0,50 0 1 2 3 4 x 5 6 7 8 230 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão: Correlação 2 (9,2) = 12,64 − 10,58 = 2,06,∴ S yy = 12,64 − 8 S xy 9,1 = ≅ 0,98 r= 42 ⋅ 2,06 S xx S yy Relembre Correlação! 231 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão linear simples no Minitab Previsão 232 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Linear Ajuste da Regressão R-quadrado éa porcentagem da variação explicada pelo seu modelo. R-quadrado (ajustado) é a porcentagem da variação explicada pelo seu modelo, ajustada para o número de termos em seu modelo e o número de pontos de dados. O “valor-p” para a regressão é para ver se o modelo de regressão inteiro é significativo. —Ha: O modelo permite significativamente prever a resposta. 233 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ajuste Quadrático Quadrático 234 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ajuste Cúbico Cúbico 235 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Intervalos de confiança e de previsão Ajuste da Regressão Uma faixa (ou intervalo) de confiança é uma medida da certeza da forma da linha de regressão ajustada. Em geral, uma faixa de 95% implica em uma chance de 95% de que as linha verdadeira fique dentro da faixa. [Linhas vermelhas] Uma faixa (ou intervalo) de previsão é uma medida da certeza da dispersão dos pontos individuais em torno da linha de regressão. Em geral, 95% dos pontos individuais (da população em que a linha de regressão se baseia) estarão contidos dentro da faixa. [Linhas azuis] 236 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Estreitando Tolerâncias CTQ 2 1 237 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Estreitando Tolerâncias CTQ 2’ 1 2 1’ 238 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Pratique Regressão Linear Simples Determine a função de transferência entre o Número de Setups e o Tempo de Ciclo para diversas operações em uma certa empresa. Use a planilha cycletime.mtw. Faça a análise de Resíduos. Qual a previsão do Tempo de Ciclo para uma operação que consiste em 10 Setups de equipamento? A equação final é adequada? Se não for, como melhorá-la? 239 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão Múltipla Uma reação Química foi realizada sob seis pares de diferentes condições de pressão e temperatura. Em cada caso foi medido o tempo necessário para que a reação se completasse. Obter a equação de regressão do tempo em relação a pressão e temperatura. Regressão.mtw 240 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão Múltipla: Resultados Menores que 0,05 Maior melhor 241 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 92 estudantes americanos participam de um simples experimento. Cada estudante registra o seu peso, altura, gênero, pulso e se é fumante ou não. Todos eles jogam uma moeda e sorteiam se vão dar uma corrida (cara) ou não por um minuto. Após a corrida, todos os alunos registram o seu pulso novamente. Um aluno sugere que seja inserida a seguinte “importante” consideração: Se a pessoa pinta o cabelo ou não. Best Subsets Regressão.mtw Deseja-se fazer uma regressão do segundo pulso em relação a todas as outras variáveis. Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 242 Estatística Aplicada Best Subsets: Resultados Equação de regressão inicial. Muito complexa Correlação muito alta. Quem pinta cabelo é “geralmente” mulher 243 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Best Subsets: Resultados Melhor ajuste 244 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Análise de Resíduos Ruim Bom Residuals vs Each X Residual Residual 3 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 3 Time Plot of Residuals 4 5 6 7 8 X 9 10 11 12 Residual 3 2 2 1 1 0 0 -1 -1 -2 -2 30 -3 0 50 Time Order 100 0 50 100 Time Order Residual 3 Residual 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 30 Normal Probability Plot of Residuals 20 X Residual 3 -3 Residuals vs Predicted Y (Fits) 10 40 50 Pred. Y Nscore 3 2 0 50 100 Pred. Y Nscore 3 1 0 0 -1 -1 -2 -2 -3 -3 -3 Considere a possibilidade da existência de variáveis ocultas que não foram consideradas no modelo (Lurking) Entenda que X e Y não precisam ser normalmente distribuídos. Os resíduos, 245 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)contudo, deveriam ser. Residual Residual 2 1 Nos casos ruins tente uma transformação em X,em Y ou ambos. Use Box-Cox Transformation -2 -1 0 1 2 3 -1 0 1 2 3 4 Estatística Aplicada Regressão Curvilínea Um laboratório está fazendo testesSeal Strength (g/cm2) em adesivos em função da 2100 temperatura. Quando a 2050 temperatura aumenta a força do 2000 contato entre duas superfícies aumenta Em um determinado 1950 ponto, contudo a força desse 1900 contato começa a diminuir em função de propriedades térmicas 200 250 300 do adesivo. Qual o modelo Temperature empírico da força (Seal Strength) em função da temperatura? Curve.mtw 350 400 246 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Termo quadrático da regressão Deve-se criar a variável quadrática e em seguida rodar o modelo em Regression Termo quadrático Observe resíduos Função quadrática VIF Armazena resíduos 247 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Regressão Curvilínea The regression equation is SealStrength = 923 + 7.45 Temperature - 0.0125 TempSqrd X X2 Predictor Constant Temperat TempSqrd Coef 922.98 7.4469 -0.0124596 S = 25.18 StDev 72.33 0.5033 0.0008499 R-Sq = 69.4% Analysis of Variance Source Regression Residual Error Total Source Temperat TempSqrd DF 1 1 DF 2 97 99 SS 139321 61498 200819 T 12.76 14.80 -14.66 P 0.000 0.000 0.000 X e X2 são fortemente correlacionados. Nenhuma surpresa VIF 132.9 132.9 R-Sq(adj) = 68.7% Conclusão: Existe uma curvatura significativa MS 69661 634 F 109.87 P 0.000 Seq SS 3051 136270 248 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) PORTFÓLIO Estatística Aplicada Ex.1: De acordo com os dados da tabela ao lado, há correlação entre o preço de um produto e o respectivo volume de vendas? n PREÇO VENDAS 1 5,5 420 2 6,0 380 3 6,5 350 4 6,0 400 5 5,0 440 6 6,5 380 7 4,5 450 8 5,0 420 249 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) PORTFÓLIO Estatística Aplicada Exercício 2: n Price Sales A liquor wholesaler is interested in assessing the effect of the price of a whiskey on the quantity sold. The results in table represent the price (US$) and the respective eight weeks of sales. What are your conclusions? 1 2 3 4 5 6 7 8 19,2 20,5 19,7 21,3 20,8 19,9 17,8 17,2 25,4 14,7 18,6 12,4 11,1 15,7 29,2 35,2 250 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) PORTFÓLIO Estatística Aplicada Exercício 3: Doctors are interested in the relationship between the dosage of a medicine and the time required for a patient’s recovery. Based on the following data, verify if the variables are correlated. n Dosage Recovery Time 1 1,2 25 2 1,0 40 3 1,5 10 4 1,2 27 5 1,4 16 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) 251 PORTFÓLIO Estatística Aplicada Exercício 4: n x y The table shows, for eight vintages of select wine, purchase per buyer (y) and the wine buyer’s rating in a year (x). 1 2 3 4 5 6 7 8 3,6 3,3 2,8 2,6 2,7 2,9 2,0 2,6 24 21 22 22 18 13 9 6 Are the variables correlated? * Vintage: safra de vinho 252 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Exemplo: Determine a correlação entre o tempo de experiência e o salário anual do funcionário e se existe diferença significativa entre os salários dos homens e das mulheres. (Use Anova e 2-sample t) Mulheres Salário ($) Experiência 36730 40650 46820 50149 59679 5 7 9 10 14 67360 17 Homens Salário ($) Experiência 51535 62289 72486 75022 93379 105979 5 7 9 10 14 17 253 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) PORTFÓLIO Estatística Aplicada Exercício 6: Determinar a composição ótima da seguinte carteira: A B Retorno: 0,15 0,20 D.P. : 0,20 0,30 Variância: 0,04 0,09 254 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) PORTFÓLIO Estatística Aplicada Exercício 7: n ATIVO 1 ATIVO 2 Determinar a composição ótima da carteira formada pelos ativos a seguir, considerando-se um retorno mínimo de 9%. 1 2 3 0,15 0,17 0,04 0,12 0,13 0,09 4 5 6 7 8 9 10 -0,08 0,15 0,22 0,03 -0,14 0,02 0,15 0,07 0,09 0,11 0,09 0,06 0,08 0,10 255 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada 7 – TESTES DE INDEPENDÊNCIA ( χ ) 2 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Suponha que uma amostra com n observações possa ser classificada em uma tabela cruzada, formada por um fator de linha e um de coluna. Se a hipótese nula puder ser escrita como: H0: Não há associação entre os dois atributos. Então a freqüência esperada dentro de cada célula será: Eij = Ri C j n Onde: Ri = total da linha i; Cj = total da coluna j 257 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada A rejeição da hipótese nula se dará se: r c χ = ∑∑ 2 T i =1 j =1 (O ij − Eij ) 2 Eij >χ 2 ( r −1)( c −1),α O teste é baseado na magnitude da discrepância entre as quantidades observadas e esperadas. 258 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ex.1: De acordo com os dados da tabela abaixo, avalie se existe relação entre o método de reserva de passagens e o sexo do passageiro. Método Agência H M 256 (233,5) 74 (96,5) Total 330 Internet 41 (58,7) 42 (24,3) 83 Toll-free 66 (70,8) 34 (29,2) 100 Total: 363 150 513 259 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada A rejeição da hipótese nula se dará se: 2 2 2 ( ) ( ) ( ) 256 233 , 5 74 96 , 5 34 29 , 2 − − − χ2 = + + ... + T 233,5 96,5 29,2 = 26,8 O valor crítico do teste será: χ (2r −1)( c −1),α = χ 22,0.05 = 5,99 Como o valor de teste é maior que o valor crítico, rejeita H0. Logo, o tipo de reserva está relacionado ao sexo do 2 passageiro. O indício da diferença está no maior χ cel . 260 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG) Estatística Aplicada Ex.2: Following a presidential debate, people were asked how they might vote in the forth coming election. Is there any association between one’s gender and choice of a candidate? Gender Total Candidate Male Female A B Total 150 100 250 130 120 250 280 220 500 261 Balestrassi – Paiva – Ferreira (UNIFEI – IEPG)