Série Monográfica Qualidade Estatística Industrial José Luis Duarte Ribeiro & Carla ten Caten Editores Universidade Federal do Rio Grande do Sul Escola de Engenharia Programa de Pós Graduação em Engenharia de Produção Porto Alegre, RS 2000 Estatística Industrial José Luis Duarte Ribeiro & Carla ten Caten, editores 2000 by José Luis Duarte Ribeiro & Carla ten Caten Direitos em língua portuguesa para o Brasil adquiridos por Universidade Federal do Rio Grande do Sul Escola de Engenharia Programa de Pós Graduação em Engenharia de Produção Praça Argentina, 9 sala 404 90040-020 Porto Alegre – RS – Brasil Tel. 55 51 316 3490 / 316 3948 / 316 3491 Fax: 55 51 316 4007 e-mail: [email protected] Projeto Gráfico Lia Buarque de Macedo Guimarães Editoração Eletrônica Andréia Fabiane Nahra Leal Fabiane Ely Ilustração da Capa Arcângelo Ianelli, Natureza-morta 1960 óleo s/ tela 70 X 83 cm IPHAN, Museu Nacional de Belas Artes Estatística Industrial Introdução .......................................................................................................................... 1 Variabilidade ................................................................................................................................................... 1 Métodos estatísticos ....................................................................................................................................... 2 Coleta de dados .............................................................................................................................................. 3 Funções .......................................................................................................................................................... 5 Gráficos ........................................................................................................................................................... 5 Exercícios........................................................................................................................................................ 6 Distribuições de freqüência............................................................................................ 10 Intervalos de classe ......................................................................................................................................10 Regras gerais para elaborar uma distribuição de freqüência .......................................................................11 Histogramas e polígono de freqüência .........................................................................................................11 Distribuição de freqüências relativas ............................................................................................................12 Distribuição de freqüências acumuladas ......................................................................................................12 Curvas de freqüência suavizadas .................................................................................................................13 Tipos de distribuições de probabilidade (frequência relativa) ......................................................................13 Medidas de tendência central e variabilidade ............................................................... 16 Medidas de tendência central .......................................................................................................................16 Medidas de variabilidade ..............................................................................................................................20 Exercícios......................................................................................................................................................22 Probabilidade ................................................................................................................... 24 Campo amostral e eventos ...........................................................................................................................24 Operações com conjuntos ............................................................................................................................24 Definição de probabilidade ...........................................................................................................................25 Soma de probabilidades ...............................................................................................................................25 Exemplo 1: ....................................................................................................................................................26 Exemplo 2: ....................................................................................................................................................27 Produto de probabilidades ............................................................................................................................27 Eventos independentes ................................................................................................................................28 Probabilidade total ........................................................................................................................................29 Teorema de Bayes ........................................................................................................................................30 Distribuições de probabilidade ...................................................................................... 34 Distribuições discretas mais importantes .....................................................................................................35 Distribuições contínuas mais importantes ....................................................................................................38 Estimativa de parâmetros ............................................................................................... 53 Estimativas pontuais .....................................................................................................................................53 Estimativas por intervalo de confiança .........................................................................................................54 Intervalo de confiança para a média, variância conhecida...........................................................................55 Erro de estimação .........................................................................................................................................57 Intervalo de confiança para a média, variância desconhecida .....................................................................58 Intervalo de confiança para a diferença entre duas médias, variância conhecida .......................................60 Intervalo de confiança para a diferença entre duas médias, variância desconhecida .................................61 Intervalo de confiança para a diferença entre observações .........................................................................62 Intervalo de confiança para a variância ........................................................................................................63 Intervalo de confiança para o quociente entre duas variâncias ...................................................................65 Intervalo de confiança para o parâmetro da Binomial ..................................................................................67 Testes de hipótese .......................................................................................................... 71 Comentários iniciais ......................................................................................................................................71 Comparação de médias, variância conhecida ..............................................................................................72 Comparação de médias, variância desconhecida ........................................................................................74 Comparação de pares de observações ....................................................................................................... 77 Comparação de variâncias .......................................................................................................................... 78 Comparação dos parâmetros da Binomial ................................................................................................... 80 Comparação de vários grupos: a análise de variância.................................................85 Comentários iniciais ..................................................................................................................................... 85 One-way ANOVA ......................................................................................................................................... 85 Regressão linear simples .............................................................................................103 Comentários iniciais ................................................................................................................................... 103 Correlação .................................................................................................................................................. 103 Teste de hipótese para o coeficiente de correlação .................................................................................. 106 Regressão linear simples ........................................................................................................................... 107 Relação entre o coeficiente de correlação e a regressão ......................................................................... 108 Variância dos estimadores ......................................................................................................................... 109 Intervalos de confiança e testes de hipótese ............................................................................................. 109 Previsão de valores de Y .......................................................................................................................... 111 Análise da validade do modelo .................................................................................................................. 112 Intervalo de variação para X ...................................................................................................................... 114 A análise de variância e a regressão ......................................................................................................... 114 Dados atípicos............................................................................................................................................ 116 Regressão não-linear simples.................................................................................................................... 116 Regressão linear múltipla ............................................................................................120 O modelo da regressão linear múltipla ...................................................................................................... 120 Notação matricial ....................................................................................................................................... 121 Estimativa dos coeficientes ........................................................................................................................ 121 Matriz de variâncias e covariâncias ........................................................................................................... 126 Testes de hipótese ..................................................................................................................................... 127 Coeficientes de determinação para o modelo de regressão múltipla ........................................................ 129 Previsão de valores de Y .......................................................................................................................... 130 Análise das suposições do modelo de regressão...................................................................................... 131 Regressão polinomial ................................................................................................................................. 131 1 Introdução José Luis Duarte Ribeiro Carla ten Caten VARIABILIDADE Apesar de nossa formação ser basicamente determinística, ensinando que 1 + 1 é igual a 2 e 15 +5 é igual a 20, vivemos em um mundo onde tudo varia. Por exemplo, alguém que tem o hábito de preparar um churrasco no fim de semana pode ter comprado dois quilos de carne inúmeras vezes, mas ele nunca recebeu exatamente 2,00 Kg. Da mesma forma, o seu trajeto para o trabalho pode incluir um trecho de 15 min., feito de automóvel, mais um trecho de 5 min., feito a pé, mas você nunca fez todo o trajeto em exatamente 20:00 min. Similarmente, os processos produtivos dependem de vários parâmetros (pressão, temperatura, velocidade, etc.); esses parâmetros deveriam ser mantidos em certos níveis, mas eles irão apresentar variabilidade. Conseqüentemente, os produtos resultantes de processos de manufatura, ou de processos de prestação de serviço, também irão apresentar variabilidade. Um eixo usinado terá um diâmetro final de aproximadamente 50,0 mm. Em um restaurante, você será servido em aproximadamente 20 min. A variabilidade está sempre presente em qualquer processo onde ocorre a produção de bens ou serviços, independentemente de quão bem ele seja projetado e operado. Se compararmos duas peças quaisquer, produzidas pelo mesmo processo, suas medidas jamais serão exatamente idênticas. As medidas feitas em um lote, podem estar todas dentro das especificações, mas mesmo assim a variabilidade estará presente. As fontes de variabilidade podem agir de forma diferente sobre o processo. Conforme a fonte de variabilidade, o resultado pode ser: (i) pequenas diferenças peça-a-peça, em função da habilidade do operador ou diferenças de matéria-prima, (ii) alteração gradual no processo, em função do desgaste de ferramentas ou mudança na temperatura do dia, e (iii) alteração brusca no processo, devido a alguma mudança de procedimento, ou queda de corrente, ou troca de setup, etc. As fontes de variabilidade interferem nos processos de produção de bens ou serviços, fazendo com que os produtos finais não sejam exatamente idênticos. Isso pode conduzir a produtos defeituosos, ou seja, produtos cujas características não satisfazem a uma determinada especificação. 2 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Variação Figura 1 - Processo de fabricação Entrada Processo de fabricação (bens ou serviços) Saída Fontes de variabilidade A redução de variabilidade no processo gera itens cujas características estão mais próximas de um valor alvo. Isso reduz o número de produtos percebidos como defeituosos e, por conseguinte, os custos da má qualidade. Redução de variabilidade Resultados mais próximos dos valores alvos Redução de produtos defeituosos Redução dos custos da má qualidade A redução da variabilidade depende do conhecimento e análise da variabilidade presente no processo, para que as fontes de variabilidade possam ser identificadas, analisadas e bloqueadas. MÉTODOS ESTATÍSTICOS Todos os processos apresentam problemas e, por conseguinte, oportunidades de melhoria. Algumas vezes os problemas são simples de identificar e resolver. No entanto, outras vezes podem ser muito difíceis. Quando o problema é difícil, a coleta sistemática de dados e a subseqüente análise estatística podem revelar a solução. Assim, todo o gerente, administrador e engenheiro deveria ter o domínio dos métodos estatísticos. Esses métodos contribuem em diferentes aspectos: redução do tempo da coleta dos dados; redução do custo da coleta dos dados; melhor organização e consolidação dos dados; maior agilidade no processamento dos dados; máxima informação é extraída dos dados; maior precisão (confiança) na análise; melhor apresentação dos resultados. Todos esses aspectos asseguram um suporte mais qualificado à tomada Estatística Industrial 1. Introdução 3 de decisão gerencial e auxiliam a reduzir: tempo de ciclo das melhorias contínuas; tempo de desenvolvimento do produto; tempo de validação de projetos; tempo de otimização de processos. As equipes que reúnem conhecimentos técnicos sobre o problema em estudo e domínio dos métodos estatísticos têm seu potencial largamente ampliado. Definição de estatística A disciplina estatística engloba um conjunto de métodos científicos para a coleta, organização, resumo, análise e apresentação de dados, bem como a obtenção de conclusões válidas, que dêem suporte à tomada de decisões baseadas em tais análises. Em sentido mais restrito, o termo estatística é usado para designar um resultado extraído dos dados, como, por exemplo, a média ou desvio padrão. COLETA DE DADOS Os dados são a base para a tomada de decisões confiáveis durante a análise de um problema; os dados são úteis quando eles geram algum tipo de ação. Por isso, é importante ter bem claro quais são os objetivos da coleta de dados. Em unidades de produção de bens ou serviços, os principais objetivos podem ser: desenvolvimento de novos produtos; inspeção; monitoramento dos processos; melhoria nos processos. A coleta de dados pode se basear em dados históricos ou em experimentos planejados. Dados históricos são dados que já estão disponíveis na empresa e, por isso, podem ser obtidos sem interferência no processo. Um experimento planejado envolve mudanças propositais realizadas nos fatores do processo (causas), de modo que se possa avaliar as possíveis alterações sofridas pelas características de qualidade (efeitos), como também as razões destas alterações. População e amostra Ao coletar os dados referentes às características de um grupo de objetos ou indivíduos, como por exemplo número de parafusos defeituosos produzidos em uma fábrica, é muitas vezes impraticável observar todo o grupo. Em vez de examinar o grupo inteiro, denominado população, examinamos uma pequena parte, chamada amostra. Uma população pode ser finita ou infinita. Por exemplo, a população constituída de todos os parafusos produzidos por uma fábrica em um mês é finita. Enquanto que a população constituída de todos os resultados (cara ou coroa) em sucessivos lances de uma moeda é infinita. Se a amostra é representativa da população, os resultados da amostra podem ser usados para inferir sobre a população. Essa parte é chamada 4 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS de Inferência Estatística e será a ênfase deste texto. Há uma outra parte da Estatística que procura somente descrever e analisar um certo grupo, sem tirar conclusões ou inferências a respeito de um grupo maior. É a chamada Estatística Descritiva Figura 2 - População x amostra Quantos ? Amostra DADOS População INFERÊNCIA Para que as inferências sejam válidas e suficientemente precisas, é importante que seja feita uma boa amostragem. As possíveis causas de erros nas inferências, muitas vezes têm origem em problemas de amostragem, por exemplo: Tipos de dados falta da determinação correta da população; falta de aleatoriedade na escolhas das unidades da população, gerando uma amostra que não é representativa da população; erro no dimensionamento do tamanho da amostra, gerando uma amostra insuficiente para lidar com a variação aleatória presente no processo em estudo. Uma variável é representada por um símbolo como X, Y, H, Z, e pode assumir qualquer valor de um conjunto de valores. O conjunto de valores possíveis é chamado de domínio da variável. Se a variável só pode assumir um valor, é chamada de constante. Se uma variável pode assumir qualquer valor entre dois limites quaisquer, é chamada de Variável Contínua. Do contrário, é chamada de Variável Discreta. Exemplo 1: O diâmetro de uma peça torneada pode ser 2,50 ou 2,533 ou 2,5389, dependendo da precisão da medida; é uma variável contínua. Exemplo 2: O número de unidades defeituosas em lotes de 100 unidades é uma variável discreta (0, 1, 2, etc.). Algarismos significativos No caso de variáveis contínuas, um valor 2,51 indica que o verdadeiro valor está compreendido entre 2,505 e 2,515. Os algarismos corretos, não contando os zeros necessários para a localização da vírgula, chamam-se Algarismos Significativos. 1,668 apresentado como 1,67 tem 3 A. S. Estatística Industrial 1. Introdução 0,001803 apresentado como 0,0018 tem 2 A. S. 0,001803 apresentado como 0,00180 tem 3 A. S. 453,807 apresentado como 453,807 tem 6 A. S. 453,807 apresentado como 454 tem 3 A. S. 5 A noção de algarismos significativos não se aplica para o caso de variáveis discretas (que teriam uma infinidade de algarismos significativos). FUNÇÕES Se a cada valor que a variável X pode assumir, corresponder um ou mais valores da variável Y, diz-se que Y é uma função de X e a notação é: Y = F(X) A variável X chama-se variável independente, e a variável Y chama-se variável dependente. Exemplo: A força de tração (T) em um tirante depende do peso (W) colocado em sua extremidade. T = F(W) Exemplo: A resistência (H) de uma liga metálica depende da temperatura (T) do tratamento térmico. H=F(T) GRÁFICOS Muitos tipos de gráficos são utilizados na Estatística. Eles complementam a análise numérica e auxiliam nas comparações e na observação de tendências. Entre os vários tipos de gráficos, cita-se: gráficos de barras, gráficos circulares, gráficos de dispersão, histogramas, curvas de regressão, séries temporais, etc. Gráfico de Barras Gráfico Circular Produção do modelo S.M. 93 Vendas durante o ano de 1994 C D 7% 3% 2000 1500 XYZ 40% B 30% 1000 500 0 J F M A MESES M Figura 3 - Exemplos de gráficos utilizados na Estatística. Gráfico de Dispersão J A 20% Curva de Regressão XYZ A B C D 6 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS 20 16 16 DUREZA 12 12 R 8 8 4 4 0 0 1 2 3 4 ESPAÇAMENTO 5 6 0 2 4 6 8 10 12 14 16 18 TEMPO DE TRAT. TÉRMICO EXERCÍCIOS Exercício 1.1. Identifique se as seguintes variáveis são contínuas ou discretas: (1) número de livros em uma biblioteca; (2) número de unidades defeituosas em um lote de produção; (3) tempo de processamento de uma peça usinada; (4) resistência de uma fibra sintética; (5) número de defeitos de solda em uma carroceria; (6) volume de um refrigerante. Exercício 1.2. Indique um exemplo de variável contínua e um exemplo de variável discreta com as quais você lida no seu dia a dia. Informe também o domínio dessas variáveis, ou seja, seu intervalo de variação possível. Exercício 1.3. Arredonde os valores a seguir, apresentando-os com 2 e com 3 algarismos significativos. X1 = 0,8078 X2 = 52,35 X3 = 6927 Exercício 1.4. Em relação ao exercício anterior, considere que os valores originais são exatos e calcule o erro cometido em cada arredondamento efetuado. Exercício 1.5. Os dados a seguir representam a capacidade em litros dos porta-malas dos carros populares produzidos no Brasil em 1996. Plote esses dados usando um gráfico de barras. Corsa: 240 l Uno: 224 l Hobby: 325 l Gol: Exercício 1.6. 146 l Os dados a seguir representam os cinco automóveis mais vendidos no Brasil no ano de 1996. Plote esses dados em um gráfico circular. Marca Volume Gol 235.000 Estatística Industrial 1. Introdução Uno 225.000 Corsa 110.000 Tipo 107.000 Escort 97.000 Total 774.000 7 Os dados a seguir apresentam a evolução do número de cursos de mestrado e doutorado na UFRGS nos últimos 30 anos. Plote esses gráficos como uma série temporal. Exercício 1.7. Ano 1967 1972 1977 1982 1987 1992 1993 1994 Cursos de Mestrado 9 22 28 33 39 47 48 50 Cursos de Doutorado 3 3 5 5 12 25 26 27 Os dados a seguir foram coletados em um processo de produção de fibras sintéticas. Plote um gráfico de dispersão (X e Y) e conclua a respeito. Exercício 1.8. X: Espaçamento entre rolos 5,1 5,5 4,8 1,2 1,8 4,2 3,5 1,0 Y: Resistência 11,8 12,8 13,0 13,0 13,5 14,3 14,4 14,6 X: Espaçamento entre rolos 4,7 2,2 1,6 2,8 2,3 4,0 3,3 2,3 Y: Resistência 15,0 15,2 15,6 16,0 17,0 17,1 17,8 18,1 A empresa JKL fez um levantamento das vendas, obtendo as seguintes informações: Exercício 1.9. Modelo \ UF RS SP RJ AB3 532 633 587 XP9 459 501 492 ZC4 146 152 149 KW1 721 930 773 Construa um gráfico de barras. Exercício 1.10. Construa o gráfico de dispersão para as notas de certa turma em matemática Mat Est Exercício 1.11. 3 6 5 5 3 5 2 6 7 10 9 8 4 7 8 8 6 7 Na operação 3 foram verificados os defeitos encontrados na montagem da bomba hidráulica . Construa o gráfico de barras e analise. Tipo de defeito Freqüência 5 9 8 1. Introdução José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Compressor Selo Junta Mangueira Vedação outros 7 2 12 6 30 3 2 Distribuições de freqüência José Luis Duarte Ribeiro Carla ten Caten Na análise de conjuntos de dados é costume dividi-los em classes ou categorias e verificar o número de indivíduos pertencentes a cada classe, ou seja, a freqüência da classe. Os dados a seguir apresentam um conjunto de 50 observações da principal característica dimensional de um tipo de peça usinada (dados em ordem crescente). 12,58 12,97 13,45 13,53 13,59 13,61 13,62 13,78 13,97 14,21 14,47 14,51 14,53 14,58 14,65 14,78 14,83 14,97 15,06 15,13 15,17 15,23 15,29 15,37 15,40 15,45 15,51 15,62 15,67 15,73 15,83 15,98 16,01 16,11 16,17 16,23 16,35 16,43 16,49 16,52 16,67 16,83 16,97 17,05 17,13 17,22 17,3 17,48 17,8 18,47 A Tabela 1 apresenta uma tabela de freqüência de 50 observações de uma característica dimensional. Tabela 1 - Tabela de freqüência absoluta Intervalos de classe da característica dimensional Freqüência absoluta 12,50 a 13,50 3 13,51 a 14,50 8 14,51 a 15,50 15 15,51 a 16,50 13 16,51 a 17,50 9 17,51 a 18,50 2 A tabela de freqüência apresenta dados agrupados. Nesse caso, os detalhes originais dos dados são perdidos, mas a vantagem está em observar aspectos globais do problema. INTERVALOS DE CLASSE Os limites tais como 12,50 a 13,50 são chamados de intervalos de classe. O número menor (12,50), é o limite inferior da classe; e o maior (13,50) é o limite superior da classe. Em alguns casos, pode-se usar intervalos abertos, do tipo 13,50 ou menor; 17,50 ou maior. Amplitude do intervalo de classe Quando todos os intervalos de classe têm a mesma amplitude, essa é calculada fazendo-se a diferença entre dois limites inferiores ou dois limites superiores sucessivos. Caso contrário, teremos uma amplitude variável. Para o exemplo, a amplitude é 13,50-12,50 = 14,50-13,50=1 Estatística Industrial 2. Distribuições de freqüência 11 Ponto médio de uma classe É obtido somando-se o limite inferior ao superior e dividindo por dois. Assim, o ponto médio do intervalo 12,50 a 13,50 é (12,50+13,50)/2 = 13,00 REGRAS GERAIS PARA ELABORAR UMA DISTRIBUIÇÃO DE FREQÜÊNCIA a) Determina-se o maior e menor valor do conjunto de dados; Para o exemplo, Mín = 12,58 e Máx = 18,47 b) Define-se o limite inferior da primeira classe (LI), que deve ser igual ou ligeiramente inferior ao menor valor das observações; Para o exemplo, LI = 12,50 c) Define-se o limite superior da última classe (LS), que deve ser igual ou ligeiramente superior ao maior valor das observações; Para o exemplo, LS = 18,50 d) Define-se o número de classes (K), que pode ser calculado usando K= n e deve estar compreendido entre 5 a 20; Para o exemplo, K = 50 ≅ 7 , mas por praticidade, foi escolhido K = 6 e) Conhecido o número de classes define-se a amplitude de cada classe: a = (LS - LI) / K; Para o exemplo, a = ( LS − LI ) (18,50 − 12,50) = =1 K 6 f) Conhecida a amplitude das classes, define-se os limites inferior e superior para cada classe. Por exemplo, para a 1a classe: lim. inf. = LI; lim. sup. = LI+ a; Para o exemplo, lim inf = 12,50 e lim sup = 12,50 + 1 = 13,50 g) Calcula-se a freqüência de cada classe, ou seja, o número de observações pertencentes a cada classe, e completa-se a tabela de freqüência; Para o exemplo, o número de observações pertencentes ao intervalo 12,50 a 13,50 é 3. HISTOGRAMAS E POLÍGONO DE FREQÜÊNCIA Histogramas e polígonos de freqüência são representações gráficas da tabela de freqüências. Um histograma consiste de um conjunto de retângulos que têm: a) a base sobre um eixo horizontal com centro no ponto médio e largura igual a amplitude do intervalo de classes; b) a área proporcional às freqüências das classes. 12 2. Distribuições de freqüência José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 4 - Histograma e polígono de freqüências absolutas para o exemplo anterior 16 16 12 12 8 8 4 4 0 12 13 14 15 16 17 18 19 0 12 13 14 15 16 17 18 19 Se todos os intervalos tiverem a mesma amplitude, as alturas dos retângulos serão proporcionais às freqüências das classes, e então costuma-se tomar as alturas numericamente iguais a essas freqüências. Um polígono é um gráfico obtido ligando-se os pontos médios dos topos dos retângulos de um histograma. DISTRIBUIÇÃO DE FREQÜÊNCIAS RELATIVAS A freqüência relativa de uma classe é calculada dividindo-se a freqüência dessa classe pelo total de todas as classes e é, geralmente, expressa em percentagem. Eq 1: Freq. relativa = ∑ freq. da classe x100 freq. todas classes Por exemplo, a freqüência relativa da 1a classe da Eq 1 é : Eq 2: Freq. relativa = ∑ freq. da classe 3 x 100 = x 100 = 6% freq. todas classes 50 Se as freqüências da Tabela 2 forem substituídas pelas freqüências relativas, teremos uma tabela de freqüências relativas e então pode ser plotado um histograma de freqüências relativas ou um polígono de freqüências relativas. Intervalos de classe da característica dimensional Freqüência absoluta 12,50 a 13,50 3 6% 13,51 a 14,50 8 16% 14,51 a 15,50 15 30% 15,51 a 16,50 13 26% 16,51 a 17,50 9 18% 17,51 a 18,50 2 4% Tabela 2 - Distribuição de freqüência relativa Figura 5 - Histograma e polígono de freqüência relativa para o exemplo anterior DISTRIBUIÇÃO DE Freqüência relativa 32% 32% 24% 24% 16% 16% 8% 8% 0% 0% 12 13 14 15 16 17 18 19 12 13 14 15 16 17 18 19 A freqüência total de todos os valores inferiores ao limite superior de uma Estatística Industrial 2. Distribuições de freqüência FREQÜÊNCIAS ACUMULADAS 13 dada classe é denominada freqüência acumulada para aquele intervalo. Por exemplo, a freqüência acumulada até e inclusive o intervalo 13,51 a 14,50 é 3 + 8 = 11, o que significa que 11 das 50 peças cerâmicas apresentam característica dimensional inferior a 14,50. Uma tabela que apresente essas freqüências é chamada de tabela de freqüência acumulada. Um gráfico que apresente a freqüência acumulada é denominado de polígono de freqüência acumulada. Intervalos de Freqüência classe da caract. absoluta dimensional abaixo de 12,50 0 Tabela 3 - Distribuição de freqüência acumulada Freqüência relativa 0% Freqüência acumulada absoluta 0 Freqüência acumulada relativa 0% 12,50 a 13,50 3 6% 3 6% 13,51 a 14,50 8 16% 11 22% 14,51 a 15,50 15 30% 26 52% 15,51 a 16,50 13 26% 39 78% 16,51 a 17,50 9 18% 48 96% 17,51 a 18,50 2 4% 50 100% Dividindo-se a freqüência acumulada pelo total das observações, tem-se a tabela de freqüências acumuladas relativas e o correspondente polígono de freqüências acumuladas relativas. Figura 6 - Polígono de freqüências acumulada absolutas e relativas CURVAS DE FREQÜÊNCIA SUAVIZADAS 50 100% 40 80% 30 60% 20 40% 10 20% 0 0% 12,5 13,5 14,5 15,5 16,5 17,5 18,5 12,5 13,5 14,5 15,5 16,5 17,5 18,5 O polígono de freqüência e o polígono de freqüência acumulado pode ser suavizado. Isso ajuda a filtrar o ruído presente em qualquer conjunto de dados. O polígono de freqüência suavizado é a distribuição de freqüência ou distribuição de probabilidade de uma característica. A análise das distribuições de probabilidade indica o comportamento de uma característica que seria observado no caso de uma amostra muito grande ou infinita. TIPOS DE DISTRIBUIÇÕES DE PROBABILIDADE (FREQÜÊNCIA RELATIVA) A Figura 7 apresenta diversos tipos de distribuições de probabilidade. 14 2. Distribuições de freqüência José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Simétrica Forma de Sino Assimétrica à Direita Assimetria Positiva Assimétrica à Esquerda Assimetria Negativa EMBED PBrush Figura 7 - Tipos de distribuições de freqüência. Uniforme Exponencial 5,1 5,3 5,3 5,6 5,8 5,9 6,0 6,1 6,2 6,2 6,3 6,3 6,3 6,4 6,4 6,4 6,5 6,5 6,6 6,7 6,7 6,8 6,8 6,9 6,9 7,0 7,1 7,1 7,2 7,2 7,3 7,4 7,5 7,5 7,6 7,6 7,6 7,7 7,7 7,8 7,8 7,9 7,9 8,0 8,0 8,1 8,2 8,3 8,3 8,4 8,5 8,5 8,6 8,7 8,8 8,8 8,9 9,0 9,1 9,2 9,4 9,4 9,5 9,5 9,6 9,8 9,9 10,0 10,2 10,2 10,4 10,6 10,8 10,9 11,2 11,5 11,8 12,3 12,7 14,9 Exercício 2.2. Suavize o gráfico de freqüências acumuladas obtido no exercício anterior, e então estime o percentual das operações onde o tempo deverá ultrapassar 10 minutos. Exercício 2.3. Os dados a seguir representam a espessura (em mm) de uma peça mecânica. Organize esses dados em uma tabela de freqüências relativas e depois plote o histograma de freqüências relativas, o polígono de freqüências relativas e o gráfico de freqüências relativas acumuladas. 20,4 22,3 23,1 23,5 23,8 24,1 24,3 24,3 24,6 24,8 24,9 25,0 25,1 25,3 25,3 25,4 25,6 25,7 25,8 26,0 26,0 26,1 26,2 26,2 26,3 26,5 26,6 26,7 26,8 26,9 27,1 27,1 27,3 27,5 27,7 27,9 28,0 28,3 28,7 29,6 Exercício 2.4. Suavize o gráfico de freqüências acumuladas obtido no exercício anterior, e então estime o percentual de peças que deve apresentar uma espessura inferior a 24 mm. Exercício 2.5. Tendo em vista os polígonos de freqüência obtidos nos exercícios 2.1. e 2.3. você diria que as populações do tempo e da espessura apresentam distribuição de probabilidade simétrica ou assimétrica? Exercício 2.6. Plote os histogramas correspondentes às tabelas de freqüência a seguir e indique o tipo de curva de freqüência em cada caso. X1: Característica dimensional de uma peça; X2: Tempo de uso (horas/semana) de um produto; Estatística Industrial 2. Distribuições de freqüência 15 X3: Tempo até a falha de um produto. X1 Freq. X2 Freq. X3 Freq. 25,52 a 25,53 6 0a4 1 0 a 100 20 25,53 a 25,54 14 4a8 2 100 a 200 16 25,54 a 25,55 20 8 a 12 9 200 a 300 11 25,55 a 25,56 18 12 a 16 24 300 a 400 7 25,56 a 25,57 15 16 a 20 48 400 a 500 4 25,57 a 25,58 7 20 a 24 6 500 a 600 2 3 Medidas de tendência central e variabilidade José Luis Duarte Ribeiro Carla ten Caten MEDIDAS DE TENDÊNCIA Há várias medidas de tendência central. Entre elas citamos a média aritmética, a mediana, a média harmônica, etc. Cada uma dessas CENTRAL medidas apresenta vantagens e desvantagens, e a escolha depende dos objetivos desejados. A seguir veremos como é feito o cálculo dessas medidas. Média aritmética A média aritmética, ou simplesmente média, de um conjunto de n valores x1, ..., xn é definida como: Eq 3: x1 +...+ x n 1 n X = = ∑ xi n n i =1 a média aritmética do conjunto 7,5 7,9 8,1 8,2 8,7 é Exemplo: Eq 4: X = 7,5 + 7,9 + 8,1 + 8,2 + 8,7 = 8,08 5 Na Estatística, é usual utilizar as letras gregas para representar parâmetros populacionais e as letras comuns para representar estimativas amostrais. A média de uma amostra é representada por X e a média da população é representada pela letra grega µ. Média aritmética para dados agrupados Quando a informação disponível é o ponto médio do intervalo i (Xi) e a freqüência do intervalo i (fi), a média é calculada como: Eq 5: K ∑ fi X i f 1 X 1 + .... + f K X K i =1 X = = K f 1 + .... + f K ∑ fi i =1 Para os dados da Tabela 2.1. resulta: Eq 6: Média aritmética ponderada X = 3(13) + 8(14) + 15(15) + 13(16) + 9(17) + 2(18) = 15,46 50 Algumas vezes associa-se a cada observação um peso Wi, onde esse peso representa a importância atribuída a cada observação. Nesse caso a Estatística Industrial 3. Medidas de tendência central e probabilidade 17 média ponderada é calculada como: Eq 7: n ∑ wi x i w1 x1 +....+ wn x n i =1 X = = n w1 +....+ wn ∑ wi i =1 Por exemplo, um exame de seleção pode ser composto de três provas onde as duas primeiras tem peso 1 e a terceira tem peso 2. Um candidato com notas 70 75 e 90 terá média final: Eq 8: Mediana X = 1( 70) + 1( 75) + 2( 90) = 81,25 4 Dado um conjunto de valores em ordem crescente, a mediana é definida como: Se n é impar, o valor central; Se n é par, a média simples dos dois valores centrais. Exemplo 1: Exemplo 2: na amostra 25 26 26 28 30 a mediana é ~ x = 26 (74 + 75) na amostra 71 73 74 75 77 79 a mediana é ~ x= = 74,5 2 Moda A moda é o valor que ocorre com maior freqüência, ou seja, é o valor mais comum. A moda pode ser múltipla ou pode não existir. Exemplo 1: na amostra 23 25 25 26 26 26 27 29 a moda é 26. Exemplo 2: na amostra 71 73 73 75 76 77 77 79 81 a moda é 73 e 77 Relações empíricas entre média, moda e mediana Para distribuições simétricas a média, a mediana e a moda coincidem aproximadamente. Para distribuições assimétricas observa-se a relação que aparece na Figura 8. B Figura 8 : Distribuições assimétricas Exemplo: Para as amostras a seguir a relação entre média e mediana é C 18 3. Medidas de tendência central e probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS A Distribuição simétrica 10 12 14 16 18 x = 14 = ~ x = 14 B Distribuição assimétrica à direita 10 12 14 16 23 x = 15 > ~ x = 14 C Distribuição assimétrica à esquerda 05 12 14 16 18 x = 13 < ~ x = 14 Média geométrica É a raiz de ordem n do produto dos valores da amostra: Eq 9: G = n X X .... X 1 2 n a média geométrica de 12 14 16 é: Exemplo: Eq 10: G = 3 12 × 14 × 16 = 13,90 Média harmônica É a recíproca da média aritmética das recíprocas das observações: Eq 11: H= 1 1 1 ∑X n i = n 1 ∑X i a média harmônica de 12 14 16 é: Exemplo: Eq 12: Relação entre média aritmética, geométrica e harmônica: H= 3 = 13,81 1 1 1 + + 12 14 16 A média geométrica e a média harmônica são menores, ou no máximo igual, à média aritmética (ver Eq 13). A igualdade só ocorre no caso em que todos os valores da amostra são idênticos. Quanto maior a variabilidade, maior será a diferença entre as médias harmônica e geométrica e a média aritmética. Eq 13: H ≤ G ≤ X Exemplo: para a amostra 12 14 16 tem-se: Eq 14: H = 13,81 < G = 13,90 < X = 14,00 Quartis Se um conjunto de dados é organizado em ordem crescente, o valor central, que divide o conjunto em duas partes iguais, é a mediana. Valores que dividem o conjunto em quatro partes iguais são representados por Q1, Q2, Q3, e denominam-se primeiro, segundo e terceiro quartis, respectivamente. O segundo quartil é a mediana. O primeiro e o terceiro quartil são calculados usando-se o seguinte procedimento: (1) partindo de uma amostra de tamanho n, colocar os valores em ordem crescente e identificar a ordem i (1, 2, 3, …, n) e o percentil p(i) = (i0,5)/n associado a cada valor. Estatística Industrial 3. Medidas de tendência central e probabilidade 19 (2) identificar os valores associados aos percentis imediatamente acima e abaixo de 0,25; esses valores são chamados respectivamente de x(inf), associado ao percentil p(inf), e x(sup), associado ao percentil p(sup). (3) e então calcular o primeiro quartil usando: Eq 15: Q1 = [ p(sup) − 0,25] × x(inf) + [0,25 − p(inf)]× x(sup) p(sup) − p(inf) (4) similarmente, para o terceiro quartil, identifica-se os valores associados aos percentis imediatamente acima e abaixo de 0,75; esses valores são chamados respectivamente de x(inf), associado ao percentil p(inf), e x(sup), associado ao percentil p(sup). E então calcula-se o terceiro quartil usando: Eq 16: Q3 = [ p(sup) − 0,75] × x(inf) + [0,75 − p(inf)] × x(sup) p(sup) − p(inf) Para a amostra a seguir calcular o primeiro e terceiro quartis: Exemplo: 13,3 13,5 17,2 13,8 12,3 12,7 13,0 14,5 14,9 15,8 13,1 13,3 14,1 (1) valores em ordem crescente e cálculo de p(i): x(i) 12,3 12,7 13,0 13,1 13,3 13,3 13,5 13,8 14,1 14,5 14,9 15,8 17,2 i 1 2 3 4 5 6 7 8 9 10 11 12 13 p(i) = (i-0,5)/n 0,038 0,115 0,192 0,269 0,346 0,423 0,500 0,577 0,654 0,731 0,808 0,885 0,962 (2) valores imediatamente acima e abaixo de 0,25: x(inf) = 13,0 e x(sup) = 13,1 associados com p(inf) = 0,192 e p(sup) = 0,269 (3) primeiro quartil: Eq 17: Q1 = [0,269 − 0,25] × (13,0) + [0,25 − 0,192] ×13,1 = 13,08 0,269 − 0,192 (4) valores imediatamente acima e abaixo de 0,75: x(inf) = 14,5 e x(sup) = 14,9 associados com p(inf) = 0,731 e p(sup) = 0,808, resultando para o terceiro quartil: Eq 18: Q3 = [0,808 − 0,75] × (14,5) + [0,75 − 0,731] × 14,9 = 14,60 0,808 − 0,731 20 3. Medidas de tendência central e probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS MEDIDAS DE VARIABILIDADE Invariavelmente as observações individuais irão apresentar alguma dispersão em torno do valor médio. Isso é chamado de variabilidade ou dispersão dos dados. Há muitas medidas de variabilidade, como por exemplo, a amplitude total, o desvio padrão ou a distância interquartílica. Essas medidas serão detalhadas na seqüência. Amplitude total A amplitude total é definida como a diferença entre o maior e o menor valor das observações. Por exemplo, para a amostra: 8,5 8,7 8,9 10,1 10,5 10,7 11,5 11,9 A amplitude é: R = 11,9 - 8,5 = 3,4 A amplitude é fácil de calcular e fornece uma idéia da magnitude da faixa de variação dos dados. A amplitude não informa a respeito da dispersão dos valores que se encontram entre os dois extremos. Quando n < 10, a amplitude pode resultar em uma medida de variação bastante satisfatória. Desvio-padrão Para uma amostra de n observações, x1, ..., xn , o desvio- -padrão S é definido como: Eq 19: S= ∑ ( x i − x )2 n −1 = ∑ xi2 − [(∑ xi ) 2 / n] n −1 A vantagem do desvio-padrão é que se trata de uma medida de variabilidade que leva em conta toda a informação contida na amostra. A desvantagem é que seu cálculo é mais trabalhoso. Para amostras pequenas (n < 30) usa-se n - 1 no denominador da equação anterior. Quando a amostra é grande (n > 30) ou quando tratase da população usa-se n no denominador. O desvio-padrão de uma população é representado pela letra grega σ. Exemplo: para a amostra 10 12 14 16 18 A média é x = 14 e o desvio-padrão é calculado como: Eq 20: S= Variância (10 − 14)2 + (12 − 14)2 + (14 − 14)2 + (16 − 14) 2 + (18 − 14)2 = 3,16 n −1 A variância S2 é definida como o quadrado do desvio-padrão, ou seja, 9,98. Eq 21: S 2 (xi − x )2 ∑ xi2 − [(∑ xi ) 2 / n] ∑ = = n −1 n −1 A variância de uma população é representada pela letra grega σ2 . Amplitude inter-quartílica É definida como a amplitude do intervalo entre o primeiro e o terceiro Estatística Industrial 3. Medidas de tendência central e probabilidade 21 quartis, ou seja: Eq 22: Q = Q − Q 3 1 Ás vezes também é usada a semi-amplitude inter-quartílica, que é a metade da anterior. A amplitude inter-quartílica é uma medida de variabilidade bastante robusta, que é pouco afetada pela presença de dados atípicos. A amplitude inter-quartílica guarda a seguinte relação aproximada com o desvio-padrão: Eq 23: Q = (4/3) x desvio-padrão Coeficiente de variação Eq 24: É definido como o quociente entre o desvio-padrão e a média e, em geral, é expresso em percentual, conforme a equação a seguir. CV = 100 × S X O coeficiente de variação é uma medida adimensional, útil para comparar resultados de amostras cujas unidades podem ser diferentes. Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média é próxima de zero. Exemplo: Dois processos, medindo itens diferentes, obtiveram os seguintes resultados: Folha de aço: Média=2,49 mm Desvio-padrão=0,12 mm Chapa de madeira: Média=3,75 cm Desvio Padrão=0,15 cm Qual dos dois processos é relativamente mais preciso? CV1 = 0,12 / 2,49 x 100 = 4,8% CV2 = 0,15 / 3,75 x 100 = 4,0% O segundo processo é relativamente mais preciso. Variável reduzida ou padronizada A variável Z = X−X é denominada de variável reduzida ou S padronizada. Ela mede a magnitude do desvio em relação à média, em unidades do desvio-padrão. Z = 1,5 significa uma observação desviada 1,5 desvios padrão para cima da média. A variável reduzida é muito útil para comparar distribuições e detectar dados atípicos. Os dados são considerados atípicos quando o módulo de Z é maior que 2,5 ou 3. Exemplo 1: Um engenheiro está analisando as espessuras de peças fabricadas em duas máquinas de corte. O operador mediu uma peça da máquina A com espessura de 90 mm e outra peça da máquina B com espessura de 100 mm. O engenheiro deve considerar esses dados coletados reais ou 22 3. Medidas de tendência central e probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS atípicos? A máquina A possui média 51 mm e desvio-padrão 12 mm. Z= 90 − 51 = 3,25 12 Como |Z| > 3 o dado pode ser considerado atípico A máquina B possui média 72 mm e desvio-padrão 16 mm. Z= 100 − 72 = 1,75 Como |Z| < 3 o dado não pode ser considerado 16 atípico Exemplo 2: Supondo que 51 fosse a média em uma prova de inglês, onde o desvio padrão é 12, para um candidato que obtivesse 90 acertos tem-se: Z = X − X 90 − 51 = = 3 , 25 S 12 Conclui-se que na prova de inglês este candidato está 3,25 desviospadrão acima da média. EXERCÍCIOS Exercício3.1. Para os dados do exercício 2.1, calcule a média aritmética e a mediana e verifique que a relação média > mediana, é válida para distribuições assimétricas à direita. Exercício 3.2. Ainda em relação aos dados do exercício 2.1, calcule a média aritmética usando a fórmula para dados agrupados e a tabela de freqüência que você construiu. Exercício 3.3. Para os dados do exercício 2.3., calcule a média e a mediana e verifique a relação média ≅ mediana para distribuições simétricas. Exercício 3.4. A partir dos dados do exercício 2.6., use a fórmula para o cálculo da média de dados agrupados e calcule a média para: X1: Característica dimensional de uma peça; X2: Tempo de uso (horas/semana) de um produto; X3: Tempo até a falha de um produto. Exercício 3.5. As amostras a seguir representam valores de tempos de fabricação de uma peça produzidas por três máquinas diferentes. Para cada máquina, calcule a amplitude total, o desvio padrão e a amplitude inter-quartílica. Após, conclua a respeito de diferenças de variabilidade entre tempos dessas máquinas. M A 20,2 24,7 25,7 21,7 19,2 22,3 23,0 23,1 21,3 26,8 20,7 23,6 25,4 24,6 22,5 M B 21,3 22,7 22,5 23,8 20,4 23,3 23,7 23,4 25,5 22,4 23,1 21,7 24,3 24,7 22,2 M C 22,1 24,4 24,0 21,5 23,2 22,0 25,4 27,8 23,5 23,0 20,6 23,6 22,5 22,8 21,4 Estatística Industrial 3. Medidas de tendência central e probabilidade 23 Exercício 3.6. Calcule o valor da variável reduzida Z para os pontos extremos das amostras que aparecem no exercício anterior. Após indique se há evidência de dados atípicos em alguma dessas amostras (obs: para n=15, um valor de Z > 2,5 já seria evidência de dado atípico). Exercício 3.7. Caso haja indícios de dados atípicos, elimine esse resultado e refaça os cálculos da amplitude total, desvio padrão e amplitude inter-quartílica para a amostra correspondente. Se necessário, revise as conclusões do exercício 3.5. Exercício 3.8. Para a amostra a seguir (Tempos de uso em horas/semana de um produto), calcule a média, o desvio padrão e o coeficiente de variação. Calcule também os valores de Z para cada observação. Analise os valores de Z e indique se a amostra vem de uma população com distribuição simétrica, assimétrica à direita ou assimétrica à esquerda. Exercício 3.9. 4,5 7,0 9,0 11 13 14 16 16 17 18 18 20 21 22 22 23 24 24 24 24 25 25 26 26 26 27 28 28 29 30 Idem ao anterior, Tempos de uso (horas/semana) de um produto concorrente 0,2 0,2 0,3 0,4 0,6 0,6 0,8 1,0 1,0 1,2 1,2 1,3 1,4 1,5 1,5 1,7 1,8 2,0 2,2 2,5 2,5 2,7 3,3 3,5 3,8 4,3 5,1 12,0 12, 15,0 4 Probabilidade José Luis Duarte Ribeiro Carla ten Caten A Teoria das Probabilidades estuda os fenômenos aleatórios. Fenômeno Aleatório: são os fenômenos cujo resultado não pode ser previsto exatamente. Se o fenômeno se repetir, sob condições similares, o resultado não será sempre o mesmo. Experimento Aleatório: Qualquer fenômeno aleatório que possa ser executado pelo homem. CAMPO AMOSTRAL E EVENTOS Os resultados de um experimento aleatório podem ser representados em um espaço amostral ao qual chamaremos de S. O espaço S pode ser uni ou k-dimensional, discreto ou contínuo, finito ou infinito. A figura a seguir apresenta um espaço bidimensional onde aparecem os eventos A e B. Figura 9 - Campo amostral. Como pode ser visto, os eventos A e B estão completamente contidos em S e apresentam intersecção, ou seja, a sua ocorrência simultânea é possível. ESPAÇO AMOSTRAL E EVENTOS: Evento: É um conjunto de resultados possíveis do experimento. É um subconjunto de S. Exemplo: Em uma linha de produção, peças são fabricadas em série. Conte o nº de peças defeituosas em cada 200 peças produzidas. S = {0, 1, 2, ..., 200}; OPERAÇÕES COM CONJUNTOS Eventos: A: ocorrer 10 peças defeituosas. A = {10}; B: ocorrer entre 10 e 15 peças defeituosas. B = {10, 11, 12, 13, 14, 15}; Usando o símbolo ∪ para união e o símbolo ∩ para intersecção, Estatística Industrial 4. Probabilidade 25 podemos definir os eventos C e D: Eq 25: C = A ∪ B representa o conjunto de valores que pertence a A ou B ou a ambos, enquanto que: Eq 26 D = A ∩ B representa o conjunto de valores que pertencem simultaneamente a A e B. Usaremos a letra φ para representar o conjunto vazio, e uma barra sobre a letra, por exemplo A , para representar o complemento de A, isto é, o conjunto de pontos que não pertence a A. DEFINIÇÃO DE PROBABILIDADE Um experimento será chamado aleatório se puder ser repetido um grande número de vezes sob condições similares e se o resultado de uma observação não pode ser exatamente previsto. Uma variável será chamada aleatória se descreve os resultados de um experimento aleatório. Para um evento E em S, podemos definir a existência de uma função P tal que P represente a probabilidade que x pertença a E. Isto é: Eq 27 P(E) = Pr (x ∈ E) Essa função P deve satisfazer algumas propriedades: 1) 0 ≤ P ≤ 1 2) Se E1 e E2 são tais que E1 ∩ E2 = 0, tem-se que P(E1 ∪ E2) = P(E1) + P(E2) 3) A probabilidade de x pertencer a qualquer ponto do espaço amostral S deve ser igual a 1: P(S)=1 Essas propriedades são importantes para derivar várias regras de cálculo de probabilidades. Para determinar a probabilidade de um evento, usaremos o ponto de vista das freqüências relativas: Eq 28 P(E) = m(E) / m(S) onde m(E) e m(S) representam as medidas de E e S. SOMA DE PROBABILIDADES Dois eventos são ditos mutuamente exclusivos se a sua intersecção é nula. Para eventos mutuamente exclusivos, a soma das probabilidades é dada pela generalização da propriedade 2. Eq 29 P(E1 ∪ E2. ∪....∪ Ek) = Σ P(Ei) Se os eventos E1 e E2 não são mutuamente exclusivos, mas são independentes, pode-se demonstrar que: 26 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 30 P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2) Para o caso de três eventos, a generalização anterior é: Eq 31 P(E1 ∪ E2 ∪ E3) = P(E1) + P(E2) + P(E3) - [P(E1 ∩ E2) + P(E1 ∩ E3) + P(E2 ∩ E3)] + P(E1 ∩ E2 ∩ E3) Figura 10 - Intersecção de três eventos. EXEMPLO 1: Um digestor químico é alimentado por material que vem de dois tanques independentes. O material do tanque 1 pode ser uma concentração de ácido que varia uniformemente entre 4 e 8, enquanto que o material do tanque 2 pode apresentar uma concentração de base entre 5 e 10 (ver Figura 11). Sejam os seguintes eventos: A: material do tanque 1 com concentração superior a 6 B: material do tanque 2 com concentração inferior a 6 Calcule a P(A), P( A ), P(B), P( B ), P(A ∪ B), P(A ∩ B) Figura 11- Exemplo do digestor químico. Solução: Usando o ponto de vista das freqüências relativas, tem-se: P(A) = m(A) / m(S) P(A) = 10 / 20 = 0,5 Estatística Industrial 4. Probabilidade 27 P( A ) = 1 - P(A) = 0,5 P(B) = 4 / 20 = 0,20 P( B ) = 1 - P(B) = 0,80 P(A ∩ B) = 2/20 = 0,10 P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,50 + 0,20 - 0,10 = 0,60 Considerando os dados do exemplo anterior, e sabendo que o processo apresenta problemas quando a concentração de ácido supera a concentração de base, calcule a probabilidade disso acontecer. EXEMPLO 2: Solução: P(E1) = m(E1) / m(S) P(E1) = 3× 3 / 20 = 0,225 2 Figura 12- Exemplo do digestor químico. PRODUTO DE PROBABILIDADES A probabilidade de um evento A foi definida como a medida do conjunto A dividida pela medida de S. Poderíamos, então, escrever P(A/S) para indicar de forma explícita que a probabilidade de A está referida a todo o espaço amostral S. Assim: Eq 32: P(A) = P(A/S) = m(A) / m(S) Algumas vezes, no entanto, estaremos interessados em calcular a probabilidade de um evento E1 referida a um sub-espaço de S, por exemplo, ao espaço definido por E2: Eq 33: P(E1/E2) = m (E1 ∩ E2) / m(E2) Dividindo-se numerador e denominador por m(S): Eq 34: P(E1/E2) = [m (E1 ∩ E2) / m(S)] / [m(E2) / m(S)] Eq 35: P(E1/E2) = P(E1 ∩ E2) / P(E2) 28 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Essa expressão define a probabilidade de E1 dado E2 ou referida a E2. A partir dessa expressão, obtém-se: Eq 36: P(E1 ∩ E2) = P(E1/E2) . P(E2) Da mesma forma, poderíamos escrever: Eq 37: P(E2/E1) = P(E1 ∩ E2) / P(E1) e então obter: Eq 38: P(E1 ∩ E2) = P(E2/E1) . P(E1) As equações 36 e 38 são análogas e definem a probabilidade do produto, ou seja, da ocorrência simultânea de E1 e E2. Para três eventos tem-se: Eq 39: P(E1 ∩ E2 ∩ E3)= P(E1) . P(E2/E1) . P(E3/E1 ∩ E2) ou expressões equivalentes usando P(E2) ou P(E3). Exemplo 3: Para o exemplo do digestor químico calcule a probabilidade da concentração de ácido superar a concentração de base quando sabe-se que a concentração de ácido é superior a 6,0. Solução: O que se pede é a P(E1) dado A. Essa probabilidade é: P(E1/A) = EVENTOS INDEPENDENTES m(E1 ∩ A)/m(S) 4/20 = = 0,40 m(A)/m(S) 10/20 Dois eventos, E1 e E2 são ditos independentes se: Eq 40: P(E1/E2) = P(E1) nesse caso, Eq 41: P(E1 ∩ E2) = P(E1) . P(E2) Para k eventos independentes, tem-se: Eq 42: P(E1 ∩ .... ∩ Ek) = Σ P(Ei) Exemplo 4: Um construtor se submete a licitação para duas obras independentes, A e B. Baseado na experiência, os engenheiros estimam que a probabilidade de ganhar a obra A é 0,25; e a probabilidade de ganhar a obra B é 0,33. Pede-se: a) Estimar a probabilidade de ganhar ao menos uma das duas obras: P(A ∪ B) = P(A) + P(B) - P(A∩B) = 0,25 + 0,33 - (0,25 . 0,33) = 0,5 b) Estimar a probabilidade de ganhar a obra A, sabendo-se que o construtor irá ganhar ao menos uma obra: Estatística Industrial 4. Probabilidade P(A/A ∪ B) = 29 P(A ∩ (A ∪ B)) 0,25 = = 0,50 P(A ∪ B) 0,50 Note que P(A ∩ (A ∪ B)) é obviamente o mesmo que A, já que A está completamente contido em (A ∪ B). c) Se o construtor submete-se a outra licitação para uma obra C, com probabilidade de ganhar igual a 0,25, qual a probabilidade de ganhar ao menos uma obra? P(A ∪ B ∪ C) = 0,25 + 0,33 + 0,25 - (0,25 . 0,33 + 0,25 . 0,25 + + 0,33 . 0,25) + (0,25 . 0,33 . 0,25)= 0,625 Note que para o caso de eventos independentes vale também: P(A∪B∪C) = 1 - P( A ∩ B ∩ C) = 1 - (0,75 . 0,67 . 0,75) = 0,625 PROBABILIDADE TOTAL Seja que no campo amostral S exista um evento B que consiste de k componentes mutuamente exclusivos: Eq 43: B = B1 ∪ B2 ∪ ... ∪Bk; Bi ∩ Bj = 0 Figura 13 - Probabilidade total. E seja que no campo do evento B exista um outro evento A que pode ou não ocorrer simultaneamente com todos os componentes de B. Nesse caso, podemos escrever: Eq 44: A = (A ∩ B1) ∪ (A ∩ B2) ∪ ..... ∪ (A ∩ Bk) Isso quer dizer que o evento A está descrito em forma total pelos componentes B1....Bk do evento B, os quais são mutuamente exclusivos. Então: Eq 45: P(A) = P(A ∩ B1) +....+ P(A ∩ Bk) Eq 46: P(A) = P(B1) . P(A/B1) +....+ P(Bk) . P(A/Bk) Eq 47: P(A) = Σ P(Bi) . P(A/Bi) Exemplo 5: Na construção de um edifício usa-se 1000 Kg de material por dia; desse total, 600 Kg são adquiridos do fornecedor B1 e 400 Kg do fornecedor B2. 30 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Assim B = B1 ∪ B2, onde B é a provisão de 1000 Kg/dia O material pode ser defeituoso e por experiência prévia sabe-se que B1 e B2 têm as probabilidades de 0,03 e 0,01, respectivamente, de serem defeituosos. Chamando A o evento material defeituoso tem-se: A = (A ∩ B1) ∪ (A ∩ B2) Isto é, se o material é defeituoso, pode vir de B1 ou B2. Então A pode ser calculado a partir de: P(B1) = 0,6; P(A/B1) = 0,03; P(B2) = 0,4 P(A/B2) = 0,01 P(A) = P(B1) . P(A/B1) + P(B2) . P(A/B2) P(A) = (0,6) . (0,03) + (0,4) . (0,01) = 0,018 + 0,004 = 0,022 Assim a probabilidade total de que o material seja defeituoso, vindo de B1 ou B2, é igual a 0,022. TEOREMA DE BAYES O Teorema de Bayes permite calcular a probabilidade posterior de um evento B j , P(Bj/A), baseada em nova informação referente ao evento A e conhecendo-se a probabilidade anterior B j , P(Bj). Usando o conceito de probabilidade condicional, tem-se: Eq 48: P(Bj/A) = P(Bj ∩ A) / P(A) Como A está descrito em termos de B1,.....,Bk, tem-se o Teorema de Bayes: Eq 49: P(Bj/A) = P(Bj ∩ A) / Σ P(Bj) . P(A/Bj) Eq 50: P(Bj/A) = P(Bj) . P(A/Bj) / [ Σ P(Bj) . P(A/Bj)] Nota-se que o Teorema de Bayes determina a probabilidade posterior de um evento B j , em função de um evento A e da probabilidade anterior de B j . Exemplo 6: Uma seção de pavimento de concreto é aceita se sua espessura for superior a 7,5 cm. A experiência prévia indica que 90% das seções construídas são aceitas. A medição da espessura é feita usando um aparelho ultra-sônico, cuja confiabilidade é de 80%, ou seja, há uma probabilidade de 80% que a conclusão baseada neste aparelho seja correta. Pede-se: a) Qual a probabilidade que a seção esteja bem construída e seja aceita na inspeção? Estatística Industrial 4. Probabilidade 31 Solução: Seja A: seção bem construída, isto é, e > 7,5 cm. P(A) = ? Seja B: O aparelho indica que a seção está bem construída, ou seja, indica que e > 7,5 cm. P(B)=0,90 Ainda, P(A/B) = 0,80 Assim, o que se pede é a P(A ∩ B): P(A ∩ B) = P(B) . P(A/B) = (0,90) . (0,80) = 0,72 b) A probabilidade que a seção não esteja bem construída e seja aceita: P(A ∩ B) = P(B).P( A/B) = (0,90).(0,20) = 0,18 c) A probabilidade que a seção seja aceita quando se sabe que a seção está bem construída. Essa probabilidade pode ser estimada usando o Teorema de Bayes. O que se pede é a P(B/A). Como somente podemos dizer que a seção está bem construída baseado nas medições temos: A = (B ∩ A) ∪ (B ∩ A) Assim, P(A) = P(B) . P(A/B) + P( B) . P(A/ B ) P(A) = (0,90) . (0,80) + (0,10) . (0,20) = 0,74 P(B/A) = P(B) . P(A/B) (0,90) . (0,80) = = 0,973 P(A) 0,74 Como se vê, a probabilidade anterior P(B) = 0,90 é agora modificada para P(B/A) = 0,973 depois de se saber o evento: a seção está bem construída. Exercícios Exercício 4.1. Dois eventos são ditos mutuamente exclusivos se eles não tem elementos em comum, ou seja, se eles não podem ocorrer simultaneamente. E um grupo de eventos é dito coletivamente exaustivo se eles esgotam todos os resultados possíveis para o experimento em questão. Dê um exemplo de eventos mutuamente exclusivos e coletivamente exaustivo. Exercício 4.2. Qual a probabilidade de um candidato ao vestibular acertar o dia da semana em que nasceu Pedro Alvarez Cabral? Que suposição você fez para calcular essa probabilidade? Exercício 4.3. Seja P(A) = 0,30 e P(B) = 0,80 e P(A∩B) = 0,15. Pede-se: a) A e B são mutuamente exclusivos? 32 4. Probabilidade José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS b) Determine P(B) c) Determine P(A∪B) Exercício 4.4. Sejam A e B mutuamente exclusivos, P(A) = 0,52 e P(B) = 0,27. Pedese: a) A e B são coletivamente exaustivos? b) Determine P(A∪B) c) Determine P(A∩B) Exercício 4.5. As falhas de diferentes equipamentos são independentes uma das outras. Se há três equipamentos e as suas respectivas probabilidades de falha em um determinado dia são 1%, 2% e 5%, indique: a) a probabilidade de todos os equipamentos falharem em um mesmo dia b) de nenhum falhar Exercício 4.6. Uma fábrica de azulejos tem um processo de inspeção em 3 etapas. A probabilidade de um lote defeituoso passar sem ser detectado em uma dessas etapas é de aproximadamente 25%. Com base nessa informação, calcule a probabilidade de um lote defeituoso passar sem ser detectado por todas as 3 etapas. Exercício 4.7. Há 99% de probabilidade de uma máquina fabricar uma peça sem defeitos. Supondo que a fabricação de peças sucessivas constitua eventos independentes, calcule as seguintes probabilidades: a) de duas peças em seqüência serem defeituosas b) de dez peças em seqüência sem defeitos Exercício 4.8. Três máquinas A, B e C fabricam matrizes para a estamparia. O histórico dessas máquinas revela que elas produzem respectivamente 1%, 2% e 3% de defeituosos. Um inspetor examina uma matriz e verifica que ela está perfeita. Sabendo que cada máquina é responsável por 1/3 da produção total, calcule a probabilidade de ela ser produzida por cada uma das máquinas. Exercício 4.9. Repita o exercício 8 para o caso em que o inspetor tivesse examinado a matriz e verificado que ela era defeituosa. Exercício 4.10. Repita o exercício 8 para o caso em que as máquinas A, B e C fossem responsáveis, respectivamente, pelos seguintes percentuais da produção total: 20%, 40% e 40%. Exercício 4.11. Uma cidade tem 30 mil habitantes e três jornais X, Y, Z. Uma pesquisa de opinião revela que: 12 mil lêem X, 8 mil Y, 7 mil X e Y, 6 mil Z, 4.500 lêem X e Z, mil Y e Z e 500 lêem X,Y e Z. Qual a probabilidade de que um habitante leia: a) pelo menos um jornal Estatística Industrial 4. Probabilidade 33 b) só um jornal c) ler o jornal X sabendo que ele lê o jornal Z Exercício 4.12. Uma empresa exploradora de petróleo perfura um poço quando acha que há pelo menos 25% de chance de encontrar petróleo. Ela perfura 4 poços, aos quais são atribuídas probabilidades de 0,3 ; 0,4 ; 0,7 e 0,8. a) Determine a probabilidade de nenhum poço produzir petróleo, com base nas estimativas da empresa. b) Determine a probabilidade de os quatro poços produzirem petróleo. c) Qual a probabilidade de só os poços com probabilidades 0,3 e 0,7 produzirem petróleo? Exercício 4.13. Os arquivos da polícia revelam que, das vítimas de acidente automobilístico que utilizam cinto de segurança, apenas 10% sofrem ferimentos graves, enquanto que a incidência é de 50% entre as vítimas que não utilizam cinto de segurança. Estima-se que em 60% a porcentagem dos motoristas que usam o cinto. A polícia acaba de ser chamada para investigar um acidente em que houve um indivíduo gravemente ferido. Calcule a probabilidade de ele estar usando o cinto no momento do acidente. A pessoa que dirigia o outro carro não sofreu ferimentos graves. Calcule a probabilidade dela estar usando o cinto no momento do acidente. 5 Distribuições de probabilidade José Luis Duarte Ribeiro Carla ten Caten Conforme visto anteriormente, o histograma é usado para apresentar dados amostrais extraídos de uma população. Por exemplo, os 50 valores de uma característica dimensional apresentados anteriormente representam uma amostra de um processo industrial. O uso de métodos estatísticos permite que se analise essa amostra e se tire algumas conclusões sobre o processo de manufatura. Uma distribuição de probabilidade é um modelo matemático que relaciona um certo valor da variável em estudo com a sua probabilidade de ocorrência. Há dois tipos de distribuição de probabilidade: 1.Distribuições Contínuas: Quando a variável que está sendo medida é expressa em uma escala contínua, como no caso de uma característica dimensional. 2. Distribuições Discretas: Quando a variável que está sendo medida só pode assumir certos valores, como, por exemplo os valores inteiros 0, 1, 2, etc. Figura 14 - Distribuição de probabilidade discreta e contínua. No caso de distribuições discretas, a probabilidade que a variável X assuma um valor específico xo é dados por: Eq 51: P{X = xo} = P(xo) No caso de variáveis contínuas, as probabilidades são especificadas em termos de intervalos, pois a probabilidade associada a um número específico é zero. Eq 52: b P{a ≤ x ≤ b} = ∫ f ( x ) dx a Estatística Industrial Erro! Resultado não válido para índice. DISTRIBUIÇÕES DISCRETAS MAIS IMPORTANTES Distribuição Binomial A distribuição binomial é adequada para descrever situações em que os resultados de uma variável aleatória podem ser agrupados em apenas duas classes ou categorias. As categorias devem ser mutuamente excludentes, de forma que não haja dúvidas na classificação do resultado da variável nas categorias e coletivamente exaustivas, de forma que não seja possível nenhum outro resultado diferente das categorias. Por exemplo, um produto manufaturado pode ser classificado como perfeito ou defeituoso, a resposta de um questionário pode ser verdadeira ou falsa, as chamadas telefônicas podem ser locais ou interurbanas. Mesmo as variáveis contínuas podem ser divididas em duas categorias, como, por exemplo, a velocidade de um automóvel pode ser classificada como dentro ou fora do limite legal. Geralmente, denomina-se as duas categorias como sucesso ou falha. Como as duas categorias são mutuamente excludentes e coletivamente exaustivas: P ( sucesso ) + P ( falha ) = 1 Consequentemente, sabendo-se que, por exemplo, a probabilidade de sucesso é P(sucesso) = 0,6, a probabilidade de falha é P(falha) = 1 - 0,6 = 0,4. Condições de aplicação do modelo binomial a) são feitas n repetições do experimento, onde n é uma constante; b) há apenas dois resultados possíveis em cada repetição, denominados sucesso e falha c) a probabilidade p de um sucesso e (1-p) de falha permanece constante em todas as repetições; d) as repetições são independentes, ou seja, o resultado de uma repetição não é influenciado por outros resultados. Seja um processo composto de uma seqüência de n observações independentes com probabilidade de sucesso constante igual a p, a distribuição do número de sucessos seguirá o modelo Binomial: Eq 53: () x = 0, 1, ...., n. onde (xn ) representa o número de combinações de n objetos P( x ) = xn p x ( 1 − p )n − x 6-35 36 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS tomados x de cada vez, calculado como: Eq 54: (xn ) = x!(nn−! x)! Os parâmetros da distribuição Binomial são n e p. A média e a variância são calculadas como: Eq 55: µ = np Eq 56: σ 2 = np (1 − p ) A distribuição Binomial é usada com freqüência no controle de qualidade. É o modelo apropriado quando a amostragem é feita sobre uma população infinita ou muito grande. Nas aplicações de controle da qualidade, x em geral representa o número de defeituosos observados em uma amostra de n itens. Por exemplo, se p = 0,10 e n = 15, a probabilidade de obter x itens não conformes é calculada usando a equação da binomial. Para x=1: Eq 57: ( 115 ) = 1!(1515−! 1)! = 15 Eq 58: 1 15−1 P( 1 ) = 15 = 15 × 0 ,10 x 0 ,23 = 0,34 1 x 0,10 x ( 1 − 0 ,10 ) ( ) Figura 15 - Distribuição Binomial com p = 0,10 e n = 15 Outra estatística de interesse para o controle de qualidade é a fração de defeituosos de uma amostra: Distribuição de Poisson x n Eq 59: pˆ = Eq 60: σ 2pˆ = p(1 − p ) n A distribuição de Poisson é adequada para descrever situações onde existe uma probabilidade de ocorrência em um campo ou intervalo contínuo, geralmente tempo ou área. Por exemplo, o número de acidentes por mês, o número de defeitos por metro Estatística Industrial Erro! Resultado não válido para índice. quadrado, número de clientes atendidos por hora, etc. Nota-se que a variável aleatória é discreta (número de ocorrência), no entanto, a unidade de medida é contínua (tempo, área). Além disso, as falhas não são contáveis, pois não é possível contar o número de acidentes que não ocorreram, nem tampouco o número de defeitos que não ocorreram. A distribuição de Poisson fica completamente caracterizada por um único parâmetro λ que representa a taxa média de ocorrência por unidade de medida. Condições para a aplicação do modelo de Poisson: a) número de ocorrências durante qualquer intervalo depende somente da extensão do intervalo; b) as ocorrências ocorrem independentemente, ou seja, um excesso ou falta de ocorrências em algum intervalo não exerce efeito sobre o número de ocorrências em outro intervalo; c) a possibilidade de duas ou mais ocorrências acontecerem em um pequeno intervalo é muito pequena quando comparada à de uma única ocorrência. A equação para calcular a probabilidade de x ocorrências é dada por: Eq 61: e −λ λx P( x ) = x! x = 0, 1,.... A média e a variância da distribuição de Poisson são: Eq 62: µ=λ Eq 63: σˆ = λ A aplicação típica da distribuição de Poisson no controle da qualidade é como um modelo para o número de defeitos (não conformidades) que ocorre por unidade de produto (por m2, por volume ou por tempo, etc.). Como um exemplo, suponha que o número de defeitos de pintura siga uma distribuição de Poisson com λ = 2. Então, a probabilidade que uma peça apresente mais de 4 defeitos de pintura virá dada por: Eq 64: 1 − P{X ≤ 4} = 1 − 4 e −2 2 x ∑ x =0 Eq 65: x! 1 − P{X ≤ 4} = 1 − 0,945 = 0,055 = 5,5% 6-37 38 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS x P(x) 0 0,135 1 0,270 2 0,270 3 0,180 4 0,090 5 0,036 Figura 16 - Distribuição de Poisson com λ = 2. 6 0,012 A distribuição de Poisson é uma forma limite da distribuição Binomial, quando n → ∞ e p → 0 , mas mantendo o quociente np = λ DISTRIBUIÇÕES CONTÍNUAS MAIS IMPORTANTES Distribuição Exponencial Na distribuição de Poisson, a variável aleatória é definida como o número de ocorrências em determinado período, sendo a média das ocorrências no período definida como λ. Na Distribuição Exponencial a variável aleatória é definida como o tempo entre duas ocorrências, sendo a média de tempo entre ocorrências de 1/λ. Por exemplo, se a média de atendimentos no caixa bancário é de λ = 6 atendimentos por minuto, então o tempo médio entre atendimentos é 1/λ = 1/6 de minuto ou 10 segundos. Condição de aplicação do modelo exponencial: a) o número de ocorrências deve seguir uma distribuição de Poisson. Se considerarmos a distribuição de Poisson como o modelo para o número de ocorrências de um evento no intervalo de [0, t] teremos: Eq 66: P( x ) = e − λt ( λt ) x x! E nesse caso pode ser demonstrado que a distribuição dos intervalos entre ocorrências irá seguir o modelo Exponencial com parâmetro λ. O modelo da distribuição Exponencial é o seguinte: Eq 67: f (t ) = λe − λt ; t≥0 Estatística Industrial Erro! Resultado não válido para índice. onde λ > 0 é uma constante. Figura 17 - Distribuição Exponencial. A média e o desvio-padrão da distribuição Exponencial são calculados usando: Eq 68: Eq 69: µ= σ= 1 λ 1 λ A distribuição Exponencial acumulada vem dada por: Eq 70: F (t ) = P{T ≤ t} = ∫ λe − λx dx = 1 − e − λt t 0 t≥0 A distribuição Exponencial é largamente utilizada no campo da confiabilidade, como um modelo para a distribuição dos tempos até a falha de componentes eletrônicos. Nessas aplicações o parâmetro λ representa a taxa de falha para o componente, e 1/λ é o tempo médio até a falha. Por exemplo, suponha que uma máquina falhe em média uma vez a cada dois anos λ=1/2=0,5. Calcule a probabilidade da máquina falhar durante o próximo ano. Eq 71: F (t ) = P{T ≤ 1} = 1 − e −0,5x1 = 1 - 0,607 = 0,393 A probabilidade de falhar no próximo ano é de 0,393 e de não falhar no próximo ano é de 1-0,393=0,607. Ou seja, se forem vendidos 100 máquinas 39,3% irão falhar no período de um ano. Conhecendo-se os tempos até a falha de um produto é possível definir os períodos de garantia. Distribuição de Weibull O modelo da distribuição de Weibull é: 6-39 40 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 72: γ x−L f ( x) = θ θ γ −1 γ x−L e − θ x − L γ F ( x ) = 1 − e − Eq 73: θ onde: γ: parâmetro de forma θ: parâmetro de escala L: parâmetro de localização A média e a variância da distribuição de Weibull vêm dadas por: Eq 74: Eq 75: 1 µ = L + θ Γ1 + γ σ 2 2 2 1 = θ Γ1 + − Γ1 + γ γ 2 A distribuição de Weibull é muito flexível e pode assumir uma variedade de formas. Ela tem sido usada extensivamente para modelar tempos de processo ou tempos até a falha de componentes elétricos, componentes mecânicos, elementos estruturais e sistemas complexos. Distribuição Normal A distribuição Normal é a mais importante das distribuições estatísticas, tanto na teoria como na prática. Uma das razões, é que a distribuição Normal representa a distribuição de freqüência de muitos fenômenos naturais. Outra razão é que a distribuição Normal serve como aproximação da distribuição Binomial, quando n é grande. No entanto, o motivo mais importante é que as médias e as proporções de grandes amostras segue a distribuição Normal, como será visto no teorema do Limite Central. A distribuição de freqüência do modelo Normal apresenta forma de sino, é unimodal, simétrica em relação à sua média e tende assintoticamente a zero à medida que os valores se afastam da média. Ou seja, teoricamente os valores da variável aleatória podem variar de − ∞ a + ∞ . Em termos de probabilidade de ocorrência, a área sob toda a curva normal soma 100%. A probabilidade de uma observação proveniente de uma variável aleatória normal assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos. Estatística Industrial Erro! Resultado não válido para índice. área=1 área=0,5 área=0,5 Figura 18 - Percentuais da distribuição Normal. A distribuição Normal fica complemente caracterizada por dois parâmetros: a média e o desvio-padrão. Ou seja, diferentes médias e desvio-padrões originam curvas normais distintas, como se pode visualizar nos exemplos contidos na Tabela 4 onde há amostras provenientes de distribuições com média e desvios-padrões distintos. Tabela 4 - Amostras de três distribuições distintas. Amostras Dados A 10 12 14 16 18 x = 14 B 22 24 26 28 30 x = 26 C 6 10 14 18 22 Localização ( x ) x = 14 Variabilidade (R) R =8 R =8 R = 16 6-41 42 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS f(x) A B C Figura 19 - Distribuição de probabilidade com média e desvios-padrões distintos. Na Figura 19, pode-se visualizar que: a) da distribuição A para B muda a tendência central, mas a variabilidade é constante; b) da distribuição A para C muda a variabilidade, mas a tendência central é constante; c) da distribuição B para C muda a tendência central e a variabilidade. Uma conseqüência importante do fato de uma distribuição Normal ser completamente caracterizada por sua média e desvio-padrão é que a área sob a curva entre um ponto qualquer e a média é função somente do número de desvios-padrões que o ponto está distante da média. Como existem uma infinidade de distribuições normais (uma para cada média e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso, espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a contar da média. Dessa forma, o cálculo de probabilidades (área sob a curva) pode ser realizado através de uma distribuição Normal padronizada, onde o parâmetro é a variável reduzida Z, que representa o número de desvios-padrões distantes da média. A distribuição Normal pode ser representada por uma equação matemática dada por: Eq 76: f ( x) = 1 σ 2Π 1 x − µ 2 − e 2 σ A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que um dado valor xo: Eq 77: x P ( X ≤ xo ) = F ( xo ) = ∫ o f ( x ) dx −∞ Essa integral não pode ser resolvida em forma fechada, mas a solução está apresentada em tabelas da distribuição Normal Estatística Industrial Erro! Resultado não válido para índice. padronizada onde se entra com a variável reduzida Z (número de desvios-padrões distantes da média) e encontra-se F(Z) ou vice-versa. Eq 78: x −µ P{X ≤ x} = P Z ≤ = F ( Z ) ⇒ Tabelado σ Para sabermos o valor da probabilidade, utilizamos a tabela da distribuição Normal. Essa tabela nos fornece a área acumulada até o valor de Z Área=0,84 Figura 20 1,0 0,84 0,0 O cálculo da variável reduzida Z é feito através da transformação dos valores reais em valores codificados. Essa transformação é feita descontando-se a média para eliminar o efeito de localização (tendência central) e dividindo-se pelo desvio-padrão para eliminar o efeito de escala (variabilidade). Uma vez calculada a variável reduzida Z, consulta-se a tabela Normal padronizada para identificar a probabilidade acumulada à esquerda de Z, ou seja, a probabilidade de ocorrerem valores menores ou iguais a um certo valor de Z consultado. A seguir serão apresentados exemplos do cálculo do percentual fora de especificação. Exemplo 1 A resistência à tração do papel usado em sacolas de super mercado é uma característica de qualidade importante. Sabe-se que essa resistência segue um modelo Normal com média 40 psi e desvio padrão 2 psi. Se a especificação estabelece que a resistência deve ser maior que 35 psi, qual a probabilidade que uma sacola produzida com este material satisfaça a especificação? P{X ≥ 35} = 1 − P{X ≤ 35} 35 − 40 P{X ≤ 35} = P Z ≤ = P{Z ≤ −2,5} 2 6-43 44 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Tabela da distribuição normal: F(-2,5) = 0,0062 Assim a resposta é 1 - 0,0062 = 99,38% Figura 21 - Distribuição de valores reais e codificados. Distribuição para X (valores reais) codificados) Distribuição para Z (valores O diâmetro do eixo principal de um disco rígido segue uma distribuição Normal com média 25,08 in e desvio-padrão 0,05 in. Se as especificações para esse eixo são 25,00 ± 0,15 in, determine o percentual de unidades produzidas em conformidades com as especificações. Exemplo 2 Eq 79: P{24,85 ≤ x ≤ 25,15} = P{x ≤ 25,15} − P{x ≤ 24,85} 25,15 − 25,08 24,85 − 25,08 = P Z ≤ − P Z ≤ 0,05 0,05 = P{Z ≤ 1,40} − P{Z ≤ −4,60} = 0,9192 − 0,0000 = 0,9192 ou seja, 91,92% (área cinza na figura abaixo) dentro das especificações e 8,08% fora das especificações. LEI x LES 25,08 25,15 σ=0,05 Figura 22- Distribuição de probabilidade do processo e os limites de especificação 24,85 Exemplo 3 No exemplo anterior tem-se cerca de 8% de unidades não-conformes, e essas unidades são invariavelmente do tipo “eixo muito largo”. Recalcule o percentual de unidades conformes se o processo estivesse centrado em 25,00. 25,15 − 25,00 24,85 − 25,00 P Z ≤ − P Z ≤ 0,05 0,05 P{Z ≤ 3,0} − P{Z ≤ −3,0} = 0,9987 − 0,00135 = 0,9973 Estatística Industrial Erro! Resultado não válido para índice. ou seja, 99,73% dentro das especificações e 0,27% fora das especificações. Suponha que X → N (85; 9). Encontre um valor limite x, tal que P{ X > x} = 0,05. Exemplo 4 x − 85 P{ X > x} = 1 − P{ X ≤ x} = 1 − P Z ≤ = 0,05 9 x − 85 P Z ≤ = 0,95 9 Tabela da distribuição normal: Z = 1,645 Assim, PROPRIEDADES DA DISTRIBUIÇÃO NORMAL 1,645 = x − 85 ; 9 x = 99,805 A distribuição Normal tem muitas propriedades úteis. Uma dessas propriedades é que qualquer combinação linear de variáveis normalmente distribuídas também seguirá o modelo Normal, ou seja: Se X1, X2,........., Xn têm distribuição normal independentes, então uma combinação linear dessas variáveis, por exemplo, Eq 80: Y = a1X1 + a2X2 +.....+ akXk Também Seguirá o modelo normal, com média e variância dados por: Eq 81: µγ = a1µ1 +.......+ an µ n Eq 82: σ Y2 = a12σ 12 +........+ an2σ n2 onde a1, ..., an são constantes. Teorema do Limite Central O Teorema do Limite Central indica que a soma (e, por conseguinte, a média) de n variáveis independentes seguirá o modelo Normal, independentemente da distribuição das variáveis individuais. A aproximação melhora na medida em que n aumenta. Se as distribuições individuais não são muito diferentes da Normal, basta n = 4 ou 5 para se obter uma boa aproximação. Se as distribuições individuais forem radicalmente diferentes da Normal, então será necessário n = 20 ou mais. Na Figura 23, pode ser visto um desenho esquemático do teorema do limite central. 6-45 46 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS n Figura 23 - Teorema do limite central. n f(x) σx σ LNI Figura 24 x = µ LCI LNS LCS x Os limites da distribuição dos valores individuais são chamados de limites naturais e os limites da distribuição de probabilidade das médias são chamados de limites de controle. A distribuição de probabilidade da variável resultante do lançamento de um dado segue a distribuição uniforme, ou seja, qualquer valor (1, 2, 3, 4, 5, 6) tem a mesma probabilidade (1/6) de ocorrer. No entanto, se ao invés de lançar um dado, sejam lançados dois dados e calculada a média, essa média seguirá uma distribuição aproximadamente Normal como pode-se visualizar no histograma abaixo. Na Tabela 5, apresenta-se as médias dos lançamentos de dois dados Exemplo 5 Tabela 5 - Tabela com as médias dos dois dados. 10 dado 20 dado Soma Média 10 dado 20 dado Soma Média 1 1 2 1,0 5 2 7 3,5 1 2 3 1,5 3 4 7 3,5 2 1 3 1,5 4 3 7 3,5 1 3 4 2,0 2 6 8 4,0 3 1 4 2,0 6 2 8 4,0 2 2 4 2,0 3 5 8 4,0 1 4 5 2,5 5 3 8 4,0 4 1 5 2,5 4 4 8 4,0 3 2 5 2,5 3 6 9 4,5 2 3 5 2,5 6 3 9 4,5 1 5 6 3,0 4 5 9 4,5 5 1 6 3,0 5 4 9 4,5 Estatística Industrial Erro! Resultado não válido para índice. 2 4 6 3,0 4 6 10 5,0 4 2 6 3,0 6 4 10 5,0 3 3 6 3,0 5 5 10 5,0 1 6 7 3,5 5 6 11 5,5 6 1 7 3,5 6 5 11 5,5 2 5 7 3,5 6 6 12 6,0 A tabela de freqüência da média dos dois dados resulta conforme Tabela 6. Média de dois dados Freqüência 1,0 1 1,5 2 2,0 3 2,5 4 3,0 5 3,5 6 4,0 5 4,5 4 5,0 3 5,5 2 6,0 1 Tabela 6 - Tabela de freqüência da média dos dois dados. Conforme pode ser visto na Figura 25, o histograma da média dos dois dados resulta aproximadamente Normal. Além disso, observa-se que a aproximação da distribuição Normal melhora na medida que se fizesse a média do lançamento de mais dados. f(x) 6/36 5/36 4/36 3/36 2/36 1/36 Figura 25 - Histograma da média dos dois dados. 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 O teorema do limite central é básico para a maioria das aplicações do controle estatístico da qualidade. O controle estatístico do processo, em geral, trabalha com a média das x 6-47 48 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS amostras, pois independentemente da distribuição dos valores individuais, a média desses valores irá seguir aproximadamente a distribuição Normal. A partir do teorema do limite central, sabe-se que a distribuição amostral das médias apresenta os seguintes parâmetros: Eq 83: Média: x =µ onde: x representa a média das médias amostrais; µ representa a média dos valores individuais da população. Eq 84: Desvio-padrão: σx = σ n onde: σ x representa o desvio-padrão das médias amostrais; σ representa o desvio-padrão dos valores individuais da população; representa o tamanho da amostra. n Exemplo 6 Um pesquisador deseja saber a média de idade dos alunos de pós-graduação. Supondo que a população dos alunos seja: 25, 35, 24, 43, 35, 22, 49, 56, 34, 26, 35, 52, 40, 35, 35,25, 61,42, 58, 56, 45, 40, 38, 45, 33, 53, 22, 35, 23, 25, 36, 39 µ = ∑ x i = 25 + ... + 39 = 38,19 32 N σ= ( xi − µ ) 2 = N (25 − 38,19)2 + ... + (39 − 38,19)2 32 = 11,11 Exemplo 7 Supondo que não fosse possível analisar a população inteira, e os dados fossem coletados por amostras de tamanho n=4. Média( x ) 1 25 34 61 33 38,25 2 35 26 42 53 39 3 24 35 58 22 34,75 4 43 52 56 35 46,5 5 35 40 45 23 35,75 6 22 35 40 25 30,5 7 49 35 38 36 39,5 8 56 25 45 39 41,25 Estatística Industrial Erro! Resultado não válido para índice. Desvio(S) ∑ xi x= k σˆ x = = 15,69 = 11,4 16,52 9,40 9,43 8,43 6,45 12,9 38,25 + ... + 41,25 = 38,18 8 ∑ x i − x 2 = k −1 (38,25 − 38,18)2 + ... + (41,25 − 38,18)2 8 −1 = 4,75 x = 38 ,18 ≅ µ = 38 ,19 σˆ x = 4,75 Exemplo 3 σx = σ n = 11,11 4 = 5,55 Com base no exemplo 2, supomos que os dados fossem coletados por amostras de tamanho n=8. 1 25 34 61 33 35 26 42 53 38,62 12,71 Média ( x ) Desvio (S) x= ∑ xi k = 3 35 40 45 23 22 35 40 25 33,12 8,74 4 49 35 38 36 56 25 45 39 40,37 9,50 38,62 + ... + 40,37 = 38,18 4 ∑ (x i − x ) 2 σˆ x = 2 24 35 58 22 43 52 56 35 40,62 13,94 k −1 = (38,62 − 38,18)2 + ... + (40,37 − 38,18)2 4 −1 x = 38,18 ≅ µ = 38,19 σˆ x = 3,49 σx = σ n = 11,11 8 = 3,93 Como aparece ilustrado na Figura 26, a média das médias amostrais é igual a média dos valores individuais e o desviopadrão das médias é menor do que o desvio-padrão dos valores individuais na razão de 1 / n . = 3,49 6-49 50 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS f(x) σx σ Figura 26 - Distribuição de probabilidade dos valores individuais versus distribuição de probabilidade das médias. LNI LCI x = µ LCS LNS Exercícios Exercício 5.1 Suponha que dois dados sejam lançados e seja X a soma dos valores obtidos. Descreva o espaço amostral deste experimento e determine a distribuição de probabilidade de X. Exercício 5.2 Um processo industrial opera com média de 1% de defeituosos. Baseado em amostras de 100 unidades, calcule as probabilidades de uma amostra apresentar 0, 1, 2, 3 e 4 defeituosos. Plote a distribuição de probabilidade correspondente. Exercício 5.3 Imagine que para o processo anterior, fossem coletadas amostras de 50 unidades e o critério para parar o processo e procurar causas especiais fosse X = 1 ou mais. Calcule a percentagem de vezes que o processo seria interrompido logo após a amostragem. Exercício 5.4 Em uma indústria automotiva, defeitos superficiais de pintura ocorrem a uma taxa de 0,15 defeitos/unidade. Encontre a probabilidade que uma unidade escolhida ao acaso apresente 1 ou mais defeitos superficiais. Exercício 5.5 O setor financeiro de uma loja de departamentos está tentando controlar o número de erros cometido na emissão das notas fiscais. Suponha que esses erros sigam o modelo de Poisson com média λ = 0,03. Qual a probabilidade de uma nota selecionada ao acaso conter 1 ou mais erros? Exercício 5.6 A resistência à tração de isoladores cerâmicos apresenta distribuição Normal com média 95 Kg e desvio-padrão 4 Kg. Se são produzidas 10.000 unidades desses isoladores, quantos apresentarão resistência inferior a 85 Kg? E quantos apresentarão resistência superior a 90 Kg? Exercício 5.7 A saída de uma bateria segue o modelo Normal com média 12,15 V e desvio-padrão 0,2 V. Encontre o percentual que irá falhar em atender às especificações 12 V ± 0,5 V. Exercício 5.8 Se X representa medições feitas em um processo que segue o modelo Normal com média 100 e desvio padrão 10, que comportamento irá seguir a média de amostras de 4 unidades retiradas desse processo? E qual será o comportamento da média de 9 unidades retiradas desse processo? Estatística Industrial Erro! Resultado não válido para índice. Exercício 5.9 Os tempos até a falha de um dispositivo eletrônico seguem o modelo Exponencial, com uma taxa de falha λ= 0,012 falhas/hora. Plote a distribuição de probabilidade correspondente. Depois indique qual a probabilidade de um dispositivo escolhido ao acaso sobreviver a 50 horas? E a 100 horas? Exercício 5.10 O tempo até a venda de um certo modelo de eletrodoméstico, que é regularmente abastecido em um supermercado, segue uma distribuição Exponencial, com parâmetros λ = 0,4 aparelhos/dia. Indique a probabilidade de um aparelho indicado ao acaso ser vendido logo no primeiro dia. Exercício 5.11 Num lote que tem 2% de defeituosos, foram retiradas 40 peças, que será rejeitado se forem encontradas duas ou mais peças defeituosas. Qual a probabilidade de rejeitar o lote? Exercício 5.12 Os registros de uma pequena companhia indicam que 40% das faturas por ela emitidas são pagas após o vencimento. De 14 faturas expedidas, determine a probabilidade de: a) nenhuma ser paga com atraso. b) no máximo 2 serem pagas com atraso. c) pelo menos 3 serem pagas com atraso. d) uma ser paga em dia. Exercício 5.13 Uma amostra de 3 m de cabo foi retirada de uma bobina. O cabo tem em média uma falha por m. Qual a probabilidade de não encontrar falha na amostra? Exercício 5.14 O tempo necessário, em uma oficina, para o conserto de transmissão para certo carro é normalmente distribuído com média 45 min e desvio-padrão 8 min. O mecânico planeja começar o conserto do carro 10 min após o cliente deixá-lo na oficina, comunicando que o carro estará pronto em 1 h. Qual a probabilidade de que o cliente tenha que esperar caso o mecânico esteja enganado e o cliente fique esperando? Exercício 5.15 Uma fábrica de pneus fez um teste para medir o desgaste de seis pneus e verificou que ele seguia o comportamento de uma curva normal com média 48.000 km e desvio-padrão de 2.000 km. Calcule a probabilidade de um pneu escolhido ao acaso: a) dure mais que 47.000 km? b) dure entre 45.000 e 51.000 km? c) até que quilometragem duram 90% dos pneus? Exercício 5.16 O consumo de gasolina por Km rodado para certo tipo de carro, tem distribuição normal com média de 100 ml com desvio-padrão de 5 ml. a) calcular a probabilidade de um carro consumir entre 92 e 106 6-51 52 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS ml. b) sabe-se que 73,24% dos carros consumem menos que certa quantidade de gasolina qual é essa quantidade? c) num grupo de 5 carros qual a probabilidade de dois consumirem mais que 107 ml? Exercício 5.17 Em uma indústria trabalham 1260 pessoas, cujos os salários tem média $34.600 e desvio-padrão $ 8.500. Calcule a probabilidade de ser inferior a $34.100 o valor da média de uma amostra aleatória constituída por: 300 pessoas 100 pessoas 6 Estimativa de parâmetros José Luis Duarte Ribeiro Carla ten Caten Uma variável aleatória é caracterizada ou descrita pela sua distribuição de probabilidade. Em aplicações industriais, as distribuições de probabilidade são usadas para modelar tempos de processo ou características de qualidade tais como dimensionais críticos ou percentuais de não conformes. A distribuição de probabilidade, por sua vez, é descrita pelos seus parâmetros populacionais. Por exemplo, a média µ e o desvio-padrão σ são os parâmetros populacionais da distribuição Normal, enquanto λ é o parâmetro da distribuição de Poisson. Em aplicações industriais, as distribuições são usadas para modelar tempos de processo ou características de qualidade tais como dimensionais críticos ou percentuais de não conformes. Assim, existe interesse em conhecer os parâmetros populacionais da distribuição de probabilidade. Como geralmente os parâmetros populacionais da distribuição de probabilidade não são conhecidos, é preciso desenvolver procedimentos para estimar esses parâmetros. As estimativas dos parâmetros populacionais da distribuição são realizadas a partir dos resultados (dados) de uma variável aleatória de uma amostra representativa extraída dessa população. Esse procedimento é chamado de estatística inferencial, pois estima-se um parâmetro populacional desconhecido da distribuição de probabilidade através de uma amostra representativa extraída dessa população. A estatística inferencial compreende a estimação de parâmetros populacionais e testes de hipótese a respeito da população. Na verdade, a estatística inferencial forma a base das atividades de controle da qualidade e também pode auxiliar na tomada de decisão e em muitas outras situações. ESTIMATIVAS PONTUAIS A estimação de parâmetros populacionais pode ser por ponto (pontual) ou por intervalo de confiança. A estimativa pontual é um valor obtido a partir dos resultados (dados) de uma variável aleatória de uma amostra representativa extraída da população. Seja a variável aleatória X, com distribuição de probabilidade f(X), e seja que o valor dos parâmetros populacionais da média µ e da variância σ2 são desconhecidos. Se uma amostra representativa da variável aleatória X é extraída da população, a média X e a variância S2 dessa amostra podem ser usadas como estimadores pontuais dos 54 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS parâmetros populacionais µ e σ2. Por exemplo, pode haver interesse em estimar a média e a variância de uma característica dimensional de um processo. Se uma amostra de 15 unidades indica X = 5,026 cm e S = 0,0012 cm2, então esses valores são tomados como estimativas pontuais dos parâmetros populacionais µ e σ2. Há várias propriedades que fazem um estimador ser um bom estimador, entre elas citamos: 1. Um estimador deve ser não tendencioso, isto é, ele não deve subestimar ou superestimar sistematicamente o valor do parâmetro que está sendo estimado. 2. Ele deve apresentar variância mínima, isto é, sua variabilidade deve ser menor que a variabilidade de qualquer outro estimador que possa ser concebido. ESTIMATIVAS POR INTERVALO DE CONFIANÇA A estimação de parâmetros populacionais por intervalo de confiança consiste em gerar um intervalo, centrado na estimativa pontual, no qual se admite que esteja o parâmetro populacional. A estimativa pontual é calculada a partir de uma amostra extraída da população. No entanto, pode-se extrair várias amostras de uma população. Por exemplo, conforme Figura 27, para estimar a média populacional (µ) pode-se retirar várias amostras diferentes que podem gerar várias estimativas pontuais X diferentes. Figura 27 - Diferentes amostras retiradas de uma população População µ=? x x µ xk Se a amostra for representativa da população, ela tende a gerar valor próximo do parâmetro populacional, mas não igual. Como a estimativa é baseada em uma única amostra, o quão próximo o valor encontrado nessa amostra está do verdadeiro parâmetro populacional? Não há como saber se a amostra coletada foi extraída da cauda superior ou inferior da distribuição. Logo, para se ter confiança de estimar o verdadeiro parâmetro populacional, gera-se um intervalo de possíveis valores para o parâmetro populacional, a partir do valor encontrado da amostra. Quanto maior a amplitude do intervalo, maior a confiança (probabilidade) de estimar corretamente o verdadeiro parâmetro populacional. Estatística Industrial 6. Estimativa de parâmetros 55 Intervalo de confiança Figura 28 - Intervalo de confiança centrado em um valor amostral x - z σx α/2 x x + z σx α/2 Conforme a amplitude do intervalo, existe uma probabilidade (1-α) de que o parâmetro populacional esteja contido no intervalo. Essa probabilidade (1-α) é chamada nível de confiança, sendo α a probabilidade do erro, ou seja, a probabilidade do intervalo não conter o verdadeiro parâmetro populacional. Um intervalo de confiança de 100(1-α)% é estabelecido a partir de dois limites, tais que a probabilidade do verdadeiro valor do parâmetro estar incluído dentro do intervalo é 100(1-α)% . Por exemplo, para construir um intervalo de confiança de 95% para a média , nós precisamos achar os limites L e U tais que: Eq 85: P{L ≤ µ ≤ U } = 95% A interpretação do intervalo de confiança é a seguinte: se um grande número desses intervalos fosse construído, a partir de diversas amostras aleatórias, então 95% desses intervalos iria incluir o verdadeiro valor da média populacional µ, ou seja, 5% dos intervalos de confiança estimados baseados nas médias amostrais não conteria o verdadeiro parâmetro populacional µ. O intervalo de confiança apresentado acima é um intervalo bilateral. Também pode haver interesse em construir intervalos unilaterais. O limite inferior para um intervalo unilateral de 100(1-α)% é definido calculando-se o valor de L tal que: Eq 86: P{L ≤ µ } = 1 − α O limite superior para um intervalo unilateral de 100(1-α)% é definido calculando-se o valor tal que: Eq 87: INTERVALO DE CONFIANÇA PARA A MÉDIA, VARIÂNCIA CONHECIDA P{µ ≤ U } = 1 − α Seja X uma variável aleatória qualquer que siga a distribuição Normal X → N(µ, σ) e seja x1, ..., xn uma amostra aleatória desse processo. A partir do teorema do limite central, sabe-se que a distribuição da média segue a distribuição Normal. Mais ainda, para n suficientemente grande este resultado é válido mesmo que a distribuição de origem não seja Normal. Seja que uma variável aleatória X tenha média desconhecida e variância conhecida. E seja que amostras dessa população apresentem média igual a X , conforme Figura 29. 56 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS µ Figura 29 - Distribuição amostral das médias Distribuição amostral de x Amostra 1 x1-1,96σx x1+1,96σx x1 Amostra 2 x2 Amostra 3 x3 Como pode-se observar na Figura 29, para obter-se um intervalo de confiança de 95% (1-α = 0,95, α = 0,05), ou seja, 95% dos intervalos, construídos a partir das amostras coletadas, contenham o verdadeiro parâmetro populacional, é preciso gerar um intervalo cuja amplitude contenha 95% das possíveis amostras coletadas. Ou seja, um intervalo proporcional a ± Zα / 2 σ n , onde Zα / 2 neste caso é Z 0,025 =1,96. α/2 Figura 30 - Intervalo de confiança de 95%. α/2 µ -1,96 +1,96 O intervalo bilateral de confiança de 100(1-α)% para µ é: Eq 88: X − Zα / 2 σ n ≤ µ ≤ X + Zα / 2 σ n Observa-se que, para n suficiente grande, as médias seguem a ( ) distribuição Normal X → N µ ,σ / n independentemente da distribuição original de X. Consequentemente, a Eq 88 é o intervalo de confiança para a média de observações que apresentam uma distribuição de origem qualquer. Estatística Industrial 6. Estimativa de parâmetros 57 A variabilidade do tempo de atendimento em um caixa bancário é conhecida σ = 0,10 min. Uma amostragem com 20 pessoas indicou tempo médio de atendimento de X = 1,5 min . Construa um intervalo de confiança de 95% para o tempo médio de atendimento. Exemplo 1 σ X − Zα / 2 1,5 − 1,96 1,5 − 1,96 ≤ µ ≤ X + Zα / 2 n 0,10 ≤ µ ≤ 1,5 + 1,96 20 0,10 ≤ µ ≤ 1,5 + 1,96 20 σ n 0,10 20 0,10 20 1,46 ≤ µ ≤ 1,54 Um intervalo unilateral de 100(1-α)% com limite superior é estabelecido a partir de: Eq 89: µ ≤ X + Zα σ n Um intervalo unilateral de 100(1-α)% com limite inferior é: Eq 90: ERRO DE ESTIMAÇÃO X − Zα σ n ≤µ O intervalo de confiança bilateral tem a forma X ± Z α / 2 σ n . Aumentando a amplitude do intervalo, aumenta-se o nível de confiança do intervalo, no entanto, aumenta-se o erro máximo de estimação que é o valor absoluto da diferença entre o parâmetro amostral ( X ) e o parâmetro populacional µ, representado como ε = X − µ . Como o intervalo de confiança tem centro na média amostral, o erro máximo é igual a metade da amplitude do intervalo. Como X ± Z α / 2 σ n Onde erro: e = Z α / 2 , pode-se escrever X ± erro σ n Para determinar o tamanho da amostra mínimo para estimar um parâmetro populacional, basta isolar o valor de n na equação acima. 58 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 91: σ n = Zα / 2 e 2 Como pode ser visto, o tamanho da amostra dependerá: - grau de confiança desejado; - dispersão na população σ; - valor especificado para o erro tolerável. Qual o tamanho da amostra necessário para estimar a média populacional de uma característica dimensional de um processo cujo desvio-padrão σ = 3 cm, com 95% de confiança e precisão de 0,5 cm ? Exemplo 2 α = 0,05 ==> zα/2 = 1,96; σ = 3,0 cm; e = 0,5 cm? 2 1,96 × 3,0 n= = 138,3 0,5 Logo, são necessários n = 139 peças INTERVALO DE CONFIANÇA PARA A MÉDIA, VARIÂNCIA DESCONHECIDA Outra distribuição muito útil é a distribuição de Student t. Sejam X e χ 2 variáveis aleatórias independentes normal-padronizada e quiquadrada. Então, a variável: Eq 92: tk = X χ k2 / k Segue a distribuição t com k graus de liberdade. Sua função densidade de probabilidade é: Γ[(k + 1) / 2] t 2 f ( t ) = + 1 Eq 93: kπ Γ(k/2) k −∞<t < ∞ − (k +1) / 2 Estatística Industrial 6. Estimativa de parâmetros 59 Figura 31 - Distribuição de Student t. Exemplo de uso da distribuição t: Exemplo 3 Seja X → N ( µ , σ ) ; X −µ Eq 94: X − µ = σ / n = S /σ S/ n X1, ..., Xn uma amostra aleatória. Então: N (0,1) χ n2−1 / (n − 1) Ou seja, Eq 95: X −µ S/ n ≈t De forma que a distribuição t é a base para inferências a respeito de X quando σ2 não é conhecido. Seja X uma variável aleatória Normal com média e variância desconhecidas. Se uma amostra de n valores indica média X e variância S2, o intervalo de confiança de 100(1-α)% é calculado usandose a distribuição de Student t. Eq 96: X − tα / 2, n −1 S S ≤ µ ≤ X + tα / 2, n −1 n n Os intervalos unilaterais de confiança de 100(1-α)% com limites superior e inferior são respectivamente: Exemplo 2 Eq 97: µ ≤ X + tα , n −1 Eq 98: X − tα , n −1 S n S ≤µ n A quantidade mensal de produtos entregues por uma empresa segue uma 60 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS distribuição Normal com média e variância desconhecidas. Analise os dados a seguir, que representam uma amostra de 20 meses e construa um intervalo de 95% para a média. 17,4 18,2 18,3 18,8 19,0 19,2 19,3 19,6 19,6 19,9 20,2 20,2 20,5 20,7 20,9 21,0 21,3 21,5 21,9 22,6 X = 20,01 S = 1,34 t0,025;19 = 2,093 20,01 − 2,093 1,34 1,34 ≤ µ ≤ 20,01 + 2,093 20 20 ou 19,38 ≤ µ ≤ 20,64 Exemplo 4 A empresa pode estar preocupada exclusivamente com a quantidade mensal de produtos entregues muito baixa. Construa um intervalo de confiança unilateral com 95% de confiança no limite inferior. t 0,05;19 = 1,729 20,01 − 1,729 Exemplo 5 1,34 20 ≤µ 19,49 ≤ µ ou Qual o tamanho da amostra necessário para estimar a média populacional de uma característica dimensional de um processo com 95% de confiança e precisão de 0,5cm ? Sem conhecimento da variabilidade populacional, estima-se o desviopadrão populacional através de uma amostra piloto. A partir de uma amostra de 20 peças, calculou-se o desvio-padrão S. 7 11 12 11 13 8 15 8 11 16 10 12 9 6 11 10 11 10 12 9 Como a variabilidade não é previamente conhecida, mas calculada a partir da amostra, usa-se a distribuição Student t. α = 0,05 ==> t0.025,19 = 2,093 e = 0,5 cm, S=2,45 2 2 tα / 2,n −1S 2,093x 2,46 = n = = 106 e 0,5 Logo é necessário coletar mais 86 (106-20) peças. Sejam X1 e X2 duas variáveis aleatórias com médias µ1 e µ2 INTERVALO DE CONFIANÇA PARA A desconhecidas e variâncias ∂ 1 e ∂ 2 conhecidas. Um intervalo de DIFERENÇA ENTRE DUAS confiança 100(1-α)% para a diferença entre as médias pode ser MÉDIAS, VARIÂNCIA Estatística Industrial 6. Estimativa de parâmetros CONHECIDA 61 construído a partir dos resultados de amostras aleatórias de cada uma dessas populações. Pode ser demonstrado que a variância das diferenças entre as médias vem dada por: Eq 99: σ 12 2 σ + 2 n1 n2 σ2 = Assim o intervalo de confiança bilateral de 100(1-α)% será: Eq 100: ( X 1 − X 2 ) − Z α / 2σ ≤ ( µ1 − µ 2 ) ≤ ( X 1 − X 2 ) + Z α / 2σ E os correspondentes intervalos unilaterais serão: Eq 101: INTERVALO DE CONFIANÇA PARA A DIFERENÇA ENTRE DUAS MÉDIAS, VARIÂNCIA DESCONHECIDA Eq 102: (µ1 − µ 2 ) ≤ (X 1 − X 2 ) + Zα σ (µ1 − µ 2 ) ≥ (X 1 − X 2 ) − Zα σ Sejam X1 e X2 duas variáveis aleatórias Normais com médias µ1 e µ2 e variâncias σ 12 e σ 2 2 desconhecidas. Se for possível assumir que as variâncias sejam iguais, ou seja, σ 12 = σ 2 2 , uma estimativa da variância pode ser obtida como: 2 Sp = (n1 − 1)S12 + (n 2 − 1)S 2 2 n1 + n 2 − 2 Uma vez encontrada a estimativa da variância dos valores individuais, pode ser demonstrado que a estimativa da variância da diferença entre as médias será: Eq 103: S p2 S p2 = S 2 1 + 1 S2 = + p n1 n2 n1 n 2 com graus de liberdade v = n1 + n2 − 2 . De modo que o intervalo de confiança bilateral 100(1-α)% será: Eq 104 ( X 1 − X 2 ) − tα / 2,ν S ≤ ( µ1 − µ 2 ) ≤ ( X 1 − X 2 ) + tα / 2,ν S Os correspondentes intervalos de confiança unilaterais serão: Eq 105 Exemplo 6 (µ1 − µ 2 ) ≤ (X 1 − X 2 ) + tα ,ν S (µ1 − µ 2 ) ≥ (X 1 − X 2 ) − tα ,ν S Um eixo deve ser montado no interior de um rolamento. Uma amostra de doze unidades indicou para o diâmetro interno do rolamento X 1 = 2,538cm e S1 = 0,008 ; e para o diâmetro do eixo X 2 = 2,520cm e S 2 = 0,006 . Calcule o intervalo de confiança de 62 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS 99% para a folga de montagem. Solução: Supondo variâncias iguais têm-se: S p2 = (11)0,008 2 + (11)0,006 2 12 + 12 − 2 = 0,000050 1 1 S = S p 2 + = 0,00289 12 12 ν = 12 + 12 − 2 = 22 t 0,005;22 = 2,82 Assim o intervalo de confiança de 99% para a folga média resulta: (2,538 − 2,52) − 2,82(0,00289) ≤ folga ≤ (2,538- 2,52) + 2,82(0,00289) 0,00986 ≤ folga ≤ 0,026 INTERVALO DE CONFIANÇA PARA A DIFERENÇA ENTRE OBSERVAÇÕES No caso em que se deseja comparar dois sistemas é possível, e ás vezes necessário, trabalhar com a diferença entre as observações. Por exemplo, para comparar dois métodos de tratamento contra corrosão, pode-se escolher diversos blocos de terreno, colocar dois tubos (de marcas diferentes ) em cada bloco e observar as diferenças. Seja X1 os resultados do sistema 1; X2 os resultados do sistema 2; d = X 1 − X 2 , as diferenças medidas bloco a bloco. A partir dos resultados de n blocos, calcula-se d e Sd e usa-se a distribuição Student t para construir o intervalo de confiança para a média da diferença µd : Eq 106 S S d − tα / 2 d ≤ µ d ≤ d + tα / 2 d n n Se o valor zero estiver contido neste intervalo, então, não pode ser descartada a hipótese que o desempenho dos dois sistemas seja o mesmo. Uma empresa quer verificar se o conhecimento de seus alunos a respeito de um determinado assunto melhorou após 30 horas de treinamento. Para isso foi realizado com os quinze alunos do treinamento um teste antes e após o treinamento. Os dados a seguir representam as notas obtidas pelos alunos. Conclua a respeito da eficiência do treinamento com 95% de confiança. Exemplo 7 Alunos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Antes 6,5 6,7 7,0 7,0 6,5 7,3 7,8 6,9 6,7 7,2 7,5 7,5 7,2 7,0 6,8 Estatística Industrial 6. Estimativa de parâmetros 63 Depois 7,5 7,7 7,9 8,0 7,4 8,3 8,8 8,9 7,7 8,2 8,5 8,5 8,2 8,0 8,8 Difer. 1,0 1,0 0,9 1,0 0,9 1,0 1,0 2,0 1,0 1,0 1,0 1,0 1,0 1,0 2,0 d = 1,12 S d = 0,36 t0,025;14 = 2,145 1,12 − 2,145 0,36 0,36 ≤ µ ≤ 1,12 + 2,145 15 15 ou 0,92 ≤ µ d ≤ 1,32 Como o valor zero não está incluído no intervalo, rejeita-se a hipótese de que as notas antes e depois sejam as mesmas, logo conclui-se que o treinamento foi eficiente. INTERVALO DE CONFIANÇA PARA A VARIÂNCIA Outra distribuição importante, definida a partir da distribuição Normal é a distribuição do Qui-quadrado χ 2 . Seja X → N(0, 1) E seja x1, ..., xn uma amostra aleatória deste processo. Então, a variável aleatória Eq 107: χ n2 = x12 + x22 + ....... + xn2 Distribui-se de acordo com a distribuição do χ 2 , cuja função densidade de probabilidade é: Eq 108: f (χ 2 ) = 1 n 2 n / 2 Γ 2 2 ( χ 2 ) ( n / 2 ) −1 e − χ / 2 χ2 > 0 É uma distribuição assimétrica à direita, com Média e Variância dadas por: Eq 109: µ=n Eq 110: σ 2 = 2n 64 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 32 - Distribuição do Qui2 quadrado χ . Exemplo do uso da distribuição do χ 2 : Seja X → N ( µ , σ ) ; x1, ..., xn uma amostra aleatória. Então: n Eq 111: ∑ (X i − X ) 2 i =1 σ ≈ χ n2−1 2 ou ( n − 1) S 2 σ 2 ≈ χ n2−1 Ou seja, a distribuição χ 2 é a base para inferências a respeito da variância σ2. Suponha que X é uma variável aleatória Normal com média e variância desconhecidas. Seja que a variância amostral S2 é computada para uma amostra de n observações. Então, um intervalo bilateral de confiança 100(1-α)% é obtido usando-se a distribuição do qui-quadrado: Eq 112: (n − 1)S 2 χ 2α / 2,n −1 ≤σ 2 ≤ (n − 1)S 2 χ 21−α / 2,n −1 No caso do interesse residir em intervalos unilaterais de 100(1-α)% teremos: Limite inferior: Eq 113: σ2≥ (n − 1)S 2 χ 2α , n −1 Limite superior: Eq 114: Exemplo 8 σ2 ≤ (n − 1)S 2 χ 21−α , n −1 Ache o intervalo de 95% para a variância no exemplo da quantidade Estatística Industrial 6. Estimativa de parâmetros mensal de produtos entregues. S 2 = 1,34 2 = 1,80 X 2 0,025;19 = 32,85 ; X 2 0,975;19 = 8,91 19(1,80 ) 19(1,80 ) ≤σ 2 ≤ 32,85 8,91 1,04 ≤ σ 2 ≤ 3,84 INTERVALO DE CONFIANÇA PARA O QUOCIENTE ENTRE DUAS VARIÂNCIAS Eq 115: 1,02 ≤ σ ≤ 1,96 ou Se χ u2 e χ v2 são duas variáveis aleatórias independentes com distribuição do Qui-quadrado, a razão: Fu, v = χ u2 / u χ v2 / v irá seguir a distribuição F com u, v graus de liberdade. A função densidade de probabilidade para F é: u/2 u + v u Γ 2 v Eq 116: f ( F ) = u v Γ Γ 2 2 F (u / 2 ) − 1 = u v F + 1 (u + v ) / 2 Exemplo de uso da distribuição F Seja X 1 → N ( µ1 , σ 1 ) e X 2 → N ( µ 2 , σ 2 ) ; Se S1 e S2 são variâncias amostrais, medidas em amostras de tamanho n1 e n2, teremos: Eq 117: S12 / σ 12 S 22 / σ 22 ≈ Fn1 −1, n 2 −1 Assim, a distribuição F pode ser usada para fazer inferências sobre a variância de duas distribuições Normais 65 66 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 33 - Distibuição F Para comparar duas variâncias, σ 12 e σ 2 2 , oriundas de populações com distribuição Normal, é vantajoso trabalhar com o quociente σ 12 / σ 2 2 , uma vez que este se distribui conforme a distribuição F. O intervalo de confiança para este quociente virá dado por: Eq 118: S1 2 S22 Onde F1−α / 2;n1−1;n2 −1 ≤ σ 12 σ 22 ≤ S1 2 S22 Fα / 2;n1−1;n2 −1 são os pontos percentuais da distribuição F com u e v Fα ,u ,v { } graus de liberdade, tais que P F ≥ Fα , u, v = α . Se o valor 1 estiver contido neste intervalo, então não pode ser descartada a hipótese de que a variância das duas populações seja a mesma. Os respectivos intervalos unilaterais serão dados por: Limite inferior: Eq 119: σ 12 S 2 ≥ 1 F1−α ; n1 −1; n 2 −1 σ 22 S22 Limite superior: Eq 120: σ 12 σ 22 ≤ S1 2 S2 2 Fα ;n1−1;n2 −1 As tabelas da distribuição F costumam fornecer apenas os valores de Fα , mas F1−α pode ser obtido a partir da seguinte relação: Eq 121: Exemplo 9 1 F1 − α , u, v = Fα , v, u Os valores a seguir representam os tempos de produção de duas máquinas. Analise os dados e conclua a respeito da variabilidade das Estatística Industrial 6. Estimativa de parâmetros 67 máquinas A e B: A 91,0 90,3 90,2 92,1 91,8 91,3 89,3 91,0 B 91,8 91,2 89,4 89,2 90,7 92,6 91,3 91,2 91,2 89,6 2 Máquina A: S1 = 0,8307 2 Máquina B: S 2 = 1,316 F0,025;9,7 = 4,82 F0,975;9,7 = 1 F0,025;7,9 = 1 = 0,238 4,20 σ 12 0,8307 0,8307 (0,238) ≤ 2 ≤ (4,82 ) 1,316 1,316 σ2 2 σ 0,1502 ≤ 1 ≤ 3,0425 σ 22 O intervalo inclui o valor 1, assim não pode ser descartada a hipótese de que a variabilidade das duas máquinas seja a mesma. Além de servir para a comparação direta de duas variâncias, a distribuição F é a chave para a comparação de vários grupos, o que é feito usando o procedimento conhecido como Análise de Variância. Esse assunto será abordado em um capítulo posterior. INTERVALO DE CONFIANÇA PARA O PARÂMETRO DA BINOMIAL A variável aleatória X com função de probabilidade: p P( x ) = (1 − p ) = q x =1 x=0 é chamada uma variável do tipo Bernoulli. Cada observação dessa variável é chamada uma observação de Bernoulli. Uma seqüência de observações é chamada um processo de Bernoulli. Seja que uma amostra de n observações, x1,...xn , é extraída de um processo de Bernoulli, com probabilidade de sucesso constante igual a p. Então, a soma das observações seguirá o modelo Binomial com parâmetros n e p. Além disso, como cada xi pode ser 0 ou 1, a média 1 n Eq 122: X = ∑ x i n i =1 será uma variável discreta contida no espaço {0, 1/n, 2/n,...,1}. A distribuição de X pode ser obtida a partir da Binomial, uma vez que: 68 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 123: P{X ≤ a} = P{X ≤ na} = [an ] ∑ (nk )p k (1 − p )n − k k =0 onde [an] é o maior inteiro menor que an. A média e a variância de são: Eq 124: µX = p Eq 125: σ2 = X X p (1 − p ) n Intervalos de confiança para proporções, por exemplo, fração de não conformes em um processo, podem ser estabelecidos utilizando-se a distribuição Binomial. Se n é grande (n ≥ 30) e p ≥ 0,1, então a aproximação Normal para a Binomial pode ser usada, resultando no seguinte intervalo de confiança de 100(1-α)%: Eq 126: p − zα / 2 p (1 − p ) p (1 − p ) ≤ π ≤ p + zα / 2 n n Se n é pequeno, o problema deve ser resolvido usando tabelas da distribuição Binomial. Se p é pequeno, é possível usar a distribuição de Poisson. Exemplo 10 Um empresário deseja conhecer a satisfação de seus clientes em relação aos serviços prestados por sua empresa. Em uma amostra aleatória de n=100 clientes entrevistados, 4 pessoas demonstraram insatisfação com os serviços prestados. Construa um intervalo de 95% de confiança para a proporção de clientes insatisfeitos. p − zα / 2 0,04 − 1,96 p (1 − p ) p (1 − p ) ≤ π ≤ p + zα / 2 n n 0,04(1 − 0,04 ) 0,04(1 − 0,04 ) ≤ π ≤ 0,04 + 1,96 100 100 0,03 ≤ π ≤ 0,05 Exemplo 11 O fornecedor alega que entrega 10% de produtos defeituosos. Qual o tamanho de amostra suficiente para estimar a proporção de produtos defeituosos entregues por este fornecedor com precisão de 0,03 e 95% de confiança? Solução: α = 0,05 ==> z0,025 = 1,96; p = 0,10; e = 0,03 Como deseja-se estimar uma variável do tipo percentual, utiliza-se a Estatística Industrial 6. Estimativa de parâmetros 69 distribuição Binomial. n= Zα2 2 × p (1 − p ) e2 n= 1,96 2 × 0,10 × (1 − 0,10) 0,032 = 384,16 Logo, é necessário uma amostra de 385 produtos. Quando não se conhece o percentual p, usa-se p=0,5, pois requer o maior tamanho da amostra. Exercícios Exercício 6.1 O tempo de atendimento em um restaurante apresenta variância σ 2 = 0,0015 . Uma amostra aleatória de 12 mesas indicou tempo médio de atendimento de X = 12,258min . Construa um intervalo de 95% de confiança para o tempo médio de atendimento no restaurante. Exercício 6.2 Exercício 6.3 Recalcule o intervalo de confiança para o exercício 6.1, supondo que a variância não fosse conhecida e o valor S 2 = 0,0015 tivesse sido medido diretamente na amostra. O peso de frangos apresenta variância conhecida igual a σ2=900g. Uma amostra aleatória de 20 unidades indica X = 508g . Construa um intervalo com 90% de confiança para o peso médio desses frangos. Exercício 6.4 Exercício 6.5 Em um processo, as características dimensionais do produto resultante segue o modelo normal. A partir da amostra apresentada a seguir, defina o limite inferior de um intervalo unilateral de 95% de confiança para a característica dimensional média. 35.2 36.7 37.5 38.2 38.7 39.5 36.3 37.3 37.8 38.3 39.3 40.1 Uma máquina é usada para encher pacotes de leite. O volume segue aproximadamente o modelo normal. Uma amostra de 16 potes indicou: 1021 1016 1012 1011 1014 1018 1022 1027 1008 1015 1013 1013 1017 1019 1007 1003 a) construa um intervalo unilateral de 99% com limite inferior para a média; b) construa um intervalo de 95% para a média; Exercício 6.6 Considere os dados do exercício 6.4. Construa um intervalo de 90% para a variância da característica dimensional. Depois converta esse intervalo e apresente-o em termos de desvio-padrão. Exercício 6.7 Considere os dados do exercício 6.5. Construa um intervalo de 95% para o desvio-padrão do volume dos pacotes de leite. 70 6. Estimativa de parâmetros José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Exercício 6.8 Ainda em relação ao problema 6.5. Imagine que há uma segunda máquina de enchimento para a qual uma amostra de 16 pacotes indicou: 1011 1015 1017 1015 1021 1021 1010 1007 1022 1018 1016 1015 1020 1022 1025 1030 Construa um intervalo de 95% para a diferença entre as duas médias das máquinas. Baseado nos resultado desses cálculos você concluiria que as duas máquinas fornecem mesmo volume médio? Exercício 6.9 Em uma indústria química, os engenheiros desejam saber se o alongamento de um composto de borracha permanece inalterado ao passar por uma máquina extrusora. Como o alongamento do composto depende do lote de matéria prima usado na sua confecção, os dados foram coletados aos pares. Construa um intervalo de confiança para a diferença entre os pares de observações: Lote 1 2 3 4 5 6 7 8 9 10 Antes 360 370 380 345 365 380 390 395 385 410 Depois 360 365 355 340 350 370 390 375 375 395 Exercício 6.10 Em relação ao problema anterior, calcule o quociente entre as variâncias dos alongamentos medidos antes e depois do composto passar pela extrusora. Depois construa um intervalo de confiança para esse quociente. Exercício 6.11 Uma amostra aleatória de 250 dispositivos eletrônicos apresentou 27 unidades defeituosas. Estime a fração de não conformes e construa um intervalo de 95% de confiança para o verdadeiro valor da fração de não conformes. Exercício 6.12 Qual o tamanho da amostra necessário para estimar o tempo médio de atendimento de um serviço com desvio-padrão conhecido de σ=3 min com 95% de confiança e precisão de 0,2 min? Exercício 6.13 Qual o tamanho da amostra necessário para estimar o tempo médio de atendimento de um serviço com 95% de confiança e precisão de 0,2 min? Uma amostra de 20 tempos foi coletada para estimar o desviopadrão S. Exercício 6.14 8 10 12 11 13 8 15 8 11 14 12 12 9 7 12 10 11 10 12 8 Em uma pesquisa eleitoral, 60 das 180 pessoas entrevistadas responderam que votariam no candidato da oposição. Essa amostra é suficiente para estimar a verdadeira proporção de eleitores desse candidato, com uma precisão de 0,04 e confiança 95%? 7 Testes de hipótese José Luis Duarte Ribeiro Carla ten Caten COMENTÁRIOS INICIAIS Uma hipótese estatística é uma afirmativa a respeito de um parâmetro de uma distribuição de probabilidade. Por exemplo, podemos formular a hipótese que a produtividade 2,5 peças/hora. Formalmente isso é escrito como: H 0 : µ = 2,5 peças/hora H1 : µ ≠ 2,5 peças/hora Ho é chamada de hipótese nula e H1 de hipótese alternativa. Nesse caso, a alternativa formulada é bilateral, mas também podem ser estabelecidas alternativas unilaterais, tais como: H 0 : µ = 2,5 peças / hora H1 : µ < 2,5 peças/hora Os testes de hipótese são uma das aplicações da estatística mais usadas. Via de regra, a hipótese nula é feita com base no comportamento passado do produto/processo/serviço, enquanto a alternativa é formulada em função de alterações/inovações recentes. No ambiente atual de melhoria contínua, é fácil entender a importância dos testes de hipótese, eles permitem confirmar a eficácia das medidas de melhoria adotadas. Ao testar a hipótese, toma-se uma amostra aleatória do sistema em estudo e se calcula a estimativa desejada. Conforme o valor da estimativa, a hipótese nula será aceita ou rejeitada, a partir de procedimentos estatísticos. Ao testar uma hipótese, há dois tipos de erros que podemos cometer: α = P {rejeitar Ho/Ho é verdadeira} = erro do tipo I β = P {aceitar Ho/Ho é falsa} = erro do tipo II O procedimento usual é fixar o valor de α e verificar o valor de β. O risco β é uma função do tamanho da amostra, e é controlado indiretamente. Quanto maior o tamanho da amostra, menor será o risco β. Na seqüência os seguintes pontos serão cobertos: - Comparação de médias, variância conhecida; 72 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS - Comparação de médias, variância desconhecida; - Comparação de pares de observações; - Comparação de variâncias; - Comparação dos parâmetros da Binomial. COMPARAÇÃO DE MÉDIAS, VARIÂNCIA CONHECIDA Suponha que X é uma variável aleatória com média µ desconhecida e 2 variância σ conhecida. E queremos testar a hipótese que a média é igual a um certo valor especificado µ0. O teste de hipótese pode ser formulado como segue: Eq 127: H o : µ = µ0 H1 : µ ≠ µ 0 Para testar a hipótese, toma-se uma amostra aleatória de n observações e se calcula a estatística Eq 128: Zo = X − µo σ/ n Note que o teste é feito usando-se σ / n no denominador, uma vez que esse é o desvio padrão da média. A hipótese Ho é rejeitada se Z 0 > Zα / 2 onde Z α / 2 é um valor limite da distribuição normal reduzida tal que a probabilidade de se obter valores externos a ± Z α / 2 é α. Ou seja, a probabilidade do valor Zo acontecer segundo a hipótese nula é menor do que α , logo rejeita-se a hipótese nula Ho. Assim, se X resultar próximo de µo , ou seja, Z o ≤ Z a / 2 , a hipótese Ho é aceita; caso contrário, se X resultar longe de µ o , ou seja, Z o > Z a / 2 , a hipótese Ho é rejeitada. Exemplo 1 Um processo deveria produzir mesas com 0,85 m de altura. O engenheiro desconfia que as mesas que estão sendo produzidas são diferentes que o especificado. Uma amostra de 8 mesas foi coletada e indicou X = 0,84 m . Sabendo que o desvio padrão é σ = 0,010 m, teste a hipótese do engenheiro usando um nível de significância α=0,05. Solução: H o : µ = 0,850 H1 : µ ≠ 0,850 Zo = 0,847 − 0,850 0,010 / 8 = −0,85 Z o = −0,85 > − Z 0,025 = −1,96 ou Z o = 0,85 < Z 0,025 = 1,96 ⇒ Estatística Industrial 7. Testes de hipótese 73 Ho não pode ser rejeitada α/2 α/2 µ =0,850 Zα / 2 = -1,96 Zα / 2 = +1,96 Z 0 ≤ Zα / 2 Z 0 > Zα / 2 Figura 34 - Teste de hipótese para o exemplo 7.1 Rejeita Ho Aceita Ho Z 0 > Zα / 2 Rejeita Ho Em alguns casos, o objetivo pode ser rejeitar Ho somente se a verdadeira média for maior que µo. Assim, a hipótese alternativa unilateral será H 1 : µ > µ o , e a hipótese nula será rejeitada somente se Z o > Z α . Se o objetivo for rejeitar Ho somente quando a verdadeira média for menor que µo, a hipótese alternativa será H 1 : µ < µ o , e a hipótese nula será rejeitada somente se Z o < − Z α ou Z o > Z α . Quando há duas populações com médias desconhecidas, digamos µ o e µ 1 e variâncias conhecidas, σ 12 e σ 22 , o teste para verificar a hipótese que as médias sejam iguais é o seguinte: Eq 129: H o : µ1 = µ 2 H 1 : µ1 ≠ µ 2 Nesse caso, a partir de uma amostra aleatória de n1 observações da população 1 e n2 observações da população 2, calcula-se: Eq 130 Zo = X1 − X 2 σ 12 n1 + σ 22 n2 E Ho é rejeitada se Z 0 > Zα / 2 , ou seja, a probabilidade do valor Zo acontecer segundo a hipótese nula é menor do que α , logo rejeita-se a hipótese nula Ho. No caso da alternativa unilateral H 1 : µ1 > µ 2 , a hipótese nula Ho será rejeitada quando Z o > Z α . E se a alternativa unilateral for H1 : µ1 < µ 2 , a hipótese Ho será rejeitada quando resultar Z o < − Z α ou Z o > Z α . Hipótese Tabela 7 - Teste de médias, variância Estatística Critério para rejeitar Ho 74 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS conhecida H o : µ = µ0 Z 0 > Zα / 2 H1 : µ ≠ µo H o : µ = µ0 Zo = H1 : µ > µo X − µo Z o > Zα σ/ n Z o < − Z α ou H o : µ = µ0 H1 : µ < µo Z o > Zα H o : µ1 = µ 2 H 1 : µ1 ≠ µ 2 H o : µ1 = µ 2 H 1 : µ1 > µ 2 H o : µ1 = µ 2 H 1 : µ1 < µ 2 COMPARAÇÃO DE MÉDIAS, VARIÂNCIA DESCONHECIDA Z 0 > Zα / 2 Zo = X1 − X 2 σ 12 2 σ + 2 n1 n 2 Z o > Zα Z o < − Z α ou Z o > Zα Suponha que X é uma variável aleatória Normal com média µ e variância σ 2 desconhecidas. Para testar a hipótese que a média é igual a um valor especificado µo, formulamos: H o : µ = µ0 H1 : µ ≠ µo Esse problema é idêntico aquele da seção anterior, exceto que agora a variância é desconhecida. Como a variância é desconhecida, é necessário fazer a suposição adicional que a variável tenha distribuição Normal. Essa suposição é necessária para poder desenvolver a estatística do teste; contudo, os resultados ainda serão válidos se o afastamento da normalidade não for forte. Como σ 2 não é conhecido, usa-se a distribuição de Student-t para construir a estatística do teste: Eq 131: to = X − µo S/ n E a hipótese nula H o : µ = µ 0 é rejeitada se t 0 > tα / 2,n −1 onde t é um valor limite da distribuição de Student-t tal que a probabilidade de se obter valores externos a t α / 2 é α. α/2 A Tabela 8 mostra os testes apropriados para os casos de hipóteses Estatística Industrial 7. Testes de hipótese 75 unilaterais. Um empresário desconfia que o tempo médio de espera para atendimento de seus clientes é superior a 20 minutos. Para testar essa hipótese ele entrevistou 20 pessoas e questionou quanto tempo demorou para ser atendido. O resultado dessa pesquisa aparece a seguir: Exemplo 2 22 20 21 23 22 20 23 22 20 24 21 20 21 24 22 22 23 22 20 24 Solução: H o : µ = 20 min H1 : µ > 20 min X = 21,8 min S = 1,40 min to = X − µo 21,8 − 20 = = 5,75 S/ n 1,40 / 20 t0 = 5,75 > t0,05,19 = 1,729 Rejeita-se Ho Quando há duas populações normais com médias µ1 µ 2 e variâncias σ 12 σ 22 desconhecidas, as hipóteses para testar se as médias são iguais são as seguintes: H o : µ1 = µ 2 H 1 : µ1 ≠ µ 2 O procedimento do teste irá depender se σ 12 = σ 22 . Se essa suposição for razoável, então calcula-se a variância combinada: Eq 132: S 2p = (n1 − 1)S12 + (n2 − 1)S22 n1 + n 2 − 2 E a seguir calcula-se a estatística Eq 133: t0 = x1 − x 2 1 1 Sp + n1 n 2 Ho será rejeitada se t 0 > tα / 2,n + n − 2 . Os testes unilaterais 1 2 correspondentes aparecem na Tabela 8. 76 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Um engenheiro desconfia que a qualidade de um material pode depender da matéria-prima utilizada. Há dois fornecedores de matéria-prima sendo usados. Testes com 10 observações de cada fornecedor indicaram: X 1 = 39 , S1 = 7 , X 2 = 43 , S 2 = 9 . Use um nível de significância α = 0,05 e teste a hipótese do engenheiro. Exemplo 3 Solução: H o : µ1 = µ 2 H 1 : µ1 ≠ µ 2 Supondo σ 12 = σ 22 temos: S 2p ( 9 )7 2 + (9)9 2 = = 65 ⇒ S p = 8,06 t0 = 10 + 10 − 2 39 − 43 1 1 8,06 + 10 10 = −1,11 t 0 = 1,11 < t 0,025;18 = 2,101 ⇒ Ho não pode ser rejeitada Se houver evidências que σ 12 ≠ σ 22 , então a estatística a ser usada é: t0 = Eq 134: x1 − x 2 S12 S 22 + n1 n 2 e o número de graus de liberdade para t é calculado de forma aproximada: Eq 135: 2 [ ( S12 / n1 ) + ( S 22 / n 2 )] ν= ( S12 / n1 ) 2 ( S 22 / n 2 ) 2 + n1 + 1 n2 + 1 −2 Ho será rejeitada se t0 > tα / 2,ν . Os testes unilaterais correspondentes aparecem na Tabela 8. Tabela 8 - Teste de médias, variância Hipótese Estatística Critério para rejeitar Ho Estatística Industrial 7. Testes de hipótese desconhecida H o : µ = µ0 H1 : µ ≠ µo H o : µ = µ0 H1 : µ > µo 77 t0 > tα / 2,n −1 to = X − µo S/ n t o > tα ,n −1 H o : µ = µ0 H1 : µ < µo t o < −tα ,n −1 ou to > tα , n −1 H o : µ1 = µ 2 H 1 : µ1 ≠ µ 2 t0 = x1 − x 2 1 1 Sp + n1 n 2 t 0 > tα / 2,ν ν = n1 + n 2 − 2 H o : µ1 = µ 2 H 1 : µ1 > µ 2 H o : µ1 = µ 2 H 1 : µ1 < µ 2 COMPARAÇÃO DE PARES DE OBSERVAÇÕES to = X1 − X 2 S12 S 22 + n1 n 2 [ ( S12 / n1 ) + ( S 22 / n ν= ( S12 / n1 ) 2 ( S 22 / + n1 + 1 n2 t o > t α ,ν to < −tα ,ν ou to > tα ,ν Em algumas situações os dados de duas populações são coletados e comparados em pares. Isso é feito para impedir que fatores não controláveis inflacionem as estimativas das variâncias. A hipótese testada é se existe diferenças significativas entre pares de observações. H o : µd = 0 H1 : µ d ≠ 0 O teste baseia-se na estatística: Eq 136: t= d Sd / n onde: dé a diferença entre os pares de observações. Sdé o desvio-padrão das diferenças entre os pares de observações 78 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS né o número de pares de observações Ho será rejeitada se t0 > tα / 2, n −1 . Exemplo 7.4 Duas espécies de um certo tipo de cereal estão sendo testadas quanto ao seu crescimento. O experimento foi feito escolhendo 10 blocos de terreno e plantando em cada bloco mudas de ambas as espécies. Os resultados a seguir são as alturas medidas ao final do primeiro mês. Usando-se α = 0,05 Terreno 1 2 3 4 5 6 7 8 9 10 Espécie 1 22 27 18 33 25 21 15 33 21 24 Espécie 2 21 31 24 32 29 23 19 37 22 27 Os dados deste experimento foram coletados aos pares para impedir que as diferenças de fertilidade entre os blocos de terreno (que podem ser grandes) mascarem os resultados. Solução: H o : µd = 0 H1 : µ d ≠ 0 A análise é feita computando a média e o desvio-padrão da diferença: d = (1 − 4 − 6 + 1 − 4 − 2 − 4 − 4 − 1 − 3) / 10 = −2,6 S d = 2,32 t= − 2,6 2,32 10 = −3,54 como t = 3,54 > t 0,025;9 = 2,262 , a hipótese nula H 0 : µ d = 0 é rejeitada. COMPARAÇÃO DE VARIÂNCIAS Os testes descritos a seguir assumem que as distribuições das variáveis aleatórias sigam o modelo Normal. Se essa suposição é violada, o teste deixa de ser exato. Uma hipótese testada com freqüência é que a variância tenha um valor especificado σ 20 : H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02 A estatística para o teste é: Estatística Industrial 7. Testes de hipótese Eq 137: χ 02 = 79 (n − 1)S 2 σ 02 onde S2 é o valor da variância medida para uma mostra aleatória de n observações. A hipótese nula é rejeitada se χ 02 ultrapassar os limites inferior e superior da distribuição do Qui-quadrado, mais especificamente, se χ02 > χ 2 α / 2;n −1 ou se χ 02 < χ 2 1−α / 2;n −1 . Testes unilaterais também podem ser formulados. A Tabela 9 mostra os limites correspondentes. No caso em que se deseja testar se a variância de duas populações com distribuição Normal são idênticas, as hipóteses são formuladas como: H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 Esse teste tem larga aplicação no controle da qualidade, uma vez que o monitoramento da variabilidade é essencial para a garantia de qualidade. Pode-se, por exemplo, comparar a variabilidade antes e após a implantação do controle estatístico de processo. A comparação de variâncias é feita usando-se a distribuição F: S12 F = Eq 138: 0 S 22 H0 é rejeitada se F0 > Fα / 2,n −1,n −1 ou se F0 < F1−α / 2,n −1,n −1 . 1 2 1 2 A Tabela 9 indica os limites apropriados para os testes unilaterais. Exemplo 7.5 Para o exemplo da qualidade do material (dois tipos de fornecedores, 10 observações de cada fornecedor S1 = 7 microns e S2 = 9 microns), testar a hipótese de que as variâncias sejam as mesmas, usando α = 5%. Solução: H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 F0 = 72 92 = 0,605 80 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS F0,025;9,9 = 4,03 F0,975;9,9 = 1 / 4,03 = 0,248 A hipótese H0 não pode ser rejeitada, uma vez que o valor calculado F0 = 0,605 está dentro dos limites de decisão [0,248 ; 4,03]. Tabela 9 - Comparação de variâncias Hipótese Estatística Critério para rejeitar H0 2 χ0 > χ 2 ou α / 2;n −1 H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02 H 0 : σ 2 = σ 02 H 1 : σ 2 > σ 02 χ 02 < χ 2 1−α / 2;n −1 χ 02 = (n − 1)S σ 02 2 χ 02 > χ 2 α ;n −1 H 0 : σ 2 = σ 02 χ 02 < χ 2 H 1 : σ 2 < σ 02 H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 H 0 : σ 12 = σ 22 H 1 : σ 12 > σ 22 H 0 : σ 12 = σ 22 H 1 : σ 12 < σ 22 1−α ;n −1 S2 F0 = 1 S 22 S2 F0 = 1 S 22 S2 F0 = 2 S12 F0 > Fα / 2,n1 −1,n2 −1 ou F0 < F1−α / 2,n1 −1,n2 −1 F0 > Fα ,n1−1,n2 −1 F0 < F1−α ,n1−1,n2 −1 πo COMPARAÇÃO DOS PARÂMETROS DA BINOMIAL Seja que queremos testar a hipótese que o parâmetro π da Binomial é igual a um certo valor πo . O teste que será descrito se baseia na aproximação Binomial através da distribuição Normal. Se uma amostra aleatória de n observações é coletada e se observam x itens que pertencem a classe associada com p, então para testar: H0 :π = πo H1 : π ≠ π o Usa-se a estatística Estatística Industrial 7. Testes de hipótese Eq 139: Z0 = 81 p − πo π o (1 − π o ) n A hipótese nula é rejeitada se resultar Z 0 > Zα / 2 . No caso de alternativas unilaterais usa-se o mesmo raciocínio. Um engenheiro deseja testar a hipótese de que seu fornecedor entrega lotes com 10% de não conformes. Um lote de 180 unidades revelou 14 não conformes. Use α = 5% e conclua a respeito. Exemplo 7.6 Solução: H 0 : π = 0,1 H1 : π ≠ 0,1 p = 14 / 180 = 0,078 Z0 = 0,078 − 0,1 0,1(1 − 0,1) 180 = −0,98 Z 0 = 0,98 < Z 0,025 = 1,96 ⇒ H0 não pode se rejeitada A aproximação Normal também pode ser usada para testar a hipótese que dois parâmetros de Binomiais sejam iguais, ou seja, para testar: H 0 : π1 = π 2 H1 : π 1 ≠ π 2 Nesse caso, amostras de tamanho n1 e n2 são retiradas de cada população gerando x1 e x2 itens pertencentes a classe associada com p. Então p1 = x1 / n1 e p2 = x2 / n2 são os estimadores de π para cada população. A estatística para o teste é: Z0 = Eq 140: p1 − p2 1 1 p(1 − p ) + n1 n2 onde: Eq 141: n p n p p = 1 1+ 2 2 n1 + n2 E a hipótese nula é rejeitada quando Z 0 > Zα / 2 Exemplo 7.7 Um empresário deseja saber se o percentual de satisfação de seus clientes em relação a dois produtos oferecidos por sua empresa são 82 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS similares. Para isso entrevistou 150 pessoas, das quais 80 disseram estar satisfeitas com o produto A e 100 com o produto B. Use α = 5% e conclua a respeito. H 0 : π1 = π 2 H1 : π 1 ≠ π 2 p1 = 80 = 0,53 150 p2 = 100 = 0,67 150 150 x 0,53 + 150 x 0,67 n p n p = 0,60 p = 1 1+ 2 2 = 150 + 150 n1 + n2 Z0 = p1 − p2 0,53 − 0,67 − 0,14 = = = −2,47 1 0,0567 1 1 1 0,60 x (1 − 0,60)x + p (1 − p ) + 150 150 n1 n2 Z o = 2,47 > Zα / 2 = 1,96 Rejeita-se Ho Exercícios Exercício 7.1 Estabeleça a hipótese nula e a hipótese alternativa para as seguintes situações: a) Um fornecedor afirma que o tempo de vida de um produto que ele comercializa é maior que 3 meses. B) Um engenheiro desconfia que uma máquina está fora do ajuste, produzindo peças com diâmetro diferente do especificado que é de = 2,54. c) Um fabricante atesta que o consumo de um certo modelo de eletrodoméstico é inferior a 20 watts. Exercício 7.2 Uma amostra de vinte observações de um produto indicou um tempo de vida média de 217 ciclos. Sabendo que o desvio padrão é de 20 ciclos, teste a hipótese de que o tempo de vida é inferior a 250 ciclos, conforme atestam alguns engenheiros. Use α = 0,05. Exercício 7.3 Dois tipos de combustíveis estão sendo testados. A hipótese é que eles tenham o mesmo desempenho. Teste essa hipótese, sabendo que o desvio-padrão é conhecido σ= 0,7 Km/l e os resultados de testes feitos com 10 automóveis usando cada tipo combustível indicaram X1 = 13,3Km / l e X 2 = 13,9 Km / l. Use α = 0,05. Exercício 7.4 Os dados a seguir representam a produtividade de um processo. Use α = 0,05 e teste a hipótese de que nas condições atuais a produtividade seja superior a 1,5. 1,50 1,55 1,59 1,42 1,53 1,58 1,48 1,52 Estatística Industrial 7. Testes de hipótese 1,53 Exercício 7.5 1,62 1,46 1,56 1,63 1,54 1,58 83 1,68 Repita o exercício 7.3 supondo que o desvio-padrão não fosse conhecido, mas que tivesse sido medido nas duas amostras de 10 valores, resultando em S1 = 0,6 Km/l e S2 = 0,8 Km/l. (Suponha σ 12 = σ 22 e use α = 0,05). Exercício 7.6 Um médico está estudando o crescimento de dois tipos de bactérias. Essas bactérias foram cultivadas em diferentes substratos. Como pode haver um efeito significativo do substrato, os dois tipos de bactérias foram cultivados em cada substrato. Use α = 0,01 e teste a hipótese de que a bactéria 1 cresce mais que a bactéria 2. Substrato 1 2 3 4 5 6 7 8 B1 3,0 3,2 2,7 2,5 3,8 4,3 3,5 4,8 B2 3,2 3,1 2,4 2,1 3,2 3,7 3,2 4,0 Exercício 7.7 Um fabricante atesta que as máquinas de enchimento que ele produz apresentam um coeficiente de variação inferior a 2%. Um experimento aleatório realizado com garrafas de 2 litros indicou S2=0,0024 litros2 para uma amostra de 15 garrafas. Teste a hipótese do fabricante para um nível de significância α = 0,05. Exercício 7.8 Uma nova unidade de desalinização foi instalada em uma indústria química. Uma amostra com n = 10, coletada antes da instalação da nova unidade indicou concentração de sal X 1 = 19,55 e S12 = 15,35 . Enquanto que, após a instalação, uma amostra com n = 16 indicou X 2 = 17,85 e S22 = 8,65 . Baseado nesses dados, pede-se: a) Teste a hipótese que as duas variâncias sejam iguais? b) Teste a hipótese que a nova unidade reduziu a concentração média de sal? Exercício 7.9 Um engenheiro deseja testar a hipótese que o percentual de peças defeituosas é inferior a 10%. Uma amostra aleatória com 75 peças revelou 6 peças defeituosas. Use α = 0,05 e conclua a respeito. Exercício 7.10 Um engenheiro desconfia que o percentual de produtos defeituosos reduziu depois da implantação do controle estatístico de processo. Em uma amostragem de 500 produtos realizada antes da implantação do CEP, identificou-se 5 produtos defeituosos. Após a implantação do CEP, coletou-se uma amostra de 700 produtos e identificou-se 1 defeituoso. Teste a hipótese do engenheiro usando 2,5% de significância. Exercício 7.11 Num estudo do tempo médio de adaptação para uma amostra aleatória de 50 homens num grande complexo industrial, surgiram as seguintes estatísticas: média da amostra = 3,2 anos e desvio padrão da amostra = 0,8 anos. Pode-se concluir, ao nível de 1% de significância que os homens tenham um tempo de adaptação menor que as mulheres que é de 3,7 anos? 84 8. Comparação de vários grupos: a aálise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Exercício 7.12 Um fabricante alega que apenas 2% das peças que ele fornece estão abaixo das condições de utilização. Em 200 peças escolhidas aleatoriamente de uma remessa de 5.000 encontraram-se 10 falhas. A alegação do fabricante parece aceitável ao nível de 5% de significância? Exercício 7.13 Os dados abaixo dão os acertos obtidos por 8 soldados num experimento destinado a determinar se a precisão do tiro é afetada pela maneira de dispor os olhos. (a) com o olho direito aberto (b) com o olho esquerdo aberto Que tipo de conclusão você poderia tirar? Exercício 7.14 Exercício 7.15 Exercício 7.16 Soldado 1 2 3 4 5 6 7 8 Direito 44 39 33 56 43 56 47 58 Esquerdo 40 37 28 53 48 51 45 60 Para verificar o grau de adesão de uma nova cola para vidros, preparamse dois tipos de montagem; Cruzado (A) onde a cola é posta em forma de X e Quadrado (B), onde a fórmula é posta nas 4 bordas. O resultado para a resistência das duas amostras de 10 cada estão abaixo. Para um nível de 5% de significância que tipo de conclusão poderia ser tirada? Método A 16 14 19 18 19 20 15 18 17 18 Método B 13 19 14 17 21 24 10 14 13 15 A fim de comparar a eficácia de dois operários, foram tomadas, para cada um, oito medidas do tempo gasto, em segundos, para realizar certa operação. Os resultados obtidos são dados a seguir. Pergunta-se se, ao nível de 5% de significância, os operários devem ser considerados igualmente eficazes ou não. Operário 1 35 32 40 36 35 32 33 Operário 2 29 35 36 34 30 33 31 Uma pesquisa nacional indica que aproximadamente 25% das contas de grandes magazines incorrem em penalidade por atraso nos pagamentos. Se um magazine local constata 40 atrasos numa amostra de 200 clientes, pode necessariamente admitir que seus clientes sejam melhores que os clientes de todo país? Adote 5% de significância. 8 Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro Carla ten Caten COMENTÁRIOS INICIAIS Os testes de hipótese apresentados até aqui limitaram-se à comparação de duas médias ou duas variâncias. Há situações onde se deseja comparar várias médias, cada uma oriunda de um grupo diferente. Esses grupos poderiam ser: a performace em Km/l de carros consumindo 4 marcas de combustíveis, a eficiência de 3 métodos de treinamento, comparação da produtividade entre 5 máquinas ou 3 postos de trabalho ou 2 layouts. ONE-WAY ANOVA Experimentos que envolvem: 1 Variável de resposta 1 Fator controlável a vários níveis (grupos) Os ensaios feitos em cada nível do fator controlável configuram um grupo. O objetivo é identificar se os valores da variável de resposta medidos nos diversos níveis do fator controlável diferem entre si. Exemplo Um profissional deseja estudar se a temperatura ambiente influencia na produtividade dos funcionários. Para isso realizou três medidas de produtividade (peças/hora) em três temperaturas diferentes. Fator controlável: temperatura Níveis do fator controlável: 15, 25, 35 Variável de resposta: produtividade Repetições: 3 valores para cada nível Existem dois tipos de experimentos: - Fatores controláveis a níveis fixos: quando o efeito de cada nível é fixo, como no caso em que os tratamentos são 4 pressões de operações, ou 4 layouts fixados pelo engenheiro; Por ex., 5 valores de temperatura. - Fatores controláveis a níveis aleatórios: quando o efeito de cada nível é 86 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS aleatório, como no caso em que os níveis são k lotes de produção, ou k operadores escolhidos aleatoriamente; Por ex., 3 fábricas escolhidas ao acaso. Disposição dos dados: Os dados são dispostos da seguinte forma: Fator A A1 A2 ... Ak y11 y21 ... yk1 y12 y22 ... yk2 : : : : : : yij : : : : : y1,n1 y2,n2 ... yk,nk Ti. T1. T2. ... Tk. T.. = No.Obs. ni n1 n2 ... nk N = Y1. Y2. ... Yk. Y.. = Totais Médias Modelo estatístico: Yi. Os resultados poderiam ser representados por um modelo aditivo: Eq 142 Yij = µ + τ i. + ε ij ; i = 1,....., k j = 1, ..., n j onde: Yij é a observação j medida no tratamento i; µ média geral de todas as observações; τi.efeito do tratamento i; εij erro aleatório; Hipóteses Ho: não há diferenças significativas entre os grupos: µ1 = µ 2 = .... = µ k H1: há diferenças significativas entre os grupos: µ1 ≠ µ 2 ≠ .... ≠ µ k A Análise de Variância se baseia na decomposição da variabilidade total. Mais especificamente, os desvios das observações individuais em relação a média global podem ser escritos como: Eq 143: (Yij − Y.. ) = (Y i. − Y.. ) + (Yij − Y i. ) onde: (Y i. − Y.. )é o desvio da média do tratamento i em relação à média global; Estatística Industrial 87 8. Comparação de vários grupos: a análise de variância (Yij − Y i. ) é o desvio da observação individual em relação a média do tratamento i correspondente; Para o exemplo anterior: Temperatura 15 25 35 12 20 17 13 19 16 11 18 18 Ti .= 36 57 51 T.. = 144 ni . = 3 3 3 N =9 Yi. = 12 19 17 Y.. = 16 Modelo Estatístico, Yij = µ + τ i. + ε ij 20 = 16 + 3 +1 Podemos ver esses dados no gráfico abaixo: Y2. = 19 (Y ij − Y i. )=20−19=1 (Y i. − Y ..)=19−16=3 Y=20 ij (Yij − Y ) .. =20−16=4 Y3 . = 17 Y.. = 16 Y1. = 12 Figura 35 - Decomposição dos resíduos 15° 35° 25° Elevando ao quadrado ambos os termos da Eq 143 e efetuando o somatório, resulta: Eq 144: ∑ (Y ij ij ) ( ) − Y.. = ∑ ni Y. − Y.. + ∑ (Yij − Yi. ) 2 2 2 i Desde que é fácil demonstrar que ∑ (Y i. )( ) − Y .. Yij − Y i. = 0 Na Eq 144, identificamos as seguintes somas quadradas: 88 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 145: SQT = SQG + SQR onde: SQT soma dos quadrados totais, decomposta em: SQG soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um efeito dos grupos; SQR soma dos quadrados dos resíduos, devida exclusivamente ao erro aleatório, medida dentro dos grupos. Teste F Voltando a Eq 144 observamos que a soma quadrada dos resíduos dividida pelos seus graus de liberdade fornecerá uma estimativa da variância dentro dos grupos: Eq 146: MQR = SQR = N −k ∑ (Y ij − Yi. i, j N −k ) 2 =σ2 Da mesma forma, se não houver efeito dos grupos, a divisão da SGQ pelos respectivos graus de liberdade também fornecerá uma estimativa da variância dentro dos grupos: ( Y i. − Y .. SQG ∑ = n Eq 147: MQG = k −1 k −1 ) = n(σ / n ) = σ 2 2 2 Notem que, se não há efeito dos grupos, a quantidade entre colchetes é a variância das médias, a qual sabe-se que é igual a σ2/n. As grandezas apresentadas acima são chamadas de médias quadradas. Observa-se que as Médias Quadradas são simplesmente uma outra notação para Variância. MQG = SQG/(k-1)é a Média Quadrada dos Grupos; MQR = SQR/(N-k)é a Média Quadrada dos Resíduos; Observa-se que para as somas quadradas vale a aditividade: Eq 148: SQT = SQG + SQR Eq 149: N-1 = (k-1) + (N-k) Mas o mesmo não vale para as Médias Quadradas, ou seja, MQT ≠ MQG + MQR. Se não há diferença significativa entre os grupos: E(MQG) = E (MQR) Para testar a hipótese referente ao efeito dos grupos, usamos a distribuição F : Eq 150 Fcalc = MQG MQR Estatística Industrial 89 8. Comparação de vários grupos: a análise de variância que é o modelo adequado para a distribuição do quociente de duas variâncias. A partir das Eq 150 verifica-se que, se não há efeito dos grupos, esse quociente deve ser próximo de 1 (um). Caso contrário, se há efeito dos grupos, esse quociente será significativamente maior que 1. O limite de decisão é estabelecido usando os valores tabelados da distribuição F, ou seja, usando: Fα ,k −1,N − k onde: ∝ nível de significância k-1 graus de liberdade do numerador: N-k graus de liberdade do denominador: Figura 36 - Exemplo da distribuição F de Snedecor A hipótese nula µ1 = µ2 = ... = µk será rejeitada sempre que F calculado for maior que o valor tabelado Fα ,k −1,N − k . Logo, há diferença significativa entre os grupos. Caso contrário, não há diferenças significativas entre os grupos. Formulário para os cálculos Para o cálculo das Somas Quadradas é recomendado o uso do seguinte formulário: Eq 151: TC = ( T ..)2 N (Termo de Correção) Eq 152: SQT = ∑ Yij2 − TC Eq 153: Eq 154: ( ) SQG = ∑ (Ti2. ni ) − TC SQR = ∑ (Yij2 )− ∑ (Ti2. ni ) = SQT − SQG onde: T.. é a soma de todas as observações Ti. é a soma das observações no grupo i 90 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Tabela ANOVA Os cálculos associados à Análise de Variância são apresentados em uma tabela, chamada de Tabela de Análise de Variância ou Tabela ANOVA (Analysis of Variance): Tabela 10 - Tabela ANOVA Fonte de Variação SQ GDL MQ Teste F Entre Grupos SQG k-1 MQG MQG/MQR Dentro Grupos SQR N-k MQR Total SQT N-1 Os dados a seguir representam o alongamento (maior é melhor) medido Exemplo de um experimento a níveis fixos sobre um composto de borracha, em função da quantidade de agente de processo adicionado durante a mistura. Agente Cálculos iniciais: 0 5 10 15 20 43 47 55 50 52 47 53 50 54 49 46 52 54 54 54 45 50 55 55 55 45 49 52 56 55 46 51 53 52 56 47 55 55 57 56 44 48 56 57 53 42 49 59 55 57 48 50 56 60 60 49 47 57 56 57 44 49 54 58 55 Totais 546 600 656 664 659 T..= 3125 No. obs. 12 12 12 12 12 N = 60 Médias 45,5 50,0 54,7 55,3 54,9 Y.. = 52,08 TC = T..2 / N = (3125)2 / 60 = 162.760,42 SQT = Σ (Yij)2 - TC = 163.971,00 - 162.760,42 = 1210,58 SQG = Σ (Ti.2 / ni) - TC = [(546)2 / 12] + ... + [(659)2 / 12] 162.760,42 = 875,33 SQR = SQT - SQG = 1210,58 - 875,33 = 335,25 Tabela Anova: Fonte SQ GDL MQ Teste F Entre Grupos (Agente) 875,33 4 218,83 35,9 Estatística Industrial 91 8. Comparação de vários grupos: a análise de variância Dentro Grupos (Residual) 335,25 55 Total 1210,58 59 F calculado 35,9 > > 6,09 F tabelado = F 0,05,4,55 2,55 Como F calculado é maior do que F tabelado conclui-se que há diferenças significativas entre os grupos,ou seja,a quantidade de agente na mistura influencia significativamente o alongamento Qual a melhor quantidade considerando qualidade e economia? Comparação múltipla de médias 1. Calcular o desvio-padrão das médias s x = MQR / nc = 2,47 / 3,46 = 0,71 onde nc = (n1 + n2 + ... + nk) / k 2. Calcular o limite de decisão Ld = 3 × s = 3 x 0,71 = 2,13 3. Escrever as médias em ordem crescente ou decrescente e compará-las duas a duas. Y(1)= 45,5 Y(2) = 50,0 Y(3) =54,7 Y(4) 54,9 Y(5) =55,3 4. A diferença será significativa se for maior que o Ld Y(2) – Y(1) = 50,0 - 45,5 = 4,5 > Ld = 2,13 Dif. Signif. Y(3) – Y(2) = 54,7 - 50,0 = 4,7 > Ld = 2,13 Dif.Signif. Y(5) – Y(3) = 54,9 - 54,7 = 0,2 < Ld = 2,13 Dif. Não Signif. Y(4) – Y(5) = 55,3 - 54,9 = 0,4 < Ld = 2,13 Dif. Não Signif. 5. Usar barras contínuas sobre as médias que não diferem entre si Otimização: ___ ___ _________ Y(1) Y(2) Y(3) Y(5) Y(4) A análise técnica deve acompanhar e completar a análise estatística. Para isso é recomendável representar graficamente os dados. Para os dados do experimento anterior, poderia se usar, por exemplo, um boxplot: 92 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Boxplot Alongamento 65 55 45 35 G1 G2 G3 G4 G5 Agente de processo Figura 37 - Gráfico Boxplot Na otimização devemos considerar o binômio qualidade e custo. Os resultados estatísticos, em conjunto com a análise gráfica dão suporte à tomada de decisão a respeito do processo. Via de regra, o experimento revela opções para a redução de custos e melhoria da qualidade, simultaneamente. Como não existe diferença significativa entre as quantidades de agente 10, 15 e 20, a quantidade ótima de agente é 10 (dez) pois otimiza simultaneamente qualidade e custos. Exemplo de um experimento a níveis aleatórios Uma fábrica de embalagens de papel recebe a matéria prima (papel) em rolos. É desejável que as características dos rolos sejam homogêneas, de modo a fornecerem papel com a mesma resistência à tração. O engenheiro suspeita que além da variabilidade usual (dentro dos rolos) também possa haver uma variação significativa entre os rolos. Medições de resistência feitas em embalagens produzidas com material proveniente de cinco rolos aleatoriamente indicaram: Ho: não há diferenças significativas entre os rolos στ = 0 H1: há diferenças significativas entre os rolos στ > 0 Rolo Cálculos iniciais: Resistência 1 72 73 70 74 74 75 78 77 80 76 2 63 70 69 65 66 66 62 65 67 63 3 78 74 82 76 76 73 75 4 75 74 73 78 75 71 67 73 5 85 82 80 86 83 92 89 86 Totais e médias: Rolo Ti. ni Yi . 1 749 10 74,90 2 656 10 65,60 3 534 7 76,29 4 586 8 73,25 5 603 8 85,38 T.. = 3128 N = 43 Y .. = 74,60 Estatística Industrial 93 8. Comparação de vários grupos: a análise de variância Cálculo das Somas Quadrada TC = (T..)2 / N = (3208)2/43 = 239331,7 SQT = Σ( Yij2 ) - TC = 241476,0 - 239331,7 = 2144,28 SQG = Σ( Ti2. /ni) - TC = [(749)2/10] + ... + [(683)2/8] - 239331,7 = 1774,18 SQR = SQT - SQG = 2144,28 - 1774,18 = 370,10 Tabela ANOVA Fonte SQ GLD MQ Teste F Rolos 1774,18 4 443,54 45,54 Resíduos 370,10 38 9,74 Total 2144,28 42 Fcalculado = 45,54 > F0,05,4,38 = 2,856 ⇒ Há diferenças significativas entre os rolos. Pode ser demonstrado que o valor esperado das médias quadradas vale: Estimativa dos componentes de variação: Eq 155: E (MQG) = σ2 + nc σ 2 τ Eq 156: E (MQR) = σ2 A partir das Eq 155 e Eq 156, podemos obter as estimativas para os componentes de variação σ2 e σ 2τ : Eq 157: σ2 = MQR Eq 158: σ τ2 = MQG − σ 2 MQG − MQR = nc nc Conhecidos os componentes de variação, podemos calcular a contribuição percentual de cada termo na composição da variabilidade total: Eq 159: ( ) 2 Var Yij = σTOTAL = σ τ2 + σ 2 Percentual correspondente aos tratamentos: 100 x σ τ2 2 σTOTAL 94 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Percentual correspondente ao erro aleatório: 100 x σ2 2 σTOTAL Estimativa dos componentes de variação para o exemplo: σ2 = MQR = 9,74 σ τ2 = MQG − MQR 443 ,54 − 9 ,74 = = 50 ,44 nc 8 ,6 2 σTOTAL = σ 2τ + σ 2 = 50 ,44 + 9 ,74 = 60 ,18 Os resultados indicam que 50,44 / 60,18 = 83,81 % da variabilidade total se deve a diferenças entre rolos. As causas dessas diferenças deveriam ser investigadas e, na medida do possível, eliminadas. Otimização A análise técnica deve acompanhar e completar a análise estatística. Para isso é recomendável representar graficamente os dados. Para os dados do experimento anterior, poderia se usar, por exemplo, um gráfico de dispersão: 100 90 Re 80 70 60 0 Figura 38 - Gráfico de dispersão 1 2 3 4 5 6 Rolo Via de regra, a variabilidade devida aos grupos se deve a causas especiais que podem (e devem) ser eliminadas. Por exemplo, diferenças entre máquinas podem ser devidas a falta de manutenção apropriada ou diferenças de setup. Essas causas especiais devem ser corrigidas. Similarmente, diferenças entre lotes de produção podem ser devidas a qualidade da matéria prima usada na produção de cada lote. Nesse caso, deveriam ser investigados os fornecedores, ou as condições de estocagem, etc. Por outro lado, a variabilidade devida ao erro aleatório deve-se, via de regra, a causas comuns, inerentes ao sistema em estudo. Para eliminar as causas comuns é preciso modificar o sistema como um todo, o que pode Estatística Industrial 95 8. Comparação de vários grupos: a análise de variância não se justificar economicamente. Exercícios Exercício 8.1 Quatro concentrações de catalisadores que podem afetar o tempo de processo de uma mistura química estão sendo investigados. Os seguintes tempos de misturas foram obtidos: Catalisadores 1 2 3 4 56,7 56,3 53,0 54,4 58,2 55,9 51,2 53,0 57,2 54,5 54,2 51,4 58,4 57,0 53,2 51,5 55,8 55,3 53,3 54,9 Totais T.. = n N = Médias Y. . = Pede-se: Fazer a análise de Variância e concluir a respeito do efeito dos catalisadores. Fazer uma comparação múltipla de médias se for o caso. Fazer um gráfico de barras, indicando a concentração média obtida para cada catalisador e concluir a respeito do que deve ser feito para (i) assegurar qualidade e (ii) assegurar economia. Cálculos iniciais: 2 TC = T.. / N = 2 Σ (Yij ) = 2 SQT = Σ (Yij ) - TC = 2 SQG = Σ (Ti. / ni) - TC = SQR = SQT - SQG = Tabela Anova: 96 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Fonte SQ GDL MQ Teste F Entre Grupos (Catalis) Dentro Grupos (Residual) Total F calculado = F tabelado = Efeito dos catalisadores é significativo ? Comparação múltipla de médias (1) Calcular o desvio padrão das médias s x = MQR / nc = onde nc = (n1 + n2 + ... + nk) / k (2) Calcular o limite de decisão Ld = 3 x S X = (3) Escrever as médias em ordem crescente ou decrescente e compará-las duas a duas. A diferença será significativa se for maior que o Ld Y(1) – Y(2) = Y(1) - Y(3) = Y(1) – Y(4) = Y(2) – Y(3) = Y(2) – Y(4) = Y(3) – Y(4) = (4) Usar barras contínuas sobre as médias que não diferem entre si Exercício 8.2 Um jogo de oito pneus das marcas M1, M2 e M3 foram testados quanto à durabilidade. Os resultados obtidos (em milhares de Km) foram os que seguem: Estatística Industrial 97 8. Comparação de vários grupos: a análise de variância Marca: M1 M2 M3 45 40 42 44 40 35 48 44 44 47 41 39 44 46 41 40 31 36 43 41 43 45 33 38 Totais Média Qual a variável de resposta e qual o fator controlável ? Quantos níveis possui o fator controlável ? Faça a tabela de análise de variância e conclua a respeito do fator em estudo; Caso necessário, faça uma comparação múltipla de médias; Plote um gráfico relacionando o fator controlável com a resposta medida; Indique o que deve ser feito para assegurar qualidade; Indique o que deve ser feito para obter economia; Exercício 8.3 Um grupo de engenheiros está estudando o efeito do ângulo de uma ferramenta de corte sobre o acabamento superficial resultante após a operação. As medições de rugosidade (menor é melhor) efetuadas revelaram: Ângulo: 0o 5o 10o 15o 10 12 12 8 7 9 4 6 4 5 7 11 12 14 10 7 7 5 5 7 6 8 10 12 12 6 3 6 4 6 10 6 9 8 8 Totais Média Qual a variável de resposta e qual o fator controlável ? Quantos níveis possui o fator controlável ? Faça a tabela de análise de variância e conclua a respeito do fator em estudo; Plote um gráfico de ângulo da ferramenta x rugosidade; Indique o que deve ser feito para assegurar qualidade; Indique o que deve ser feito para obter economia; 6 98 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Exercício 8.4 Uma indústria têxtil tem um grande número de teares mecânicos. Supõem-se que a velocidade desses teares seja a mesma. Para verificar essa hipótese, foram escolhidos aleatoriamente cinco teares e a produção medida em um período de uma hora foi anotada: Tear Produção (Kg) 1 23,8 24,0 23,8 23,6 23,9 2 23,9 23,7 23,6 23,8 24,0 3 24,0 23,9 24,1 24,2 24,1 4 24,0 24,0 23,9 23,8 23,9 5 24,0 24,1 24,0 24,1 24,2 a) Indique se esse é um experimento a níveis fixos ou aleatórios. b) Faça a análise de variância e conclua a respeito do efeito dos teares. c) Estime os componentes de variação. Exercício 8.5 Resultados de corpos de prova de concreto com adição de Microssílica indicaram os seguintes resultados de resistência à compressão: Adição Resistência (MPa) 0% 28,1 26,5 24,3 5% 35,3 34,3 37,5 10% 39,8 44,1 42,3 15% 39,1 40,8 43,0 a) Indique se esse é um experimento a níveis fixos ou aleatórios. b) Faça a análise da variância e conclua a respeito do efeito da adição de microssílica. c) Se for o caso, faça uma comparação múltipla de médias. d) Plote um gráfico de linha para a mediana. Exercício 8.6 Um engenheiro deseja que os azulejos produzidos em uma indústria cerâmica apresentem a menor absorção de água possível. Os resultados de um experimento feito com três tipos diferentes de argila indicaram o seguinte: Tipo de Argila Absorção (gramas) A1 141 112 128 122 102 A2 132 115 98 121 108 A3 135 122 158 143 155 139 126 Estatística Industrial 99 8. Comparação de vários grupos: a análise de variância a) Indique se esse é um experimento a níveis fixos ou aleatórios. b) Faça a análise da variância e conclua a respeito do efeito do tipo de argila. c) Se for o caso, faça uma comparação múltipla de médias. d) Plote um gráfico de barras para as médias. Exercício 8.7 Uma metalúrgica tem um grande número de fornos usados para fundição de metais. A temperatura desses fornos deveria ser a mesma. Para testar essa hipótese foram feitas medições em 4 fornos escolhidos aleatoriamente. Analise os resultados e conclua a respeito de possíveis diferenças entre os fornos. Forno Exercício 8.8 Temperatura 1 824 821 829 808 815 2 817 830 819 809 825 3 822 810 831 824 818 4 826 828 810 820 815 Um engenheiro industrial desenvolveu um modelo estocástico de simulação que prevê a produtividade mensal em função do intervalo de tempo entre manutenções preventivas. Se esse intervalo for muito curto, as máquinas estarão constantemente em manutenção e a produtividade será baixa. Se o intervalo for muito longo, haverá quebras, exigindo manutenção corretiva, mais demorada, novamente prejudicando a produtividade. Os resultados da simulação aparecem a seguir. Intervalo Produtividade 4 136 137 135 140 136 6 145 146 147 147 148 8 146 144 148 145 145 10 134 131 136 134 133 12 117 119 117 115 116 a) Faça a análise da variância, plote um gráfico de barras para a produtividade média e conclua a respeito do intervalo ótimo para as intervenções da manutenção produtiva. Exercício 8.9 Em uma indústria química um catalisador é utilizado para acelerar um processo de deposição metálica. Foi feito um experimento variando-se a concentração desse catalisador e anotando-se o tempo necessário para completar o processo. Analise os dados usando a Tabela Anova. Depois faça uma comparação múltipla de médias, plote um gráfico de linhas e conclua a respeito da concentração ideal. 100 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Concentração Exercício 8.10 Tempos 10 11,2 10,4 10,1 10,6 15 10,6 11,1 10,8 11,7 20 12,5 12,0 13,2 12,6 25 18,8 19,0 18,4 19,6 Um profissional da área de ergonomia realizou um estudo para verificar qual posto de trabalho gerava um melhor bem estar para o funcionário. Para isso foram projetados três postos de trabalho e durante um mês 10 funcionários testaram os novos postos. Ao final de um mês os funcionários responderam um questionário gerando uma nota para o bem estar do funcionário. Analise os dados e conclua a respeito do melhor posto de trabalho. Postos Exercício 8.11 Func. 1 2 3 1 7 5 8 2 8 6 9 3 7 7 8 4 8 6 9 5 9 5 8 6 7 6 8 7 8 7 9 8 6 5 10 9 7 6 8 10 6 6 9 Para analisar a variabilidade na qualidade de um tipo de tijolo de cimento fornecido por uma fábrica, selecionou-se aleatoriamente 5 sacos de cimento durante um certo período de produção e para cada saco foram tomadas três amostras aleatórias. Estime o percentual da variabilidade dentro dos sacos e entre os sacos de cimento. Saco cimento Resistências Exercício 8.12 1 2 3 4 5 74 68 75 72 79 76 71 77 74 81 75 72 77 73 79 Três layout estão sendo testado em relação a produtividade. Para isso 12 operadores foram avaliados em relação a produtividade medida em peças/ hora. Os valores de produtividade estão apresentados na tabela abaixo. Analise os dados e conclua a respeito do melhor layout. Estatística Industrial 101 8. Comparação de vários grupos: a análise de variância Layout Exercício 8.13 Func 1 2 3 1 120 125 130 2 122 126 129 3 124 127 131 4 118 125 128 5 116 128 128 6 120 126 127 7 119 129 126 8 117 128 125 9 121 129 128 10 122 130 129 11 117 127 127 12 120 128 128 Um grupo de engenheiros acredita que a resistência mecânica (maior é melhor) de um certo componente cerâmico é afetada pela pressão e temperatura de cozimento. Foi realizado um experimento que revelou os seguintes dados: Pressão Temperatura 30 35 40 200 C 44 42 47 46 42 44 225 oC 41 43 45 46 39 41 45 47 48 49 44 41 o o 250 C Qual a variável de resposta e quais os fatores controláveis ? Observe os dados e indique qual o valor mínimo e qual o valor máximo medido para a variável de resposta Faça a análise de variância e conclua a respeito dos fatores e interações significativos Plote um gráfico de dois fatores Qual o ajuste que você recomendaria para este processo ? Exercício 8.14 A montagem de um cabo de aço revestido está apresentando problemas devido à excessiva retração do núcleo. Os engenheiros desconfiam de dois fatores: Fornecedor do núcleo e temperatura do núcleo na montagem. Foi feito um experimento e as medidas de retração (menor é melhor) foram: 102 8. Comparação de vários grupos: a análise de variância José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Fornecedor do Núcleo Temperatura 1 2 3 4 75 C 21 24 26 12 13 15 12 11 14 13 13 11 85 oC 26 26 30 16 14 17 15 13 19 18 17 13 o Faça a análise de variância e conclua a respeito dos fatores e interações significativos; Plote um gráfico de dois fatores; O que fazer para assegurar qualidade ? O que fazer para obter economia ? Caso as investigações fossem continuar, quais os ensaios você recomendaria ? 9 Regressão linear simples José Luis Duarte Ribeiro Carla ten Caten COMENTÁRIOS INICIAIS Em muitos problemas há duas ou mais variáveis que são relacionadas e pode ser importante modelar essa relação. Por exemplo, a resistência à abrasão de um composto de borracha pode depender da quantidade de óleo adicionada à mistura. Assim, é possível construir um modelo relacionando resistência à abrasão com quantidade de óleo, e então podese usar esse modelo para fins de otimização e controle de processo. Outro exemplo, as vendas de um produto podem estar relacionadas ao valor gasto em marketing com esse produto. Assim, é possível construir um modelo relacionando vendas à gastos com marketing, e então podese usar esse modelo para fins previsão de vendas. Em geral vamos supor que há uma variável dependente (ou variável de resposta) Y que depende de k variáveis independentes (ou variáveis regressoras) X1, ..., Xk. A relação entre essas variáveis será descrita por um modelo matemático, chamado modelo de regressão, o qual é definido (ajustado) a um conjunto de dados. Algumas vezes a relação funcional entre Y e X1, ..., Xk é conhecida exatamente. Outras vezes o pesquisador deverá buscar o modelo apropriado testando diferentes funções. Modelos polinomiais são largamente utilizados como uma função aproximada da verdadeira relação entre Y e X, e por isso serão descritos no capítulo 10. Modelos de regressão são usados com freqüência na análise de dados provenientes de experimentos não planejados (observações de um fenômeno não controlado ou dados históricos). Mas a análise de regressão também é muito útil no caso de experimentos planejados que incluem fatores a níveis contínuos. Nesse caso a análise de variância é usada para identificar os fatores significativos, e a seguir a análise de regressão é usada para construir um modelo que incorpore esses fatores. CORRELAÇÃO Para uma amostra de n pares de valores (x,y) o coeficiente de correlação r fornece uma medida da relação linear que existe entre duas variáveis aleatórias X e Y. 104 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Figura 39 - Gráfico de dispersão O valor de r é calculado como: Eq 160: r= S XY S XX × SYY Desvio-padrão de X Eq 161: S XX = ∑ x i2 − (∑ xi ) 2 n Desvio-padrão de Y Eq 162: SYY = ∑ y i2 − (∑ y i ) 2 n Covariância de X,Y: Eq 163: S XY = ∑ xi yi − (∑ xi )(∑ yi ) n Para uma interpretação adequada do coeficiente de correlação, X e Y deveriam ser variáveis aleatórias, ao contrário do que acontece nos problemas de regressão, onde Y é aleatória, mas X é considerada uma variável fixa. Mesmo assim, é prática comum calcular r em quase todos os casos, isto é, com X aleatória ou não. O coeficiente de correlação linear “r” mede a intensidade da relação linear entre duas variáveis Pode ser demonstrado que -1 ≤ r ≤ 1, onde r = +1 ou r = -1 correspondem ao caso de uma relação linear perfeita entre X e Y, enquanto que r = 0 indica nenhuma relação, ou seja: valores de “r” próximos de +1 indicam uma forte correlação positiva entre x e y valores de “r” próximos de -1 indicam uma forte correlação negativa entre x e y valores de “r” próximos de 0 indicam uma fraca correlação entre x e y Deve-se ter em conta que r é uma medida da relação linear entre as duas variáveis e não tem sentido quando a relação é não linear. Além disso, o pesquisador deve ter em mente que a existência de uma correlação entre duas variáveis não implica necessariamente na Estatística Industrial 9. Regressão linear simples 105 existência de um relacionamento de causa e efeito entre elas. Exemplo 9.1 Tabela 11 - Valores de rendimento de combustível Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange a rendimento de combustível. Contudo, com o passar do tempo esse rendimento vai se degradando. Os dados que aparecem na Tabela 11 representam o rendimento medido mês a mês após a regulagem. Calcule o coeficiente de correlação. X: meses após a regulagem 1 2 3 4 5 6 Y: rendimento 10,7 10,9 10,8 9,3 9,5 10,4 X: meses após a regulagem 7 8 9 10 11 12 Y: rendimento 9,0 9,3 7,6 7,6 7,9 7,7 12 Co 11 10 9 8 7 Figura 40 - Valores observados do rendimento em função do tempo após a regulagem. 0 2 4 6 8 10 12 Tempo após a regulagem Para o exemplo do rendimento de combustível, teríamos: Cálculos iniciais 106 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Meses(X) Rendimento(Y) 1 10,7 2 10,9 3 10,8 4 9,3 5 9,5 6 10,4 7 9 8 9,3 9 7,6 10 7,6 11 7,9 12 7,7 78 110,7 6,5 9,225 X^2 1 4 9 16 25 36 49 64 81 100 121 144 650 Y^2 114,49 118,81 116,64 86,49 90,25 108,16 81 86,49 57,76 57,76 62,41 59,29 1039,55 X*Y 10,7 21,8 32,4 37,2 47,5 62,4 63 74,4 68,4 76 86,9 92,4 673,1 Σxi = 78,00;Σxi2 = 650,00; X = 6,50 Σyi = 110,70;Σyi2 = 1039,55; Y = 9,225 Desvio-padrão de X S XX = ∑ xi2 − (∑ xi ) n = 650 − (78)2 / 12 = 143,00 2 Desvio-padrão de Y SYY = ∑ yi2 − (∑ yi ) n = 1039,55 − (110,70 )2 / 12 = 18,34 2 Covariância de X,Y: S XY = ∑ x i y i − (∑ x i )(∑ y i ) n = 673,1 − (78 × 110,70) / 12 = −46,45 Coeficiente de correlação r= S xy S xx × S yy = − 46,45 143,00 x 18,34 = −0,907 Interpretação: Existe uma correlação linear inversa na amostra entre meses após a regulagem e rendimento. A intensidade desta correlação é forte. A hipótese da existência de uma relação entre X e Y, pode ser TESTE DE HIPÓTESE PARA O COEFICIENTE DE formulada usando-se: CORRELAÇÃO H0 : ρ = 0 H1 : ρ ≠ 0 onde a letra ρ é usada para representar o valor populacional do coeficiente de correlação. Pode ser demonstrado que o valor de t pode Estatística Industrial 9. Regressão linear simples 107 ser calculado usando: Eq 164: t= r n−2 1− r2 Assim a hipótese da existência de uma relação entre X e Y pode ser verificada diretamente a partir do valor amostral do coeficiente de correlação. Como sempre a hipótese nula será rejeitada se o valor calculado for maior que o tabelado, ou seja, se: Eq 165: t > tα / 2,n −2 Para o exemplo em estudo tem-se: t= − 0,907 12 − 2 1 − ( −0,907) 2 = − 6,82 > t0,025;10 = 2,228 ⇒ rejeita - se H 0, ou seja, descarta-se a hipótese nula e conclui-se que existe correlação entre as variáveis estudadas. REGRESSÃO LINEAR SIMPLES A regressão linear simples estima uma equação matemática (ou modelo) que dado o valor de X (variável independente), prevê o valor de Y (variável dependente). É dito relação linear simples, pois supõe-se tendência linear entre as variáveis e simples por ser uma única variável independente Seja que existam dados coletados (pares de valores) associando uma variável de resposta Y (variável dependente) com uma variável regressora X (variável independente). E suponha que a relação entre Y e X seja aproximadamente linear. Então o valor esperado de Y para cada valor de X virá dado por: Eq 166: E (Y/X) = β 0 + β 1 X onde os parâmetros da relação linear, β0 e β1, são desconhecidos. Vamos supor que cada observação Y possa ser descrita pelo modelo: Eq 167 Y = β 0 + β 1 X + ε onde ε é o erro aleatório, com média 0 e variância σ2. A Eq 167 é chamada de modelo de regressão linear simples. Nesta equação, o coeficiente β0 é a interseção (valor de Y para X = 0) enquanto que β1 é a inclinação da reta, que pode ser positiva, negativa ou nula. A inclinação da reta representa o quanto Y varia para cada unidade da variável X. Se há n pares de dados (y1, x1), ..., (yn, xn) é possível estimar os parâmetros β0 e β1 usando o método dos Mínimos Quadrados, o qual busca minimizar: Eq 168: L = Σ (yi - b0 - b1 xi)2 onde b0 e b1 são estimativas amostrais de β0 e β1. O uso do método 108 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS conduz as seguintes estimativas: Eq 169: b1 = SXY / SXX Eq 170: b0 = Y − b1 X Usando os dados do problema do rendimento de combustível, obtenha as estimativas para os parâmetros b0 e b1 e a equação da reta de regressão. Exemplo 9.2 Cálculos iniciais Σxi = 78,00Σxi2 = 650,00 X = 6,50 Σyi = 110,70Σyi2 = 1039,55 Y = 9,225 S XX = ∑ x i2 − (∑ xi ) n = 143,00 SYY = ∑ y i2 − (∑ y i ) n = 18,34 2 2 S XY = ∑ x i y i − (∑ x i )(∑ y i ) n = −46,45 Estimativa dos parâmetros: b1 = SXY / SXX = -46,45 / 143,00 = -0,325 b0 = Y − b1 X = 9,225 - (-0,325) 6,50 = 11,34 Equação de regressão Y = 11,34 - 0,325 X RELAÇÃO ENTRE O COEFICIENTE DE CORRELAÇÃO E A REGRESSÃO O valor de r é um valor sem dimensão, que apenas fornece uma idéia da relação linear entre duas variáveis. No caso de regressão, além de se ter uma idéia da relação entre as duas variáveis, também se encontra uma equação que pode ser usada para fornecer estimativas. Pode ser demonstrado que existe a seguinte relação: Eq 171: S2 = ( ) n −1 1 − r 2 S 2y n−2 onde S2 é a variância dos desvios em relação ao modelo, e variância dos valores de Y. Se n é grande, temos: Eq 172: ( ) S 2 ≅ 1 − r 2 S 2y S y2 éa Estatística Industrial 9. Regressão linear simples Yi (Y$i − Y ) Y Figura 41 - Decomposição dos resíduos Y= bo+b1 X (Yi − Y$i ) (Yi − Y ) 109 Xi X Nessa forma observamos que r2 equivale a proporção da variabilidade dos valores de Y que pode ser atribuída à regressão com a variável X. r2 é conhecido como coeficiente de Determinação. Para o exemplo analisado resultou r =(-0,907)2 = 0,82, ou seja, 82% da variabilidade nos resultados de rendimento de combustível pode ser devida ao tempo decorrido após a regulagem e 18% da variabilidade total é devido a outros fatores que não foram investigados. Também pode ser demonstrado que: Eq 173: r = b1 SX / SY Assim, dado um conjunto de pares (x,y), conhecida a inclinação b1, é possível calcular o coeficiente de correlação r, ou vice-versa. VARIÂNCIA DOS ESTIMADORES Para verificar a precisão das estimativas, determinar intervalos de confiança e testar hipóteses é importante conhecer a variância dos estimadores. Pode ser demonstrado que uma estimativa da variância residual, σ2, vem dada por Eq 174: S2 = SQR / (n-2) onde: Eq 175: 2 SQR = ∑ [ yi − (b0 + b1xi )] = SYY − b1S XY E a partir de σ2 obtém-se as estimativas das variâncias de b1 e b0: INTERVALOS DE Eq 176: Sb21 = S 2 S XX Eq 177: 1 X 2 Sb2 0 = S 2 + n S XX Como os resíduos de Y supostamente seguem a distribuição Normal, e 110 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS CONFIANÇA E TESTES DE HIPÓTESE como os valores de b0 e b1 são funções lineares de Y, é possível demonstrar que: ) ( b1 → N (β1, σ b21 ) b0 → N β 0 , σ b2 0 Esses resultados podem ser usados em testes de hipótese. Por exemplo, se a hipótese é: H 0 : β1 = β10 H 1 : β1 ≠ β10 então calcula-se: Eq 178: Z = (b1 - β 10) / σb1 e, para um nível de probabilidade α, H0 será rejeitada se resultar Z > Z α / 2 . Como em geral a variância S2 não é conhecida, usa-se: Eq 179: t = (b1 - β 10) / Sb1 e nesse caso H0 é rejeitada se t > tα / 2,n − 2 . O intervalo de confiança para β1 virá dado por Eq 180: b1 − tα / 2 S b 1 < β1 < b1 + tα / 2 S b 1 Uma hipótese testada com freqüência é: H 0 : β1 = 0 H 1 : β1 ≠ 0 Isto é, testa-se se a inclinação é igual a zero, o que equivale a testar se existe uma relação entre Y e X. Usando a eq. (2) tem-se: Eq 181: t = b1 / Sb1 o qual deve ser comparado com o valor tabelado tα / 2,n − 2 . Como sempre, H0 será rejeitado se t > tα / 2,n − 2 . Exemplo 9.3 Usando os dados do problema do rendimento de combustível, obtenha as estimativas para a variância residual e para a variância dos parâmetros b0 e b1. Construa um intervalo de confiança para a inclinação b1 e verifique a hipótese H 0 : β 1 = 0 . Estimativa das variâncias SQR = SYY − b1 S XY = 3,24 Estatística Industrial 9. Regressão linear simples S 2 = SQR /( n − 2) = 0,324 ; S b21 = S 2 / S XX = 0,00227 X2 2 2 1 Sb 0 = S + n S XX 111 S = 0,569 ; = 0,123 ; S b 1 = 0,0476 S b 0 = 0,351 Intervalo de confiança para b1 t0,025;10 = 2,228 - 0,325 - 2,228 (0,0476)< β1 <- 0,325 + 2,228 (0,0476) - 0,431< β1 <- 0,219 Como esse intervalo não inclui o zero, a hipótese β1 = 0 é rejeitada, ou seja, existe uma relação entre o rendimento de combustível e o tempo decorrido após a regulagem. PREVISÃO DE VALORES DE Y A análise de regressão produz uma relação entre as variáveis consideradas, a qual pode ser usada para prever valores de Y. Dado um certo valor de X = x0, há dois tipos de previsão: previsão de um valor médio de Y e previsão de um valor individual de Y. Nos dois casos a estimativa pontual de Y é a mesma, mas a amplitude do intervalo de confiança é diferente. O intervalo de confiança é mais amplo para o caso de previsões de valores individuais. Previsão de um valor médio de Y A variância dos valores preditos irá depender não somente de S2, mas também do valor de x0. Isso acontece porque as previsões são mais precisas quando x0 ∼ X e menos precisas quando x0 aproxima-se dos extremos investigados. Pode ser demonstrado que a variância da previsão de um valor médio de Y vem dada por: ( 1 x − X 2 = S2 + 0 Eq 182: S Yp S XX n )2 Como pode ser visto, a variância da previsão é mínima quando x0 = X e aumenta quando x0 afasta-se de X . Assim, o intervalo de confiança para a previsão de um valor médio virá dado por: Eq 183: µY = (b0 + b1 X0) ± tα/2 ; n-2 Previsão de um valor individual de Y S Y p A variância da previsão de valores individuais de Y segue o mesmo comportamento observado para os valores médios. Contudo, a variância é maior no caso de valores individuais. Pode ser demonstrado que a variância da previsão de um valor individual de Y vem dada por: 112 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS ( )2 1 x −X 2 2 0 Eq 184: SYp = S 1 + + S XX n De modo que o intervalo de confiança para a previsão de um valor individual de Y é: Eq 185: Y = (b0 + b1 X0) ± tα/2 ; n-2 Exemplo 9.4 (S ) Yp Usando os dados do problema do rendimento de combustível, obtenha os intervalos de confiança de 95% para a previsão de um valor médio e um valor individual de Y para um tempo x0 = 8 meses. (b0 + b1 x0) = 8,74; (x0 − X )2 = 0,0157 S XX 1 = 0,324 + 0,0157 = 0,0321 ; Y p 12 1 SY2 p = 0,324 1 + + 0,0157 = 0,356 ; 12 S2 S Y p = 0,179 SY p = 0,597 Valor médio para x0 = 8 µY = 8,74 ± 2,228 . (0,179) µY = 8,74 ± 0,399 Valor individual para x0 = 8 Y = 8,74 ± 2,228 . (0,597) Y = 8,74 ± 1,33 12 Co 11 10 9 8 7 0 Figura 42 - Intervalo de Confiança de 95% ANÁLISE DA VALIDADE 2 4 6 8 10 12 Tempo após a regulagem A adequação do ajuste e as suposições do modelo podem ser verificadas Estatística Industrial 9. Regressão linear simples DO MODELO 113 através de uma análise dos resíduos. Os resíduos padronizados são calculados como: y i − (b0 + b1 x i ) S Eq 186: R = i SQR = SYY − b1SXY S2 = SQR / n − 2 Adequação do ajuste A adequação do ajuste é testada plotando os resíduos em função de X. Se o ajuste for bom, os resíduos seguirão um padrão aleatório. Caso contrário, alguma tendência curvilíneo será observada. Na Figura 43, (a) representa uma situação onde o ajuste é adequado, enquanto que (b) representa uma situação onde o modelo linear não se ajusta bem aos dados. 2 2 1 1 Re 0 Re 0 -1 -1 -2 -2 0 4 8 12 16 0 20 8 12 16 20 X X Figura 43 - Análise de resíduos. 4 (a) (b) Se o modelo linear não fornece um bom ajuste, as vezes o problema pode ser contornado trabalhando-se com valores transformados de X ou Y, por exemplo, Eq 187: Homogeneidade da variância Y = b0 + b1 X Y = b0 + b1 X ∗ onde X∗ = X A suposição de homogeneidade da variância σ2 ao longo de todo o intervalo de X também pode ser verificada analisando o gráfico de Resíduos × X. A Figura 44 apresenta duas situações: (a) onde verifica-se a suposição de homogeneidade, e (b) onde essa suposição é violada. 114 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS 3 2 2 1 1 Re 0 Re 0 -1 -1 -2 -2 Figura 44 - Verificação da homogeneidade da variância. 0 (a) 4 8 -3 12 16 20 X 0 4 8 X 12 16 20 (b) Se a suposição de homogeneidade da variância é rejeitada, pode-se usar o método da regressão linear ponderada, onde se busca os valores de β0 e β1 que minimizam Eq 188: L = Σ wi (yi - (b0 + b1 xi))2 Nesse caso, os pesos wi são inversamente proporcionais à variância. Normalidade dos Resíduos O teste da normalidade da distribuição dos resíduos pode ser feito plotando-se os resíduos em papel de probabilidade ou utilizando testes analíticos de normalidade, como o teste do Chi-quadrado ou o teste de Kolmorov-Smirnov. Se a suposição de normalidade é rejeitada, muitas vezes uma transformação matemática nos valores de X e Y (logaritmo, inverso, raiz quadrada) irá gerar valores transformados com resíduos normalmente distribuídos. Então o problema é analisado no espaço das variáveis transformadas e ao final retorna-se ao espaço original. INTERVALO DE VARIAÇÃO PARA X A variância da inclinação b1 aumenta quando se reduz o intervalo de variação de X. Se o intervalo é pequeno, Sb1 será grande e nesse caso será difícil rejeitar a hipótese H0 : b1 = 0. Em outras palavras, se a relação entre X e Y é medida em um intervalo reduzido de X, os parâmetros estimados não terão muito significado estatístico. Se o objetivo é construir um modelo de regressão, deve-se coletar dados nos extremos do intervalo de X, ou seja, nos limites do interesse e viabilidade práticos ou nos limites em que se supõem válida a relação linear. A ANÁLISE DE VARIÂNCIA E A REGRESSÃO A análise de variância também é aplicável aos problemas de regressão. Na regressão simples, podemos decompor os resíduos da seguinte maneira: Eq 189: (Yi − Y ) = [ y i − (b0 + b1 X i )] + [(b0 + b1 X i ) − Y ] Elevando ao quadrado e somando, obtém-se: Eq 190: ∑ (Yi − Y ) 2 = ∑ [ y i − (b0 + b1 X i )]2 + ∑ [(b0 + b1 X i ) − Y ] 2 Estatística Industrial 9. Regressão linear simples 115 Uma vez que ;o produto cruzado resulta nulo. Essa equação também pode ser escrita como: SYY = SQR + SQReg Cujos graus de liberdade valem respectivamente: (n - 1) = (n - 2) + 1 Assim, a média quadrada associada com o modelo de regressão e a média quadrada dos resíduos resultam: MQReg = SQReg / 1 MQR = SQR / (n - 2) E o teste F é feito comparando MQReg, com MQR, ou seja, F = MQReg / MQR A hipótese nula, H0 : β1 = 0, será rejeitada sempre que F > Fα, 1, n-2 A Tabela 12 apresenta a tabela ANOVA, contendo o formulário prático para o cálculo das Somas Quadradas e os demais desenvolvimentos até o teste F. Tabela 12 - Tabela ANOVA para a análise de regressão. Exemplo 9.5 Fonte de Variação SQ GDL MQ F Regressão SQReg = b1 SXY 1 MQReg MQReg/MQR Residual SQR=SYY b1SXY n-2 MQR Total SYY n-1 Faça a análise de variância para o problema do rendimento de combustível e confirme a significância do modelo de regressão linear. Solução: Já tínhamos calculado as Somas Quadradas SYY e SQR como: SYY = 18,34;SXY = - 46,45;b1 = - 0,325 SQR = 3,24; Assim SQReg = b1 SXY = - 0,325 (- 46,45) = 15,10 De modo que a ANOVA resulta conforme aparece na Tabela 13. 116 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Tabela 13 - Tabela ANOVA para o exemplo do combustível. Fonte de Variação SQ GDL MQ F Regressão 15,10 1 15,10 46,6 Residual 3,24 10 0,324 Total 18,34 11 O valor de F calculado (46,6) é muito maior que o tabelado (4,96) e assim confirma-se a significância do modelo. Nota: o coeficiente de determinação r2 também pode ser calculado usando: r2 = DADOS ATÍPICOS SQ Re g 15,10 = = 0,82 ou 82% SYY 18,34 Algumas vezes, o conjunto de dados pode estar contaminado com alguns dados atípicos. Esses dados atípicos podem ser o resultado do efeito de algum fator externo ao estudo, ou podem ser simplesmente um erro de leitura e registro. Existe um procedimento para testar a significância de um dado atípico. Este procedimento (ver Snedcor (1982)) está baseado na determinação de uma nova equação, com o dado atípico eliminado, seguido de um teste de hipótese comparando os valores preditos pela equação original com aqueles preditos pela nova equação. Se o conjunto pode estar contaminado por vários dados atípicos, a solução será usar técnicas de regressão robusta. Neste tipo de análise, é dado um peso menor aqueles dados que se afastam do conjunto. Por exemplo, uma alternativa é minimizar Eq 191: L = Σ wi [yi - (b0 + b1 xi)]2 onde os pesos wi são proporcionais ao inverso do resíduo Ri, e a solução é obtida após algumas iterações. REGRESSÃO NÃO LINEAR SIMPLES Se o ajuste linear é deficiente, muitas vezes é possível encontrar uma solução aproximada, e em geral satisfatória, utilizando uma transformação em X e/ou em Y. Em forma genérica, teríamos: Eq 192: f(y) = b0 + b1 g(X) + ε Eq 193: Y* = b0 + b1 X* + ε Os possíveis valores de Y* = f(y) seriam y, 1/y, y2, ln y, etc. Igualmente, para X* = g(x) poderíamos usar x, 1/x, x2, ln x, etc. Uma vez definida a transformação, e confirmada em um gráfico de Estatística Industrial 9. Regressão linear simples 117 dispersão a relação aproximadamente linear entre Y* e X*, poderia se usar o método apresentado anteriormente para obter-se as estimativas de β0 e β1. Note-se que o método dos mínimos quadrados aplicado aos valores transformados, isto é, minimizando: L = Σ [ f (yi) - (b0 + bi g (xi))]2 não vai fornecer os mesmos resultados que seriam obtidos minimizando: L = Σ [ yi - h (xi)]2 onde h (x) é uma função não linear de x. Contudo, as diferenças em geral são pequenas e não comprometem a análise. Exercícios Em um processo químico a quantidade de sólidos depositada pode depender da concentração de um componente A que é adicionado à mistura. Ajuste um modelo de regressão linear aos dados que aparecem a seguir. Depois plote a reta de regressão e os valores observados Exercício 9.1 Conc. 0 Depos. 0 0 2 2 2 4 4 4 6 6 6 8 8 8 13,3 11,5 12,9 14,1 13,3 16,1 14,9 15,9 18,1 17,5 16,5 18,9 20,3 18,5 20,2 Exercício 9.2 Para os dados do exercício 9.1, calcule a variância residual e a variância dos parâmetros b0 e b1. Após construa um intervalo de confiança de 95% para a inclinação b1 e verifique a hipótese H0 : β1 = 0 Exercício 9.3 Calcule os resíduos padronizados Ri = [Yi - (b0 + b1 Xi)] / S para os dados do exercício 9.1. Em seguida, plote um gráfico de Resíduos × X e verifique se há evidências de falta de ajuste do modelo linear ou falta de homogeneidade da variância. Exercício 9.4 Ainda em relação aos dados do exercício 9.1, calcule os intervalos de confiança para um valor médio e para um valor individual de Y usando x0 = 0 e x0 = 8. Exercício 9.5 Um torno mecânico pode ser operado a diversas velocidades. Contudo, a qualidade do acabamento, ou seja, a rugosidade superficial, pode piorar com o aumento da velocidade de operação. Ajuste um modelo de regressão linear aos dados que aparecem a seguir e depois plote a reta de regressão e os valores observados. Velocidade 3 3 3 6 6 6 9 9 9 12 12 12 Rugosidade 26,0 21,5 33,5 36,0 27,5 37,0 41,5 28,0 39,5 43,0 37,0 50,5 Exercício 9.6 Para os dados do exercício 9.5, calcule a variância residual e a variância dos parâmetros b0 e b1. Após construa um intervalo de confiança de 95% para a inclinação b1 e verifique a hipótese da existência de uma relação entre velocidade e rugosidade superficial. 118 Regressão linear simples 9. Regressão linear simples José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Exercício 9.7 Faça a análise de variância para os dados do exercício 9.5 e confirme a significância do modelo de regressão linear. Em seguida calcule o valor do coeficiente de determinação e indique qual o significado técnico desse coeficiente para o problema em questão. Exercício 9.8 O gerente de uma indústria localizada em um país tropical suspeita que há uma correlação entre a temperatura do dia e produtividade. Dados coletados aleatoriamente ao longo de um período de seis meses revelaram o seguinte. Temperatura 21,2 20,3 22,7 22,0 22,3 23,5 24,8 24,2 25,5 25,2 25,5 25,8 Produtividade 142 Temperatura 27,5 26,3 28,2 28,6 29,0 29,7 30,7 30,3 30,2 31,4 32,5 32,7 Produtividade 132 148 137 131 124 132 117 145 122 138 131 144 124 136 111 141 119 124 129 133 123 128 116 Calcule o valor do coeficiente de correlação entre a Temperatura e a produtividade e verifique a hipótese H0 : ρ = 0. Depois plote um gráfico de dispersão e visualize a natureza da correlação entre Temperatura e Produtividade. Exercício 9.9 A análise de 20 pares de valores indicou que a resistência à tração (Y) de uma fibra sintética usada na indústria têxtil guarda uma relação linear com a percentagem de algodão (X) presente na fibra. A equação obtida foi Y = 35,7 + 0,85X (X fornecido em percentagem, equação válida para o intervalo de X entre 20 e 35%). Conhecidos os valores das Somas Quadradas SXY=43,68 e SYY=79,43 pede-se: a) Faça a análise de Variância e conclua a respeito da significância do modelo. b) Calcule o valor do coeficiente de determinação r2 e indique qual o seu significado técnico. Exercício 9.10 Vol. de Tráfego 3 Um sofisticado simulador estocástico de tráfego fornece a velocidade média em avenidas de uma metrópole em função do volume de automóveis. O resultado de 14 simulações revelou o seguinte: 3 5 5 10 10 15 15 20 20 25 25 Velocid. Média 95,6 93,8 74,4 74,8 50,5 51,5 44,6 42,4 35,8 38,7 32,0 3,2 30 30 30,1 29,1 Ajuste um modelo linear a esses dados e ache a equação de regressão Y = b 0+ b 1 X Exercício 9.11 Calcule os resíduos padronizados para os dados do exercício 9.10. Após, plote um gráfico de Resíduos × X e verifique se há evidências de falta de ajuste do modelo linear. Exercício 9.12 Utilize o seguinte modelo para ajustar os dados do exercício 9.10 Y=b0 + Estatística Industrial 9. Regressão linear simples 119 b1 (1 / √ X). Estime o valor dos coeficientes b0 e b1 para esse modelo não linear e depois repita a análise de resíduos pedida em 9.11 verificando se para o presente modelo há evidências de falta de ajuste. 10 Regressão linear múltipla José Luis Duarte Ribeiro Carla ten Caten Muitos problemas de regressão envolvem mais de uma variável regressora. Por exemplo, a qualidade de um processo químico pode depender da temperatura, pressão e taxa de agitação. Nesse caso há três variáveis regressoras. O MODELO DA REGRESSÃO LINEAR MÚLTIPLA Eq 194 : O modelo geral da regressão linear múltipla é: Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + ε O problema então é estimar o valor dos coeficientes βi a partir de um conjunto de dados, conforme o esquema apresentado na Tabela 14. Tabela 14 - Apresentação de um conjunto de dados. Y X2 X1 .... Xk y1 x12 x11 .... x1k y2 x22 x21 .... x2k . . . . . . . . . . . . . . . yn xn2 xn1 .... xnk Novamente, o método dos mínimos quadrados é usado para minimizar: Eq 195: [ ( L = ∑ y j − b0 + b1 x1 j + ... + bk x kj )]2 Observa-se que a aplicação do método dos mínimos quadrados fica simplificada se o modelo da Eq 194 é escrito como: Eq 196: Y = β 0, + β1 ( X 1 − x1 ) + ... + β k ( X k − xk ) + ε nesse caso é fácil demostrar que: Eq 197: β 0, = β 0 + β1 x1 + ... + β k x k enquanto que os demais coeficientes β1,...,βk ficam inalterados. O que está sendo feito é simplesmente eliminar o valor médio das variáveis regressoras. Além de simplificar a estimativa dos coeficientes, o uso do Estatística Industrial 10. Regressão linear múltipla 121 modelo da Eq 196 também facilita outras tarefas associadas a inferências. Usando a Eq 196 , a função a ser minimizada é: Eq 198: NOTAÇÃO MATRICIAL [ ( ( ) ( L = ∑ yi − b0, + b1 x1 j − x1 + ... + bk x kj − x k ))]2 Para lidar com o problema de regressão linear múltipla, é mais conveniente usar notação matricial, pois assim tem-se uma apresentação muito compacta dos dados, do modelo e dos resultados. Em notação matricial o modelo da Eq 196 aparece representado como: Eq 199: Y = Xβ + ε onde: β , 1 (x11 − x1 ) ... ( x k1 − x k ) Y1 ε 1 0 . . . . . . ; β = . ; ε = . . . Eq 200: Y = . ; X = . . . . . . . 1 (x1n − x1 ) ... (x kn − x k ) Yn ε n β k Genericamente, tem-se que Y é o vetor n x 1 das observações, X é a matriz n x p com os níveis das variáveis regressoras, β é o vetor p x 1 com os coeficientes da regressão e ε é o vetor n x 1 com os erros aleatórios. (Sendo p = k + 1). ESTIMATIVA DOS COEFICIENTES Pode ser demonstrado que a aplicação do método dos mínimos quadrados conduz a seguinte solução: Eq 201: b = ( X ' X )−1 X ' Y onde b é o vetor p x 1 com as estimativas dos coeficientes β. A solução da Eq 199 irá existir sempre que as variáveis regressoras forem linearmente independentes. (Nota: as variáveis regressoras não serão independentes quando uma coluna da matriz X for uma combinação linear de outras colunas). Exemplo 10.1 ver (Montgomery (1984)) Um distribuidor de cerveja está analisando seu sistema de distribuição. Especificamente ele está interessado em prever o tempo requerido para atender um ponto de venda. O engenheiro industrial acredita que os dois fatores mais importantes são o número de caixas de cerveja fornecidas e a distância do depósito ao posto de venda. Os dados coletados aparecem na Tabela 15. 122 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS X1: No de caixas X2: Distância Y: Tempo 10 30 24 15 25 27 10 40 29 20 18 31 25 22 25 18 31 33 12 26 26 14 34 28 16 29 31 22 37 39 24 20 33 17 25 30 13 27 25 30 23 42 24 33 40 Tabela 15 - Exemplo do distribuidor de cervejas. Solução: Escolhemos ajustar o seguinte modelo a esses dados: Eq 202: ( ) ( ) Y = β 0, + β1 X 1 − x + β 2 X 2 − x + ε Desde que x1 = 18 e x 2 = 28 , esse modelo em notação matricial é: Estatística Industrial 10. Regressão linear múltipla 24 1 - 8 2 27 1 - 3 - 3 29 1 - 8 12 31 1 2 - 10 25 1 7 - 6 33 1 0 3 26 1 - 6 - 2 28 = 1 - 4 6 31 1 - 2 1 39 1 4 9 33 1 6 - 8 30 1 - 1 - 3 25 1 - 5 - 1 42 1 12 - 5 40 1 6 5 123 ε1 ε 2 ε 3 ε 4 ε 5 ε 6 , β ε 0 7 β1 + ε 8 β ε 2 9 ε10 ε11 ε12 ε13 ε14 ε15 E usando as regras para produto e inversão de matriz, obtemos: 0 15 0 X X = 0 504 - 213 ; 0 - 213 548 463 X Y = 345 63 , , e −1 (X ' X ) 0,06667 = 0 0 0 0,002374 0,0009228 0 0,0009228 0,002183 De forma que o vetor das estimativas dos coeficientes resulta: b, 30,87 0 −1 b = b1 = ( X ' X ) X ' Y = 0,8772 b 0 , 4559 2 E o modelo de regressão é: Yˆ = 30,87 + 0,8772( X 1 − 18) + 0,4559( X 2 − 28) ou Yˆ = 2,315 + 0,8772 X 1 + 0,4559 X 2 A tabela a seguir apresenta os valores observados, os valores previstos pelo modelo e os respectivos resíduos r j = Y j − Yˆ j . 124 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Tabela 16 - Valores observados, valores previstos e resíduos. Yj Y$j rj = Yj − Y$j 24 24,76 -0,76 27 26,87 0,13 29 29,32 -0,32 31 28,06 2,94 25 34,27 -9,27 33 32,23 0,77 26 24,69 1,31 28 30,09 -2,09 31 29,57 1,43 39 38,48 0,52 38 32,48 0,52 30 28,62 1,38 25 26,02 -1,02 42 39,11 2,89 40 38,41 1,59 Para testar se o ajuste é adequado, os resíduos poderiam ser plotados em função de Y$ , em função de X1 ou em função de X2 . Os resíduos também poderiam ser plotados em papel de probabilidade, para testar a suposição de normalidade. Resíduos x X1 Resíduos x X2 10 10 6 6 2 Re -6 ( ) -10 10 14 18 22 26 -2 <= -2 -6 <= Re 2 ( ) -10 18 30 22 26 30 X1 99.9 99 95 80 50 20 5 1 0.1 6 2 <= Figura 45 - Gráficos do distribuidor de cervejas. ( ) -10 24 27 30 33 42 Papel de Probabilidade Y$ 10 -2 -6 38 36 39 Valor predito de Y 42 <= Resíduos x Re 34 X2 ( ) -10 -7 -4 -1 2 5 Resíduos Qualquer um desses gráficos iria evidenciar que a observação da linha 5 é, sem dúvida, um dado atípico. Estatística Industrial 10. Regressão linear múltipla 125 Se houver registro de alguma causa especial que tenha afetado esta entrega em particular, essa observação poderia ser eliminada do conjunto e a análise poderia ser refeita, possivelmente fornecendo um modelo mais preciso. Exemplo 10.2 (ver Montgomery (1984)) Esse exemplo ilustra o uso da Análise de Regressão em conjunto com Projeto de Experimentos. O ganho em um processo químico está sendo estudado. O engenheiro escolheu 3 fatores (temperatura, pressão e concentração) e rodou um experimento fixando cada um desses fatores a dois níveis. Os dados aparecem a seguir. Vejam que os níveis dos fatores foram codificados como -1 (nível baixo) e +1 (nível alto). Tabela 17 - Valores observados em um processo químico. Ganho % X1 (Temp.) X2 Pressão) X3 (Concent.) 32 -1 -1 -1 36 -1 -1 1 57 -1 1 -1 46 1 -1 -1 65 1 1 -1 57 -1 1 1 48 1 -1 1 68 1 1 1 Solução: Escolhemos ajustar o seguinte modelo ( X i = 0 ) Y = β0 + β1X1 + β2X2 + β3X3 + ε As matrizes X’X e X’Y resultam: 8 0 ' X X = 0 0 0 0 0 8 0 0 = 8 I4 ; 0 8 0 0 0 8 409 45 X 'Y = 85 9 E como X’X é diagonal, a sua inversa (X’X)-1=(1/8)I4 . Assim as estimativas dos coeficientes resultam: b0 51,125 b 5,625 b= 1= b2 10,625 b3 1,125 E o modelo de regressão é: 126 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Yˆ = 51,125 + 5,625 X 1 + 10,625 X 2 + 1,125 X 3 Nesse exemplo a matriz inversa é fácil de obter porque X’X é diagonal. Há várias vantagens quando X’X é diagonal. Os cálculos são mais fáceis e a estimativa dos coeficientes está livre de qualquer correlação [ Cov (bi,bj) = 0 ]. Se nós podemos escolher os níveis de Xi é vantajoso fazer essa escolha de modo a obter X’X diagonal. Projetos de Experimentos que apresentam essa propriedade são chamados de projetos ortogonais. Um exemplo de projetos desse tipo é a classe dos projetos 2k. Esses projetos têm sido usados com freqüência crescente no meio industrial. MATRIZ DE VARIÂNCIAS E COVARIÂNCIAS A matriz (X’X)-1 é chamada de matriz de variâncias e covariâncias. É uma matriz simétrica de ordem p x p e seus elementos são usados na determinação das variâncias Sij2. Usando a notação: C 00 C 10 . -1 Eq 203: (X' X) = . . C k0 C 01 ... C 0k C11 ... C1k . . . . . . C k1 ... C kk É possível demonstrar que: Eq 204: Var(bi) = Cii S2 i = 0,...,k Eq 205: Covar(bi,bj) = Cij S2 i,j = 0,...,k onde S2 é a variância residual, associada com os desvios em relação ao hiperplano do modelo de regressão: Eq 206: ( ) 2 (n − k − 1) ;j = 1,n S 2 = ∑ Y j − Yˆ j A partir da matriz de variâncias e covariâncias também é possível encontrar a matriz de correlação, uma vez que têm-se: Eq 207: rij = Cij Cii C jj ;i,j = 0,...,k onde, naturalmente, para i = j tem-se rii = 1 . A matriz de correlações também é simétrica, de ordem p x p : Estatística Industrial 10. Regressão linear múltipla 1 r 10 . Eq 208: K = . . rk 0 127 r01 ... r0k 1 ... r1k . . . . . . rk1 ... 1 A matriz de correlações R é útil para detectar problemas de multicolinearidade. Se um coeficiente rij qualquer fora da diagonal tiver módulo ≅ 1,0 teremos uma dependência entre as variáveis independentes i e j. Nesse caso, a estimativa dos coeficientes associados às variáveis i e j estará comprometida. (Não é possível distinguir se o efeito sobre a variável de resposta se deve a variável regressora i ou j, uma vez que elas estão variando sempre no mesmo sentido). O ideal é que a matriz de correlações seja diagonal, com zeros ou valores próximos de zeros nas posições fora da diagonal. Isso assegura estimativas não-confundidas dos diversos coeficientes βi . TESTES DE HIPÓTESE Para construir os testes de hipótese relativos a regressão múltipla, vamos supor que os resíduos εj sigam o modelo normal com média 0 e variância S2 . Há dois tipos de teste que podem ser feitos: testes individuais sobre a significância de cada parâmetro bj e um teste global para o modelo. Significância de cada parâmetro Eq 209: Se os resíduos seguem o modelo normal, os parâmetros bj também irão seguir esse modelo, ou seja: ( 2 b j → N β j ,σ bj ) De modo que para testar as hipóteses H0: βj = 0 H1: β j ≠ 0 Usamos a distribuição de Student, calculando Eq 210: tj = bj / Sbj Como sempre, a hipótese nula será rejeitada se Eq 211: Significância do modelo de regressão t j > tα / 2 , n − k − 1 Para testar a significância do modelo de regressão múltipla, usaremos o ( teste F. Os desvios Y j − Y ) podem ser escritos na forma: 128 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Eq 212: (Y j − Y ) = (Y j − Yˆ j ) + (Yˆ j − Y ) elevando ao quadrado e somando, obtemos: Eq 213: ∑ (Y j − Y ) 2 ( ) ( ) 2 2 = ∑ Y j − Yˆ j + ∑ Y j − Y uma vez que pode ser demonstrado que o produto cruzado é nulo. Dessa forma temos: Eq 214: SYY = SQR + SQReg onde os correspondentes GDL valem: Eq 215: (n-1) = (n-k-1) + (k) de forma que as médias quadradas resultam: Eq 216: MQR = SQR / (n-k-1) Eq 217: MQReg = SQReg / k e usamos, Eq 218: F = MQR / MQReg para testar a significância do modelo. A hipótese (inexistência de relação entre X e Y ) deve ser rejeitada se resultar, F > Fα/2, k, n-k-1 para o cálculo das somas quadradas as seguintes fórmulas práticas podem ser usadas: Eq 219: SYY = n ∑ j =1 n y ∑ j j =1 y 2j − 2 n k Eq 220: SQR = SYY − ∑ bi Siy i =1 k Eq 221: SQReg = ∑ bi Siy i =1 Eq 222: onde os valores Siy aparecem no vetor X’Y , ou seja, Estatística Industrial 10. Regressão linear múltipla 129 ∑Y j S1 y . Eq 223: X ' Y = . . S ky A fórmula para o cálculo do coeficiente de determinação r2 é a mesma COEFICIENTES DE DETERMINAÇÃO PARA O apresentada ao final do capítulo 9, ou seja: MODELO DE REGRESSÃO MÚLTIPLA Eq 224: r2 = SQReg SYY O coeficiente r2 indica a percentagem da variabilidade total que é explicada pelo modelo de regressão. Se r2 =1, todas as observações estarão sobre o hiperplano definido pelo modelo. Se r2 = 0 , não há nenhuma relação entre a variável de resposta e as variáveis regressoras. Exemplo 10.3 Para o problema da distribuição das caixas de cerveja, pede-se: Apresente a matriz de variâncias e covariâncias e a matriz de correlação; Calcule a variância residual S2 e a variância de b1, Sb12; Teste de significância de b1; Teste a significância do modelo; Calcule o coeficiente de determinação; Solução: A matriz de variâncias e covariâncias é a matriz (X’X)-1 , enquanto que a matriz de correlações é obtida dividindo os termos da matriz X’X pelos correspondentes termos da diagonal. Assim, −1 (X ' X ) 0 0,06667 = 0 0,002374 0,0009228 0 0 0 1 r= 0 1 0,405 1 0 0,405 Para calcular S2 e Sb12 , usamos: 0 0,0009228 0,002183 130 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS ( ) 2 S 2 = ∑ Yi − Yˆ (n − k − 1) = 118,37 12 = 9,86 S b21 = S 2C11 = 9,86(0,002374 ) = 0,0234 ; S b1 = 0,153 o teste de significância para b1 é: t1 = b1 / Sb1 = 0,8772 / 0,153 = 5,73 t1 = 5,73 > t0,025;12 = 2,179⇒rejeita-se a hipótese nula O teste de significância para o modelo é feito usando a tabela ANOVA. SYY = Σyj2 - (Σyj)2 / n = 449,73 SQReg = b1S1y + b2S2y = 331,36 SQR = SYY - SQReg = 118,37 Fonte SQ GDL MQ F Modelo 331,36 2 165,58 16,80 Residual 118,37 12 9,86 449,73 14 Tabela 18 - Tabela ANOVA Total F = 16,80 > F0,05;2;12 = 3,89; rejeita-se a hipótese nula E nesse exemplo o coeficiente de determinação vale SQReg/SYY = 0,737; ou seja 73,7% da variabilidade total no tempo de entrega é explicada pela relação que essa variável mantém com o número de caixas e a distância do posto de vendas. PREVISÃO DE VALORES DE Y Assim como o caso da regressão simples, a relação encontrada pode ser usada para a previsão de um valor médio ou individual de Y. Seja: X 10 X 20 . Eq 225: X 0 = . . X k0 Eq 226: Yˆ0 = b0 + b1 X10 + ... + bk X k 0 Pode ser demonstrado o intervalo de confiança de 100(1-α)% para um valor médio e individual de Y são, respectivamente: Valor médio: Estatística Industrial 10. Regressão linear múltipla Eq 227: ( 131 )1 Yˆ0 ± tα / 2,n − k −1 S 2 X 0, ( X ' X )−1 2 Valor individual.: Eq 228: ( )1 Yˆ0 ± tα / 2,n − k −1 S 2 1 + X 0, ( X ' X ) −1 X 0 2 O fator que multiplica tα/2 nas fórmulas acima corresponde ao erro de previsão. A divisão desse fator por Yˆ0 produz o coeficiente de variação da previsão. ANÁLISE DAS SUPOSIÇÕES DO MODELO DE REGRESSÃO Nas seções anteriores foi feita a suposição ε → N(0,σ2) , ou seja, supõese normalidade na distribuição dos resíduos e homogeneidade da variância residual. A suposição de normalidade dos resíduos pode ser testada por testes gráficos (papel de probabilidade) ou analíticos (teste do Chi-quadrado, Kolmogorov-Smirnov, etc.). Para o teste de normalidade, usa-se os resíduos padronizados: Eq 229: [ ] R j = Y j − Yˆ j S 2 onde: Eq 230: Ŷj = b0 + b1 X 1 j + ... + bk X kj Para examinar se o erro padrão da estimativa é constante, analisa-se os gráficos R j × Yˆ j e R j × X i . Se a suposição de normalidade ou de homogeneidade não forem satisfeitas, muitas vezes é possível contornar o problema aplicando certas transformações matemáticas aos dados. Os resíduos também podem ser analisados para verificar a existência de dados atípicos. REGRESSÃO POLINOMIAL O modelo aditivo Y = Xβ + ε é um modelo geral e pode ser usado para ajustar qualquer relação que seja linear com referência aos parâmetros desconhecidos β. Veja que a exigência de linearidade refere-se a β e não a X. Assim, o modelo pode ser usado para ajustar um polinômio de ordem k em uma variável: Eq 231: Y = β 0 + β 1x + β 2x2 + ... + βkxk + ε ou então para ajustar um polinômio de segundo grau em duas variáveis: Eq 232: Y = β 0 + β 1 x1 + β 2 x2 + β 3 x12 + β 4 x22 + β 5 x1 x2 + ε O uso do modelo Y = Xβ + ε para ajustar um polinômio é ilustrado a seguir. Exemplo 10.4 (ver Montgomery (1984)) Pede-se para ajustar o modelo Y = β0 + β1 x + β2 x2 + ε aos dados que aparecem a seguir: 132 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Tabela 19 - Valores observados do exemplo x 1,0 1,2 1,4 1,6 1,8 2 y 6,15 7,90 9,40 10,50 11,00 14,00 Em notação matricial, usando X − X , tem-se: 6,15 7,90 9,40 Eq 233: Y = 10,50 11,00 14,00 1 - 0,5 0,25 1 - 0,3 0,09 1 - 0,1 0,01 X= 0,1 0,01 1 1 0,3 0,09 0,5 0,25 1 β0 β = β1 β 2 As matrizes X’X e X’Y resultam: 6,0 Eq 234: X ' X = 0,0 0,7 0,0 0,7 0,7 0,0 ; 0,0 0,1414 58,95 X' Y = 4,965 6,938 De modo que as estimativas de β são: Eq 235: −1 b = (X ' X ) - 1,9527 58,95 9,70 0,3945 φ φ φ 4,965 = 7,08 X 'Y = 1,4286 16,737 6,938 1,00 − 1,9527 φ Assim o modelo de regressão: Eq 236: ( ) ( ) 2 Yˆ = 9,70 + 7,08 X − X + 1,00 X − X ou Eq 237: Yˆ = 1,33 + 4,08 X + 1,00 X 2 Esse método geral pode ser usado para ajustar dados que tenham um formato qualquer. No entanto, se os níveis das variáveis regressoras forem eqüidistantes, então o uso de polinômios ortogonais simplifica bastante o esforço de cálculo. O uso de polinômios ortogonais aparece descrito em Montgomery & PecK (1991) e Nanni & Ribeiro (1991). (1) Os polinômios são muito úteis para fornecer uma aproximação para Comentários em relação aos modelos polinomiais: relações não lineares complexas e desconhecidas. Esse tipo de aplicação aparece com freqüência na prática. (2) É importante manter a ordem do polinômio tão baixa quanto possível. Polinômios de ordem mais alta (k > 2) devem ser evitados, a menos que hajam justificativas técnicas para o seu uso. (3) Um modelo de ordem mais baixa usando variáveis transformadas é Estatística Industrial 10. Regressão linear múltipla 133 sempre preferível à modelos de ordem mais alta na métrica original. (4) Vale lembrar que sempre pode ser obtido um polinômio de ordem n1 que ajusta-se perfeitamente aos dados. Tal modelo não ajudaria em nada para a compreensão do fenômeno em estudo e nem tampouco seria um bom estimador. (5) Extrapolações com polinômios devem ser feitas com muito cuidado. Além do intervalo investigado, os polinômios podem apresentar um comportamento estranho, girando na direção oposta do esperado. (6) Na medida que cresce a ordem do polinômio, a matriz X’X torna-se mal condicionada e a precisão das estimativas diminui. Esse problema é aliviado quando se centra as variáveis regressoras, isto é, quando se usa (X ij − X i ) . (7) A matriz X’X também tende a tornar-se mal condicionada quando os valores de X estão limitados a um intervalo muito estreito. De forma geral, ampliando o intervalo de investigação, melhoram as estimativas dos coeficientes. Exercícios Exercício 10.1 A resistência de uma cera depende da quantidade de Etil-Vinil-Acetato (EVA) e da quantidade de Parafina adicionados à cera. Ajuste um modelo do tipo Y = β0 + β1 X1 + β2 X2 aos dados que aparecem a seguir X1: EVA 4 4 6 6 8 8 4 4 6 6 8 8 X2: Paraf. 8 8 8 8 8 8 12 12 12 12 12 12 Y: Resist. Exercício 10.2 28,5 26,4 33,0 32,1 35,3 36,7 36,6 34,2 37,9 39,9 42,6 44,2 Calcule o valor dos resíduos R j = Y j − Y$j para os dados do exercício anterior e a seguir analise esses resíduos plotando os gráficos: R j × Y$j , R j × X 1 , R j × X 2 . Exercício 10.3 Ainda em relação aos dados do exercício 10.1, pede-se: Apresente a matriz de variâncias e covariâncias e a matriz de correlações. Analise a matriz de correlações e indique se há indícios de mal condicionamento; Calcule a variância residual S2 e a variância de b1 e b2 ; Teste de significância de b1 e b2 ; Teste de significância do modelo; Calcule o coeficiente de determinação e indique o seu significado técnico; Exercício 10.4 Considere os dados do exercício 8.2 e use um modelo do tipo Y = β0 + 134 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS β1 X + β2 X2 para ajustar a resistência à compressão em função da adição de microssílica. Adição Exercício 10.5 Resistência (MPa) 0% 28,1 26,5 24,3 5% 35,3 34,3 37,5 10% 39,8 44,1 42,3 15% 39,1 40,8 43,0 Considere os dados do exercício 8.5 e use o modelo do tipo Y = β0 + β1X + β2X2 para ajustar a produtividade mensal em função do intervalo entre manutenções preventivas. Intervalo Exercício 10.6 Exercício 10.7 Produtividade 4 136 137 135 140 136 6 145 146 147 147 148 8 146 144 148 145 145 10 134 131 136 134 133 12 117 119 117 115 116 Os dados a seguir mostram os valores da distribuição normal acumulada para diferentes valores da variável reduzida Z . Ajuste um modelo do tipo Y = β0 + Σβi Xi a esses dados. Após, calcule o valor da variância residual (que no caso deve-se exclusivamente à falta de ajuste) e indique se o ajuste é satisfatório para a maioria das aplicações práticas. Por fim, use o modelo para extrapolações, ou seja, calcule por exemplo F(-4) e F(+4) e indique se o modelo pode ser usado para extrapolações. Z -3 -2,5 -2,0 -1,5 -1,0 -0,5 0 0,5 1,0 F(Z) ,0013 ,0062 ,0228 ,0668 ,1587 ,3085 ,5000 ,6915 ,8413 Z 1,5 2,0 2,5 3,0 F(Z) ,9332 ,9772 ,9938 ,9987 Repita o exercício 10.1 acrescentando um termo β3 X1 X2 ao modelo. Teste a significância deste termo e conclua se há razões para mantê-lo no modelo. Bibliografia Bibliografia (as cinco bibliografias mais recomendadas estão em negrito) 1. Bowker & Lieberman, (1959), Engineering Statistics. Prentice Hall, Inc., Englewood Cliffs, New Jersey, USA. 2. Clarke, G.M. & Cook, D. (1983), A Basic Course in Statistics. 2nd ed., Edward Arnold Ltda, London. 3. Costa Neto, P. L. O. (1977), Estatística. Edgar Blücher, São Paulo. 4. Drumond, F., Werkema, M. C. C. e Aguiar, S. (1996) Análise de variância: comparação de várias situações. Universidade Federal de Minas Gerais. Escola de Engenharia, Fundação Cristiano Ottoni. 5. Duncan, A.J. (1974), Quality Control and Industrial Statistics, 4th ed., Irwin, Homewood, ILL. 6. Guttman, Wilks & Hunter (1971), Introductory Engineering Statistics. 2nd ed., John Wiley and Sons, New York. 7. Kume, H. (1993), Métodos Estatísticos para a melhoria da Qualidade; tradução de Dario Miyake; revisão técnica de Alberto Ramos. São Paulo: Editora Gene. 8. Miller, I. & Freund, J.E. (1977), Probability and Statistics for Engineers. 2nd ed., Prentice Hall, Inc., Englewood Cliffs, New Jersey, USA. 9. Montgomery, D.C. (1984), Design and analysis of experiments. John Wiley and Sons, New York, 2nd ed. 10. Montgomery, D.C. (1985), Introduction to Statistical Quality Control. John Wiley and Sons, New York. 11. Montgomery, D. C. & Peck, E. A. (1991), Introduction to Linear Regression Analysis. John Wiley and Sons, 2nd ed, New York. 12. Lopes, A. F. (1999) Probabilidades e Estatísticas. Reichmann & Afonso Editores, Rio de Janeiro, RJ, Brasil. 13. Ott, E.R. (1975), Process Quality Control. McGraw Hill, New York. 14. Spiegel, M. R. (1993) Estatística. Makron Books Brasil Editora, São Paulo, SP, Brasil. 15. Snedcor, G.W. & Cochran, W.G. (1980), Statistical Methods. 7th ed., The Iowa State Univ. Press, Iowa, USA. 16. Stevenson, W. J. (1981), Estatística Aplicada à Administração; tradução Alfredo de Farias. Harper & Raw do Brasil, São 136 10. Regressão linear múltipla José Luis Duarte Ribeiro & Carla ten Caten/PPGEP-UFRGS Paulo, SP, Brasil. 17. Werkema, M. C. (1996) Como Estabelecer Conclusões com Confiança: Entendendo Inferência Estatística. Fundação Cristiano Ottoni, Escola de Engenharia da UFMG, Belo Horizonte, MG, Brasil. 18. Werkema, M. C. C. e Aguiar, S. (1996) Análise de regressão: como entender o relacionamento entre variáveis de um processo. Universidade Federal de Minas Gerais. Escola de Engenharia, Fundação Cristiano Ottoni. Áreas sob a curva normal (Cauda da esquerda) z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0,00 z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 -3,9 -3,8 -3,7 -3,6 -3,5 -3,4 -3,3 -3,2 -3,1 -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5 -1,4 -1,3 -1,2 -1,1 -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,0000 0,0001 0,0001 0,0001 0,0002 0,0002 0,0003 0,0005 0,0007 0,0010 0,0014 0,0019 0,0026 0,0036 0,0048 0,0064 0,0084 0,0110 0,0143 0,0183 0,0233 0,0294 0,0367 0,0455 0,0559 0,0681 0,0823 0,0985 0,1170 0,1379 0,1611 0,1867 0,2148 0,2451 0,2776 0,3121 0,3483 0,3859 0,4247 0,4641 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0004 0,0005 0,0007 0,0010 0,0014 0,0020 0,0027 0,0037 0,0049 0,0066 0,0087 0,0113 0,0146 0,0188 0,0239 0,0301 0,0375 0,0465 0,0571 0,0694 0,0838 0,1003 0,1190 0,1401 0,1635 0,1894 0,2177 0,2483 0,2810 0,3156 0,3520 0,3897 0,4286 0,4681 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0004 0,0005 0,0008 0,0011 0,0015 0,0021 0,0028 0,0038 0,0051 0,0068 0,0089 0,0116 0,0150 0,0192 0,0244 0,0307 0,0384 0,0475 0,0582 0,0708 0,0853 0,1020 0,1210 0,1423 0,1660 0,1922 0,2206 0,2514 0,2843 0,3192 0,3557 0,3936 0,4325 0,4721 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0004 0,0006 0,0008 0,0011 0,0015 0,0021 0,0029 0,0039 0,0052 0,0069 0,0091 0,0119 0,0154 0,0197 0,0250 0,0314 0,0392 0,0485 0,0594 0,0721 0,0869 0,1038 0,1230 0,1446 0,1685 0,1949 0,2236 0,2546 0,2877 0,3228 0,3594 0,3974 0,4364 0,4761 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0004 0,0006 0,0008 0,0011 0,0016 0,0022 0,0030 0,0040 0,0054 0,0071 0,0094 0,0122 0,0158 0,0202 0,0256 0,0322 0,0401 0,0495 0,0606 0,0735 0,0885 0,1056 0,1251 0,1469 0,1711 0,1977 0,2266 0,2578 0,2912 0,3264 0,3632 0,4013 0,4404 0,4801 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0004 0,0006 0,0008 0,0012 0,0016 0,0023 0,0031 0,0041 0,0055 0,0073 0,0096 0,0125 0,0162 0,0207 0,0262 0,0329 0,0409 0,0505 0,0618 0,0749 0,0901 0,1075 0,1271 0,1492 0,1736 0,2005 0,2296 0,2611 0,2946 0,3300 0,3669 0,4052 0,4443 0,4840 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0004 0,0006 0,0009 0,0012 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,0212 0,0268 0,0336 0,0418 0,0516 0,0630 0,0764 0,0918 0,1093 0,1292 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,4880 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0005 0,0006 0,0009 0,0013 0,0018 0,0024 0,0033 0,0044 0,0059 0,0078 0,0102 0,0132 0,0170 0,0217 0,0274 0,0344 0,0427 0,0526 0,0643 0,0778 0,0934 0,1112 0,1314 0,1539 0,1788 0,2061 0,2358 0,2676 0,3015 0,3372 0,3745 0,4129 0,4522 0,4920 0,0000 0,0001 0,0001 0,0002 0,0002 0,0003 0,0005 0,0007 0,0009 0,0013 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0136 0,0174 0,0222 0,0281 0,0351 0,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,4960 0,0000 0,0001 0,0001 0,0002 0,0002 0,0003 0,0005 0,0007 0,0010 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602 0,5000 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000 Distribuição de Student - cauda da direita Pr (t > talfa) = alfa GL Nível de significância - alfa 0,250 0,100 0,050 0,025 0,010 0,005 1 2 3 4 5 6 1,000 0,816 0,765 0,741 0,727 0,718 3,078 1,886 1,638 1,533 1,476 1,440 6,314 2,920 2,353 2,132 2,015 1,943 12,706 4,303 3,182 2,776 2,571 2,447 31,821 6,965 4,541 3,747 3,365 3,143 63,656 9,925 5,841 4,604 4,032 3,707 7 8 9 10 11 0,711 0,706 0,703 0,700 0,697 1,415 1,397 1,383 1,372 1,363 1,895 1,860 1,833 1,812 1,796 2,365 2,306 2,262 2,228 2,201 2,998 2,896 2,821 2,764 2,718 3,499 3,355 3,250 3,169 3,106 12 13 14 15 16 0,695 0,694 0,692 0,691 0,690 1,356 1,350 1,345 1,341 1,337 1,782 1,771 1,761 1,753 1,746 2,179 2,160 2,145 2,131 2,120 2,681 2,650 2,624 2,602 2,583 3,055 3,012 2,977 2,947 2,921 17 18 19 20 21 0,689 0,688 0,688 0,687 0,686 1,333 1,330 1,328 1,325 1,323 1,740 1,734 1,729 1,725 1,721 2,110 2,101 2,093 2,086 2,080 2,567 2,552 2,539 2,528 2,518 2,898 2,878 2,861 2,845 2,831 22 23 24 25 26 0,686 0,685 0,685 0,684 0,684 1,321 1,319 1,318 1,316 1,315 1,717 1,714 1,711 1,708 1,706 2,074 2,069 2,064 2,060 2,056 2,508 2,500 2,492 2,485 2,479 2,819 2,807 2,797 2,787 2,779 27 28 29 inf 0,684 0,683 0,683 0,674 1,314 1,313 1,311 1,282 1,703 1,701 1,699 1,645 2,052 2,048 2,045 1,960 2,473 2,467 2,462 2,326 2,771 2,763 2,756 2,576 Distribuição do Qui Quadrado - cauda da direita Pr (QQ > QQalfa) = alfa GL Nível de significância - alfa 0,995 0,990 0,975 0,950 0,900 0,010 0,050 0,025 0,010 0,005 1 2 3 4 5 6 0,0000 0,010 0,072 0,207 0,412 0,676 0,0002 0,020 0,115 0,297 0,554 0,872 0,0010 0,051 0,216 0,484 0,831 1,237 0,0039 0,103 0,352 0,711 1,145 1,635 0,016 0,211 0,584 1,064 1,610 2,204 6,635 9,210 11,345 13,277 15,086 16,812 3,841 5,991 7,815 9,488 11,070 12,592 5,024 7,378 9,348 11,143 12,832 14,449 6,635 9,210 11,345 13,277 15,086 16,812 7,879 10,597 12,838 14,860 16,750 18,548 7 8 9 10 11 0,989 1,344 1,735 2,156 2,603 1,239 1,647 2,088 2,558 3,053 1,690 2,180 2,700 3,247 3,816 2,167 2,733 3,325 3,940 4,575 2,833 3,490 4,168 4,865 5,578 18,475 20,090 21,666 23,209 24,725 14,067 15,507 16,919 18,307 19,675 16,013 17,535 19,023 20,483 21,920 18,475 20,090 21,666 23,209 24,725 20,278 21,955 23,589 25,188 26,757 12 13 14 15 16 3,074 3,565 4,075 4,601 5,142 3,571 4,107 4,660 5,229 5,812 4,404 5,009 5,629 6,262 6,908 5,226 5,892 6,571 7,261 7,962 6,304 7,041 7,790 8,547 9,312 26,217 27,688 29,141 30,578 32,000 21,026 22,362 23,685 24,996 26,296 23,337 24,736 26,119 27,488 28,845 26,217 27,688 29,141 30,578 32,000 28,300 29,819 31,319 32,801 34,267 17 18 19 20 21 5,697 6,265 6,844 7,434 8,034 6,408 7,015 7,633 8,260 8,897 7,564 8,231 8,907 9,591 10,283 8,672 9,390 10,117 10,851 11,591 10,085 10,865 11,651 12,443 13,240 33,409 34,805 36,191 37,566 38,932 27,587 28,869 30,144 31,410 32,671 30,191 31,526 32,852 34,170 35,479 33,409 34,805 36,191 37,566 38,932 35,718 37,156 38,582 39,997 41,401 22 23 24 25 26 8,643 9,260 9,886 10,520 11,160 9,542 10,196 10,856 11,524 12,198 10,982 11,689 12,401 13,120 13,844 12,338 13,091 13,848 14,611 15,379 14,041 14,848 15,659 16,473 17,292 40,289 41,638 42,980 44,314 45,642 33,924 35,172 36,415 37,652 38,885 36,781 38,076 39,364 40,646 41,923 40,289 41,638 42,980 44,314 45,642 42,796 44,181 45,558 46,928 48,290 27 28 29 30 11,808 12,461 13,121 13,787 12,878 13,565 14,256 14,953 14,573 15,308 16,047 16,791 16,151 16,928 17,708 18,493 18,114 18,939 19,768 20,599 46,963 48,278 49,588 50,892 40,113 41,337 42,557 43,773 43,195 44,461 45,722 46,979 46,963 48,278 49,588 50,892 49,645 50,994 52,335 53,672 Distribuição F - cauda da direita Pr (F > Falfa(n1,n2)) = alfa Nível de significância - alfa = 1 2 3 4 Nível de significância - alfa = 0,05 n2 \ n1 1 2 3 4 5 6 5 6 7 8 161,4 18,51 10,13 7,71 6,61 5,99 199,5 19,00 9,55 6,94 5,79 5,14 215,7 19,16 9,28 6,59 5,41 4,76 224,6 19,25 9,12 6,39 5,19 4,53 230,2 19,30 9,01 6,26 5,05 4,39 234,0 19,33 8,94 6,16 4,95 4,28 236,8 19,35 8,89 6,09 4,88 4,21 238,9 19,37 8,85 6,04 4,82 4,15 7 8 9 10 11 5,59 5,32 5,12 4,96 4,84 4,74 4,46 4,26 4,10 3,98 4,35 4,07 3,86 3,71 3,59 4,12 3,84 3,63 3,48 3,36 3,97 3,69 3,48 3,33 3,20 3,87 3,58 3,37 3,22 3,09 3,79 3,50 3,29 3,14 3,01 12 13 14 15 16 4,75 4,67 4,60 4,54 4,49 3,89 3,81 3,74 3,68 3,63 3,49 3,41 3,34 3,29 3,24 3,26 3,18 3,11 3,06 3,01 3,11 3,03 2,96 2,90 2,85 3,00 2,92 2,85 2,79 2,74 17 18 19 20 21 4,45 4,41 4,38 4,35 4,32 3,59 3,55 3,52 3,49 3,47 3,20 3,16 3,13 3,10 3,07 2,96 2,93 2,90 2,87 2,84 2,81 2,77 2,74 2,71 2,68 22 23 24 25 26 4,30 4,28 4,26 4,24 4,23 3,44 3,42 3,40 3,39 3,37 3,05 3,03 3,01 2,99 2,98 2,82 2,80 2,78 2,76 2,74 27 28 29 30 40 4,21 4,20 4,18 4,17 4,08 3,35 3,34 3,33 3,32 3,23 2,96 2,95 2,93 2,92 2,84 60 80 100 500 4,00 3,96 3,94 3,86 3,15 3,11 3,09 3,01 2,76 2,72 2,70 2,62 9 10 12 15 20 0,05 240,5 19,38 8,81 6,00 4,77 4,10 n2 \ n1 1 2 3 4 5 6 30 40 241,9 19,40 8,79 5,96 4,74 4,06 243,9 19,41 8,74 5,91 4,68 4,00 245,9 19,43 8,70 5,86 4,62 3,94 248,0 19,45 8,66 5,80 4,56 3,87 250,1 19,46 8,62 5,75 4,50 3,81 251,1 19,47 8,59 5,72 4,46 3,77 3,73 3,44 3,23 3,07 2,95 3,68 3,39 3,18 3,02 2,90 7 8 9 10 11 3,64 3,35 3,14 2,98 2,85 3,57 3,28 3,07 2,91 2,79 3,51 3,22 3,01 2,85 2,72 3,44 3,15 2,94 2,77 2,65 3,38 3,08 2,86 2,70 2,57 2,91 2,83 2,76 2,71 2,66 2,85 2,77 2,70 2,64 2,59 2,80 2,71 2,65 2,59 2,54 12 13 14 15 16 2,75 2,67 2,60 2,54 2,49 2,69 2,60 2,53 2,48 2,42 2,62 2,53 2,46 2,40 2,35 2,54 2,46 2,39 2,33 2,28 2,70 2,66 2,63 2,60 2,57 2,61 2,58 2,54 2,51 2,49 2,55 2,51 2,48 2,45 2,42 2,49 2,46 2,42 2,39 2,37 17 18 19 20 21 2,45 2,41 2,38 2,35 2,32 2,38 2,34 2,31 2,28 2,25 2,31 2,27 2,23 2,20 2,18 2,66 2,64 2,62 2,60 2,59 2,55 2,53 2,51 2,49 2,47 2,46 2,44 2,42 2,40 2,39 2,40 2,37 2,36 2,34 2,32 2,34 2,32 2,30 2,28 2,27 22 23 24 25 26 2,30 2,27 2,25 2,24 2,22 2,23 2,20 2,18 2,16 2,15 2,73 2,71 2,70 2,69 2,61 2,57 2,56 2,55 2,53 2,45 2,46 2,45 2,43 2,42 2,34 2,37 2,36 2,35 2,33 2,25 2,31 2,29 2,28 2,27 2,18 2,25 2,24 2,22 2,21 2,12 27 28 29 30 40 2,20 2,19 2,18 2,16 2,08 2,53 2,49 2,46 2,39 2,37 2,33 2,31 2,23 2,25 2,21 2,19 2,12 2,17 2,13 2,10 2,03 2,10 2,06 2,03 1,96 2,04 2,00 1,97 1,90 60 80 100 500 1,99 1,95 1,93 1,85 60 120 500 252,2 19,48 8,57 5,69 4,43 3,74 253,3 19,49 8,55 5,66 4,40 3,70 254,1 19,49 8,53 5,64 4,37 3,68 3,34 3,04 2,83 2,66 2,53 3,30 3,01 2,79 2,62 2,49 3,27 2,97 2,75 2,58 2,45 3,24 2,94 2,72 2,55 2,42 2,47 2,38 2,31 2,25 2,19 2,43 2,34 2,27 2,20 2,15 2,38 2,30 2,22 2,16 2,11 2,34 2,25 2,18 2,11 2,06 2,31 2,22 2,14 2,08 2,02 2,23 2,19 2,16 2,12 2,10 2,15 2,11 2,07 2,04 2,01 2,10 2,06 2,03 1,99 1,96 2,06 2,02 1,98 1,95 1,92 2,01 1,97 1,93 1,90 1,87 1,97 1,93 1,89 1,86 1,83 2,15 2,13 2,11 2,09 2,07 2,07 2,05 2,03 2,01 1,99 1,98 1,96 1,94 1,92 1,90 1,94 1,91 1,89 1,87 1,85 1,89 1,86 1,84 1,82 1,80 1,84 1,81 1,79 1,77 1,75 1,80 1,77 1,75 1,73 1,71 2,13 2,12 2,10 2,09 2,00 2,06 2,04 2,03 2,01 1,92 1,97 1,96 1,94 1,93 1,84 1,88 1,87 1,85 1,84 1,74 1,84 1,82 1,81 1,79 1,69 1,79 1,77 1,75 1,74 1,64 1,73 1,71 1,70 1,68 1,58 1,69 1,67 1,65 1,64 1,53 1,92 1,88 1,85 1,77 1,84 1,79 1,77 1,69 1,75 1,70 1,68 1,59 1,65 1,60 1,57 1,48 1,59 1,54 1,52 1,42 1,53 1,48 1,45 1,35 1,47 1,41 1,38 1,26 1,41 1,35 1,31 1,16 Distribuição F - cauda da direita Pr (F > Falfa(n1,n2)) = alfa Nível de significância - alfa = 0,025 1 2 3 4 5 Nível de significância - alfa = 0,025 n2 \ n1 1 2 3 4 5 6 6 7 8 647,8 38,51 17,44 12,22 10,01 8,81 799,5 39,00 16,04 10,65 8,43 7,26 864,2 39,17 15,44 9,98 7,76 6,60 899,6 39,25 15,10 9,60 7,39 6,23 921,8 39,30 14,88 9,36 7,15 5,99 937,1 39,33 14,73 9,20 6,98 5,82 948,2 39,36 14,62 9,07 6,85 5,70 956,6 39,37 14,54 8,98 6,76 5,60 7 8 9 10 11 8,07 7,57 7,21 6,94 6,72 6,54 6,06 5,71 5,46 5,26 5,89 5,42 5,08 4,83 4,63 5,52 5,05 4,72 4,47 4,28 5,29 4,82 4,48 4,24 4,04 5,12 4,65 4,32 4,07 3,88 4,99 4,53 4,20 3,95 3,76 12 13 14 15 16 6,55 6,41 6,30 6,20 6,12 5,10 4,97 4,86 4,77 4,69 4,47 4,35 4,24 4,15 4,08 4,12 4,00 3,89 3,80 3,73 3,89 3,77 3,66 3,58 3,50 3,73 3,60 3,50 3,41 3,34 17 18 19 20 21 6,04 5,98 5,92 5,87 5,83 4,62 4,56 4,51 4,46 4,42 4,01 3,95 3,90 3,86 3,82 3,66 3,61 3,56 3,51 3,48 3,44 3,38 3,33 3,29 3,25 22 23 24 25 26 5,79 5,75 5,72 5,69 5,66 4,38 4,35 4,32 4,29 4,27 3,78 3,75 3,72 3,69 3,67 3,44 3,41 3,38 3,35 3,33 27 28 29 30 40 5,63 5,61 5,59 5,57 5,42 4,24 4,22 4,20 4,18 4,05 3,65 3,63 3,61 3,59 3,46 60 80 100 500 5,29 5,22 5,18 5,05 3,93 3,86 3,83 3,72 3,34 3,28 3,25 3,14 9 963,3 39,39 14,47 8,90 6,68 5,52 n2 \ n1 1 2 3 4 5 6 10 12 15 20 30 40 60 120 500 968,6 39,40 14,42 8,84 6,62 5,46 976,7 39,41 14,34 8,75 6,52 5,37 984,9 39,43 14,25 8,66 6,43 5,27 4,90 4,43 4,10 3,85 3,66 4,82 4,36 4,03 3,78 3,59 7 8 9 10 11 4,76 4,30 3,96 3,72 3,53 4,67 4,20 3,87 3,62 3,43 4,57 4,10 3,77 3,52 3,33 4,47 4,00 3,67 3,42 3,23 4,36 3,89 3,56 3,31 3,12 4,31 3,84 3,51 3,26 3,06 4,25 3,78 3,45 3,20 3,00 4,20 3,73 3,39 3,14 2,94 4,16 3,68 3,35 3,09 2,90 3,61 3,48 3,38 3,29 3,22 3,51 3,39 3,29 3,20 3,12 3,44 3,31 3,21 3,12 3,05 12 13 14 15 16 3,37 3,25 3,15 3,06 2,99 3,28 3,15 3,05 2,96 2,89 3,18 3,05 2,95 2,86 2,79 3,07 2,95 2,84 2,76 2,68 2,96 2,84 2,73 2,64 2,57 2,91 2,78 2,67 2,59 2,51 2,85 2,72 2,61 2,52 2,45 2,79 2,66 2,55 2,46 2,38 2,74 2,61 2,50 2,41 2,33 3,28 3,22 3,17 3,13 3,09 3,16 3,10 3,05 3,01 2,97 3,06 3,01 2,96 2,91 2,87 2,98 2,93 2,88 2,84 2,80 17 18 19 20 21 2,92 2,87 2,82 2,77 2,73 2,82 2,77 2,72 2,68 2,64 2,72 2,67 2,62 2,57 2,53 2,62 2,56 2,51 2,46 2,42 2,50 2,44 2,39 2,35 2,31 2,44 2,38 2,33 2,29 2,25 2,38 2,32 2,27 2,22 2,18 2,32 2,26 2,20 2,16 2,11 2,26 2,20 2,15 2,10 2,06 3,22 3,18 3,15 3,13 3,10 3,05 3,02 2,99 2,97 2,94 2,93 2,90 2,87 2,85 2,82 2,84 2,81 2,78 2,75 2,73 2,76 2,73 2,70 2,68 2,65 22 23 24 25 26 2,70 2,67 2,64 2,61 2,59 2,60 2,57 2,54 2,51 2,49 2,50 2,47 2,44 2,41 2,39 2,39 2,36 2,33 2,30 2,28 2,27 2,24 2,21 2,18 2,16 2,21 2,18 2,15 2,12 2,09 2,14 2,11 2,08 2,05 2,03 2,08 2,04 2,01 1,98 1,95 2,02 1,99 1,95 1,92 1,90 3,31 3,29 3,27 3,25 3,13 3,08 3,06 3,04 3,03 2,90 2,92 2,90 2,88 2,87 2,74 2,80 2,78 2,76 2,75 2,62 2,71 2,69 2,67 2,65 2,53 2,63 2,61 2,59 2,57 2,45 27 28 29 30 40 2,57 2,55 2,53 2,51 2,39 2,47 2,45 2,43 2,41 2,29 2,36 2,34 2,32 2,31 2,18 2,25 2,23 2,21 2,20 2,07 2,13 2,11 2,09 2,07 1,94 2,07 2,05 2,03 2,01 1,88 2,00 1,98 1,96 1,94 1,80 1,93 1,91 1,89 1,87 1,72 1,87 1,85 1,83 1,81 1,66 3,01 2,95 2,92 2,81 2,79 2,73 2,70 2,59 2,63 2,57 2,54 2,43 2,51 2,45 2,42 2,31 2,41 2,35 2,32 2,22 2,33 2,28 2,24 2,14 60 80 100 500 2,27 2,21 2,18 2,07 2,17 2,11 2,08 1,97 2,06 2,00 1,97 1,86 1,94 1,88 1,85 1,74 1,82 1,75 1,71 1,60 1,74 1,68 1,64 1,52 1,67 1,60 1,56 1,42 1,58 1,51 1,46 1,31 1,51 1,43 1,38 1,19 993,1 1001,4 1005,6 1009,8 1014,0 1017,2 39,45 39,46 39,47 39,48 39,49 39,50 14,17 14,08 14,04 13,99 13,95 13,91 8,56 8,46 8,41 8,36 8,31 8,27 6,33 6,23 6,18 6,12 6,07 6,03 5,17 5,07 5,01 4,96 4,90 4,86 Distribuição F - cauda da direita Pr (F > Falfa(n1,n2)) = alfa Nível de significância - alfa = n2 \ 1 2 3 n1 1 4052 4999 5404 2 98,50 99,00 99,16 3 34,12 30,82 29,46 4 21,20 18,00 16,69 5 16,26 13,27 12,06 6 13,75 10,92 9,78 0,01 4 5 6 7 8 9 5624 99,25 28,71 15,98 11,39 9,15 5764 99,30 28,24 15,52 10,97 8,75 5859 99,33 27,91 15,21 10,67 8,47 5928 99,36 27,67 14,98 10,46 8,26 5981 99,38 27,49 14,80 10,29 8,10 6022 99,39 27,34 14,66 10,16 7,98 Nível de significância - alfa = n2 \ 10 12 15 n1 1 6056 6107 6157 2 99,40 99,42 99,43 3 27,23 27,05 26,87 4 14,55 14,37 14,20 5 10,05 9,89 9,72 6 7,87 7,72 7,56 0,01 20 6209 99,45 26,69 14,02 9,55 7,40 30 40 6260 6286 99,47 99,48 26,50 26,41 13,84 13,75 9,38 9,29 7,23 7,14 60 120 500 6313 99,48 26,32 13,65 9,20 7,06 6340 99,49 26,22 13,56 9,11 6,97 6360 99,50 26,15 13,49 9,04 6,90 7 8 9 10 11 12,25 11,26 10,56 10,04 9,65 9,55 8,65 8,02 7,56 7,21 8,45 7,59 6,99 6,55 6,22 7,85 7,01 6,42 5,99 5,67 7,46 6,63 6,06 5,64 5,32 7,19 6,37 5,80 5,39 5,07 6,99 6,18 5,61 5,20 4,89 6,84 6,03 5,47 5,06 4,74 6,72 5,91 5,35 4,94 4,63 7 8 9 10 11 6,62 5,81 5,26 4,85 4,54 6,47 5,67 5,11 4,71 4,40 6,31 5,52 4,96 4,56 4,25 6,16 5,36 4,81 4,41 4,10 5,99 5,20 4,65 4,25 3,94 5,91 5,12 4,57 4,17 3,86 5,82 5,03 4,48 4,08 3,78 5,74 4,95 4,40 4,00 3,69 5,67 4,88 4,33 3,93 3,62 12 13 14 15 16 9,33 9,07 8,86 8,68 8,53 6,93 6,70 6,51 6,36 6,23 5,95 5,74 5,56 5,42 5,29 5,41 5,21 5,04 4,89 4,77 5,06 4,86 4,69 4,56 4,44 4,82 4,62 4,46 4,32 4,20 4,64 4,44 4,28 4,14 4,03 4,50 4,30 4,14 4,00 3,89 4,39 4,19 4,03 3,89 3,78 12 13 14 15 16 4,30 4,10 3,94 3,80 3,69 4,16 3,96 3,80 3,67 3,55 4,01 3,82 3,66 3,52 3,41 3,86 3,66 3,51 3,37 3,26 3,70 3,51 3,35 3,21 3,10 3,62 3,43 3,27 3,13 3,02 3,54 3,34 3,18 3,05 2,93 3,45 3,25 3,09 2,96 2,84 3,38 3,19 3,03 2,89 2,78 17 18 19 20 21 8,40 8,29 8,18 8,10 8,02 6,11 6,01 5,93 5,85 5,78 5,19 5,09 5,01 4,94 4,87 4,67 4,58 4,50 4,43 4,37 4,34 4,25 4,17 4,10 4,04 4,10 4,01 3,94 3,87 3,81 3,93 3,84 3,77 3,70 3,64 3,79 3,71 3,63 3,56 3,51 3,68 3,60 3,52 3,46 3,40 17 18 19 20 21 3,59 3,51 3,43 3,37 3,31 3,46 3,37 3,30 3,23 3,17 3,31 3,23 3,15 3,09 3,03 3,16 3,08 3,00 2,94 2,88 3,00 2,92 2,84 2,78 2,72 2,92 2,84 2,76 2,69 2,64 2,83 2,75 2,67 2,61 2,55 2,75 2,66 2,58 2,52 2,46 2,68 2,59 2,51 2,44 2,38 22 23 24 25 26 7,95 7,88 7,82 7,77 7,72 5,72 5,66 5,61 5,57 5,53 4,82 4,76 4,72 4,68 4,64 4,31 4,26 4,22 4,18 4,14 3,99 3,94 3,90 3,85 3,82 3,76 3,71 3,67 3,63 3,59 3,59 3,54 3,50 3,46 3,42 3,45 3,41 3,36 3,32 3,29 3,35 3,30 3,26 3,22 3,18 22 23 24 25 26 3,26 3,21 3,17 3,13 3,09 3,12 3,07 3,03 2,99 2,96 2,98 2,93 2,89 2,85 2,81 2,83 2,78 2,74 2,70 2,66 2,67 2,62 2,58 2,54 2,50 2,58 2,54 2,49 2,45 2,42 2,50 2,45 2,40 2,36 2,33 2,40 2,35 2,31 2,27 2,23 2,33 2,28 2,24 2,19 2,16 27 28 29 30 40 7,68 7,64 7,60 7,56 7,31 5,49 5,45 5,42 5,39 5,18 4,60 4,57 4,54 4,51 4,31 4,11 4,07 4,04 4,02 3,83 3,78 3,75 3,73 3,70 3,51 3,56 3,53 3,50 3,47 3,29 3,39 3,36 3,33 3,30 3,12 3,26 3,23 3,20 3,17 2,99 3,15 3,12 3,09 3,07 2,89 27 28 29 30 40 3,06 3,03 3,00 2,98 2,80 2,93 2,90 2,87 2,84 2,66 2,78 2,75 2,73 2,70 2,52 2,63 2,60 2,57 2,55 2,37 2,47 2,44 2,41 2,39 2,20 2,38 2,35 2,33 2,30 2,11 2,29 2,26 2,23 2,21 2,02 2,20 2,17 2,14 2,11 1,92 2,12 2,09 2,06 2,03 1,83 60 80 100 500 7,08 6,96 6,90 6,69 4,98 4,88 4,82 4,65 4,13 4,04 3,98 3,82 3,65 3,56 3,51 3,36 3,34 3,26 3,21 3,05 3,12 3,04 2,99 2,84 2,95 2,87 2,82 2,68 2,82 2,74 2,69 2,55 2,72 2,64 2,59 2,44 60 80 100 500 2,63 2,55 2,50 2,36 2,50 2,42 2,37 2,22 2,35 2,27 2,22 2,07 2,20 2,12 2,07 1,92 2,03 1,94 1,89 1,74 1,94 1,85 1,80 1,63 1,84 1,75 1,69 1,52 1,73 1,63 1,57 1,38 1,63 1,53 1,47 1,23 Estatística Industrial 10. Regressão linear múltipla 143