Estatística – Notas de Aulas ESTATÍSTICA Notas de Aulas Professor Inácio Andruski Guimarães, DSc. Professor Inácio Andruski Guimarães, DSc. 1 2 Estatística – Notas de Aulas SUMÁRIO 1 CONCEITOS BÁSICOS ............................................................................................... 5 1.1 Estatística 1.2 Estatística Descritiva 1.3 Estatística Inferencial 1.4 População 1.5 Amostra 1.6 Variável 1.7 Séries Estatísticas 2 APRESENTAÇÃO DE DADOS ................................................................................... 7 2.1 Apresentação Tabular 2.2 Apresentação Gráfica 3 DISTRIBUIÇÃO DE FREQÜÊNCIAS ....................................................................... 11 3.1 Dados Brutos 3.2 Rol 3.3 Amplitude Total 3.4 Número de Classes 3.5 Amplitude de Classe 3.6 Intervalo de Classe 3.7 Freqüência Simples 3.8 Freqüência Acumulada 3.9 Freqüência Relativa 3.10 Ponto Médio de Classe 3.11 Representações Gráficas 4 MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO .................................. 17 4.1 Média Aritmética 4.2 Mediana 4.3 Moda 4.4 Relação entre Média, Mediana e Moda 4.5 Percentil 4.6 Decil 4.7 Quartil 5 MEDIDAS DE DISPERSÃO ........................................................................................ 26 5.1 Amplitude 5.2 Desvio Médio 5.3 Variância 5.4 Desvio Padrão 5.5 Coeficiente de Variação 6 ASSIMETRIA E CURTOSE ....................................................................................... 6.1 Coeficiente de Assimetria 6.2 Coeficiente de Curtose Professor Inácio Andruski Guimarães, DSc. 32 3 Estatística – Notas de Aulas 7 TEORIA DA PROBABILIDADE ................................................................................ 36 7.1 Teoria dos Conjuntos 7.2 Técnicas de Contagem 7.3 Introdução à Probabilidade 8 VARIÁVEIS ALEATÓRIAS ........................................................................................ 47 8.1 Tipos de Variáveis Aleatórias 8.2 Função de Probabilidade 8.3 Função Densidade de Probabilidade 8.4 Expectância 8.5 Variância 8.6 Distribuição Conjunta 8.7 Independência 8.8 Função Distribuição Acumulada 9 MODELOS DE PROBABILIDADE PARA VARIÁVEIS DISCRETAS ................ 56 9.1 Distribuição Uniforme 9.2 Distribuição de Bernoulli 9.3 Distribuição Binomial 9.4 Distribuição Geométrica 9.5 Distribuição de Pascal 9.6 Distribuição de Poisson 9.7 Distribuição Hipergeométrica 9.8 Distribuição Multinomial 10 MODELOS DE PROBABILIDADE PARA VARIÁVEIS CONTÍNUAS ............... 61 10.1 Distribuição Uniforme 10.2 Distribuição Normal 10.3 Distribuição Gama 10.4 Distribuição Exponencial 10.5 Distribuição de Weibull 10.6 Distribuição Qui-Quadrado 10.7 Distribuição t, de Student 10.8 Distribuição F, de Fisher 10.9 Aproximação da Distribuição Binomial pela Normal 11 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA .................................................... 11.1 Estimadores e Estatísticas 11.2 Estimadores Eficientes 11.3 Estatísticas Suficientes 11.4 Família Exponencial 11.5 Método da Máxima Verossimilhança 11.6 Distribuição Amostral da Média Professor Inácio Andruski Guimarães, DSc. 67 4 Estatística – Notas de Aulas 12 INTERVALOS DE CONFIANÇA ............................................................................... 12.1 Intervalo de Confiança para a Média 74 12.2 Intervalo de Confiança para a Diferença de Médias 12.3 Intervalo de Confiança para a Proporção 12.4 Intervalo de Confiança para a Diferença de Proporções 12.5 Intervalo de Confiança para a Variância 12.6 Determinação do Tamanho de uma Amostra 13 CONTROLE ESTATÍSTICO DE PROCESSO (CEP) .............................................. 81 13.1 Conceitos 13.2 Diagrama de Pareto 13.3 Diagrama de Ishikawa 13.4 Gráfico de Controle para Média e Amplitude 13.5 Capabilidade 13.6 Gráficos de Controle para Amplitudes Móveis 13.7 Gráficos de Controle por Atributos 14 TEORIA DA DECISÃO ESTATÍSTICA .................................................................... 99 14.1 Teste de Hipótese 14.2 Teste de Hipótese para a Média 14.3 Teste de Hipótese para a Diferença de Médias 14.4 Teste de Hipótese para a Proporção 14.5 Teste de Hipótese para a Diferença de Proporções 15 ANÁLISE DA VARIÂNCIA (ANOVA) ...................................................................... 105 15.1 ANOVA para um Fator 15.2 ANOVA para dois Fatores 16 TESTE QUI-QUADRADO ........................................................................................... 113 16.1 Teste de Bondade de Ajustamento 16.2 Teste de Independência de Variáveis 17 TESTES NÃO PARAMÉTRICOS ............................................................................... 116 17.1 Teste do Sinal 17.2 Teste U, de Wilcoxon, Mann e Whitney 17.3 Teste H, de Kruskal – Wallis 18 ANÁLISE DE CORRELAÇÃO E DE REGRESSÃO ............................................... 121 18.1 Coeficiente de Correlação 18.2 Análise de Regressão Linear 18.3 Método dos Mínimos Quadrados 18.4 Modelo Exponencial 18.5 Modelo Potência 18.6 Modelo Logarítmico APÊNDICE 1 – Estatística Básica Utilizando o R .................................................. Professor Inácio Andruski Guimarães, DSc. 136 Estatística – Notas de Aulas 1. 5 CONCEITOS BÁSICOS 1.1 Estatística A Estatística compreende os métodos científicos utilizados para coleta, organização, resumo, apresentação e análise, ou descrição, de dados de observação. Também abrange métodos utilizados para tomadas de decisões sob condições de incerteza. 1.2 Estatística Descritiva Inclui as técnicas empregadas para coleta e descrição de dados. Também é empregada na análise exploratória de dados. 1.3 Estatística Inferencial É utilizada para tomar decisões a respeito de uma população, geralmente utilizando dados de amostras. Uma vez que tais decisões são tomadas sob condições de incerteza, faz-se necessário o uso de conceitos relativos à Teoria da Probabilidade. 1.4 População Um dos conceitos fundamentais na Estatística, é empregado para designar um conjunto de indivíduos que possuem pelo menos uma característica, ou atributo, em comum. Alguns autores empregam o termo universo para referir-se a uma população. 1.5 Amostra Refere-se a qualquer subconjunto de uma população. A amostragem é uma das etapas mais importantes na aplicação de métodos estatísticos, envolvendo aspectos como determinação do tamanho da amostra, metodologia de formação e representatividade da amostra com relação à população. 1.6 Variável É usada para atribuição dos valores correspondentes aos dados observados. É importante ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer respeito a atributos qualitativos observados na população. Por esta razão costuma-se classificar as variáveis nas categorias definidas a seguir. 1.6.1 – Variável Numérica. Também chamada variável quantitativa, é utilizada para representação de dados numéricos, ou quantitativos. 1.6.1.1 – Variável Numérica Discreta. Variável cujo domínio é um conjunto enumerável. Geralmente corresponde a dados de contagem. Exemplo: Número de defeitos em um componente, total de unidades defeituosas em uma amostra. 1.6.1.2 – Variável Numérica Contínua. Variável cujo domínio é um conjunto não enumerável. Refere-se a dados de mensuração. Exemplo: Diâmetro de um eixo, peso de um recém-nascido. 1.6.2 – Variável Qualitativa. É utilizada para representação de atributos. Pode ser dicotômica, ou binária, quando assume apenas dois possíveis valores, ou politômica, também referida como multinomial, quando pode assumir mais de dois possíveis valores. 1.6.2.1 – Variável Qualitativa Categórica. É empregada para representar categorias, ou classes, às quais pertencem as observações registradas. Exemplo: Cor dos olhos, sexo. 1.6.2.2 – Variável Qualitativa Ordinal. Utiliza-se este tipo de variável em situações nas quais presume-se a necessidade de uma ordem, crescente ou decrescente, para os resultados. Exemplo: Grau de escolaridade, categoria salarial. Professor Inácio Andruski Guimarães, DSc. 6 Estatística – Notas de Aulas 1.7 – Séries Estatísticas Uma série estatística consiste basicamente de um conjunto de valores observados para diferentes categorias de uma variável. As séries estatísticas são classificadas em três categorias, apresentadas a seguir. 1.7.1 – Série Temporal. A variável de interesse refere-se a um período de tempo. Exemplo 1.7.1 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY. Mês Faturamento Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 Dez 0,82 Total 10,77 Fonte: Dados fictícios. 1.7.2 – Série Geográfica. Aqui a variável estudada é o local. Exemplo 1.7.2 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, nas respectivas regiões de atuação. Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região. Grande Interior Interior Porto Interior Campo Região Cuiabá Curitiba do PR de SC Alegre do RS Grande Faturamento 2,75 2,58 1,82 1,42 0,80 0,75 0,70 Total 10,77 Fonte: Dados fictícios. 1.7.3 – Série Específica. Exemplo 1.7.3 - A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, especificado por produto. Produto Faturamento Tabela 1.3 – Faturamento (R$ 1000000) da empresa ABC (20XY), por produto. Rolamento Mancal Óleo Junta Válvula Retentor 3,48 1,84 1,75 1,45 1,25 1,00 Total 10,77 Fonte: Dados fictícios. 1.7.4 – Séries Combinadas. Na prática, é comum combinar séries estatísticas com o objetivo de aumentar, ou detalhar, as informações disponíveis. Exemplo 1.7.4 – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma combinação de uma série geográfica e uma série específica. Quadro 1.1 – Faturamento (R$ 1000000) da empresa ABC, por produto e região. Produto Região Total Rolamento Mancal Óleo Junta Válvula Retentor Grande Curitiba 0,89 0,46 0,45 0,37 0,32 0,26 2,75 Interior do PR 0,83 0,44 0,42 0,35 0,30 0,24 2,58 Interior de SC 0,59 0,31 0,30 0,25 0,21 0,16 1,82 Porto Alegre 0,45 0,24 0,23 0,19 0,16 0,15 1,42 Interior do RS 0,26 0,14 0,13 0,11 0,09 0,07 0,80 Campo Grande 0,24 0,13 0,12 0,10 0,09 0,07 0,75 Cuiabá 0,22 0,12 0,10 0,08 0,08 0,10 0,70 3,48 1,84 1,75 1,45 1,25 1,00 10,77 Total Fonte: Dados fictícios. Professor Inácio Andruski Guimarães, DSc. 7 Estatística – Notas de Aulas 2. APRESENTAÇÃO DE DADOS A apresentação de dados pode ser efetuada através de dois modos, tabular ou gráfico, não mutuamente exclusivos. Para esta tarefa deve-se ter em mente o objetivo da apresentação, no que diz respeito ao nível de detalhamento e ao tipo de informação que se deseja extrair dos dados em questão. A apresentação tabular permite obter informações mais detalhadas, enquanto a apresentação gráfica permite uma compreensão mais rápida a respeito do comportamento da variável observada. 2.1 – Apresentação Tabular Em primeiro lugar, é importante frisar que os termos “tabela” e “quadro” são utilizados para designar objetos distintos. O primeiro designa o arranjo de dados na forma de grade com laterais abertas, enquanto o segundo termo é empregado para designar arranjos em grades com laterais fechadas, conforme a Figura 2.1. Variável Valores Variável Valores Total Total Figura 2.1 – Formatos de tabela e quadro. Independente do formato escolhido, uma tabela deve conter três elementos: 1 – Cabeçalho. Deve conter o máximo de informações sobre os dados apresentados 2 – Corpo. De dimensões variáveis, é o espaço destinado à apresentação propriamente dita dos dados. 3 – Rodapé. Deve conter a fonte dos dados e outras informações necessárias à compreensão. 2.1.1 – Tabela Simples. É o tipo mais comum de tabela, utilizado para representar os valores correspondentes a uma série estatística. A disposição pode ser feita tanto por colunas como por linhas. Exemplo 2.1 – Exemplo de tabela simples. Dados dispostos em linha. Mês Faturamento Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 Fonte: Dados fictícios. Exemplo 2.2 - Exemplo de tabela simples. Dados dispostos em coluna. Tabela 2.1 – Número de beneficiários de planos privados de saúde, em milhões, no período 2000 – 2006. Ano Beneficiários (milhões) 2000 34,5 2001 34,3 2002 35,0 2003 36,2 2004 38,8 2005 41,6 2006 44,7 Fonte: Jornal Folha de São Paulo. 4/6/2007 Professor Inácio Andruski Guimarães, DSc. Dez 0,82 Total 10,77 8 Estatística – Notas de Aulas 2.1.2 – Tabela de Dupla Entrada. É utilizada para representar dados de duas séries combinadas. Exemplo 2.3 – Exemplo de tabela de dupla entrada. Tabela 2.2 – Faturamento (R$ 1000000) da empresa ABC, por produto e região. Produto Região Total Rolamento Mancal Óleo Junta Válvula Retentor Grande Curitiba 0,89 0,46 0,45 0,37 0,32 0,26 2,75 Interior do PR 0,83 0,44 0,42 0,35 0,30 0,24 2,58 Interior de SC 0,59 0,31 0,30 0,25 0,21 0,16 1,82 Porto Alegre 0,45 0,24 0,23 0,19 0,16 0,15 1,42 Interior do RS 0,26 0,14 0,13 0,11 0,09 0,07 0,80 Campo Grande 0,24 0,13 0,12 0,10 0,09 0,07 0,75 Cuiabá 0,22 0,12 0,10 0,08 0,08 0,10 0,70 3,48 1,84 1,75 1,45 1,25 1,00 10,77 Total Fonte: Dados fictícios. 2.1.3 – Tabela de Múltiplas Entradas. É utilizada na representação de dados correspondentes a mais de duas séries. Exemplo 2.4 – Exemplo de tabela de múltipla entrada. Tabela 2.3 – Unidades vendidas por região e por semestre. Produto Rolamento Mancal Região 1o Semestre 2o semestre 1o Semestre 2o semestre Sul 38 24 18 14 Sudeste 26 20 14 12 Centro Oeste 16 18 8 17 80 62 40 43 Total Total 94 72 59 225 Dados Fictícios. 2.2 – Apresentação Gráfica Para a apresentação gráfica deve-se levar em consideração o tipo de série estatística estudada e o, também, o tipo de variável observada, quantitativa ou qualitativa. Também é possível combinar as duas formas de apresentação, tabular e gráfica. Os principais tipos de gráficos são: 2.2.1 – Gráfico Linear. É utilizado principalmente para representar séries temporais. Exemplo 2.5 Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 Fonte: Dados fictícios. Faturam ento da Em presa ABC R$ 1000000,00 Mês Faturamento 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 Meses Professor Inácio Andruski Guimarães, DSc. 10 11 12 Dez 0,82 Total 10,77 9 Estatística – Notas de Aulas 2.2.2 – Gráfico Setorial. É utilizado para representar séries geográficas ou específicas. Exemplo 2.6 Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região. Grande Interior Interior Porto Interior Campo Região Cuiabá Curitiba do PR de SC Alegre do RS Grande Faturamento 2,75 2,58 1,82 1,42 0,80 0,75 0,70 Total 10,77 Fonte: Dados fictícios. Faturamento por Região Grande Curitiba Cuiabá; 0,7 Interior do PR Campo Grande; 0,75 Grande Curitiba; 2,75 Interior de SC Interior do RS; 0,8 Porto Alegre Porto Alegre; 1,42 Interior de SC; 1,82 Interior do RS Interior do PR; 2,58 Campo Grande Cuiabá 2.2.3 – Gráfico de Colunas. Pode ser utilizado no lugar do gráfico setorial. Exemplo 2.7 – Os dados da Tabela 1.2 poderiam ser representados através do gráfico a seguir. Faturamento por Região 3 2,5 2 1,5 1 0,5 0 Grande Curitiba Interior do PR Interior de SC Porto Alegre Interior do RS Campo Grande Cuiabá 2.2.4 – Gráfico de Colunas Superpostas. É utilizado para representar os dados de tabelas de dupla entrada. Exemplo 2.8 – Representação dos dados da Tabela 2.2. Faturamento por Produto e por Região (%) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Retentor Válvula Junta Óleo Mancal Grande Curitiba Interior do PR Interior de SC Porto Alegre Interior do RS Campo Grande Professor Inácio Andruski Guimarães, DSc. Cuiabá Rolamento 10 Estatística – Notas de Aulas 2.2.5 – Gráfico de Colunas Justapostas. È utilizado para representar dados de tabelas de dupla entrada. Faturam ento por Produto e por Região 1 0,8 Rolamento 0,6 Mancal 0,4 Óleo 0,2 Junta Válvula 0 Grande Interior do Interior de Curitiba PR SC Porto Alegre Interior do Campo RS Grande Professor Inácio Andruski Guimarães, DSc. Cuiabá Retentor 11 Estatística – Notas de Aulas 3. DISTRIBUIÇÕES DE FREQÜÊNCIAS As distribuições de freqüências são usadas principalmente para a apresentação de grandes conjuntos de dados. 3.1 – Dados Brutos É a designação para um conjunto de dados não ordenados. 3.2 – Rol É um conjunto de dados ordenados. Exemplo 3.1 – Teores de ácido palmítico (%) observados em 120 amostras de óleos vegetais, utilizadas em um estudo para comparar as características de óleos obtidos a partir de diferentes fontes. 3,8 3,9 4,1 4,5 4,6 4,8 4,8 4,8 4,9 5 5,1 5,1 5,1 5,1 5,1 5,2 5,4 5,4 5,5 5,6 5,7 5,9 5,9 5,9 6 6 6 6 6,1 6,1 6,1 6,1 6,1 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,3 6,4 6,4 6,4 6,5 6,6 6,7 6,7 6,8 7 7,2 7,5 7,6 7,7 8 8 8,2 8,3 8,3 9,3 9,4 9,6 9,7 9,7 9,7 9,8 9,8 9,8 9,9 10 10 10 10,1 10,2 10,4 10,4 10,5 10,5 10,5 10,5 10,5 10,5 10,7 10,8 10,8 10,9 10,9 10,9 10,9 11 11 11 11 11,1 11,1 11,1 11,1 11,2 11,2 11,3 11,4 11,4 11,5 11,5 11,5 11,5 11,6 11,6 11,9 11,9 12,2 12,2 12,2 13 13 13,1 13,1 Fonte: Brodnjak – Vončina et al. (2005) 3.3 – Amplitude Total (R) É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados, isto é: R = x ( n ) − x (1) (3.1) Exemplo 3.2 – Para o conjunto de dados do exemplo anterior a amplitude total é R = 13,1 – 3,8 = 9,3 3.4 – Número de Classes (k) Pode ser determinado arbitrariamente ou de acordo com a expressão a seguir, denominada fórmula de Sturges, onde n é o número de observações, ou tamanho da amostra. k = 1 + 3,3 log n (3.2) Exemplo 3.3 – Uma distribuição de freqüências para os dados do Quadro 3.1, de acordo com a fórmula de Sturges, terá k = 1 + 3,3 log( 120 ) = 3.5 – Amplitude de Classe (h) Pode ser calculada por h= R k Professor Inácio Andruski Guimarães, DSc. (3.3) 12 Estatística – Notas de Aulas Exemplo 3.4 – Para os dados dos exemplos anteriores, a amplitude de classe é h = 9 ,3 ≅ 8 3.6 – Intervalo de Classe Os limites de cada classe podem ser definidos de quatro modos distintos, mostrados a seguir. 1. Intervalo “exclusive – exclusive”: 2. Intervalo “inclusive – exclusive”: 3. Intervalo “inclusive – inclusive”: 4. Intervalo “exclusive – inclusive”: Exemplo 3.5 – Para os dados utilizados como exemplo até agora, as classes e intervalos são: Tabela 3.1 – Distribuição de freqüências para os teores (%) de ácido palmítico observados em amostras de óleos vegetais. Classe Teores de Ácido Palmítico Observações 1 3,8 |-- 5,0 9 2 5,0 |-- 6,2 24 3 6,2 |-- 7,4 21 4 7,4 |-- 8,6 8 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 120 Total (N) 3.7 – Freqüência Simples (fi) A freqüência simples da i–ésima classe é igual ao número do observações pertencentes à mesma. Exemplo 3.6 – Na distribuição do exemplo anterior: f1 = 9 , f2 = 24 , ... , f8 = 4. 3.8 – Freqüência Acumulada i A freqüência acumulada crescente da i–ésima classe é dada por: faci = ∑ f j (3.4) j =1 Exemplo 3.7 – A freqüência acumulada crescente da quarta classe, na distribuição mostrada na Tabela 3.1, é: fac4 = 9 + 24 + 21 + 8 = 62. k A freqüência acumulada decrescente da i–ésima classe é dada por: fad i = ∑ f j (3.5) j =i Exemplo 3.8 – Para a quarta classe da distribuição anterior, a freqüência acumulada decrescente é dada por: fad4 = 8 + 6 + 24 + 24 + 4 = 66. 3.9 – Freqüência Relativa (fri) A freqüência relativa da i–ésima classe é dada por: fr i = ∑ j =1 Professor Inácio Andruski Guimarães, DSc. (3.6) fi k f j Estatística – Notas de Aulas 13 Exemplo 3.9 – As freqüências relativas para distribuição da Tabela 3.1 são Tabela 3.2 – Distribuição de freqüências simples e relativas para os teores (%) de ácido palmítico observados em amostras de óleos vegetais. Classe Teores de Ácido Palmítico Observações Freqüências Relativas 1 3,8 |-- 5,0 9 0,0750 2 5,0 |-- 6,2 24 0,2000 3 6,2 |-- 7,4 21 0,1750 4 7,4 |-- 8,6 8 0,0667 5 8,6 |-- 9,8 6 0,0500 6 9,8 |-- 11,0 24 0,2000 7 11,0 |-- 12,4 21 0,1750 8 12,4 |-- 13,6 7 0,0583 120 1,0000 Total (N) 3.10 – Ponto Médio de Classe (Xi) O ponto médio da i–ésima classe é dado por: Xi = LI i + LS i 2 (3.7) onde LIi e LSi são os limites inferior e superior da classe, respectivamente. Exemplo 3.10 – As classes da distribuição da Tabela 3.1 têm os seguintes pontos médios: Classe 1 2 3 4 5 6 7 8 Tabela 3.3 – Distribuição de freqüências simples e pontos médios de classe para os teores (%) de ácido palmítico observados em amostras de óleos vegetais. Teores de Ácido Palmítico Observações Pontos Médios (Xi) 3,8 |-- 5,0 9 4,4 5,0 |-- 6,2 24 6,2 |-- 7,4 21 7,4 |-- 8,6 8 8,6 |-- 9,8 6 9,8 |-- 11,0 24 11,0 |-- 12,2 21 12,2 |-- 13,4 7 12,8 120 Total (n) 3.11 – Representações Gráficas As distribuições de freqüências podem ser representadas através de três tipos de gráficos, não mutuamente exclusivos. 3.11.1 – Histograma É um gráfico de colunas justapostas, onde a largura da base de cada coluna representa o intervalo de classe correspondente e a altura representa a freqüência simples da referida classe. Exemplo 3.11 – A Figura 3.1 mostra o histograma da distribuição mostrada na Tabela 3.1. Professor Inácio Andruski Guimarães, DSc. 14 Estatística – Notas de Aulas 30 25 20 15 10 5 0 3,8 - 5,0 5,0 - 6,2 6,2 - 7,4 7,4 - 8,6 8,6 - 9,8 9,8 - 11,0 11,0 - 12,2 12,2 - 13,4 Figura 3.1 – Histograma da distribuição de freqüências de teores de ácido palmítico. 3.11.2 – Polígono de Freqüências É definido por uma linha poligonal cujos vértices são definidos pelos pontos médios e pelas freqüências das classes representadas. Exemplo 3.12 – O polígono de freqüências para a distribuição anterior é mostrado na Figura 3.2. 30 Freqüências 25 20 15 10 5 0 1 2 3 4 5 6 7 8 Classes Figura 3.2 – Polígono de freqüências da distribuição de teores de ácido palmítico. 3.11.3 – Curva de Freqüências Exemplo 3.13 – A curva de freqüências para a distribuição dos exemplos anteriores é mostrada na Figura 3.3. 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 Figura 3.3 – Curva de freqüências para a distribuição de teores de ácido palmítico. Professor Inácio Andruski Guimarães, DSc. 15 Estatística – Notas de Aulas 3.12 – Exercícios O Quadro 3.1 mostra 150 valores correspondentes ao comprimento da sépala, observados em flores de três espécies: íris virginica, íris setosa e íris versicolor, para um estudo cujo é a comparação das diferenças entre as dimensões observadas para cada um dos três grupos. Quadro 3.1 – Comprimentos (mm) das sépalas observadas em 150 exemplares de flores íris. 43 46 44 46 50 54 50 49 56 58 44 46 47 48 44 45 48 49 56 56 55 55 51 55 57 58 61 61 59 60 46 47 50 50 48 49 50 51 56 58 55 56 56 57 60 64 62 63 62 63 48 48 51 51 49 50 52 53 59 59 57 58 57 57 64 65 63 64 63 64 49 49 51 51 50 50 55 57 60 61 60 60 58 58 65 67 64 67 65 67 50 50 52 52 51 51 63 64 61 61 60 63 61 62 68 72 69 72 67 67 51 54 54 54 52 54 65 66 62 63 66 67 63 63 73 76 72 74 68 69 54 58 57 57 55 55 69 70 64 67 67 68 65 71 77 77 77 79 69 77 Fonte: Fisher (1936). 1) 2) 3) 4) 5) 6) 7) 8) Calcular a amplitude total. Calcular o número de classes para construir uma distribuição de freqüências. Calcular a amplitude de cada classe. Determinar os intervalos e limites de classes. Distribuir as freqüências. Calcular as freqüências acumuladas. Calcular os pontos médios. Traçar o histograma. Resposta: Classe 1 2 3 4 5 6 7 8 9 Comprimento (mm) 43 |-- 47 47 |-- 51 51 |-- 55 55 |-- 59 59 |-- 63 63 |-- 67 67 |-- 71 71 |-- 75 75 |-- 79 Total Flores 9 23 faci 9 32 fadi 150 141 150 6 fri 0,0600 0,1533 28 150 Professor Inácio Andruski Guimarães, DSc. Ponto médio 45 49 53 57 Estatística – Notas de Aulas 16 30 25 20 15 10 5 0 Figura 3.4 – Histograma para os dados do Quadro 3.1. Referências Brodnjak – Vončina, D., Kodba, Z., Novič, M., Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids. Chemometrics and Intelligent Laboratory Systems 75, pp. 31-43, 2005. Fisher, R. A., The use of multiple measurements in taxonomic problems. Annals of Eugenics 7, pp. 179-178, 1936. Johnson, R. A., Wichern, D. W., Applied multivariate statistical analysis. 2nd. Ed. New Jersey: PrenticeHall International, Inc., 1988. Professor Inácio Andruski Guimarães, DSc. 17 Estatística – Notas de Aulas 4. MEDIDAS DE TENDENCIA CENTRAL OU DE POSIÇÃO São medidas utilizadas principalmente para a descrição de dados. Neste caso o que se deseja encontrar são os valores representativos do conjunto de dados, de modo a resumir ao máximo as observações sobre os dados em questão. As principais medidas de posição são a média aritmética, a mediana e a moda. As definições, e algumas propriedades, destas medidas são brevemente descritas a seguir. 4.1 – Média Aritmética ( x ) Seja um conjunto de dados {x1 , x2 , ... , xn }. A média aritmética, ou simplesmente “média”, é dada por n ∑x i (4.1) i =1 x = n Exemplo 4.1 – Seja o conjunto {2 , 4 , 3 , 5 , 6 , 2 , 5}. Então a média aritmética é: x = 2 + 4 + 3+ 5+ 6 + 2 + 5 = 3 , 8571 . 7 OBS: A notação x é empregada para representar a média de uma amostra de valores. A média da população costuma ser representada pela letra grega µ (“mi” ou “mu”). 4.1.1 – Propriedades da Média Aritmética: P1: Se uma constante k é somada a cada valor do conjunto, então a média será acrescida de k. Exemplo 4.2 – Se todos os valores do conjunto do exemplo 3.1 forem aumentados em 5, a média será 8,8571. P2: Se cada valor do conjunto é multiplicado por uma constante k, então a média também será multiplicada pelo mesmo valor. Exemplo 4.3 – Se todos os valores do conjunto do exemplo 3.1 forem multiplicados por 5, a média será 19,2855. P3: Seja d i = xi − x o desvio do i – ésimo valor em relação à média aritmética. Então n ∑d i = 0. i =1 4.1.2 – Média Aritmética Ponderada Para dados agrupados em distribuições de freqüências calcula-se a média ponderada, sendo que a freqüência observada para cada valor é o peso do mesmo. Então, se um conjunto de n valores foi agrupado em k classes, com pontos médios X1 , X2 , ... , Xk , e freqüências simples f1 , f2 , ... , fk , respectivamente, então a média aritmética é dada por: k ∑ x = X i fi i =1 k ∑ fi i =1 Professor Inácio Andruski Guimarães, DSc. (4.2) 18 Estatística – Notas de Aulas Exemplo 4.4 – O teor médio de ácido palmítico, para os dados da Tabela 3.1, é dado por: Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) x = 120 Observações (fi) 9 24 21 8 6 24 21 7 120 Xi 4,4 5,6 Xi fi 39,6 11,6 12,8 89,6 ≅ OBS: Se a média para os 120 valores fosse obtida diretamente do conjunto, através da fórmula (4.1), o valor encontrado seria 8,40. 4.2 – Mediana ( ~ x) É o valor que ocupa a posição central em um conjunto de dados, quando organizados em ordem crescente. Se a quantidade de valores é ímpar, a mediana, ou valor mediano, é simplesmente o valor central. Se a quantidade de valores é par, a mediana é a média dos dois valores centrais. Exemplo 4.5 – Seja o conjunto {2 , 2 , 3 , 5 , 5 , 6 , 7 , 7 , 9 , 9 , 10}. Neste caso a mediana é ~ x = 6. Exemplo 4.6 – Seja o conjunto {0 , 1 , 1 , 2 , 3 , 4 , 5 , 5 , 6 , 6 , 7 , 8}. Aqui a mediana é dada pela média dos dois valores centrais, isto é, ~ x = (4 + 5)/2 = 4,5. 4.2.1 – Mediana para dados agrupados em distribuições de freqüências Para dados agrupados em distribuições de freqüências pode-se utilizar para o cálculo da mediana a expressão: ~ x = LI ~ x n − fca + 2 fme h (4.3) onde: LIx = limite inferior da classe que contém o valor mediano, isto é, da classe cuja freqüência acumulada crescente é igual ou imediatamente superior a n / 2. fca = freqüência acumulada crescente da classe anterior à classe que contém o valor mediano. fme = freqüência simples da classe que contém o valor mediano. h = amplitude da classe que contém o valor mediano. Exemplo 4.7 – O teor mediano de ácido palmítico, para os dados da Tabela 3.1, é dado por: Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Observações (fi) 9 24 21 8 6 24 21 7 120 Professor Inácio Andruski Guimarães, DSc. faci 9 33 54 62 19 Estatística – Notas de Aulas n = 60 (Então a mediana pertence à 4ª. classe). 2 LIx = 7,4 fca = 54 fme = 8 h = 8,6 – 7,4 = 1,2 Substituindo na expressão (4.3): OBS: Se a mediana fosse obtida a partir da definição, diretamente do conjunto de dados, o valor encontrado seria 8,25. 4.3 - Moda A moda, ou valor modal, de um conjunto de dados é o valor com maior freqüência individual. É importante ressaltar que o valor modal pode não existir, além disto, caso exista, pode não ser único. Neste último caso, diz-se que o conjunto é bimodal, trimodal, etc. Exemplo 4.8 – O valor modal para o conjunto de observação dos teores de ácido palmítico é 6,2, cuja freqüência é 10. 3,8 3,9 4,1 4,5 4,6 4,8 4,8 4,8 4,9 5 5,1 5,1 5,1 5,1 5,1 5,2 5,4 5,4 5,5 5,6 5,7 5,9 5,9 5,9 6 6 6 6 6,1 6,1 6,1 6,1 6,1 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,2 6,3 6,4 6,4 6,4 6,5 6,6 6,7 6,7 6,8 7 7,2 7,5 7,6 7,7 8 8 8,2 8,3 8,3 9,3 9,4 9,6 9,7 9,7 9,7 9,8 9,8 9,8 9,9 10 10 10 10,1 10,2 10,4 10,4 10,5 10,5 10,5 10,5 10,5 10,5 10,7 10,8 10,8 10,9 10,9 10,9 10,9 11 11 11 11 11,1 11,1 11,1 11,1 11,2 11,2 11,3 11,4 11,4 11,5 11,5 11,5 11,5 11,6 11,6 11,9 11,9 12,2 12,2 12,2 13 13 13,1 13,1 Para dados agrupados em distribuições de freqüências, a moda pode ser calculada através da fórmula dada por: Mo = LI mod ∆1 + ∆ 1 + ∆ 2 h onde: LImod = limite inferior da classe modal, isto é, a de maior freqüência simples. ∆1 = (freqüência simples da classe modal menos a freqüência simples da classe anterior). ∆2 = (freqüência simples da classe modal menos a freqüência simples da classe posterior). h = amplitude da classe modal. Exemplo 4.9 – Calcular a moda para a distribuição de freqüências dos teores de ácido palmítico. A distribuição de freqüências é dada na tabela a seguir. Professor Inácio Andruski Guimarães, DSc. (4.4) 20 Estatística – Notas de Aulas Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Observações (fi) 9 24 21 8 6 24 21 7 120 Neste caso as classes 2 e 6 têm a mesma freqüência. Então a distribuição obtida é bimodal, conforme se pode notar na Figura 3.3, com a curva de freqüências para este conjunto de dados. As respectivas modas são: Primeiro valor modal: LImod = 5,0 ∆1 = 24 – 9 = 15 ∆2 = 24 – 21 = 3 h = 6,2 – 5,0 = 1,2 Substituindo na fórmula (4.4): Mo = 5 ,0 + . 1 15 + 3 ( 1 ,2 ) = Segundo valor modal: LImod = 9,8 ∆1 = 24 – 6 = 18 ∆2 = 24 – 21 = 3 h = 11,0 – 9,8 = 1,2 Substituindo na fórmula (4.4): OBS: É importante chamar a atenção para o fato de que nenhum dos valores coincide com o real valor modal, que é igual a 6,2. Comentário Nos exemplos anteriores é possível observar que as medidas calculadas para um conjunto de dados podem apresentar discrepância quando calculadas através de abordagens distintas. Para a distribuição de freqüências dos teores (%) de ácido palmítico observados em amostras de óleos vegetais, por exemplo, a média aritmética foi calculada como 8,54, para os dados agrupados, e 8,40 para os dados apenas ordenados. O mesmo ocorre com a mediana, que, por definição, é 8,25. Entretanto, para os mesmos dados, quando agrupados, a mediana é igual a 8,30. Para o cálculo da moda a diferença é ainda mais gritante, pois foram encontrados dois valores, 6,0 e 10,8, para a moda. Contudo, é fácil perceber que o valor em questão é igual a 6,2. Este tipo de ocorrência deve ser levado em consideração quando se opta pela apresentação, e tratamento, de dados na forma de distribuições de freqüências. O fácil acesso a programas computacionais e aplicativos pode tornar dispensável a construção de distribuições de freqüências, especialmente quando o interesse do estudo restringe-se aos resultados obtidos para as diferentes medidas aqui estudadas. Neste caso, a distribuição de freqüências pode ser usada apenas como meio de apresentação dos dados. Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 21 4.4 – Relação entre Média, Mediana e Moda A relação entre os valores encontrados para a média, para a mediana e para a moda indica o tipo de assimetria da distribuição de freqüências. Aqui entende-se por assimetria o grau de desvio dos dados em relação ao centro da distribuição. Figura 4.1 – Assimetria positiva (Mo < ~ x < x ). x > x ). Figura 4.2 – Assimetria negativa (Mo > ~ 22 x = x ). Figura 4.3 – Distribuição simétrica (normal) (Mo = ~ Na prática é comum obter distribuições de freqüências cujas medidas não apresentam nenhum dos comportamentos descritos, e ilustrados, nas Figuras 4.1 a 4.3. Neste caso recomenda-se excluir a moda nas relações mostradas acima, isto é, comparar apenas a média e a mediana. 4.5 - Percentil O valor mediano é aquele que divide um conjunto de dados ordenados em duas partes iguais. Da mesma forma, também pode ser útil discriminar valores correspondentes a uma determinada percentagem. Este tipo de situação ocorre, por exemplo, quando se deseja determinar a renda familiar que define os 10% mais ricos em uma sociedade. Professor Inácio Andruski Guimarães, DSc. 22 Estatística – Notas de Aulas Para determinar certo percentil em um conjunto de dados é suficiente ordenar estes mesmos dados e localizar o elemento correspondente à fração desejada, de modo análogo ao usado para determinar a mediana. Exemplo 4.10 – Seja o conjunto de dados mostrado no Quadro 4.1. O 90o percentil é o valor que separa 90% dos exemplares com menor largura dos 10% com a maior largura. Então, considerando que o conjunto tem n = 150 observações, basta separar os 15 últimos elementos, que são justamente os pertencentes à última coluna. Neste caso o 90o percentil é igual a 37. Isto significa que 90% dos exemplares apresentam largura inferior a 37 mm. Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris. 20 25 27 28 30 30 31 32 34 37 22 25 27 28 30 30 31 32 34 37 22 25 27 29 30 30 31 33 34 37 22 25 28 29 30 30 31 33 34 38 23 26 28 29 30 30 32 33 34 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 24 26 28 29 30 31 32 34 35 38 24 27 28 29 30 31 32 34 35 39 24 27 28 29 30 31 32 34 35 39 25 27 28 29 30 31 32 34 36 40 25 27 28 30 30 31 32 34 36 41 25 27 28 30 30 31 32 34 36 42 25 27 28 30 30 31 32 34 36 44 Fonte: Fisher (1936). Para dados agrupados em distribuições de freqüências pode-se utilizar a fórmula dada por: P p = LI P pn 100 − fca + h fP (4.5) onde: LIP = limite inferior da classe que contém o p–ésimo percentil, isto é, da classe cuja freqüência acumulada crescente é igual ou imediatamente superior a pn / 100. fca = freqüência acumulada crescente da classe anterior à classe que contém o p–ésimo percentil. fP = freqüência simples da classe que contém o p–ésimo percentil. h = amplitude da classe que contém o p–ésimo percentil. Exemplo 4.11 – Calcular o 90o percentil e o 10o percentil para os dados da distribuição de freqüências dos dados mostrados na Tabela 3.1. Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Observações (fi) 9 24 21 8 6 24 21 7 120 Professor Inácio Andruski Guimarães, DSc. faci 9 33 54 62 68 92 113 Estatística – Notas de Aulas 23 Neste caso: p = 90. Então 90 × 120 = . O valor procurado pertence à ......... classe, que tem freqüência 100 acumulada crescente igual a ............ LIP = 11,0 fca = 92 fP = 21 h = 12,2 – 11,0 = 3,0 Substituindo na fórmula 4.5: O cálculo do 10o percentil é deixado como exercício. 4.6 - Decil Esta medida é aplicada quando de deseja dividir um conjunto de dados ordenados em dez partes iguais. Não é difícil perceber que: D1 = P10 D2 = P20 D3 = P30 ... D9 = P90 Exemplo 4.12 – Para os dados do Quadro 4.1, o quarto decil corresponde ao valor que separa quatro décimos, ou 40% dos valores. Para n = 150 observações, isto representa 60 valores, ou as quatro primeiras colunas. Então D4 = 30. 4.7 - Quartil Esta medida divide um conjunto de dados ordenados em quatro partes iguais. Também é fácil perceber que: Q1 = P25 Q2 = P50 Q3 = P75 Exemplo 4.13 – Para os dados do Quadro 4.1, o terceiro quartil é valor que separa o conjunto em duas partes, uma correspondente a 75% dos valores e outra correspondente a 25% dos valores. Como o conjunto possui 150 observações, e ¾ de 150 correspondem a 112,5, o elemento procurado é a média do 112o e do 113o valores. Então o Q3 = 33 (verifique no próprio quadro !) 4.8 - Exercícios 4.8.1) O Quadro 3.1 foi utilizado para construir uma distribuição de freqüências no Exercício 3.12. Calcular, para a distribuição de freqüências obtida: 1) 2) 3) 4) 5) 6) 7) Média. Mediana. Moda. Comparar os resultados obtidos com os reais valores. Estudar a assimetria da distribuição. Calcular o 10o e o 90o percentís. Calcular o 1o e o 4o quartís. Professor Inácio Andruski Guimarães, DSc. 24 Estatística – Notas de Aulas Respostas: O quadro original é dado a seguir. Quadro 3.1 – Comprimentos (mm) das sépalas observadas em 150 exemplares de flores íris. 43 44 46 47 44 44 46 48 50 56 54 55 50 51 49 57 56 61 58 59 46 46 48 50 45 48 49 50 56 56 55 55 55 56 58 60 61 62 60 62 47 48 50 51 49 49 51 52 58 59 56 57 57 57 64 64 63 63 63 63 48 49 51 51 50 50 53 55 59 60 58 60 57 58 65 65 64 64 64 65 49 50 51 52 50 51 57 63 61 61 60 60 58 61 67 68 67 69 67 67 50 51 52 54 51 52 64 65 61 62 63 66 62 63 72 73 72 72 67 68 54 54 54 57 54 55 66 69 63 64 67 67 63 65 76 77 74 77 69 69 58 57 55 70 67 68 71 77 79 77 Fonte: Fisher (1936). A distribuição de freqüências obtida é dada na tabela a seguir (complete). Classe 1 2 3 4 5 6 7 8 9 Comprimento (mm) 43 |-- 47 47 |-- 51 51 |-- 55 55 |-- 59 59 |-- 63 63 |-- 67 67 |-- 71 71 |-- 75 75 |-- 79 Total Flores 9 23 28 23 16 6 150 faci 9 51 79 99 122 fadi 150 141 118 fri 0,0600 0,1533 0,1267 Ponto médio 45 49 53 144 150 1) Média: x = 59,03 mm. 2) Mediana: ~ x = 58,43 mm. 3) Moda: Mo = 57,12 mm. 4) x = 59,42 mm. 4.8.2) O Quadro 4.1 mostra os valores observados para as larguras (mm) das sépalas observadas nos 150 exemplares mencionados nos exemplos anteriores. 1) 2) 3) 4) 5) Construir uma distribuição de freqüências para os dados observados. Calcular a largura média. Calcular a largura mediana. Calcular a largura modal. Comparar os valores obtidos a partir da distribuição de freqüências com os valores obtidos diretamente no conjunto de dados. 6) Estudar a assimetria da distribuição. 7) Calcular o 10o e o 90o percentís. Professor Inácio Andruski Guimarães, DSc. 25 Estatística – Notas de Aulas Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris. 20 25 27 28 30 30 31 32 34 37 22 25 27 28 30 30 31 32 34 37 22 25 27 29 30 30 31 33 34 37 22 25 28 29 30 30 31 33 34 38 23 26 28 29 30 30 32 33 34 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 24 26 28 29 30 31 32 34 35 38 24 27 28 29 30 31 32 34 35 39 24 27 28 29 30 31 32 34 35 39 25 27 28 29 30 31 32 34 36 40 25 27 28 30 30 31 32 34 36 41 25 27 28 30 30 31 32 34 36 42 25 27 28 30 30 31 32 34 36 44 Fonte: Fisher (1936). Respostas: 1) A distribuição de freqüências fica: Classes 1 2 3 4 5 6 7 8 Largura (mm) 20 |-- 23 23 |-- 26 26 |-- 29 29 |-- 32 32 |-- 35 35 |-- 38 38 |-- 41 41 |--| 44 Total Exemplares 4 15 28 47 31 13 9 3 150 2) A largura média é: x = 31,02 mm. 3) A largura mediana é: ~ x = 30,78 mm. 4) A largura modal é: Mo = 30,63 mm. 50 40 30 20 10 0 20 - 23 23 - 26 26 - 29 29 - 32 32 - 35 35 - 38 38 - 41 Figura 4.4 – Histograma para os dados do Quadro 4.1. Professor Inácio Andruski Guimarães, DSc. 41 - 44 26 Estatística – Notas de Aulas 5. MEDIDAS DE DISPERSÃO A principal utilidade das medidas de tendência central, quando calculadas para determinado conjunto de dados, é a determinação de valores característicos ou típicos deste conjunto. Entretanto, a informação fornecida por tais medidas é incompleta, se não for acompanhada de alguma informação sobre a variabilidade dos dados. Esta informação é obtida através do cálculo de medidas de dispersão, ou variabilidade. 5.1 – Amplitude Total Seja um conjunto de dados ordenados {x(1) , x(2) , ... , x(n) }, onde x(1) e x(n) representam o valor mínimo e o valor máximo, respectivamente, do conjunto. A amplitude total é dada por: R = x ( n ) − x (1) (5.1) Exemplo 5.1 – A amplitude total para o conjunto de dados do Quadro 4.1 é: R = 44 – 20 = 24 mm. Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris. 20 25 27 28 30 30 31 32 34 37 22 25 27 28 30 30 31 32 34 37 22 25 27 29 30 30 31 33 34 37 22 25 28 29 30 30 31 33 34 38 23 26 28 29 30 30 32 33 34 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 24 26 28 29 30 31 32 34 35 38 24 27 28 29 30 31 32 34 35 39 24 27 28 29 30 31 32 34 35 39 25 27 28 29 30 31 32 34 36 40 25 27 28 30 30 31 32 34 36 41 25 27 28 30 30 31 32 34 36 42 25 27 28 30 30 31 32 34 36 44 Fonte: Fisher (1936). 5.2 – Desvio Médio Seja um conjunto de dados {x1 , x2 , ... , xn }, não necessariamente ordenados. Então o desvio médio dos valores do conjunto em relação à sua média é dado por: n ∑ D = xi − x (5.2) i =1 n Exemplo 5.2 – O Quadro 5.1 mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 7 2,7 Fonte: Johnson e Wichern (1988) A média é x = 3 , 2286 . O desvio médio é: D = 3 ,9 − 3 ,2286 + ... + 2 ,7 − 3 ,2286 7 Professor Inácio Andruski Guimarães, DSc. = 27 Estatística – Notas de Aulas Para uma distribuição de freqüências com k classes, com freqüências simples f1 , ... , fk , e pontos médios X1 , ... , Xk , respectivamente, o desvio médio é dado por: k ∑ X i − x fi (5.3) i =1 D = k ∑ fi i =1 Exemplo 5.3 – O desvio médio para a distribuição de freqüências dos dados da Tabela 3.1 é calculado como: A média é x = Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Observações (fi) 9 24 21 8 6 24 21 7 120 faci 9 33 54 62 Então 5.3 – Variância Seja um conjunto de dados {x1 , x2 , ... , xn }, não necessariamente ordenados. Assim como o desvio médio, a variância é gerada a partir das diferenças dos valores do conjunto de dados em relação à média do mesmo. Entretanto, é necessário ter em mente a natureza dos dados estudados, mais especificamente, se os mesmos constituem uma população ou uma amostra. Para o primeiro caso, e representando a média populacional por µ , a variância é dada por: n ∑ (x 2 σ − µ i )2 . i =1 = (5.4) n A fórmula acima pode ser facilmente transformada para uma expressão mais simples, dada por: n ∑ σ 2 x i2 i =1 = − µ n . 2 (5.6) Quando o conjunto de dados {x1 , x2 , ... , xn } representa uma amostra, calcula-se o estimador corrigido para a variância amostral, dado por n ∑ (x 2 i − x) 2 i =1 s = n −1 . (5.7) 2 O estimador acima também costuma ser representado por σˆ , e a fórmula (5.7) pode ser transformada para n ∑ s2 = x i2 i =1 n −1 − nx 2 n −1 . Exemplo 5.4 – Calcular a variância para a amostra de teores de vanádio, mostrados no Quadro 5.1. Professor Inácio Andruski Guimarães, DSc. (5.8) 28 Estatística – Notas de Aulas Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 7 2,7 Fonte: Johnson e Wichern (1988) A média é x = 3 , 2286 . Então, usando a fórmula (5.8): s2 = 3 ,9 2 + 2 ,7 2 + ... + 2 ,7 2 ( 7 )( 3 ,2286 2 ) . − = 7 −1 7 −1 Para uma distribuição de freqüências com k classes, com freqüências simples f1 , ... , fk , e pontos médios X1 , ... , Xk , respectivamente, a variância populacional é dada por: k ∑X σ 2 2 i fi − µ2 i =1 = k ∑ . (5.9) fi i =1 Para dados amostrais, o estimador corrigido é dado por k ∑ s 2 = X 2 i fi i =1 n −1 nx 2 . n −1 − (5.10) Exemplo 5.5 – Calcular a variância amostral para os dados da distribuição de freqüências dos dados da Tabela 3.1. Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Observações (fi) 9 24 21 8 6 24 21 7 120 faci 9 33 54 62 Então, usando a fórmula (5.10): Quando não tem à disposição uma planilha de cálculo, ou mesmo uma calculadora adequada, pode-se reduzir o esforço para calcular a variância. Isto é possível através das fórmulas (5.12) e (5.13), obtidas a partir das fórmulas (5.9) e (5.10), respectivamente. Para tanto basta efetuar a substituição de variável dada por: X i = A + hd i . (5.11) Efetuada a substituição nas fórmulas (5.9) e (5.10), após convenientes manipulações algébricas obtém-se as fórmulas dadas por: σ 2 k 2 ∑ di fi 2 i =1 = h − k ∑ fi i = 1 di fi ∑ i =1 k fi ∑ i =1 k 2 Professor Inácio Andruski Guimarães, DSc. (5.12) 29 Estatística – Notas de Aulas s2 2 k k ∑ di fi ∑ d i2 f i = h 2 i =1 − i =1 n −1 n ( n − 1) (5.13) Nas fórmulas acima: A = ponto médio de uma classe de referência escolhida arbitrariamente (em geral escolhe-se a classe modal, isto é, a que possui a maior freqüência simples). h = amplitude de classe (deve ser igual para todas as classes). di = desvio da i-ésima classe em relação à classe escolhida como classe de referência. k n = ∑ fi . i =1 Exemplo 5.6 – Calcular a variância amostral para a distribuição de freqüências do exemplo anterior. Escolhendo, arbitrariamente, a quarta classe como classe de referência: Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Lembrando que h = 1,2 e n = 120: Observações (fi) 9 24 21 8 6 24 21 7 120 faci 9 33 54 62 5.3.1 – Método Breve para o Cálculo da Média Aritmética A substituição (5.15) aplicada à fórmula da média, permite a seguinte transformação: k k ∑X x = fi i i =1 ∑d ↔ x = A+h k ∑ fi i fi i =1 k ∑ (5.14) fi i =1 i =1 A fórmula (5.14) também é conhecida como Método Breve para o cálculo da média. 5.4 – Desvio Padrão È dado pela raiz quadrada da variância. Deste modo, para o cálculo do desvio padrão, deve-se levar em consideração a natureza dos dados. È a medida de dispersão mais utilizada para a descrição de dados, juntamente com a média aritmética. Seja o conjunto de dados {x1 , x2 , ... , xn }, não necessariamente ordenados. Se o conjunto representa uma população, o desvio padrão é dado por: n ∑x σ = i =1 n 2 i − µ2 . Se o conjunto representa uma amostra, o estimador corrigido é dado por: Professor Inácio Andruski Guimarães, DSc. (5.15) 30 Estatística – Notas de Aulas n ∑x 2 i i =1 s= n −1 nx 2 n −1 − . (5.16) Exemplo 5.7 – Calcular o desvio padrão para os dados do Quadro 5.1. Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 7 2,7 Fonte: Johnson e Wichern (1988) A média é x = 3 , 2286 . Então, usando a fórmula (5.16): s = 3 ,9 2 + ... + 2 ,7 2 (7)(3,2286 − 7 −1 7 −1 )2 = . 5.4.1 – Desvio Padrão para Dados Agrupados em Distribuições de Freqüências Para uma distribuição de freqüências com k classes, com freqüências simples f1 , ... , fk , e pontos médios X1 , ... , Xk , respectivamente, o desvio padrão populacional é dado por: k ∑ X i2 f i −µ2 i =1 σ = k ∑ . (5.17) . (5.18) fi i =1 O estimador corrigido para o desvio padrão amostral é dado por: k ∑X 2 i fi i =1 s= n −1 − nx 2 n −1 Para o cálculo do desvio padrão através das fórmulas (5.17) e (5.18) também é possível efetuar a mesma substituição de variável aplicada ao cálculo da variância. Neste caso as duas fórmulas são transformadas para: k ∑d σ = h 2 i fi i =1 k ∑ fi i =1 − k ∑d i =1 k ∑ i =1 fi fi i 2 , (5.19) . (5.20) e k ∑ s= h d i2 f i i =1 n −1 k ∑ di fi − i =1 n ( n − 1) 2 5.5 – Coeficiente de Variação É definido como a razão entre o desvio padrão e a média, isto é CV = s x Exemplo 5.8 – Calcular o coeficiente de variação para os dados do Quadro 5.1. Professor Inácio Andruski Guimarães, DSc. (5.21) 31 Estatística – Notas de Aulas CV = 0 , 5323 = 0 ,1649 . 3 , 2286 5.6 – Exercícios 5.6.1) Seja a distribuição de freqüências dos dados do Quadro 3.1, ou seja: Classe 1 2 3 4 5 6 7 8 9 Comprimento (mm) 43 |-- 47 47 |-- 51 51 |-- 55 55 |-- 59 59 |-- 63 63 |-- 67 67 |-- 71 71 |-- 75 75 |-- 79 Total Flores 9 23 19 28 20 23 16 6 6 150 faci 9 32 51 79 fadi 150 141 118 99 fri 0,0600 0,1533 0,1267 0,1867 Ponto médio 45 49 53 57 150 6 0,0400 77 Calcular: 1) O desvio padrão. 2) O coeficiente de variação. 5.6.2) Repetir o exercício anterior para os dados da distribuição de teores de ácido palmítico. Classe 1 2 3 4 5 6 7 8 Teores de Ácido Palmítico (%) 3,8 |-- 5,0 5,0 |-- 6,2 6,2 |-- 7,4 7,4 |-- 8,6 8,6 |-- 9,8 9,8 |-- 11,0 11,0 |-- 12,2 12,2 |-- 13,4 Total (n) Observações (fi) 9 24 21 8 6 24 21 7 120 Respostas: Desvio padrão: s = 2,6515 ; Coeficiente de variação: CV = 0,3123. Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 6. 32 ASSIMETRIA E CURTOSE Assimetria é o afastamento de uma distribuição em relação a um valor central. Curtose é o achatamento de uma distribuição. 6.1 – Coeficiente de Assimetria Já foi visto que uma distribuição de freqüências pode ser assimétrica positiva, negativa ou simétrica, neste caso também chamada distribuição normal. Os três casos são ilustrados nas figuras a seguir. Figura 4.1 – Assimetria positiva (Mo < ~ x < x ). x > x ). Figura 4.2 – Assimetria negativa (Mo > ~ 22 x = x ). Figura 4.3 – Distribuição simétrica (normal) (Mo = ~ O coeficiente de assimetria de Pearson mede o afastamento que caracteriza o tipo de assimetria. Este coeficiente é dado por: ass = 3( x − ~ x) . s Exemplo 5.1 – Calcular o coeficiente de assimetria para os dados do Quadro 5.1. Professor Inácio Andruski Guimarães, DSc. (6.1) 33 Estatística – Notas de Aulas Depois de ordenados, os valores ficam: Quadro 5.1 – Teores de vanádio (ordenados) Estrato (1) (2) (3) (4) (5) (6) (7) Teor (%) 2,7 2,7 2,8 3,1 3,5 3,9 3,9 Fonte: Johnson e Wichern (1988) ~ x = 3,1. Então: A média é x = 3,2286 e o desvio padrão é s = 0,5323. A mediana é ass = 3 ( 3 , 2286 − 3 ,1) = 0 , 7248 . 0 , 5323 6.2 – Coeficiente de Curtose O coeficiente de curtose mede o achatamento de uma distribuição de freqüências, em comparação com uma distribuição normal. Na prática só é calculado para distribuições simétricas, ou muito aproximadamente simétricas. O coeficiente percentílico de curtose é dado por: C = P75 − P25 2 ( P90 − P10 ) . (6.2) Para uma distribuição normal, o coeficiente de curtose é C = 0,263. Se o valor calculado para C é inferior a 0,263, diz-se que a distribuição é leptocúrtica (alongada). Se o valor é superior a 0,263, diz-se que a distribuição é platicúrtica (achatada). As três situações são ilustradas nas Figuras 6.1, 6.2 e 6.3. 70 60 50 40 30 20 10 0 Figura 3.1 – Distribuição leptocúrtica. 45 40 35 30 25 20 15 10 5 0 Figura 3.2 – Distribuição mesocúrtica. Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 34 30 25 20 15 10 5 0 Figura 3.3 – Distribuição platicúrtica. A caracterização do tipo de curtose auxilia na avaliação da dispersão dos dados do conjunto. Uma distribuição leptocúrtica possui dispersão baixa, enquanto uma distribuição platicúrtica possui dispersão elevada, tomando como referência a dispersão verificada em uma distribuição normal. 6.3 – Exercícios 6.3.1) Seja a distribuição de freqüências para os dados do Quadro 4.1. Isto é, Classes 1 2 3 4 5 6 7 8 Largura (mm) 20 |-- 23 23 |-- 26 26 |-- 29 29 |-- 32 32 |-- 35 35 |-- 38 38 |-- 41 41 |--| 44 Total Exemplares 4 15 28 47 31 13 9 3 150 Calcular: 1) O coeficiente de assimetria de Pearson. 2) O coeficiente percentílico de curtose. Professor Inácio Andruski Guimarães, DSc. 35 Estatística – Notas de Aulas EXERCÍCIOS DE REVISÃO O Quadro 6.1 contém os teores de ácido oléico observados em 120 observações de óleos vegetais. 22,3 22,7 22,8 22,9 23,1 23,1 23,2 23,2 24 24,1 24,1 24,4 24,4 24,4 24,5 24,5 24,6 24,6 24,7 24,9 25,1 25,1 25,2 25,3 25,3 25,3 25,5 25,6 25,7 25,7 25,8 25,8 25,9 26 26 26,1 26,1 26,4 26,5 26,7 26,8 27 27,1 27,1 27,1 27,2 27,4 27,8 28,3 28,3 28,3 29,1 29,4 29,5 29,6 29,6 29,8 29,9 30,3 30,4 30,4 31 31,1 31,1 31,1 31,1 31,1 31,7 31,7 31,8 31,8 32,1 32,6 32,9 33,6 33,6 33,9 34 34,4 34,5 34,8 34,9 35 35 35 35,2 35,2 35,2 35,4 35,8 37,4 37,7 38,4 39,3 39,7 40,1 41,4 43 43,3 45,7 52,2 53,2 54,6 55,5 55,9 56,6 57,2 58 58,2 59 59,1 59,2 59,2 59,3 61,6 61,8 62,6 64,9 77,8 80,6 1) 2) 3) 4) 5) 6) Construir uma distribuição de freqüências para os dados. Traçar o histograma. Calcular a média aritmética. Calcular a mediana. Calcular a moda. Tanto a mediana como a moda podem ser obtidas diretamente no Quadro 6.1. Comparar os valores encontrados pela observação direta com os valores obtidos pelas fórmulas, nos exercícios 4 e 5. 7) Calcular o desvio padrão. 8) Estudar a assimetria da distribuição. 9) O cálculo do coeficiente de curtose é justificado para este conjunto de dados ? Por quê ? Algumas respostas: 1) Amplitude total: R = 58,3; Número de classes: k = 1 + 3,3log(120) = 8 ; Amplitude de classe (R/n) : h = 7,3. Professor Inácio Andruski Guimarães, DSc. 36 Estatística – Notas de Aulas 7. TEORIA DA PROBABILIDADE As mais freqüentes aplicações da estatística envolvem processos de tomada de decisões sob condições de incerteza. Este tipo de situação ocorre, por exemplo, em processos de inspeção de qualidade. Aqui o tomador de decisões deve decidir, após inspecionar uma amostra, se um lote de certo produto está conforme parâmetros de qualidade previamente definidos. Outra situação bastante freqüente é o desenvolvimento de novos medicamentos, ou terapias, nas pesquisas médicas. Neste caso a decisão a ser tomada refere-se à eficácia do medicamento, ou terapia. A lista de aplicações dos conceitos relacionados à incerteza é ampla, envolvendo as mais variadas áreas, tais como Engenharia, Economia, Administração e Medicina, para citar apenas algumas. Nestes casos a incerteza decorre de fatores como tamanho da amostra, representatividade da mesma e método de inspeção, eficácia do método de diagnóstico,, entre outros. Esta incerteza é tratada pela estatística com o auxílio da teoria da probabilidade. Na seqüência apresenta-se uma breve revisão dos principais conceitos envolvidos no estudo desta teoria. 7.1 – Teoria dos Conjuntos 7.1.1 – Conjunto. É o termo empregado para designar uma lista, ou coleção, bem definida de elementos. Um conjunto é representado por letra maiúscula, enquanto seus elementos são representados por letras minúsculas. Se um elemento x pertence a um conjunto C, escreve-se x ∈ C . Caso contrário, x ∉ C . Diz–se que um conjunto A está contido em outro conjunto B, se todos os elementos de A pertencem também ao conjunto B. Neste caso escreve-se A ⊂ B , ou B ⊃ A . A negação para a primeira representação é A ⊄ B . Há duas formas de se representar um conjunto. Pode-se listar os seus elementos ou utilizar uma representação gráfica conhecida como Diagrama de Venn. Seja por exemplo o conjunto C, de todos os resultados observáveis no lançamento de um dado. Então: C={1,2,3,4,5,6} 1 2 3 4 5 6 Se um conjunto V não possui quaisquer elementos, diz-se que o mesmo é vazio. Neste caso podese representar como V = { } ou V = Ø. 7.1.2 – Operações com Conjuntos Sejam A, B e C três conjuntos arbitrários. São definidas as seguintes operações: 7.1.2.1 – União A união deA e B é o conjunto formado por todos os elementos que pertencem a A ou a B. A ∪ B = {x : x ∈ A ∨ x ∈ B} . Exemplo 7.1 – Seja os conjuntos A = {1,2,3,4,5,6,7,8,9} e B = {7,8,9,10,11,12}. Então a união de A e B resulta no conjunto A ∪ B = {1,2,3,4,5,6,7,8,9,10,11,12} . 7.1.2.2 – Intersecção A intersecção dos conjuntos A e B é o conjunto formado por todos os elementos que pertencem a A e a B. A ∩ B = {x ∈ A ∧ x ∈ B} . Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 37 Exemplo 7.2 – A intersecção dos conjuntos A e B do exemplo anterior resulta no conjunto A ∩ B = {7,8,9} . 7.1.2.3 – Diferença A diferença dos conjuntos A e B é o conjunto de elementos de que pertencem ao conjunto A, mas não ao conjunto B. A \ B = { x : x ∈ A ∧ x ∉ B} . Se A ⊂ B , diz-se que B \ A é o complemento de A em relação a B. B A Exemplo 7.3 – A diferença dos conjuntos A e B dos exemplos anteriores resulta no conjunto A \ B = {1,2,3,4,5,6} . Exemplo 7.4 – Sejam os conjuntos X = {2,3,4,5,6,7} e Y = {4,5,6}. Então o complemento de Y em relação a X é X \ Y = {2,3,7}. 7.1.3 – Conjuntos Finitos e Enumeráveis Diz-se que um conjunto A é finito quando é formado por n elementos, onde n é um número inteiro positivo. Diz-se que um conjunto é enumerável quando é possível atribuir uma seqüência aos seus elementos. Exemplo 7.5 – Seja X o conjunto de todos os possíveis resultados observáveis no lançamento de um dado. Neste caso, X = {1,2,3,4,5,6} é finito e enumerável. Exemplo 7.6 – Seja I o conjunto de todos os números reais compreendidos entre 0 e 1. Então o conjunto dado por I = {x : 0 < x < 1} não é finito e nem enumerável. Exemplo 7.7 – Seja P o conjunto de todos os números inteiros positivos ímpares. Então o conjunto dado por P = {1,3,5,...} é infinito e enumerável. 7.1.4 – Produto Cartesiano Sejam dois conjuntos, A e B. O produto cartesiano de A e B, representado por A × B é o conjunto de todos os pares ordenados (x , y) onde x pertence a A e y pertence a B. A × B = {( x, y ) : x ∈ A ∧ y ∈ B} Exemplo 7.8 – Sejam os conjuntos A = {2,4,6} e B = {5,7}. Então o produto cartesiano é o conjunto dado por A × B = {(2,5) , (2,7) , (4,5) , (4,7) , (6,5) , (6,7)}. 7.1.5 – Classes Há situações nas quais os elementos de um conjunto também são conjuntos. Seja por exemplo o conjunto dos números naturais, IN. O subconjunto de todos os múltiplos de 7 forma um conjunto. Seja um conjunto A. Uma classe de A é um conjunto de subconjuntos de A. Exemplo 7.9 – Seja o conjunto A = {1,2,3,4,5,6,7,8,9,10}. Algumas classes de A são dadas por: Professor Inácio Andruski Guimarães, DSc. 38 Estatística – Notas de Aulas [{1,3,5,7,9} , {2,4,6,8,10} , {1,2,3,4}] , [{1,3,5} , {7,9} , {2,4} , {6,8,10}] , [{1},{3},{5},{7},{9}]. 7.1.5.1 – Classe Indexada Em algumas situações utiliza-se a expressão classe indexada de conjuntos, cuja notação geralmente é { Ai : i ∈ I } . Neste caso deseja-se esclarecer que a cada elemento i de I corresponde um conjunto A i . O conjunto I é chamado conjunto dos índices, e os conjuntos A i são os conjuntos indexados por I. Quando I é subconjunto do conjunto IN, dos números naturais, a classe indexada {A1 , A2 , ... } é chamada seqüência de conjuntos. O conjunto de elementos, cada um dos quais pertencente a pelo menos um conjunto A i , é chamado união dos A i , e pode ser representado por U i∈I Ai . O conjunto de elementos, cada um dos quais pertencente a todos os conjuntos A i , é chamado intersecção dos A i , e pode ser representado por I i∈I Ai . 7.1.6 – Partição Seja um conjunto A. Uma partição é uma classe de subconjuntos disjuntos e não vazios do conjunto A. Exemplo 7.10 – Seja o conjunto A = {2,3,4,5,7,8,9}. Uma partição de A é, por exemplo, [{2,3,4} , {5,7} , {8,9}]. Por outro lado, a classe [{2,3,4} , {4,5,7} , {8,9}] não é uma partição, pois o elemento “4” pertence a dois subconjuntos. 7.1.7 – σ – Álgebra Sejam um conjunto A e uma classe A não vazia de subconjuntos de U i∈I Ai . Diz-se que A é uma σ – álgebra se: 1. 2. O complemento de qualquer conjunto de A pertence a A. A união de um número finito, e enumerável, de conjuntos de A pertence a A. 7.2 – Técnicas de Contagem De acordo com o princípio fundamental da contagem, se um procedimento pode ser executado de m modos possíveis, e um segundo procedimento pode ser executado de n modos possíveis, então o número de modos pelos quais é possível executar os dois procedimentos é m.n . Exemplo 7.11 – Seja um experimento que consiste em lançar um dado e, na seqüência, uma moeda. Então o número de possíveis resultados é 6.2 = 12. Exemplo 7.12 – Quantas placas com três letras seguidas de quatro algarismos podem ser confeccionadas, sabendo que nenhuma placa possui quatro algarismos iguais a zero ? Neste caso pode-se considerar que há 26 letras disponíveis (incluindo k, w e y) e 10 algarismos, 0 , ... , 9. Como nenhuma placa pode ter quatro algarismos iguais a zero, para a última posição há nove algarismos possíveis. Então o total de placas possíveis é: 7.2.1 – Fatorial Seja n um número inteiro positivo. O fatorial de n é dado por: n! = n( n − 1)( n − 2)...1 . É possível demonstrar que 0 ! = 1. Professor Inácio Andruski Guimarães, DSc. (7.1) 39 Estatística – Notas de Aulas Exemplo 7.13 – 5 ! = 5.4.3.2.1 = 120 ; 8 ! / 6 ! = (8.7.6 !) / 6 ! = 8.7 = 56. Fórmula de Stirling: Para n muito grande pode-se obter uma aproximação dada por: ! ~√2( )2 7.2.2 – Coeficiente Binomial Sejam dois números inteiros positivos n e p, tais que p ≤ n. Então o coeficiente binomial de n sobre p é dado por: n n! = p ! (n − p )! p . (7.2) 7! 7! 7 . 6 . 5! 7 . 6 42 Exemplo 7.14 – 7 = 5 5! ( 7 − 5 )! = 5! 2! = 5! 2 . 1 = 2 . 1 = 2 = 21 Propriedades: P1: n = 1 . 0 n P 2: = n . 1 P3: n = 1 . n n n P4: Se p + q = n , então = . p q 7.2.3 – Permutação A disposição dos elementos de um conjunto seguindo certa ordem é chamada permutação. O total de permutações que pode efetuar com n elementos é dado por Pn = n ! . (7.3) Exemplo 7.15 – Seja o conjunto X = {2,4,6}. As possíveis permutações com os três elementos são: 246 , 426 , 462 , 264 , 624 , 642. Total: 3 ! = 3.2.1 = 6. 7.2.4 – Arranjo Sejam n elementos. Uma permutação de p, p ≤ n, destes elementos, de acordo com determinada ordem, é denominada arranjo. O número de arranjos de n elementos, tomados p a p, é dado por: An , p = n! (n − p )! . (7.4) Exemplo 7.16 – Sejam os algarismos 1 , 2 , ... , 8 , 9. Quantos números com três dígitos podem ser formados a partir dos algarismos dados ? A9 , 3 = 9! 9 .8 .7 .6! = = 9 .8 .7 = 504 . 6! 6! Professor Inácio Andruski Guimarães, DSc. 40 Estatística – Notas de Aulas OBS: Alguns autores não fazem distinção entre permutação e arranjo, preferindo utilizar apenas a primeira expressão. 7.2.5 – Permutação com Repetição Há situações nas quais alguns dos n elementos com os quais deseja-se efetuar um arranjo são iguais. Então, se n1 , n2 , ... , nr são iguais, o número de permutações é dado por: n! n1! n 2 !... n r ! . (7.5) Exemplo 7.17 – De quantos modos é possível arranjar as letras da palavra PARANÁ ? 6! 6 .5 .4 .3 ! = = 120 3! 3! 7.2.6 – Combinação Sejam n elementos. Uma disposição de p, p ≤ n, destes elementos, sem levar em consideração a ordem, é denominada combinação. O número de combinações de n elementos, tomados p a p, é dado por: n C n , p = . p (7.6) Exemplo 7.18: Sejam os algarismos 1 , 2 , ... , 8 , 9. Quantas combinações com três dígitos podem ser formadas a partir dos algarismos dados ? Neste caso considera-se que 567 e 675, por exemplo, são uma só combinação, já que a ordem é irrelevante. Então o total de combinações é dado por: C 9 ,3 = 9! 9 . 8 . 7 . 6! = = 84 . 3 ! 6 ! 3 . 2 . 1 . 6! 7.2.7 – Exercícios 7.2.7.1) Arme e efetue: a) 6! e) n 1 b) 8 ! 8 6 8 d) 2 c) n 0 n g) n − 1 f) 7.2.7.2) Uma loteria consiste em 60 números, numerados de 1 a 60, entre os quais o apostador deve escolher seis. De quantos modos é possível escolher os seis números ? 7.2.7.3) Quantos anagramas é possível formar com as letras da palavra ESTATÍSTICA ? 7.2.7.4) Um baralho completo possui 52 cartas, divididas em quatro grupos iguais (naipes). Deste baralho são retiradas cinco cartas. Quantos resultados são possíveis ? Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 41 7.2.7.5) Sejam os algarismos 1 , 2 , ... , 8 , 9. Quanto números com três dígitos podem ser formados a partir dos algarismos dados ? 7.3 – Introdução à Probabilidade As origens da teoria da probabilidade remontam a meados do século 17. Os conceitos fundamentais, como probabilidade e esperança matemática, surgiram nas correspondências trocadas entre Pascal e Fermat, e que geralmente tratavam de jogos de azar. De acordo com Gnedenko (1962), as questões então levantadas não faziam parte do escopo da matemática da época. O desenvolvimento da teoria da probabilidade, observado nos séculos subseqüentes, foi impulsionado em grande parte pelas necessidades das ciências naturais. A abordagem matemática, caracterizada pelo rigor formal, teve início em meados do século 19, prolongando-se até meados do século 20. Ainda de acordo com Gnedenko (1962), as muitas definições de probabilidade podem ser subdivididas em três grupos: 1. 2. 3. Definições de probabilidade matemática como uma medida do “grau de certeza” do observador. Definições que reduzem o conceito de probabilidade à noção de “igual verossimilhança”. Definições que tomam como ponto de partida a frequência relativa de ocorrência de um evento em um grande número de observações. Embora não haja uma definição formal para o termo probabilidade, pode-se entender que o mesmo designa o estudo de experimentos aleatórios, isto é, experimentos cujos resultados estão sujeitos ao acaso. Alguns conceitos necessários ao referido estudo são apresentados a seguir. 7.3.1 – Espaço Amostral e Evento Seja um experimento aleatório realizado sob condições fixas. Chama-se espaço amostral do experimento o conjunto Ω de todos os resultados observáveis para o experimento. Chama-se evento a qualquer subconjunto E, de Ω. Vale lembrar que um espaço amostral pode conter mais de um evento. Neste caso é possível combinar eventos através de operações com conjuntos, isto é: 1. 2. Evento união: A ∪ B . Evento intersecção: A ∩ B . 3. Evento complementar: A C (só ocorre quando A não ocorre). Exemplo 7.19 – Um exemplo de experimento aleatório é o lançamento de um dado. Neste caso o espaço amostral correspondente é o conjunto Ω = {1 , 2 , 3 , 4 , 5 , 6}. Um exemplo de evento é o subconjunto de Ω dado por E = {2 , 4 , 6}, que corresponde ao resultado “número par”. Exemplo 7.20 – Imagine-se que um experimento aleatório consiste em registrar o tempo t, em horas, entre falhas apresentadas por determinado equipamento. Então Ω = {t ∈ IR ; 0 < t}. Não é difícil perceber que este espaço amostral contém resultados claramente impossíveis. Entretanto, na definição de um espaço amostral, deve-se ter a preocupação de definir um conjunto que contenha todos os possíveis resultados para o experimento aleatório em questão. Neste sentido, a escolha do conjunto acima é bastante adequada. 7.3.1.1 – Eventos Mutuamente Exclusivos Sejam A e B eventos de um espaço amostral Ω. Diz-se que A e B são eventos mutuamente exclusivos se, e somente se, A e B são disjuntos. De outra forma, dois eventos são mutuamente exclusivos quando não possuem nenhum resultado em comum. Exemplo 7.21 – O espaço amostral associado ao lançamento de um dado é Ω = {1 , 2 , 3 , 4 , 5 , 6}. Não é difícil perceber que os eventos A = {número par} = {2 , 4 , 6} e B = {número ímpar} = {1 , 3 , 5} são mutuamente exclusivos. 7.3.2 – Enfoques Para a formalização do conceito de probabilidade pode-se adotar um de três enfoques: Professor Inácio Andruski Guimarães, DSc. 42 Estatística – Notas de Aulas 7.3.2.1 – Enfoque Clássico Também conhecido como “definição clássica” de probabilidade, estabelece que, se Ω é um espaço amostral finito, então a probabilidade de qualquer evento E, contido em Ω, é dada por P(E ) = # (E ) # (Ω ) . (7.8) Exemplo 7.22 – Dois dados são lançados simultaneamente. Qual a probabilidade de que a soma dos resultados seja “5” ? Espaço amostral: Ω = {(1 , 1) , ... , (1 , 6) , (2 , 1) , ... , (2 , 6) , ... , (6 , 6)} #( Ω ) = 36 Evento: E = {(1 , 4) , (2 , 3) , (3 , 2) , (4 , 1) #( E ) = 4 Então a probabilidade é dada por: () = = = 0,1111 7.3.2.2 – Enfoque Relativo De acordo com este enfoque, a probabilidade de um evento E é dada pela razão entre o total de ocorrências do evento e o total de observações. De outra forma, a probabilidade de ocorrência é igual à proporção de “sucessos”. Neste caso o cálculo da probabilidade está baseado na coleta de observações, razão pela qual este enfoque também é denominado enfoque empírico. Exemplo 7.23 – Se, numa entrevista com 200 eleitores, observou-se que 120 pretendem votar em determinado candidato, então a probabilidade encontrar um eleitor daquele candidato é p = 0,6. 7.3.2.3 – Enfoque Subjetivo Também chamado personalístico, é baseado no “grau de crença” na ocorrência do evento em questão. Atualmente, é muito aplicado à tomada de decisões em finanças e mercado de capitais, por exemplo. 7.3.3 – Axiomas de Probabilidade A1: Para qualquer evento E de um espaço amostral Ω: 0 ≤ P(E) ≤ 1. A2: P(Ω) = 1. A3: Se A e B são eventos mutuamente exclusivos, então P ( A ∪ B ) = P ( A) + P ( B ) . 7.3.4 – Teoremas de Probabilidade C T 1: P ( A ) T 2 : A ⊂ B ⇒ P ( A) ≤ P ( B ) . = 1 − P ( A) . T 3 : P ( A \ B ) = P ( A) − P ( A ∩ B ) . T4: P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) . 7.3.5 – Espaço de Probabilidade Seja Ω um espaço amostral finito, isto é, Ω = {e1 , e2 , ... , en }. Um espaço de probabilidade é o conjunto P = {p1 , p2 , ... , pn } , obtido ao associar-se a cada ei ∈ Ω um valor pi ∈ IR, denominado probabilidade de ei , e tal que: 1. 0 ≤ pi , i = 1 , ... , n. 2. ∑p n i = 1. i =1 Professor Inácio Andruski Guimarães, DSc. 43 Estatística – Notas de Aulas Exemplo 7.24 – Uma moeda é lançada três vezes, com o objetivo de observar o número de “caras”, representado por k. Espaço amostral: Ω = {0 , 1 , 2 , 3} Probabilidades: P(k = 0) = ⅛ ; P(k = 1) = ⅜ ; P(k = 2) = ⅜ ; P(k = 3) = ⅛ . Então o espaço de probabilidade é: P = { ⅛ , ⅜ , ⅜ , ⅛ }. Exemplo 7.25 – Um dado é lançado sucessivamente até obter o número 6. O número de lançamentos é representado por x. Espaço amostral: Ω = {1 , 2 , 3 , ... , ∞} Probabilidades: P(x = 1) = 1/6 ; P(x = 2) = (5/6)(1/6) ; P(x = 3) = (5/6)2(1/6) ; ... ; P(x = n) = (5/6)n (1/6) Espaço de probabilidade: P = {1/6 , 5/36 , 5/216 , ... }. 7.3.6 – Eventos Mutuamente Exclusivos Diz-se que dois eventos A e B são mutuamente exclusivos, ou disjuntos, quando não possuem resultados em comum. Então (⋂) = 0. Exemplo 7.26 – Um dado é lançado ao acaso. Sejam os eventos P = {2 , 4 , 6} e I = {1 , 3 , 5}. Neste caso P (número par) e I (número ímpar) são mutuamente exclusivos. 7.3.6 – Eventos Independentes Sejam A e B dois eventos de um espaço amostral Ω, observados em seqüência. Diz-se que ambos são independentes quando a ocorrência, ou não, do primeiro não afeta a probabilidade de ocorrência do outro. Neste caso: (⋂) = (). () (7.9) Exemplo 7.27 – Um dado é lançado duas vezes. Qual a probabilidade de obter os resultados 4 e 5 ? P (4 ∩ 5) = 1 1 1 . = 6 6 36 7.3.7 – Eventos Dependentes e Probabilidade Condicional Sejam A e B dois eventos de um espaço amostral Ω. Diz-se que ambos são dependentes quando a ocorrência, ou não, do primeiro afeta a probabilidade de ocorrência do segundo evento. Neste caso: (⋂) = (). (|) (7.10) OBS: P(B | A) significa probabilidade de ocorrência de “B após a ocorrência de A”, ou “dado que A ocorreu”. Exemplo 7.28 – Uma urna contém seis bolas brancas e quatro bolas vermelhas. São retiradas duas bolas, sem reposição. Sejam os eventos B1 , bola branca na primeira retirada, e V2 , bola vermelha na segunda retirada. Neste caso, para calcular a probabilidade de V2 deve-se levar em consideração o resultado da primeira retirada, isto é: P (V 2 | B 1 ) = 6 4 4 = 10 9 15 ou P (V 2 | V 1 ) = Professor Inácio Andruski Guimarães, DSc. 4 3 2 = 10 9 15 44 Estatística – Notas de Aulas A probabilidade condicional de um evento B ocorrer após a ocorrência de um evento A é dada por: P (B | A) = P(A ∩ B) . P ( A) (7.11) Exemplo 7.29 – De todos os compradores de certo modelo de automóvel, 60% solicitam ar condicionado, 40% solicitam freios ABS e 30% solicitam ar condicionado e freios ABS. Sejam os eventos representados por: A = {ar condicionado} e B = {freios ABS}. Então tem-se que: P( A ) = 0,6 P( B ) = 0,4 P( A ∩ B ) = 0,3 Supondo que um cliente tenha solicitado freios ABS, a probabilidade de solicitar ar condicionado é: (|) = 0,3 = 0,75 0,4 7.3.7.1 – Comentário É importante ressaltar que eventos mutuamente exclusivos e eventos independentes não são necessariamente o mesmo tipo de evento. A primeira expressão é utilizada para situações nas quais apenas um dos eventos pode ocorrer, excluindo qualquer possibilidade de ocorrência do outro. A segunda expressão é utilizada quando a ocorrência de um dos eventos não tem qualquer efeito sobre a ocorrência do outro. 7.3.8 – Teorema da Probabilidade Total Seja um espaço amostral Ω e sejam A1 , A2 , ... , An partições de Ω, isto é, Ai ∩ Aj = Ø e a união de todos os Ai é o próprio espaço Ω. Seja B um evento qualquer de Ω. A1 A2 A3 A4 A5 ... An B Então a probabilidade de B é dada por: n P(B) = ∑ P( A )P(B | A ) . i i (7.12) i =1 Exemplo 7.30 – Uma indústria adquire certo componente de três fornecedores, A, B e C. O primeiro é responsável por 40% da produção e o segundo é responsável por 25% da produção. A proporção de defeituosos é de 2% para o fornecedor A, 5% para o fornecedor B e 4% para o fornecedor C. Qual a probabilidade de uma unidade selecionada ao acaso ser defeituosa ? P(A) = 0,40 , P(B) = 0,25 , P(C) = 0,35. P(D|A) = 0,02 , P(D|B) = 0,05 e P(D|C) = 0,04. P(D) = P(A)P(D|A) + P(B)P(D|B) + P(C)P(D|C) = 7.3.9 – Teorema de Bayes Seja um espaço amostral Ω e sejam A1 , A2 , ... , An partições de Ω, isto é, Ai ∩ Aj = Ø e a união de todos os Ai é o próprio espaço Ω. Seja B um evento qualquer de Ω. Então, para qualquer i = 1 , ... , n: Professor Inácio Andruski Guimarães, DSc. 45 Estatística – Notas de Aulas P ( Ai | B ) = P ( Ai ) P ( B | Ai ) n ∑ P(A j . (7.13) )P(B | A j ) j =1 Exemplo 7.31 – Sejam os dados do exemplo anterior. Se uma peça é defeituosa, qual a probabilidade de ter sido entregue pelo fornecedor C ? 7.4 – Exercícios 7.4.1) Um caixa contém 12 unidades de certo componente, sendo três defeituosas. São retiradas três unidades ao acaso, e sem reposição. Seja X o número de unidades defeituosas obtidas neste experimento aleatório. Determinar os espaços amostral e de probabilidades. 7.4.2) Dois dados são lançados. Calcular a probabilidade de: a) Obter dois números diferentes. b) O segundo resultado ser menor que o primeiro. c) Pelo menos um dos resultados ser 2. 7.4.3) São escolhidos ao acaso, em seqüência e sem reposição, dois números de 0 a 9. Se a soma é par, qual a probabilidade de que os dois números sejam ímpares ? 7.4.4) Uma caixa contém quatro bolas brancas e seis bolas pretas. Quatro bolas são retiradas, sem reposição. Qual a probabilidade de que três sejam pretas ? 7.4.5) Um jogador tem na mão quatro cartas de paus. Se ele deve receber mais duas cartas, qual a probabilidade de: a) Ambas serem de paus ? b) Pelo menos uma ser de paus ? 7.4.6) Um lote de 20 unidades de um componente contém quatro unidades defeituosas. Escolhe-se aleatoriamente uma amostra de cinco unidades do lote. Qual a probabilidade de que a amostra contenha duas unidades defeituosas ? 7.4.7) Uma loja tem no estoque 12 furadeiras da marca X, das quais duas operam em 220 V, 15 furadeiras da marca Y, das quais três operam em 220 V e oito furadeiras da marca Z, das quais apenas uma opera em 220 V. Uma furadeira é escolhida ao acaso. a) Qual a probabilidade de ser da marca X e operar em 220 V ? b) Se opera em 220 V, qual a probabilidade de ser da marca X ? 7.4.8) Em uma escola, 70% dos alunos são do sexo masculino. Sabe-se também que 20% dos rapazes usam óculos, o mesmo ocorrendo com 30% das moças. Se um nome é escolhido ao acaso e verifica-se que usa óculos. Qual a probabilidade de ser uma moça ? 7.4.9) Uma urna contém duas bolas vermelhas e três bolas amarelas. Retira-se uma bola da urna e, na sequência, coloca-se uma bola da outra cor. Em seguida retira-se outra bola da urna. Qual a probabilidade desta segunda bola ser amarela ? 7.4.10) Entre os compradores de certo modelo de câmera fotográfica digital, 65% adquirem um cartão de memória. Além disto, 45% dos compradores adquirem uma bateria sobressalente. Sabe-se, também, que 30% dos clientes adquirem os dois itens. Supondo que um cliente selecionado aleatoriamente tenha comprado uma bateria sobressalente, qual a probabilidade de comprar um cartão de memória ? 7.4.11) Uma loja comercializa televisores de três marcas distintas. Os aparelhos da marca X respondem por 50% das vendas, enquanto 30% são da marca Y e 20% são da marca Z. Todos os fabricantes oferecem um ano de garantia para peças e mão de obra. Sabe-se que 25% dos aparelhos da marca X necessitam de reparos durante o período de garantia, o mesmo ocorrendo com 20% dos aparelhos da marca Y e com 10% dos aparelhos da marca Z. Professor Inácio Andruski Guimarães, DSc. 46 Estatística – Notas de Aulas a) Qual a probabilidade de que um comprador adquira um televisor da marca X que necessite de reparos durante a garantia ? b) Se um cliente retorna à loja com um aparelho que necessita de reparos durante a garantia, qual a probabilidade de que seja da marca Y ? c) Se um cliente retorna à loja com um aparelho que necessita de reparos durante a garantia, qual a probabilidade de que não seja da marca Z ? Respostas 7.4.1) Ω = {0 , 1 , 2 , 3} P(X = 0) = (9/12)(8/11)(7/10) = 504/1320 = 0,3818 P(X = 1) = 0,4909 P(X = 2) = 0,1228 P(X = 3) = 0,0045 P = {0,3818 ; 0,4909 ; 0,1228 ; 0,0045} 7.4.3) Se a soma é par, os dois números ou são pares ou são ímpares. Ω = {(0,1) , ... , (0,9) , (1,0) , (1,2) , ... , (1,9) , (2,0) , (2,1) , (2,3) , ... , (2,9) , ... , (9,0) , ... , (9,8)} Soma Par = {(0,2) , ... , (0,8) , (1,3) , ... , (1,9) , (2,4) , ... , (2,8) , (3,1) , ... , (3,9) , ... , (9,1) , .... , (9,7)} Ímpares = {(1,3) , (1,5) , (1,7) , (1,9) , (3,1) , (3,5) , (3,7) , (3,9) , (5,1) , ... , (5,9) , ... , (9,1) , .... , (9,7)} #( Ω ) = 90 #( Soma Par ) = 40 #( Ímpares ) = 20 P( Ímpares | Soma Par ) = 20/40 = ½ 7.4.5) a) Se o jogador tem quatro cartas de paus, há 48 cartas na mesa, sendo nove de paus. Então o total de possíveis resultados é dado por 48 = 1128 . Se há nove cartas de paus, então o total de resultados 2 9 com duas cartas de paus é dado por = 36 . Então p = 36 / 1128 = 0,0319. 2 7.4.8) O diagrama de árvore fica Usa óculos 0,20 Rapaz 0,70 0,80 Não usa óculos Usa óculos 0,30 0,30 Moça 0,70 Não usa óculos P( Moça | Usa óculos) = 0,09 / 0,23 = 0,3913. 7.4.10) Sejam as probabilidades: P(M) = probabilidade de adquirir um cartão = 0,65. P(B) = probabilidade de adquirir uma bateria = 0,45 P(M ∩ B) = probabilidade de adquirir cartão e bateria = 0,30 Então: P(M | B) = P(M ∩ B) / P(B) = 0,30 / 0,45 7.4.11) a) P( X ∩ R) = P( X ). P( R | X ) = (0,5).(0,25) b) P( Y | R ) = P( Y ∩ R) / P( R ) = [(0,3)(0,2)] / (0,205) Professor Inácio Andruski Guimarães, DSc. 47 Estatística – Notas de Aulas 8. VARIÁVEIS ALEATÓRIAS Sejam um espaço amostral Ω e um espaço de probabilidade P, associados a um experimento aleatório. Uma variável aleatória X no espaço de probabilidade é uma função real X(ω): Ω → IR definida em Ω e tal que [X ≤ x] é um evento aleatório para qualquer x real. Exemplo 8.1 – Um lote contém 20 unidades de um componente, sendo quatro defeituosas. São retiradas quatro peças e X representa o número de unidades defeituosas entre as quatro retiradas. Neste caso a variável X assume seus valores no conjunto Ω = {0 , 1 , 2 , 3 , 4}. O espaço de probabilidade P é dado por P = {0,3756 ; 0,4623 ; 0,1486 ; 0,0132 ; 0,0002}. x P( X = x) 0 0,3756 As probabilidades acima são dadas por: 1 0,4623 2 0,1486 3 0,0132 P ( X = 0) = 4 0,0002 Total 1 16 15 14 13 43680 = = 0 ,3756 20 19 18 17 116280 P ( X = 1) = 4 16 15 14 4 = 0 , 4623 20 19 18 17 P ( X = 2) = 6 P ( X = 3) = 4 16 4 3 2 = 0 ,0132 20 19 18 17 P ( X = 4) = 16 15 4 3 = 0 ,1486 20 19 18 17 4 3 2 1 = 0 , 0002 20 19 18 17 Propriedades Sejam X e Y variáveis aleatórias em um espaço Ω. Então: P1: (X + Y )(ω) = X(ω) + Y(ω) P2: (kX )(ω) = kX (ω) P3: (X + k )(ω) = X(ω) + k P4: (XY )(ω) = X (ω) Y (ω) 8.1 – Tipos de Variáveis Aleatórias São considerados dois tipos de variáveis aleatórias, discreta e contínua, ambos definidos a seguir. 8.1.1 – Variável Aleatória Discreta Seja X uma variável aleatória definida no espaço amostral Ω. Diz-se que X é uma variável aleatória discreta (v.a.d.) se assume um número finito, ou enumerável, de valores. De outro modo, X é discreta se existe um conjunto enumerável {x1 , x2 , ... , xn }, contido em IR, tal que X(ω) ∈ {x1 , ... , xn }, para qualquer ω ∈ Ω. Exemplo 8.2 – A variável aleatória X do exemplo anterior é discreta. 8.1.2 – Variável Aleatória Contínua Seja X uma variável aleatória definida no espaço amostral Ω. Diz-se que X é uma variável aleatória contínua (v.a.c.) se assume seus valores em um intervalo de números reais. Exemplo 8.3 – Seja t a variável aleatória que representa o tempo entre duas falhas consecutivas apresentadas por um equipamento. Neste caso t é uma variável aleatória contínua, e Ω = {t ∈ IR ; 0 ≤ t }. 8.2 – Função de Probabilidade Seja X uma variável aleatória discreta no espaço amostral Ω, tal que X(ω) ∈ {x1 , x2 ,... , xn }, para qualquer ω ∈ Ω. Diz-se que p (x) é uma função de probabilidade (f.p.) de X se: 1. p (xi ) = P( X = xi ). Professor Inácio Andruski Guimarães, DSc. 48 Estatística – Notas de Aulas 2. p(xi ) ≥ 0 . 3. ∑ p( x ) = 1 n i i =1 Exemplo 8.4 – Seja X a v.a.d. que indica o total de resultados iguais a 6, obtidos em cinco lançamentos de um dado. Então X ∈ {0 , 1 , 2 , 3 , 4 , 5}. As probabilidades são dadas por: P(X = 0) = C5 , 0 (1/6)0 (5/6)5 = 0,4019 P(X = 1) = C5 , 1 (1/6)1 (5/6)4 = 0,4019 x Não é difícil verificar que: 1) P ( X = x ) = p ( x ) = C 5 , x 1 5 5− x 6 6 3) 6 ∑ i =1 . 2) ... p( xi ) ≥ 0 . x 5− x 5 1 i 5 i = x i 6 6 8.3 – Função Densidade de Probabilidade Seja X uma variável aleatória contínua em um espaço amostral Ω. Diz-se que f (x) é uma função densidade de probabilidade (f.d.p.) se: 1. f ( xi ) ≥ 0 . x2 ∫ f ( X ) dX 2. P ( x1 ≤ X ≤ x 2 ) = x1 +∞ 3. ∫ f ( X )dX = 1 −∞ Exemplo 8.5 – Sejam uma v.a.c. X , 0 ≤ X e a função f ( X ) = e – X . A função dada é uma f.d.p., pois: 1. f ( xi ) ≥ 0 x2 ∫e 2. P ( x1 ≤ X ≤ x 2 ) = −X dX = − e − x 2 + e − x1 . x1 +∞ 3. ∫e −X dX = − e − X 0 +∞ 0 =1 8.4 – Expectância A expectância, também chamada esperança, valor esperado ou valor médio, de uma variável aleatória X é dada por: 1. E ( X ) = µ = X n ∑ x i p ( x i ) , se X é uma variável aleatória discreta. (8.1) i =1 2. E ( X ) = µ = X +∞ ∫ Xf ( X ) dX , se X é uma variável aleatória contínua. −∞ Professor Inácio Andruski Guimarães, DSc. (8.2) 49 Estatística – Notas de Aulas Propriedades Sejam X e Y variáveis aleatórias definidas em um mesmo espaço amostral Ω, k um número real. Então: P1: E(kX ) = kE(X ) P2: E(X + k) = E( X ) + k P3: E(X + Y ) = E(X ) + E(Y ) P4: E(XY) = E(X)E(Y) Exemplo 8.6 – Seja X a variável aleatória do exemplo 8.1. Então a sua expectância é calculada como: x P( X = x) xP(X = x) 0 0,3756 0 1 0,4623 0,4623 2 0,1486 0,2972 3 0,0132 0,0396 4 0,0002 0,0008 Total 1 0,7999 E (X ) = 0,7999 Exemplo 8.7 – Sejam a variável aleatória e a função densidade de probabilidade dadas no exemplo 8.5. Então: ∞ E( X ) = ∫ xe −x dx = . 0 8.5 – Variância A variância de uma variável aleatória X é dada por: 1. Var [ X ] = σ 2 n = ∑ [x i − E ( X )] 2 p ( x i ) , se X é uma variável aleatória discreta. (8.3) i =1 +∞ 2. Var [ X ] = σ 2 = ∫ [ X − E ( X )] 2 f ( X ) dX , se X é uma variável aleatória contínua. (8.4) −∞ Propriedades Sejam X e Y variáveis aleatórias definidas em um mesmo espaço amostral Ω, k um número real. Então: P2: Var(kX) = k2 Var(X) P1: Var(X + k) = Var(X) . A variância também pode ser calculada através da fórmula: Var [ X ] = E ( X 2 ) − [ E ( X )] 2 . Na fórmula (8.5): E ( X 2 ) = n ∑x 2 i p ( x i ) , para v.a.d. e E ( X 2 ) = i =1 (8.5) +∞ ∫X 2 i f ( X ) dX , para v.a.c.. −∞ Exemplo 8.8 – Seja X a variável aleatória do exemplo 8.1. Então a sua variância é calculada como: x P( X = x) x2 P(X = x) 0 0,3756 0 1 0,4623 0,4623 2 0,1486 0,5944 3 0,0132 0,1188 4 0,0002 0,0032 Total 1 1,1787 Então: Var[X] = 1,1787 – (0,7999)2 = 0,5389. Exemplo 8.9 – Sejam a variável aleatória e a função densidade de probabilidade dadas no exemplo 8.5. Então: ∞ E( X 2 )= ∫x 2 e − x dx = 0 Logo, Var[X] = 2 – 12 = 1. Professor Inácio Andruski Guimarães, DSc. 50 Estatística – Notas de Aulas 8.6 – Função Distribuição Acumulada Seja uma variável aleatória X, discreta ou contínua, definida no espaço amostral Ω, e tal que X(ω) ∈ {x1 ,... , xn }, para qualquer ω ∈ Ω. Chama-se função de distribuição acumulada a função dada por: 1. F ( x i ) = i ∑ f ( x ) . Se X é uma variável aleatória discreta. i j =1 x 2. F ( x ) = ∫ f ( t ) dt . Se X é uma variável aleatória contínua. −∞ Em qualquer dos casos: P1: se a ≤ b, então F(a) ≤ F(b). P 2: lim F ( x ) = 0 x → −∞ lim F ( x ) = 1 . e x → +∞ Exemplo 8.10 – Seja X a variável aleatória do exemplo 8.1. x P( X = x) x2 P(X = x) 0 0,3756 0 1 0,4623 0,4623 2 0,1486 0,5944 3 0,0132 0,1188 4 0,0002 0,0032 Total 1 1,1787 F(3) = P(X ≤ 3) = 0,3756+ 0,4623 + 0,0132 = 0,9997. Exemplo 8.11 – Sejam a variável aleatória e a função densidade de probabilidade dadas no exemplo 8.5. Então: 3 F (3) = ∫e −x dx = − e − x | 30 = − e − 3 + e 0 = 0 , 9502 . 0 8.7 – Distribuição Conjunta Sejam duas variáveis aleatórias, X e Y, definidas em um espaço amostral Ω, e com os contradomínios X(ω) = {x1 , ... , xn } e Y(ω) = {y1 , ... , ym }. Seja também o produto cartesiano dado por: X (ω ) × Y (ω ) = {( x1 , y1 ),..., ( x n , y m )} . Chama-se distribuição conjunta, ou função de probabilidade conjunta de X e Y a função definida por: H ( xi , y j ) = P ( X = xi ;Y = y j ) . Se X e Y são variáveis aleatórias discretas: 1. H ( x i , y j ) ≥ 0 . 2. n m i =1 j =1 ∑∑ H (xi , y j ) = 1 . 3. P ( X = x i ; Y = y j ) = H ( x i , y j ) . Se X e Y são variáveis aleatórias contínuas: 1. H ( X , Y ) ≥ 0 . 2. +∞ +∞ ∫ ∫ H ( X , Y ) dXdY = 1. −∞−∞ Professor Inácio Andruski Guimarães, DSc. (8.6) 51 Estatística – Notas de Aulas 3. P ( x ≤ X ≤ x ; y ≤ Y ≤ y ) = 1 2 1 2 x2 y2 ∫ ∫ H ( X , Y ) dYdX x1 y 1 Para a função (8.6) há um espaço de probabilidades. Tais probabilidades podem ser apresentadas em tabelas, ou quadros, de dupla entrada. Tabela 8.1 – Distribuição de Probabilidade Conjunta. Y y1 y2 ... ym H(x1 , y1) H(x1 , y2) ... H(x1 , ym) H(x2 , y1) H(x2 , y2) ... H(x2 , ym) ... ... ... ... H(xn , y1) H(xn , y2) ... H(xn , ym) g(y1) g(y2) ... g(ym) X x1 x2 ... xn Total Total f(x1) f(x2) ... f(xn ) 1 Na Tabela 8.1 as funções f e g são chamadas distribuições marginais, e são definidas por: 1. f ( x i ) = m ∑ H ( xi , y j ) g( y j ) = j =1 ∑ H (x , y i j ) , para X e Y discretas. i =1 +∞ 2. f ( x ) = n +∞ ∫ H ( x, y)dy g ( y) = −∞ ∫ H ( x, y)dx , para X e Y contínuas. −∞ 8.8 – Independência de Variáveis Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, com os contradomínios X(ω) = {x1 , ... , xn } e Y(ω) = {y1 , ... , ym }, e com distribuição conjunta H(xi , yj). Diz-se que X e Y são variáveis aleatórias independentes se, e somente se: H ( xi , y j ) = f ( xi ) g ( y j ) . Exemplo 8.12 – Um experimento aleatório consiste em lançar uma moeda e retirar uma carta de um baralho. Sejam as variáveis aleatórias X , resultado observado na moeda(0 = cara e 1 = coroa), e Y , naipe da carta retirada (1 = paus, 2 = ouro, 3 = copas, 4 = espada). Então o espaço de probabilidades é: X 0 1 Total Y 1 ⅛ ⅛ ¼ 2 ⅛ ⅛ ¼ 3 ⅛ ⅛ ¼ 4 ⅛ ⅛ ¼ Total ½ ½ 1 Neste caso as variáveis são independentes, pois H(xi , yj) = f(xi )g(yj ). 8.8.1 – Expectância Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, com os contradomínios X(ω) = {x1 , ... , xn } e Y(ω) = {y1 , ... , ym }, e com distribuição conjunta H(xi , yj). A expectância do produto de X e Y é dada por: 1. E ( XY ) = µ XY = n ∑x i y j H ( x i , y j ) , se X e Y são variáveis aleatórias discretas. (8.7) i =1 2. E ( XY ) = µ XY = +∞ +∞ ∫ ∫ XYH ( X , Y ) dXdY , se X e Y são variáveis aleatórias contínuas. −∞− ∞ Professor Inácio Andruski Guimarães, DSc. (8.8) 52 Estatística – Notas de Aulas 8.8.2 – Covariância Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, e com os contradomínios X(ω) = {x1 , ... , xn } e Y(ω) = {y1 , ... , ym }, e com expectâncias µX e µY , respectivamente. Além disto, considere-se que a distribuição conjunta das duas variáveis é H(xi , yj). Então a covariância de X e Y é dada por: Cov ( X , Y ) = n m i =1 j =1 ∑ ∑ [x i − µ X ][ y j − µ Y ] H ( x i , y j ) , para X e Y discretas. (8.9) +∞ +∞ Cov ( X , Y ) = ∫ ∫ (X − µ X )(Y − µ Y ) H ( X , Y ) dXdY , para X e Y contínuas. (8.10) − ∞− ∞ A covariância também pode ser calculada por: Cov ( X , Y ) = E ( XY ) − E ( X ) E (Y ) . (8.11) Na fórmula (8.11) as expectâncias são dadas por: +∞ E(X ) = ∫ +∞ Xf ( X ) dX e E (Y ) = −∞ ∫ Yg (Y ) dY −∞ 8.8.3 – Correlação Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, e com os contradomínios X(ω) = {x1 , ... , xn } e Y(ω) = {y1 , ... , ym }, e com variâncias σ2X e σ2Y, respectivamente. O coeficiente de correlação de X e Y é a medida da relação linear entre as duas variáveis, e é dado por: ρ ( X ,Y ) = Cov ( X , Y ) σ 2 X . (8.12) σ Y2 O coeficiente de correlação ρ pertence ao intervalo real [– 1 ; 1] . Se ρ = 1 ou ρ = – 1, a relação é perfeita, e neste caso Y = aX + b , onde a e b são números reais. Quanto maior a independência entre as variáveis X e Y, mais próximo de zero é o valor de ρ. Exemplo 8.13 – Sejam x e y variáveis aleatórias contínuas com distribuição conjunta dada por: a) b) c) d) 6 & (!, " #5 ! % " 0 ' ! ' 10 ' " ' 1 0()*+(+,-á-/+ Determinar as funções distribuições marginais. Calcular E( x ) e E( y ). Calcular a expectância do produto. Calcular a covariância. 8.9 – Exercícios, 8.9.1) Seja x uma variável aleatória contínua, e seja a função dada por: 1 x ,0 ≤ x ≤ 3 f (x) = k 0 , outro caso . a) b) c) d) e) Se f é uma função densidade de probabilidade, qual o valor de k ? Qual a expectância ? Qual a variância ? Calcular P(1 ≤ x ≤ 2). Calcular a função de distribuição acumulada. Professor Inácio Andruski Guimarães, DSc. 53 Estatística – Notas de Aulas 8.9.2) Seja X uma variável aleatória discreta, com a distribuição de probabilidade mostrada no quadro a seguir. X 0 1 2 3 4 5 P(X) 0,12 0,24 0,28 0,18 0,10 0,08 a) Qual a expectância ? b) Qual a variância ? c) Calcular P(0 ≤ x ≤ 3). 8.9.3) Seja X uma variável aleatória contínua com função densidade de probabilidade dada por: k , a ≤ x ≤ b. f (x) = 0 , outro caso . a) b) c) d) Qual o valor de k ? Quanto vale a expectância ? Quanto vale a variância ? Obter a função distribuição acumulada. 8.9.4) Seja X uma variável aleatória discreta. Verificar que Var[X] = E[X 2] – {E[X]}2. 8.9.5) Uma caixa contém 10 unidades de um componente, das quais três são defeituosas. Deve-se testar as unidades até encontrar duas defeituosas. Seja x o número de testes necessários. a) Obter a distribuição de probabilidades para x. b) Calcular a expectância e a variância para x. 8.9.6) Sejam duas variáveis aleatórias contínuas x e y, 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1 , com distribuição de probabilidade conjunta dada por: f ( x, y ) = ke 2 x − y . a) Qual o valor de k ? b) Calcular a expectância. c) Calcular a covariância. 8.9.7) Sejam duas v.a.’s contínuas x e y com f.d.p. conjunta dada por: f (x, y) = 2 k (2 x + 3 y ) , 0 ≤ x ≤ 1 , 0 ≤ y ≤ 1 . 5 a) Calcular a expectância. b) Calcular a covariância. 8.9.8) (Devore, J.L.) Seja x, 0 ≤ x, a v.a.c. que representa a tensão de vibração (psi), em uma palheta de turbina a certa velocidade em um túnel de vento. O artigo “Blade fatigue life assesment with application to VAWTS”, publicado no Journal of Solar Energy Engineering (1982), propõe a distribuição de Rayleigh, cuja f.d.p. é dada por: f ( x | θ) = a) b) c) d) e) x2 k − x exp 2 θ2 2θ Qual o valor de k ? Calcular a expectância para x. Calcular a variância para x. Calcular a função distribuição acumulada. A mediana de x é ~ x tal que P[x ≤ ~ x ] = 0,5. Calcular a mediana para esta variável aleatória. 8.9.9) Seja x uma variável aleatória contínua com função densidade de probabilidade dada por: Professor Inácio Andruski Guimarães, DSc. 54 Estatística – Notas de Aulas f (x) = a) b) c) d) 1 2 −x x e k ,0 ≤ x. Qual o valor de k ? Quanto vale a expectância ? Quanto vale a variância ? Obter a função distribuição acumulada. 8.9.10) Sejam x e y duas v.a.`s discretas com distribuição conjunta dada no quadro a seguir. x 0 1 2 a) b) c) d) 0 0,10 0,08 0,06 y 1 0,04 0,20 0,14 2 0,02 0,06 0,30 Verificar se as duas variáveis são independentes. Calcular a expectância e a variância para x. Idem para y. Calcular o coeficiente de correlação para x e y. 8.9.11) Um jogo consiste em lançar uma moeda duas vezes. Se der uma “cara”, o jogador ganha R$ 1,00. Se der duas “caras”, o jogador recebe R$ 2,00. Se não der “cara”, o jogador perde R$ 4,00. Este jogo pode ser considerado como favorável ao jogador ? 8.9.12) Um automóvel custa R$ 45000,00. Sabe-se que em anos anteriores a taxa de roubo deste mesmo automóvel foi de 2%. Neste caso, qual o valor “justo” do prêmio de um seguro contra roubo ? 8.9.13) Seja X uma variável aleatória que pode assumir os valores {– 1 , 0 , 1} com as probabilidades dadas no quadro a seguir. Seja Y = X 2. X –1 0 1 P(X) ¼ ¼ ½ a) b) c) d) Obter a distribuição de probabilidades para a variável Y. Obter a distribuição conjunta de probabilidades. Calcular a expectância e a variância para X. Idem para Y. 8.9.14) O quadro a seguir mostra a classificação de 980 eleitores estadunidenses distribuídos conforme a cor e a opção partidária. Cor Branco Negro Total Democrata 103 341 444 Opção Independente 15 105 120 Neutro 11 405 416 Fonte: Agresti (2002). a) b) c) d) e) Obter a distribuição de probabilidades para a variável “cor”. Obter a distribuição conjunta de probabilidades. Calcular a expectância e a variância para “cor”. Idem para a variável “opção”. As duas variáveis em questão são independentes ? Respostas b 8.9.3) a) ∫ kdx = kx a b a = k (b − a) = 1 ⇒ k = 1 b−a Professor Inácio Andruski Guimarães, DSc. Total 129 851 980 55 Estatística – Notas de Aulas b b b) E [ x ] = x 1 x2 1 b2 − a2 a+b dx = = = ∫a b − a b − a 2 a b − a 2 2 b b c) E [ x 2 ] = Var [ x ] = x2 1 x3 1 b 3 − a 3 b 2 + ab + a 2 dx = = = ∫a b − a b − a 3 a b − a 3 3 b 2 + ab + a 2 b 2 + 2 ab + b 2 (b − a ) 2 − = 3 4 12 8.9.5) X P(X) 8.9.10) 2 0,0667 3 0,1167 4 0,0150 5 0,1667 a) Ω = {1 , 2 , 3 , 4 , 5 , 6} 6 0,1667 7 0,1500 8 0,1167 b) X(ω) = {2 , 4 , 6 , 8 , 10 , 12} 9 0,2015 Y(ω) = {0 , 1} c) Y 0 1 Total d) X e Y não são independentes. X 2 0 1/6 1/6 4 0 1/6 1/6 e) E[X] = 7 6 0 1/6 1/6 8 1/6 0 1/6 10 0 1/6 1/6 Total 12 1/6 0 1/6 Var[X] = 11,6667 2/6 4/6 1 f) E[Y] = 0,6667 Var[Y] = 0,2222 8.9.12) Neste caso, o “jogo” é honesto se P(ser roubado).Valor = P(não ser roubado).Prêmio Então: (0,02)(45000) = (0,98)(Prêmio) → Prêmio = 918,37 Referências: Gnedenko, B.V., Theory of Probability. Chelsea Publishing Company. 1962. Agresti, A., Categorical Data Analysis. John Wiley & Sons, Inc. 2002. Professor Inácio Andruski Guimarães, DSc. 56 Estatística – Notas de Aulas 9. MODELOS DE PROBABILIDADE PARA VARIÁVEIS DISCRETAS Certos problemas práticos são bastante adequados à utilização de variáveis aleatórias discretas. Em tais situações, a compreensão da natureza destas variáveis é requisito fundamental para a formulação de modelos probabilísticos associados a este tipo de variável. Os principais modelos probabilísticos para variáveis aleatórias discretas, também chamados distribuições, são apresentados na seqüência. 9.1 – Distribuição Uniforme Discreta Seja uma variável aleatória discreta X, que assume os valores x1 , x2 , ... , xk . Diz-se que X tem distribuição uniforme discreta se, e somente se, para todo i = 1 , 2 , ... , k: P ( X = xi ) = 1 k . (9.1) A expectância e a variância são dadas por: k ∑ E(X ) = xi i =1 k (9.2) e Var ( X ) = 1 k 2 1 k x i − (∑ x i ) 2 ∑ k i =1 k i =1 (9.3) A função de distribuição acumulada é dada por F ( x) = n( x ) . k (9.4) Na fórmula (9.4), n(x) é número de elementos xi ≤ x. Exemplo 9.1 – Seja X a variável aleatória que representa o resultado observado no lançamento de um dado. Neste caso: X P(X) 1 1/6 2 1/6 3 1/6 4 1/6 P ( X = xi ) = 5 1/6 6 1/6 1 6 9.2 – Distribuição de Bernoulli Para definir este modelo é conveniente apresentar um experimento aleatório conhecido como experimento de Bernoulli. Este experimento consiste na observação de sucessivos eventos, que apresentam as seguintes propriedades: 1. 2. 3. Apenas dois resultados são admitidos: sucesso ou insucesso. A probabilidade p, de sucesso, é constante ao longo do experimento. Cada evento é independente. Seja X uma variável aleatória discreta que assume os valores 0 (zero) ou 1 (um), conforme o resultado de um evento em um experimento de Bernoulli seja insucesso ou sucesso, sendo p a probabilidade de sucesso. Nestas condições, diz-se que X tem distribuição de Bernoulli com parâmetro p. O modelo de probabilidade correspondente é dado por: P ( X = x ) = p x (1 − p ) 1 − x . (9.5) Também se utiliza a notação X ~ Ber(p). A expectância e a variância são dadas, respectivamente, por: E(X ) = p (9.6) Var ( X ) = p (1 − p ) Professor Inácio Andruski Guimarães, DSc. (9.7) 57 Estatística – Notas de Aulas A função de distribuição acumulada é dada por: 0 , x < 0 F ( x ) = 1 − p , 0 ≤ x < 1 1 , 1 ≤ x . (9.8) Exemplo 9.2 – Um experimento aleatório consiste em lançar um dado e observar o seu resultado. Seja X a variável aleatória que vale 1, se o resultado é “6”, e 0 em outro caso. Neste caso a probabilidade de sucesso é p = 1/6. Então o modelo correspondente é dado por: x 1 5 P ( X = x) = 6 6 1− x . 9.3 – Distribuição Binomial Seja X uma variável aleatória que indica o número de sucessos observados em n eventos de um experimento de Bernoulli, com probabilidade p de sucesso. Então diz-se que X tem distribuição binomial com parâmetros n e p, e modelo de probabilidade dado por: n f ( x n , p ) = p x (1 − p ) n − x x . (9.9) A notação para X é X ~ b(n , p). A expectância e a variância são respectivamente: E ( x ) = np Var ( x ) = np (1 − p ) (9.10) (9.11) A função distribuição acumulada é dada por: F ( x n, p) = x ∑ f (y n , p ) y=0 Exemplo 9.3 – A proporção de não conformidade de certo componente é 8%. Ao se inspecionar um lote de 12 unidades deste componente, qual a probabilidade de se encontrar três unidades não conformes ? Exemplo 9.4 – No exemplo anterior, o número esperado de unidades defeituosas, e a variância, são: 9.4 – Distribuição Geométrica Seja X uma variável aleatória discreta que indica o número de observações de um experimento de Bernoulli até a ocorrência de um sucesso, com probabilidade p, isto é, o número de tentativas até se obter um sucesso. Neste caso, diz-se que x tem distribuição geométrica, com parâmetro p. O modelo probabilístico é dado por: f ( x ) = p (1 − p ) x −1 . (9.12) A expectância e a variância são dadas por: E (x) = 1 p (9.13) Var ( x ) = 1− p p2 (9.14) Exemplo 9.5 – A proporção de não conformidade de certo componente é 8%. Ao se inspecionar um lote de 12 unidades deste componente, qual a probabilidade de se encontrar uma unidade defeituosa apenas na quarta observação ? Professor Inácio Andruski Guimarães, DSc. 58 Estatística – Notas de Aulas 9.5 – Distribuição de Pascal, ou Binomial Negativa Seja x uma variável aleatória discreta que indica o número de observações de um experimento de Bernoulli, com probabilidade p de sucesso, até a ocorrência de n sucessos. Aqui diz-se que x segue distribuição de Pascal, ou binomial negativa, cujo modelo é dado por: x − 1 n p (1 − p ) x − n f ( x p , n ) = n − 1 . (9.15) A expectância e a variância são dadas por: E (x) = n p (9.16) Var ( x ) = n (1 − p ) p2 (9.17) Exemplo 9.6 – A proporção de não conformidade de certo componente é 8%. Ao se inspecionar um lote de 12 unidades deste componente, qual a probabilidade de se ter que inspecionar cinco unidades para encontrar duas não conformes ? 9.6 – Distribuição Hipergeométrica Seja um conjunto com N elementos e k ocorrências de determinado evento. Seja um subconjunto com n elementos, extraídos do conjunto citado. Se x é a variável aleatória discreta que indica o número de ocorrências no subconjunto, então diz-se que x tem distribuição hipergeométrica, com parâmetros N, k e n, e o seu modelo probabilístico é: N −k n− x f (x) = N n k x . (9.18) A expectância e a variância são: E ( x) = nk N k 1 − k N − n Var ( x ) = n n n N − 1 (9.19) (9.20) Exemplo 9.7 – Em um lote de 20 motores há dois defeituosos. São retiradas cinco unidades para inspeção. Qual a probabilidade de se encontrar uma unidade defeituosa entre as cinco retiradas para inspeção ? 9.7 – Distribuição Multinomial Seja um experimento aleatório executado n vezes, com k possíveis resultados, e probabilidades p1 , p2 , ... , pk . Sejam X1 , X2 , ... , Xk as variáveis aleatórias discretas que indicam o total de ocorrências de cada uma das k respostas, e tais que X1 + X2 + ... + Xk = n. Aqui diz-se que X tem distribuição multinomial, ou polinomial. O modelo de probabilidade é dado por: P ( X 1 = x 1 ,..., X k k ∑ xi ! k x i =1 = xk ) = k pi i ∏ i =1 ∏ xi ! . (9.21) i =1 A expectância e a variância são dadas por: E ( X i ) = np i (9.22) Var ( X i ) = np i (1 − p i ) Professor Inácio Andruski Guimarães, DSc. (9.23) 59 Estatística – Notas de Aulas Exemplo 9.8 – Na inspeção de qualidade de um produto são utilizadas quatro categorias para classificação: conforme, aproveitável, reciclável e refugado. As probabilidades de pertencer a cada um dos grupos são, respectivamente: p1 = 0,70 , p2 = 0,15 , p3 = 0,10 e p3 = 0,05. Em um lote de 10 unidades, qual a probabilidade de se encontrar seis unidades conformes, duas aproveitáveis, uma reciclável e uma refugada ? 9.8 – Distribuição de Poisson Um experimento aleatório é chamado Experimento de Poisson quando consiste em observar as ocorrências de determinado evento ao longo de um intervalo contínuo subdividido em pequenos intervalos, de acordo com as seguintes propriedades: 1. O numero de sucessos em determinado intervalo independe do número de sucessos em qualquer outro intervalo. A probabilidade de sucesso em um intervalo é proporcional ao comprimento deste mesmo intervalo. A probabilidade de mais de um sucesso em um intervalo muito pequeno é desprezível. 2. 3. Seja x a variável aleatória discreta que indica o número de sucessos observados em um intervalo de um experimento de Poisson. Neste caso diz-se que X tem distribuição de Poisson com parâmetro λ, e o modelo de probabilidade é dado por: f (x λ ) = e −λ λ x x! . (9.24) A expectância e a variância são dadas por: ∞ E ( x) = ∑x x=0 ∞ ∞ ∞ ∞ e −λ λx λx λx λ ( x −1) +1 λ ( x −1) = e −λ ∑ x =e − λ ∑ = e −λ ∑ = λe −λ ∑ = λ e −λ e λ = λ x! x ! ( x − 1 )! ( x − 1 )! ( x − 1 )! x =1 x =1 x =1 x =1 Var ( X ) = λ (9.26) 2 3 OBS: Para as deduções acima convém lembrar que e λ = 1 + λ + λ + λ + ... 2! 3! Exemplo 9.9 – O número médio de clientes atendidos por um terminal é de 12 por hora. Qual a probabilidade de se ter que atender cinco clientes em meia hora ? 1h → 12 1 h→ λ 2 λ=6 Exemplo 9.10 – No exemplo anterior, qual a probabilidade de se ter que atender no mínimo quatro clientes em 15 minutos? Em aplicações práticas que envolvem experimentos de Poisson, geralmente o intervalo considerado pode ser de tempo, de comprimento, de área ou de volume. As aplicações práticas desta distribuição incluem o controle de qualidade, a teoria das filas e o processamento de sinais, entre outras. 9.9 – Exercícios 9.9.1) Um aeroporto registra em média oito pousos a cada período de seis horas. Qual a probabilidade de registrar dois pousos em uma hora ? 9.9.2) Um procedimento de inspeção de qualidade consiste em retirar para inspeção duas unidades de cada lote de 20 unidades. Se nenhuma das duas unidades é defeituosa, o lote é aprovado. Supondo que um lote contenha duas unidades defeituosas, qual a probabilidade de ser aprovado ? Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 60 9.9.3) A proporção de não conformidade de um produto é igual a 6%. Qual a probabilidade de uma amostra de 15 unidades apresentar duas não conformes ? 9.9.4) No exercício anterior, qual a probabilidade de que se tenha que inspecionar quatro unidades até encontrar uma defeituosa ? 9.9.5) No processo de fabricação de um produto, a taxa de rejeição é de 20%. A empresa recebe uma encomenda de oito unidades do produto. Qual o número esperado de unidades que a empresa deve fabricar para atender a encomenda? 9.9.6) No exercício anterior, se o custo de cada unidade fabricada é R$ 400,00, qual o custo esperado para atender à encomenda ? 9.9.7) Uma instituição financeira classifica os clientes em três grupos de risco de inadimplência: Alto risco, médio risco e baixo risco. Um levantamento apontou que 6% dos clientes pertencem ao primeiro grupo, 12% ao segundo e 82% ao terceiro. Qual a probabilidade de um grupo de 15 clientes apresentar um cliente do primeiro grupo, dois do segundo e 12 do terceiro ? 9.9.8) Certo tipo de cabo é vendido em rolos de 50m. Verificou-se que cada rolo apresenta em média duas imperfeições. Qual a probabilidade de um segmento de 10m apresentar uma falha ? 9.9.9) A proporção de não conformidade de um produto é de 4%. O produto é comercializado em embalagens com 12 unidades. Uma embalagem é rejeitada se for encontrada mais de uma unidade não conforme. Qual a probabilidade de que, em uma encomenda de dez embalagens, no máximo duas sejam rejeitadas ? 9.9.10) No exercício anterior, se cada embalagem rejeitada representa um custo de R$ 5,00 para o fabricante, qual o custo esperado para uma encomenda de 1000 embalagens ? 9.9.11) Uma linha de produção, trabalhando continuamente, apresenta em média duas falhas a cada oito horas. Cada falha implica em uma interrupção de 20 minutos. Ao receber uma encomenda que demanda 16 horas de trabalho, a empresa reserva 18 horas para a tarefa. Qual a probabilidade de que o prazo seja suficiente ? 9.9.12) Uma rede de auto-atendimento possui 12 unidades, que operam oito horas por dia. Em média são atendidos dois clientes por hora. Qual a probabilidade de que, em um intervalo de 15 minutos, oito unidades estejam ocupadas ? 9.9.13) Uma empresa vende em média duas unidades de um produto por dia. Quantas unidades devem ser mantidas em estoque, a fim de atender todos os eventuais pedidos? 9.9.14) A p.n.c. de certo componente é 6%. Deve-se compor uma amostra com cinco unidades não conformes. Qual a probabilidade de que se deva inspecionar no mínimo 10 unidades para encontrar as cinco desejadas ? Respostas: 9.9.2) P(X = 0) = 0,8053 (X é o número de unidades defeituosas entre as duas retiradas para inspeção). 9.9.4) P(X = 4) = 0,0498 (X é o número de unidades inspecionadas até que se encontre a defeituosa). 9.9.6) Custo esperado = 400 × E(X) = 400 × 10 = 4000,00. 9.9.8) P(X = 1) = 0,2681 9.9.10) Custo esperado = (5,00) × (1000) × P(rejeição) = 404,50 9.9.12) A probabilidade de um terminal atender um cliente em um intervalo de 15 minutos é p = 0,3033. Então a probabilidade de que oito dos doze terminais estejam ocupados é P(X = 8) = 0,0084. Professor Inácio Andruski Guimarães, DSc. 61 Estatística – Notas de Aulas 10. MODELOS DE PROBABILIDADE PARA VARIÁVEIS CONTÍNUAS Assim como as variáveis aleatórias discretas, as variáveis aleatórias contínuas podem ser de grande utilidade na abordagem de problemas práticos. Os principais modelos probabilísticos para variáveis aleatórias contínuas são apresentados na seqüência. Estes modelos também são denominados funções densidades de probabilidades, e podem envolver mais de um parâmetro. 10.1 – Distribuição Uniforme Contínua Seja uma variável aleatória contínua X, que assume seus valores no intervalo I = ]0 , θ[. Diz-se X tem distribuição uniforme no intervalo I, o que se denota por X ~ U(0 , θ), se a função densidade de probabilidade de X é dada por: θ − 1 , 0 < x < θ f (x |θ ) = 0 , outro caso . (10.1) A função (10.1) também pode ser representada por: f (x | θ ) = 1 θ . I ( 0 ,θ ) ( x ) (10.2) Na forma (10.2): 1 , 0 < x < θ I ( 0 ,θ ) ( x ) = 0 , outro caso . (10.3) A expectância e a variância são dadas por: E[ X ] = θ 2 (10.5) θ2 Var [ X ] = 12 (10.6) 10.2 – Distribuição Normal Diz-se que uma variável aleatória contínua X tem distribuição normal, com parâmetros µ e σ2, o que se denota por X ~ N(µ , σ2), quando a função densidade de probabilidade de X é dada por: f ( x | µ ,σ 2 ) = 1 (x − µ )2 exp − σ2 2π 2 1 σ . (10.7) A expectância e a variância são: E[ X ] = µ Var[ X ] = σ 2 (10.8) (10.9) A probabilidade de X pertencer ao intervalo I = [x1 , x2] é dada por: x2 P ( x1 ≤ X ≤ x 2 ) = ∫ f ( x | µ ,σ 2 ) dx . x1 A integral acima não pode ser calculada analiticamente, e exige o uso de algum método de integração numérica. Este problema pode ser resolvido, em parte, pela distribuição normal padronizada, ou padrão. Inicialmente efetua-se a mudança de variável: z= x−µ σ . Professor Inácio Andruski Guimarães, DSc. (10.10) Estatística – Notas de Aulas 62 Demonstra-se, neste caso, que a variável z, definida por (10.10), também tem distribuição normal, com média igual a zero e variância igual a um. A função densidade de probabilidade é dada por: φ (z) = z2 . exp − 2π 2 1 (10.11) Figura 10.1 – Gráfico da distribuição normal padrão. Desta forma: x − µ . x −µ P ( x1 ≤ X ≤ x 2 ) = P 1 ≤ z ≤ 2 σ σ (10.12) O valor para a expressão (10.12) corresponde à área limitada por z1 , z2 e pelo gráfico da função. Esta área pode ser encontrada com o auxílio da Tabela da distribuição normal padrão, que fornece a área entre z = 0 e z = zc . Exemplo 10.1 – Seja uma v.a.c. X, tal que X ~ N(12 , 4). a) Calcular P(12 ≤ X ≤ 13,5) z(12) = 0 e z(13,5) = 0,75. Então P(12 ≤ X ≤ 13,5) = Área(0 ≤ z ≤ 0,75) = b) Calcular P(10,5 ≤ X ≤ 12) z(12) = 0 e z(10,5) = – 0,75. Então P(10,5 ≤ X ≤ 12) = Área(- 0,75 ≤ z ≤ 0) = Área(0 ≤ z ≤ 0,75) = c) Calcular P(10,7 ≤ X ≤ 13,7) z(10,7) = – 0,65 e z(13,7) = 0,85. Então P(10,7 ≤ X ≤ 13,7) = Área(– 0,65 ≤ z ≤ 0,85). P(10,7 ≤ X ≤ 13,7) = Área(– 0,65 ≤ z ≤ 0) + Área(0 ≤ z ≤ 0,85) = 10.3 – Distribuição Gama Diz-se que uma v.a.c. X, 0 ≤ X, tem distribuição gama quando a sua função densidade de probabilidade é dada por: f (x | α , β ) = β α α −1 − β x . x e Γ (α ) Em (10.13), Γ(α) = (α – 1)! A expectância e a variância são dadas por: Professor Inácio Andruski Guimarães, DSc. (10.13) 63 Estatística – Notas de Aulas +∞ E[ x] = ∫ 0 x βα βα x α − 1 e − β x dx = Γ (α ) Γ (α ) +∞ ∫x α e − β x dx 0 Fazendo βx = t : (10.14) Var [ x ] = α . β2 (10.15) 10.4 – Distribuição Exponencial Seja um experimento aleatório de Poisson, conforme descrito em (9.8). Seja T a variável aleatória que representa o intervalo entre dois sucessos. Neste caso diz-se que T tem distribuição exponencial com parâmetro λ, o que se denota por T ~ Exp(λ). A função densidade de probabilidade é dada por: 0,t <0 . f ( t | λ ) = 1 − λt e , 0 t ≤ λ (10.16) A expectância e a variância são dadas por: E[T ] = λ Var[T ] = λ 2 (10.17) (10.18) Exemplo 10.2 – Sabe-se que a vida útil média de um componente segue uma distribuição exponencial com parâmetro λ = 600. Qual a probabilidade de que uma unidade deste componente dure mais de 800 horas ? +∞ P (800 < T ) = ∫ 800 t t − 1 − 600 1 +∞ e dt = ( − 600 ) e 600 | 800 = 0 , 2636 . 600 600 Exemplo 10.3 – Uma v.a.c. T tem distribuição exponencial com parâmetro λ = 4. Determinar um valor t para T tal que P(t < T) = 0,95. 1 P(x < T ) = 4 +∞ ∫e x − t 4 t − 1 dt = ( − 4 ) e 4 4 +∞ = 0 ,95 ⇒ x = 0 , 205 . x Na prática, é comum que o interesse na ocorrência de um evento modelado por uma distribuição exponencial resuma-se apenas à primeira ocorrência, com relação a um dado instante T. Deste modo, é mais conveniente utilizar o modelo dado por: P (t ≤ T ) = 1 − e − λ . (9.19) ou P (T < t ) = e − λ . (9.20) Exemplo 9.4 – Um equipamento apresenta em média cinco falhas por ano. Iniciando-se a contagem em uma data qualquer, qual a probabilidade de que a primeira falha ocorra dentro de um período de seis meses ? 12 meses → 5 falhas 6 meses → λ => λ = 2,5 P( t ≤ 6 meses) = 1 – e – 2,5 = 1 – 0,0821 = 0,9179. Na engenharia da qualidade, a distribuição exponencial é muito utilizada em estudos de Confiabilidade, como modelo da variável aleatória contínua tempo de falha, ou tempo entre falhas, de um equipamento, ou sistema. Neste caso o parâmetro λ representa o tempo médio até a primeira, ou próxima, falha. O principal inconveniente da utilização deste modelo reside no fato de considerar o tempo médio como sendo constante, isto é, sem levar em conta o envelhecimento do equipamento. Na realidade, é muito mais Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 64 razoável supor que a taxa de falhas aumenta com o tempo ou, de outro modo, que o tempo médio entre duas falhas consecutivas diminui com o tempo de utilização do equipamento. Um modelo mais adequado para o estudo da Confiabilidade é o modelo, ou distribuição, de Weibull, mostrado a seguir. 10.5 – Distribuição de Weibull Diz-se que uma v.a.c. x , 0 ≤ x, tem distribuição de Weibull, com parâmetros λ e β, quando a sua função densidade de probabilidade é dada por: f ( x | λ , β ) = λβ x β −1 exp( − λ x β ) . (10.19) Na forma (10.19) 0 ≤ λ, mensurado na mesma unidade da v.a.c. x, é o parâmetro de escala. Isto significa que variações em seu valor, enquanto o valor do parâmetro β é mantido constante, causam a compressão ou expansão do gráfico, conforme a Figura 10.2. Figura 10.2 – Variações do gráfico da Distribuição de Weibull para λ = 0,09 e λ = 0,06 ; com β constante. O parâmetro 0 ≤ β , adimensional, é o parâmetro de forma. Variações em seu valor, mantendo-se λ constante, provocam alterações na forma da função, conforme a Figura 10.3. Figura 10.3 – Variações do gráfico da Distribuição de Weibull para β = 1,5 e β = 0,5, com λ constante. A expectância e a variância são dadas por: E[ X ] = α − 1 β 1 Γ 1 + β (10.20) Var [ X ] = Professor Inácio Andruski Guimarães, DSc. (10.21) 65 Estatística – Notas de Aulas A função distribuição acumulada é dada por: 0 x < 0 x F (x | λ, β ) = 1 − exp − β λ 0≤ x Algumas aplicações freqüentes da distribuição de Weibull incluem a estimação do tempo de falha de componentes e equipamentos e a modelagem de emissões de poluentes por motores a combustão interna, entre outros exemplos. Esta distribuição também é largamente utilizada na Engenharia de Confiabilidade. 10.6 – Distribuição Qui-Quadrado (χ2) Diz-se que uma v.a.c. x, 0 ≤ x, tem distribuição Qui-Quadrado (χ2), com φ graus de liberdade, quando a sua função densidade de probabilidade é dada por: ϕ 12 ϕ x −1 − 2 f ( x) = x 2 e 2 . ϕ Γ 2 (10.22) Aqui se utiliza a notação X ~ χ2φ . A expectância e a variância são dadas por: E[ X ] = ϕ Var[ X ] = 2ϕ (10.23) (10.24) 10.7 – Distribuição t, de Student Sejam duas variáveis aleatórias contínuas, z ~ N(0 , 1) e U ~ χ2φ . Então a v.a.c. t, dada por t = z , U ϕ tem distribuição t, de Student com ν graus de liberdade. A expectância e a variância são dadas por: E [t ] = 0 ϕ Var [t ] = (10.23) (10.24) ϕ −2 10.8 – Distribuição F, de Fisher Sejam U e V duas variáveis aleatórias contínuas, tais que U ~ χ2ν e V ~ χ2η . Então a variável aleatória W, definida por W = U , V tem função densidade de probabilidade dada por: ν + η Γ 2 ν f (W ) = ν η η Γ Γ 2 2 ν ν −2 2 W ν 1 + η 2 . ν +η 2 Professor Inácio Andruski Guimarães, DSc. (10.25) 66 Estatística – Notas de Aulas A expectância e a variância são dadas por: E [W ] = η η −2 (10.26) Var [W ] = 2η 2 (ν + η − 2 ) ν (η − 2 ) 2 (η − 4 ) (10.27) 10.9 – Aproximação da Distribuição Binomial pela Normal Seja x uma variável aleatória discreta com distribuição binomial de parâmetros n e p. Para valores muito grandes de n é possível substituir a distribuição binomial pela distribuição normal, quando se deseja calcular determinada probabilidade, como P(x ≤ k), por exemplo. Neste caso basta calcular o escore reduzido para x, dado por: zx = x C − np np (1 − p ) . (10.28) Na fórmula (10.28), xC = k – 0,5 para calcular P(k ≤ x), e xC = k + 0,5 para calcular P(x ≤ k). Na prática esta aproximação é adequada para np ≥ 10 e n(1 – p) ≥ 10. Exemplo 10.4 – A proporção de não conformidade de certo componente é igual a 4%. Em um lote de 500 unidades, qual a probabilidade de se encontrar no máximo 30 unidades não conformes ? P(X ≤ 30) = P(XC ≤ 30,5) ; µ = (500)(0,04) = 20 ; σ2 = (500)(0,04)(0,96) = 19,2 ; σ = 4,3818. O escore reduzido é zx = 2,39. Então P(X ≤ 30) = área(zx ≤ 2,39) = 0,5 + 0,4916 = 0,9916. 10.10 – Exercícios 10.10.1) Uma variável aleatória X é normalmente distribuída, com média igual a 5 e variância igual a 4. Calcular as probabilidades: a) P(5 ≤ X ≤ 7,5) b) P(4,5 ≤ X ≤ 7,5) c) P(5,8 ≤ X ≤ 8,5) d) P(6,5 ≤ X ) e) P(X ≤ 7,5) f) P(X ≤ 4,5) 10.10.2) Os diâmetros dos tubos produzidos por uma máquina são normalmente distribuídos, com média igual a 49,7 mm e desvio padrão igual a 0,18 mm. Um cliente rejeita qualquer unidade com diâmetro superior a 50,2 mm. Qual a probabilidade de uma unidade ser rejeitada ? Resposta: 0,0027 10.10.3) O peso líquido dos potes de margarina de certa marca é normalmente distribuído, com média igual a 500 g e desvio padrão igual a 8 g. Um cliente rejeitou 15% de um lote, alegando que o peso líquido era inferior ao seu limite de tolerância. Quanto vale este limite ? 10.10.4) Um aeroporto registra em média cinco aterrissagens por hora. Qual a probabilidade de que o intervalo entre duas aterrissagens seja superior a 20 minutos ? Resposta: 0,1889 10.10.5) No exercício anterior, qual a probabilidade de que o intervalo de tempo seja inferior a 15 minutos? 10.10.6) Seja T uma variável aleatória contínua tal que T ~ Exp(λ). Verificar que E[T] = λ e Var[T] = λ2. Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 67 10.10.7) Seja X uma variável aleatória contínua com distribuição de Weibull, de parâmetros α e β. Encontrar a expectância e a variância de X. 10.10.8) O tempo médio até a ocorrência da primeira falha em um componente é igual a 500 horas. O fabricante oferece uma garantia de 200 horas. Qual a probabilidade de que a primeira falha ocorra dentro deste prazo ? Resposta: 0,3297 10.10.9) Seja uma variável aleatória X, tal que X ~ N(µ , σ2). Calcular: a) P(X ≤ µ + σ) b) P(X ≤ µ + 2σ) c) P(µ – σ ≤ X ≤ µ + σ) d) P(µ – 3σ ≤ X ≤ µ + 3σ) 10.10.10) Seja X uma variável aleatória contínua tal que X ~ χ27 . Determinar xc tal que: a) P(X ≤ xc ) = 0,95 b) P( xc ≤ X ) = 0,95 c) P( xc ≤ X ) = 0,025 10.10.11) Uma empresa aérea registra um índice de 8% de desistência para determinado vôo. Para compensar o prejuízo a empresa, que utiliza um avião com capacidade para 150 passageiros, costuma vender 155 passagens. Qual a probabilidade de que haja excesso de lotação (overbooking) ? Resposta: 0,0096 10.10.12) O tempo médio até a ocorrência da primeira falha em um componente é igual a 500 horas. O fabricante oferece uma garantia de 200 horas. Um equipamento utiliza oito unidades deste componente. Qual a probabilidade de no máximo duas unidades apresentarem defeito no prazo de garantia ? 10.10.13) Seja t uma v.a.c. com distribuição exponencial. Determinar a função distribuição acumulada. Professor Inácio Andruski Guimarães, DSc. 68 Estatística – Notas de Aulas 11. INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Seja X uma variável aleatória, contínua ou discreta, com função densidade de probabilidade, ou função de probabilidade dada por f (x | θ), onde θ é o parâmetro desconhecido. A inferência estatística é o nome dado ao problema que tem por objetivo especificar um ou mais valores para θ, tendo como base um conjunto de valores observados para a variável aleatória X. Exemplo 11.1 – Seja X uma variável aleatória discreta, com distribuição de Bernoulli. Então a função de probabilidade de X é: f ( x | θ ) = θ x (1 − θ ) 1 − x . Neste caso, o parâmetro desconhecido é θ. 11.1 – Estimadores e Estatísticas Seja uma variável aleatória X. Uma amostra aleatória de tamanho n da distribuição de X é uma seqüência x1 , x2 , ... , xn de n variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) com função densidade, ou de probabilidade, f (x | θ). A função densidade, ou de probabilidade, conjunta é dada por: n f ( x 1 , x 2 ,..., x n | θ ) = ∏ f ( xi | θ ) . (11.1) i =1 A função (11.1) também é denominada função de verossimilhança de θ correspondente à amostra: x1 x X = 2. ... xn A função de verossimilhança é dada por: L (θ ; X ) = n ∏ f (xi | θ ) . (11.2) i =1 Uma estatística é qualquer função da amostra, e que não depende de parâmetros desconhecidos. Exemplo 11.2 – Seja X = [ x1 , ... , xn ]T uma amostra aleatória de uma variável aleatória X ,com f.d.p., ou f.p., dada por f (x | θ). São exemplos de estatísticas: a) X = 1 n n ∑ xi . b) X (1) = min( x1 ,..., x n ) . i =1 Chama-se espaço paramétrico o conjunto Θ, no qual θ assume seus valores. Exemplo 11.3 – Seja a variável aleatória X do exemplo 11.1. Neste caso o espaço paramétrico é o conjunto Θ = {θ ; 0 ≤ θ ≤ 1}. Um estimador para θ é qualquer estatística que assuma valores no espaço paramétrico Θ. Em alguns casos o objetivo é a estimação de uma função g(θ). Então qualquer estatística que assume valores apenas no conjunto de possíveis valores para g(θ) é um estimador para a função. O erro quadrático médio (EQM) de um estimador θˆ é dado por: EQM [θˆ ] = Var [θˆ ] − B 2 [θˆ ] . Professor Inácio Andruski Guimarães, DSc. (11.3) 69 Estatística – Notas de Aulas Na fórmula (11.3), B[θˆ ] = E [θˆ ] − θ é o viés, ou vício, do estimador. Se E [θˆ ] = θ , diz-se que o estimador é não viciado, ou não viesado. Neste caso EQM [θˆ ] = Var [θˆ ] . Também, se lim B [θˆ ] = 0 , n→∞ diz-se que o estimador é assintoticamente não viesado. Exemplo 11.4 – Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória X, tal que E[X] = µ e Var[X] = σ2. Neste caso: 1 E[ X ] = E n Então X = 1 n n ∑ n ∑x i =1 i 1 n 1 = n E ∑ xi = n i =1 n ∑ E[ x i ]= µ. i =1 x i é um estimador não viesado para µ. i =1 11.2 – Estimadores Eficientes Seja θˆ o estimador para um parâmetro desconhecido θ. A eficiência do estimador em questão é dada por: e [θˆ ] = LI [θ ] Var [θˆ ] . (11.4) Na fórmula (11.4), LI[θ] é o limite inferior da variância dos estimadores não viesados de θ. Se e [θˆ ] = 1 , diz-se que o estimador é eficiente. 11.3 – Estatísticas Suficientes Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória X, com f.d.p., ou f.p., dada por f(x| θ). Quando se utiliza uma estatística para resumir as informações a respeito do parâmetro desconhecido θ, deve-se evitar que haja perda de informação. Neste sentido, se existe uma estatística, dada por T = T(x1 , x2 , ... , xn), que contém toda a informação fornecida por X, diz-se que T é uma estatística suficiente para estimar θ. Diz-se que a estatística T = T(x1 , x2 , ... , xn) é suficiente para θ, quando a distribuição condicional de x1 , ... , xn dado T é independente de θ. 11.3.1 – Critério da Fatoração de Neyman Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória X, com f.d.p., ou f.p., dada por f(x| θ), e função de verossimilhança L(θ ; X). Então a estatística T = T(x1 , x2 , ... , xn) é suficiente para θ se, e somente se: L (θ ; X ) = h ( x 1 ,..., x n ) g θ (T ( x 1 ,..., x n )) . (11.5) Na expressão (11.5), h é uma função que depende apenas de X e gθ depende de θ e de X apenas através de T. Exemplo 11.5 – Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória discreta X, com distribuição de Poisson, isto é, X ~ P(θ). Então: L (θ ; X ) = n ∏ f (xi | θ ) i =1 L( θ ; X ) = e − θ θ x1 e − θ θ x n ... = x1 ! xn ! Neste caso: h (X ) = 1 e g θ (T ( X )) = n . Então a estatística suficiente para θ é: ∏x! i i =1 Professor Inácio Andruski Guimarães, DSc. 70 Estatística – Notas de Aulas O critério da fatoração de Neyman é válido também no caso de funções multiparamétricas, isto é, com mais de um parâmetro desconhecido. 11.4 – Família Exponencial Seja uma variável aleatória x, com f.d.p., ou f.p., dada por f(x| θ). Diz-se que a distribuição de x pertence à família exponencial se: f ( x | θ ) = exp[ c (θ )T ( x ) + d (θ ) + S ( x )] . (11.6) Na forma (11.6), c e d são funções reais de θ, enquanto T e S são funções reais de x. Exemplo 11.6 – Seja x uma v.a.d. com distribuição de Poisson, ou seja, x ~ P(θ). Então: f (x | θ ) = e −θ θ x! x = exp[ −θ + x ln θ − ln x ! ] . Neste caso, d(θ) = – θ ; c(θ) = ln θ ; S(x) = – ln x! ; T(x) = x. Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória x, com f.d.p., ou f.p., dada por f(x| θ), pertencente à família exponencial. Então a distribuição conjunta de x1 , x2 , ... , xn é dada por: f ( x1 ,..., x n | θ ) = exp[ C (θ )T ( X ) + D (θ ) + S ( X )] . (11.7) A distribuição conjunta também pertence à família exponencial: T (X ) = n ∑ T (x i S (X ) = ) i =1 n ∑ S ( xi ) i =1 De acordo com o critério da fatoração de Neyman, T(X) é uma estatística suficiente para estimar o parâmetro desconhecido θ. Exemplo 11.7 – Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória discreta X, com distribuição de Poisson, ou X ~ P(θ). Então: f ( x1 ,..., x n | θ ) = e − θ θ x1 e − θ θ x n ... = x1 ! xn ! f ( x1 ,..., x n | θ) = Então: T( X ) = S( X ) = C( θ ) = D( θ ) = 11.5 – Método da Máxima Verossimilhança Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória x, com f.d.p., ou f.p., dada por f(x|θ), pertencente à família exponencial. A função de verossimilhança de θ, correspondente à amostra é dada por: L (θ ; X ) = n ∏ f (xi | θ ) i =1 Professor Inácio Andruski Guimarães, DSc. 71 Estatística – Notas de Aulas O estimador de máxima verossimilhança de θ é o valor θˆ que maximiza a função de verossimilhança. Em geral é mais prático trabalhar com o logaritmo da função de verossimilhança, isto é, com a função log-verossimilhança, dada por: n l (θ ; X ) = ln( ∏ f ( x i | θ ) ) . (11.8) i =1 Desta forma o estimador do parâmetro θ é dado por: ∂ l (θ | X ) = 0 ∂θ . (11.9) Exemplo 11.8 – Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória discreta x, com distribuição de Poisson, ou x ~ P(θ). Então: e −θ θ x1 e −θ θ x n L (θ | X ) = = ... x1 ! xn! n 1 e n − nθ θ ∑ xi i =1 ∏x! i i =1 l (θ ; X ) = ln 1 n ∏ n − n θ + ∑ x i ln θ i =1 xi ! i =1 O estimador de máxima verossimilhança de θ é: Há situações nas quais a derivada (11.9) não apresenta solução analítica explícita. Neste caso pode-se utilizar algum método numérico para obter o valor para o estimador de máxima verossimilhança. Seja a função escore, dada por: U (θ ) = ∂ l (θ | X ) ∂θ . (11.10) O método mais utilizado para obter a solução é o método de Newton-Raphson, que resulta na expressão: θ k +1 = θ k − U (θ k ) U ' (θ k ) . (11.11) 11.6 – Distribuição Amostral da Média Seja a variável aleatória X, associada a uma população de tamanho N, cujos parâmetros são a média populacional, µ = E[X], e a variância populacional σ2 = Var[X]. Além disto, supõe-se que os dois parâmetros são conhecidos. Sejam todas as possíveis amostras aleatórias, de tamanho n, extraídas da população em questão. Se for calculada a média para cada uma das amostras, obtém-se uma distribuição amostral da média, com expectância e variância dadas, respectivamente, por: E[ X ] = µ (11.12) Var [ X ] = σ 2 n Seja a variância populacional dada por: Professor Inácio Andruski Guimarães, DSc. (11.13) 72 Estatística – Notas de Aulas σ 2 1 N = N ∑ (x i − µ )2 . (11.14) i =1 Pode-se considerar como estimador para a variância populacional a estatística dada por: σˆ 2 = σˆ 2 = σˆ 2 = 1 n (x i − X )2 ∑ n i =1 (11.15) 1 n ∑ (x i − µ + µ − X n i =1 ) 2 , n n 1 n 2 ( ) ( ) ( ) (X − µ )2 , x − µ − 2 x − µ X − µ + ∑ ∑ ∑ i i n i =1 i =1 i =1 n 1 2 σˆ 2 = ∑ (x i − µ )2 − n ( X − µ ) . n i =1 Desta forma: 1 n ∑ E [ x i − µ ] 2 − nE [ X − µ ] 2 n i =1 1 n E [σˆ 2 ] = ∑ Var [ x i ] − nVar [ X ] n i =1 E [σˆ 2 ] = 1 σ2 2 nσ − n n n n −1 2. E [σˆ 2 ] = σ n E [σˆ 2 ] = (11.16) Com isto, observa-se que o estimador (11.15) possui um viés, dado por: B (σˆ 2 ) = E [σˆ 2 ] − σˆ 2 = − Um estimador não viesado é dado por 1 2. σˆ n (11.17) n 2 σˆ 2 . Desta forma, um estimador não viesado para σ é n −1 definido por: s2 = n 1 (xi − X )2 . ∑ n − 1 i =1 (11.18) 11.6.1 – Erro Padrão O erro padrão para a média amostral é definido como a raiz quadrada da variância, dada por (11.13), isto é: EP [ X ] = σ n 11.7 – Exercícios 11.7.1) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória discreta X, com distribuição de Bernoulli, isto é: f ( x | θ ) = θ x (1 − θ ) 1− x . a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar θ. c) Encontrar o estimador de máxima verossimilhança para θ. Professor Inácio Andruski Guimarães, DSc. 73 Estatística – Notas de Aulas 11.7.2) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua x, com distribuição exponencial, isto é: f (x |θ ) = 1 θ e − x θ . a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar θ. c) Encontrar o estimador de máxima verossimilhança para θ. Respostas: b ) n T (X ) = ∑ xi i =1 c ) θˆ = X . 11.7.3) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua x, com distribuição de Weibull, isto é: f ( x | θ 1 , θ 2 ) = θ 1θ 2 x θ 2 − 1 exp( − θ 1 x θ 2 ) . a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar θ = [θ1 , θ2]T . c) Encontrar os estimadores de máxima verossimilhança para θ. 11.7.4) O fabricante de certo equipamento deseja estimar o tempo médio entre falhas. Para tanto, observou o funcionamento do equipamento e registrou os tempos, em horas, entre as ocorrências das dez primeiras falhas. Os valores são dados no quadro abaixo. Supondo que o tempo entre as falhas segue distribuição exponencial, qual a probabilidade de que o tempo entre duas falhas seja superior a oito horas? Falha Tempo 1 5,5 2 8,5 3 7,0 4 9,0 5 8,5 6 6,0 7 6,5 8 5,0 9 7,0 10 5,0 Resposta: P(8 < t) = 0,3053. 11.7.5) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua x, x ~ N(µ,1). a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar µ. c) Encontrar o estimador de máxima verossimilhança para µ. 11.7.6) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua x, x ~ N(0 , σ2). a) Mostrar que a função pertence à família exponencial. b) Encontrar a estatística suficiente para estimar σ2. c) Encontrar o estimador de máxima verossimilhança para σ2. Respostas: b ) n 2 T (X) = ∑ xi i =1 1 n 2 c ) θˆ = ∑ x i . n i =1 11.7.7) Um criador de galinhas, que entrega ovos em embalagens de doze unidades, deseja estimar a probabilidade de que uma embalagem seja entregue com mais de um ovo quebrado. O criador inspecionou dez embalagens, cada uma com uma dúzia de ovos, e registrou o número de ovos quebrados. Os valores são mostrados no quadro a seguir. Embalagem Ovos quebrados 1 1 2 0 3 1 4 2 5 0 6 1 7 1 8 0 a) 9 0 10 3 Qual a distribuição de probabilidade da variável aleatória x, que representa o número de ovos quebrados em uma embalagem ? b) Qual a estatística suficiente para estimar o parâmetro desconhecido θ ? c) Estimar o parâmetro desconhecido θ. Professor Inácio Andruski Guimarães, DSc. 74 Estatística – Notas de Aulas d) Qual a probabilidade de uma embalagem apresentar mais de um ovo quebrado ? e) Quanto vale a expectância de x ? 11.7.8) O processo de fabricação de determinado componente mecânico apresenta uma elevada taxa de rejeição. O componente é entregue ao cliente em lotes de cinco unidades. O fabricante está interessado em descobrir o número de unidades produzidas até que se obter as cinco unidades. O quadro a seguir mostra o número de unidades produzidas para atender aos dez primeiros pedidos. Pedido Unidades produzidas 1 8 2 7 3 7 4 6 5 8 6 9 7 5 8 6 9 7 10 7 a) Caracterizar a variável aleatória x, que representa o número de unidades produzidas até se obter as cinco unidades necessárias. b) Qual a estatística suficiente para estimar o parâmetro desconhecido θ ? c) Estimar o parâmetro desconhecido θ. d) Qual a quantidade média necessária para atender cada pedido ? e) Se o custo para produzir uma unidade é de R$ 100,00, qual o custo médio para produzir um lote? Respostas: a) X é variável aleatória discreta com distribuição de Pascal. Então f ( x | θ ) = x − 1 θ 5 (1 − θ ) x − 5 . 5 −1 11.7.9) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua x, tal que: f (x | θ ) = x +1 x exp − θ (θ + 1 ) θ a) Mostrar que a função pertence à família exponencial. b) Encontrar a estatística suficiente para estimar θ. c) Encontrar o estimador de máxima verossimilhança para θ. 11.7.10) Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da v. a. c. x, 0 ≤ x ≤ 1, e seja a função dada por: f ( x | θ ) = θ x θ −1 . a) b) c) d) Calcular a expectância e a variância de X. Se a função é uma f.d.p., verificar se pertence à família exponencial. Encontrar, caso exista, uma estatística suficiente para estimar o parâmetro desconhecido. Encontrar, se existir, o EMV para o parâmetro desconhecido. Resposta: c) T ( X ) = n ∑ ln x i . i =1 11.7.11) Seja x, 0 ≤ x, a v.a.c. cuja f.d.p. é dada por: x2 k − x exp 2 θ2 2θ a) A f.d.p. pertence à família exponencial ? b) Qual a estatística suficiente para estimar o parâmetro θ ? c) Qual é o EMV para θ ? f ( x | θ) = 11.7.12) Seja x, 0 ≤ x, uma v.a.c. que segue distribuição gama, com parâmetros α e β. a) A f.d.p. pertence à família exponencial ? b) Quais as estatísticas suficientes para estimar os parâmetros α e β? c) Quais os EMV para α e β ? Referências Bolfarine, H., Sandoval, M.C., Introdução à Inferência Estatística. Sociedade Brasileira de Matemática. Rio de Janeiro, RJ. 2001. Professor Inácio Andruski Guimarães, DSc. 75 Estatística – Notas de Aulas 12. INTERVALOS DE CONFIANÇA Os estimadores estudados até aqui são denominados pontuais, uma vez que especificam um único valor para o estimador. Este método, embora correto, impede uma avaliação mais precisa do erro cometido no processo. Para aumentar a informação a respeito do valor do estimador pode-se utilizar a estimação por intervalo de confiança. Tal intervalo é construído com relação à média amostral, e permite especificar a probabilidade de que o valor do parâmetro desconhecido pertença ao intervalo em questão. O nível de confiança associado a um intervalo de confiança indica a percentagem de intervalos que incluiriam o valor do parâmetro que se deseja estimar. 12.1 – Intervalo de Confiança para a Média Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da v. a. c. X, com distribuição normal, com variância σ2 . Então um intervalo de confiança para a média populacional µ é dado por: σ σ . ; X + zα X − zα 2 2 n n (12.1) Na expressão (12.1), α = 1 – β, onde β é o nível de confiança desejado. O valor de α é tal que: σ σ . P X − zα ≤ µ ≤ X + zα = β 2 2 n n (12.2) Exemplo12.1 – Sabe-se que o peso da semente de certa espécie de planta é normalmente distribuído, com variância igual a 0,25. Uma amostra de 15 sementes apresentou os pesos mostrados no quadro a seguir. Construir um intervalo de 90% de confiança para estimar o peso médio das sementes da planta em questão. Observação Peso (g) 1 8,0 2 7,5 3 6,7 4 7,2 5 8,0 6 7,1 7 7,8 8 7,2 9 6,8 10 7,3 11 6,6 12 8,2 13 8,1 14 7,4 15 6,9 Neste caso, σ2 = 0,25. A média amostral é X = 7 ,3867 . Como o nível de confiança desejado é β = 0,90, α = 0,05. Isto significa que α deve ser tal que: 0 ,5 0 ,5 . P 7 , 3867 − z α ≤ µ ≤ 7 , 3867 + z α = 0 , 90 2 2 15 15 A tabela da distribuição normal mostra que esta probabilidade é obtida para z = 1,645. Então o intervalo de confiança procurado é: . Os níveis de confiança, e os respectivos valores críticos, mais utilizados na prática são mostrados no Quadro 12.1. Quadro 12.1 – Níveis de confiança. β 0,90 0,95 0,99 zc 1,645 1,96 2,58 12.1.1 – Intervalo de Confiança para a Média, com σ2 Desconhecida. No exemplo anterior a variância populacional é conhecida. Entretanto, tal fato não é freqüente na prática, quando não se dispõe de informação a respeito da variância populacional. Em situações com esta deve-se utilizar a variância amostral. Neste caso os valores para determinação da probabilidade correspondente ao nível de confiança desejado são dados pela distribuição t, de Student. Professor Inácio Andruski Guimarães, DSc. 76 Estatística – Notas de Aulas Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da v. a. c. X, com distribuição normal, com média e variância desconhecidas. Então um intervalo de confiança para a média populacional µ é dado por: X − tc s n s . n ; X + tc (12.3) Na expressão (12.3) o valor de tc é obtido na tabela da distribuição t, de Student, com φ = n – 1 graus de liberdade. Exemplo 12.2 – O Quadro 5.1 mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Construir um intervalo de 95% de confiança para o teor médio. Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 3,9 2,7 2,8 3,1 3,5 3,9 Teor (%) 7 2,7 Fonte: Johnson e Wichern (1988) Aqui, a média e o desvio padrão amostrais são: X = 3,2286 e s = 0,5376 . Como o nível de confiança desejado é 95%, o valor procurado para tc é: t(α = 0,025 ; φ = 7 – 1 = 6) = 2,4469. Então o intervalo é: . 12.2 – Intervalo de Confiança para a Proporção Seja uma variável aleatória discreta X, associada a uma população na qual se observa a ocorrência de certo evento. Seja p a proporção de sucessos na população em questão. Neste caso a variável X é tal que: 0 , insucesso X = 1 , sucesso . Então a expectância e a variância de X são dadas por: E ( X ) = p e Var ( X ) = p (1 − p ) , respectivamente. Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória extraída da população referida anteriormente, e seja Xn o total de sucessos na amostra. Então Xn tem distribuição binomial com parâmetros n e p. A proporção de sucessos na amostra é dada por: pˆ = Xn . n Conforme foi visto em 10.9, a distribuição binomial, da variável Xn , pode ser aproximada pela distribuição normal, isto é: X n ~ N ( np , np (1 − p ) . Além disto, p (1 − p ) . pˆ ~ N p , n O intervalo de confiança para a proporção p, com nível β de confiança, é dado por: Professor Inácio Andruski Guimarães, DSc. 77 Estatística – Notas de Aulas P p̂ − z α 2 p̂ ( 1 − p̂ ) . = β n p( 1 − p ) ≤ p ≤ p̂ + z α 2 n (12.4) Exemplo 12.3 – Efetuou-se uma inspeção em uma amostra de 15 unidades de certo produto. Seja X a v.a.d. que representa a ocorrência de alguma não conformidade, ou seja, X = 0, se a unidade é conforme, ou X = 1, caso esteja fora de conformidade. O resultado da inspeção é mostrado no quadro a seguir. Construir um intervalo de 90% de confiança para a proporção de não conformidade do produto. Unidade X 1 0 2 0 3 0 4 1 5 0 6 1 7 0 8 0 9 0 10 0 11 0 12 0 13 0 14 0 15 1 A proporção de sucessos é: pˆ = 3 = 0 , 2 . Para o nível β = 90%, z = 1,645. Então o intervalo é: 15 . 12.3 – Intervalo de Confiança para a Diferença de Médias Na prática, a necessidade de comparar duas médias populacionais pode ser observada em experimentos em áreas como medicina e agronomia, por exemplo. Aqui são consideradas duas populações, supostamente com distribuição normal, com médias e variâncias dadas por µ1 e σ12, para a primeira população, e µ2 e σ22, para a segunda população. Uma questão importante diz respeito à igualdade das variâncias populacionais. Uma prática comum é utilizar a variância ponderada para a construção do intervalo de confiança para a diferença de duas médias. Sejam duas amostras aleatórias das populações de interesse, X1 = [x11 , x12 , ... , x1n1 ]T e X2 = [x21 , x22 , ... , x2n2]T, com médias e variâncias dadas por X 1 e s12 e X 2 e s 22 , respectivamente. Então o intervalo de confiança para a diferença das duas médias populacionais é dado por: σˆ (2X 1 − X 2 ) σˆ (2X 1 − X 2 ) σˆ (2X 1 − X 2 ) σˆ (2X 1 − X 2 ) P ( X 1 − X 2 ) − t c + ≤ (µ 1 − µ 2 ) ≤ ( X 1 − X 2 ) + t c + n1 n2 n1 n2 =β (12.5) O erro padrão para a diferença das médias é dado por: σˆ (2X 1 −X2) = ( n 1 − 1) s 12 + ( n 2 − 1) s 22 . n1 + n 2 − 2 (12.6) O valor de tc é obtido diretamente na tabela da distribuição t, de Student, com φ = n1 + n2 – 2 graus de liberdade. Exemplo 12.3 – O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm e outra de argila sub-mulinia. Construir um intervalo de 95% de confiança para a diferença dos teores médios das duas amostras. Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11 Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30 Fonte: Johnson e Wichern (1988) As médias e variâncias são: X 1 = 43,57 O erro padrão é dado por: σˆ 2 (X 1− X2) = e s12 = 37,2857 ; X 1 = 33,0909 e s 22 = 115,8909 . ( 7 − 1)( 37 , 2857 ) + (11 − 1)(115 ,8909 ) = 86 , 414 . 7 + 11 − 2 Professor Inácio Andruski Guimarães, DSc. 78 Estatística – Notas de Aulas 12.4 – Intervalo de Confiança para a Diferença de Proporções Sejam duas populações com proporções p1 e p2 de sucessos. Sejam duas amostras, de tamanhos n1 e n2, e proporções p̂ 1 e p̂ 2 de sucessos, respectivamente. O intervalo de confiança para a diferença das duas proporções populacionais é dado por: πˆ (1 − πˆ ) πˆ (1 − πˆ ) πˆ (1 − πˆ ) πˆ (1 − πˆ ) . (12.7) P ( pˆ 1 − pˆ 2 ) − z c + ≤ ( p 1 − p 2 ) ≤ ( pˆ 1 − pˆ 2 ) + z c + =β n1 n2 n1 n2 Na expressão (12.7): πˆ = n 1 pˆ 1 + n 2 pˆ 2 . n1 + n 2 Exemplo 12.4 - Em set/2006 foi publicado um estudo sobre os efeitos do medicamento Celecoxib sobre o câncer de cólon e reto. O estudo envolveu 1561 pacientes, dos quais 933 utilizaram o medicamento, enquanto os demais foram tratados com placebo. No grupo tratado com o medicamento, 314 apresentaram lesões típicas da moléstia. Entre o grupo tratado com placebo, a doença foi detectada em 309 pacientes. Construir um intervalo de 95% para a diferença de proporções de incidência da doença entre os pacientes tratados com o medicamento e os pacientes tratados com placebo. pˆ 1 = 314 + 309 309 314 = 0 ,3991 . = 0 , 4920 (placebo), pˆ 2 = = 0 , 3365 (medicamento) , πˆ = 933 + 628 628 933 Então o índice de incidência da doença no grupo tratado com placebo é de 10,55% a 20,45% superior ao índice verificado no grupo tratado com o medicamento, com 95% de confiança. 12.5 – Intervalo de Confiança para a Variância Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da v. a. c. X, com distribuição normal, com média e variância desconhecidas. Então um intervalo de confiança para a variância populacional σ2 é dado por: ( n − 1) s 2 2 χα 2 , n −1 ≤σ 2 ≤ ( n − 1) s 2 χ 12− α . (12.8) , n −1 Na fórmula (12.8), α = 1 – β. Exemplo 12.5 – O Quadro 5.1 mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Construir um intervalo de 95% de confiança para a variância. Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Teor (%) Fonte: Johnson e Wichern (1988) Aqui, a média e o desvio padrão amostrais são: X = 3,2286 e s = 0,5376 . Como o nível de confiança desejado é 95%, os valores procurados para χ2 são: χ2( 0,025 ; 6 ) = 14,449 e χ2( 0,95; 6 ) = 1,635. Então: ( 7 − 1)( 0 ,5376 ) 2 ( 7 − 1)( 0 ,5376 ) 2 ≤ σ2 ≤ 14 ,449 1 ,635 Professor Inácio Andruski Guimarães, DSc. 79 Estatística – Notas de Aulas 12.6 – Determinação do Tamanho de uma Amostra A coleta de dados pode ser precedida do cálculo do tamanho mínimo da amostra necessária para estimar a média ou a proporção. Neste caso deve-se especificar o nível de confiança desejado e o erro aceitável. 12.6.1 – Tamanho da Amostra para Estimar a Média Há duas situações a considerar, ambas relativas ao tamanho da população, que pode ser conhecido ou não. No primeiro caso, o tamanho mínimo da amostra é dado por: n ≥ Nz c2 s 2 ε 2 ( N − 1 ) + z c2 s 2 . (12.8) Na fórmula (12.8): N = tamanho da população; s2 = estimador para a variância populacional, calculado a partir de uma amostra piloto; zc = valor crítico correspondente ao nível de confiança desejado; ε = erro máximo admitido para a estimativa da média. Quando o tamanho da amostra é desconhecido, o tamanho da amostra pode ser calculado por: n≥ z c2 s 2 . ε2 (12.9) Exemplo 12.5 – Uma empresa de serviços deseja estimar o valor médio das contas, com um nível de confiança de 95% e admitindo um erro máximo de R$ 2,00, a mais ou a menos. Uma amostra piloto apresentou os valores mostrados no quadro a seguir. Determinar o tamanho mínimo da amostra necessária à estimação. Observação Valor (R$) 1 85,50 2 86,30 3 69,40 4 85,60 5 72,30 6 98,80 7 78,90 8 69,50 9 64,20 10 85,30 Nível de confiança: β = 0,95 → zc = 1,96. Erro: ε = 2. O valor estimado para a variância é s2 = 112,6464. Então: (1,96 ) 2 (112 ,6464 ) 2 n≥ ≅ 22 12.6.2 – Tamanho da Amostra para Estimar a Proporção Assim como no caso anterior, há duas situações: 1. Tamanho da população conhecido: n ≥ Nz c2 pˆ (1 − pˆ ) . ε 2 ( N − 1) + z c2 pˆ (1 − pˆ ) 2. Tamanho da população desconhecido: n ≥ z c2 pˆ (1 − pˆ ) ε2 . Nos dois casos, p̂ é o estimador da proporção populacional, obtido a partir de uma amostra piloto. Exemplo 12.6 – Uma empresa deseja estimar o percentual de clientes dispostos a aceitar uma alteração contratual. Um levantamento preliminar apontou 35% de concordância. A empresa deseja que a estimativa tenha um erro máximo de 4%, e um nível de 95% de confiança. Qual deve ser o tamanho mínimo da amostra ? (1 , 96 ) 2 ( 0 , 35 )( 1 − 0 , 35 ) 0 , 8740 n ≥ = ≅ 546 . ( 0 , 04 ) 2 0 , 0016 Professor Inácio Andruski Guimarães, DSc. 80 Estatística – Notas de Aulas 12.7 – Exercícios 12.7.1) O quadro a seguir mostra os preços de venda observados para um determinado modelo de veículo usado. Construir um intervalo de 95% de confiança para o preço médio do produto. Anúncio Valor (R$10000,00) 1 2,5 2 2,4 3 2,38 4 2,45 5 2,35 6 2,5 7 2,45 8 2,35 9 2,45 10 2,38 12.7.2) Uma técnica utilizada no diagnóstico de esclerose múltipla consiste em produzir um estímulo visual sobre cada um dos olhos. Em seguida anota-se a diferença entre os tempos de resposta observados para cada um dos olhos. O quadro a seguir mostra os valores observados para 15 portadores (diagnóstico positivo) e 15 não portadores (diagnóstico negativo) da doença. Construir um intervalo de 95% de confiança para a diferença dos tempos médios de resposta entre os dois grupos. Quadro 12.3 – Diferenças de tempos de resposta a um estímulo visual para diagnóstico de esclerose múltipla. Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Negativo 1,6 0,4 3,2 0,8 1,6 3,2 4,8 1,6 3,2 2,8 1,6 0,8 2,4 3,4 0,6 Positivo 0,8 3,2 8,0 14,2 12,8 6,8 3,4 29,2 18,4 1,6 1,8 9,2 16,8 8,0 4,6 Fonte: Johnson e Wichern (1988) 12.7.3) A vacina Salk, contra poliomielite, foi desenvolvida no início da década de 50, e sua eficácia foi colocada à prova em 1954. Para tanto, foram formados dois grupos, cada um com 200000 crianças. A um dos grupos foi ministrada a vacina, enquanto ao outro grupo foi ministrado um placebo. No primeiro grupo a doença manifestou-se em 33 crianças, o mesmo acontecendo com 115 crianças do segundo grupo. Construir um intervalo de 95% de confiança para a diferença de proporções entre os dois grupos. 12.7.4) O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Ao final do período de acompanhamento verificou-se que 104 médicos do primeiro grupo sofreram ataque cardíaco, contra 189 médicos do grupo que ingeriu placebo. Construir um intervalo de 95% de confiança para a diferença de proporções nos dois grupos. 12.7.5) A tabela a seguir mostra a distribuição de freqüências dos comprimentos das sépalas de 150 exemplares de flores íris. a) Construir um intervalo de 95% de confiança para o comprimento médio. b) Construir intervalo de 95% de confiança para a variância. Classe 1 2 3 4 5 6 7 8 9 Comprimento (mm) 43 |-- 47 47 |-- 51 51 |-- 55 55 |-- 59 59 |-- 63 63 |-- 67 67 |-- 71 71 |-- 75 75 |-- 79 Total Flores 9 23 19 28 20 23 16 6 6 150 12.7.6) Um comerciante deseja estimar o valor médio gasto por cliente. De estudos anteriores, sabe-se que o desvio padrão pode ser estimado em R$ 1,85. Admite-se um erro de R$ 0,50 e deseja-se um nível de confiança de 95%. Qual o tamanho mínimo da amostra necessária ? Resposta: n ≥ 53 12.7.7) O fabricante de um produto efetuou uma pesquisa para avaliar a renda dos seus clientes. Uma amostra de 12 clientes apresentou os valores mostrados no quadro a seguir. Construir um intervalo de 95% de confiança para a renda média. Professor Inácio Andruski Guimarães, DSc. 81 Estatística – Notas de Aulas Cliente Renda (R$1000,00) 1 1,5 2 2,9 3 2,8 4 2,5 5 3,3 6 3,5 7 3,5 8 4,5 9 4,4 10 3,8 11 4,8 12 3,9 Resposta: P[2,86 ≤ µ ≤ 4,04] = 0,95. 12.7.8) O quadro a seguir mostra os teores de ácido palmítico observados em sete amostras de azeite. a) Construir um intervalo de 95% de confiança para a média. b) Idem para a variância. Amostra Teor (%) 1 14,9 Respostas: a) P[9,92 ≤ µ ≤ 13,13] = 0,95. 2 9,3 3 10,9 4 10,5 5 12,0 6 11,7 7 11,4 b) P[1,28 ≤ σ2 ≤ 14,60] = 0,95. 12.7.9) O quadro a seguir mostra os teores de ácido esteárico observados em amostras de óleos vegetais de diferentes origens. Construir um intervalo de 95% de confiança para a diferença dos teores médios observados nas amostras de óleo de: a) Oliva e colza. b) Colza e girassol. Observação 1 2 3 4 5 6 7 8 9 Oliva 14,9 9,3 10,9 10,5 12,0 11,7 11,4 Origem Colza Milho 9,6 4,5 9,7 4,8 10,0 4,8 10,2 5,1 10,4 5,1 10,5 5,1 10,5 5,4 10,5 5,5 10,9 5,7 Professor Inácio Andruski Guimarães, DSc. Girassol 9,7 9,8 9,8 9,3 11,5 12,2 13,1 10,5 Estatística – Notas de Aulas 82 13. CONTROLE ESTATÍSTICO DE PROCESSO (CEP) O Controle Estatístico de Processo (CEP) é uma técnica muito utilizada no Controle Estatístico de Qualidade. De modo informal, pode-se dizer que é um conjunto de métodos estatísticos empregados com a finalidade de manter as variações de um processo dentro de certos limites, chamados limites de tolerância. Para melhor compreender as propriedades do CEP, deve-se ter em mente o conceito de qualidade, aqui entendida como a capacidade de um produto, ou serviço, de superar as expectativas do cliente. Na seqüência serão apresentados os principais métodos empregados no CEP. 13.1 – Conceitos 13.1.1 – Qualidade O conceito de “qualidade” é extremamente subjetivo, variando de indivíduo para indivíduo. Todavia, não há como negar que o termo está diretamente relacionado à satisfação do cliente, ou usuário, de um produto, ou serviço. Uma das definições mais utilizadas na prática é dada a seguir: “Qualidade é a capacidade que um produto apresenta de superar as expectativas do cliente”. Em qualquer aplicação das técnicas de qualidade é imprescindível que se definam, em primeiro lugar, os parâmetros de qualidade. Uma vez que se tenha isto em mente, os trabalhos subseqüentes deverão ter tal parâmetro como foco. 13.1.2 – Processo O conceito mais frequëntemente adotado na prática é conhecido por 6 M’s , e envolve os seguintes elementos: 1) 2) 3) 4) 5) 6) Material Mão de obra Máquina Meio ambiente Método Meio de medição 13.1.3 – Controle É um conjunto de técnicas adotadas com objetivo de garantir que determinados padrões, previamente estabelecidos, sejam alcançados. 13.1.4 – Tolerância É a maior diferença admitida entre um padrão estabelecido (parâmetro) e um padrão alcançado. A tolerância pode ser: 1.1.4.1 – Bilateral: Quando admite tanto uma diferença positiva como negativa. O diâmetro de um eixo, por exemplo, pode ser especificado como 105 mm ± 0,3 mm. Neste caso admite-se que o diâmetro varie de 104,7 mm até 105,3 mm. 13.1.4.2 – Unilateral: Quando admite a diferença em apenas um sentido. No exemplo citado acima, a especificação poderia ser 105 mm + 0,3 mm. Neste caso qualquer unidade com diâmetro inferior a 105 mm seria rejeitada. 13.1.5 – Característico É o termo usado para designar qualquer elemento que esteja sendo estudado na busca da qualidade. Assim, p.ex., o diâmetro de um eixo e o conteúdo de uma lata de refrigerante podem ser considerados característicos de qualidade. Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 83 13.1.6 – Variação No Controle Estatístico de Processo as variações são classificadas como: 13.1.6.1 – Aleatórias: São as variações inerentes ao processo de fabricação. Este tipo de variação não pode ser eliminado. Neste caso o que se pretende é a manutenção de tais variações dentro de certos limites. Diz-se que um processo está sob controle quando as variações aleatórias estão dentro dos limites acima referidos. 13.1.6.2 – Causais: São as variações estranhas ao processo, indicando um desvio do processo com relação aos parâmetros do projeto. A eliminação de tais variações é o principal objetivo do CEP. 13.2 – Diagrama de Pareto A primeira etapa a ser cumprida na busca de melhoria na qualidade deve ser o levantamento dos problemas existentes. Tal procedimento visa identificar os problemas que ocorrem com maior freqüência, permitindo que sejam abordados em primeiro lugar. Deste modo as ações têm resultados mais efetivos. Uma técnica muito usada nesta primeira fase é conhecida como diagrama de Pareto. Este diagrama é uma forma de representar graficamente os resultados do levantamento já mencionado, e consiste de um gráfico de colunas, cada uma representando uma ocorrência, apresentadas em ordem decrescente de freqüências. Exemplo 13.1 – O quadro a seguir mostra os problemas apresentados por um determinado produto, bem como as suas freqüências. Quadro 13.1 – Problemas detectados em certo produto. Problema Freqüência absoluta Freqüência relativa Vazamento de óleo 46 35,38% Folga no mancal 32 24,62% Superaquecimento 20 15,38% Oxidação do bocal mestre 12 9,23% Vibração no cabeçote 8 6,15% Outras 12 9,23% O diagrama de Pareto correspondente é mostrado na Figura 13.1. Figura 13.1 – Diagrama de Pareto para os Dados do Quadro 13.1 13.3 – Diagrama de Ishikawa Também é chamado de gráfico de causa – efeito e gráfico espinha de peixe. É utilizado para analisar as causas do problema a ser resolvido, sempre com relação a cada um dos seis elementos envolvidos no processo. A sua forma é mostrada na Figura 13.2. Para elaboração do diagrama correspondente a determinado problema, deve-se considerar as opiniões de todos os envolvidos no processo. Para tanto deve-se promover encontros nos quais todos possam expressar suas opiniões. Professor Inácio Andruski Guimarães, DSc. 84 Estatística – Notas de Aulas Máquina Mão de Obra Meio Ambiente Problema Método Meio de Medição . Material Figura 13.2 – Estrutura do Diagrama de Ishikawa. Exemplo 13.2 – Um exemplo de diagrama de Ishikawa para o problema vazamento de óleo, do exemplo anterior é mostrado na Figura 13.3. Máquina Vibrando Mão de Obra Meio Ambiente Sem treinamento Poeira Vazamento de óleo Posição de difícil acesso Método Junta ressecada Meio de Medição Material Figura 13.3 – Exemplo de Diagrama de Ishikawa para o vazamento de óleo. 13.4 – Gráfico de Controle para Média e Amplitude Também chamado carta de controle, é formado por três linhas paralelas ao eixo das abscissas. A intermediária é chamada “linha média” (LM). As outras duas são chamadas “limites de controle”. A região compreendida entre os limites de controle é chamada “zona de controle”. As regiões abaixo do limite inferior de controle (LIC) e acima do limite superior de controle (LSC) são denominadas “zonas de ação”. Quando usados de forma adequada os gráficos de controle proporcionam benefícios como: 1) Auxiliar os operadores a atingir e manter o controle de um processo. 2) Proporcionar uma linguagem comum para acompanhar o desempenho do processo. 3) Ajudar a tornar o processo mais consistente e previsível. Medidas Zona de ação LSC Zona de controle LM Zona de controle LIC Zona de ação Amostras Figura 13.4 – Estrutura de um Gráfico de Controle. Professor Inácio Andruski Guimarães, DSc. 85 Estatística – Notas de Aulas Diz-se que um processo está sob controle quando nenhum ponto correspondente a uma medida está fora da zona de controle. Caso um ponto fique fora dos limites de controle, diz-se que o processo está fora de controle, o que indica a ocorrência de uma variação causal naquele ponto. Adiante serão apresentadas outras situações que indicam a ocorrência de variações causais, mesmo que nenhum ponto esteja fora da zona de controle. As etapas para a construção do gráfico da média e da amplitude, denotado por ( x − R ) são dadas a seguir. 1) Determinar a quantidade ( k ) de amostras. 2) Determinar o tamanho ( n ) das amostras. 3) Para cada amostra calcular a média aritmética: n ∑ x j X i i =1 = 4) Para cada amostra calcular a amplitude: Rj = X (13.1) j = 1,2 ,..., k n − X j (n) (13.2) j (1 ) k ∑x 5) Calcular a média das médias: x= j j =1 (13.3) k k ∑R 6) Calcular a média das amplitudes: R= j j =1 (13.4) k 7) Calcular os limites de controle para o gráfico da média: LSC = x + A2 R Limite Superior de Controle: LM = x (13.6) LIC = x − A2 R (13.7) Linha Média: Limite Inferior de Controle: (13.5) 8) Calcular os limites de controle para o gráfico da amplitude: Limite Superior de Controle: LSC R = R.D4 (13.8) LM R = R (13.9) Linha Média: LIC R = R.D3 Limite Inferior de Controle: (13.10) As constantes A2 , D3 e D4 são dadas no quadro 13.2. Quadro 13.2 – Constantes Multiplicativas para o Gráfico n D4 D3 D2 A2 2 3,27 1,13 1,88 3 2,57 1,69 1,02 4 2,28 2,06 0,73 5 2,11 2,33 0,58 6 2,00 2,53 0,48 7 1,92 0,08 2,70 0,42 8 1,86 0,14 2,85 0,37 x−R 9 1,82 0,18 2,97 0,34 10 1,78 0,22 3,08 0,31 Para amostras com menos de sete unidades considera-se que não há limite inferior para o gráfico da amplitude. Exemplo 13.3: A seguir são mostrados os valores observados para um determinado característico de qualidade. Por comodidade foram anotados apenas os valores decimais, isto é, se o valor observado foi 85,92 mm, anotou-se apenas “2”. Esta é uma prática bastante comum, e não compromete os resultados Professor Inácio Andruski Guimarães, DSc. 86 Estatística – Notas de Aulas finais. No total foram observadas 20 amostras, cada uma com cinco elementos. O objetivo é construir o gráfico x− R. Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X1 2 1 6 3 2 4 4 2 5 5 3 4 3 2 3 2 2 1 0 2 X2 1 2 1 3 3 3 2 5 4 4 2 2 1 3 4 4 3 2 0 1 X3 3 1 2 2 2 3 3 1 1 4 4 5 4 3 2 3 1 2 0 1 X4 4 3 2 2 3 4 2 5 4 2 1 2 3 2 2 1 2 3 2 1 Quantidade de amostras: k = Média das médias: X5 5 2 2 2 1 1 2 2 3 1 1 4 3 4 3 3 3 5 2 2 3 R 4 2,2 2 3,2 4 2,8 2 1,4 1 x Tamanho das amostras: A2 = Amplitude média: D3 = n= D4 = Grafico X barra - R para os dados do exemplo 8.03. 5 UCL = 4,16 4 CTR = 2,54 LCL = 0,92 3 2 1 0 0 4 8 12 16 20 Amostras Causas especiais: Gráfico para a amplitude 6 UCL = 5,92 5 CTR = 2,80 4 LCL = 0,00 3 2 1 0 0 4 8 12 16 20 Amostras Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 87 13.4.1 – Interpretação do Gráfico de Controle A ocorrência de um ponto fora da zona de controle indica uma variação causal, o que exige uma intervenção no processo. Entretanto, é possível que tenha ocorrido um erro de medição, ou mesmo de plotagem. Também é possível que o instrumento de medição foi trocado, ou sofreu alguma avaria. Outro ponto a ser ressaltado é que todas as medições devem ser efetuadas por uma mesma pessoa, a fim de evitar erros de observação. Além da ocorrência de pontos fora da zona de controle, deve-se prestar atenção à possível ocorrência de determinados padrões, descritos a seguir. 1. Uma seqüência crescente de três pontos acima da linha média. Isto indica que o processo está se desviando da média, e talvez da especificação. O gráfico da média e da amplitude, do exemplo 13.3, apresenta esta ocorrência nas amostras 7, 8 e 9. 2. Uma seqüência decrescente de três pontos abaixo da linha média. O significado é o mesmo da situação anterior. 3. Uma seqüência de sete pontos, todos acima, ou abaixo, da linha média. Isto indica um desvio do processo, possivelmente causado por um problema de máquina. 4. Sazonalidade. Variações periódicas podem indicar troca de operador, ou de funcionário encarregado de efetuar a coleta de amostras e anotar os valores observados. 13.4.2 – Processo Normalizado Diz-se que um processo está normalizado quando a curva de freqüências do mesmo é simétrica, ou normal, conforme a Figura 13.7. O estudo também ser feito com o auxílio do histograma da distribuição de freqüências, conforme a figura 13.8. É importante ressaltar que esta é uma condição essencial para a implantação do CEP, uma vez que a aplicação do controle sobre um processo com distribuição assimétrica poderá mascarar variações causais. De fato, a aplicação do CEP pode ser precedida de uma análise exploratória dos dados, isto é, do cálculo das principais medidas de tendência central e de dispersão. Figura 13.7 – Curva de freqüências de um processo normalizado. 70 60 50 40 30 20 10 0 Figura 13.8 – Histograma de um processo normalizado. Professor Inácio Andruski Guimarães, DSc. 88 Estatística – Notas de Aulas Exemplo 13.4 – Construir a distribuição de freqüências para os valores observados no processo do exemplo anterior. Valor Observado 85,90 1 2 3 4 5 6 Total Freqüência 3 17 33 23 16 7 1 100 A média e o desvio padrão são, respectivamente, X = 2,57 e s = 1,28 (na verdade, a média é igual a 85,9257). A moda é igual a 2 (maior freqüência). Deve-se prestar atenção ao fato de que a média dos valores observados é igual a 85,9254. O histograma é mostrado na Figura 13.9, e permite observar que a distribuição é assimétrica positiva. 35 30 25 20 15 10 5 0 Figura 13.9 – Histograma para a distribuição de freqüências dos valores do exemplo 13.3. A assimetria pode ser melhor avaliada através da comparação da média com a mediana e a moda. Neste caso, ambas são iguais a 85,92. Neste caso é recomendável que se faça uma análise do processo, a fim de descobrir, e eliminar, as causas desta assimetria. Os resultados obtidos pelo CEP são mais efetivos quando o método é aplicado a processos normalizados, isto é, que apresentam uma curva de freqüências simétrica. 13.4.3 – Estimação do Desvio Padrão O desvio padrão do processo, quando se utiliza o gráfico da média e da amplitude, é calculado pelo estimador: R . (13.11) σˆ = D2 Os valores para D2 são dados no Quadro 13.2. Quadro 13.2 – Constantes Multiplicativas para o Gráfico n D2 2 1,13 3 1,69 4 2,06 5 2,33 6 2,53 7 2,70 8 2,85 x−R 9 2,97 10 3,08 Exemplo 13.5 – O desvio padrão estimado para o processo do exemplo 13.3 é: σˆ = 0 , 028 = 0 , 0120 . 2 , 33 13.5 – Capabilidade A capabilidade de um processo indica a capacidade do mesmo em atender as especificações do projeto, e pode ser descrita em termos da distância entre a média do processo e os limites de controle, em unidades de desvio padrão. Os principais índices de capabilidade são apresentados na seqüência. Professor Inácio Andruski Guimarães, DSc. 89 Estatística – Notas de Aulas 13.5.1 – Índice Cp. Quando o processo está centrado, isto é, quando a média das médias é igual à especificação, ou parâmetro (µ) do projeto, pode-se estimar a capabilidade pelo índice dado por: LSE − LIE 6σˆ Cp = . (13.12) Na fórmula acima, LSE é o limite superior de especificação e LIE é o limite inferior de especificação. 13.5.2 – Índice Cpm. Em alguns casos os limites de especificação não são simétricos, isto é, quando se verifica que LSE – µ ≠ µ – LIE. Nestes casos pode-se calcular o índice dado por: LSE − LIE Cpm = 6 σˆ 2 . (13.13) + (µ − T ) 2 Na fórmula acima, T = LSE + LIE . 2 13.5.3 – Índice Cpk. Quando o processo não está centrado, pode-se calcular o índice Cpk, que leva em consideração a média do processo. Este índice é igual ao menor dos dois valores a seguir. x − LIE 3σˆ LSE − x Cps = 3σˆ Cpi = (13.14) 13.5.4 – Classificação do Processo Com relação à capabilidade, o processo é classificado como: Quadro 13.3 – Classificação de um Processo. Valor do índice (Cp, Cpm ou Cpk) Classificação C<1 Incapaz. 1 ≤ C < 1,33 Adequado. Exige inspeção. 1,33 ≤ C Capaz. Exemplo 13.6 – Calcular o índice de capabilidade do processo do exemplo 13.3, supondo que a especificação é 85,90mm e que os limites de especificação inferior e superior são, respectivamente, 85,87mm e 85,95mm. Como o processo não está centrado, calcula-se o índice Cpk. 85 , 9254 − 85 , 87 = 3 ( 0 , 0120 ) 85 , 95 − 85 , 9254 Cps = = 3 ( 0 , 0120 ) Cpi = . ⇒ Cpk = Então o processo é classificado como ................................................... Os dois valores calculados acima podem ser usados para estimar a proporção de não conformidade (p.n.c.). Basta verificar que zLIE = 4,62 e que zLSE = 2,04. Em seguida, com o auxílio da tabela da distribuição normal padrão, calcula-se as áreas à esquerda de zLIE e à direita de zLSE , ou seja: P(X ≤ 85,87) = Área(z ≤ – 4 ,62) = 0,000 e P(85,95 ≤ X ) = Área(2,04 ≤ z) = Então estima-se a p.n.c. como igual a . Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 90 13.6 – Gráfico de Controle para Observações Individuais e Amplitudes Móveis (X – MR) Este gráfico é usado quando o controle é efetuado sobre observações individuais. Este tipo de controle é aplicado quando não há possibilidade de coletar amostras de tamanhos elevados, ou mesmo quando a amostragem não é justificada. Exemplos deste tipo de situação podem ser encontrados na indústria química, quando uma única amostra de um produto armazenado em um tanque é suficiente para obter as informações desejadas. Também pode ser utilizado quando a informação prescinde de ensaios destrutivos, que podem ser excessivamente onerosos para grandes amostras. O gráfico X – MR pode ser utilizado nestas situações, desde que sejam observados os seguintes fatos: • • • Observações individuais não têm a mesma eficiência que observações amostrais. Deve-se ter cuidado com as conclusões, principalmente se a distribuição de freqüências do processo não for normal (simétrica). Como as observações são individuais, a média do processo e o seu desvio padrão podem apresentar grande variabilidade. As etapas para construção do gráfico são dadas a seguir. 1) Determinar a quantidade k de observações 2) A partir da n – ésima observação (em geral a segunda), determinar a diferença (amplitude) entre cada observação e a observação anterior. Não levar em consideração o sinal. Se o cálculo é efetuado a partir da segunda observação: R j = X j − X , j = 2 , 3 , ... , k j −1 3) Calcular a amplitude média k ∑R R= j j=2 (13.15) k −1 4) Calcular a média do processo k ∑ x = X i i =1 k 5) Calcular os limites de controle para as observações individuais: Limite Superior de Controle Linha Média Limite Inferior de Controle LSC = x + E 2 R LM = x LIC = x − E 2 R (13.16) (13.17) (13.18) 6) Calcular os limites de controle para o gráfico da amplitude Limite Superior de Controle: LSC R = R.D4 (13.19) Linha Média: LM R = R (13.20) Limite Inferior de Controle: LIC R = R .D 3 (13.21) Professor Inácio Andruski Guimarães, DSc. 91 Estatística – Notas de Aulas As constantes E2 , D3 e D4 são dadas no Quadro 13.4. Quadro 13.4 – Constantes Multiplicativas para o Gráfico X – MR n D4 D3 D2 E2 2 3,27 1,13 2,66 3 2,57 1,69 1,77 4 2,28 2,06 1,46 5 2,11 2,33 1,29 6 2,00 2,53 1,18 7 1,92 0,08 2,70 1,11 8 1,86 0,14 2,85 1,05 9 1,82 0,18 2,97 1,01 10 1,78 0,22 3,08 0,98 13.6.1 – Capabilidade A estimação da capabilidade segue os mesmos procedimentos adotados no gráfico x −R. Exemplo 13.7: O quadro a seguir mostra as observações efetuadas para um processo industrial qualquer. Os dados referem-se à concentração, em p.p.m., de certa substância. Construir o gráfico X – MR. Obs. 1 Xi 10 Rj - 2 15 5 3 13 2 4 10 3 5 15 6 16 7 18 8 14 9 10 10 12 11 8 12 10 13 9 14 12 Professor Inácio Andruski Guimarães, DSc. 15 13 16 10 17 11 18 9 19 8 1 20 10 2 Estatística – Notas de Aulas 92 13.7 – Gráficos de Controle por Atributos Embora sejam extremamente confiáveis como ferramentas de apoio à decisão, os gráficos de controle por variável apresentam alguns inconvenientes de ordem prática, alguns dos quais listados a seguir: • Cada gráfico, ou carta, pode ser usado para apenas uma variável. Se um produto tem cinco característicos a serem controlados, serão necessários cinco gráficos. • Em algumas etapas da produção o interesse resume-se à simples verificação de conformidade em relação a algum parâmetro. Uma situação típica deste caso é a inspeção efetuada com o objetivo de verificar se o diâmetro de um eixo está dentro dos limites de tolerância. Aqui não há interesse em determinar o diâmetro, o que dispensa a coleta de amostras e os cálculos das medidas já estudadas. • Alguns componentes são inspecionados apenas com o objetivo de verificar a presença de algum defeito. Nas indústrias automobilísticas as partes da carroceria de um veículo são inspecionadas com a finalidade de verificar se apresentam riscos. A simples ocorrência de um risco na pintura é suficiente para que a peça seja rejeitada, não importando a dimensão ou a quantidade de riscos. O controle por atributo trabalha apenas com os conceitos “passa – não passa”, “presente – ausente” e “conforme – não conforme”, entre outros. É de grande utilidade nos trabalhos de inspeção final, e em alguns setores industriais, como na indústria eletrônica e na indústria de confecções, p. ex. Também pode ser utilizado para controlar falhas em processos administrativos, como o monitoramento do nível de reclamações na prestação de algum serviço. A estrutura de um gráfico de controle por atributo é igual à do gráfico de controle por variável, isto é, possui dois limites de controle, que definem a zona de controle, e uma linha média, definida com base na proporção de ocorrências do atributo. Antes de se adotar o controle por atributo deve-se tomar alguns cuidados, entre os quais destacam-se: • Inspecionar cada unidade, de cada uma das amostras selecionadas. • Definir claramente o que é uma “não conformidade”. • Criar um ambiente favorável, do ponto de vista do gerenciamento. Algumas empresas delegam a elaboração de gráficos de controle por variável aos próprios operários responsáveis pela fabricação dos componentes avaliados. Para o controle por atributo esta prática é um tanto temerária, pois o item inspecionado pode ser proveniente de um processo ao qual são aplicadas técnicas de CEP. Neste caso o controle por atributo pode ser usado mais como ferramenta de apoio à decisão, já que na inspeção de vários atributos pode-se detectar falhas não identificadas anteriormente. • Levar em consideração as necessidades do cliente/usuário ao definir os critérios de decisão. 13.7.1 – Gráfico da Proporção de Unidades Não Conformes ( p ) O gráfico p mostra a proporção de não conformidade, ou de itens não conformes, em um grupo de amostras inspecionadas. Este gráfico pode apresentar tanto as variações para um atributo como para vários deles. As etapas para elaboração são dadas a seguir. 1) O tamanho (n) das k amostras não precisa ser igual. Este tipo de gráfico normalmente requer amostras grandes, geralmente de tamanho não inferior a 50. Este detalhe pode se tornar uma desvantagem, pois em alguns setores industriais, ou mesmo de serviços, a observação de uma amostra deste tamanho pode demandar um período de tempo muito grande, o que acabaria por impedir a detecção de padrões que podem evidenciar uma variação causal. Professor Inácio Andruski Guimarães, DSc. 93 Estatística – Notas de Aulas 2) Para cada uma das k amostras, calcular a fração defeituosa, ou proporção de não conformidade, que se obtém dividindo o número de itens defeituosos (dj) da amostra pelo tamanho (nj) da mesma. dj pj = (13.22) nj 3) Calcular a fração defeituosa média, ou proporção média de não conformidade. k ∑ p = d j n j (13.23) j =1 k ∑ j =1 4) Se as amostras têm tamanhos diferentes, calcular o tamanho médio das amostras: k ∑n j j =1 n = (13.24) k 5) Calcular o desvio padrão do processo: σ p = p (1 − p ) n (13.25) 6) Calcular os limites de controle: Limite Superior de Controle: Linha Média: Limite Inferior de Controle: LSC p = p + 3σ p (13.26) LM p = p (13.27) LIC p = p − 3σ p (13.28) Exercício 13.8: O quadro a seguir mostra o resultado das observações sobre 20 amostras de um determinado produto. Construir o gráfico de controle da fração defeituosa. Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Tamanho 50 40 50 60 50 50 30 40 40 30 60 20 40 50 50 40 20 30 50 50 Defeituosos 3 2 2 3 3 2 1 1 2 0 3 3 1 0 2 3 2 1 4 0 pj Linha Média: Limite Superior de Controle: Desvio padrão: Limite Inferior de Controle: Professor Inácio Andruski Guimarães, DSc. 94 Estatística – Notas de Aulas 13.7.2 – Gráfico do Número de Unidades Não Conformes (np) Também conhecido como Gráfico do Número de Defeituosos, pode ser usado como alternativa ao gráfico da fração defeituosa, desde que as amostras tenham o mesmo tamanho, ao contrário do gráfico anterior, que permite a observação de amostras de diferentes tamanhos. As etapas para construção do gráfico np são dadas a seguir. 1) Selecionar k amostras, de tamanho n. 2) Calcular o número médio de unidades não conformes do processo: k ∑ np np = j (13.29) j =1 k 3) Calcular o desvio padrão do processo: σˆ np = (13.30) n p (1 − p ) 4) Calcular os limites de controle: Limite Superior de Controle: Linha Média: Limite Inferior de Controle: (13.31) LSC = n p + 3σˆ np LM = n p (13.32) LIC = n p − 3σˆ np (13.33) Exemplo 13.9: Construir o gráfico do número de unidades não conformes para os dados a seguir. Os valores apresentados referem-se à observação de 20 amostras, de tamanho 50, de certo produto. Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 Defeituosos 2 3 1 0 3 4 0 0 2 2 3 5 4 2 3 3 0 1 3 4 p 0,04 0,06 0,06 0,08 Linha Média: Limite Superior de Controle: Desvio padrão: Limite Inferior de Controle: Professor Inácio Andruski Guimarães, DSc. 95 Estatística – Notas de Aulas 13.7.3 – Gráfico do Número de Não Conformidades Este gráfico é utilizado para avaliar o número de não conformidades, ou defeitos, em uma amostra. A utilização deste gráfico requer tamanho constante para as amostras observadas. Algumas aplicações são, p.ex., controle de bolhas em garrafas e riscos em peças estampadas. A principal diferença com relação ao gráfico p, é que este último se utiliza da contagem de unidades defeituosas, não se preocupando com a quantidade de defeitos. Uma idéia desta diferença é dada pela figura 13.10, a seguir. Considerando cada quadro como uma unidade, e cada ponto em destaque como um defeito, nota-se que há na amostra da esquerda quatro unidades defeituosas, e um total de sete defeitos. Na amostra da direita há duas unidades defeituosas, e o mesmo número de defeitos da primeira. Figura 13.10 As etapas para construção do gráfico c são dadas a seguir. 1) Selecionar k amostras com o mesmo tamanho, e determinar o número de defeitos, c , para cada amostra. 2) Calcular o número médio de não conformidades, ou defeitos. k ∑c c = j j =1 (13.34) k 3) Calcular os limites de controle. Limite Superior de Controle: (13.35) LSC = c + 3 c Linha Média: Limite Inferior de Controle: LM = c (13.36) LIC = c − 3 c (13.37) Exemplo 13.10: Os dados a seguir referem-se à observação de 20 amostras, cada uma com 10 camisas. A cada amostra observada anotou-se o número de defeitos verificados (c). Construir um gráfico c para os dados. Amostra cj 1 3 2 2 3 5 4 4 Linha Média: Limite Superior de Controle: 5 2 6 0 7 3 8 4 9 5 10 1 11 1 12 2 13 0 14 3 15 4 16 3 17 2 18 2 19 0 Desvio padrão: Limite Inferior de Controle: Professor Inácio Andruski Guimarães, DSc. 20 3 96 Estatística – Notas de Aulas 13.7.4 – Gráfico do Número de Não Conformidades por Unidade (u) Este gráfico mede o número de não conformidades, ou defeitos, por unidade. Pode ser uma alternativa ao gráfico c, quando as amostras não têm o mesmo tamanho. Também pode ser usado quando a amostra é constituída de apenas uma unidade, mas que possui muitos componentes que devem ser inspecionados, como um motor, p. ex.,. As etapas para construção do gráfico u são dadas a seguir. 1) Selecionar k amostras, que podem ter tamanhos diferentes, e registrar o número de defeitos (c) encontrados em cada uma. 2) Para cada uma das k amostras, determinar o número de defeitos por unidade. cj uj = (13.38) nj onde cj é o número de defeitos encontrados na j – ésima amostra. 3) Calcular o número médio de defeitos por unidade: k ∑c u = j (13.39) j =1 k ∑n j j =1 4) Calcular o tamanho médio das amostras: k ∑n n = j (13.40) j =1 k 5) Calcular os limites de controle. Limite Superior de Controle: u n LSC = u + 3 (13.41) LM = u Linha Média: Limite Inferior de Controle: (13.42) u n LIC = u − 3 (13.43) Exemplo 13.11: Os dados a seguir referem-se à observação de 15 amostras de certo produto. A cada amostra observada anotou-se o número de defeitos verificados. Construir um gráfico u para os dados. Amostra ( j ) nj cj uj 1 30 3 2 25 2 Linha Média: Limite Superior de Controle: 3 50 5 4 20 4 5 20 2 6 10 0 7 25 3 8 30 4 9 40 5 10 40 1 11 50 1 12 20 2 13 30 0 14 30 3 15 20 4 Desvio padrão: Limite Inferior de Controle: Professor Inácio Andruski Guimarães, DSc. 97 Estatística – Notas de Aulas Comentário Além dos gráficos estudados neste material, há outros menos utilizados, como, por exemplo, o gráfico para mediana e amplitude e o gráfico para média e desvio padrão, este último recomendado para amostras com tamanho igual ou superior a dez unidades. A opção por não apresenta-los decorre da constatação de que sua utilização é muito rara na prática. Também é necessário esclarecer que o índice Cpk prescinde do cálculo do estimador para o desvio padrão. Quando o estimador do desvio padrão (13.11) é substituído pelo desvio padrão amostral s, calculado para todas as observações, utiliza-se a notação Ppk. 13.8 – Exercícios 13.8.1) Um gráfico x − R tem os seguintes valores: x = 135,0 mm e R = 2,5 mm. Foram inspecionadas 25 amostras, com cinco unidades cada uma. As especificações do cliente são: µ = 135,2 mm, LSE = 136,5 mm e LIE = 133,6 mm. Calcular o índice de capabilidade e estimar a proporção de não conformidade. 13.8.2) Em uma confecção foram inspecionadas 15 amostras, cada uma com 30 calças. Registrou-se o número de defeitos em cada amostra. Calcular os limites de controle e construir o gráfico. Amostra Defeitos 1 6 2 4 3 8 4 4 5 5 6 4 7 2 8 8 9 4 10 3 11 4 12 4 13 2 14 6 15 4 13.8.3) Os gráficos de controle por variável devem ser construídos para processos normalizados, isto é, quando a curva de freqüências é normal. O quadro a seguir mostra o resultado da inspeção em 20 amostras, cada uma com cinco unidades, de tubos de PVC. O característico avaliado é o diâmetro, cuja especificação é 25,0 mm. a) Construir uma distribuição de freqüências para os valores observados. (Use amplitude de classe igual a 0,2 mm para as oito classes). b) Calcular a média, a mediana e a moda. c) Verificar se o processo está normalizado. d) Calcular os limites de controle para um gráfico x − R . e) Calcular o índice de capabilidade, supondo que as especificações do cliente são: LIE = 24,0 mm e LSE = 25,5 mm. f) Classificar o processo quanto à sua capabilidade e estimar a p.n.c. Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X1 24,6 24,8 24,5 25,3 24,6 25,3 24,8 24,8 25,0 24,8 25,0 25,2 24,5 25,2 25,2 24,6 24,6 24,8 24,6 25,0 X2 24,8 24,8 24,7 25,4 24,7 25,5 24,8 24,8 24,5 24,8 25,0 25,3 25,2 25,3 25,0 24,7 24,7 24,9 24,7 25,0 X3 24,9 24,7 24,6 25,5 24,7 25,4 24,9 24,8 24,5 25,1 25,1 25,4 24,6 25,3 25,2 24,7 24,4 24,8 24,6 25,3 X4 24,8 24,9 24,5 25,5 24,7 25,5 24,8 24,9 24,5 25,0 25,1 25,2 25,0 25,3 25,0 24,2 24,6 24,9 24,6 25,1 X5 24,6 24,8 24,8 24,3 24,6 24,3 24,8 24,8 24,4 25,2 24,9 24,5 25,3 24,7 24,8 24,3 24,7 24,9 24,7 25,3 Média Professor Inácio Andruski Guimarães, DSc. Amplitude 98 Estatística – Notas de Aulas 13.8.4) Uma indústria química produz certo tipo de solvente, cujo principal característico é a salinidade. Uma inspeção em 15 tonéis do produto apresentou os valores dados no quadro abaixo, referentes à concentração de sal, em p.p.m. Construir o gráfico de controle apropriado. Tonel p.p.m. 1 15 2 20 3 16 4 18 5 22 6 14 7 17 8 13 9 22 10 15 11 19 12 25 13 20 14 18 15 14 13.8.5) Da produção de uma máquina foram extraídas 20 amostras, cada uma com 50 unidades de um componente. As unidades foram inspecionadas para a verificação da ocorrência de certo defeito. Calcular os limites de controle e construir o gráfico de controle. Amostra Defeituosos 1 2 2 3 3 0 4 2 5 0 6 5 7 1 8 0 9 0 10 3 11 2 12 0 13 5 14 4 15 1 16 2 17 3 18 0 19 2 20 3 Uma inspeção sobre 25 amostras, cada uma com quatro unidades anotou os valores encontrados para a média, amplitude e desvio padrão de cada amostra. Os valores são mostrados no quadro a seguir. Média 25,16 24,25 24,63 25,72 25,18 25,12 24,97 24,69 25,67 24,86 24,57 25,30 24,60 24,44 25,30 24,26 25,01 24,79 24,98 25,41 24,51 24,74 24,32 24,83 25,08 Desvio padrão 0,27 0,82 0,85 0,63 1,13 1,04 1,20 0,88 0,29 0,75 0,57 1,14 0,80 0,93 0,69 0,93 0,85 1,15 0,87 1,60 0,33 0,60 1,20 0,80 1,10 Amplitude 0,58 1,75 1,84 1,45 2,44 2,27 2,64 1,95 0,61 1,77 1,37 2,63 1,86 2,18 1,69 2,12 1,95 2,81 2,07 3,62 0,79 1,34 2,88 1,92 2,46 13.8.6) Calcular os limites de controle para o gráfico da média e da amplitude para os dados do quadro acima. 13.8.7) Supondo que as especificações são µ = 25 mm, LIE = 24,5 e LSE = 25,8, calcular o índice de capabilidade e estimar a p.n.c. do processo. 13.8.8) O quadro a seguir mostra o resultado de uma observação sobre 20 amostras de certo componente. A especificação é igual a 45 mm, e os limites inferior e superior de especificação são, respectivamente, 45,15 mm e 44,8 mm. Construir o gráfico para a média e a amplitude e calcular o índice apropriado de capabilidade. Professor Inácio Andruski Guimarães, DSc. 99 Estatística – Notas de Aulas X1 45.1 44.9 45.09 44.88 44.95 44.94 45.0 45.2 45.15 45.12 45.0 45.0 45.0 45.0 45.08 45.18 45.18 45.0 45.08 X2 45.08 45.0 45.1 45.02 44.9 44.98 45.0 45.0 45.11 45.08 44.91 45.04 44.84 45.0 44.85 44.84 45.0 45.09 45.06 X3 45.09 45.0 44.91 45.0 45.09 44.91 45.1 45.1 44.89 44.92 45.05 44.9 44.88 44.88 45.08 44.9 45.08 45.02 44.84 X4 44.88 45.08 44.98 45.0 45.1 45.0 45.08 44.85 45.0 44.97 45.0 44.84 45.07 44.79 45.07 45.0 44.89 45.0 44.79 Professor Inácio Andruski Guimarães, DSc. X5 44.9 44.92 45.0 45.0 44.96 45.09 44.97 44.78 45.0 45.03 45.07 44.89 45.1 44.86 45.0 45.0 44.88 44.8 45.0 100 Estatística – Notas de Aulas 14. TEORIA DA DECISÃO ESTATÍSTICA Este assunto trata do teste de hipóteses relacionadas a suposições a respeito de algum parâmetro e sua finalidade é verificar se a mencionada suposição é válida, isto é, se a hipótese inicial pode ser aceita. É uma das principais ferramentas da pesquisa científica aplicada e abrange as mais variadas áreas de estudo. 14.1 – Teste de Hipótese Este tipo de teste parte de uma suposição inicial, isto é, de uma hipótese, a respeito do valor de algum parâmetro, como média e proporção, por exemplo, e tem como principal objetivo verificar a validade da referida suposição. Também é comum utilizar a expressão hipótese estatística para designar este tipo de suposição, que se refere ao valor de um parâmetro e que toma por base o resultado de uma observação sobre uma amostra. A realização de um teste de hipóteses pode seguir os passos listados a seguir. 1. Formular a hipótese. Na realidade, são formuladas duas hipóteses. A primeira é chamada hipótese nula (H0), e contém o suposto valor para o parâmetro estudado. O objetivo é testar a validade desta hipótese. A segunda é chamada hipótese alternativa (H1), e contradiz a hipótese anterior. A forma como esta hipótese é formulada define o tipo de teste a ser efetuado, isto é, se o teste é unilateral ou bilateral. 2. Determinar o nível de significância. Ao se testar uma hipótese pode-se cometer um de dois tipos de erros. O primeiro, chamado Erro tipo I, ocorre quando se rejeita uma hipótese nula válida. O Erro tipo II ocorre quando se aceita uma hipótese nula que não é válida. A probabilidade de cometer um erro do tipo I é chamada nível de significância. Este nível, representado pela letra grega α, está associado a um valor crítico, que será usado para testar a validade da hipótese em questão. 3. Escolher a estatística, ou estimador, para o teste. A estatística de teste é, na maioria das vezes, o estimador não tendencioso do parâmetro estudado, que pode ser obtido a partir de uma amostra retirada da população à qual pertence o parâmetro. 4. Tomar a decisão. Nesta etapa compara-se o valor de teste com o valor crítico associado ao nível de significância desejado. A partir desta comparação toma-se a decisão de aceitar, ou rejeitar, a hipótese nula. 14.2 – Teste de Hipótese para a Média Neste caso há duas situações a considerar, ambas envolvendo a variância populacional, que pode, ou não, ser conhecida. Na prática são mais comuns situações nas quais não se conhece o verdadeiro valor da variância populacional. 14.2.1 – Teste de Hipótese para a Média com Variância Populacional Conhecida Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua X, com distribuição normal, isto é, X ~ N(µ , σ2), onde σ2 é conhecida e supõe-se que µ assume determinado valor. Neste caso a estatística de teste é dada por: z calc = x−µ σ n . (14.1) Para tomar a decisão de aceitar, ou rejeitar, a hipótese nula, deve-se comparar o valor de zcalc com o valor crítico associado ao nível de significância α. A hipótese nula é aceita quando o valor da estatística de teste pertence ao intervalo limitado pelo valor crítico. Os valores críticos associados aos níveis de significância mais utilizados na prática são mostrados no Quadro 14.1. Professor Inácio Andruski Guimarães, DSc. 101 Estatística – Notas de Aulas Quadro 14.1 – Principais valores críticos. Nível de significância Tipo de teste 0,01 0,05 0,10 Unilateral ± 2,33 ± 1,645 ± 1,28 ± 2,58 ± 1,96 ± 1,645 Bilateral Os valores críticos são os valores de z que delimitam a área correspondente ao nível de significância adotado, conforme a Figura 14.1. – zcrít zcrít Figura 14.1 – Intervalo de não rejeição da hipótese nula. Exemplo 14.1 - Sabe-se que o peso da semente de certa espécie de planta é normalmente distribuído, com variância igual a 0,25. Um pesquisador suspeita que o peso médio da semente estudada é igual a 7 g. Uma amostra de 15 sementes apresentou os pesos mostrados no quadro a seguir. Com 5% de significância, pode-se confirmar a suposição do pesquisador ? Observação Peso (g) 1 8,0 2 7,5 3 6,7 4 7,2 5 8,0 6 7,1 7 7,8 8 7,2 9 6,8 10 7,3 11 6,6 12 8,2 13 8,1 14 7,4 15 6,9 14.2.2 – Teste de Hipótese para a Média com Variância Populacional Desconhecida Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua X, com distribuição normal, isto é, X ~ N(µ , σ2), onde σ2 é desconhecida e supõe-se que µ assume determinado valor. Neste caso a estatística de teste é dada por: t calc = x−µ s n . Os valores críticos podem ser obtidos na tabela da distribuição t, de Student. Professor Inácio Andruski Guimarães, DSc. (14.2) 102 Estatística – Notas de Aulas Exemplo 14.2 – O Quadro a seguir mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Pode-se afirmar, com 5% de significância, que o teor médio de vanádio deste tipo de óleo é igual a 3,5% ? Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 7 2,7 Fonte: Johnson e Wichern (1988) 14.3 – Teste de Hipótese para a Diferença de Médias Sejam duas amostras aleatórias, X1 = [x11 , x12 , ... , x1n1 ]T e X2 = [x21 , x22 , ... , x2n2]T, com médias e variâncias amostrais dadas por X1 e s12 e X2 e s22 , respectivamente. Em última análise o que se deseja determinar é se as duas amostras são provenientes de uma mesma população. Uma questão importante diz respeito à variância populacional, que deve ser a mesma para as duas amostras, já que se supõe que ambas são originárias da mesma população. Uma prática comum é utilizar a variância ponderada. A estatística de teste é dada por: Na fórmula (14.3): sp = x1 − x 2 sp . (14.3) ˆ 2 ( x1 − x 2 ) σ ˆ 2 ( x1 − x 2 ) σ + n1 n2 (14.4) t calc = ( n 1 − 1) s 12 + ( n 2 − 1) s 22 . Também: σˆ 2 = (X1− X 2 ) n1 + n 2 − 2 Exemplo 14.3 - O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm (Tipo W) e outra de argila sub-mulinia (Tipo SM). Pode-se afirmar, com 5% de significância, que o teor médio de ferro do Tipo W é significativamente superior ao teor médio do Tipo SM ? Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11 Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30 Fonte: Johnson e Wichern (1988) Professor Inácio Andruski Guimarães, DSc. 103 Estatística – Notas de Aulas 14.4 – Teste de Hipótese para a Proporção Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória extraída de uma população com proporção p de sucessos, onde p é desconhecida, e seja Xn o total de sucessos na amostra. Neste caso a variável X é tal que: 0 , insucesso X = 1 , sucesso . Então Xn tem distribuição binomial com parâmetros n e p. A proporção de sucessos na amostra é dada por: pˆ = Xn . n Conforme foi visto em 10.9, a distribuição binomial da variável Xn pode ser aproximada pela distribuição normal, isto é: X n ~ N ( np , np (1 − p ) . Além disto, p (1 − p ) . pˆ ~ N p , n Para se testar uma hipótese a respeito do valor de p utiliza-se a estatística de teste dada por p − pˆ pˆ (1 − pˆ ) n z calc = . (14.5) Para tomar a decisão de aceitar, ou rejeitar, a hipótese nula, deve-se comparar o valor de zcalc com o valor crítico associado ao nível de significância α. A hipótese nula é aceita quando o valor da estatística de teste pertence ao intervalo limitado pelo valor crítico. Exemplo 14.4 – Efetuou-se uma inspeção em uma amostra de 15 unidades de certo produto. Seja X a v.a.d. que representa a ocorrência de alguma não conformidade, ou seja, X = 0, se a unidade é conforme, ou X = 1, caso esteja fora de conformidade. Com 5% de significância, pode-se afirmar que a proporção de não conformidade do produto é igual a 10% ? Unidade X 1 0 2 0 3 0 4 1 5 0 6 1 7 0 8 0 9 0 10 0 11 0 12 0 Professor Inácio Andruski Guimarães, DSc. 13 0 14 0 15 1 104 Estatística – Notas de Aulas 14.5 – Teste de Hipótese para a Diferença de Proporções Sejam duas populações com proporções p1 e p2 de sucessos, ambas desconhecidas. Sejam duas amostras, de tamanhos n1 e n2, e proporções p̂ 1 e p̂ 2 de sucessos, respectivamente. A estatística de teste para hipóteses relativas à diferença entre as duas proporções populacionais é dada por: z calc = Na fórmula (14.6): σˆ ( pˆ − pˆ ) = 1 2 πˆ (1 − πˆ ) n1 pˆ 1 − pˆ 2 σˆ ( pˆ1 − pˆ 2 ) + πˆ (1 − πˆ ) n2 . (14.6) e πˆ = n1 pˆ 1 + n 2 pˆ 2 n1 + n 2 . Exemplo 14.5 - Em set/2006 foi publicado um estudo sobre os efeitos do medicamento Celecoxib sobre o câncer de cólon e reto. O estudo envolveu 1561 pacientes, dos quais 933 utilizaram o medicamento, enquanto os demais foram tratados com placebo. No grupo tratado com o medicamento, 314 apresentaram lesões típicas da moléstia. Entre o grupo tratado com placebo, a doença foi detectada em 309 pacientes. Pode-se afirmar, com 5% de significância, que o medicamento em questão é eficaz no combate à referida moléstia ? 14.6 – Exercícios 14.6.1) A vacina Salk, contra poliomielite, foi desenvolvida no início da década de 50, e sua eficácia foi colocada à prova em 1954. Para tanto, foram formados dois grupos, cada um com 200000 crianças. A um dos grupos foi ministrada a vacina, enquanto ao outro grupo foi ministrado um placebo. No primeiro grupo a doença manifestou-se em 33 crianças, o mesmo acontecendo com 115 crianças do segundo grupo. Testar a eficácia do medicamento, com 5% de significância. 14.6.2) O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Ao final do período de acompanhamento verificou-se que 104 médicos do primeiro grupo sofreram ataque cardíaco, contra 189 médicos do grupo que ingeriu placebo. Pode-se afirmar, com 5% de significância, que a Aspirina é eficaz na prevenção de ataques cardíacos ? 14.6.3) Uma pesquisa eleitoral publicada em agosto de 2007, junto a 1091 eleitores paulistanos, apontou que 262 dos entrevistados pretendem votar na candidata Marta Suplicy, nas próximas eleições municipais. Pode-se afirmar, com base na pesquisa e com 5% de significância, que a candidata terá 35% dos votos ? 14.6.4) Uma técnica utilizada no diagnóstico de esclerose múltipla consiste em produzir um estímulo visual sobre cada um dos olhos. Em seguida anota-se a diferença entre os tempos de resposta observados para cada um dos olhos. O quadro a seguir mostra os valores observados para 15 portadores (diagnóstico positivo) e 15 não portadores (diagnóstico negativo) da doença. Pode-se afirmar que os tempos de resposta são significativamente diferentes, com 5% de significância ? Professor Inácio Andruski Guimarães, DSc. 105 Estatística – Notas de Aulas Quadro 12.3 – Diferenças de tempos de resposta a um estímulo visual para diagnóstico de esclerose múltipla. Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Negativo 1,6 0,4 3,2 0,8 1,6 3,2 4,8 1,6 3,2 2,8 1,6 0,8 2,4 3,4 0,6 Positivo 0,8 3,2 8,0 14,2 12,8 6,8 3,4 29,2 18,4 1,6 1,8 9,2 16,8 8,0 4,6 Fonte: Johnson e Wichern (1988) 14.6.5) O quadro a seguir mostra o teor de vanádio observado em diferentes amostras de óleo cru, provenientes de dois estratos geológicos diferentes. Com 5% de significância, é possível afirmar que os teor médio do óleo proveniente do estrato Sub-Mulinia é significativamente superior ao do óleo proveniente do estrato Wilhelm ? Observação Wilhelm Sub-Mulinia 1 3,9 5,0 2 2,7 3,4 3 2,8 1,2 4 3,1 8,4 5 3,5 4,2 6 3,9 4,2 7 2,7 3,9 8 9 10 11 3,9 7,3 4,4 3,0 Fonte: Johnson e Wichern (1988) Resposta: tcalc = 1,5866 < tcrit = 1,7459 : Aceita-se H0. 14.6.6) Uma amostra de 100 baterias coletadas em um lote apresentou 14 deterioradas. Construa um teste com 5% de significância para testar a hipótese de que a proporção de baterias deterioradas no lote é superior a 10%. Resposta: zcalc = 1,15 14.6.7) (Devore, J. L.) O artigo “Statistical evidence of discrimination”, publicado em 1982 no Journal of American Statistical Association, analisa um processo no qual alegava-se a existência de discriminação contra afro-descendentes na seleção de jurados. Segundo o artigo, a proporção de afro-descendentes entre pessoas convocadas para júri era de 25%. Em uma amostra de 1050 pessoas convocadas para júri, 177 eram afro-descendentes. Com 5% de significância, é possível concordar com a afirmação do artigo ? Resposta: zcalc = 7,02 14.6.8) Uma amostra de 50 placas de aço apresentou espessura média igual a 3,08mm e desvio padrão igual 0,38mm. O valor desejado para a espessura é de 3,20mm. Os valores observados na amostra permitem concluir, com 5% de significância, que a espessura obtida é significativamente inferior à desejada ? Resposta: tcalc = – 2,23 14.6.9) Um certo característico de qualidade é especificado em 9,75mm. Uma amostra de 20 unidades do produto em questão apresentou os valores mostrados no quadro a seguir. Com 5% de significância, podese afirmar que o valor médio observado para o característico está de acordo com o valor especificado ? 9,85 9,83 9,93 9,92 9,75 9,74 9,77 9,99 9,67 9,88 9,87 9,95 9,67 9,93 9,94 9,95 9,85 9,92 9,75 9,89 Resposta: tcalc = 4,75 14.6.10) Uma hipótese nula é aceita em um teste com certo nível de significância. Se o nível de significância for reduzido, a decisão poderá ser alterada ? Por quê ? 14.6.11) Uma observação sobre duas amostras apresentou os resultados mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que as médias amostrais não são significativamente diferentes? Amostra 1 2 Média amostral 45,8 38,7 Desvio padrão amostral 5,7 7,2 Professor Inácio Andruski Guimarães, DSc. Tamanho 36 45 106 Estatística – Notas de Aulas 15. ANÁLISE DA VARIÂNCIA (ANOVA) A Análise da Variância (ANOVA) é uma ferramenta para analisar as diferenças entre k > 2 médias, seguindo a suposição inicial de que as médias amostrais avaliadas são oriundas de populações normalmente distribuídas e com a mesma variância. As origens da ANOVA remontam ao início do século XX, quando os principais conceitos foram formulados por Ronald A. Fisher e William Gosset (Student) e aplicados a experimentos agrícolas na estação experimental de Rothamstead, Inglaterra, o que explica a utilização de alguns termos técnicos relacionados à agricultura. As aplicações da ANOVA não se restringem à agronomia, e podem ser encontradas nas engenharias, na medicina, na administração de empresas e na biologia, para citar apenas algumas áreas de pesquisa. Neste material serão apresentados os principais conceitos e métodos envolvidos na ANOVA. Uma abordagem mais ampla e detalhada pode ser encontrada em Vieira (2006), por exemplo. 15.1 – Experimentos com Um Fator A ANOVA para experimentos com um fator está relacionada ao teste de hipótese de diferença entre k médias amostrais, onde k > 2. Neste tipo de experimento, os tratamentos aos quais as amostras estão relacionadas são designados aleatoriamente às unidades experimentais, adotando-se o critério de similaridade das unidades com relação à variável resposta, isto é, ao fator estudado. Os valores observados podem ser anotados em um quadro, conforme mostrado a seguir. São consideradas k amostras, de tamanhos n1 , n2 , ... , nk , com médias µ1 , µ2 , ... , µk , respectivamente. Quadro 15.1 – Valores para ANOVA com um fator. Amostras (Tratamentos) Observações 1 2 ... 1 x11 x21 ... 2 x12 x22 ... ... ... ... ... ... x1n1 x1n2 ... T1 T2 ... Total k x k1 x k2 ... x1nk Tk Aqui se supõe que cada resposta é dada por: xij = µ + αk + εij = média + efeito no grupo k + resíduo. Também se supõe que: i – os resíduos são v.a.’s independentes; ii – a variância é constante; iii – os resíduos seguem distribuição normal, ou muito aproximadamente normal. O quadro para ANOVA aplicada a experimentos com um fator é: Fonte de Variação Entre os grupos Resíduos Total Quadro 15.2 – Quadro para ANOVA com um fator. Soma Quadrática Graus de Liberdade Quadrado Médio SQE k–1 QME = SQE ÷ (k – 1) SQR N–k QMR = SQR ÷ (N – k) SQT N–1 Fcalc QME ÷ QMR A hipótese nula é: H0 : αk = 0 (O tratamento não tem efeito sobre o grupo k). Se a hipótese nula é verdadeira, tem-se que: µ1 = µ2 = ... = µk . Os valores para cálculo são: ni k SQT = ∑∑x i =1 k SQE = ∑ i =1 2 ij − j =1 ∑T i =1 . Ti 2 T 2 − ni N k T = T2 N . k i N = ∑n i (15.1) (15.2) . i =1 SQR = SQT − SQE . Os valores críticos para a estatística F são obtidos na tabela da distribuição F, de Fisher. Professor Inácio Andruski Guimarães, DSc. (15.3) 107 Estatística – Notas de Aulas Exemplo 15.1 – O quadro a seguir mostra o teor de ferro observado em amostras de óleo cru provenientes de três estratos geológicos. Com 5% de significância, é possível afirmar que os teores médios são significativamente diferentes ? 1 51 47 13 Wilhelm Sub-Mulinia Superior 2 49 32 27 3 36 12 24 4 45 17 18 5 46 36 25 6 43 35 26 7 35 41 17 8 9 10 11 12 13 14 36 14 32 20 46 34 30 18 22 52 41 Fonte: Johnson e Wichern (1988) H0 : H1 : T1 = 305 T2 = 364 x 1 = 43 ,57 T3 = 351 x 2 = 33 ,09 n1 = 7 n2 = 11 n3 = 14 N= T= x 3 = 25 ,07 SQT = SQE = SQR = O quadro para ANOVA fica: Fonte de Variação Entre os grupos Resíduos Total Soma Quadrática SQE = SQR = SQT = Graus de Liberdade k–1= N–k= N–1= Quadrado Médio QME = QMR = Fcalc 15.1.1 – Procedimentos para Comparação Múltipla Uma vez que a hipótese nula tenha sido rejeitada, pode haver interesse em saber quais, das k médias, são significativamente diferentes. Este estudo pode ser efetuado através do teste, ou procedimento, de Tukey, por exemplo. De forma muito simplificada, as etapas para aplicação deste teste são descritas a seguir. 1 – Selecionar o nível α, de significância. 2 – Obter o valor crítico Q(α , k , N – 1) na tabela correspondente. 3 – Calcular as estatísticas wij , dadas por: w ij = Q (α , k , N − 1 ). QME 2 1 1 . + n n j i onde i = 1 , 2 , ... , k – 1 , j = 2 , 2 , ... , k , e i < k. 4 – Calcular as diferenças dij , dadas por: d ij = x i − x j . 5 – Considerar como hipótese nula H0 : µi = µj . 6 – Comparar wij com dij . Se wij < dij , então rejeita-se H0 . 7 – Repetir os passos acima para todos os demais pares de médias. Exemplo 15.2 – Aplicar o procedimento de Tukey aos resultados do exemplo 15.1 Professor Inácio Andruski Guimarães, DSc. 108 Estatística – Notas de Aulas 15.2 – Experimento com Dois Fatores Na ANOVA para dois fatores são considerados dois conjuntos de classificação, ou tratamentos. Este tipo de experimento também é conhecido como delineamento de blocos aleatórios, pois as unidades experimentais são designadas aleatoriamente para cada combinação de fatores, ou tratamentos. Neste tipo de experimento considera-se que cada resposta é dada por: xij = µ + αi + βj + εij = média + efeito do fator i + efeito do fator j + resíduo. Os valores observados podem anotados em um quadro na forma a seguir. Quadro 15.3 – Valores para ANOVA com dois fatores. Fator 2 Fator 1 Total Nível 1 Nível 2 ... Nível n Nível 1 x11 x12 ... x 1n L1 Nível 2 x21 x22 ... x 2n L2 ... ... ... ... ... ... Nível m x m1 x m2 ... xmn Lm C1 C2 ... Cn T Total O quadro para ANOVA aplicada a experimentos com dois fatores é: Fonte de Variação Fator 1 Fator 2 Resíduos Total Quadro 15.4 – Quadro para ANOVA com dois fatores. Soma Graus de Quadrado Médio Quadrática Liberdade SQL m–1 QML = SQL ÷ (m – 1) SQC n–1 QMC = SQC ÷ (n – 1) SQR (m – 1)(n – 1) QMR = SQR ÷ (m – 1)(n – 1) SQT N–1 Fcalc QML ÷ QMR QMC ÷ QMR As hipóteses nulas são: H0 : αi = 0 (O efeito do fator 1 é nulo) e H0 : βj = 0 (O efeito do fator 2 é nulo). Os valores para cálculo são: SQT = SQL = SQC = m n i =1 j =1 ∑∑ 1 n 1 m x ij2 − T2 N . (15.4) − T2 N . (15.5) ∑ C i2 − T2 N . (15.6) m ∑L 2 i i =1 n j =1 SQR = SQT − SQL − SQC . (15.7) Exemplo 15.2 – Deseja-se determinar os efeitos sobre a resistência à tensão de ruptura exercidos por três diferentes composições de ligas metálicas e por quatro diferentes níveis de temperatura para tratamento térmico. Os valores observados, em kgf/mm2, são mostrados no quadro a seguir. Liga A B C Total Nível 1 1,7 0,8 0,8 Temperatura Nível 2 Nível 3 1,6 1,9 1,1 1,2 1,3 1,1 Nível 4 1,7 1,4 0,8 Formular e testar as hipóteses correspondentes. Professor Inácio Andruski Guimarães, DSc. Total 109 Estatística – Notas de Aulas O quadro para ANOVA fica: Fonte de Variação Liga Temperatura Resíduos Total Soma Quadrática Graus de Liberdade Quadrado Médio Fcalc QML = QMC = QMR = 15.3 – Experimento com Dois Fatores Repetidos Neste tipo de experimento é possível estudar a ocorrência de interação entre os fatores. Este fenômeno, quando observado, indica que as respostas observadas para os dois fatores não são independentes entre si. Aqui são testadas três hipóteses, as duas tratadas no caso anterior e mais a hipótese nula segundo a qual não há interação entre os fatores. Para realizar o estudo em questão basta efetuar mais de uma observação para cada combinação de fatores. Os valores observados podem anotados em um quadro na forma a seguir. Quadro 15.5 – Valores para ANOVA com dois fatores com repetição. Fator 2 Fator 1 Total Nível 1 Nível 2 ... Nível n x111 x121 x 1 n1 Nível 1 ... ... ... L1 ... x11p x12p x1np x211 x221 x 2 n1 Nível 2 ... ... ... ... L2 x21p x22p x2np ... ... ... ... ... ... xm11 xm21 xmn1 Nível m ... ... ... ... Lm x m1 p xmnp xmnp C1 C2 ... Cn T Total O quadro para ANOVA aplicada a experimentos com dois fatores com repetição é: Fonte de Variação Fator 1 Fator 2 Interação Resíduos Total Quadro 15.6 – Quadro para ANOVA com dois fatores. Soma Graus de Quadrado Médio Quadrática Liberdade SQL m–1 QML = SQL ÷ (m – 1) SQC n–1 QMC = SQC ÷ (n – 1) SQI (m – 1)(n – 1) QMI = SQI ÷(m – 1) (n – 1) SQR mn(p – 1) QMR = SQR ÷ mn(p – 1) SQT mnp – 1 Os valores para cálculo são: m SQT = p n ∑∑ ∑ i =1 j =1 SQC = SQL = x ijk2 − k =1 1 mp ∑ C 2j − 1 np ∑L n j =1 m i =1 2 i − T2 mnp . T2 mnp T2 mnp . . Professor Inácio Andruski Guimarães, DSc. Fcalc QML ÷ QMR QMC ÷ QMR QMI ÷ QMR (15.8) (15.9) (15.10) 110 Estatística – Notas de Aulas SQI = 1 p m n ∑∑S i =1 2 ij − j =1 T2 − SQL − SQC mnp p S ij = ∑x ijk . (15.11) . (15.12) k =1 SQR = SQT − SQL − SQC − SQI . (15.13) Exemplo 15.3 – Um experimento foi planejado para estudar as causas de variação nos resultados de um processo de fermentação. Foram investigados dois fatores: temperatura e tempo de execução. Para cada combinação foram efetuadas duas observações. Os resultados são mostrados no quadro a seguir. Temperatura (oC) 10 25 30 35 40 Total 12,5 13,4 14,5 15,8 Tempo (minutos) 15 20 13,8 13,8 13,4 10,8 11,4 13,0 15,8 16,2 14,8 15,2 14,3 12,4 12,3 10,8 11,2 15,5 17,8 18,1 12,4 12,7 Total Pode-se afirmar, com 5% de significância, que: a) As respostas variam significativamente, em relação às temperaturas ? b) As respostas variam significativamente, em relação aos intervalos de tempo ? c) Há interação entre os fatores ? O quadro para ANOVA é: Fonte de Variação Temperatura Tempo Interação Resíduos Total Soma Quadrática Graus de Liberdade m–1 n–1 (m – 1)(n – 1) mn(p – 1) N–1 Quadrado Médio Fcalc QML = QMC = QMI = QMR = 15.4 – Exercícios 15.4.1) O quadro seguir mostra os comprimentos das pétalas observados em uma amostra de flores de três espécies diferentes. Pode-se afirmar, com 5% de significância, que os comprimentos observados entre as três espécies são significativamente diferentes ? Observação 1 2 3 4 5 6 7 8 9 10 íris setosa 51 49 47 46 50 54 46 50 44 49 Espécie íris versicolor 70 74 69 65 55 57 63 49 66 52 íris virginica 65 76 49 73 67 72 65 64 68 57 Fonte: Fisher (1936). Professor Inácio Andruski Guimarães, DSc. 111 Estatística – Notas de Aulas 15.4.2) O quadro a seguir mostra o valor inverso do teor de hidrocarbonetos saturados observado em amostras de óleo cru provenientes de três estratos geológicos. Com 5% de significância, é possível afirmar que os teores médios são significativamente diferentes ? Wilhelm Sub-Mulinia Superior 1 7,06 7,06 4,24 2 7,14 5,82 5,69 3 7,00 5,54 4,34 4 7,20 6,31 3,92 5 7,81 9,25 5,39 6 6,25 5,69 5,02 7 5,11 5,63 3,52 8 9 10 11 12 6,19 4,65 8,02 4,27 7,54 4,32 5,12 4,38 3,06 Fonte: Johnson e Wichern (1988) 15.4.3) Aplicar o procedimento de Tukey aos resultados do exercício anterior. 15.4.4) Um experimento tem por objetivo avaliar os efeitos sobre a resistência à tensão de ruptura, em kgf/mm2, de cabos de aço, causados por dois fatores: composição da liga e processo de fabricação. Os valores observados no experimento são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que: a) As ligas metálicas produzem valores significativamente diferentes para a tensão de ruptura ? b) Os processos de fabricação produzem valores significativamente diferentes para a tensão de ruptura ? Liga 1 2 3 4 Processo A B C 1,5 1,6 1,2 1,8 1,8 1,4 1,4 1,4 1,3 0,9 1,7 1,4 15.4.5) O quadro a seguir mostra os valores observados em um experimento cujo objetivo é determinar os efeitos produzidos por dois aditivos, em diferentes proporções, sobre o ponto de fusão (oC) de determinado material. Pode-se afirmar que: a) O aditivo 1 produz resultados significativamente diferentes ? b) O aditivo 2 produz resultados significativamente diferentes ? Aditivo 1 5% 256 248 249 10% 15% 20% Aditivo 2 7,5% 10% 264 259 260 245 268 251 12,5% 265 258 255 15.4.6) Um fator importante no processo de extrusão é a opacidade, também medida em dois níveis de fatores, taxa de extrusão e total de aditivo. Dados observados em um destes experimentos são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que: a) Os dois níveis de taxa de extrusão produzem respostas significativamente diferentes ? b) Os dois níveis de aditivo produzem respostas significativamente diferentes ? c) Há interação entre os dois fatores ? Taxa de - 10% extrusão 10% Total Proporção de aditivo 1,0% 1,5% 4,4 6,4 3,0 4,1 0,8 5,7 2,0 3,9 1,9 5,7 2,8 4,1 3,8 1,6 3,4 8,4 5,2 6,9 2,7 1,9 Fonte: Johnson e Wichern (1988). Professor Inácio Andruski Guimarães, DSc. Total 112 Estatística – Notas de Aulas 15.4.6) O quadro a seguir mostra os teores de ácido esteárico observados em amostras de três tipos de óleos vegetais. Pode-se afirmar, com 5% de significância, que os teores observados para cada tipo de óleo são significativamente diferentes ? Observação 1 2 3 4 5 6 7 8 9 Oliva 14,9 9,3 10,9 10,5 12,0 11,7 11,4 Origem Colza Girassol 9,6 9,7 9,7 9,8 10,0 9,8 10,2 9,3 10,4 11,5 10,5 12,2 10,5 13,1 10,5 10,5 10,9 Fonte: Brodnjak-Vončina et al. (2005) 15.4.7) Aplicar o procedimento de Tukey aos resultados do exercício anterior. 15.4.8) Com o objetivo de aumentar a resistência à tensão de ruptura, em Kgf/mm2, de certo tipo de cabo, foram estudadas três ligas metálicas para a confecção do material e quatro métodos de tratamento químico. Para cada combinação de fatores foram produzidas cinco unidades amostrais. Os resultados observados são apresentados no quadro a seguir. Pode-se afirmar, com 5% de significância, que: a) Os diferentes tratamentos produzem respostas significativamente diferentes ? b) As ligas produzem respostas significativamente diferentes ? c) Há interação entre os fatores estudados ? Tratamentos T1 T2 T3 T4 T5 2,4 2,9 3,2 3,8 2,4 2,1 2,8 3,4 3,7 2,5 L1 2,5 2,9 3,3 3,9 2,3 2,6 3,0 3,5 3,8 2,2 2,7 3,1 3,6 3,7 2,5 4,2 3,1 2,2 2,6 2,3 Ligas L2 4,1 4,3 4,3 3,2 2,9 2,8 2,4 2,2 2,3 2,5 2,6 2,7 2,2 2,1 2,4 4,4 3,1 2,4 2,5 2,6 3,2 4,6 3,1 2,5 3,1 3,3 4,2 3,2 2,6 3,3 L3 3,3 4,4 2,9 2,7 3,2 3,4 4,2 3,0 2,5 3,3 3,5 4,2 3,1 2,6 3,0 15.4.9) Um experimento foi delineado com a finalidade de avaliar o efeito do ângulo de tração sobre a força necessária para separar conectores elétricos. Foram usados quatro diferentes ângulos e testados conectores de cinco diferentes marcas, e cada unidade experimental foi testada uma vez. Os valores observados são mostrados no quadro a seguir. Pode-se afirmar, com 5% de significância que: a) O ângulo de tração afeta de forma significativa a força para separação ? b) As marcas apresentam respostas significativamente diferentes para a força de separação ? Ângulo 0o 2o 4o 6o Total A 45,3 44,1 42,7 43,5 175,6 B 42,2 44,1 42,7 45,8 174,8 Marca C 39,6 38,4 42,6 47,9 168,5 D 36,8 38,0 42,2 37,9 154,9 Fonte: Devore, J.L. (2006) Professor Inácio Andruski Guimarães, DSc. E 45,8 47,2 48,9 56,4 198,3 Total 209,7 211,8 219,1 231,5 872,1 113 Estatística – Notas de Aulas Resposta: O quadro para ANOVA fica: Fonte de Variação Ângulo Marca Resíduos Total Soma Quadrática 58,1575 246,9670 91,0050 396,1295 Graus de Liberdade 3 4 12 Quadrado Médio Fcalc QML = 19,3858 QMC = 61,7418 QMR = 7,5838 2,56 8,14 13.4.10) Um experimento foi planejado para identificar possíveis causas de vibração (mícrons) observada em motores elétricos. Foram analisados dois fatores, material da carcaça e marca dos mancais utilizados nos motores. Para investigar a existência de interação, foram efetuadas duas repetições para cada combinação de fatores. Os valores observados são mostrados no quadro a seguir. Com 5% de significância, é possível afirmar que: a) O material usado na fabricação da carcaça exerce influência significativa sobre a vibração ? b) As marcas de mancais apresentam variações significativas com relação à vibração ? c) Há interação entre o material utilizado na carcaça e a marca dos mancais ? Material da carcaça Aço Alumínio Plástico Total A 13,1 13,2 15,0 14,8 14,0 14,3 84,4 Marca do mancal C D 16,3 15,8 13,7 14,3 15,7 15,8 15,7 16,4 13,9 14,3 13,7 14,2 17,2 16,7 12,4 12,3 14,4 13,9 98,1 80,9 87,7 B E Total 13,5 12,5 13,4 13,8 13,2 13,1 79,5 143,9 145,2 141,5 430,6 Quadrado Médio 0,3523 9,1687 1,4507 0,1113 Fcalc 3,16 82,35 13,03 Fonte: Devore, J.L. (2006) Resposta: O quadro com os valores para ANOVA fica: Fonte de Variação Material da carcaça (L) Marca do mancal (C) Interação (I) Resíduos (R) Total (T) Soma Quadrática 0,7047 36,6747 11,6053 1,6700 50,6547 Graus de Liberdade 2 4 8 15 29 Professor Inácio Andruski Guimarães, DSc. 114 Estatística – Notas de Aulas 16. TESTE QUI-QUADRADO Na prática, é comum que os resultados obtidos através de uma amostragem não correspondam aos resultados esperados. Esta discrepância pode ser avaliada através do Teste Qui-Quadrado, que compara as freqüências observadas no experimento com as freqüências esperadas. Estas últimas podem ser baseadas em distribuições de probabilidade ou observações conhecidas a priori. O método em questão pode ser aplicado a dois tipos de estudos: teste de bondade de ajustamento, ou de aderência, e teste de independência de variáveis. No primeiro caso o objetivo é determinar se as freqüências observadas seguem uma determinada distribuição de probabilidade. No segundo caso o objetivo é verificar a dependência de duas variáveis aleatórias, tomando por base os conceitos apresentados no capítulo 8, mais especificamente no parágrafo que trata da independência de duas variáveis (8.7). 16.1 – Teste de Bondade de Ajustamento (Teste de Aderência) Sejam os experimentos ε1 , ε2 , ... , εk , que ocorrem com freqüências observadas O1 , O2 , ... , Ok , respectivamente, e cujas freqüências esperadas são E1 , E2 , ... , Ek , respectivamente. A medida de discrepância é a estatística χ2 (lê-se “qui-quadrado”), calculada por: χ 2 k ∑ = i =1 (O i − E i ) 2 . Ei (16.1) A hipótese nula, H0, supõe que as freqüências observadas concordam com as freqüências esperadas, isto é, Oi = Ei , i = 1 , 2 , ... , k. O valor crítico para a tomada de decisão é obtido diretamente na tabela da distribuição qui-quadrado, com o número de graus de liberdade dado por φ = k – p – 1 , onde p é o número de parâmetros da distribuição de probabilidade em questão. Neste caso, se as freqüências devem seguir uma distribuição exponencial, por exemplo, o valor de p é 1, já que a referida distribuição possui apenas uma parâmetro. Se a distribuição de interesse é a normal, então p = 2, correspondente aos parâmetros µ e σ2. Exemplo 16.1 – Uma reportagem publicada no jornal New York Post (data não disponível) mostrou os resultados de 144 páreos, relacionando o número de vitórias com a posição de largada. Pode-se afirmar, com 1% de significância, que há relação entre as posições de largada e de chegada ? Posição Vitórias 1 29 2 19 3 18 4 25 5 17 6 10 7 15 8 11 16.2 – Teste de Independência de Variáveis Aqui são estudadas as discrepâncias observadas em experimentos que envolvem duas variáveis, em diferentes níveis. O objetivo é verificar o grau de relação existente entre as variáveis estudadas. Os valores observados podem ser anotados em um quadro da forma: Variável X X1 X2 ... Xm Total Variável Y Y2 ... O12 ... O22 ... ... ... O m2 ... C2 ... Y1 O11 O21 ... O m1 C1 Yn O 1n O 2n ... Omn Cn Total L1 L2 ... Lm T A hipótese nula consiste na suposição de que não há relação, ou dependência, entre as variáveis, isto é, Oij = Eij , i = 1 , 2 , ... , m e j = 1 , 2 , ... , n. A estatística de teste é dada por: χ 2 = m n ( O ij − E ij ) 2 i =1 j =1 E ij ∑∑ . As freqüências esperadas são dadas por: Professor Inácio Andruski Guimarães, DSc. (16.2) 115 Estatística – Notas de Aulas E ij = Li C j T . (16.3) Para a tomada de decisão utiliza-se o valor crítico obtido na tabela da distribuição qui-quadrado, com o número de graus de liberdade dado por φ = (m – 1)(n – 1). Exemplo 16.2 – O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina® na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Os resultados observados são mostrados de forma mais detalhada no quadro a seguir. Pode-se afirmar, com 5% de significância, que há relação entre o uso do medicamento e a ocorrência de ataques cardíacos ? Placebo Aspirina Total Ataque fatal 18 5 23 Ataque não fatal 171 99 270 Nenhum ataque 10845 10993 21838 Total 11034 11097 22131 Fonte: Agresti (1990) 16.3 – Limitações do Teste Qui-Quadrado Uma limitação que raramente é levada em consideração em estudos que utilizam o Teste QuiQuadrado diz respeito aos valores para as freqüências observadas. O teste não deve ser aplicado a conjuntos que contenham categorias com freqüências observadas inferiores a cinco observações. Neste caso é recomendável unir a categoria com uma categoria adjacente, de modo que a freqüência observada seja no mínimo igual a cinco. Outra limitação está no fato de que o valor para a estatística χ2 representa apenas o grau de associação, não sendo adequado, por exemplo, para explicar a natureza da associação. Também vale ressaltar que o arranjo das tabelas não exige nenhum tipo de ordenação. Quando as categorias estabelecem algum tipo de ordenação pode ser mais adequado utilizar outros tipos de testes não paramétricos, alguns dos quais serão abordados no próximo capítulo. 16.4 – Exercícios 16.4.1) O quadro a seguir mostra os resultados de uma pesquisa efetuada com 2726 pessoas, praticantes de diferentes religiões, relacionando o perfil religioso com o nível de escolaridade. Com 5% de significância, é possível afirmar que há relação entre o perfil religioso e o nível de escolaridade ? Escolaridade Fundamental / ensino médio incompleto Ensino médio completo / superior incompleto Superior completo Total Fundamentalista 178 570 138 886 Perfil Moderado 138 648 252 1038 Total Liberal 108 442 252 802 424 1660 642 2726 Fonte: Categorical Data Analysis – Alan Agresti – John Wiley & Sons (2002) 16.4.2) O quadro a seguir mostra os resultados observados em um estudo relacionando a aplicação da pena de morte e a cor dos réus acusados de homicídio, bem como a cor das vítimas. Os dados foram Professor Inácio Andruski Guimarães, DSc. 116 Estatística – Notas de Aulas coletados em 20 municípios do estado norte-americano da Flórida, entre os anos de 1976 e 1977. Com 5% de significância, é possível afirmar que há relação entre: a) A cor dos réus e a sentença ? b) A cor das vítimas e a sentença ? Cor Vítima Branca Branca Negra Branca Negra Negra Pena de Morte Sim Não 19 132 0 9 11 52 6 97 Réu 16.4.3) O quadro a seguir mostra os resultados de uma pesquisa publicada no SPSS™ Advanced Statistics Guide, 2nd. Ed. O objetivo da pesquisa era verificar a relação entre a renda e o nível de satisfação de 901 trabalhadores de áreas distintas. Com 5% de significância, pode-se afirmar que o nível de satisfação está associado à renda ? Renda (US$) Muito insatisfeito < 6000 6000 – 15000 15000 – 25000 25000 < 20 22 13 7 Nível de satisfação/insatisfação Moderadamente Moderadamente insatisfeito satisfeito 24 80 38 104 28 81 18 54 Muito satisfeito 82 125 113 92 16.4.4) O quadro a seguir o número de casos de leucemia registrados pelo British Cancer Registry, entre os anos de 1946 e 1960. Pode-se afirmar que o número de registros independe do mês ? Mês Casos Jan 40 Fev 34 Mar 30 Abr 44 Mai 39 Jun 58 Jul 51 Ago 56 Set 36 Out 48 Nov 33 Dez 38 16.4.5) O quadro a seguir mostra a classificação de 980 eleitores estadunidenses conforme a cor e a opção partidária. È possível afirmar que a preferência partidária está associada à cor do eleitor, com 5% de significância ? Cor Democrata 103 341 444 Branco Negro Total Opção Independente 15 105 120 Total Neutro 11 405 416 129 851 980 Fonte: Agresti (2002). 16.4.6) O quadro a seguir mostra o total de falhas apresentadas por um equipamento em determinado período de tempo. Pode-se afirmar, com 5% de significância que o número de falhas segue uma distribuição de Poisson? Falhas Dias 0 8 1 25 2 40 3 45 4 34 5 23 6 14 7 7 8 ou mais 5 Professor Inácio Andruski Guimarães, DSc. 117 Estatística – Notas de Aulas 17. TESTES NÃO PARAMÉTRICOS Os testes de hipóteses estudados até agora envolvem suposições sobre a distribuição das populações das quais são extraídas as amostras. Na prática, contudo, há situações nas quais não há justificativas para tais suposições, como por exemplo quando os dados disponíveis não são oriundos de uma população com distribuição normal. Em tais situações é possível utilizar testes que não dependam de suposições a respeito de distribuições populacionais ou dos parâmetros envolvidos. Também podem ser utilizados quando os dados estudados não envolvem variáveis numéricas. 17.1 – Teste do Sinal Este teste é indicado para estudos que envolvem uma variável qualitativa binária, isto é, com apenas dois possíveis resultados, traduzidos por seus sinais (positivo ou negativo). Este tipo de situação ocorre, por exemplo, quando consumidores são indagados a respeito da melhora, ou não, da qualidade de serviços ou produtos. Também pode ser aplicado em estudos que envolvem amostras casadas, ou emparelhadas, isto é, amostras formadas por indivíduos observados individualmente e submetidos a dois cenários diferentes. A hipótese nula postula que não há diferença significativa entre os totais de sinais negativos e positivos, e toma por base uma distribuição binomial, aproximada pela normal, que supõe que a proporção, tanto de sinais positivos como negativos, é igual a 0,5. A decisão é tomada a partir de valores da distribuição normal. As etapas são resumidas a seguir. Etapa 1: Registrar o número de sinais positivos, ou negativos, e representar o total por X. Etapa 2: Considerar p = 0,5 e calcular Np, onde N é o total de sinais positivos e negativos. Etapa 3: Se X < Np, fazer X* = X + 0,5. Se Np < X, fazer X* = X – 0,5. Etapa 4: Efetuar a aproximação da distribuição binomial pela distribuição normal, isto é, calcular a estatística z, dada por: z= X * − Np . Np (1 − p ) (17.1) Etapa 5: Tomar a decisão, comparando o valor z com o valor crítico zC , correspondente ao nível de significância desejado. Exemplo 17.1 – Um estudo, com o objetivo de avaliar os efeitos de determinada dieta sobre portadores de certa moléstia, acompanhou 20 pacientes por determinado período de tempo. Ao final deste período o peso de cada paciente foi comparado com o peso (kg) anotado no início do estudo, a fim de verificar se o mesmo havia aumentado ou diminuído. Os resultados são mostrados no quadro a seguir. Pode-se afirmar, com 5% de significância, que a dieta é eficaz para a redução de peso ? Paciente Antes Depois 1 85 76 2 78 70 3 77 82 H0: A dieta é inócua. Paciente Antes Depois Sinal 1 85 76 - 2 78 70 - 4 69 74 5 94 88 6 85 80 7 79 83 8 68 68 H1: A dieta é eficaz. 3 77 82 + 4 69 74 + 5 94 88 - 6 85 80 - Total de sinais negativos: X = 13 → 7 79 83 + 9 72 68 10 75 78 11 79 82 12 84 80 13 85 81 14 76 79 15 96 88 16 85 79 17 86 82 18 78 75 19 80 75 20 76 72 15 96 88 - 16 85 79 - 17 86 82 - 18 78 75 - 19 80 75 - 20 76 72 - Quantidade de sinais N = 8 68 68 0 z= 9 72 68 - 10 75 78 + 11 79 82 + 12 84 80 - 13 85 81 - (13 − 0 ,5 ) − (19 )( 0 ,5 ) (19 )( 0 ,5 )( 0 ,5 ) Para o nível de significância desejado, o valor crítico é: 14 76 79 + = Decisão: Professor Inácio Andruski Guimarães, DSc. 118 Estatística – Notas de Aulas 17.2 – Teste U, de Wilcoxon-Mann-Whitney É indicado para testes que envolvem variáveis ordinais, observadas para duas amostras. Também pode substituir o teste t, para diferença de médias. As etapas são descritas a seguir. Etapa 1: Ordenar os valores dentro de cada amostra. A ordenação é feita do menor para o maior. Etapa 2: Atribuir postos para os valores ordenados, de modo que os menores valores recebam os menores postos. Em caso de empate, isto é, de valores iguais, atribui-se a mediana dos postos que seriam atribuídos, caso os valores fossem diferentes. Etapa 3: Somar os postos dentro de cada amostra. Se as amostras têm tamanhos diferentes, representar por R1 e n1 a soma dos postos e o tamanho da menor amostra, respectivamente. Etapa 4: Calcular a estatística U, dada por: n 1 ( n 1 + 1) − R1 2 U = n1 n 2 + (17.2) Etapa 5: Calcular a média e a variância, dadas por: n1 n 2 2 n 1 n 2 ( n 1 + n 2 + 1) = 12 (17.3) µU = σ U2 (17.4) Etapa 6: Calcular a estatística de teste, dada por: zU = U − µU (17.5) σU Etapa 7: Tomar a decisão com base na distribuição normal. Exemplo 17.2 – O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm (Tipo W) e outra de argila sub-mulinia (Tipo SM). Pode-se afirmar, com 5% de significância, que o teor médio de ferro do Tipo W é significativamente superior ao teor médio do Tipo SM ? Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11 Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30 Fonte: Johnson e Wichern (1988) Etapa 1: Reescrever os valores, em ordem crescente, dentro das respectivas amostras: Observação Wilhelm Sub-Mulinia 1 35 2 36 3 43 4 45 5 46 6 49 7 51 8 9 10 11 1 35 2 36 3 43 4 45 5 46 6 49 7 51 8 9 10 11 Etapa 2: Atribuir os postos: Observação Wilhelm Sub-Mulinia Etapa 3: R1 = n1 = R2 = n2 = Professor Inácio Andruski Guimarães, DSc. 119 Estatística – Notas de Aulas Etapa 4: Calcular a estatística U: Etapa 5: Calcular a média e a variância: Etapa 6: Calcular a estatística de teste: Etapa 7: Tomar a decisão com base na distribuição normal: 17.3 – Teste H, de Kruskal-Wallis O teste H pode ser considerado uma generalização do teste U pra mais de duas amostras. De fato, as etapas para realização deste teste seguem o mesmo raciocínio utilizado para estudos com duas amostras, com a diferença de que a estatística H segue distribuição qui-quadrado, com φ = k – 1 graus de liberdade. Sejam k amostras de tamanho n1 , ... , nk , de valores correspondentes a uma variável ordinal. Inicialmente deve-se ordenar os valores dentro de cada amostra. Na seqüência, deve-se atribuir postos aos valores ordenados, de modo análogo ao empregado no teste U. As somas dos postos, R1 , ... , Rk são utilizadas para calcular a estatística H, dada por: H = Onde: N = k ∑n i 12 N ( N + 1) k ∑ i =1 R i2 − 3 ( N + 1) ni . (17.6) . i =1 Exemplo 17.3 – O quadro seguir mostra os comprimentos das pétalas observados em uma amostra de flores de três espécies diferentes. Pode-se afirmar, com 5% de significância, que os comprimentos observados entre as três espécies são significativamente diferentes ? Observação 1 2 3 4 5 6 7 8 9 10 íris setosa 51 49 47 46 50 54 46 50 44 49 Espécie íris versicolor 70 74 69 65 55 57 63 49 66 52 íris virginica 65 76 49 73 67 72 65 64 68 57 Fonte: Fisher (1936). Ordenar os valores: Professor Inácio Andruski Guimarães, DSc. 120 Estatística – Notas de Aulas Observação íris setosa Espécie íris versicolor íris virginica íris setosa Espécie íris versicolor íris virginica 1 2 3 4 5 6 7 8 9 10 Atribuir os postos: Observação 1 2 3 4 5 6 7 8 9 10 Determinar a soma dos postos: R1 = R2 = R3 = Calcular a estatística H: Tomar a decisão: 17.4 – Exercícios 17.4.1) Aplicar o teste do sinal ao problema tratado no exemplo 17.2. 17.4.2) Para avaliar o grau de satisfação dos clientes com relação a certa modalidade de serviço, uma empresa solicitou a um grupo de clientes que atribuísse uma nota, que varia de 0 a 5, conforme o grau de satisfação de cada um. Os valores observados são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que o nível de satisfação não é significativamente diferente entre as modalidades ? Cliente 1 2 3 4 5 6 7 8 9 10 Premium 2 5 4 5 5 4 3 3 2 1 Modalidade Classic Personal 3 3 4 5 4 3 3 4 3 4 4 5 2 3 5 2 4 3 3 2 Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 121 17.4.3) O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm (Tipo W) e outra de argila sub-mulinia (Tipo SM). Pode-se afirmar, com 5% de significância, que o teor médio de ferro do Tipo W é significativamente superior ao teor médio do Tipo SM ? Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11 Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30 Fonte: Johnson e Wichern (1988) 17.4.4) O quadro a seguir mostra os teores de ácido esteárico observados em amostras de quatro tipos de óleos vegetais. Pode-se afirmar, com 5% de significância, que os teores observados são significativamente diferentes ? Observação 1 2 3 4 5 6 7 8 9 Oliva 14,9 9,3 10,9 10,5 12,0 11,7 11,4 Origem Colza Girassol 9,6 9,7 9,7 9,8 10,0 9,8 10,2 9,3 10,4 11,5 10,5 12,2 10,5 13,1 10,5 10,5 10,9 Fonte: Brodnjak-Vončina et al. (2005) Professor Inácio Andruski Guimarães, DSc. 122 Estatística – Notas de Aulas 18. ANÁLISE DE CORRELAÇÃO E DE REGRESSÃO O conceito de correlação foi apresentado na unidade 8, e pode ser entendido como a expressão do grau de relação entre duas variáveis aleatórias. A análise de correlação tem por objetivo avaliar este grau a fim de verificar se é possível ajustar um modelo funcional que expresse a mencionada relação, que é o objetivo da análise de regressão. 18.1 – Coeficiente de Correlação Sejam X e Y duas variáveis aleatórias contínuas definidas em um espaço amostral Ω, para as quais são conhecidas n realizações na forma {(x1 , y1) , ... , (xn , yn)}, e com variâncias σ2X e σ2Y, respectivamente. Conforme foi visto na unidade 8.7.3, o coeficiente de correlação de X e Y é a medida da relação linear entre as duas variáveis, e é dado por: ρ ( X ,Y ) = Cov ( X , Y ) σ 2 X σ . (8.12) 2 Y O coeficiente de correlação ρ pertence ao intervalo real [– 1 ; 1] . Se ρ = 1 ou ρ = – 1, diz-se que a relação é perfeita, e neste caso pode-se representa-la na forma Y = aX + b , onde a e b são números reais. Na prática utiliza-se o coeficiente de correlação de Pearson, dado por: n n n n ∑ x i y i − ∑ x i ∑ y i i =1 i =1 i =1 r= n n n ∑ x i2 − ∑ x i i =1 i =1 2 n n n ∑ y i2 − ∑ y i i =1 i =1 . (18.1) 2 O coeficiente de correlação de Pearson fornece uma medida do grau de relação entre as duas variáveis. Se r → 0, diz-se que há fraca correlação entre X e Y. Se r → – 1, ou r → 1, diz-se que há forte correlação. Esta idéia é ilustrada, de forma bastante simplificada, na figura 18.1. Ausência de correlação Fraca correlação positiva Forte correlação negativa Forte correlação positiva Figura 18.1 – Diagramas de Dispersão. Professor Inácio Andruski Guimarães, DSc. 123 Estatística – Notas de Aulas Exemplo 18.1 – O quadro a seguir mostra a evolução das populações masculina e feminina no Brasil, de 1940 a 2000, em milhões de pessoas. Calcular o coeficiente de correlação. Quadro 18.1 – População Brasileira 1940 – 2010. Ano 1940 1950 1960 1970 1980 1991 População Masculina 20,6 25,9 35,0 46,3 59,1 72,5 População Feminina 20,6 26,0 35,1 46,8 59,9 74,3 2000 83,6 86,2 2010 93,4 97,3 Fonte: IBGE – http://censo2010.ibge.gov.br (Acessado em 23/08/2015) X = população masculina Y = população feminina 120 100 80 60 40 20 0 0 20 40 60 80 100 18.2 – Análise de Regressão Linear Na análise de correlação linear, o objetivo é determinar o grau de relacionamento entre duas variáveis. Na análise de regressão linear, o objetivo é determinar o modelo que expressa esta relação. Sejam X e Y duas variáveis aleatórias contínuas, conforme apresentadas na introdução. Conforme já foi visto, se o coeficiente de correlação é muito próximo de 1, ou de ( – 1), existe uma relação linear entre X e Y, que pode ser expressa na forma: yi = α + βxi + ε i . (18.2) No modelo acima, α e β são os parâmetros do modelo, e εi é o resíduo correspondente à i – ésima observação. Os resíduos também podem ser escritos na forma: ε i = yi − α − β xi . (18.3) Outra informação importante é que, na análise de regressão linear, parte-se da suposição de que os resíduos têm distribuição normal, com média igual a zero e variância σ2, isto é, ε ~ N( 0 , σ2 ). 18.3 – Método dos Mínimos Quadrados Para obter os Estimadores de Máxima Verossimilhança (EMV) dos parâmetros α e β, utiliza-se o Método dos Mínimos Quadrados (MMQ). O objetivo é minimizar a Soma dos Quadrados dos Resíduos (SQR), na forma (18.3), dada por: Professor Inácio Andruski Guimarães, DSc. 124 Estatística – Notas de Aulas n SQR = ∑ (y i − α − βxi ) . 2 (18.4) i =1 As derivadas parciais, em relação aos parâmetros α e β, são dadas por: n ∂ SQR = (− 2 )∑ ( y i − α − β x i ) . ∂α i =1 (18.5) n ∂ SQR = (− 2 )∑ ( y i − α − β x i )x i . ∂β i =1 (18.6) Após igualar as duas expressões a zero, e efetuar algumas manipulações algébricas elementares, obtém-se o sistema de equações dado por: n ˆ ˆn+β α ∑ xi = i =1 n ∑y i i =1 n n i =1 i =1 ˆ ˆ ∑ xi + β α ∑ x i2 = n ∑ i =1 xi yi . (18.7) O sistema (18.7) é chamado sistema normal, e a sua resolução fornece os estimadores para os parâmetros desconhecidos do modelo linear, na forma: ˆx. ˆ +β ŷ = α Os parâmetros α e β também são chamados, respectivamente, de intercepto e coeficiente angular. Exemplo 18.2 – Calcular os estimadores de máxima verossimilhança para o modelo linear ajustado aos dados do Quadro 18.1. ∑ Xi = 343,0 ∑ Yi = 348,9 ∑ Xi2 = 20201,88 ∑ Yi2 = 21061,55 ∑ XiYi = 20626,26 n=7 18.3.1 – Análise da Variância (ANOVA) para o Modelo de Regressão Linear A ANOVA pode ser empregada para testar a existência, e a significância, da regressão linear. Este estudo tem por objetivo verificar se o modelo encontrado é consistente, ou seja, se produz resultados confiáveis. O quadro para ANOVA do modelo de regressão linear é dado por: Fonte de Variação Regressão Resíduos Total Quadro 18.2 – Quadro para ANOVA. Soma Quadrática Graus de Liberdade Quadrado Médio VM 1 QVM = VM VR n–2 QVR = VR ÷ (n – 2) VT n–1 As hipóteses testadas são: H0: β = 0 × H1: β ≠ 0. As somas quadráticas são dadas por: Professor Inácio Andruski Guimarães, DSc. Fcalc QVM ÷ QVR 125 Estatística – Notas de Aulas n 1 n n VM = b ∑ x i y i − ∑ x i ∑ y i . n i =1 i =1 i =1 2 n 1 n VT = b ∑ y i2 − ∑ y i n i =1 i =1 . . VR = VT − VM (18.9) (18.10) (18.11) Exemplo 18.3 – Efetuar a ANOVA para o modelo obtido no exemplo anterior. 18.4 – Modelo Exponencial Há situações nas quais o modelo linear não é o mais adequado para expressar a relação entre as variáveis estudadas. Nestes casos pode-se pesquisar a possibilidade de expressar a referida relação através de modelos não lineares. Os principais modelos não lineares serão apresentados de forma bastante sucinta na seqüência. O modelo exponencial é dado por: y = α e βx . (18.12) O gráfico para o modelo exponencial é mostrado na Figura 18.2. Figura 18.2 – Gráfico do Modelo Exponencial. Para obter os EMV dos parâmetros do modelo pode-se partir da forma linearizada, dada por: ln y = ln α + β x Fazendo A = ln α, obtém-se o sistema normal dado por: n ˆ Â n + β ∑ xi = i =1 n ∑ ln y i =1 n n i =1 i =1 ˆ Â ∑ x i + β ∑ x i2 = n ∑ i =1 i x i ln y i (18.13) É importante ressaltar que, do ponto vista estritamente matemático, o procedimento adotado não é consistente, uma vez que, ao efetuar a linearização, os resíduos são considerados na forma multiplicativa, isto é, o procedimento exige que cada observação seja escrita na forma y i = α e β xi ε i . Professor Inácio Andruski Guimarães, DSc. 126 Estatística – Notas de Aulas Se os resíduos forem considerados na forma aditiva, dada por y i = α e β x i + ε i , a obtenção dos estimadores exigiria a aplicação de métodos iterativos, entre os quais se destaca o método de NewtonRaphson. Entretanto, não é difícil verificar que o modelo obtido através da linearização é adequado. O coeficiente de correlação para o modelo exponencial é dado por: n n n n ∑ x i ln y i − ∑ x i ∑ ln y i i =1 i =1 i =1 r = n ∑ x i2 − ∑ x i i =1 i =1 n n 2 n ∑ ln 2 y i − ∑ ln y i i =1 i =1 n n . (18.14) 2 Exemplo 18.4 – O quadro a seguir mostra o faturamento total das empresas brasileiras de produtos light e diet no período 1990 – 2002. Calcular o coeficiente de correlação e os EMV para um modelo exponencial, a fim de estimar o faturamento total para determinado ano. Quadro 18.3 – Faturamento, em milhões de US$, do mercado brasileiro de produtos diet e light. Ano 1990 1992 1994 1996 1998 2000 2002 Faturamento 160 175 400 736 1000 1700 2800 Fonte: Jornal Folha de São Paulo, 18/08/2004. 18.5 – Modelo Potência O modelo, ou função, potência é dado por y = αx β . 1 2 3 4 5 6 (18.15) 7 8 9 Figura 18.3 – Gráfico do Modelo Potência (β > 1). Os EMV são obtidos a partir da linearização do modelo (18.15), o que resulta na expressão dada por: ln y = ln α + β ln x (18.16) Fazendo A = ln α, o sistema normal para estimar os parâmetros desconhecidos fica: i =1 i =1 n n n 2 2 ˆ Â ∑ ln x i + β ∑ ln x i = ∑ (ln x i )(ln y i ) i =1 i =1 i =1 n ˆ Â n + β ∑ ln x i = n ∑ ln y i O coeficiente de correlação para o modelo potência é dado por: Professor Inácio Andruski Guimarães, DSc. (18.17) 127 Estatística – Notas de Aulas n n n n ∑ ( ln x i )( ln y i ) − ∑ ln x i ∑ ln y i i =1 i =1 i =1 r = n n n ∑ ln 2 x i − ∑ ln x i i =1 i =1 2 . n n n ∑ ln 2 y i − ∑ ln y i i =1 i =1 (18.18) 2 Exemplo 18.7 – O quadro a seguir mostra a evolução das populações masculina e feminina no Brasil, de 1940 a 2000, em milhões de pessoas. Calcular o coeficiente de correlação para o modelo potência e compara-lo com o coeficiente de correlação linear, obtido no exemplo 18.1. Quadro 18.1 – População Brasileira 1940 – 2000. Ano 1940 1950 1960 1970 1980 1991 População Masculina 20,6 25,9 35,0 46,3 59,1 72,5 População Feminina 20,6 26,0 35,1 46,8 59,9 74,3 2000 83,6 86,2 Fonte: IBGE – Folha de São Paulo (30/09/2003) X = população masculina Y = população feminina 18.6 – Modelo Logarítmico É dado na forma y = α + β ln x . (18.19) O coeficiente de correlação para este modelo é dado por: n n n n ∑ ( ln x i )( y i ) − ∑ ln x i ∑ y i i =1 i =1 i =1 r = n n n ∑ ln 2 x i − ∑ ln x i i =1 i =1 2 . n n n∑ yi − ∑ yi i =1 i =1 (18.20) 2 Os estimadores de máxima verossimilhança são obtidos pela resolução do sistema dado por: n n ˆ ˆn+β α ∑ ln x i = ∑ i =1 i =1 n n i =1 i =1 ˆ ˆ ∑ xi + β α ∑ ln 2 yi n xi = ∑ i =1 y i ln x i . (18.21) 18.7 – Exercícios 18.7.1) O Quadro 18.4 mostra os valores de correspondentes à taxa de emissão de óxido de nitrogênio (y), em ppm, e à taxa de liberação na área do queimador em aquecedores a vapor (x), em MBtu/h-pés2. Qual o modelo mais adequado para estimar y em função de x? x y 100 150 125 140 Quadro 18.4 – Taxa de liberação (x) e taxa de emissão de NOx (y). 125 150 150 200 200 250 250 300 300 350 180 210 190 320 280 400 430 440 390 600 400 610 400 670 18.7.2) O modelo obtido acima é confiável? Por quê? 18.7.3) O quadro a seguir mostra valores correspondentes à deposição de umidade de NO3 (x), em g N/m2, e líquens N (y), em % de peso seco, observados em um estudo sobre a utilização de líquens como bioindicadores de poluição do ar. x y 0,05 0,48 0,10 0,55 0,11 0,48 0,12 0,50 0,31 0,58 0,37 0,52 0,42 1,02 0,58 0,86 0,68 0,86 Professor Inácio Andruski Guimarães, DSc. 0,68 1,00 0,73 0,88 0,85 1,04 0,92 1,70 Estatística – Notas de Aulas 128 Qual o modelo mais adequado para estimar y em função de x? 18.7.4) Qual a quantidade estimada de líquens para um valor de deposição de NO3 de 0,5? 18.7.5) O quadro a seguir mostra os teores de ácidos palmítico, esteárico, oléico e linoléico observados em uma amostra de 11 extratos de óleo de colza. a) Qual o modelo mais adequado para estimar o teor de ácido palmítico em função do teor de ácido esteárico ? b) Qual o modelo mais adequado para estimar o teor de ácido palmítico em função do teor de ácido oléico ? c) Qual o modelo mais adequado para estimar o teor de ácido oléico em função do teor de ácido esteárico ? Quadro 18.6 Teores de ácidos graxos. Palmítico Esteárico Oléico Linoleico 9,6 3,5 30,3 49,2 9,7 3,9 25,1 54,2 10 4,2 24,9 53,2 10,2 4 23,1 55,1 10,4 4,2 25,9 50,8 10,5 4,2 25,5 52 10,5 4,2 24,4 52,1 10,5 4,3 24,6 53,1 10,9 3,6 26 52,6 10,9 3,8 27,2 49,5 11,9 3,8 25,7 52,7 18.7.8) Um modelo não linear que pode ser de grande utilidade é o Modelo Inverso, dado por: y=α+ β . x a) Escrever a expressão para calcular o coeficiente de correlação para o modelo dado. b) Definir o sistema normal para o cálculo dos EMV para os parâmetros. Professor Inácio Andruski Guimarães, DSc. 129 Estatística – Notas de Aulas UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA TABELA 1 - Distribuição Normal Padrão Z~N(0,1) P(0 ≤ Z ≤ zc) zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,1 0,2 0,3 0,4 0,0000 0,0398 0,0793 0,1179 0,1554 0,0040 0,0438 0,0832 0,1217 0,1591 0,0080 0,0478 0,0871 0,1255 0,1628 0,0120 0,0517 0,0910 0,1293 0,1664 0,0160 0,0557 0,0948 0,1331 0,1700 0,0199 0,0596 0,0987 0,1368 0,1736 0,0239 0,0636 0,1026 0,1406 0,1772 0,0279 0,0675 0,1064 0,1443 0,1808 0,0319 0,0714 0,1103 0,1480 0,1844 0,0359 0,0753 0,1141 0,1517 0,1879 0,5 0,6 0,7 0,8 0,9 0,1915 0,2257 0,2580 0,2881 0,3159 0,1950 0,2291 0,2611 0,2910 0,3186 0,1985 0,2324 0,2642 0,2939 0,3212 0,2019 0,2357 0,2673 0,2967 0,3238 0,2054 0,2389 0,2704 0,2995 0,3264 0,2088 0,2422 0,2734 0,3023 0,3289 0,2123 0,2454 0,2764 0,3051 0,3315 0,2157 0,2486 0,2794 0,3078 0,3340 0,2190 0,2517 0,2823 0,3106 0,3365 0,2224 0,2549 0,2852 0,3133 0,3389 1,0 1,1 1,2 1,3 1,4 0,3413 0,3643 0,3849 0,4032 0,4192 0,3438 0,3665 0,3869 0,4049 0,4207 0,3461 0,3686 0,3888 0,4066 0,4222 0,3485 0,3708 0,3907 0,4082 0,4236 0,3508 0,3729 0,3925 0,4099 0,4251 0,3531 0,3749 0,3944 0,4115 0,4265 0,3554 0,3770 0,3962 0,4131 0,4279 0,3577 0,3790 0,3980 0,4147 0,4292 0,3599 0,3810 0,3997 0,4162 0,4306 0,3621 0,3830 0,4015 0,4177 0,4319 1,5 1,6 1,7 1,8 1,9 0,4332 0,4452 0,4554 0,4641 0,4713 0,4345 0,4463 0,4564 0,4649 0,4719 0,4357 0,4474 0,4573 0,4656 0,4726 0,4370 0,4484 0,4582 0,4664 0,4732 0,4382 0,4495 0,4591 0,4671 0,4738 0,4394 *0,4505 0,4599 0,4678 0,4744 0,4406 0,4515 0,4608 0,4686 0,4750 0,4418 0,4525 0,4616 0,4693 0,4756 0,4429 0,4535 0,4625 0,4699 0,4761 0,4441 0,4545 0,4633 0,4706 0,4767 2,0 2,1 2,2 2,3 2,4 0,4772 0,4821 0,4861 0,4893 0,4918 0,4778 0,4826 0,4864 0,4896 0,4920 0,4783 0,4830 0,4868 0,4898 0,4922 0,4788 0,4834 0,4871 0,4901 0,4925 0,4793 0,4838 0,4875 0,4904 0,4927 0,4798 0,4842 0,4878 0,4906 0,4929 0,4803 0,4846 0,4881 0,4909 0,4931 0,4808 0,4850 0,4884 0,4911 0,4932 0,4812 0,4854 0,4887 0,4913 0,4934 0,4817 0,4857 0,4890 0,4916 0,4936 2,5 2,6 2,7 2,8 2,9 0,4938 0,4953 0,4965 0,4974 0,4981 0,4940 0,4955 0,4966 0,4975 0,4982 0,4941 0,4956 0,4967 0,4976 0,4982 0,4943 0,4957 0,4968 0,4977 0,4983 0,4945 0,4959 0,4969 0,4977 0,4984 0,4946 0,4960 0,4970 0,4978 0,4984 0,4948 0,4961 0,4971 0,4979 0,4985 0,4949 0,4962 0,4972 0,4979 0,4985 *0,4951 0,4963 0,4973 0,4980 0,4986 0,4952 0,4964 0,4974 0,4981 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,10 ou + 0,4999 NOTA: Para valores de Z acima de 3,09, use 0,4999 como área. * Use esses valores comuns resultantes de interpolação: Escore z Área 1,645 0,4500 2,575 0,4950 Esta tabela foi obtida na página do Departamento de Estatística da UFRN. Professor Inácio Andruski Guimarães, DSc. 130 Estatística – Notas de Aulas UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA TABELA 2 - Distribuição t de Student (Unicaudal e Bicaudal) ϕ = graus de liberdade α 25% 10% 5% 2,5% 1% 0,5% ϕ α 25% 10% 5% 2,5% 1% 0,5% ϕ 1 2 3 4 5 1,0000 0,8165 0,7649 0,7407 0,7267 3,0777 1,8856 1,6377 1,5332 1,4759 6,3138 2,9200 2,3534 2,1318 2,0150 12,7062 4,3027 3,1824 2,7764 2,5706 31,8207 6,9646 4,5407 3,7469 3,3649 63,6574 9,9248 5,8409 4,6041 4,0322 46 47 48 49 50 0,6799 0,6797 0,6796 0,6795 0,6794 1,3002 1,2998 1,2994 1,2991 1,2987 1,6787 1,6779 1,6772 1,6766 1,6759 2,0129 2,0117 2,0106 2,0096 2,0086 2,4102 2,4083 2,4066 2,4049 2,4033 2,6870 2,6846 2,6822 2,6800 2,6778 6 7 8 9 10 0,7176 0,7111 0,7064 0,7027 0,6998 1,4398 1,4149 1,3968 1,3830 1,3722 1,9432 1,8946 1,8595 1,8331 1,8125 2,4469 2,3646 2,3060 2,2622 2,2281 3,1427 2,9980 2,8965 2,8214 2,7638 3,7074 3,4995 3,3554 3,2498 3,1693 51 52 53 54 55 0,6793 0,6792 0,6791 0,6791 0,6790 1,2984 1,2980 1,2977 1,2974 1,2971 1,6753 1,6747 1,6741 1,6736 1,6730 2,0076 2,0066 2,0057 2,0049 2,0040 2,4017 2,4002 2,3988 2,3974 2,3961 2,6757 2,6737 2,6718 2,6700 2,6682 11 12 13 14 15 0,6974 0,6955 0,6938 0,6924 0,6912 1,3634 1,3562 1,3502 1,3450 1,3406 1,7959 1,7823 1,7709 1,7613 1,7531 2,2010 2,1788 2,1604 2,1448 2,1315 2,7181 2,6810 2,6503 2,6245 2,6025 3,1058 3,0545 3,0123 2,9768 2,9467 56 57 58 59 60 0,6789 0,6788 0,6787 0,6787 0,6786 1,2969 1,2966 1,2963 1,2961 1,2958 1,6725 1,6720 1,6716 1,6711 1,6706 2,0032 2,0025 2,0017 2,0010 2,0003 2,3948 2,3936 2,3924 2,3912 2,3901 2,6665 2,6649 2,6633 2,6618 2,6603 16 17 18 19 20 0,6901 0,6892 0,6884 0,6876 0,6870 1,3368 1,3334 1,3304 1,3277 1,3253 1,7459 1,7396 1,7341 1,7291 1,7247 2,1199 2,1098 2,1009 2,0930 2,0860 2,5835 2,5669 2,5524 2,5395 2,5280 2,9208 2,8982 2,8784 2,8609 2,8453 61 62 63 64 65 0,6785 0,6785 0,6784 0,6783 0,6783 1,2956 1,2954 1,2951 1,2949 1,2947 1,6702 1,6698 1,6694 1,6690 1,6686 1,9996 1,9990 1,9983 1,9977 1,9971 2,3890 2,3880 2,3870 2,3860 2,3851 2,6589 2,6575 2,6561 2,6549 2,6536 21 22 23 24 25 0,6864 0,6858 0,6853 0,6848 0,6844 1,3232 1,3212 1,3195 1,3178 1,3163 1,7207 1,7171 1,7139 1,7109 1,7081 2,0796 2,0739 2,0687 2,0639 2,0595 2,5177 2,5083 2,4999 2,4922 2,4851 2,8314 2,8188 2,8073 2,7969 2,7874 66 67 68 69 70 0,6782 0,6782 0,6781 0,6781 0,6780 1,2945 1,2943 1,2941 1,2939 1,2938 1,6683 1,6679 1,6676 1,6672 1,6669 1,9966 1,9960 1,9955 1,9949 1,9944 2,3842 2,3833 2,3824 2,3816 2,3808 2,6524 2,6512 2,6501 2,6490 2,6479 26 27 28 29 30 0,6840 0,6837 0,6834 0,6830 0,6828 1,3150 1,3137 1,3125 1,3114 1,3104 1,7056 1,7033 1,7011 1,6991 1,6973 2,0555 2,0518 2,0484 2,0452 2,0423 2,4786 2,4727 2,4671 2,4620 2,4573 2,7787 2,7707 2,7633 2,7564 2,7500 71 72 73 74 75 0,6780 0,6779 0,6779 0,6778 0,6778 1,2936 1,2934 1,2933 1,2931 1,2929 1,6666 1,6663 1,6660 1,6657 1,6654 1,9939 1,9935 1,9930 1,9925 1,9921 2,3800 2,3793 2,3785 2,3778 2,3771 2,6469 2,6459 2,6449 2,6439 2,6430 31 32 33 34 35 0,6825 0,6822 0,6820 0,6818 0,6816 1,3095 1,3086 1,3077 1,3070 1,3062 1,6955 1,6939 1,6924 1,6909 1,6896 2,0395 2,0369 2,0345 2,0322 2,0301 2,4528 2,4487 2,4448 2,4411 2,4377 2,7440 2,7385 2,7333 2,7284 2,7238 76 77 78 79 80 0,6777 0,6777 0,6776 0,6776 0,6776 1,2928 1,2926 1,2925 1,2924 1,2922 1,6652 1,6649 1,6646 1,6644 1,6641 1,9917 1,9913 1,9908 1,9905 1,9901 2,3764 2,3758 2,3751 2,3745 2,3739 2,6421 2,6412 2,6403 2,6395 2,6387 36 37 38 39 40 0,6814 0,6812 0,6810 0,6808 0,6807 1,3055 1,3049 1,3042 1,3036 1,3031 1,6883 1,6871 1,6860 1,6849 1,6839 2,0281 2,0262 2,0244 2,0227 2,0211 2,4345 2,4314 2,4286 2,4258 2,4233 2,7195 2,7154 2,7116 2,7079 2,7045 81 82 83 84 85 0,6775 0,6775 0,6775 0,6774 0,6774 1,2921 1,2920 1,2918 1,2917 1,2916 1,6639 1,6636 1,6634 1,6632 1,6630 1,9897 1,9893 1,9890 1,9886 1,9883 2,3733 2,3727 2,3721 2,3716 2,3710 2,6379 2,6371 2,6364 2,6356 2,6349 41 42 43 44 45 0,6805 0,6804 0,6802 0,6801 0,6800 1,3025 1,3020 1,3016 1,3011 1,3006 1,6829 1,6820 1,6811 1,6802 1,6794 2,0195 2,0181 2,0167 2,0154 2,0141 2,4208 2,4185 2,4163 2,4141 2,4121 2,7012 2,6981 2,6951 2,6923 2,6896 86 87 88 89 90 0,6774 0,6773 0,6773 0,6773 0,6772 1,2915 1,2914 1,2912 1,2911 1,2910 1,6628 1,6626 1,6624 1,6622 1,6620 1,9879 1,9876 1,9873 1,9870 1,9867 2,3705 2,3700 2,3695 2,3690 2,3685 2,6342 2,6335 2,6329 2,6322 2,6316 100 120 0,677 0,677 0,674 1,290 1,289 1,282 1,660 1,658 1,645 1,984 1,980 1,960 2,364 2,358 2,326 2,626 2,617 2,576 Esta tabela foi obtida na página do Departamento de Estatística da UFRN. Professor Inácio Andruski Guimarães, DSc. 131 Estatística – Notas de Aulas UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA TABELA 3 - Distribuição Qui-Quadrado ϕ α = graus de liberdade 0,995 0,99 0,975 0,95 0,90 0,75 0,50 0,25 0,10 1 2 3 4 5 0,0004 0,010 0,072 0,207 0,412 0,002 0,020 0,115 0,297 0,554 0,001 0,051 0,216 0,484 0,831 0,004 0,103 0,352 0,711 1,145 0,016 0,211 0,584 1,064 1,610 0,102 0,575 1,213 1,923 2,675 0,455 1,386 2,366 3,357 4,351 1,323 2,773 4,108 5,385 6,626 2,706 4,605 6,251 7,779 9,236 6 7 8 9 10 0,676 0,989 1,344 1,735 2,156 0,872 1,239 1,646 2,088 2,558 1,237 1,690 2,180 2,700 3,247 1,635 2,167 2,733 3,325 3,940 2,204 2,833 3,490 4,168 4,865 3,455 4,255 5,071 5,899 6,737 5,348 6,346 7,344 8,343 9,342 7,841 9,037 10,219 11,389 12,549 11 12 13 14 15 2,603 3,074 3,565 4,075 4,601 3,053 3,571 4,107 4,660 5,229 3,816 4,404 5,009 5,629 6,262 4,575 5,226 5,892 6,571 7,261 5,578 6,304 7,042 7,790 8,547 7,584 8,438 9,299 10,165 11,036 10,341 11,340 12,340 13,339 14,339 16 17 18 19 20 5,142 5,697 6,265 6,844 7,434 5,812 6,408 7,015 7,633 8,260 6,908 7,564 8,231 8,907 9,591 7,962 8,672 9,390 10,117 10,851 9,312 10,085 10,865 11,651 12,443 11,912 12,792 13,675 14,562 15,452 21 22 23 24 25 8,034 8,897 10,283 11,591 8,643 9,542 10,982 12,338 9,260 10,196 11,689 13,091 9,886 10,856 12,401 13,848 10,520 11,524 13,120 14,611 13,240 14,042 14,848 15,659 16,473 26 27 28 29 30 11,160 11,808 12,461 13,121 13,787 12,198 12,879 13,565 14,257 14,954 13,844 14,573 15,308 16,047 16,791 15,379 16,151 16,928 17,708 18,493 31 32 33 34 35 14,458 15,134 15,815 16,501 17,192 15,655 16,362 17,074 17,789 18,509 17,539 18,291 19,047 19,806 20,569 36 37 38 39 40 17,887 18,586 19,289 19,996 20,707 19,233 19,960 20,691 21,426 22,164 41 42 43 44 45 21,421 22,138 22,859 23,584 24,311 50 60 70 80 90 100 27,991 35,534 43,275 51,172 59,196 67,328 ϕ 0,05 0,005 0,001 3,841 5,024 6,635 5,991 7,378 9,210 7,815 9,348 11,345 9,488 11,143 13,277 11,071 12,833 15,086 7,879 10,597 12,838 14,860 16,750 10,828 13,816 16,266 18,467 20,515 10,645 12,017 13,362 14,684 15,987 12,592 14,067 15,507 16,919 18,307 14,449 16,013 17,535 19,023 20,483 16,812 18,475 20,090 21,666 23,209 18,548 20,278 21,955 23,589 25,188 22,458 24,322 26,125 27,877 29,588 13,701 14,845 15,984 17,117 18,245 17,275 18,549 19,812 21,064 22,307 19,675 21,026 22,362 23,685 24,996 21,920 23,337 24,736 26,119 27,488 24,725 26,217 27,688 29,141 30,578 26,757 28,299 29,819 31,319 32,801 31,264 32,909 34,528 36,123 37,697 15,338 16,338 17,338 18,338 19,337 19,369 20,489 21,605 22,718 23,828 23,542 24,769 25,989 27,204 28,412 26,296 27,587 28,869 30,144 31,410 28,845 30,191 31,526 32,852 34,170 32,000 33,409 34,805 36,191 37,566 34,267 35,718 37,156 38,582 39,997 39,252 40,790 43,312 43,820 45,315 16,344 17,240 18,137 19,037 19,939 20,337 21,337 22,337 22,337 24,337 24,935 26,039 27,141 28,241 29,339 29,615 30,813 32,007 33,196 34,382 32,671 33,924 35,172 36,415 37,652 35,479 36,781 38,076 39,364 40,646 38,932 40,289 41,638 42,980 44,314 41,401 42,796 44,181 45,559 46,928 46,797 48,268 49,728 51,179 52,620 17,292 18,114 18,939 19,768 20,599 20,843 21,749 22,657 23,567 24,478 25,336 26,336 27,336 28,336 29,336 30,434 31,528 32,620 33,711 34,800 35,563 36,741 37,916 39,087 40,256 38,885 40,113 41,337 42,557 43,773 41,923 43,194 44,461 45,722 46,979 45,642 46,963 48,278 49,588 50,892 48,290 49,645 50,993 52,336 53,672 54,052 55,476 56,892 58,302 59,703 19,281 20,072 20,867 21,664 22,465 21,434 22,271 23,110 23,952 24,797 25,390 26,304 27,219 28,136 29,054 30,336 31,336 32,336 33,336 34,336 35,887 36,973 38,058 39,141 40,223 41,422 42,585 43,745 44,903 46,059 44,985 46,194 47,400 48,602 49,802 48,232 49,480 50,725 51,966 53,203 52,191 53,486 54,776 56,061 57,342 55,003 56,328 57,648 58,964 60,275 61,098 62,487 63,870 65,247 66,619 21,336 22,106 22,878 23,654 24,433 23,269 24,075 24,884 25,695 26,509 25,643 26,492 27,343 28,196 29,051 29,973 30,893 31,815 32,737 33,660 35,336 36,336 37,335 38,335 39,335 41,304 42,383 43,462 44,539 45,616 47,212 48,363 49,513 50,660 51,805 50,998 52,192 53,384 54,572 55,758 54,437 55,668 56,896 58,120 59,342 58,619 59,892 61,162 62,428 63,691 61,581 62,883 64,181 65,476 66,766 67,985 69,346 70,701 72,055 73,402 22,906 23,650 24,398 25,148 25,901 25,215 25,999 26,785 27,575 28,366 27,326 28,144 28,965 29,787 30,612 29,907 30,765 31,625 32,487 33,350 34,585 35,510 36,436 37,363 38,291 40,335 41,335 42,335 43,335 44,335 46,692 47,766 48,840 49,913 50,985 52,949 54,090 55,230 56,369 57,505 56,942 58,124 59,304 60,481 61,656 60,561 61,777 62,990 64,201 65,410 64,950 66,206 67,459 68,710 69,957 68,053 69,336 70,616 71,893 73,166 74,745 76,084 77,419 78,750 80,077 29,707 37,485 45,442 53,540 61,754 70,065 32,357 40,482 48,758 57,153 65,647 74,222 34,764 43,188 51,739 60,391 69,126 77,929 37,689 46,459 55,329 64,278 73,291 82,358 42,942 52,294 61,698 71,145 80,625 90,133 49,335 59,335 69,335 79,335 89,335 99,335 56,334 66,981 77,577 88,130 98,650 109,141 63,167 74,397 85,527 96,578 107,565 118,498 67,505 79,082 90,531 101,879 113,145 124,342 71,420 83,298 95,023 106,629 118,136 129,561 76,154 88,379 100,425 112,329 124,116 135,807 79,490 91,952 104,215 116,321 128,299 140,169 86,661 99,607 112,317 124,839 137,208 149,449 Professor Inácio Andruski Guimarães, DSc. 0,025 0,01 132 Estatística – Notas de Aulas UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA TABELA 4 - Distribuição F de Fisher α = 5% Graus de liberdade para o numerador Graus de liberdade para o denominador φ1 φ2 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 24 30 40 60 120 ∞ 161,4 18,51 10,13 7,71 6,61 199,5 19,00 9,55 6,94 5,79 215,7 19,16 9,28 6,59 5,41 224,6 19,25 9,12 6,39 5,19 230,2 19,30 9,01 6,26 5,05 234,0 19,33 8,94 6,16 4,95 236,8 19,35 8,89 6,09 4,88 238,9 19,37 8,85 6,04 4,82 240,5 19,38 8,81 6,00 4,77 241,9 19,40 8,79 5,96 4,74 243,9 19,41 8,74 5,91 4,68 245,4 19,42 8,72 5,87 4,64 245,9 19,43 8,70 5,86 4,62 246,5 19,43 8,69 5,84 4,60 247,3 19,44 8,67 5,82 4,58 248,0 19,45 8,66 5,80 4,56 249,1 19,45 8,64 5,77 4,53 250,1 19,46 8,62 5,75 4,50 251,1 19,47 8,59 5,72 4,46 252,2 19,48 8,57 5,69 4,43 253,3 19,49 8,55 5,66 4,40 254,3 19,50 8,53 5,63 4,36 6 7 8 9 10 5,99 5,59 5,32 5,12 4,96 5,14 4,74 4,46 4,26 4,10 4,76 4,35 4,07 3,86 3,71 4,53 4,12 3,84 3,63 3,48 4,39 3,97 3,69 3,48 3,33 4,28 3,87 3,58 3,37 3,22 4,21 3,79 3,50 3,29 3,14 4,15 3,73 3,44 3,23 3,07 4,10 3,68 3,39 3,18 3,02 4,06 3,64 3,35 3,14 2,98 4,00 3,57 3,28 3,07 2,91 3,96 3,53 3,24 3,03 2,87 3,94 3,51 3,22 3,01 2,85 3,92 3,49 3,20 2,99 2,83 3,90 3,47 3,17 2,96 2,80 3,87 3,44 3,15 2,94 2,77 3,84 3,41 3,12 2,90 2,74 3,81 3,38 3,08 2,86 2,70 3,77 3,34 3,04 2,83 2,66 3,74 3,30 3,01 2,79 2,62 3,70 3,27 2,97 2,75 2,58 3,67 3,23 2,93 2,71 2,54 11 12 13 14 15 4,84 4,75 4,67 4,60 4,54 3,98 3,89 3,81 3,74 3,68 3,59 3,49 3,41 3,34 3,29 3,36 3,26 3,18 3,11 3,06 3,20 3,11 3,03 2,96 2,90 3,09 3,00 2,92 2,85 2,79 3,01 2,91 2,83 2,76 2,71 2,95 2,85 2,77 2,70 2,64 2,90 2,80 2,71 2,65 2,59 2,85 2,75 2,67 2,60 2,54 2,79 2,69 2,60 2,53 2,48 2,74 2,64 2,55 2,48 2,42 2,72 2,62 2,53 2,46 2,40 2,70 2,60 2,52 2,44 2,39 2,67 2,57 2,48 2,41 2,35 2,65 2,54 2,46 2,39 2,33 2,61 2,51 2,42 2,35 2,29 2,57 2,47 2,38 2,31 2,25 2,53 2,43 2,34 2,27 2,20 2,49 2,38 2,30 2,22 2,16 2,45 2,34 2,25 2,18 2,11 2,40 2,30 2,21 2,13 2,07 16 17 18 19 20 4,49 4,45 4,41 4,38 4,35 3,63 3,59 3,55 3,52 3,49 3,24 3,20 3,16 3,13 3,10 3,01 2,96 2,93 2,90 2,87 2,85 2,81 2,77 2,74 2,71 2,74 2,70 2,66 2,63 2,60 2,66 2,61 2,58 2,54 2,51 2,59 2,55 2,51 2,48 2,45 2,54 2,49 2,46 2,42 2,39 2,49 2,45 2,41 2,38 2,35 2,42 2,38 2,34 2,31 2,28 2,37 2,34 2,29 2,26 2,22 2,35 2,31 2,27 2,23 2,20 2,33 2,29 2,25 2,22 2,18 2,30 2,26 2,22 2,18 2,15 2,28 2,23 2,19 2,16 2,12 2,24 2,19 2,15 2,11 2,08 2,19 2,15 2,11 2,07 2,04 2,15 2,10 2,06 2,03 1,99 2,11 2,06 2,02 1,98 1,95 2,06 2,01 1,97 1,93 1,90 2,01 1,96 1,92 1,88 1,84 21 22 23 24 25 4,32 4,30 4,28 4,26 4,24 3,47 3,44 3,42 3,40 3,39 3,07 3,05 3,03 3,01 2,99 2,84 2,82 2,80 2,78 2,76 2,68 2,66 2,64 2,62 2,60 2,57 2,55 2,53 2,51 2,49 2,49 2,46 2,44 2,42 2,40 2,42 2,40 2,37 2,36 2,34 2,37 2,34 2,32 2,30 2,28 2,32 2,30 2,27 2,25 2,24 2,25 2,23 2,20 2,18 2,16 2,20 2,17 2,15 2,13 2,11 2,18 2,15 2,13 2,11 2,09 2,16 2,13 2,11 2,09 2,07 2,12 2,10 2,08 2,05 2,04 2,10 2,07 2,05 2,03 2,01 2,05 2,03 2,01 1,98 1,96 2,01 1,98 1,96 1,94 1,92 1,96 1,94 1,91 1,89 1,87 1,92 1,89 1,86 1,84 1,82 1,87 1,84 1,81 1,79 1,77 1,81 1,78 1,76 1,73 1,71 26 27 28 29 30 4,23 4,21 4,20 4,18 4,17 3,37 3,35 3,34 3,33 3,32 2,98 2,96 2,95 2,93 2,92 2,74 2,73 2,71 2,70 2,69 2,59 2,57 2,56 2,55 2,53 2,47 2,46 2,45 2,43 2,42 2,39 2,37 2,36 2,35 2,33 2,32 2,31 2,29 2,28 2,27 2,27 2,25 2,24 2,22 2,21 2,22 2,20 2,19 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,09 2,08 2,06 2,05 2,04 2,07 2,06 2,04 2,03 2,01 2,05 2,04 2,02 2,01 1,99 2,02 2,00 1,99 1,97 1,96 1,99 1,97 1,96 1,94 1,93 1,95 1,93 1,91 1,90 1,89 1,90 1,88 1,87 1,85 1,84 1,85 1,84 1,82 1,81 1,79 1,80 1,79 1,77 1,75 1,74 1,75 1,73 1,71 1,70 1,68 1,69 1,67 1,65 1,64 1,62 40 60 120 ∞ 4,08 4,00 3,92 3,23 3,15 3,07 2,84 2,76 2,68 2,61 2,53 2,45 2,45 2,37 2,29 2,34 2,25 2,17 2,25 2,17 2,09 2,18 2,10 2,02 2,12 2,04 1,96 2,08 1,99 1,91 2,00 1,92 1,83 1,95 1,86 1,77 1,92 1,84 1,75 1,90 1,81 1,72 1,87 1,78 1,69 1,84 1,75 1,66 1,79 1,70 1,61 1,74 1,65 1,55 1,69 1,59 1,50 1,64 1,53 1,43 1,58 1,47 1,35 1,51 1,39 1,25 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,69 1,67 1,63 1,60 1,57 1,52 1,46 1,39 1,32 1,22 1,00 Professor Inácio Andruski Guimarães, DSc. 133 Estatística – Notas de Aulas GL(residuos) 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 120 >120 2 3,64 3,46 3,34 3,26 3,2 3,15 3,11 3,08 3,06 3,03 3,01 3 2,98 2,97 2,96 2,95 2,92 2,89 2,86 2,8 2,77 Tabela 5 – Valores para o teste de tukey (5% de significância) Número de grupos no tratamento. 3 4 5 6 7 8 4,6 5,22 5,67 6,03 6,33 6,58 4,34 4,9 5,3 5,63 5,9 6,12 4,16 4,68 5,06 5,36 5,61 5,82 4,04 4,53 4,89 5,17 5,4 5,6 3,95 4,41 4,76 5,02 5,24 5,43 3,88 4,33 4,65 4,91 5,12 5,3 3,82 4,26 4,57 4,82 5,03 5,2 3,77 4,2 4,51 4,75 4,95 5,12 3,73 4,15 4,45 4,69 4,88 5,05 3,7 4,11 4,41 4,64 4,83 4,99 3,67 4,08 4,37 4,59 4,78 4,94 3,65 4,05 4,33 4,56 4,74 4,9 3,63 4,02 4,3 4,52 4,7 4,86 3,61 4 4,28 4,49 4,67 4,82 3,59 3,98 4,25 4,47 4,65 4,79 3,58 3,96 4,23 4,45 4,62 4,77 3,53 3,9 4,17 4,37 4,54 4,68 3,49 3,85 4,1 4,3 4,46 4,6 3,44 3,79 4,04 4,23 4,39 4,52 3,36 3,68 3,92 4,1 4,24 4,36 3,31 3,63 3,86 4,03 4,17 4,29 Professor Inácio Andruski Guimarães, DSc. 9 6,8 6,32 6 5,77 5,59 5,46 5,35 5,27 5,19 5,13 5,08 5,03 4,99 4,96 4,92 4,9 4,81 4,72 4,63 4,47 4,39 10 6,99 6,49 6,16 5,92 5,74 5,6 5,49 5,39 5,32 5,25 5,2 5,15 5,11 5,07 5,04 5,01 4,92 4,82 4,73 4,56 4,47 134 Estatística – Notas de Aulas Principais Funções de Probabilidade para Variáveis Aleatórias Discretas. Distribuição Função Expectância e Variância k ∑ Uniforme Discreta P ( X = xi ) = E(X ) = 1 k Var ( X ) = Bernoulli P ( X = x ) = p x (1 − p ) 1 − x Binomial n P ( X = x ) = p x (1 − p ) n − x x xi i =1 k 1 1 k x i2 − ( ∑ x i ) 2 ∑ k i =1 k i =1 k E(X ) = p Var ( X ) = p (1 − p ) E ( X ) = np Var ( X ) = np (1 − p ) 1 p 1− p Var ( X ) = p2 n E(X ) = p n (1 − p ) Var ( X ) = p2 nk E(X ) = N k 1 − k N − n Var ( X ) = n n n N − 1 E(X ) = Geométrica P ( X = x ) = p (1 − p ) x −1 Pascal x − 1 n p (1 − p ) x − n P ( X = x ) = n − 1 Hipergeométrica Multinomial N − k n − x P ( X = x) = N n k x k ∑ xi ! k x i =1 P ( X 1 = x1 ,..., X k = x k ) = k ∏ p i i ∏ x i ! i =1 E ( X i ) = np i Var ( X i ) = np i (1 − p i ) i =1 Poisson e −λ λ x P ( X = x) = x! E( X ) = λ Var( X ) = λ Principais Funções densidades de Probabilidade para Variáveis Aleatórias Contínuas. Função Fórmula Expectância e Variância θ ,0 < x <θ f (x |θ ) = 0 , outro caso . −1 Uniforme Contínua Normal Gama f ( x | µ ,σ 2 ) = 1 (x − µ )2 exp − σ2 2π 2 1 σ β α α −1 − β x f (x | α , β ) = x e Γ (α ) Professor Inácio Andruski Guimarães, DSc. E[ X ] = Var [ X ] = θ 2 θ2 12 E[ X ] = µ Var[ X ] = σ 2 α β α Var [ x ] = 2 β E[x] = 135 Estatística – Notas de Aulas Exponencial Weibull 0,t <0 f ( t | λ ) = 1 − λt λ e , 0 ≤ t f ( x | α , β ) = αβ x β −1 E [t ] = λ Var [ t ] = λ 2 β exp( −α x ) z ~ N(0 , 1) e U ~ χ2φ Student t = z U E[ X ] = α − 1 β 1 Γ 1 + β E [t ] = 0 Var [ t ] = ϕ ϕ ϕ −2 ϕ Qui-Quadrado F, de Fisher 12 ϕ x −1 − 2 f ( x) = x 2 e 2 ϕ Γ 2 ν + η ν −2 ν Γ 2 2 ν W 2 f (W ) = ν +η ν η η Γ Γ ν 2 1 + 2 2 η Professor Inácio Andruski Guimarães, DSc. E[ X ] = ϕ Var [ X ] = 2ϕ E [W ] = Var [W ] = η η −2 2η 2 (ν + η − 2 ) ν (η − 2) 2 (η − 4) 136 Estatística – Notas de Aulas Apêndice 1 – Estatística Básica Utilizando o R ( http://cran-r.c3sl.ufpr.br/ ) O programa, ou pacote, R é tanto uma linguagem como um ambiente para desenvolvimento de aplicações em Estatística computacional e gráfica. Foi desenvolvido pela equipe do pesquisador John Chambers no Bell Laboratories, hoje Lucent Technologies. O R permite a aplicação de vários métodos estatísticos, como estatística descritiva, análise da variância, análise de regressão e análise discriminante, entre outros. È um programa livre de direitos autorais e pode ser baixado na página http://cran-r.c3sl.ufpr.br/ , sem nenhum custo. No endereço oficial, http://www.r-project.org/ , é possível obter manuais, aplicativos e exemplos de utilização. Neste material são mostradas algumas aplicações com a versão R-2.10.1, uma das mais atuais. Para algumas aplicações deve-se baixar pacotes extras, que podem ser facilmente obtidos nos endereços acima. Formatos de Dados Vetores > VetorNumérico <- c(1, 2, 3, ... , n) > VetorDeCaracteres <- c(“caracter_1”, ... “caracter_n”) > VetorLógico <- c(TRUE, FALSE, FALSE, ... , TRUE) Matrizes Todas as colunas devem ter o mesmo tipo de dados (numéricos, caracteres ou lógicos) e a mesma dimensão. > Matriz <- matrix( (vetor, nrow= =r, ncol= =c, byrow= =FALSE) ou > Matriz <matrix( (vetor, nrow= =r, ncol= =c, dimnames=list =list( ) =list char_vector_rownames, char_vector_colnames)) byrow= =FALSE, byrow = TRUE indica que a matriz deve ser preenchida por linhas. O comando byrow = FALSE indica que a matriz deve ser preenchida por colunas (default). O comando dimnames providencia rótulos opcionais para colunas e linhas. Exemplo: > Matriz <- matrix(c(2,4,6,8,9,-2,0,4,-1,3,8,4), nrow = 3, byrow = TRUE) > Matriz [,1] [,2] [,3] [,4] [1,] 2 4 6 8 [2,] 9 -2 0 4 [3,] -1 3 8 4 > > MatrizPorColunas <- matrix(c(2,4,6,8,9,-2,0,4,-1,3,8,4), nrow = 3) > MatrizPorColunas [,1] [,2] [,3] [,4] [1,] 2 8 0 3 [2,] 4 9 4 8 [3,] 6 -2 -1 4 > Exemplo: Gerar uma matriz com cinco linhas e quatro colunas, contendo uma seqüência numérica de 1 a 20, preenchida por colunas: > Matriz <- matrix(1:20, nrow=5, ncol=4) > Matriz [,1] [,2] [,3] [,4] [1,] 1 6 11 16 [2,] 2 7 12 17 [3,] 3 8 13 18 [4,] 4 9 14 19 [5,] 5 10 15 20 Para preencher a matriz por linhas basta acrescentar byrow = TRUE. Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 137 > Matriz <- matrix(1:20, nrow=5, ncol=4, byrow = TRUE) > Matriz [,1] [,2] [,3] [,4] [1,] 1 2 3 4 [2,] 5 6 7 8 [3,] 9 10 11 12 [4,] 13 14 15 16 [5,] 17 18 19 20 Também é possível identificar as m linhas e as n colunas. Neste caso basta digitar os comandos: > rnames <- c(“L1” , “L2” , ... , “Lm”) > cnames <- c(“C1” , “C2” , ... , “Cn”) Exemplo: > rnames > cnames > Matriz cnames)) > Matriz C1 C2 L1 1 6 L2 2 7 L3 3 8 L4 4 9 L5 5 10 <- c("L1","L2","L3","L4","L5") <- c("C1","C2","C3","C4") <- matrix(1:20, nrow=5, ncol=4, byrow=FALSE, dimnames=list(rnames, C3 11 12 13 14 15 C4 16 17 18 19 20 Dataframe Um dataframe é uma matriz na qual os elementos podem ter formatos diferentes, isto é, pode incluir colunas com valores numéricos e colunas com valores lógicos ou, ainda, caracteres. Exemplo: > > > > > 1 2 3 4 x <- c(1,2,3,4) y <- c("Elemento 1","Elemento 2","Elemento 3","Elemento 4") z <- c(TRUE,FALSE,TRUE,FALSE) MeuDataFrame <- data.frame(x,y,z) MeuDataFrame x y z 1 Elemento 1 TRUE 2 Elemento 2 FALSE 3 Elemento 3 TRUE 4 Elemento 4 FALSE Estatística Descritiva Básica Muitas aplicações práticas exigem o cálculo de medidas elementares, como média, mediana, 1º e 3º quartis, mínimo e máximo. Neste caso basta introduzir os dados, na forma de um vetor, e usar o comando summary(MeusDados). Exemplo: > MeusDados <- c(2,6,8,1,2,5,9,4,10,8,5,0,12,13,1,15,2,8,9,4,7,6) > summary(MeusDados) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 2.500 6.000 6.227 8.750 15.000 Importação de Dados Para abrir uma planilha em Excel® e importar os dados, é necessário utilizar o pacote RODBC (http://cran.r-project.org/web/packages/RODBC/index.html ), que deve ser salvo na biblioteca (“library”) do R. Na seqüência, deve-se executar os passos listados abaixo. Considere uma planilha, que chamaremos MinhaTabela.xls. Suponha, também, que o caminho a ser seguido para abrir a referida planilha é "C:/Documents and Settings/Meus Professor Inácio Andruski Guimarães, DSc. 138 Estatística – Notas de Aulas documentos/MinhaTabela.xls", e que os dados estão na planilha Plan1. Também é importante alertar que deve-se usar as barras no sentido acima, pois o programa não reconhece o formato “\”. library(RODBC) > saida <odbcConnectExcel("C:/Documents and Settings/Meus documentos/MinhaTabela.xls") > MeusDados <- sqlFetch(saida,"Plan1") > odbcClose(saida) > is.data.frame(MeusDados) ‘retorna TRUE caso o conjunto seja um frame [1] TRUE > data.matrix(MeusDados) ‘lista uma matriz com os dados importados. > attach(MeusDados) ‘carrega a matriz na memória, para efetuar as análises. Exemplo: O Quadro 1 contém as dimensões, em milímetros, observadas em 48 carapaças de tartarugas pintadas. Os dados estão supostamente armazenados em: C:\Meus documentos\Tartarugas.xls. Quadro 1 - Dimensões (mm) de carapaças de tartarugas pintadas. Sexo (0 = Feminino 1 = Masculino) Comprimento Largura Altura 0 98 81 38 0 103 84 38 0 103 86 42 0 105 86 42 0 109 88 44 0 123 92 50 0 123 95 46 0 133 99 51 0 103 102 51 0 133 102 51 0 134 100 48 0 136 102 49 0 138 98 51 0 138 99 51 0 141 105 53 0 147 108 57 0 149 107 55 0 153 107 56 0 155 115 63 0 155 117 60 0 158 115 62 0 159 118 63 0 162 124 61 0 177 132 67 1 93 74 37 1 94 78 35 1 96 80 35 1 101 84 39 1 102 85 38 1 103 81 37 1 104 83 39 1 106 83 39 1 107 82 38 1 112 89 40 1 113 88 40 1 114 86 40 1 116 90 43 Professor Inácio Andruski Guimarães, DSc. 139 Estatística – Notas de Aulas 1 117 90 41 1 117 91 41 1 119 93 41 1 120 89 40 1 120 93 44 1 121 95 42 1 125 93 45 1 127 96 45 1 128 95 45 1 131 95 46 1 135 106 47 Para importar estes dados usando o R basta fazer: > saida <- odbcConnectExcel("C:/Meus documentos/Tartarugas.xls") > Medidas <- sqlFetch(saida,"Plan1") > odbcClose(saida) > is.data.frame(Medidas) [1] TRUE > data.matrix(Medidas) Sexo Comprimento Largura Altura 1 0 98 81 38 2 0 103 84 38 3 0 103 86 42 4 0 105 86 42 5 0 109 88 44 6 0 123 92 50 7 0 123 95 46 8 0 133 99 51 9 0 103 102 51 10 0 133 102 51 11 0 134 100 48 12 0 136 102 49 13 0 138 98 51 14 0 138 99 51 15 0 141 105 53 16 0 147 108 57 17 0 149 107 55 18 0 153 107 56 19 0 155 115 63 20 0 155 117 60 21 0 158 115 62 22 0 159 118 63 23 0 162 124 61 24 0 177 132 67 25 1 93 74 37 26 1 94 78 35 27 1 96 80 35 28 1 101 84 39 29 1 102 85 38 30 1 103 81 37 31 1 104 83 39 32 1 106 83 39 33 1 107 82 38 34 1 112 89 40 35 1 113 88 40 36 1 114 86 40 37 1 116 90 43 38 1 117 90 41 39 1 117 91 41 40 1 119 93 41 41 1 120 89 40 42 1 120 93 44 43 1 121 95 42 44 1 125 93 45 45 1 127 96 45 46 1 128 95 45 47 1 131 95 46 48 1 135 106 47 > attach(Medidas) Professor Inácio Andruski Guimarães, DSc. 140 Estatística – Notas de Aulas Estatística Descritiva Média Aritmética: > mean(Variável) Desvio Padrão: > sd(Variável) Mediana: > median(Variável) Mínimo: > min(Variável) Máximo: > max(Variável) Para construir o histograma basta digitar > hist(Variável). Exemplo: Estatística descritiva básica para a variável comprimento. > mean(Comprimento) [1] 124.0833 > sd(Comprimento) [1] 20.69313 > median(Comprimento) [1] 120.5 > 1st Qu.(Comprimento) Erro: unexpected symbol in "1st" > 1stQu(Comprimento) Erro: unexpected symbol in "1stQu" > min(Comprimento) [1] 93 > max(Comprimento) [1] 177 > > > hist(Comprimento, main = "Histograma "Comprimento", ylab = "Frequências") > para Comprimento", Distribuição de Freqüências Para construir uma distribuição de freqüências debe-se utilizar os seguintes comandos: > > > > > range(MeusDados) “Fornece a amplitude total” breaks = seq(Xmin, Xmax, by= amplitude de clases desejada) classes = cut(MeusDados, breaks, right = FALSE) Tabela = table(Classes) cbind(Tabela) Professor Inácio Andruski Guimarães, DSc. xlab = Estatística – Notas de Aulas 141 Teste de Hipóteses O R possui comandos para efetuar todos os testes de hipóteses normalmente utilizados na prática. Test t, de Student para a Média Supondo que seja dada uma amostral de n valores para uma variável, e que se deseja testar a hipótese segundo a qual a média amostral não é significativamente diferente de um dado valor, podemos aplicar o teste t, de Student, para a média. Os comandos são: > t.test(Variável, alternative = “greater”, mu = valor, conf.level = nível de confiança) Neste caso, aceita-se a hipótese nula quando “p-value” é superior a 0.05 Exemplo: Testar a hipótese de que a média da amostra {2 , 4 , 3 , 2 , 4 , 5 , 6 , 4 , 7 , 2 , 3 , 8 , 9 , 5} é significativamente maior que 4, com 5% de significância. > x <- c(2 , 4 , 3 , 2 , 4 , 5 , 6 , 4 , 7 , 2 , 3 , 8 , 9 , 5) > t.test(x, alternative = "greater", mu = 4, conf.level = 0.95) One Sample t-test data: x t = 0.953, df = 13, p-value = 0.1790 alternative hypothesis: true mean is greater than 4 95 percent confidence interval: 3.50961 Inf sample estimates: mean of x 4.571429 Teste t, de Student, para diferença de duas médias. Para comparar as médias observadas para duas variáveis, em uma planilha, basta digitar: > t.test(VariávelNumérica ~ VariávelBinária) Exemplo: Testar a hipótese de que as médias de duas amostras dadas não são significativamente diferentes. > Amostra1 <- c(2, 3, 5, 9, 9, 8, 7, 5, 6, 4, 2, 9, 8, 7, 9, 2, 2, 5, 5, 4) > Amostra2 <- c(6, 7, 8, 1, 2, 5, 4, 5, 6, 9, 8, 7, 4, 2, 3, 6, 9, 8, 7, 4, 2, 1, 4, 5, 6) > t.test(Amostra1, Amostra2) Welch Two Sample t-test data: Amostra1 and Amostra2 t = 0.5167, df = 39.64, p-value = 0.6082 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.135880 1.915880 sample estimates: mean of x mean of y 5.55 5.16 Exemplo: Testar a hipótese de que o comprimento médio observado para carapaças das fêmeas não difere significativamente do comprimento médio observado para carapaças dos machos. > t.test(Comprimento ~ Sexo) Welch Two Sample t-test data: Comprimento by Sexo t = 4.1613, df = 34.916, p-value = 0.0001960 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 10.96744 31.86590 Professor Inácio Andruski Guimarães, DSc. 142 Estatística – Notas de Aulas sample estimates: mean in group 0 134.7917 mean in group 1 113.3750 Para complementar graficamente o teste, é possível construir o Box-plot O comando é: > boxplot(VariávelNumérica ~ VariávelBinária) Para adicionar título e legendas, basta digitar: > boxplot(VariávelNumérica ~ VariávelBinária , main="Título", xlab=”Legenda1”, ylab=”Legenda2”) Exemplo: > boxplot(Comprimento ~ Sexo xlab="Sexo", ylab="Comprimento") , main="Box-Plot para o comprimento", Teste para a Proporção Seja uma amostra aleatória de n observações, com X ocorrências, ou “sucessos”. Supondo que se deseje testar a hipótese nula de que a proporção populacional é p, basta digitar: > prop.test(X , n , p) Exemplo: Uma amostra de 200 componentes de certo apresentou oito fora de conformidade. Pode-se afirmar que a p.n.c. é igual a 5% ? > prop.test(8, 200, 0.05) 1-sample proportions test with continuity correction data: 8 out of 200, null probability 0.05 X-squared = 0.2368, df = 1, p-value = 0.6265 alternative hypothesis: true p is not equal to 0.05 95 percent confidence interval: 0.01871748 0.08012555 sample estimates: p 0.04 Análise da Variância (ANOVA) com um Fator Para efetuar a ANOVA com um fator deve-se usar o comando “aov”, cuja sintaxe é: > AnovaMeusDados MeuDataFrame) <- aov(VariavelContinua ~ VariavelCategorica, Professor Inácio Andruski Guimarães, DSc. data = Estatística – Notas de Aulas 143 Exemplo: Efetuar a ANOVA para a variável “comprimento da sépala”, em função da variável “espécie”. Os dados estão na planilha “IrisData”, armazenada na pasta "C:/Meus documentos/IrisData.xls". > > > > > > > saida <- odbcConnectExcel("C:/Meus documentos/IrisData.xls") IrisData <- sqlFetch(saida, "Plan1") odbcClose(saida) attach(IrisData) IrisData Especie ComprimentoSepala LarguraSepala ComprimentoPetala LarguraPetala 1 1 51 35 14 2 2 1 49 30 14 2 3 1 47 32 13 2 4 1 46 31 15 2 5 1 50 36 14 2 6 1 54 39 17 4 7 1 46 34 14 3 8 1 50 34 15 2 9 1 44 29 14 2 10 1 49 31 15 1 11 1 54 37 15 2 12 1 48 34 16 2 13 1 48 30 14 1 14 1 43 30 11 1 15 1 58 40 12 2 16 2 70 32 47 14 17 2 64 32 45 15 18 2 69 31 49 15 19 2 55 23 40 13 20 2 65 28 46 15 21 2 57 28 45 13 22 2 63 33 47 16 23 2 49 24 33 10 24 2 66 29 46 13 25 2 52 27 39 14 26 2 50 20 35 10 27 2 59 30 42 15 28 2 60 22 40 10 29 2 61 29 47 14 30 2 56 29 36 13 31 3 63 33 60 25 32 3 58 27 51 19 33 3 71 30 59 21 34 3 63 29 56 18 35 3 65 30 58 22 36 3 76 30 66 21 37 3 49 25 45 17 38 3 73 29 63 18 39 3 67 25 58 18 40 3 72 36 61 25 41 3 65 32 51 20 42 3 64 27 53 19 43 3 68 30 55 21 44 3 57 25 50 20 45 3 58 28 51 24 > > anovaIrisData <- aov(ComprimentoSepala ~ Especie, data = IrisData) > summary(anovaIrisData) > Df Sum Sq Mean Sq F value Pr(>F) Especie 1 1794.1 1794.13 47.786 1.722e-08 *** Residuals 43 1614.4 37.55 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > > boxplot(ComprimentoSepala ~ Especie, main = "Comprimento da Sepala por Especie", xlab = "Especies (1 = Setosa , 2 = Versicolor , 3 = Virginica)", ylab = "Comprimento") > Professor Inácio Andruski Guimarães, DSc. 144 Estatística – Notas de Aulas > hist(ComprimentoSepala, main = "Histograma sepala",xlab = "Comprimento",ylab = "Frequências") > para o comprimento da Análise da Variância (ANOVA) com dois Fatores Para efetuar a ANOVA com dois fatores a sintaxe é: > AnovaMeusDados <- aov(VarContinua ~ VarCategorica1*varCategorica2, data = MeuDataFrame) Exemplo: Efetuar a ANOVA para os dados do Exemplo 15.2, da apostila. Neste caso deve-se construir uma planilha no formato mostrado a seguir: Liga A A A A B B B B C C C C NivelTemperatura 1 2 3 4 1 2 3 4 1 2 3 4 Tensao 1.2 1.4 0.9 1.5 0.8 1.1 0.7 1.4 0.7 1.3 1.1 0.8 Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas > > > > > > 145 dados <- odbcConnectExcel("C:/Meus documentos/Exemplo(15_2).xls") ExemploAnova <- sqlFetch(dados, "Plan1") attach(ExemploAnova) odbcClose(dados) ExemploAnova Liga NivelTemperatura Tensao 1 A 1 1.2 2 A 2 1.4 3 A 3 0.9 4 A 4 1.5 5 B 1 0.8 6 B 2 1.1 7 B 3 0.7 8 B 4 1.4 9 C 1 0.7 10 C 2 1.3 11 C 3 1.1 12 C 4 0.8 > > AnovaExemplo <- aov(Tensao ~ Liga*NivelTemperatura, data = ExemploAnova) > > summary(AnovaExemplo) Df Sum Sq Mean Sq F value Pr(>F) Liga 2 0.18500 0.092500 0.8796 0.4624 NivelTemperatura 1 0.06017 0.060167 0.5721 0.4781 Liga:NivelTemperatura 2 0.04633 0.023167 0.2203 0.8085 Residuals 6 0.63100 0.105167 > Para não depender de planilhas em formato Excel®, é possível construir a matriz diretamente no R. Basta seguir os passos mostrados abaixo. > > > > > > Ligas <- c("A","A","A","A","B","B","B","B","C","C","C","C") Temperaturas <- c(1,2,3,4,1,2,3,4,1,2,3,4) Tensoes <- c(1.2,1.4,0.9,1.5,0.8,1.1,0.7,1.4,0.7,1.3,1.1,0.8) DataFrameTensoes <- data.frame(Ligas, Temperaturas, Tensoes) DataFrameTensoes Ligas Temperaturas Tensoes 1 A 1 1.2 2 A 2 1.4 3 A 3 0.9 4 A 4 1.5 5 B 1 0.8 6 B 2 1.1 7 B 3 0.7 8 B 4 1.4 9 C 1 0.7 10 C 2 1.3 11 C 3 1.1 12 C 4 0.8 > Os demais comandos são os mesmos usados anteriormente. Teste Qui-Quadrado Para efetuar um teste de independência de variáveis é necessário carregar os valores em uma tabela com m linhas e n colunas. Para tanto utiliza-se o comando rbind , com a seguinte sintaxe: > Dados = rbind((c(x11, x12, ... , x1n), c(x21, x22, ... , x2n), ... , c(xm1, xm2, ... , xmn)). > chisq.test(Dados) Exemplo: Exemplo 16.2 – O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina® na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Os resultados observados são mostrados de forma Professor Inácio Andruski Guimarães, DSc. 146 Estatística – Notas de Aulas mais detalhada no quadro a seguir. Pode-se afirmar, com 5% de significância, que há relação entra o uso do medicamento e a ocorrência de ataques cardíacos ? Placebo Aspirina Total Ataque fatal 18 5 23 Ataque não fatal 171 99 270 Nenhum ataque 10845 10993 21838 Total 11034 11097 22131 Fonte: Agresti (1990) > AtaqueVersusAspirina = rbind(c(18,171,10845), c(5,99,10993)) > chisq.test(AtaqueVersusAspirina) Pearson's Chi-squared test data: AtaqueVersusAspirina X-squared = 27.3717, df = 2, p-value = 1.138e-06 > Controle Estatístico de Processo (CEP) O R também pode ser usado para construir gráficos de controle usados no CEP. Para construir os gráficos deve-se baixar o pacote “qcc”, disponível em ( http://cran-r.c3sl.ufpr.br/web/packages/qcc/index.html ) e salva-lo na biblioteca (“library”), a exemplo do pacote RODBC. Gráfico para Média e Amplitude Exemplo: Os valores abaixo representam as larguras, em mm, observadas em 20 amostras de certo componente mecânico. Construir o gráfico para a média e a amplitude. x1 x2 x3 x4 x5 1 45.12 45.17 44.97 44.84 45.01 2 44.57 45.13 44.90 45.32 45.27 3 44.95 45.01 45.12 45.21 44.76 4 44.97 44.71 44.97 44.96 45.31 5 45.02 44.83 45.25 44.98 45.11 6 44.65 45.39 44.96 44.57 44.95 7 45.08 45.28 45.20 45.07 44.73 8 45.13 45.20 44.89 44.66 45.17 9 44.81 45.13 44.73 44.71 44.80 10 45.03 44.94 44.59 44.73 44.82 11 45.06 45.03 45.07 44.97 44.98 12 45.19 45.04 45.13 44.91 44.74 13 44.99 45.21 45.24 45.33 45.25 14 45.12 45.19 44.90 45.22 44.84 15 45.16 45.13 45.08 44.80 44.94 16 44.94 44.89 44.93 44.90 44.73 17 45.72 45.15 44.82 45.05 45.01 18 44.95 44.79 44.70 44.76 45.19 19 44.98 45.18 45.01 45.07 44.73 20 44.96 44.78 44.76 44.69 45.20 > > library(qcc) Package 'qcc', version 2.0 Type 'citation("qcc")' for citing this R package in publications. > MediaLargura <- qcc(Largura, type = "xbar") > > summary(MediaLargura) Call: qcc(data = Largura, type = "xbar") xbar chart for Largura Summary of group statistics: Min. 1st Qu. Median Mean 3rd Qu. 44.83 44.90 45.02 45.00 45.04 Group sample size: 5 Number of groups: 20 Center of group statistics: Max. 45.21 44.99582 Professor Inácio Andruski Guimarães, DSc. 147 Estatística – Notas de Aulas Standard deviation: 0.2042346 Control limits: LCL UCL 44.72181 45.26983 > > Para construir o gráfico para a amplitude basta digitar: > AmplitudeLargura <- qcc(Largura, type = "R") Para calcular o índice de capabilidade deve-se digitar: Process.capability(“objeto”, spec.limits = c(“Lim. Inf.” , “Lim. Sup.”)) Exemplo: > process.capability(MediaLargura, spec.limits = c(44.4, 45.6)) Process Capability Analysis Call: process.capability(object = MediaLargura, spec.limits = c(44.4, Number of obs = 100 Center = 44.99582 StdDev = 0.2042346 Target = 45 LSL = 44.4 USL = 45.6 Capability indices: Professor Inácio Andruski Guimarães, DSc. 45.6)) Estatística – Notas de Aulas Cp Cp_l Cp_u Cp_k Cpm Value 0.9793 0.9724 0.9861 0.9724 0.9791 Exp<LSL 0.18% Exp>USL 0.15% > 2.5% 0.8430 0.8462 0.8584 0.8221 0.8435 148 97.5% 1.115 1.099 1.114 1.123 1.114 Obs<LSL 0% Obs>USL 1% Gráfico p para Proporção de Defeituosos Para construir o gráfico p, para proporção de defeituosos utiliza-se a sintaxe: >TamanhoDasAmostras <- c(n1, n2, n3, ... , nk) >NumeroDeDefeituosos <- c(d1, d2, d3, ... , dk) >GraficoP <- qcc(NumeroDeDefeituosos, size = TamanhoDasAmostras, type = “p”) Exemplo: Para os dados do exercício 13.8 da apostila as instruções ficam: > library(qcc) Package 'qcc', version 2.0 Type 'citation("qcc")' for citing this R package in publications. > TamanhoAmostra <- c(50, 40, 50, 60, 50, 50, 30, 40, 40, 30, 60, 20, 40, 50, 50, 40, 20, 30, 50, 50) > Defeituosos <- c(3,2,2,3,3,2,1,1,2,0,3,3,1,0,2,3,2,1,4,0) > GraficoP <- qcc(Defeituosos, size = TamanhoAmostra, type = "p") > Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 149 Análise de Regressão Linear Para calcular o coeficiente de correlação entre duas variáveis, uma “dependente” e outra “independente”, a sintaxe a ser utilizada é: > cor(Variável_Dependente ~ Variável_Independente) Exemplo: Calcular o coeficiente de correlação entre as variáveis y e x, com os valores x = {98, 103, 105, 109, 123, 103} e y = {81, 84, 86, 88, 88, 92}. > x <- c(98, 103, 105, 109, 123, 103) > y <- c(81, 84, 86, 88, 88, 92) > cor(y,x) [1] 0.3990374 > Para construir o diagrama de dispersão basta digitar > plot(Variável_Dependente ~ Variável_Independente) No exemplo acima: > plot(y ~ x) Para calcular os coeficientes a e b do modelo, na forma y = a + bx, a sintaxe é: > Coeficientes <- lm(Variável_Dependente ~ Variável_Independente) > Coeficientes No exemplo em questão: > Coeficientes <- lm(y~x) > Coeficientes Call: lm(Coeficientes = y ~ x) Coefficients: (Intercept) 67.9306 x 0.1738 > Para representar graficamente o modelo linear ajustado basta digitar os comandos: Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas > plot(Variável_Dependente ~ Variável_Independente) > abline(Coeficientes) > Professor Inácio Andruski Guimarães, DSc. 150 Estatística – Notas de Aulas 151 Apêndice 2 – Testes de Normalidade No capítulo 14 foram abordados os testes de hipótese para a média e a para a proporção. Nos capítulos 15, 16 e 17 foram estudados testes estatísticos que utilizam as idéias apresentadas no capítulo 14. Entretanto, uma questão importante foi deixada de lado: Qual o teste mais adequado, entre todos os que foram apresentados ? De outro modo, quando devemos utilizar, por exemplo, a Análise da Variância (ANOVA) ou o teste H, de Kruskal-Wallis ? A resposta para a questão acima está relacionada à natureza da variável em estudo, mais precisamente à distribuição de probabilidade da mesma. Quando utilizamos a ANOVA, por exemplo, estamos supondo que a variável estudada segue distribuição normal, isto é, a amostra é originária de uma população normalmente distribuída. O teste H, de Kruskal-Wallis deve ser usado quando tal suposição não é válida. Para determinar se uma dada variável segue, ou não, a distribuição normal são utilizados dois testes específicos, ambos apresentados na seqüência. Teste de Kolmogorov – Smirnov (K – S) Dados n valores padronizados e ordenados Y1 , Y2 , ... , Yn , calcula-se a estatística D dada por: i −1 i D = máx F (Y i ) − ; − F (Y i ) 1≤ i ≤ n n n Onde F ( . ) é a distribuição acumulada teórica em questão. Quando as duas curvas se sobrepõem a estatística de teste é calculada através da máxima diferença entre ambas. A magnitude da diferença estabelece-se probabilisticamente, segundo a lei de probabilidade dessa estatística, que se encontra tabelada. Se os dados experimentais se afastam significativamente do que é esperado segundo a distribuição em hipótese, então as curvas obtidas devem encontrar-se igualmente afastadas, e por um raciocínio análogo, se o ajustamento ao modelo hipotético é admissível, as curvas têm um delineamento próximo. Um dos inconvenientes deste teste é o fato de não considerar valores repetidos, também chamados “empates”. Este fato torna o teste pouco indicado para pequenas amostras. Na prática, um teste mais efetivo é o Teste de Shapiro – Wilk, apresentado a seguir. Teste de Shapiro – Wilk Utiliza a estatística W dada por: 2 n ∑ a i x (i ) W = ni =1 2 ∑ (x i − x ) i =1 Onde ai são constantes geradas a partir das médias, variâncias e covariâncias de uma amostra de tamanho n de uma distribuição normal. Testes de Normalidade Utilizando o R Na prática a aplicação de qualquer um dos testes de normalidade descritos acima pode ser uma tarefa longa e tediosa. Em função deste fato, é altamente recomendável que os mesmos sejam aplicados apenas quando se tem à disposição um pacote computacional. O pacote R é perfeitamente adequado para tais fins. Exemplo: Teste Shapiro-Wilk > amostra <- c(5.6, 4.5 ,8.9 ,2.6 ,4.8 ,8.9 ,7.2 ,7.1 ,0.8 ,1.9 ,2.9 ,4.8 ,2.5 ,0.8 ,2.8 ,1.4 ,2.9 ,4.8 , 6.7) Professor Inácio Andruski Guimarães, DSc. Estatística – Notas de Aulas 152 > shapiro.test(amostra) Shapiro-Wilk normality test data: amostra W = 0.936, p-value = 0.2232 A hipótese nula, segundo a qual a amostra é proveniente de um população com distribuição normal, é aceita quando W é superior a 0.6, ou quando o valor p é superior a 0,05. Professor Inácio Andruski Guimarães, DSc.