UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE CIÊNCIAS E TECNOLOGIA AGROALIMENTAR - CAMPUS POMBAL DISCIPLINA: ESTATÍSTICA BÁSICA NOTAS DE AULA ESTATÍSTICA BÁSICA Prof. MSc. Carlos Sérgio Araújo dos Santos POMBAL - PB NOVEMBRO de 2013 Sumário p. 9 1 Introdução Geral 1.1 A Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9 1.2 Estatística Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10 1.3 A Natureza da Estatística (Classificação das variáveis . . . . . . . . . . . p. 10 1.4 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 1.5 Pesquisas e Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 13 1.6 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 13 1.7 Tabelas Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.8 Elementos de uma Tabela . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14 1.9 Representação esquemática . . . . . . . . . . . . . . . . . . . . . . . . . p. 15 1.10 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . p. 15 1.10.1 Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15 1.10.2 Distribuição de frequência sem intervalos de classe . . . . . . . . p. 16 1.10.3 Distribuição de frequência com intervalos de classe . . . . . . . . p. 16 1.10.4 Elementos de uma Distribuição de Frequência . . . . . . . . . . . p. 17 1.10.5 Método Prático para construção de uma distribuição de frequências com classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18 1.10.6 Tipos de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . p. 18 1.11 Representação Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19 1.12 Gráficos utilizados para a análise de uma distribuição de freqüência p. 20 . . . 1.12.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 1.12.2 Polígono de Freqüências . . . . . . . . . . . . . . . . . . . . . . . p. 20 1.12.3 Ogivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 1.12.4 Gráfico por linha . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 1.12.5 Gráfico por colunas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22 1.12.6 Diagrama por Superfície em Setores . . . . . . . . . . . . . . . . . p. 22 p. 24 2 Análise Exploratória de Dados 2.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24 2.1.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24 2.1.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26 2.1.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28 2.2 Quartis, Decis e Percentis (ou Centis) . . . . . . . . . . . . . . . . . . . . p. 31 2.3 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31 2.3.1 Primeiro Quartil: Q1 . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31 2.3.2 Segundo Quartil: Q2 ou M d . . . . . . . . . . . . . . . . . . . . . p. 32 2.3.3 Terceiro Quartil: Q3 . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32 2.4 Decis Di . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 2.4.1 Primeiro Decil: D1 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 2.4.2 Segundo Decil: D2 . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 2.5 Percentis ou Centis Ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Vigésimo Centil: C20 p. 34 . . . . . . . . . . . . . . . . . . . . . . . . . p. 34 2.6 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35 2.6.1 Desvio - Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 2.6.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37 2.6.3 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . p. 39 2.7 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 p. 45 3 Probabilidade: Espaço amostral e eventos 3.1 Experimentos Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 3.1.1 Tipos de fenômenos . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 3.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 3.3 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46 3.4 Classe dos eventos aleatórios . . . . . . . . . . . . . . . . . . . . . . . . p. 46 3.5 Operações com eventos Aleatórios . . . . . . . . . . . . . . . . . . . . . p. 47 3.6 Propriedades das operações . . . . . . . . . . . . . . . . . . . . . . . . . p. 49 3.7 Partição de um Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . p. 50 3.8 Eventos Mutuamente Exclusivos ou Disjuntos . . . . . . . . . . . . . . . . p. 51 3.9 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52 p. 53 4 Probabilidade: Definições 4.1 Definição Clássica de Probabilidade . . . . . . . . . . . . . . . . . . . . . p. 53 4.2 Definição Axiomática de Probabilidade . . . . . . . . . . . . . . . . . . . p. 53 4.2.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 54 4.3 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 4.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 4.5 Probabilidade Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56 4.6 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57 4.7 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59 5 Variáveis Aleatórias discretas 5.1 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62 p. 62 5.2 Esperança de uma Variável Aleatória Discreta . . . . . . . . . . . . . . . . p. 64 5.3 Variância de uma Variável Aleatória Discreta . . . . . . . . . . . . . . . . p. 65 5.4 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . p. 66 5.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 68 6 Distribuições Teóricas de Probabilidades de Variáveis Aleatórias Discretas p. 70 6.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 70 6.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71 6.2.1 Média e Variância de uma v.a. com Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 72 6.3 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 73 6.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 76 7 Variáveis Aleatórias contínuas p. 78 7.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 78 7.2 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . p. 79 7.3 Esperança de uma Variável Aleatória Contínua . . . . . . . . . . . . . . . p. 80 7.4 Variancia de uma Variável Aleatória Contínua . . . . . . . . . . . . . . . . p. 80 7.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 81 8 Distribuições Teóricas de Probabilidades de Variáveis Aleatórias Contínuas p. 83 8.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83 8.2 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 84 8.2.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 85 8.2.2 Distribuição Normal Padrão . . . . . . . . . . . . . . . . . . . . . . p. 85 8.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 88 p. 90 9 Teoria da Amostragem 9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90 9.2 Parâmetros e Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90 9.3 Técnicas de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91 9.4 Conceitos Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91 9.5 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92 9.5.1 As Amostras Probabilísticas . . . . . . . . . . . . . . . . . . . . . p. 92 9.5.2 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . p. 93 9.5.3 Amostragem Aleatória Estratificada . . . . . . . . . . . . . . . . . p. 93 9.5.4 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . p. 94 9.5.5 Amostragem Sistemática . . . . . . . . . . . . . . . . . . . . . . . p. 94 9.6 Amostragem Não-probabilística . . . . . . . . . . . . . . . . . . . . . . . p. 94 9.7 Erros no processo de amostragem . . . . . . . . . . . . . . . . . . . . . . p. 94 9.8 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . . . . . . p. 95 9.9 Distribuição Amostral das Proporções . . . . . . . . . . . . . . . . . . . . p. 96 9.10 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 98 10 Teoria da Estimação p. 100 10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 100 10.2 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 100 10.3 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . p. 101 10.3.1 Justeza e não-tedenciosidade . . . . . . . . . . . . . . . . . . . . p. 101 10.3.2 Consistência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 101 10.3.3 Eficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 102 10.3.4 Suficiência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 103 10.4 Estimação Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 103 10.4.1 Intervalo de Confiança para Média com variância (populacional) conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 103 10.4.2 Intervalo de Confiança para Média com variância (populacional) desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 105 10.4.3 Intervalo de Confiança para proporção populacional . . . . . . . . p. 106 10.4.4 Intervalo de Confiança para Variância . . . . . . . . . . . . . . . . p. 107 10.5 Intervalo de Confiança para a diferença de médias de duas Populações . p. 108 10.5.1 As variâncias σ12 e σ22 (populacionais) são conhecidas . . . . . . . p. 108 10.5.2 As variâncias σ12 e σ22 são desconhecidas mas σ12 = σ22 . . . . . . . p. 109 10.6 Intervalo de Confiança para Diferença de Proporções . . . . . . . . . . . p. 110 10.7 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 112 11 Testes de Hipóteses p. 118 11.1 Hipótese Nula e Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . p. 118 11.2 Região Crítica do teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 118 11.3 Erros do Tipo I e erros do Tipo II . . . . . . . . . . . . . . . . . . . . . . . p. 119 11.4 Teste da hipótese para média populacional µ . . . . . . . . . . . . . . . . p. 120 11.4.1 σ conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120 11.4.2 σ desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120 11.5 Teste para Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 121 11.6 Teste de hipótese para variância . . . . . . . . . . . . . . . . . . . . . . . p. 122 11.7 Teste da hipótese da igualdade de duas médias . . . . . . . . . . . . . . p. 123 11.7.1 σ12 e σ22 conhecidas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 124 11.7.2 σ12 e σ22 desconhecidas . . . . . . . . . . . . . . . . . . . . . . . . p. 124 11.8 Teste de hipótese da diferença entre proporções . . . . . . . . . . . . . . p. 125 11.9 Teste da razão de variâncias . . . . . . . . . . . . . . . . . . . . . . . . . p. 125 11.10Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 128 12 Correlação e Regressão Linear Simples p. 134 12.1 Correlação Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . p. 134 12.1.1 Relação entre variáveis . . . . . . . . . . . . . . . . . . . . . . . . p. 134 12.1.2 Medida de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . p. 134 12.2 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 136 12.2.1 Pressuposições . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 137 12.2.2 Método de estimação dos parâmetros α e β . . . . . . . . . . . . . p. 138 12.3 Decomposição da variância total . . . . . . . . . . . . . . . . . . . . . . . p. 140 12.4 Análise de Variância da Regressão . . . . . . . . . . . . . . . . . . . . . p. 141 12.5 Coeficiente de determinação . . . . . . . . . . . . . . . . . . . . . . . . . p. 143 12.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 144 Referências p. 145 9 1 Introdução Geral 1.1 A Estatística Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos longas de números que dizem respeito à população, à indústria ou ao comércio, como se vê frequentemente em revistas; para outras, ela dá gráficos mostrando a variação no tempo de um fato econômico ou social, a produção ou os números relativos aos negócios de uma empresa, assim como se encontra nos escritórios de empresas privadas. A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna. Nos mais diversificados ramos de atuação, as pessoas estão frequentemente expostas à Estatística, utilizando-a com maior ou menor intensidade. Isto se deve às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessita. A razão pela qual consideramos a Estatística uma ferramenta importante para tomada de decisões está no fato de que ela não deve ser considerada como um fim em si própria, mas como um instrumento fornecedor de informações que subsidiarão, em consequência, a tomada de melhores decisões, baseadas em fatos e dados. Podemos considerar a Estatística como a ciência que se preocupa com a coleta, organização, descrição, análise e interpretação dos dados experimentais, ou oriundos de estudos observacionais visando a tomada de decisões. Dentro dessa idéia, podemos considerar a Ciência Estatística como dividida basicamente em duas partes: A Estatística Descritiva, que se preocupa com a organização e descrição dos dados experimentais, e a Estatística Indutiva, que cuida da sua análise e interpretação. 10 1.2 Estatística Descritiva Principalmente em pesquisa social, o analista defronta-se amiúde com a situação de dispor de tantos dados que se torna difícil absorver completamente a informação que está procurando investigar. É extremamente difícil captar intuitivamente todas as informações que os dados contêm. É necessário, portanto, que as informações sejam reduzidas até o ponto em que se possa interpretá-las mais claramente. Em outras palavras, é indispensável resumí-las, através do uso de certas medidas-sínteses, mais comumentes conhecidas como estatística descritiva ou simplesmente estatísticas. Por conseguinte, a estatística descritiva é um número que sozinho descreve uma característica de um conjunto de dados. Trata-se, portanto, de um número-resumo que possibilita reduzir os dados a proporções mais facilmente interpretáveis. Em um sentido mais amplo, a Estatística Descritiva pode ser interpretada como uma função cujo objetivo é a observação de fenômenos de mesma natureza, a coleta de dados numéricos referentes a esses fenômenos, a organização e a classificação desses dados observados e a sua apresentação através de gráficos e tabelas, além do cálculo de coeficientes (estatísticas) que permitem descrever resumidadamente os fenômenos. 1.3 A Natureza da Estatística (Classificação das variáveis Variável é uma característica de uma unidade que será medida a partir daquela unidade da amostra. Podemos descrever dois tipos de variáveis para estudo: Variáveis Qualitativas: Podem ser separados em diferentes categorias, atributos, que se distinguem por alguma característica não numérica. como nos seguintes exemplos: a) População: alunos de uma universidade Variável: sexo (masculino ou feminino). b) População: moradores de uma cidade Variável: tipo de habitação (casa, apartamento, barraco, etc.). c) População: peças produzidas por uma máquina Variável: qualidade (perfeita ou defeituosa). d) População Brasileira Variável: cor da pele (branca, preta, amarela, vermelha, parda). 11 Variáveis Quantitativas: Quando suas medidas consistem em números que representam contagens ou medidas. Pode ser subdivida em: 1 - quantitativa discreta: pode assumir apenas valores pertences a um conjunto enumerável; 2 - quantitativa contínua: pode assumir qualquer valor em um certo intervalo de variação. Alguns exemplos de variáveis quantitativas discretas são: a) População: habitações de uma cidade. Variável: número de banheiros. b) População: casais residentes em uma cidade. Variável: número de filhos. c) População: aparelhos produzidos em uma linha de montagem. Variável: número de defeitos por unidade. d) População: Bolsa de valores de São Paulo. Variável: número de ações negociadas. 1.4 Fases do Método Estatístico O método estatístico abrange as seguintes fases: a) Definição do Problema Consiste na: - formulação correta do problema; - examinar outros levantamentos realizados no mesmo campo (revisão da literatura); - saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) b) Planejamento Determinar o procedimento necessário para resolver o problema: 12 - Como levantar informações; - Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial). - Cronograma, Custos, etc. c) Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode ser: Direta - diretamente da fonte; Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). d) Apuração dos dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação. Apuração: manual, mecânica e eletrônica. e) Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. Esta apresentação pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica) f) Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema. 13 1.5 Pesquisas e Dados Antes de iniciar a análise de uma base de dados, é preciso determinar corretamente que tipo de dados está disponível. Disso depende o tipo de análise a ser feito e a ferramenta a ser utilizada. Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem. Dados Estatísticos: Dados são observações documentadas ou resultados da medição. Os dados podem ser obtidos pela percepção através dos sentidos (por exemplo observação) ou pela execução de um processo de medição. Antes de iniciar a análise de uma base de dados, é preciso determinar corretamente que tipo de dados está disponível. Disso depende o tipo de análise a ser feito e a ferramenta a ser utilizada. Dados primários: são aqueles que não foram antes coletados, estando ainda em posse dos pesquisados, e que são coletados com o propósito de atender às necessidades específicas da pesquisa em andamento. As fontes básicas de dados primários são: pesquisado, pessoas que tenham informações sobre o pesquisado e situações similares. Dados secundários: são aqueles que já foram coletados, tabulados, ordenados e, às vezes, até analisados e que estão catalogados à disposição dos interessados. As fontes básicas de dados secundários são: a própria empresa, publicações, governos, Instituições não governamentais e serviços padronizados de informações de marketing. 1.6 Conceitos básicos População: Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo, podendo ser finita ou infinita. Amostra: É um subconjunto da população e deverá ser considerada finita, a amostra 14 deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta. Amostragem: É o processo de retirada de informações dos "n"elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem). Censo: é a coleção de dados relativos a todos elementos da população. Estatística: é uma medida numérica que descreve uma característica da amostra. Parâmetro: é a medida numérica que descreve uma característica da população. Estatística Descritiva: envolve a organização e sumarização dos dados através de metodologias simples. Estatística Inferencial: é a parte da estatística que envolve a análise e interpretação da amostra. 1.7 Tabelas Estatísticas Um dos objetivos da estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação das mesmas. Tabela: é uma maneira de apresentar de forma resumida um conjunto de dados 1.8 Elementos de uma Tabela 1) Título: O título deve responder as seguintes questões: - O que? (Assunto a ser representado (Fato)); - Onde? (O lugar onde ocorreu o fenômeno (local)); - Quando? (A época em que se verificou o fenômeno (tempo)). 2) Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna. 15 3) Corpo: parte da tabela composta por linhas e colunas. 4) Linhas: parte do corpo que contém uma seqüência horizontal de informações. 5) Colunas: parte do corpo que contém uma seqüência vertical de informações. 6) Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas. 7) Casa ou Célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna. 8) Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa (fonte, notas e chamadas). 9) Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. 10) Notas e Chamadas: são esclarecimentos contidos na tabela (nota - conceituação geral; chamada - esclarecer minúcias em relação a uma célula). 1.9 Representação esquemática 1.10 Distribuição de Frequências 1.10.1 Conceitos Dados Brutos: é a relação de elementos que não foram numericamente organizados. 16 Ex : 45, 41, 42, 41, 42, 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51 Rol: é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Ex : 41, 41, 41, 42, 42, 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60 Tabela de Frequências: são representações nas quais os valores se apresentam em correspondência com suas repetições. 1.10.2 Distribuição de frequência sem intervalos de classe É a simples condensação dos dados conforme as repetições de seu valores. Exemplo: Tabela 1: Distribuição do número de alunos em 20 turmas da UFCG i Dados (fi ) 1 41 3 2 42 2 3 43 1 4 44 1 5 45 1 6 46 2 7 50 2 8 51 1 9 52 1 10 54 1 11 57 1 12 58 2 13 60 2 Total P13 i=1 fi 20 A soma das frequências é sempre igual ao número total de valores observados. k X fi = n i=1 1.10.3 Distribuição de frequência com intervalos de classe Quando o tamanho da amostra é elevado é mais racional efetuar o agrupamento dos valores em vários intervalos de classe. Exemplo: 17 Tabela 2: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi 1 41 ` 45 7 2 45 ` 49 3 3 49 ` 53 4 4 53 ` 57 1 5 57 ` 61 P5 i=1 fi 5 Total 1.10.4 20 Elementos de uma Distribuição de Frequência Frequência Simples Absoluta: é o número de observações correspondentes a uma classe ou valor individual. É simbolizada por fi . Amplitude Total At : É a diferença entre o maior e o menor valor observado da variável em estudo. Ex: na tabela anterior At = 60 − 41 = 19. Classe: são os intervalos de variação da variável e é simbolizada por i e o número total de classes simbolizada por k . Ex: na tabela anterior k = 5 e 49 ` 53 é a terceira classe, em que i = 3. Limites de Classe: são os extremos de cada classe. O menor número é o limite inferior de classe (li ) e o maior número, limite superior de classe(Li ). Ex: em 49 ` 53, l3 = 49 e L3 = 53. O símbolo ` representa um intervalo fechado à esquerda e aberto à direita. Amplitude do Intervalo de Classe: é obtida através da diferença entre o limite superior e inferior da classe e é simbolizada por hi = Li − li . Ex: na tabela anterior hi = 53 − 49 = 4. Ponto Médio de Classe xi : é o ponto que divide o intervalo de classe em duas partes iguais. Ex: em 49 ` 53 o ponto médio x3 = (53 + 49)/2 = 51, ou seja x3 = (L3 + l3 )/2. 18 1.10.5 Método Prático para construção de uma distribuição de frequências com classe 1 - Organize os dados brutos em um ROL. 2 - Calcule a amplitude total At . 3 - Calcule o número de classes através da "Regra de Sturges". k = 1 + 3, 3 log n em que k é o número de classes e n é o número total de observações 4 - Calcule a amplitude do intervalo de classe h = At . k No nosso exemplo: At = 19 e k = 5, logo h = 3, 8. Utilizaremos então h = 4 1.10.6 Tipos de Frequências Frequência Simples Absoluta fi : é o número de repetições de um valor individual ou de uma classe de valores da variável. Frequência Simples Relativa f ri : representa a proporção de observações de um valor individual ou de uma classe, em relação ao número total de observações. fi f ri = Pk i=1 fi = fi n Em termos percentuais tem-se f ri = fi · 100 n Exemplo: Frequência Absoluta Acumulada "Abaixo de"Fi : é a soma da frequência simples 19 Tabela 3: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi f ri Frequências relativas percentuais 1 41 ` 45 7 0,35 35% 2 45 ` 49 3 0,15 15% 3 49 ` 53 4 0,20 20% 4 53 ` 57 1 0,05 5% 5 57 ` 61 P5 i=1 fi 5 0,25 25% 20 1,00 100% Total absoluta dessa classe ou desse valor com as frequências simples absolutas das classes ou dos valores anteriores. Exemplo: Tabela 4: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi Fi 1 41 ` 45 7 7 2 45 ` 49 3 7 + 3 = 10 3 49 ` 53 4 7 + 3 + 4 = 14 4 53 ` 57 1 7 + 3 + 4 + 1 = 15 5 57 ` 61 P5 i=1 fi 5 7 + 3 + 4 + 1 + 5 = 20 20 − Total Frequência Absoluta Acumulada "Acima de"Fi : é a soma da frequência simples absoluta dessa classe ou desse valor com as frequências simples absolutas das classes ou dos valores posteriores. Exemplo: 1.11 Representação Gráfica Os gráficos são uma forma de apresentação visual dos dados. Normalmente, contém menos informações que as tabelas, mas são de mais fácil leitura. O tipo de gráfico depende da variável em questão. 20 Tabela 5: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi Fi 1 41 ` 45 7 5 + 1 + 4 + 3 + 7 = 20 2 45 ` 49 3 5 + 1 + 4 + 3 = 13 3 49 ` 53 4 5 + 1 + 4 = 10 4 53 ` 57 1 5+1=6 5 57 ` 61 P5 i=1 fi 5 5 20 − Total 1.12 Gráficos utilizados para a análise de uma distribuição de freqüência 1.12.1 Histograma São os gráficos mais importantes na estatística inferencial. Quando os dados são valores de uma variável medida numa escala intervalar/proporcional, uma tabela de frequências para cada uma das classes mostra a distribuição de valores dessa variável. Esta distribuição pode ser representada graficamente num histograma. 1.12.2 Polígono de Freqüências Unindo por linhas retas os pontos médios das bases superiores dos retângulos do histograma, obtém-se outra representação dos dados, denominada Polígono de Frequências. 21 1.12.3 Ogivas A Ogiva tem por finalidade a representação gráfica das tabelas de frequências acumuladas. 1.12.4 Gráfico por linha É a representação gráfica de uma série estatística por meio de uma linha poligonal. é um dos mais importantes gráficos; representa observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. 22 1.12.5 Gráfico por colunas É a representação de uma série estatística por intermédio de retângulos em posições verticais. Este tipo de gráficos proporciona comparar grandezas. 1.12.6 Diagrama por Superfície em Setores É a representaçao gráfica de uma série estatística por intermédio de superfícies setoriais. É utilizado quando se pretende comparar os valores de uma série com a sua soma total. A representaçao é feita tomando como figura básica um círculo que é dividido em se- 23 tores. O quociente entre a soma dos valores da série e a área do círculo deve ser o mesmo que entre cada valor da variável dependente e a respectiva área do setor representativo. Porém em virtude da proporcionalidade das áreas dos setores de um círculo com seus ângulos centrais, podem-se dividir os valores considerados na série proporcionalmente a estes ângulos. 24 2 Análise Exploratória de Dados 2.1 Medidas de Posição As medidas de posição, também chamada de medidas de tendência central, possuem três formas diferentes para três situações distintas: • MÉDIA • MODA • MEDIANA 2.1.1 Média Existem dois tipos de média: • POPULACIONAL, representada pela letra grega µ. • AMOSTRAL, representada por x̄. 1 - Média: (Dados não agrupados) Sejam os elementos x1 , x2 , . . . , xn de uma amostra, portanto "n"valores da variável X . A média aritmética da variável aleatória X é definida por, x1 + x2 + . . . + x n = x̄ = n Pn i=1 n xi 25 Exemplo: Suponha o conjunto de dados que representa o peso ao nascer de bezerros da raça Nelore: 51, 40, 46, 48, 54, 56, 44, 43, 55 e 57. Determinar a média aritmética simples deste conjunto de dados. x̄ = 51 + 40 + 46 + 48 + 54 + 56 + 44 + 43 + 55 + 57 494 = = 49, 4 10 10 2 - Média: (Dados agrupados em uma distribuição de frequência por valores simples) Usa-se a média aritmética dos valores x1 , x2 , . . . , xn ponderados pelas respectivas frequências absolutas: f1 , f2 , . . . , fn . Assim x1 f 1 + x 2 f 2 + . . . + xn f n x̄ = = n Pn i=1 xi f i n Exemplo: Tabela 6: Distribuição do número de alunos em 20 turmas da UFCG i 1 2 3 4 5 6 7 8 9 10 11 12 13 Dados (xi ) 41 42 43 44 45 46 50 51 52 54 57 58 60 Total P13 i=1 fi (fi ) 3 2 1 1 1 2 2 1 1 1 1 2 2 20 xi fi 123 84 43 44 45 92 100 51 52 54 57 116 120 981 x̄ = 981 = 49, 05 20 Portanto: 3 - Média: (Dados agrupados em uma distribuição de frequência por classes) Usaremos a média aritmética dos pontos médios x1 , x2 , . . . , xn de cada classe, ponderados pelas respectivas frequências absolutas: f1 , f2 , . . . , fn . Assim x1 f 1 + x 2 f 2 + . . . + xn f n x̄ = = n Exemplo: Pn i=1 n xi f i 26 Tabela 7: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi xi xi fi 1 41 ` 45 7 43 301 2 45 ` 49 3 47 141 3 49 ` 53 4 51 204 4 53 ` 57 1 55 55 5 57 ` 61 P5 i=1 fi 5 59 295 20 − 996 Total Portanto: x̄ = 2.1.2 996 = 49, 80 20 Moda É o valor mais frequente da distribuição. 1 - Moda (M o): (Dados não agrupados) Sejam os elementos x1 , x2 , . . . , xn de uma amostra, o valor da moda para este tipo de conjunto de dados é simplesmente o valor com maior frequência. Exemplo: Obter a moda dos seguintes conjuntos de valores: X = {4, 5, 5, 6, 6, 6, 7, 7, 8, 8}, Moda de X : M o = 6. Y = {1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6}, Moda de Y : M o1 = 2 e M o2 = 5. W = {1, 2, 3, 4, 5} Moda de W : amodal 2 - Moda (M o): (Dados agrupados em uma distribuição de frequência por valores simples) Para este tipo de distribuição, a identificação da moda é facilitada pela simples observação do elemento que apresenta maior frequência. 27 Tabela 8: Distribuição do número de alunos em 20 turmas da UFCG i 1 2 3 4 5 6 7 8 9 10 11 12 13 Dados (xi ) 41 42 43 44 45 46 50 51 52 54 57 58 60 Total P13 i=1 fi (fi ) 3 2 1 1 1 2 2 1 1 1 1 2 2 20 Exemplo: Portanto, se a maior frequência é fi = 3, logo M o = 41. 3 - Moda (M o): (Dados agrupados em uma distribuição de frequência por classes) Para dados agrupados em classes, temos diversos métodos para o cálculo da moda. Utilizaremos aqui o Método de Czuber denotado a seguir: Método de Czuber Procedimento: – Identifica-se a classe modal (aquela que possuir maior frequência) CLASSE (M o). – Utiliza-se a fórmula: M o = li + h · ∆1 ∆2 + ∆1 em que: li = Limite inferior da classe modal. ∆1 = fmo − fant (frequência modal − frequência anterior) ∆2 = fmo − fpost (frequência modal − frequência posterior) h = amplitude da classe modal Exemplo: Determinar a moda, pelo método de Czuber, usando os dados do exemplo tem-se que: Classe (M o): 41 ` 45 li = 41 28 Tabela 9: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi 1 41 ` 45 7 2 45 ` 49 3 3 49 ` 53 4 4 53 ` 57 1 5 57 ` 61 P5 i=1 fi 5 Total 20 h=4 ∆1 = fmo − fant = 7 − 0 = 7 ∆2 = fmo − fpost = 7 − 3 = 4 M o = 41 + 4 · 2.1.3 7 = 43, 54 7+4 Mediana Construído o ROL, o valor da mediana é o elemento que ocupa a posição central, ou seja, é o elemento que divide a distribuição em 50% de cada lado. 1 - Mediana (M d): (Dados não agrupados) Sejam os elementos x1 , x2 , . . . , xn de uma amostra, portanto "n"valores da variável X . A mediana da variável aleatória X é definida através do Elemento Mediano EM d , – O número de observações é ímpar, então o valor da mediana será o valor localizado na posição EM d = n+1 ; 2 – O número de observações é par, então o valor da mediana será a média entre o valor da posição EM d = n 2 e o seu valor consecutivo. Exemplo 1: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a mediana deste conjunto de dados. 29 Como n = 5, então o valor da mediana estará localizado na posição EM d = 5+1 2 = 3. Portanto, Md = 8 Exemplo 2: Suponha o conjunto de tempo de serviço de seis funcionários: 3, 7, 8, 10, 11 e 13. Determinar a mediana deste conjunto de dados. Como n = 6, então o valor da mediana estará localizado na posição EM d = 6 2 =3e na posição consecutiva obtendo uma média aritmética desses valores. Portanto, Md = 8 + 10 =9 2 2 - Mediana (M d): (Dados agrupados em uma distribuição de frequência por valores simples) Quando os valores da variável estiverem já tabulados, o procedimento a ser adotado será praticamente idêntico ao anterior. Deve-se verificar se o número de observações é ímpar ou par, para o cálculo do elemento mediano. Em seguida acrescenta-se uma coluna à tabela de frequências original, onde serão determinadas as frequências acumuladas. Exemplo: Tabela 10: Distribuição do número de alunos em 20 turmas da UFCG i 1 2 3 4 5 6 7 8 9 10 11 12 13 Dados (xi ) 41 42 43 44 45 46 50 51 52 54 57 58 60 Total P13 i=1 fi (fi ) 3 2 1 1 1 2 2 1 1 1 1 2 2 20 ( Fi ) 3 5 6 7 8 10 12 13 14 15 16 18 20 - Portanto: EM d = 20 2 = 10, logo, M d = 46+50 2 = 48 3 - Mediana (M d): (Dados agrupados em uma distribuição de frequência por classes) Procedimento: – Calcula-se o elemento mediano EM d 30 – Pela Fi identifica-se a classe que contém o valor da mediana - CLASSE(M d) – Utiliza-se a fórmula: M d = li + h · EM d − Fant fM d em que: li = Limite inferior da classe mediana; Fant = Frequência acumulada anterior à classe mediana; h = Amplitude da classe mediana; fM d = Frequência absoluta simples da classe mediana. Exemplo: Tabela 11: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi Fi 1 41 ` 45 7 7 2 45 ` 49 3 10 3 49 ` 53 4 14 4 53 ` 57 1 15 5 57 ` 61 P5 i=1 fi 5 20 20 − Total Portanto: EM d = 20 2 = 10 CLASSE(M d) = 45 ` 49 M d = 45 + 4 · 10 − 7 = 45 + 4 = 49 3 31 2.2 Quartis, Decis e Percentis (ou Centis) Há uma série de medidas de posição semelhantes na sua concepção à mediana, embora não sejam medidas de tendência central. Como se sabe, a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Já os quartis permitem dividir a distribuição em quatro partes iguais quanto ao número de elementos cada uma; os decis em dez partes e os centis em cem partes iguais. Para simbolizar cada uma dessas medidas separatrizes, faremos: Qi = quartis i = 1, 2, 3 Di = decis i = 1, 2, 3, . . . , 9 Ci = centis i = 1, 2, 3, . . . , 99 Assim, para dividir uma série ordenada de valores em quatro partes iguais, precisamos de três separatrizes (quartis); para dividi-la em dez, iremos recorrer a nove separatrizes (decis); em cem, recorremos a noventa e nove separatrizes (centis). O gráfico a seguir ilustra melhor o que foi dito em relação aos quartis e decis: 2.3 2.3.1 Quartis Primeiro Quartil: Q1 Definição: Dado um conjunto ordenado (ordem crescente) de valores, o primeiro quartil, Q1 , é o valor que divide o conjunto em duas partes tais que um quarto ou 32 vinte e cinco por cento dos valores sejam menores d que ele e três quartos ou setenta e cinco por cento dos restantes sejam maiores. O elemento que indica a ordem ou posição do primeiro quartil é determinado, para dados agrupados em classes, pela seguinte expressão: EQ1 = n 4 em que n é o número de valores do conjunto, ou número de observações. 2.3.2 Segundo Quartil: Q2 ou M d Definição: Dado um conjunto ordenado de valores, o segundo quartil ou mediana é o valor que divide em duas partes iguais quanto ao número de elementos, isto é, cinquenta por cento ou dois quartos dos valores do conjunto são menores, e os dois quartos restantes sao maiores do que ele. O elemento mediano é calculado, como veremos, através da seguinte expressão: EQ2 = 2.3.3 n 2n = 4 2 Terceiro Quartil: Q3 Definição: Dado um conjunto ordenado (ordem crescente) de valores, o terceiro quartil é o valor que divide o conjunto em duas partes tais que setenta e cinco por cento ou tres quartos dos valores sejam menores e vinte e cinco por cento ou um quarto sejam maiores do que ele. O elemento que indica a ordem em que n encontra o terceiro quartil é calculado, para dados tabulados, como segue: EQ3 = 3n 4 Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão: 33 EQi = in 4 em que i indica o número do quartil a ser calculado e n o número de elementos ou observações da amostra. 2.4 Decis Di A definição dos decis obedece ao mesmo princípio da dos quartis, com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretenda clacular. Assim, por exemplo: 2.4.1 Primeiro Decil: D1 O primeiro decil de um conjunto ordenado (ordem crescente) de valores é o valor que divide um conjunto em duas partes tais que dez por cento ou um décimo dos valores sejam menores e nove décimos ou noventa por cento sejam maiores do que ele. O elemento que indica a posição do segundo decil é calculado pela seguinte expressão: ED1 = 2.4.2 n 10 Segundo Decil: D2 Trata-se do valor que divide o conjunto em duas partes, tais que vinte por cento ou dois décimos dos valores sejam menores e oitenta por cento ou oito décimos dos valores sejam maiores; para saber a ordem do segundo decil, usamos a expressão: ED2 = 2n 10 De especial interesse é o quinto decil, que divide o conjunto em duas partes, tais que cinco décimos ou cinquenta por cento dos valores sejam menores e cinco décimos ou cinquenta por cento dos valores restantes maiores do que ele. Assim sendo, o quinto 34 decil é igual ao segundo quartil, que por sua vez é igual à mediana. O elemento que indica a ordem do quinto decil é igual ao elemento mediano, ou seja: ED5 = 5n n 2n = = 10 2 4 Podemos, então, afirmar que M d = D5 = Q2 De uma forma geral, para calcular os decis, recorreremos à seguinte expressão que define a ordem em que o decil se encontra: EDi = in 10 em que n indica o número de valores observados e i o número que identifica o decil a ser calculado. 2.5 Percentis ou Centis Ci Neste caso, cada parte em que foram subdivididos os valores do conjunto, através dos noventa e nove centis, contará com um centésimo ou um por cento dos valores do conjunto. O elemento que definirá a ordem do centil, em uma distribuição de frequências de valores tabulados agrupados em classes, será encontrado pelo emprego da expressão: ECi = in 100 em que i é o número indicador do centil e n é o número total de observações. É oportuno lembrar que os centis englobam todos os decis e quartis. Assim, por exemplo: 2.5.1 Vigésimo Centil: C20 O vigésimo centil é igual ao segundo decil, por que 35 EC20 = 2n 20n = 0, 2n = ED2 = = 0, 2n 100 10 A fórmula de cálculo dos centis será: Ci = l + h ECi − Fant f Ci Exemplo:Na Tabela abaixo figuram os dados correspondentes ao consumo de eletricidade de 80 usuários. Calcular as seguintes medidas: Tabela 12: Distribuição do consumo de eletricidade i Classes fi 1 5 ` 25 4 2 25 ` 45 6 3 45 ` 65 14 4 65 ` 85 26 5 85 ` 105 14 6 105 ` 125 8 7 125 ` 145 6 8 145 ` 165 2 Total P13 i=1 fi 80 a) Trigésimo centil: C30 b) Décimo quinto centil: C15 c) Nono Decil: D9 d) Septuagésimo quinto centil: C75 e) Primeiro quartil: Q1 2.6 Medidas de Dispersão As medidas de dispersão indicam se os valores estão relativamente próximos um dos outros, ou separados em torno de uma medida de posição: a média. Consideraremos três medidas de dispersão: 36 – DESVIO-PADRÃO – VARIÂNCIA – COEFICIENTE DE VARIAÇÃO 2.6.1 Desvio - Padrão Mede o grau de dispersão dos dados numéricos em torno de um valor médio. 1 - Desvio - padrão S : (Dados Brutos) Seja o seguinte conjunto de números x1 , x2 , . . . , xn . O desvio-padrão ou média quadrática dos desvios ou afastamentos em relação à média desse conjunto será definido por: sP S= n i=1 (xi − x̄)2 n−1 Exemplo: Calcular o desvio-padrão do conjunto 10, 12, 13, 20, 25, 34, 45. sabe-se que x̄ = 22, 714 v r u 7 u 1 X 1 t S= (xi − 22, 714)2 = [(10 − 22, 714)2 + . . . + (45 − 22, 714)2 ] 7 − 1 i=1 6 r S= 1 × 1007, 43 = 12, 958 6 2 - Desvio - padrão S : (Dados Tabulados) Quando os valores vierem dispostos em uma tabela de frequências, o cálculo do desvio-padrão se fará através da seguinte fórmula: 37 sP S= n i=1 (xi − x̄)2 fi n−1 Exemplo: Tabela 13: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi xi (xi − x̄) (xi − x̄)2 (xi − x̄)2 fi 1 41 ` 45 7 43 -6,8 46,24 323,68 2 45 ` 49 3 47 -2,8 7,84 23,52 3 49 ` 53 4 51 1,2 1,44 5,76 4 53 ` 57 1 55 5,2 27,04 27,04 5 57 ` 61 P5 i=1 fi 5 59 9,2 84,64 423,20 20 − − − 803,20 Total como x̄ = 49, 80, portanto: r S= 2.6.2 803, 20 p = 42, 27 = 6, 5 20 − 1 Variância A variância de um conjunto de dados é a média dos quadrados dos desvios dos valores a contar da média. A fórmula da variância poderá ser calculada de duas formas: – POPULACIONAL, representada letra grega σ 2 – AMOSTRAL, representada por S 2 1- Variância: (Dados não agrupados) 2 σ = Pn i=1 (xi − µ)2 N ou 2 S = Pn − x̄)2 n−1 i=1 (xi 38 Exemplo: Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a variância deste conjunto de dados. como x̄ = 7, 8 S2 = (3 − 7, 8)2 + (7 − 7, 8)2 + (8 − 7, 8)2 + (10 − 7, 8)2 + (11 − 7, 8)2 = 5−1 S2 = 38, 4 = 9, 7 4 2 - Variância: (Dados Tabulados) Quando os valores vierem dispostos em uma tabela de frequências, o cálculo da variância se fará através da seguinte fórmula: 2 σ = Pn − µ)2 fi N Pn − x̄)2 fi n−1 i=1 (xi ou 2 S = i=1 (xi Exemplo: Tabela 14: Distribuição do número de alunos em 20 turmas da UFCG i Classes fi xi (xi − x̄) (xi − x̄)2 (xi − x̄)2 fi 1 41 ` 45 7 43 -6,8 46,24 323,68 2 45 ` 49 3 47 -2,8 7,84 23,52 3 49 ` 53 4 51 1,2 1,44 5,76 4 53 ` 57 1 55 5,2 27,04 27,04 5 57 ` 61 P5 i=1 fi 5 59 9,2 84,64 423,20 20 − − − 803,20 Total 39 como x̄ = 49, 80 e S = 6, 5, portanto S2 = 2.6.3 803, 20 = 42, 27 19 Coeficiente de Variação Trata-se de uma média relativa à dispersão, útil para a comparação e observação em termos relativos do grau de concentração em torno da média de séries distintas.É dado por: CV = S · 100 x̄ Classificação da distribuição quanto à dispersão: – Dispersão Baixa: CV ≤ 15% – Dispersão Média: 15% < CV < 30% – Dispersão Alta: CV ≥ 30% Exemplo:1 Numa empresa o salário médio dos funcionários do sexo masculino é de R$ 4.000,00, com um desvio padrão de R$ 1.500,00, e os funcionários do sexo feminino é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Então: Sexo Masculino: CV = Sexo Feminino: CV = 1.500 4.000 1.200 3.000 · 100 = 37, 5% · 100 = 40% 40 2.7 Exercícios 1. Classifique as seguintes variáveis como Qualitativas ou Quantitativas (discretas ou contínuas). a) Número de computadores em um laboratório de informática b) Renda familiar c) Volume de Petróleo extraído por hora de uma jazida d) Grupo Sanguíneo e) Qualidade de uma peça produzida f) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de "nao sei") g) Precipitação pluviométrica h) Magnitude de um sismo, na escala Richter i) Tipo de grão de híbrido de milho j) Número de vargens por planta 2. Os dados abaixo referem-se a resistência à ferrugem de 32 híbridos de milho recomendados para a região de Chapecó, SC, safra 1987/88 Tabela 15: Distribuição de frequências da resistência à ferrugem de 32 híbridos de milho recomendados para a região de Chapecó, SC, safra 1987/88 Resistência à ferrugem r fi mr 6 ms 9 s 7 10 Obtenha as frequências relativas fri e construa um gráfico de barras para representar esses dados. 3. As fases principais do método estatístico são: a) Coleta dos dados, amostragem, apresentação tabular e apresentação gráfica e definição dos problemas. b) Amostragem, apresentação tabular, apuração dos dados, interpretação dos dados e planejamento. 41 c)Definição do problema, planejamento, coleta dos dados, apuração, apresentação dos dados, análise e interpretação dos dados. 4. Os dados abaixo referem-se a 12 áreas plantadas de soja na safra de verão em milhões de hectares. 9,7 11,5 13,2 10,7 13,2 9,7 11,6 9,8 13,0 10,4 11,3 13,2 Determine: a) a média, a moda e a mediana das áreas plantadas de soja. b) O desvio padrão, a variância e o coeficiente de variação. 5. Dada a tabela abaixo Tabela 16: Produção agrícola na Paraíba em milhões de Reais, 2004-2009 Ano Produção em milhões de R$ 2004 4,5 2005 5,3 2006 4,9 2007 5,1 2008 6,8 2009 7,1 Construa um gráfico mais apropriado para os dados da tabela. 6. Os dados abaixo relacionados representam o número de focos de incêndios detectados por satélite entre os Estados da Paraíba e Pernambuco nos primeiros 16 dias de Novembro de 2010. 13 18 9 10 6 11 10 14 10 11 15 12 14 8 13 7 Calcular a Média, a Moda, a Mediana, o Desvio padrão, a variância e coeficiente de variação de forma direta (sem construir tabela) dos dados acima. 7. Os dados abaixo referem-se ao consumo de água, em m3 , de 40 famílias de baixa renda de uma determinada cidade no mês de Julho de 2011. 42 Faixa de consumo 10 ` 15 fri 15 ` 20 0,15 20 ` 25 0,30 25 ` 30 0,25 30 ` 35 0,15 35 ` 40 0,05 0,10 a) Obtenha as frequências simples absolutas e construa o histograma. b) Calcule a média, a variância e o desvio padrão. c) Calcule a mediana e a moda d) Qual o percentual de famílias que consumiram pelo menos 25 m3 de água? 8. Um estudo foi realizado por um professor em três turmas, obtendo a média e o desvio padrão das notas de sua disciplina, conforme abaixo. Qual a turma com menor variabilidade? Justifique adequadamente. Turma Média Desvio Padrao A 6,5 2,2 B 8,0 1,7 C 8,0 2,0 9. Quarenta alunos da UFCG foram questionados quanto ao número de livros lidos no ano anterior. Foram registrados os seguintes valores: 4 2 1 0 3 1 2 0 2 1 0 2 1 1 0 4 3 2 3 5 8 0 1 6 5 3 2 1 6 4 3 4 3 2 1 0 2 1 0 3 a) Organize os dados em uma tabela adequada. b) Qual o percentual de alunos que leram menos do que 3 livros. c) Qual o percentual de alunos que leram 4 ou mais livros. d) Calcule a média, a moda e a mediana e) Calcule o desvio padrão, a variância e o coeficiente de variação. 10. (UFPB - 2011)A tabela a seguir apresenta a quantidade exportada de certo produto, em milhares de toneladas, no período de 2000 a 2009. 43 Considerando os dados apresentados na tabela, identifique as afirmativas corretas: I. A quantidade exportada, de 2006 a 2008, foi crescente. II. A média da quantidade exportada, de 2003 a 2006, foi de 53 mil toneladas. III. A moda da quantidade exportada, de 2000 a 2009, foi de 52 mil toneladas. IV. A média da quantidade exportada, de 2000 a 2004, foi maior que a média de 2005 a 2008. V. A mediana da quantidade exportada, de 2000 a 2009, foi de 51 mil toneladas. 11. (UFPB - 2002) O gráfico ao lado mostra a porcentagem de acertos nas questões de um concurso onde havia 12000 inscritos. Com base nos dados apresentados, determine a quantidade de candidatos que acertou pelo menos duas questões. 12. Complete a tabela e indique a mediana da amostra. 44 xi fi 1 2 Fi fri 2 0,025 12 3 58 4 0,2 5 13. De um exame final de Estatística, aplicado a 50 alunos da UFCG em 2011 resultaram as seguintes notas: 4,0 4,2 4,3 4,4 4,5 4,5 4,6 5,0 5,1 5,2 5,3 5,3 5,5 5,7 5,8 6,0 6,1 6,3 6,4 6,5 6,6 6,7 6,8 6,9 7,0 7,2 7,5 7,6 7,7 7,9 8,0 8,3 8,5 8,6 8,8 8,9 9,0 9,1 9,2 9,3 9,3 9,4 9,4 9,5 9,5 9,6 9,7 9,8 9,8 9,9 Construa uma tabela de distribuição de frequências com intervalo de classe por meio da regra de Sturges. Calcule a média, a moda, a mediana, o desvio padrão e o coeficiente de variação das notas após os dados estarem tabulados por classe. 45 3 Probabilidade: Espaço amostral e eventos 3.1 3.1.1 Experimentos Aleatórios Tipos de fenômenos Fenômenos determinísticos: são aqueles em que os resultados são sempre os mesmos, qualquer que seja o número de ocorrências verificadas. Fenômenos aleatórios: são aqueles que, mesmo repetidos várias vezes sob condições semelhantes, apresentam resultados imprevisíveis. Exemplos: – Lançamento de uma moeda honesta; – Lançamento de um dado; – Retirada de uma carta de um baralho completo com 52 cartas; – Determinação da vida útil de um componente eletrônico. 3.2 Espaço Amostral Define-se espaço amostral (Ω) ao conjunto de todos os resultados possíveis de um experimento. Nos exemplos citados anteriormente, os espaços amostrais são: 46 Ω = {c, r} ; Ω = {1, 2, 3, 4, 5, 6} ; Ω = {Ao , . . . , Ko , Ap , . . . , Kp , Ac , . . . , Kc , Ae , . . . , Ke } ; Ω = {t ∈ </t ≥ 0}. 3.3 Eventos Chamamos de evento (E ) a qualquer subconjunto do espaço amostral Ω de um experimento aleatório. Qualquer que seja o evento E , se E ⊂ Ω, então E é um evento de Ω. – Se E = Ω, E é chamado evento certo – Se E ⊂ Ω e E é um conjunto unitário, E é chamado evento elementar. – Se E = φ, E é chamado evento impossível. 3.4 Classe dos eventos aleatórios Definição: é o conjunto formado de todos os eventos (subconjuntos) do espaço amostral. Para efeito de exemplo, consideremos o espaço amostral finito: Ω = {e1 , e2 , e3 , e4 }. A classe dos eventos aleatórios é: φ {e1 }, {e2 }, {e3 }, {e4 } F (Ω) = {e1 , e2 }, {e1 , e3 }, {e1 , e4 }, {e2 , e3 }, {e2 , e4 }, {e3 , e4 } {e1 , e2 , e3 }, {e1 , e2 , e4 }, {e1 , e3 , e4 }, {e2 , e3 , e4 } {e1 , e2 , e3 , e4 } 47 Genericamente, se o número de pontos amostrais de um espaço amostral é n, então o número de eventos de F é 2n . 3.5 Operações com eventos Aleatórios Considere um espaço amostral finito Ω = {e1 , e2 , . . . , en }. Sejam A e B dois eventos de F (Ω). As seguintes operações são definidas. União Definição: A∪B = {ei ∈ Ω/ei ∈ A ou ei ∈ B}, i = 1, . . . , n. Portanto, o evento união é formado pelos pontos amostrais que pertençam a pelo menos um dos conjuntos. Figura 1: A ∪ B Observações: 1) A ∪ B = B ∪ A 2) A ∪ A = A 3) A ∪ φ = A 4) Se A ⊂ B ⇒ A ∪ B = B (em particular A ∪ Ω = Ω) 48 Intersecção Definição: A ∩ B = {ei ∈ Ω/ei ∈ A e ei ∈ B}, i = 1, . . . , n. Portanto, o evento intersecção é formado pelos pontos amostrais que pertença simultâneamente aos eventos A e B . Figura 2: A ∩ B Observações: 1) A ∩ B = B ∩ A 2) A ∩ A = A 3) A ∩ φ = φ 4) Se A ⊂ B ⇒ A ∩ B = A (em particular A ∩ Ω = A) 5) (A ∩ B) ∩ C = A ∩ (B ∩ C) Complementação Definição: Ω − A = Ā = Ac = {ei ∈ Ω/ei ∈ / A} , i = 1, . . . , n. O complemento de um evento A é, portanto, o evento contendo todos os resultados no espaço amostral Ω que não pertençam a A. Observações: 1) (Ac )c = A 2) A ∪ Ac = Ω 3) φc = Ω 4) A ∩ Ac = φ 49 Figura 3: Ā = Ac 5) Ωc = φ Exemplo: Lançam-se duas moedas. Sejam A: saída de faces iguais e B : saída de cara na primeira moeda. Determinar os eventos: A ∪ B , A ∩ B , Ac , B c , (A ∪ B)c , (A ∩ B)c , Ac ∩ B c , Ac ∪ B c , B − A, A − B , Ac ∩ B e B c ∩ A. 3.6 Propriedades das operações Sejam A, B e C eventos associados a um espaço amostral Ω. As seguintes propriedades são válidas: a) IDEMPOTENTES A∩A=A A∪A=A b) COMUTATIVAS A∪B =B∪A A∩B =B∩A c) ASSOCIATIVAS A ∩ (B ∩ C) = (A ∩ B) ∩ C A ∪ (B ∪ C) = (A ∪ B) ∪ C 50 d) DISTRIBUTIVAS A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) e) ABSORÇÕES A ∪ (A ∩ B) = A A ∩ (A ∪ B) = A f) IDENTIDADES A∩Ω=A A∪Ω=Ω A∩φ=φ A∪φ=A g) COMPLEMENTARES Ωc = φ φc = Ω A ∩ Ac = φ A ∪ Ac = Ω (Ac )c = A h) "LEIS DAS DUALIDADES"ou "LEIS DE MORGAN" (A ∩ B)c = Ac ∪ B c (A ∪ B)c = Ac ∩ B c 3.7 Partição de um Espaço Amostral Definição: Dizemos que os eventos A1 , A2 , . . . , An formam uma partição do espaço amostral Ω se: a) Ai 6= φ, i = 1, . . . , n 51 Figura 4: Partição de um Espaço Amostral. b) Ai ∩ Aj = φ para i 6= j c) ∪ni=1 Ai = Ω 3.8 Eventos Mutuamente Exclusivos ou Disjuntos Definição: Dois eventos ditos mutuamente exclusivos ou disjuntos se A e B não puderem ocorrer juntos, ou seja, a realização de um exclui a realização do outro. Segue que A e B são disjuntos se A ∩ B = φ. Figura 5: Eventos Mutuamente Exclusivos ou Disjuntos. 52 3.9 Exercícios 1. Quais das seguintes relações são verdadeiras? (a)(A ∪ B) ∩ (A ∪ C) = A ∪ (B ∩ C). (b) (A ∪ B) = (A ∩ B) ∪ B . (c) A ∩ B = A ∪ B . (d) (A ∪ B) ∩ C = A ∩ B ∩ C . (e) (A ∩ B) ∩ (B ∩ C) = φ. 2. Lançam-se três moedas. Enumerar o espaço amostral e os eventos: (a) faces iguais; (b) cara na primeira moeda; (c) coroa na segunda e terceira moedas. 53 4 4.1 Probabilidade: Definições Definição Clássica de Probabilidade Dado um experimento aleatório, sendo Ω o seu espaço amostral, vamos admitir que todos os elementos de Ω tenham a mesma chance de acontecer, ou seja, que Ω é um conjunto equiprovável. Define-se probabilidade de um evento A (A ⊂ Ω) ao número real P (A), tal que: P (A) = 4.2 n(A) número de resultados favoráveis a A = número de resultados possíveis n(Ω) Definição Axiomática de Probabilidade Para um dado experimento, é necessário atribuir para cada evento A no espaço amostral Ω um número P (A) que indica a probabilidade de A ocorrer. Para satisfazer a definição matemática de probabilidade, este número P (A) deve satisfazer três axiomas específicos: Axioma 1: Para qualquer evento A, P (A) ≥ 0. Axioma 2: P (Ω) = 1. Axioma 3: Para qualquer sequência finita de eventos disjuntos A1 , A2 , . . . , An P n [ i=1 ! Ai = n X i=1 P (Ai ) 54 4.2.1 Propriedades P.1 - P (φ) = 0 P.2 - Para qualquer sequência infinita de eventos disjuntos A1 , A2 , . . . P ∞ [ ! Ai = ∞ X i=1 P (Ai ) i=1 P.3 - Para qualquer evento A, P (Ac ) = 1 − P (A) P.4 - Para qualquer evento A, 0 ≤ P (A) ≤ 1. P.5 - Se A ⊂ B , então P (A) ≤ P (B). P.6 - Para qualquer evento dois eventos A e B P (A ∪ B) = P (A) + P (B) − P (A ∩ B) P.7 - Se os eventos A1 , A2 , . . . , An formam uma partição do espaço amostral, então: n X P (Ai ) = 1 i=1 Exemplo 1: Considere o lançamento de dois dados, sendo os eventos A = {soma dos números igual a 9}, B = {número do primeiro dado maior ou igual a 4} e C = {soma dos números menor ou igual a 4}. Enumere os elementos de A, B, C, A ∩ B e A ∩ C . Obtenha P (A ∪ B) e P (A ∪ C) 55 4.3 Eventos Independentes Suponha que dois eventos A e B ocorram independentes um do outro no sentido que a ocorrência ou não de um deles tenha nenhuma relação e nenhuma influência na ocorrência ou na não ocorrencia do outro. Nessas condições P (A ∩ B) = P (A) · P (B) Definição: Dois eventos são independentes se P (A ∩ B) = P (A) · P (B). Problema Sejam A e B eventos tais que P (A) = 0, 2, P (B) = P , P (A ∪ B) = 0, 6. Calcular P considerando A e B : a) Mutuamente exclusivos; b) independentes. Resolução a) P (A ∩ B) = 0 como P (A ∪ B) = P (A) + P (B) − P (A ∩ B) vem 0, 6 = 0, 2 + p − 0 ∴ P = 0, 4 b) P (A ∩ B) = P (A) · P (B) = 0, 2 · P como P (A ∪ B) = P (A) + P (B) − P (A ∩ B) vem 0, 6 = 0, 2 + P − 0, 2P ∴ 0, 4 = 0, 8P logo, P = 0, 5 4.4 Probabilidade Condicional Se A e B são dois eventos, a probabilidade de A ocorrer, depois B ter acontecido, é representada por P (A/B) (Probabilidade de A dado B ) e é denominada probabilidade condicional de A, depois de B ter ocorrido. É portanto natural definir-se a probabilidade condicional P (A/B) como a proporção 56 da probabilidade total P (B) que é representada pela probabilidade P (A ∩ B). Portanto, tem-se a seguinte definição P (A/B) = P (A ∩ B) , P (B) dado P (B) > 0 Se P (B) = 0 a P (A/B) não é definida ou, equivalentemente P (B/A) = P (A ∩ B) , P (A) dado P (A) > 0 Se P (A) = 0 a P (B/A) não é definida. Tiramos da definição da probabilidade condicional o chamado TEOREMA DO PRODUTO: Sejam A ⊂ Ω e B ⊂ Ω. Então, P (A ∩ B) = P (B) · P (A/B) ou P (A ∩ B) = P (A) · P (B/A). Exemplo: Um grupo de 86 pessoas está assim formado: Escolhendo-se, ao acaso, uma pessoa do grupo, qual a probabilidade de que seja: a) Uma mulher que fez o curso de medicina ? b) Uma pessoa que fez o curso de medicina ? c) Um engenheiro dado que seja homem ? d) Não ser médico dado que não seja homem ? 4.5 Probabilidade Total Seja Ω o espaço amostral de um experimento, e considere K eventos A1 , A2 , . . . , Ak em Ω tal que A1 , A2 , . . . , Ak sejam disjuntos e Sk i=1 Ai = Ω. Diz-se, então, que estes 57 eventos formam uma partição de Ω. Se os eventos A1 , A2 , . . . , Ak formam uma partição de Ω, e B é qualquer outro evento em Ω, então: B = (A1 ∩ B) ∪ (A2 ∩ B) ∪ . . . ∪ (Ak ∩ B) Como os K eventos do lado direito da equação anterior são disjuntos: P (B) = k X P (Ai ∩ B) i=1 Mas P (Aj ∩ B) = P (Aj ) · P (B/Aj ) em que j = 1, 2, . . . , k . Então P (B) = k X P (Aj ) · P (B/Aj ) i=1 Exemplo: Uma urna contém 3 bolas brancas e 2 amarelas. Uma segunda urna contém 4 bolas brancas e 2 amarelas. Escolhe-se, ao acaso, uma urna e dela retirase, também ao acaso, uma bola. Qual a probabilidade de que seja branca? 4.6 Teorema de Bayes Sejam os eventos j = 1, 2, . . . , k que formam uma partição do espaço amostral Ω tal que P (Aj ) > 0 para todo j = 1, 2, . . . , k e seja B qualquer evento tal que P (B) > 0. Então, para i = 1, 2, . . . , k , temos: P (Aj /B) = Pk P (Aj )P (B/Aj ) i=1 P (Ai ) · P (B/Ai ) Prova: Pela definição de probabilidade condicional, (4.1) 58 P (Aj /B) = P (Aj ∩ B) P (B) O numerador da equação (1) é igual a P (Aj ∩ B) e o denominador é igual a P (B) (pela fórmula para probabilidade total). Exemplo: Em uma fábrica de parafusos, as máquinas A, B e C produzem 25, 35 e 40 por cento do total produzido, respectivamente. Da produção de cada máquina, 5, 4 e 2 por cento, respectivamente, são parafusos defeituosos. Escolhe-se ao acaso um parafuso e se verifica ser defeituoso. Qual será a probabilidade de que o parafuso venha da máquina A? Da B? Da C? 59 4.7 Exercícios 1. Dez fichas numeradas de 1 até 10 são misturadas em uma urna. Duas fichas, numeradas (X, Y ), são extraídas da urna, sucessivamente e sem reposição. Qual é a probabilidade de que seja X + Y = 10? (R= 4/45) 2. Considere o conjunto de números inteiros {1, 2, 3, . . . , 19, 20}, e, por meio de um sorteio aleatório, retire um número. Se o número sorteado for ímpar, qual a probabilidade de o número sorteado ser o número 13? ( R = 1/10) 3. A probabilidade de que o aluno A resolva determinado problema é 2/3 e a probabilidade de que o aluno B o resolva é 4/5. Se ambos tentarem independentemente a resolução, qual a probabilidade do problema ser resolvido? ( R = 14/15) 4. Numa festa beneficente, foram vendidos 20 números em uma "rifa", e serão sorteados dois prêmios. Qual a probabilidade de uma pessoa que tenha adquirido quatro números ganhar os dois prêmios? (R = 3/95) 5. Um lote é formado por 10 animais sadios, quatro com problemas menores e dois com problemas graves. Todos os animais são numerados e é feita a escolha de um animal ao acaso. Ache a probabilidade de que: a) ele não tenha problemas; (R =5/8) b) ele não tenha problemas graves; (R = 7/8) c) ele ou seja sadio ou tenha problemas graves. (R = 3/4) 6. Duas bolas vão ser retiradas sem reposição de uma urna que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual a probabilidade de que ambas a) sejam verdes? (R = 1/6) b) sejam da mesma cor? ( R = 5/18) 7. Uma urna contém 5 bolas brancas, 4 vermelhas e 3 azuis. Extraem-se 3 bolas (uma após a outra). Achar a probabilidade de que: a) nenhuma seja vermelha. (R= 14/55) b) exatamente uma seja vermelha. (R = 28/55) c) todas sejam da mesma cor. (R= 4/55) 8. Numa população composta por 200 animais de duas raças X e Y , os animais podem ser fecundos e não fecundos. Vinte por cento dos animais da raça X são 60 fecundos; trinta por cento dos animais da raça Y sao não fecundos e setenta e cinco por cento dos animais são da raça X . Escolhe-se um animal ao acaso. Determine a probabilidade desse animal: a) ser da raça Y dado que é fecundo; (R = 0,55) b) ser não fecundo dado que é da raça Y .( R = 0,30) 9. Uma indústria produz determinado tipo de peça em três máquinas M1 , M2 e M3 . A Máquina M1 produz 40% das peças, enquanto M2 e M3 produzem 30% cada uma. As porcentagens de peças defeituosas produzidas por essas máquinas são respectivamente iguais a 1%, 4% e 3%. Se uma peça é selecionada aleatóriamente da produção total, qual é a probabilidade dessa peça ser defeituosa? (R = 0,025) 10. A urna A contém 3 fichas vermelhas e 2 azuis, e a urna B contém 2 vermelhas e 8 azuis. Joga-se uma moeda honesta. Se a moeda der cara, extrai-se uma ficha da urna A; se der coroa, extrai-se uma ficha da urna B. Uma ficha vermelha é extraída. Qual a probabilidade de ter saído cara no lançamento? (R = 34 ) 11. Num certo colégio, 4% dos homens e 1% das mulheres têm mais de 1,75 de altura. 60% dos estudantes são mulheres. Um estudante é escolhido ao acaso e tem mais de 1,75 m. Qual a probabilidade de que seja homem? ( R = 8 11 = 0, 7272) 12. A e B jogam 120 partidas de xadrez, das quais A ganha 60, B ganha 40 e 20 terminam empatadas. A e B concordam em jogar 3 partidas. Determinar a probabilidade de: a) A ganhar todas a três; (R = 81 ) b) duas partidas terminarem empatadas; (R = c) A e B ganharem alternadamente. (R = 5 ) 72 5 ) 36 13. Em uma prova caíram dois problemas. Sabe-se que 132 alunos acertaram o primeiro, 86 erraram o segundo, 120 acertaram os dois e 54 acertaram apenas um problema. Qual a probabilidade de que um aluno, escolhido ao acaso: a) não tenha acertado nenhum problema? ( R = 37 ) 124 b) tenha acertado apenas o segundo problema? (R = 21 ) 124 14. São retiradas, com reposição, duas cartas de um baralho com 52 cartas. Qual a probabilidade de que as duas sejam de ouros? (R = 1 ) 16 61 15. Um lote de certo tipo de peças é formado de 9 peças boas, 2 com pequenos defeitos e uma com defeito grave. Uma dessas peças é escolhida ao acaso. Determine a probabilidade de que a peça escolhida: a) não tenha defeito; ( R = 34 ) b) não tenha defeito grave. (R = 11 ) 12 16. Suponha que A e B sejam eventos independentes associados a um experimento. Se a probabilidade de A ou B ocorrerem for igual a 0, 6, enquanto a probabilidade da ocorrência de A for igual a 0, 4, determine a probabilidade da ocorrência de B. (R = 0,33) 17. As probabilidades de que dois eventos independentes ocorram são p e q , respectivamente. Qual a probabilidade: a) de nenhum desses eventos ocorra? (R = (1 − p)(1 − q)) b) de que pelo menos um desses eventos ocorra? ( R = (p + q − pq)) 62 5 5.1 Variáveis Aleatórias discretas Variáveis Aleatórias Definição: Considere um experimento para o qual o espaço amostral é denotado por Ω. Define-se variável aleatória como uma função que associa um valor real a cada elemento do espaço amostral. X : Ω −→ < Representa-se as variáveis aleatórias por letras maiúsculas e suas ocorrências por letras minúsculas. Exemplo Suponha o experimento "lançar três moedas". Seja X: número de ocorrências da face cara . O espaço amostral do experimento é: Ω = {(c, c, c), (c, c, r), (c, r, c), (c, r, r), (r, c, c), (r, c, r), (r, r, c), (r, r, r)} Se X é o número de caras, X assume os valores 0, 1, 2 e 3. 63 Definição: Seja X uma variável aleatória (v.a.). Se o número de valores possíveis de X (isto é, o seu contradomínio), for finito ou infinito enumerável, denominamos X de variável aleatória discreta. Definição: Seja X uma variável aleatória discreta. Portanto, o contradomínio de X será formado por um número finito ou enumerável de valores x1 , x2 , . . .. A cada possível resultado xi , associaremos um número p(xi ) = P (X = xi ), i = 1, 2, 3, . . ., denominado probabilidade de xi . Os números p(xi ) devem satisfazer às seguintes condições: a) p(xi ) ≥ 0, b) P∞ i=1 p(xi ) = 1 A função p definida acima, é denominada função de probabilidade da variável aleatória X . A coleção de pares [xi , p(xi )], i = 1, 2, . . ., é denominada distribuição de probabilidade. Exemplo Lançam-se dois dados. Seja a v.a. X: soma das faces. Determinar a distribuição de probabilidade da variável aleatória X. 64 5.2 Esperança de uma Variável Aleatória Discreta Suponha que uma variável aleatória X possua uma distribuição discreta cuja função é p(x). A esperança de X , denotada por E(X), é um número definido por: µ = E(X) = X x · p(x) x Exemplo: Suponha que uma v.a. X possa assumir somente quatro valores: -2, 0, 1 e 4, e que P (X = −2) = 0, 1; P (X = 0) = 0, 4; P (X = 1) = 0, 3; P (X = 4) = 0, 2. Então: E(X) = −2 · (0, 1) + 0 · (0, 4) + 1 · (0, 3) + 4 · (0, 2) = 0, 9 Propriedades da Esperança P1. Se a é uma constante qualquer E(a) = a P2. Se a é uma constante qualquer E(aX) = a · E(X) P3. Se X1 , X2 , . . . , Xn são n variáveis aleatórias tais que E(Xi ) existe (i = 1, 2, . . . , n), então E(X1 + X2 + . . . + Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn ). P4. Se X1 , X2 , . . . , Xn são n variáveis aleatórias independentes tais que E(Xi ) existe (i = 1, 2, . . . , n), então 65 E Πni=1 Xi = Πni=1 E(Xi ) 5.3 Variância de uma Variável Aleatória Discreta Definição: Suponha que X é uma v.a. com média µ = E(X). A variância de x, representada por V (X) é definida por V (X) = E[(x − µ)2 ] V (X) = E(X 2 ) − [E(X)]2 Variáveis Aleatórias Discretas Suponha que uma v.a. X possua uma distribuição discreta, cuja função é p(x). Então V (X) = X X x2 · p(x) − µ2 (x − µ)2 · p(x) = x x Exemplo: Suponha que uma v.a. X possa assumir somente quatro valores: -2, 0, 1 e 4, e que P (X = −2) = 0, 1; P (X = 0) = 0, 4; P (X = 1) = 0, 3; P (X = 4) = 0, 2. Como visto anteriormente, E(X) = 0, 9. Então V (X) = P x (x − µ)2 · p(x) = (−2 − 0, 9)2 · (0, 1) + (0 − 0, 9)2 · (0, 4) + (1 − 0, 9)2 · (0, 3) + (4 − 0, 9) · (0, 2) = 3, 09 Propriedades da Variância P1. V (c) = 0 se e somente se c for uma constante. P2. V (aX) = a2 V (X). sendo a constante 66 P3. V (aX + b) = a2 V (X). com a e b constantes P4. V (X ± Y ) = V (X) + V (Y ) ± 2cov(X, Y ). 5.4 Função de Distribuição Acumulada Definição: A função de distribuição da variável aleatória X , representada por Fx ou simplesmente F , é definida por: FX (x) = P (X ≤ x) =xi ≤x P (xi ) Observações: a) A função de distribuição de X é também frequentemente chamada de função de distribuição acumulada de X . b) A função FX (x) é não-decrescente quando x aumenta, isto é, se x1 < x2 , então FX (x1 ) ≤ FX (x2 ). c) 0 ≤ F (x) ≤ 1 d) P (a < X ≤ b) = F (b) − F (a) e) P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a) f) P (a < X < b) = F (b) − F (a) − P (X = b) g) Para qualquer valor de x P (X > a) = 1 − F (a) Teoremas a) Se X for uma variável aleatória discreta, FX (x) = X j P (xj ) 67 onde o somatório é estendido a todos os índices j que satisfaçam a condição xj ≤ x Exemplo Suponhamos que a v.a. X tome os três valores 0,1, e 2, com probabilidades 1/3, 1/6 e 1/2, respectivamente. Então: O gráfico de F está apresentado na Figura abaixo 68 5.5 Exercícios 1. Suponha que 0,4; 0,3; 0,2 e 0,1, respectivamente, sejam as probabilidades de que nenhum, um dois ou três problemas com energia afetarão certa subdivisão durante dado ano. Determine a média e a variância da variável aleatória X que representa o número de problemas com energia que afeta essa subdivisão. 2. As probabilidades de que haja 0, 1, 2, 3 ou 4 partes defeituosas em uma máquina quando três partes são amostradas da linha de produção são, respectivamente: 0,05; 0,20; 0,40; 0,25 e 0,10. Determinar: a) o número médio de partes defeituosas; b) a variância V (X) ; c) F (X) e esboçar seu gráfico. d) P (2 < X ≤ 4). 3. A função de probabilidades da variável aleatória X é: P (X) = 15 , para X = 1, 2, 3, 4, 5. a) Calcule E(X) e V (X) b) Calcule P (X ≥ 2) e P (X < 4) c) Determine F (X) e esboce seu gráfico. 4. Suponha que a duração X de uma ligação telefônica, em minutos, seja dada pela seguinte distribuição de probabilidades: X 1 P (X) 0,2 2 0,5 3 0,2 4 0,1 a) Determine P (X ≤ 3) e P (2 ≤ X ≤ 3). b) Calcule E(X) e V (X). c) Obtenha F (X) e esboçe seu gráfico. 5. Uma urna tem 4 bolas brancas e 3 pretas. Retiram-se 3 bolas sem reposição. Seja X : número de bolas brancas, determinar a distribuição de probabilidades de X . 6. Fazer o exercício anterior considerando extração com reposição. 69 7. Um jogo consiste em se retirar, ao acaso, uma bola de uma caixa contendo 5 bolas brancas, 3 pretas e 2 vermelhas. Se a bola selecionada for branca ganhase R$ 10,00 e se for preta ou vermelha perdem-se, respectivamente, R$ 5,00 e R$ 15,00. Qual é o lucro médio do jogo? 8. Calcule a esperança e a variância de g(X) = 2X + 3, onde X é a variável aleatória com distribuição de probabilidade X 0 P (X) 1/4 1 1/8 2 1/2 3 1/8 70 6 6.1 Distribuições Teóricas de Probabilidades de Variáveis Aleatórias Discretas Distribuição de Bernoulli Consideremos uma única tentativa de um experimento aleatório. Podemos ter sucesso ou fracasso nessa tentativa. Seja p a probabilidade de sucesso e q a probabilidade de fracasso, com p + q = 1, ou seja, q = 1 − p. Seja X : número de sucessos em uma única tentativa do experimento. X assume o valor 0 que corresponde ao fracasso, com probabilidade q , ou o valor 1, que corresponde ao sucesso, com probabilidade p. P (X = 0) = q e P (X = 1) = p Nessas condições a variável aleatória X tem distribuição de BERNOULLI, e sua função de probabilidade é dada por: P (X = x) = px · q 1−x A esperança da distribuição de Bernoulli é E(X) = p e sua variância é V (X) = pq Exemplo: Uma urna contém 15 bolas brancas e 25 bolas vermelhas. Uma bola é 71 retirada da urna e a variável aleatória X anota o número de bolas brancas obtidas. Calcule a média e a variância de X e determinar P (X). Solução: X=0→q= 25 40 = 5 8 X=1→p= 15 40 = 3 8 P (X = x) = ( 38 )x ( 58 )1−x E(X) = p = 3 8 V (X) = pq = 6.2 3 8 · 5 8 = 15 64 Distribuição Binomial Consideremos n tentativas independentes de um mesmo experimento aleatório. Cada tentativa admite apenas dois resultados: fracasso com probabilidade q e sucesso com probabilidade p, p + q = 1. As probabilidades de sucesso e fracasso são as mesmas para cada tentativa. Seja X : número de sucessos em n tentativas. Determinaremos a função de probabilidades da variável X , isto é, P (X = k). Logo, n k n−k P (X = k) = p q k A variável X tem distribuição binomial, com parâmetros n e p, e indicaremos pela notação X ∼ B(n, p) 72 Exemplo: Será extraida uma amostra de 5 indivíduos de uma grande população, onde 60% são do sexo feminino. Qual a probabilidade de: a) exatamente 3 dos indivíduos escolhidos ser do sexo feminino? b) pelo menos um dos indivíduos ser do sexo feminino? c) ao menos 3 (uma maioria) ser do sexo feminino ? Solução: Se X é a v.a. que representa o número de indivíduos que são do sexo feminino, temos que X segue uma distribuição binomial, cuja probabilidade de "sucesso" (ser do sexo feminino) em cada tentativa é 0,60. Portanto, a) 5 P (X = 3) = (0, 6)3 (0, 4)2 = 0, 3456 3 b) A probabilidade que pelo menos um dos indivíduos ser do sexo feminino é dada por 5 1 − P (X = 0) = 1 − (0, 6)0 (0, 4)5 = 1 − 0, 0102 = 0, 9898 0 c) A probabilidade que ao menos 3 (uma maioria) ser do sexo feminino é dada por P(X = 3) + P(X = 4) + P(X = 5), ou seja: 5 5 5 3 2 4 1 (0, 6) (0, 4) + (0, 6) (0, 4) + (0, 6)5 (0, 4)0 = 0, 6826 3 4 5 6.2.1 Média e Variância de uma v.a. com Distribuição Binomial Se X ∼ B(n.p) → P (X = k) = n k k n−k p q então E(X) = n · p e V (X) = n · p · q Exemplo: Em 100 lances de uma moeda honesta, determeine a média e a variância do número de caras. 73 p= 1 2 eq= 1 2 logo, E(X) = np = 100 · 1 2 = 50 V (X) = npq = 100 · 12 · 6.3 1 2 = 25 Distribuição de Poisson Seja X uma v.a. com distribuição discreta, e suponha que X assuma valores inteiros não negativos. É dito que X possui uma distribuição de Poisson com média λ onde (λ > 0) se a função de probabilidade de X é dada por: P (X = k) = e−λ λk k! k = 0, 1, 2, 3, . . . em que X o número de sucessos no intervalo Observação:O símbolo e representa uma constante que é aproximadamente igual a 2,7183. O seu nome é uma homenagem ao matemático suiço I. Euler, e constitui a base do chamado logaritmo natural. A distribuição de Poisson é muito usada na distribuição do número de: 1. carros que passam por um cruzamento por minuto, durante uma certa hora do dia; 2. erros tipográficos por página, em um material impresso; 3. defeitos por unidade (m2 , m3 , m, etc.) por peça fabricada; 4. mortes por ataque de coração por ano, numa cidade. É aplicada também em problemas de filas de espera em geral, e outros. A esperança E(X) = λ e a variância V (X) = λ. 74 A v.a. de P oisson tem um amplo range de aplicações em uma grande variedade de áreas, porque se emprega como uma aproximação para uma v.a. binomial com parâmetros (n, p) quando n é grande e p é pequeno. Supondo que X é uma v.a. binomial com parâmetros (n; p) então λ = np. Exemplo 1: Se a probabilidade de um indivíduio sofrer uma reação nociva, resultante de ter tomado um certo soro é 0,001, determinar a probabilidade de que, entre 2000 indivíduos: a) exatamente três sofrerem a reação; Solução Seja X a v.a. que representa o número de pessoas que sofrem a reação nociva após injerir o soro. Então, P (X = k) = e−λ λk k! k = 0, 1, 2, 3, . . . onde λ = 2000 · 0, 001 = 2. Logo, P (X = 3) = e−2 23 = 0, 18 3! b) mais do que dois sofrerem a reação. P (X ≥ 3) = 1 − P (X ≤ 2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] =1−[ e−2 20 e−2 21 e−2 22 + + ] = 0, 323 0! 1! 2! Exemplo 2: Numa central telefônica chegam 300 telefonemas por hora. Qual a probabilidade de que: a) num minuto não haja nenhum chamado X : número de chamadas por minuto λ = 5 75 P (X = 0) = e−5 50 = 0, 006738 0! b) em 2 minutos haja 2 chamados dois minutos λ = 10 P (X = 2) = e−10 102 = 0, 002270 2! 76 6.4 Exercícios 1. Retira-se uma bola de uma urna contendo 30 bolas brancas e 20 verdes. Qual a probabilidade dessa bola ser verde? 2. Seja X ∼ Bernoulli(p) Mostre que E(X) = p e V (X) = pq , q = 1 − p 3. A probabilidade de que certo tipo de componente sobreviverá a um teste de choque é de 3/4. Determine a probabilidade de que exatamente dois dos próximos quatro componentes testados sobrevivam. (R = 27/128) 4. Uma grande rede varesjista compra certo tipo de equipamento eletrônico de um fabricante. O fabricante indica que a taxa de equipamentos com defeito é de 3%. O inspetor da rede seleciona 20 ítens de um carregamento. Qual é a probabilidade de que haja pelo menos um ítem defeituoso entre esses 20? (R = 0,4562) 5. De acordo com a publicação Chemical Energineerring Progress (nov. 1990) aproximadamente 30% de todas as falhas nas tubulações das indústrias são causadas por erro do operador. Qual é a probabilidade de que não mais que quatro de 20 falhas sejam causadas por erro do operador? (R = 0,2375) 6. Se a probabilidade de uma lâmpada fluorescente ter vida útil de pelo menos 800 horas é de 0,9, determine a probabilidade de que, entre 20 lâmpadas, a) exatamente 18 terão vida útil de pelo menos 800 horas. (R = 0,2852) b) pelo menos 15 terão vida útil de pelo menos 800 horas. (R = 0,9887) c) pelo menos duas não terão vida útil de pelo menos 800 horas. (R = 0,6083) 7. Uma loja tem um lote de 10 fechaduras, das quais 5 têm defeitos. Se uma pessoa comprar 3 fechaduras, qual a probabilidade de encontrar no máximo uma defeituosa? 8. Em 10 lançamentos de uma moeda honesta, qual é a probabilidade de observarmos a) exatamente 5 caras? b) entre 3 e 7 caras? c) mais do que 7 caras? 77 9. Uma empresa produz 10% de peças defeituosas. As peças são embaladas em caixas que contém 12 peças. Calcule a probabilidade de um cliente comprar uma caixa contendo: a) nenhuma peça defeituosa; b) uma peça defeituosa. 10. Uma cia de seguros descobriu que somente cerca de 0,1 por cento da população está incluída em certo tipo de acidente por ano. Se seus 10000 segurados são escolhidos, ao acaso, na população, qual é a probabilidade de que não mais do que 5 de seus clientes venham a estar incluídos em tal acidente no próximo ano? 11. Supondo que o número de carros que chegam numa fila do guichê de um pedágio tem distribuição de Poisson a uma taxa de três por minuto, calcule a probabilidade de que cheguem cinco carros nos próximos dois minutos. 12. Um caixa de banco atende 150 clientes por hora. Qual a probabilidade de que atenda: a) Nenhum cliente em 4 minutos b) No máximo dois clientes em 2 minutos 13. Uma empresa geralmente compra grandes lotes de certo tipo de equipamento eletrônico. O método utilizado rejeita o lote se dois ou mais ítens com defeitos forem encontrados em uma amostra aleatória de 100 unidades. a) Qual a probabilidade de rejeição de um lote se há 1% de ítens defeiuosas? b) Qual a probabilidade de aceitação de um lote se há 5% de ítens defeiuosas? 78 7 Variáveis Aleatórias contínuas 7.1 Definições Definição: Seja X uma variável aleatória. Suponha que <x , o contra-domínio de X , seja um intervalo ou uma coleção de intervalos. Então diz-se que X é uma variável aleatória contínua. Definição: Seja X uma variável aleatória contínua. A função densidade de probabilidade f , indicada abreviadamente por f.d.p., é uma função f que satisfaz as seguintes condições: a) f (x) ≥ 0, x ∈ <x b) R <x f (x)dx = 1 Além disso, define-se, para qualquer c < d (em <x ) Z P (c < x < d) = d f (x)dx c Observações: a) P (c < x < d) representa a área sob a curva da f.d.p. f , entre os pontos x = c e x = d. b) Constitui uma consequência da descrição probabilística de X que, para qualquer valor especificado de X , digamos x0 , teremos P (X = x0 ) = 0, porque P (X = x0 ) = R x0 x0 f (x)dx = 0. 79 7.2 Função de Distribuição Acumulada Definição: A função de distribuição da variável aleatória X , representada por Fx ou simplesmente F , é definida por: FX (x) = P (X ≤ x) Teorema a) Se X for uma variável aleatória contínua com f.d.p f então: Z x f (s)ds FX (x) = −∞ Suponha que X seja uma variável contínua com f.d.p. O gráfico está apresentado na Figura abaixo Figura 6: Meyer, página 75. 80 7.3 Esperança de uma Variável Aleatória Contínua Se uma variável aleatória X possui uma distribuição contínua com f.d.p. f (x), então a esperança E(X) é definida por: Z ∞ x · f (x)dx µ = E(X) = −∞ Exemplo: Suponha que f.d.p. de uma v.a. X com uma distribuição contínua seja: ( f (x) = 2x para 0 < x < 1 0 Então E(X) = 7.4 R1 0 x · (2x)dx = R1 0 caso contrário 2x2 dx = 2x3 3 |10 = 2 3 Variancia de uma Variável Aleatória Contínua Suponha que uma v.a. X possua uma distribuição contínua, cuja f.d.p. é f (x). Então Z ∞ Z 2 ∞ (x − µ) f (x)dx = V (X) = −∞ x2 f (x)dx − µ2 −∞ Exemplo: Suponha que f.d.p. de uma v.a. X com uma distribuição contínua seja: ( f (x) = 2x para 0 < x < 1 0 caso contrário Como visto anteriormente, E(X) = 32 . Então V (x) = R1 0 x2 (2x)dx − ( 23 )2 = R1 0 2x3 dx − ( 23 )2 = 2x4 4 |10 −( 23 )2 = 2 4 − 4 9 = 2 36 81 7.5 Exercícios 1. Sendo f (x) = Kx3 a densidade de uma variável aleatória contínua no intervalo 0 < x < 1, determine o valor de K. 2. Uma variável aleatória contínua X é definida pela seguinte função densidade: ( f (x) = 3 (x 2 − 1)2 se 0 ≤ x ≤ 2 0 caso contrário Determinar: a) A média. b) A variância. 3. O diâmetro X de um cabo elétrico é uma variável aleatória contínua com função densidade de probabilidade dada por: ( f (x) = K(2x − x2 ) se 0 ≤ x ≤ 1 0 se x < 0 ou x > 1 a) Determinar K. b) Calcular E(X) e V (X). c) Calcular P (0 ≤ x ≤ 1/2). 4. Determinar a média e a variância de X , cuja f.d.p. é dada por: ( f (x) = 2 x2 se 1 ≤ x ≤ 2 0 se x < 1 ou x > 2 5. Dada a função ( f (x) = 2e−2x se x ≥ 0 0 se x < 0 a) Mostre que esta é uma f.d.p. b) Calcule a probabilidade de X > 10. 6. A duração de uma lâmpada é uma variável aleatória T , cuja f.d.p. é: ( f (t) = t 1 e− 1000 1000 para t ≥ 0 (em horas) 0 se t < 0 82 Calcular a probabilidade de uma lâmpada: a) Se queimar antes de 1.000 horas. b) Durar entre 800 e 1.200 horas. 7. Uma variável aleatória contínua tem a seguinte fdp: f (x) = 2kx se 0 ≤ x < 3 kx 0 para 3 ≤ x < 5 caso cantrário Determinar o valor de k, a média e a variância da variável aleatória. 8. O número total de horas, medido em unidades de 100 horas, que uma família utiliza o aspirador de pó em sua casa, durante o período de um ano, é uma variável aleatória contínua X , que tem função de densidade f (x) = x se 0 < x < 1 2 − x para 1 ≤ x < 2 0 caso cantrário Determine a probabilidade de que, durante o período de um ano, a família use o aspirador a) menos de 120 horas; b) entre 50 e 100 horas. 83 8 8.1 Distribuições Teóricas de Probabilidades de Variáveis Aleatórias Contínuas Distribuição Uniforme Usada comumente nas situações em que não há razão para atribuir probabilidades diferentes a um conjunto possíveis de valores da variável aleatória em um determinado intervalo. Uma variável aleatória contínua X , definida no intervalo [a, b], tem distribuição Uniforme se sua função densidade de probabilidade for especificada por ( f (x) = k para a≤x≤b 0 para x < a ou x > b O valor de k pode ser obtido da seguinte forma Z b k dx = 1 a k · x |ba = 1 k= Logo, 1 b−a 84 f (x) = 1 b−a 0 para a≤x≤b para x < a ou x > b Sua Função de distribuição F (X) é dada por Z a x 1 x−a ds = b−a b−a Sua média E(X) e Variância V (X) são dados por E(X) = b+a 2 e V (X) = (b−a)2 12 Exemplo: Um ponto é escolhido ao acaso no intervalo [0,2]. Qual a probabilidade de que esteja entre 1 e 1,5? 8.2 Distribuição Normal A distribuição Normal, também conhecida por distribuição Gaussiana, segunda lei de Laplace, Laplace, Laplace-Gauss, de Moivre, é uma família importante das distribuições contínuas de probabilidade, aplicável em muitas áreas (JOHNSON e KOTZ, 1970). Suas propriedades, além de fundamentar decisões, medir e prevenir riscos e até explicar curiosidades, descrevem bem variáveis como comprimento de pinos e diâmetros de discos, altura, peso, inteligência e tempo de gestação de seres vivos, rendas e despesas de famílias ou categorias profissionais, rendimentos de máquinas e campos de trigo, qualidade do ar, velocidade de molécula, distribuições diamétricas e volumétricas de árvores, etc. Cada membro dessa família pode ser definido por dois parâmetros, locação e escala: a média µ e a variância σ 2 , respectivamente. A distribuição normal padrão possui média zero e variância um (JOHNSON e KOTZ, 1970). Uma variável normal, de modo geral, retrata bem fenômenos cujo efeito final corresponde à soma de múltiplas causas ou é afetado por diversas variáveis independentes (típico de variáveis físico químicas, socioeconômicas, psicossociais, etc). 85 Carl Friedrich Gauss em 1809 se tornou associado com essa distribuição quando ele analizou dados astronomicos, e definiu a equação desta densidade de probabilidade. Ela é frequentemente chamada de curva de sino porque o gráfico da sua densidade de probabilidade se assemelha um sino (JOHNSON e KOTZ, 1970). Definição: Dizemos que uma v.a. X possui uma distribuição Normal (ou Gaussiana) com média µ e variância σ 2 (−∞ < µ < ∞ e σ > 0) se X possuir uma distribuição contínua com função densidade de probabilidade dada por: 1 1 f (x) = √ e− 2 σ 2π 8.2.1 x−µ σ 2 para −∞<x<∞ Média E(X) = µ V (X) = σ 2 Usaremos a seguinte notação: X ∼ N (µ, σ 2 ) 8.2.2 Distribuição Normal Padrão A distribuição normal com média zero (µ = 0) e variância um (σ 2 = 1) é denominada distribuição normal padrão N (0, 1). A função densidade de probabilidade de uma distribuição normal padrão é em geral representada por φ(x) e dada por x2 1 φ(x) = √ e− 2 2π Se uma variável X tem uma distribuição normal com média µ e variância σ 2 , então a variável 86 Z= X −µ σ Z é chamada de Variável Normal Reduzida, Normal Padronizada ou Variável Normalizada. As probabilidades para uma distribuição normal com qualquer média e variância podem ser determinadas através de Tabelas de uma distribuição normal padrão. Como ilustração, na Figura 1 é apresentado o gráfico da função normal representada com diferentes parametrizações. Figura 7: Densidade da distribuição normal segundo diferentes parametrizações. Exemplos do uso da Tabela 1. Seja X ∼ N (100, 25). Calcular a) P (100 ≤ X ≤ 106) b) P (89 ≤ X ≤ 107) 87 c) P (X ≤ 114) d) P (X ≥ 108) Resolução µ = 100 e σ = 5, Z = X−100 . 5 a) P (100 ≤ X ≤ 106) = P (0 ≤ Z ≤ 1, 2) = P (Z ≤ 1, 2) − P (Z ≤ 0) = 0, 8849 − 0, 5000 = 0, 3849 b) P (89 ≤ X ≤ 107) = P (−2, 2 ≤ Z ≤ 1, 4) = P (Z ≤ 1, 4) − P (Z ≤ −2, 2) = 0, 9192 − 0, 0139 = 0, 9053 c) P (X ≤ 114) = P (Z ≤ 2, 8) = 0, 9918 d) P (X ≥ 108) = P (Z ≥ 1, 6) = 1 − P (Z ≤ 1, 6) = 1 − 0, 9452 = 0, 0548 2. Supor uma população em que o peso dos indivíduos seja distribuido normalmente com média 68 kg e desvio padrão 4 kg. Determinar a proporção de indivíduos a) abaixo de 66 kg b) acima de 72 kg c) entre 66 e 72 kg a) P (X < 66) = P (Z < −0, 5) = 0, 3085 b) P (X > 72) = P (Z > 1) = 1 − P (Z ≤ 1) = 1 − 0, 8413 = 0, 1587 c) P (66 < X < 72) = P (−0, 5 < Z < 1) = P (Z < 1) − P (Z < −0, 5) = 0, 8413 − 0, 3085 = 0, 5328 88 8.3 Exercícios 1. A dureza H de uma peça de aço pode ser pensada como uma variável aleatória com distribuição uniforme no intervalo [50,70] da escala Rockwel. Calcular a probabilidade de que uma peça tenha dureza entre 55 e 60. 2. A variável aleatória X tem distribuição uniforme com parâmetros a = 5 e b = 10. Calcule as probabilidades: a) P (X < 7) b) P (8 < X < 9) c) P (X > 8, 5) 3. A distribuição da altura de plantas de Amaranthus hybridus, X , pode ser aproximada por uma distribuição normal de média 29,7 cm e desvio padrão 2,7 cm. A probabilidade de uma planta apresentar altura: a) entre 29,7 e 32,0 cm? b) acima de 32,0 cm? c) abaixo de 30,0 cm? 4. Certo tipo de armazenados de bateria dura, em média, três anos, com desvio padrão de 0,5 ano. Assumindo que a vida dos armazenadores é distribuída normalmente, encontre a probabilidade de que certo armazenador dure pelo menos 2,3 anos. 5. Uma indústria elétrica fabrica lâmpadas que têm vida útil, antes de queimarem, normalmente distribuída com média igual a 800 horas e desvio padrão de 40 horas. Encontre a probabilidade de que uma lâmpada queime entre 778 e 834 horas. 6. Certa máquina fabrica resistores elétricos com uma resistência média de 40 ohms e desvio padrão de 2 ohms. Supondo que a resistência siga uma distribuiçao normal e que pode ser medida para qualquer grau de acuidade, qual é a porcentagem de resistores que terão uma resistência excedendo 43 ohms? 7. O diâmetro de uma cabo elétrico é normalmente distribuído com média 0,8 e desvio padrão 0,02. Qual é a probabilidade de que o diâmetro ultrapasse 0,81? 8. Vamos supor que uma galinha da linhagem Shaver 579 produza, em um período de 72 semanas, 200 ovos em média, com variância de 49 ovos, e que esta var- 89 iável (produção de ovos) apresente distribuição aproximadamente Normal. Calcule a probabilidade de uma galinha dessa linhagem produzir, em 72 semanas, um número entre 190 e 210 ovos. 9. As massas das peças de um determinado lote têm distribuição normal, com média de 65,3 g e desvio padrão de 5,5 g. Encontre a probabilidade de peças com massas: a) entre 60 e 70 g; b) superiores a 63,2 g. 90 9 9.1 Teoria da Amostragem Introdução Um problema de inferência estatística é um problema no qual os dados de uma certa população com uma distribuição de probabilidade desconhecida precisa ser analizado, e algum tipo de inferência sobre essa distribuição desconhecida precisa ser feito. Essa inferência é feita através dos dados de uma amostra. 9.2 Parâmetros e Estatísticas Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada. Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as teorias inferênciais para que possamos fazer conclusões sobre a população. 91 9.3 Técnicas de amostragem O pesquisador procura tirar conclusões a respeito de um grande número de sujeitos. Por exemplo, ele poderia desejar estudar: – Os 190.000.000 de cidadãos que constituem a população brasileira. – Os 1.000 membros de um sindicato. – Os 45.000 estudantes de intercâmbio e assim sucessivamente. Se o pesquisador trabalha com todo o grupo que ele tenta compreender, dizemos que está trabalhando com a POPULAÇÃO. 9.4 Conceitos Iniciais Antes de iniciar o estudo da teoria da amostragem é necessário conhecer alguns conceitos básicos. População: O conjunto da totalidade dos indivíduos sobre o qual se faz uma inferência recebe o nome de população ou universo. A população congrega todas as observações que sejam relavantes para o estudo de uma ou mais seres animados ou inanimados. Em linguagem mais formal, a população é o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Amostra: A amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz um juízo ou inferência sobre as características da população. Censo: é a coleção de dados relativos a todos elementos da população. Estatística: é a medida numérica que descreve uma característica da amostra. Parâmetro: é a medida numérica que descreve uma característica da população. Variável: uma característica de uma unidade que será medida a partir daquela unidade da amostra. Unidade: qualquer elemento individual da população. 92 9.5 Amostragem Esta é a ideia essencial da amostragem: obter informação sobre o todo, examinando apenas uma parte. Exemplos da utilização da amostragem: – Sondagens à opinião pública que servem para conhecer a opinião da população sobre variadas questões. As mais populares são as sondagens políticas. – Inspeção de mercado utilizada com o intuito de descobrir as preferências das pessoas em relação a certos produtos. Um dos exemplos mais conhecidos da aplicação desta amostragem é a lista de audiências dos programas de televisão. – Censo (recenseamento da população) que tem como objectivo obter informação relativa ao número de ocupantes, idade, sexo, parentesco entre eles, etc. de cada habitação do país. – Amostragem de aceitação que consiste na seleção e inspeção cuidada de uma amostra retirada de uma encomenda enviada pelo fornecedor. Baseado no estado da amostra, toma-se a decisão de aceitar ou rejeitar a encomenda. O pesquisador busca generalizar conclusões referentes à AMOSTRA, estendendoas para toda a POPULAÇÃO da qual essa amostra foi extraída. As regras de amostragem podem ser classificadas em duas categorias: Probabilística: São amostragem em que a seleção é aleatória de tal forma que cada elemento tem igual probabilidade de ser sorteado para amostra. Não-probabilística: São amostragens em que há uma escolha deliberada dos elementos da amostra. 9.5.1 As Amostras Probabilísticas Os métodos de amostragem probabilística servem para assegurar uma certa precisão na estimação dos parâmetros da população, reduzindo o erro amostral. A principal característica dos métodos de amostragem probabilística reside no fato de que cada elemento da população tem uma probabilidade conhecida e diferente de zero, de ser escolhida, quando da tiragem ao acaso para fazer parte da amostra. 93 O objetivo desta abordagem é obter a melhor representatividade possível. Os tipos de amostragem probabilísticas são: Amostragem Aleatória Simples, Amostragem Aleatória Estratificada, Amostragem por Conglomerados e Amostragem Sistemática. 9.5.2 Amostragem Aleatória Simples A Amostragem aleatória simples é uma técnica segundo a qual cada um dos elementos (sujeitos) que compõe a população alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. A amostragem aleatória simples consiste em elaborar uma lista numérica de elementos de onde se tira, com a ajuda de uma tabela de números aleatórios, uma série de números para constituir a amostra. Exemplo: Vamos retirar uma amostra para uma pesquisa de estatura de quarenta alunos de uma sala de aula. a) Numeramos os alunos de 01 a 40. b) Escrevemos os números, de 01 a 40, em pedaços de papel, colocando-os dentro de uma urna. Mexemos a urna para misturar bem os papéis, e retiramos, um a um, quatro números que farão parte da amostra. Neste exemplo o tamanho da amostra é igual a 10% da população mas este percentual pode variar dependendo do tamanho da população que está sendo estudada. 9.5.3 Amostragem Aleatória Estratificada A Amostragem aleatória estratificada é uma variante da amostra aleatória simples. Esta técnica consiste em dividir a população alvo em subgrupos homogéneos chamados "estratos"e a seguir tirar de forma aleatória uma amostra de cada estrato. A Amostragem aleatória estratificada é utilizada quando a população inteira é reconhecida por certas características precisas, tais como a idade, o sexo, a incidência de uma condição de saúde, tudo isto para assegurar a melhor representatividade possível. 94 9.5.4 Amostragem por Conglomerados Algumas populações não permitem, ou tornam-se extremamente difíceis que se identifiquem seus elementos, mas podemos identificar subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) podem ser escolhida, e uma contagem completa deve ser feita no conglomerado sorteado. Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc. 9.5.5 Amostragem Sistemática Consiste quando existe uma lista ordenada de elementos da população. Esta técnica consiste K elementos dessa lista sendo o primeiro elemento da amostra retirado ao acaso. O intervalo entre os elementos corresponde à razão entre o tamanho da população e da amostra. Exemplo: Se pretender uma amostra de 100 indivíduos e a população for de 1000 o sistema será r = 1000/100 = 10 (dez em dez é o sistema), isto é, será incluído um elemento da lista de 10 em 10 indivíduos a partir do primeiro número sorteado. 9.6 Amostragem Não-probabilística A amostragem não-probabilística é a amostragem subjetiva, ou por julgamento, onde a variabilidade amostral não pode ser estabelecida com precisão, consequentemente, não é possível nenhuma estimativa do erro amostral. Se o tamanho da amostra é bem pequeno; digamos, de uns 5 itens, a amostragem aleatória pode dar resultados totalmente não representativos, ao passo que uma pessoa familiarizada com a população pode especificar quais os itens mais representativos da população. 9.7 Erros no processo de amostragem Não há dúvida de que uma amostra não representa perfeitamente uma população. Ou seja, a utilização de uma amostra implica na aceitação de uma margem de erro 95 que denominaremos ERRO AMOSTRAL. Erro Amostral é a diferença entre um resultado amostral e o verdadeiro resultado populacional; tais erros resultam de flutuações amostrais aleatórias. Ocorrem erros não-amostrais quando: – Os dados amostrais são coletados, registrados ou analisados incorretamente. – Há uma utilização de um instrumento defeituoso durante a realização de mensurações. – Um questionário ou formulário possui questões formuladas de modo tendencioso. Não podemos evitar a ocorrência do ERRO AMOSTRAL, porém podemos limitar seu valor através da escolha de uma amostra de tamanho adequado. Quanto maior o tamanho da amostra, menor o erro cometido e vice-versa. 9.8 Distribuição Amostral da Média De uma população X , tiramos uma amostra de tamanho n constituída pelos elementos x1 , x2 , . . . , xn obtida de uma distrbuição N (µ, σ 2 ). Então, o estimador da Média µ populacional na amostra é: n σ2 1X xi ∼ N (µ, ) x̄ = n i=1 n ou seja, x̄ tem distribuição Normal com E(x̄) = µ e V (x̄) = escrever de forma equivalente que, se x̄ ∼ N (µ, Z= x̄ − µ √σ n σ2 n σ2 . n Podemos ) então ∼ N (0, 1) que é a forma mais adequada para aplicações. Há uma observação importante a ser feita: se a população for finita e de tamanho N conhecido, e se a amostra de tamanho n dela retirada for sem reposição, então: σ2 N − n x̄ ∼ N µ, n N −1 96 em que N −n N −1 é o fator de correção. Exemplo 1: Se X ∼ N (µ, σ 2 ) onde µ = 20 e σ 2 = 16, calcule a probabilidade que: a) x̄ > 21 se x̄ for baseado numa amostra de tamanho 16. b) 19 < x̄ < 23 se x̄ for baseado numa amostra de tamanho 36. Exemplo 2: Sabe-se que a altura média dos alunos de uma faculdade é de 175 cm e o desvio padrão, 25 cm. Retiramos uma amostra sem reposição, de tamanho n = 100. Qual a probabilidade amostral da média das alturas estar entre 160 e 180 cm? 9.9 Distribuição Amostral das Proporções Veremos a distribuição amostral da proporção p de sucessos, característica que se estuda na população Seja p conhecida. A população pode ser definida como uma variável X tal que ( X = 1 se o elemento da população tem a característica X = 0 se o elemento da população não tem a característica logo, µ = E(X) = p, σ 2 = V (X) = p(1 − p). Retiramos uma grande amostra, n → ∞, x1 , x2 , . . . , xn , dessa população, com reposição, e definimos x como o número de sucessos na amostra, isto é, o número de elementos da amostra com a característica que se quer estudar. O estimador de p é definido por p̂ = nx : proporção de sucessos na amostra. X ∼ B(n, p) e E(X) = np e V (X) = npq sendo q = 1 − p Calculando esperança e variância de p̂, temos: E(p̂) = E x n = n1 E(x) = 1 n · np = p ∴ E(p̂) = p ou µp̂ = p O que garante que, para grandes amostras, a proporção amostral se distribui com média igual à proporção populacional. 97 Vejamos agora: V (p̂) = V ou V (p̂) = x n pq n = 1 n2 · V (x) = ou σp̂ = 1 npq n2 ∴ p pq n Logo, a variancia da proporção amostral é a variância da população dividida pelo número de elementos da amostra. pq ∼ Quando n → ∞ p̂ = N p, n , p̂ é aproximadamente normal. Segue-se que, nas mesmas condições, p̂ − p Z = p pq ∼ N (0, 1) n A precisão da aproximação normal melhora na medida que o valor do tamanho da amostra, n, aumenta e, para p próximo de 1/2. Uma regra geral usada, é que a aproximação normal é boa quando np e nq ≥ 5. Exemplo 3: Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Uma amostra aleatória de 25 indivíduos que tomaram a vacina foi obtida e testes foram feitos para verificar a imunização ou não desses indivíduos. Se o fabricante estiver correto, qual é a probabilidade da proporção de imunizados na amostra ser inferior a 0,75? E superior a 0,85? Exemplo 4: Um varejista compra copos diretamente da fábrica em grandes lotes. Os copos são embrulhados individualmente. Periodicamente o varejista inspeciona os lotes para determinar a proporção dos quebrados. Se um grande lote contém 10% de quebrados qual a probabilidade do varejista obter numa amostra de 100 copos 17% ou mais defeituosos? 98 9.10 Exercícios 1. Com o objetivo de verificar que lanche deveria ser servido para os adolescentes de um acampamento, selecionou-se uma amostra composta por 250 adolescentes sorteados entre os 2.000 presentes num acampamento. Que tipo de amostragem foi utilizada? 2. Em uma cidade de 138.000 habitantes, deseja-se fazer uma pesquisa sobre as preferências de lazer entre pessoas da terceira idade, levando em conta o sexo a que pertencem. Supondo que na cidade haja 8.500 mulheres e 5.300 homens acima de 65 anos de idade, determine uma amostra estratificada com 200 elementos. 3. Um repórter da revista Business Week obtém uma relação numerada de 1.000 empresas com maiores cotações de ações na bolsa. Ele entrevistará 100 gerentes gerais das empresas correspondentes a esta amostra. Que tipo de amostragem você surgeriria e por que? 4. Um tipo de fio é fabricado com resistência média à tensão de 78,3 quilogramas e desvio-padrão de 5,6 quilogramas. Em quanto a variância da média amostral muda quando o tamanho da amostra é a) Aumentado de 64 para 196? b) Reduzido de 784 para 49? 5. Uma engarrafadora utiliza uma máquina para encher garrafas plásticas com refrigerante, cujo conteúdo segue uma distribuição Normal com µ = 298 ml e σ = 3 ml. Qual é a probabilidade de: a) determinada garrafa conter menos de 295 ml? b) o conteúdo médio das garrafas de um pacote de 6 ser inferior a 295 ml? 6. Seja a variável X = chamadas telefonicas de longas distâncias (em minutos), com X ∼ N (µ, σ 2 ) em que µ = 8 e σ 2 = 4. Se amostras aleatórias de 25 chamadas forem selecionadas, a) que proporção das médias amostrais estará entre 7,8 e 8,2 min? b) que proporção das médias amostrais estará entre 7,5 e 8 min? c) Que proporção das médias amostrais estará entre 7,8 e 8,2 min para uma amostra aleatória de 100 chamadas? Comparar os resultados a) e c). 7. A renda de um conjunto de pessoas de uma certa região tem média 6 s.m. 99 e desvio padrão de 2 s.m. Se desta população for extraída uma amostra de n = 100 pessoas, qual a probabilidade da média desta amostra acuse um valor superior a 6,3 s.m? 8. Se vamos extrair amostras de n = 100 observações de uma população muito grande, em que a proporção populacional é 0,20, que porcentagem de proporções amostrais poderemos esperar nos intervalos: a) 0,16 a 0,24? b) maior que 0,24? 9. Tendo em mente estimar a proporção de alunos de um determinado "Campus"universitário que eram favoráveis à reestruturação das contas acadêmicas, um pesquisador social entrevistou uma amostra aleatória de 590 estudantes e constatou que 57% deles era de fato, favoráveis à citada reestruturação. Considerando a proporção obtida como sendo o valor "p"populacional: a) Calcule a probabilidade de numa amostra de 49 alunos, menos de 49% sejam favoráveis à reestruturação das contas acadêmicas. b) Calcule a probabilidade de numa amostra de 36 alunos, menos de 55% sejam favoráveis à reestruturação das contas acadêmicas. 10. A proporção de estômatos da epiderme abaxial da folha de macieira da variedade M-9, com tamanho acima de um determinado valor é 0,12. Extraída uma amostra de 35 folhas, qual a probabilidade de que a proporção amostral esteja entre 0,08 e 0,13? 11. Numa floresta de Eucalyptus saligna, a proporção de árvores mortas é de 4%. Foi tomada uma amostra aleatória de 100 árvores. Qual a probabilidade de que a proporção de árvores mortas na amostra fique entre 2 e 6% 100 10 Teoria da Estimação 10.1 Introdução Inferência estatística é o processo pelo qual podemos tirar conclusões acerca de um conjunto maior (a população) usando informação de um conjunto menor (a amostra). Podemos estimar o parâmetro θ usando a informação de nossa amostra. Chamamos este único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ. Alguns exemplos são a média amostral, o desvio padrão amostral, a mediana amostral, os quais estimam a verdadeira média, desvio padrão e mediana da população (que são desconhecidos). 10.2 Estimação Pontual A estimação pontual (por ponto) consistirá simplesmente em, à falta de melhor informação, adotar a estimativa disponível como sendo o valor do parâmetro. A idéia é, em sua essência, extremamente simples, porém a qualidade dos resultados irá depender fundamentalmente da conveniente escolha do estimador. Assim, dentre os vários estimadores razoáveis que poderemos imaginar para um determinado parâmetro, devemos ter a preocupação de escolher aquele que melhor satisfaça às propriedades de um bom estimador. 101 10.3 Propriedades dos estimadores Consideremos uma amostra (X1 , X2 , . . . , Xn ) de uma v.a. que descreve uma característica de interesse de uma população. Seja θ um parâmetro que desejamos estimar, como por exemplo a média µ = E(X) ou a variância σ 2 = V (X). Definição: Um estimador T do parâmetro θ é qualquer função das observações da amostra, ou seja, T = g(X1 , X2 , . . . , Xn ). 10.3.1 Justeza e não-tedenciosidade Diremos que um estimador T é justo (ou não-tedencioso, ou não-viciado, ou não-viesado) se sua média (ou expectância) for o próprio parâmetro que se pretende estimar E(T ) = θ para todo θ A adoção de um estimador que não seja justo nos levará a incorrer no vício de estimação, ou viés. Exemplo Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n obtida de uma população com média µ e variância σ 2 , então X̄ = 1 n Pn i=1 Xi é um estimador não viciado de µ. E(X̄) = E( n1 10.3.2 Pn i=1 Xi ) = 1 n Pn i=1 E(Xi ) = nµ n =µ Consistência Diremos que uma sequência de estimadores Tn é consistente se, para todo > 0, P {| Tn − θ |> } → 0, n→∞ (10.1) 102 Em vez de usar (1) para verificar se uma sequência de estimadores é consistente, pode-se usar o seguinte resultado Proposição:Uma sequência {Tn } de estimadores de θ é consistente se lim E(Tn ) = θ n→∞ lim V (Tn ) = 0 n→∞ Exemplo Se Xi ∼ Bernoulli(p) então X = Pn i=1 Xi ∼ Binomial(n, p), daí E(X) = np e V (X) = np(1 − p). Então, E(p̂) = E( Xn ) = E(X) n = np n V (p̂) = V ( Xn ) = V (X) n2 = np(1−p) n2 = p (e p̂ é um estimador não viciado de p); = p(1−p) n e limn→∞ p(1−p) n =0 concluindo-se que p̂ é um estimador consistente de p. 10.3.3 Eficiência Se T e T 0 são dois estimadores não-viesados de um mesmo parâmetro θ, e ainda V (T ) < V (T 0 ), então T diz-se mais eficiente do que T 0 Exemplo Seja X1 , X2 , . . . , Xn uma amostra aleatória obtida de X com distribuição de Bernoulli com parâmetro p, desconhecido. Encontre as variâncias V (p̂) e V (p̂1 ); compare e mostre que p̂ é mais eficiente do que p̂1 . Solução: V (p̂) = V ( X1 +X2n+...+Xn ) = p(1−p) ; n 1 n2 Pn i=1 V (Xi ) = 1 n2 Pn i=1 p(1 − p) = np(1−p) n2 = 103 V (p̂1 ) = V (X1 ) = p(1 − p). Como, para n > 1, V (p̂) = p(1−p) n < V (p̂1 ) = p(1 − p) e, sendo p̂ e p̂1 esti- madores não viciados então, de acordo com a Definiçao, p̂ é mais eficiente do que p̂1 . 10.3.4 Suficiência Em poucas palavras, diremos que um estimador é suficiente se contém o máximo possível de informação com referência ao parâmetro por ele estimado. Definição A estatística T = T (X1 , X2 , . . . , Xn ) é dita suficiente para o parâmetro desconhecido θ, quando a distribuição condicional de X1 , X2 , . . . , Xn dado T é independente de θ 10.4 Estimação Intervalar Uma estimativa pontual de parâmetros, por não dizer o quão próximo o parâmetro estimado vai estar do parâmetro verdadeiro, não é suficiente para informar sobre a precisão da estimativa. Os métodos de estimação por intervalo tem propósito de determinar os intervalos aleatórios, chamados intervalos de confiança, que contém o valor do parâmetro desconhecido com uma probabilidade especificada chamada nível de confiança. Neste caso a amplitude do intervalo dá uma indicação da precisão da estimativa obtida. 10.4.1 Intervalo de Confiança para Média com variância (populacional) conhecida Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n obtida de X ∼ N (µ, σ 2 ). Então X̄ = 1 n Pn i=1 2 Xi ∼ N (µ, σn ) e, com a variância σ 2 é suposta conhecida, a variável aleatória 104 Z= X̄ − µ ∼ N (0, 1) √σ n Assim, dado o nível de confiança 1 − α, tendo em vista a simetria da distribuição N (0, 1) e, para garantir que o intervalo obtido tenha amplitude mínima, obtemos na tabela da distribuição normal padronizada, q1 = −Z α2 e q2 = −q1 = Z α2 tal que P (Z ≤ Z α2 ) = 1 − α 2 de modo que X̄ − µ α ≤ Z P − Z α2 ≤ =1−α σ 2 √ n ou, equivalentemente, σ σ =1−α P X̄ − Z α2 · √ ≤ µ ≤ X̄ + Z α2 · √ n n sendo o intervalo de confiança simétrico para µ dado por σ σ α √ √ ; X̄ + Z 2 · IC(µ, 1 − α) = X̄ − Z · n n α 2 Em geral usa-se também a seguinte representação: σ IC(µ, 1 − α) = X̄ ± Z · √ n α 2 Exemplo Suponha que se extraia uma amostra de tamanho 35 de uma população com média µ e desvio padrão conhecido e igual a 3,90. Suponha que a média amostral seja 44,8. Determinar um intervalo com 95% de confiança para µ. Solução: Temos que, 1 − α = 0, 95, α = 0, 05, P (Z ≤ Zα/2 ) = 1 − Zα/2 = 1, 96 α 2 = 1− 0,05 2 = 0, 975. Logo, 105 IC(µ, 95%) = (44, 8 ± 1, 96 · 3,90 √ ) 35 IC(µ, 95%) = (44, 8 ± 1, 29) Logo, o intervalo com 95% de confiança para µ é [43,51; 46,09] 10.4.2 Intervalo de Confiança para Média com variância (populacional) desconhecida Admitindo, mais realisticamente, que a variância σ 2 é desconhecida, a variável aleatória t= X̄ − µ √S n ∼ tn−1 isto é, tem distribuição de Student com n−1 graus de liberdade, e independente de µ. Dado o nível de confiança 1 − α, como a distribuição de t é simétrica e, para obter um intervalo com amplitude mínima, obtemos na tabela da distribuiçao tn−1 , q1 = −tn−1; α2 e q2 = −q1 = tn−1; α2 tal que P (t ≥ tn−1; α2 ) = α , 2 então que P −t n−1; α 2 ≤ X̄ − µ ≤t n−1; α 2 √S n =1−α e, de forma equivalente, S S P X̄ − tn−1; α2 · √ ≤ µ ≤ X̄ + tn−1; α2 · √ =1−α n n de modo que o intervalo de confiança simétrico para µ é S S IC = (µ, 1 − α) = X̄ − tn−1; α2 · √ ; X̄ + tn−1; α2 · √ n n ou, de outra forma IC = (µ, 1 − α) = X̄ ± t n−1; α 2 em que S é o desvio padrão amostral dado por S ·√ n seguindo 106 v u u S=t n 1 X (Xi − X̄)2 n − 1 i=1 Exemplo Suponha que se extraia uma amostra de tamanho 25 de uma população com média µ e desvio padrão desconhecido. Suponha que a média amostral seja 4,004 e o desvio padrão amostral seja 0,366. Determinar intervalo 99% de confiança para µ. Solução: Temos que, t0,005;24 = 2, 797 IC(4, 004 ± 2, 797 · 0,366 √ ) 25 IC(4, 004 ± 0, 205) Logo, o intervalo com 99% de confiança para µ é [3,799; 4,209]. 10.4.3 Intervalo de Confiança para proporção populacional Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n obtida de uma população de Bernoulli com parâmetro p, onde os componentes da amostra só podem assumir os valores 0 e 1. Tem-se p̂ = X̄ , a proporção amostral de sucessos, para n suficientemente grande, tem uma distribuição aproximadamente normal com média p e variância p(1−p) . n Logo, p̂ − p Z=q ∼ N (0, 1) p(1−p) n A expressão final para o intervalo de confiança aproximado para p, com nível de confiança 1 − α, será 107 r IC(p, 1 − α) = p̂ − Z · α 2 p̂(1 − p̂) ; p̂ + Z α2 · n r p̂(1 − p̂) n ou, de forma equivalente, IC(p, 1 − α) = p̂ ± Z α2 · r p̂(1 − p̂) n Exemplo Uma amostra aleatória de 600 peças de computador são obtidas de um grande lote de produção, observando-se 45 com defeito. Estimar, através de um intervalo de confiança de 95%, a proporção verdadeira, p, de peças de computador com defeito no lote. Solução: X n 45 600 = 0, 075, para 1 − α = 0, 95, α = 0, 05 e Z α2 = 1, 96 logo, q IC(p, 95%) = (0, 075 ± 1, 96 0,075·0,925 ) = (0, 075 ± 0, 0211) ou 600 Temos p̂ = = IC(p, 95%) = (0, 0539; 0, 0961) ou, ainda: IC(p, 95%) = (5, 39%; 9, 61%). 10.4.4 Intervalo de Confiança para Variância Sendo µ desconhecida e (n−1)S 2 σ2 ∼ χ2n−1 não depende de σ 2 . Com procedi- mento semelhante ao caso anterior, temos (n − 1)S 2 2 α P χ2n−1;1− α ≤ ≤ χ = 1 − α, n−1; 2 2 σ2 ou, equivalentemente, P (n − 1)S 2 χ2n−1; α 2 (n − 1)S 2 ≤σ ≤ 2 = 1 − α, χn−1;1− α 2 2 108 Portanto, o intervalo de confiança simétrico para σ 2 é dado por (n − 1)S 2 (n − 1)S 2 . IC(σ , 1 − α) = ; 2 χ2n−1; α χn−1;1− α 2 2 2 Exemplo Suponha que seja retirada uma amostra de tamanho cinco de uma população normalmente distribuída, e que se tenha encontrado uma variância amostral de 13,52. Construa um intervalo com 95% de confiança para a variância populacional. Solução: Temos que χ20,975;4 = 0, 484 e χ20,025;4 = 11, 143. Logo o intervalo de confiança para σ2 é IC(σ 2 , 95%) = 4(13,52) 4(13,52) ; 0,484 11,143 IC(σ 2 , 95%) = (4, 85; 111, 74) 10.5 Intervalo de Confiança para a diferença de médias de duas Populações Estes intervalos podem ser úteis em diversas situações práticas em que se deseja comparar dois grupos com relação a certa característica. Por exemplo, um industrial pode querer comparar dois processos de produção; um pesquisador médico certamente interessa saber o efeito de uma nova droga em dois tipos de pacientes. Descreveremos a seguir, como construir intervalos de confiança para a diferença entre duas médias populacionais. 10.5.1 As variâncias σ12 e σ22 (populacionais) são conhecidas Como x̄1 − µ1 √σ1 n1 ∼ N (0, 1) 109 e x̄2 − µ2 √σ2 n2 ∼ N (0, 1) Logo Z= (x̄1 − x̄2 ) − (µ1 − µ2 ) q 2 ∼ N (0, 1) σ22 σ1 + n2 n1 Assim, temos (x̄1 − x̄2 ) − (µ1 − µ2 ) α q P −Z ≤ ≤ Z2 = 1 − α σ12 σ22 + n1 n2 α 2 resultando então, no seguinte intervalo de confiança simétrico para µ1 − µ2 : s IC(µ1 − µ2 , 1 − α) = (x̄1 − x̄2 ) − Z α2 σ12 n1 + σ22 n2 s ; (x̄1 − x̄2 ) + Z α2 σ12 σ22 + n1 n2 Exemplo: O peso médio de duas amostras aleatórias independentes de n1 = 30 e n2 = 40 peças, extraídas de dois grandes lotes, foi X̄1 = 130g e X̄2 = 125g , respectivamente. Admitindo que os pesos tenham distribuição normais com variâncias respectivas σ12 = 60g e σ22 = 80g , estimar, através de um intervalo de 95% de confiança, a diferença real dos pesos médios, µ1 − µ2 , para os dois lotes. 10.5.2 As variâncias σ12 e σ22 são desconhecidas mas σ12 = σ22 Se σ12 = σ22 = σ 2 então, temos Z= (x̄1 − x̄2 ) − (µ1 − µ2 ) q σ 2 ( n11 + n12 ) Sabemos que n S12 1 1 X = (xi − x̄)2 n1 − 1 i=1 110 e n S22 2 1 X = (xi − x̄)2 n2 − 1 i=1 são as variâncias amostrais. Como estamos supondo que σ12 = σ22 = σ 2 , então um estimador não viciado para σ 2 é dado por Sp2 (n1 − 1)S12 + (n2 − 1)S22 = n1 + n2 − 2 Temos finalmente (x̄1 −x̄2 )−(µ1 −µ2 ) q σ 2 ( n1 + n1 ) t= q 1 2 (n1 +n2 −2)Sp2 σ 2 (n1 +n2 −2) = (x̄1 − x̄2 ) − (µ1 − µ2 ) q ∼ tn1 +n2 −2 Sp2 ( n11 + n12 ) Procedendo de maneira análoga ao caso anterior, obtemos as seguintes expressões para o IC(µ1 − µ2 , 1 − α) simétrico: r r 1 1 1 1 2 2 α α IC(µ1 −µ2 , 1−α) = (x̄1 −x̄2 )−tn1 +n2 −2; 2 Sp ( + ); (x̄1 −x̄2 )+tn1 +n2 −2; 2 Sp ( + ) n1 n2 n1 n2 e r 1 1 2 α IC(µ1 − µ2 , 1 − α) = (x̄1 − x̄2 ) ± tn1 +n2 −1; 2 Sp ( + ) n1 n2 Exemplo: Duas amostras de plantas foram cultivadas com dois fertilizantes diferentes. A primeira amostra oriunda de 20 sementes, acusou altura média de 10,9 cm e desvio padrão 2,0 cm. A segunda amostra, de 10 sementes, acusou uma altura média de 10,5 cm com desvio padrão de 5,0 cm. Construir um intervalo de confiança entre as alturas médias das populações ao nível de 95% de confiança. 10.6 Intervalo de Confiança para Diferença de Proporções Sejam duas proporções p1 e p2 , e suas respectivas proporções amostrais p̂1 e p̂2 , baseadas em amostras de tamanhos n1 e n2 . Para grandes tamanhos de amostra 111 tem-se que: p1 (1 − p1 ) p2 (1 − p2 ) + p̂1 − p̂2 ∼ N p1 − p2 ; n1 n2 Portanto, o intervalo de confiança para p1 − p2 , com coeficiente de confiança 1 − α é dado por: s IC(p1 −p2 , 1−α) = (p̂1 −p̂2 )−Z α2 p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + ; (p̂1 −p̂2 )+Z α2 n1 n2 s p̂1 (1 − p̂1 ) p̂2 (1 − + n1 n2 ou s IC(p1 − p2 , 1 − α) = (p̂1 − p̂2 ) ± Z α2 p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + n1 n2 Exemplo 1: Numa pesquisa sobre intenção do comprador brasileiro, 30 famílias de uma amostra aleatória de 150 declararam ter uma intenção comprar um carro novo dentro de um ano. Uma outra amostra de 160 famílias 25 declararam a mesma intenção. Construir um intervalo de 99% de confiança para a diferença entre as proporções. Exemplo 2: Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, revelou que na cidade A, dos 400 entrevistados, 180 eram favoráveis ao projeto, na cidade B, dos 600 entrevistados, 350 foram favoráveis. Verifique, por meio de um intervalo de 90% de confiança, se há diferença entre as proporções de moradores favoráveis nas duas cidades. 112 10.7 Exercícios 1. Suponha que X é o número de sucessos em n provas de Bernoulli com parâmetro p. Mostre que a proporção amostral de sucessos p̂ = X , n é um estimador não viciado da proporção populacional de sucessos p 2. Se X1 , X2 , . . . , Xn é uma amostra aleatória obtida de X com distribuição de Poisson com parâmetro λ, mostre que a média amostral X̄ é um estimador não viciado de λ. 3. Seja X a duração da vida de uma peça de equipamento tal que σ = 5 horas. Admita que 100 peças foram ensaiadas fornecendo uma duração de vida média de 500 horas e que se deseja obter um intervalo de 95% para a verdadeira média populacional. 4. Deseja-se estimar a nota média em um exame aplicado em uma escola. Para isso considerou-se uma amostra de 16 alunos submetidos a esse exame e obteve-se uma nota média de 7,3 e um desvio padrão de 0,4. Construa o intervalo com 95% de confiança para a verdadeira média. 5. A seguinte amostra refere-se a quantidade de peças de roupas confeccionadas por 10 funcionários numa determinada empresa num determinado dia: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9. Construir um intervalo de confiança para µ com um nível de 99%. 6. Uma empresa emprega 200 pessoas. Numa amostra aleatória de 25 notas de despesas numa semana de dezembro, um auditor constatou uma despesa média de 220 u.m. com desvio padrão de 20 u.m. Qual é a estimativa intervalar com 99% de confiança para a despesa média da empresa com seus empregados ? 7. Em uma empresa, o número médio da venda de 12 produtos distintos, coletados por amostragem, indicou 27,33 como média de produtos vendidos por período de tempo. O desvio-padrão desta amostra foi 4,28. Se desejarmos construir um intervalo de 99% confiança para a verdadeira média de vendas, podemos afirmar o quê? 8. Para avaliar a taxa de desemprego em uma cidade, obteve-se uma amostra aleatória de 1.000 habitantes em idade de trabalho, dos quais 87 eram desempregados. Estimar a porcentagem de desempregados em toda a cidade através de um intervalo de 90% de confiança. 113 9. Uma amostra de onze elementos, extraída de uma população com distribuição normal, forneceu variância s2 = 7, 08. Construir um intervalo de 90% de confiança para a variância dessa população. 10. Em uma pesquisa de mercado sobre a preferência dos consumidores em relação a um novo produto, 155 de uma amostra de 250 consumidores preferiram o novo produto. Estime, com 90% de confiança a proporção verdadeira de consumidores da população que preferirão esse novo produto. 11. Através de uma amostra aleatória simples de 145 profissionais de certa região, verificou-se que o salário médio é de 8 salários mínimos (s.m.) com um desvio padrão de 1,8 s.m. A amostra também forneceu a informação de que 70% dos profissionais eram casados. a) Determine e interprete o intervalo de confiança de 99% para a proporção de profissionais casados desta região? b) Determine e interprete um Intervalo de Confiança de 90% para σ 2 . 12. Um engenheiro deseja estimar o rendimento médio de um processo químico com distribuição normal baseado nas observações de rendimento obtidas de 3 repetições do experimento. Considere os dois estimadores do rendimento médio: T1 = X1 + X2 + X3 3 T2 = X1 + 2X2 + X3 4 e a) Encontre a esperança e a variância dos estimadores acima. b) Verifique se são não viciados e consistentes. Qual é o melhor? Porquê? 13. Seja X uma única variável aleatória com distribuição de Bernoulli com parâmetro θ. Sejam θ̂1 = X e θ̂2 = 1/2 dois estimadores de θ. Verifique se θ̂1 e θ̂2 são não viciados para θ. 14. T1 e T2 são estimadores de um parâmetro θ, tais que: E(T1 ) = θ V (T1 ) = 9 E(T2 ) = 3θ V (T2 ) = 3 114 Diga, justificando, qual destes estimadores é melhor estimador de θ. 15. Para uma amostra aleatória de 100 trabalhadores, em uma firma com 1200 empregados, 70 preferem receber seus salários através de créditos em conta corrente bancária. De posse dessa informação construir o intervalo de 90% de confiança para a proporção de trabalhadores da firma que têm preferência pelo crédito em conta corrente para seus trabalhos. [0,62 ; 0,77] 16. Um empresário está estudando os custos de produção de um determinado produto sob determinadas condições. Ele admite que essa variável é normalmente distribuída com desvio padrão σ = 2 U.M.(Unidades Monetárias). a) Determine os ICs de 99%; 95% e 93% para o custo médio verdadeiro do produto utilizando os valores da seguinte amostra aleatória obtida: 4,8 8,1 4,5 5,6 6,8 7,2 7,1 5,7 [4,415 ; 8,035] , [4,839 ; 7,611] , [5,065 ; 7,385] b) Suponha que no item a) o desvio padrão não fosse conhecido. Como ficaria seus cálculos para determinar os ICs para µ? [5,076 ; 7,385] , [5,345 ; 7,105] , [5,489 ; 6,961] 17. Em uma amostra aleatória de 400 eleitores de uma cidade, 228 foram contra o uso de recurso públicos para a construção de uma certa obra. Com 95% de confiança, qual a proporção correspondente a todos os eleitores da cidade? 18. Em uma amostra de 300 clientes de um supermercado, 234 deles utilizavam cartão de crédito em suas compras. Construa um intervalo de 99% de confiança para a proporção de que um cliente escolhido ao acaso vá comprar com cartão de crédito. 19. Uma amostra aleatória da previsão de 15 analistas financeiros sobre os ganhos por ação da General Motors Corporation foi coletada. O desvio padrão amostral foi de $ 0,88. Ache o intervalo de confiança de 99% para a variância das previsões dos analistas. 20. Uma amostra aleatória de dimensão n1 = 120 retirada da população X1 com distribuição Normal de parâmetros µ1 e σ1 , deu origem aos seguintes valores: x̄1 = 20, 5 e s1 = 3, 5. Uma outra amostra, independente da anterior, de dimensão n2 = 130 e retirada da população X2 de parâmetros µ2 e σ2 , deu origem aos valores x̄2 = 28, 2 e s2 = 4, 8. a) Determine o intervalo de confiança a 90% para µ1 − µ2 admitindo que σ1 = 4 115 e σ2 = 5. [-8,636 ; -6,764] b) Determine o intervalo de confiança a 90% para µ1 − µ2 assumindo, como é mais natural, que os desvios padrão são desconhecidos. [-8,58 ; -6,82] 21. Em uma pesquisa de possuidores de carros em uma universidade, entre alunos e alunas, foram obtidos: 48 de 200 alunos possuem automóveis e 19 de 100 alunas possuem automóveis. Encontre um IC de 90% para a diferença entre proporções. Estatisticamente existe diferença entre proporção de alunos e alunas que possuem automóveis? 22. Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o débito médio anual nesses cartões, para contas individuais, é U$ 1592, com desvio padrão de U$ 997 (com base em dados do USA Today). Com essas estatísticas, construa um intervalo de 95% de confiança para o débito médio anual em cartões de crédito para a população de todas as contas. 23. Um banco pretende estimar a percentagem de clientes que passam cheques sem cobertura. Numa amostra de 150 clientes 15 deles já tinham passado cheques sem cobertura. Estime, a 95% de confiança a verdadeira percentagem (ou proporção) de clientes do banco que passam cheques sem cobertura. 24. Extraída duas amostras de professores homens e mulheres, obteve-se os seguintes resultados quantos aos salários em milhares de dólares: Construir um intervalo de 95% de confiança para a diferença das médias entre os saláriosdos professores. Homens Mulheres n1 = 25 n2 = 5 x̄1 = 16, 0 x̄2 = 11, 0 S12 = 16 S22 = 10 25. A média dos pesos de uma amostra de 10 embalagens de adubos (em kg) distribuídos por uma empresa foi de 46,02 kg e com desvio padrão de 0,64 kg. a) Com 99% de confiança, estime um intervalo para a verdadeira média dos pesos das embalagens de adubo. b) Ao nível de 90% de confiança, determine um intervalo para verdadeira variância das embalagens de adubo. 26. A média aritmética dos gastos com livros de uma amostra de 100 estudantes do primeiro ano de agronomia é de 70 reais com desvio padrão populacional de 15 116 reais. Construa intervalos com 95% e 99% de confiança para o gasto médio de todos os estudantes. 27. Em uma amostra com 200 estudantes de uma universidade, verificou-se que 57% são favoráveis a um determinado projeto. Construir e interpretar um intervalo de 95% e 99% de confiança para a verdadeira proporção de estudantes favoráveis ao determinado projeto. R: ]0:501386; 0:638614[ e ]0:4796816; 0:6603184[ 28. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto, determine o intervalo de confiança de p, a proporção de pessoas que consomem o produto, com coeficiente de 95% (interprete o resultado). 29. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se a tabela abaixo. Utilize o Intervalo de confiança de 95% para avaliar a diferença entre os percentuais de favoráveis nas duas cidades. Cidade Número de Entrevistados Número de favoráveis A 400 180 B 600 350 30. De uma população normal com média e variância desconhecidas, extrai-se uma amostra de tamanho 15 obtendo-se x̄ = 12 e s2 = 49. Obtenha um intervalo de confiança para a variância populacional, utilizando o nível de confiança de 95%. 31. Em duas populações de cobaias de laboratório (com comportamentos normais e variâncias iguais), uma de animais do sexo masculino e outra de animais do sexo feminino, foram recolhidas duas amostras com dimensões 11 e 31 respectivamente. Os dados amostrais relativos aos pesos, em gramas, destas cobaias foram os seguintes: n1 = 11 x̄1 = 818 s1 = 40 n2 = 31 x̄2 = 715 s2 = 50 Determine um intervalo de confiança a 99% para a diferença dos pesos médios e verifique se uma das populações é, em média, mais pesada do que a outra. 117 11 Testes de Hipóteses 11.1 Hipótese Nula e Hipótese Alternativa Consideraremos aqui problemas estatísticos envolvendo um parâmetro θ cujo valor é desconhecido mas deve cair dentro de um certo domínio Ω (isto é, Ω é o conjunto de todos os possíveis valores de θ). Vamos supor que Ω possa ser particionado em 2 (dois) subconjuntos distintos Ω0 e Ω1 , e que o pesquisador deva decidir se o valor desconhecido de θ cai em Ω0 ou em Ω1 . Seja H0 a hipótese de que θ ∈ Ω0 e H1 a hipótese de que θ ∈ Ω1 , isto é: H0 : θ ∈ Ω0 H1 : θ ∈ Ω1 Como Ω0 e Ω1 são disjuntos (Ω0 ∪Ω1 = Ω), somente uma das hipóteses é verdadeira. O pesquisador deve decidir se aceita H0 ou se aceita H1 . Um problema desse tipo é chamado um problema de teste de hipóteses. – H0 é denominada hipótese nula, e – H1 é denominada hipótese alternativa 11.2 Região Crítica do teste Antes de decidir se aceita ou não a hipótese nula, observa-se uma amostra aleatória X1 , X2 , . . . , Xn . Seja S o espaço amostral, isto é, o conjunto de todos os possíveis resultados da amostra. 118 Especifica-se um procedimento de teste que consiste em dividir o espaço amostral em dois subconjuntos: – Um deles consiste dos valores da amostra para o qual ele rejeita H0 , – Outro contém os valores para o qual se rejeita H1 . O subconjunto para o qual H0 será rejeitada é chamada região crítica do teste. O complemento da região crítica contém todos os possíveis valores para qual H0 será aceita. 11.3 Erros do Tipo I e erros do Tipo II Quando estabelecemos um procedimento do teste, podemos incorrer em dois tipos de erros: – O de rejeitar H0 quando ela é de fato verdadeira. Este erro é denominado erro do tipo I. A probabilidade (α) deste tipo de erro ocorrer é controlada pelo pesquisador e é denominada nível de signicância do teste. – O de aceitar H0 quando ela é falsa. Este erro é denominado erro do tipo II. A probabilidade deste erro ocorrer é representada por β Tabela 17: Representação dos erros do tipo I e II. H0 é verdadeira H0 é falsa aceita H0 1 − α (coef. de confiança) β rejeita H0 α (nível de significância) 1 − β (poder do Teste) 119 11.4 Teste da hipótese para média populacional µ 11.4.1 σ conhecido H0 : µ = µ0 H1 : µ 6= µ0 ou µ < µ0 ou µ > µ0 1 - Retira-se uma amostra de tamanho "n"e calcula-se x̄. 2 - Calcula-se o valor da estatística Z= x̄ − µ0 √ σ/ n 3 - Sob a hipótese nula, tem-se que Z possui uma distribuição normal padrão. Portanto, Rejeita-se H0 se | Z |> Zα/2 (isto é, se Z < −Zα/2 ou Z > Zα/2 ) Aceita-se H0 se | Z |< Zα/2 (isto é, se −Zα/2 ≤ Z ≤ Zα/2 ) em que α é o nível de significância do teste. Exemplo: O salário médio dos empregados das indústrias siderúrgicas é de 2,5 salários mínimos, com um desvio padrão de 0,5 salários mínimos. Se uma firma particular emprega 49 operários com um salário médio de 2,3 salários mínimos, podemos afirmar que essa indústria paga salários inferiores, ao nível de 5%? 11.4.2 σ desconhecido H0 : µ = µ0 H1 : µ 6= µ0 ou µ < µ0 ou µ > µ0 120 Calcula-se a estatística t= x̄ − µ0 √ S/ n Sob a hipótese nula, tem-se que t possui uma distribuição t-Student com n − 1 graus de liberdade. Portanto, Rejeita-se H0 se | t |> tα/2;(n−1) Aceita-se H0 se | t |≤ tα/2;(n−1) Observação Se os testes tiverem uma hipótese alternativa unilateral (isto é, se H1 : µ > µ0 ou H1 : µ < µ0 ) o teste deverá rejeitar unilateralmente (isto é, se t > tα;(n−1) ou t < −tα;(n−1) , respectivamente) Exemplo: Um fabricante afirma que seus cigarros contém não mais que 30 mg de nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Ao nível de 5%, os dados refutam ou não a afirmação do fabricante? 11.5 Teste para Proporção Suponha que se deseje testar a hipótese: H0 : p = p0 H1 : p 6= p0 ou p < p0 ou p > p0 Calcula-se a estatística p̂ − p0 Z=q p0 (1−p0 ) n Rejeita-se H0 se | Z |> zα/2 121 Aceita-se H0 se | Z |≤ zα/2 Exemplo: De um grande lote de CD’s produzidos tiramos uma amostra de 240 CD’s e observamos que 6 apresentavam problemas. Com esse resultado, pode-se concluir que a proporção de CD’s com problemas no lote é inferior a 3%? (use 5% de significância). 11.6 Teste de hipótese para variância Suponha que uma variável seja normalmente distribuída com uma variância desconhecida e se deseje efetuar o seguinte teste de hipóteses: H0 : σ 2 = σ02 H1 : σ2 6= σ02 ou σ 2 < σ02 ou σ 2 > σ02 Calcula-se a estatística (n − 1)s2 X = σ02 2 Rejeita-se H0 se X 2 < χ21−α/2,[n−1] ou X 2 > χ2α/2,[n−1] Aceita-se H0 se χ21−α/2,[n−1] ≤ X 2 ≤ χ2α/2,[n−1] Observações 1 - Se a hipótese alternativa fosse H1 : σ 2 > σ02 H0 seria rejeitada se X 2 > χ2α,[n−1] 2 - Se a hipótese alternativa fosse H1 : σ 2 < σ02 122 H0 seria rejeitada se X 2 < χ21−α,[n−1] Exemplo: Uma das maneiras de manter sob controle a qualidade de um produto é controlar a sua variabilidade. Uma máquina de encher pacotes de café está regulada para enchê-los com média de 500 g e desvio padrão de 10 g . Colheu-se uma amostra de 16 pacotes e observou-se uma variância s2 = 169g 2 . Supondo que o peso de cada pacote segue uma distribuição normal, você diria que a máquina está desregulada com relação à variância? Solução: Deseja-se testar: H0 : σ 2 = 100 H1 : σ2 6= 100 A estatística a ser calculada é: X2 = (n − 1)s2 (15)(169) = = 25, 35 2 σ0 100 e o procedimento do teste é: Aceita-se H0 se χ21−α/2,[n−1] ≤ X 2 ≤ χ2α/2,[n−1] isto é, Aceita-se H0 se 6, 262 ≤ X 2 ≤ 27, 488, e Rejeita-se H0 seX 2 < 27, 488 ou X 2 > 27, 488 Portanto, aceita-se H0 , e concluímos que a máquina não está desregulada quanto à variância. 11.7 Teste da hipótese da igualdade de duas médias Suponha que se tenha 123 H0 : µ1 = µ2 H1 : µ1 6= µ2 ou µ1 > µ2 ou µ1 < µ2 11.7.1 σ12 e σ22 conhecidas calcula-se a estatística x̄1 − x̄2 Z=q 2 σ1 σ2 + n22 n1 Sabe-se que, sob a hipótese H0 , a variável Z possui uma distribuição normal padrão. Portanto, o procedimento do teste consiste em: Rejeita-se H0 se | Z |> Zα/2 Aceita-se H0 se | Z |≤ Zα/2 11.7.2 σ12 e σ22 desconhecidas Suponha que a hipótese de igualdade de variâncias não seja rejeitada. Então podemos supor que σ12 = σ22 , mas esta variância comum não é conhecida. Para efetuar o teste de igualdade de médias, neste caso, procedemos da seguinte maneira: t= q qx̄1 −x̄2 1 + n1 n 1 2 (n1 −1)S12 +(n2 −1)S22 n1 +n2 −2 124 Esta estatística possui uma distribuição t-Student com n1 +n2 −2 graus de liberdade. Portanto. Rejeita-se H0 se | t |> tα/2;n1 +n2 −2 Aceita-se H0 se | t |≤≤ tα/2;n1 +n2 −2 11.8 Teste de hipótese da diferença entre proporções Suponha que se tenha H0 : p1 = p2 H1 : p1 6= p2 ou p1 > p2 ou p1 < p2 Como µp̂1 −p̂2 = p1 − p2 = 0 (sob H0 ) e σp̂2A −p̂B = p1 q1 n1 + em que P = n1 p̂1 + n2 p̂2 n1 + n2 é adotado como estimativa de p. Calcula-se Z= p̂1 − p̂2 σp̂1 −p̂2 e aceita-se H0 se | Z |≤ Zα/2 11.9 Teste da razão de variâncias Suponha que se deseje testar: H0 : σ12 = σ22 p2 q2 n2 = pq 1 n1 + 1 n2 (sob H0 ) 125 H1 : σ12 6= σ22 ou, equivalentemente, H0 : σ12 =1 σ22 H1 : σ12 6= 1 σ22 O procedimento do teste é: Calcula-se a estatística f= s21 s22 Vimos que, sob a hipótese H0 , a estatística f possui uma distribuição F com n1 − 1 e n2 − 1 graus de liberdade. Portanto, Aceita-se H0 ao nível de significância α se 1 Fα/2,[n2 −1],[n1 −1] ≤ f ≤ Fα/2,[n1 −1],[n2 −1] Rejeita-se H0 ao nível de significância de α se f< 1 Fα/2,[n2 −1],[n1 −1] ou f > Fα/2,[n1 −1],[n2 −1] Exemplo: Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por meio do desvio padrão de seus salários. A fábrica A diz ser mais coerente na política salarial do que a fábrica 126 B. Para verificar essa afirmação, sorteou-se uma amostra de 10 funcionários não especializados de A, e 15 de B, obtendo-se as variâncias s2A = 1000 reais e s2B = 1600 reais. Qual seria a sua conclusão ao nível de 5%? Solução: A hipótese a ser testada é: H0 : σA2 = σB2 H1 : σA2 < σB2 Temos que: 1000 s2A = 0, 625 f= 2 = sB 1600 Devemos aceitar H0 ao nível de significância α = 0, 05 se f≥ 1 F0,05,[14],[9] ou seja, se f ≥ 0, 33 Como este é o caso, aceitamos H0 ao nível de significância de 0,05, e concluímos que a fábrica A não é mais coerente na política salarial do que a fábrica B.. 127 11.10 Exercícios 1. Sabe-se que o consumo mensal per capita de determinado produto tem distribuição normal, com desvio padrão de 2 kg. A diretoria da empresa que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor do que 8 kg, caso contrário, continuaria a fabricá-lo. Foi realizado uma pesquisa de mercado, tomando-se uma amostra aleatória de 25 pessoas e verificou-se um consumo total de 180 kg do produto. Construa um teste de hipótese adequado para verificar a hipótese acima a um nível de significância de 2,5% e diga qual deve ser a decisão a ser adotada pela empresa? 2. Ao final de 90 dias de uma dieta alimentar envolvendo 25 pessoas, constatou-se o seguinte ganho médio de peso de 40g, e desvio padrão de 1,378g. Supondo que o ganho de peso médio dessas pessoas é de 45g, teste a hipótese para α = 5%, se esse valor é o mesmo. 3. Um processo de fabricação de arame de aço dá um produto com resistência média de 200 psi. O desvio padrão é de 20 psi. O engenheiro de controle de qualidade deseja elaborar um teste que indique se houve ou não variação na média do processo, usando uma amostra de 25 arames obteve-se uma média de 285 psi. Use um nível de significância de 5%. 4. Suponha que alguém tenha sugerido de experiências passadas que 60% das larvas de mosquito num certo lago deveriam ser da espécie Aedes detritus. Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipóteste? Use α = 5% 5. As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 0,6. Testar essa hipótese ao nível de 2%, se em 1000 nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até 60 anos. 6. Observou-se a produção mensal de uma indústria durante alguns anos e verificouse que ela obedecia a uma distribuição normal com variância igual a 300 u2 . Foi adotada então uma nova técnica de produção e durante um período de 24 meses observou-se a produção mensal. Após este período constatou-se que a variância foi de 400 u2 . Há motivos para se acreditar que houve alteração na variância ao nível de 10%? 128 7. Uma amostra de dez elementos extraída de uma população suposta normal forneceu variância igual a 12,4. Pergunta-se: esse resultado é suficiente para se concluir, ao nível α = 5% de significância, que a variância dessa população é inferior a 25? 8. Para verificar se a variabilidade das espessuras de um tipo de disco metálico é inferior a 3 mm, considerou-se uma amostra de 25 desses discos e obteve-se uma estimativa para o desvio-padrão de 1,8 mm. Com este resultado, qual seria a conclusão a respeito da variabilidade das espessuras? (use α = 5%) 9. Uma amostra de 10 lâmpadas elétricas, da marca A, apresentou a vida média de 1400 horas e uma amostra de 20 lâmpadas elétricas, da marca B, apresentou a vida média de 1200 horas. Suponha que os desvios padrões populacionais dos tempos de vida das lâmpadas das duas marcas sejam conhecidos e iguais a 120 e 100, respectivamente. Teste, ao nível de significância de 1%, a hipótese que as duas marcas produzem lâmpadas com o mesmo tempo médio de vida. 10. Sendo Amostra 1 Amostra 2 n1 = 60 x̄1 = 5, 71 σ12 = 43 n2 = 35 x̄2 = 4, 12 σ22 = 28 Testar a igualdade das duas média usando α = 5% 11. Duas fábricas devem ser comparadas em relação ao tempo gasto por seus trabalhadores para executar determinada tarefa. Na fábrica A são considerados 15 trabalhadores e são obtidos um tempo médio estimado de 12 min e um desvio padrão de 2 min. Na fábrica B são considerados 20 trabalhadores e o tempo médio obtido é de 10 min e o desvio padrão é de 3 min. Sabendo-se que o tempo de execução da tarefa tem a mesma variabilidade nas duas fábricas, pode-se considerar que os trabalhadores da fábrica B são mais rápidos que os da A?(use α = 0, 05) 12. Duas técnicas de vendas são aplicadas por dois grupos de vendedores: a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores resultados que a técnica A. No final de um mês, os vendedores de A venderam uma média de 68 ítens, com uma variância de 50, enquanto que os vendedores de B venderam uma média de 76 ítens com uma variância de 75. Testar, ao nível de significância de 5%, se a técnica B é 129 realmente melhor que a técnica A. 13. Uma amostra de 370 azulejos tirados da produção de um dado dia acusou 19 azulejos com defeito. Numa amostra de 165 azulejos da produção do dia seguinte havia 15 azulejos com defeito. Há razões estatísticas válidas para se afirmar que nesse segundo dia a produção tenha piorado? (Use nível de 5% de significância). 14. Uma empresa de pesquisa de opinião seleciona, aleatóriamente, 300 eleitores de São Paulo e 400 do Rio de Janeiro, e pergunta a cada um se votará ou não num determinado candidato nas próximas eleições. 75 eleitores de SP e 120 do RJ responderam afirmativo. Há diferença entre as proporções de eleitores favoráveis ao candidato naqueles dois Estados? (use α = 0, 01) 15. Dois programas de treinamento de funcionários foram efetuados. Os 21 funcionários treinados no programa antigo apresentaram uma variância de 146 pontos em sua taxa de erro. No novo programa, 11 funcionários apresentaram uma variância de 200. Sendo α = 10%, pode-se concluir que a variância é diferente para os dois programas? 16. O fabricante I de um tipo especial de aço afirma que, em relação à resistência à tração, seu produto é mais homogênio que o do fabricante II. Para verificar essa afirmação foi considerada uma amostra de 11 cabos de aço do fabricante I e uma de 15 do II. As estimativas dos desvios padrões obtidas foram, respectivamente, 5 kg/cm e 8 kg/cm. Com esses resultados, qual seria a conclusão a respeito da afirmação do fabricante I? (Use nível de 2,5% de significância). 17. A Hudson Valley Boaling Company distribui um tipo de cerveja sem álcool em garrafas que indicam o conteúdo de 32 oz. O Bureau of Weights anel Measures seleciona aleatoriamente 26 dessas garrafas, mede seu conteúdo e obtém uma média amostral de 31,8 oz, com desvio-padrão de 0,75 oz. Ao nível de 0,01 de significância, teste a afirmação do Instituto de que a companhia está ludibriando os consumidores. Deve-se formalizar uma queixa? 18. Estão em teste dois processos para fechar latas de comestíveis. Em duas seqüências de 1000 latas, o processo 1 gera 50 rejeições, enquanto o processo 2 acusa 200 rejeições. Pode ao nível de 5%, concluir que os dois processos sejam diferentes? 19. Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certa 130 revista, acontecendo o mesmo com 26 dentre 50 mulheres. Ao nível de 5% de significância os homens e as mulheres apreciam igualmente a revista? 20. A variabilidade de dois produtos similares deve ser comparada. Coletam-se 15 observações do produto 1 e 18 do produto 2. A amostra de produto 1 apresenta S1 = 15, e a amostra de produto 2 apresenta S2 = 18. Teste a hipótese de que as variâncias sejam as mesmas (considere α = 0, 10). 21. Um fornecedor de matéria-prima afirma que o teor de impureza de seu produto é 2,5%. 152 amostras são analisadas, sendo 8 delas classificadas como impuras. Conclua a respeito da hipótese do fornecedor (use α = 0, 05). 22. Um fabricante garante que 90% das peças que fornece a um cliente estão de acordo com as especificações exigidas. O exame de uma amostra aleatória de 200 destas peças revelou 25 fora das especificações. Verifique se aos níveis de 5% e 1% de significância se há exagero na afirmativa do fabricante. 23. Diversas políticas, em relação às filiais de uma rede de supermercados, estão associadas ao gasto médio dos clientes em cada compra. Deseja-se comparar estes parâmetros de duas novas filiais, através de duas amostras de 50 clientes, selecionados ao acaso, de cada uma das novas filiais. As médias obtidas foram 62 e 71 unidades monetárias. Supondo que os desvios padrões sejam idênticos e iguais a 20 um, teste a hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma significância de 5%? 24. Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferência dos consumidores por um determinado produto. No primeiro ano o produto era anunciado com frequência semanal nos veículos de comunicação e no segundo ano com frequência mensal. No levantamento foram utilizados duas amostras independentes de 400 consumidores cada. No primeiro ano o percentual de compradores ficou em 33% e no segundo ano em 29%. Considerando o nível de significância de 5%, teste a hipótese de que a frequência do anúncio tem influência na manutenção da fatia de mercado. 25. Uma agência de empregos alega que os candidatos por elas colocados nos últimos 6 meses têm salários de R$ 9.000,00 anuais, em média. Uma agência governamental extraiu uma amostra aleatória daquele grupo, encontrando um salário médio de R8.000,00, com desvio-padrão de R$ 1.000,00 com base em 30 empregados. Teste a afirmação da agência, contra a alternativa de que o 131 salário médio é inferior a R$ 9.000,00, ao nível de significância de 0,05. 26. Um pesquisador deseja saber se a média da ingestão calórica diária em população rural de um país desenvolvido é menor do que 2000 calorias, valor considerado como ideal. Estudando 500 pessoas, obteve média de 1985 e desvio padrão de 210. Realize o teste de hipótese.(use α = 3%) 27. Um pesquisador quis determinar os efeitos de um programa orientado de exercícios de longa duração em uma empresa. Os dados foram coletados de 13 pessoas que participavam voluntariamente do programa de exercícios e que praticavam atividade física por uma média de 13 anos. O grupo controle foi formado por 17 pessoas. A variável resposta medida foi o número de vezes que as pessoas se erguiam em 30 segundos. O grupo de exercícios teve uma média de 21.0 e um desvio padrão de 4.9. O grupo controle teve média de 12.1 e desvio padrão de 5.6. Assumindo que as duas populações têm distribuição normal e que as variâncias populacionais são iguais, realize o teste de hipóteses de que as médias são iguais. (use α = 5%) 28. Estudos sobre mortalidade de homens com idade superior a 65 anos de uma cidade mostram que 4% deles morrem dentro de um ano. Num grupo de 1000 indivíduos selecionados dessa população, 60 morreram no período de um ano. Suspeita-se de que houve um aumento da mortalidade anual nessa população. (use α = 5%) 29. Um restaurante compra frangos abatidos inteiros com peso médio de 3 quilos há vários anos de um fornecedor. Outro fornecedor propõe ao gerente do restaurante vender frangos com peso médio maior que 3 quilos ao mesmo preço do fornecedor antigo. Antes de mudar de fornecedor, o gerente do restaurante decidiu comprar 25 frangos do novo fornecedor e pesá-los. Encontrou um peso médio de 3,2 quilos com um desvio padrão de 0,4 quilos. (use α = 2, 5%) 30. Uma fábrica de automóveis anuncia que seus carros consomem, em média, 11 litros por 100 km, com desvio padrão de 0,8 litro. Uma revista resolve testar essas afirmação e analisa 35 automóveis dessa marca, obtendo 11,3 litros por 100 km como consumo médio (considerar distribuição normal). O que a revista pode concluir sobre o anuncio da fábrica, ao nível de 10%? 31. Um especialista em marketing de uma fábrica de massas acredita que 40% dos amantes de massas preferem lasanha. Se nove de 20 amantes de massas es- 132 colhem lasanha em vez de outras massas, o que podemos concluir sobre a afirmação? Use um nível de significância de 0,05. 32. Examinaram-se 2 classes de 14 e 15 alunos de um mesmo período de um curso. Na primeira, o grau médio foi de 7,4 com desvio padrão de 0,8. Na segunda, a média foi de 7,8, com desvio padrão de 0,7. Há uma diferença significativa entre os aproveitamentos das 2 classes ao nível de 5%? 33. Em um estudo para estimar a proporção de residentes em certa cidade e seus arredores que é a favor da construção de uma usina nuclear, descobriu-se que 63 de cem moradores da área urbana são a favor, enquanto somente 59 de 125 moradores dos arredores são a favor. Há uma diferença significante entre a proporção de moradores da área urbana e dos arredores que são a favor da construção da usina? (use α = 1%) 34. Deseja-se testar ao nível de 5% se duas populações têm as mesmas variâncias. Os dados obtidos nas amostras são: n1 = 10, s21 = 5, 22, n2 = 21 e s22 = 16, 9. Qual a conclusão fornecida pelos dados? 35. A vida média das lâmpadas elétricas produzidas por uma empresa era de 1120 horas. Uma amostra de 8 lâmpadas extraída recentemente apresentou a vida média de 1070 horas, com desvio padrão de 125 horas. Testar a hipótese de que a vida média das lâmpadas não se alterou ao nível de 1%. 36. Uma amostra aleatória de cem registros de mortes nos Estados Unidos durante o ano passado mostrou uma expectativa de vida é de 71,8 anos. Assumindo um desvio padrão de 8,9 anos, isso parece indicar que a média da expectativa de vida hoje é maior do que 70 anos? Use um nível de significância de 0,05. 133 12 Correlação e Regressão Linear Simples 12.1 Correlação Linear Simples 12.1.1 Relação entre variáveis Se desejarmos verificar a existência e o grau de relação entre variáveis então devemos realizar o estudo da correlação entre essas variáveis. Exemplos: – O peso pode estar relacionado com a idade; – O consumo das famílias pode estar relacionado com a renda; – A demanda de um determinado produto estar relacionado com seu preço. 12.1.2 Medida de Correlação O estudo da correlação tem por objetivo medir e avaliar o grau de relação entre as variáveis X e Y através da disposição dos pontos (X, Y ) em torno de uma reta. O instrumento de medida da correlação linear é dado pelo coeficiente de correlação linear de Pearson, ou, simplesmente, coeficiente de correlação. r= cov(x, y) Sx Sy em que Sx e Sy são os desvios padrões das variáveis X e Y na amostra. 134 Como sP Sx = n i=1 (xi − n−1 sP x̄)2 e Sy = n i=1 (yi − ȳ)2 n−1 e a covariância cov(x, y) é dada por Pn cov(x, y) = − x̄)(yi − ȳ) Sx Sy i=1 (xi Para Calculo direto do coeficiente de correlação linear de Pearson, tem-se a seguinte fórmula: P P xi y i − xi y i r=p P 2 P P P [n xi − ( xi )2 ] · [n yi2 − ( yi )2 ] n P O campo de variação do coeficiente r situa-se entre −1 e +1. −1 ≤ r ≤ 1 Sua interpretação dependerá do valor numérico e do sinal. Figura 8: Diagramas de Dispersão. 135 Figura 9: Diagramas de Dispersão. Figura 10: Diagramas de Dispersão. 12.2 Regressão Linear – A análise de regressão linear apresenta como resultado uma equação matemática que descreve um determinado relacionamento. – A equação pode ser usada para estimar ou predizer valores de uma variável quando se conhecem ou se supõem conhecidos valores de outra variável. Definição: Constitui em tentativa de estabelecer uma equação matemática linear que melhor descreva o relacionamento entre duas variáveis (uma dependente e outra independente). A equação de regressão tem por finalidade estimar valores de uma variável, com base em valores conhecidos da outra. 136 Modelo de regressão linear Yi = α + βxi + εi (12.1) em que Yi é o valor estimado (variável dependente), xi é a variável independente, β é o coeficiente de regressão (coeficiente angular), α é o coeficiente linear e εi é o resíduo Observação: Chamamos (1) de modelo linear, pois este representa uma reta. Todavia, em casos mais gerais, o termo linear refere-se ao modo como os parâmetros entram no modelo, ou seja, de forma linear. 12.2.1 Pressuposições – A relação entre X e Y é linear (os acrescimos em X produzem acrescimos proporcionais em Y e a razão de acrescimo é constante). – Os valores de X são fixados arbitrariamente (X não é variável aleatória) – εi é o erro aleatório, portanto uma variável aleatória com distribuição normal, com média zero e variância constante σ 2 . [εi ∼ N (0, σ 2 )]. εi representa a variação de Y que não é explicada pela variável independente X . Implica que yi ∼ N (α + βxi , σ 2 ). – Se i 6= j , cov(εi , εj ) = 0, isto é, para duas observações distintas, os erros são não-correlacionados (os erros são considerados independentes). Exemplo Vendas (×1000) X Lucro (×100) obs Vendas Lucro 1 201 17 2 225 20 3 305 21 4 380 23 5 560 25 6 600 24 7 685 27 8 735 27 137 Figura 11: Diagrama de Dispersão. 12.2.2 Método de estimação dos parâmetros α e β – As estimativas dos parâmetros α e β dados por α̂ e β̂ , serão dados a partir de uma amostra de n pares de valores (xi , yi ) que correspondem a n pontos no diagrama de dispersão. – O método mais usado para ajustar uma linha reta para um conjunto de pontos (xi , yi ), i = 1, 2, . . . , n é o Método dos Mínimos Quadrados. – O método dos mínimos quadrados consiste em adotar como estimativa dos parâmetros os valores que minimizam a soma dos quadrados dos desvios. Caracteristicas: – A soma dos desvios verticais dos pontos em relação a reta é zero; – A soma dos quadrados desses desvios é mínima. Os valores α̂ e β̂ da reta de regressão ŷ = α̂ + β̂x serão estimados de tal forma que minimizam a soma dos erros, dados por εi = yi − (α + βxi ), i = 1, 2, . . . , n Obtemos, então, a quantidade de informação perdida pelo modelo ou soma dos quadrados dos erros (ou desvios) 138 SQ(α, β) = n X n X = {yi − (α + βxi )}2 . ε2i i=1 i=1 Derivando em relação a α e β e igualando a zero, observa-se que as soluções α̂ e β̂ devem satisfazer. nα̂ + β̂ n X xi = n X i=1 α̂ n X xi + β̂ i=1 n X yi i=1 x2i = i=1 n X xi y i i=1 as quais produzem as soluções α̂ = ȳ − β̂ x̄ (12.2) Pn xi yi − nx̄ȳ β̂ = Pi=1 n 2 2 i=1 xi − nx̄ (12.3) Para cada par de valores (xi , yi ) pode-se estabelecer o desvio εi = yi − ŷi = yi − (α̂ + β̂xi ) Exemplo Para facilitar os cálculos da reta de regressão, acrescenta-se três novas colunas na tabela de dados. obs 1 2 3 4 5 6 7 8 P ȳ = 184 8 Vendas (xi ) 201 225 305 380 560 600 685 735 3.691 = 23 e x̄ = 3691 8 Lucro (yi ) 17 20 21 23 25 24 27 27 184 = 461, 38 x2i yi2 xi y i 40.401 50.625 93.025 144.400 313.600 360.000 469.225 540.225 2.011.501 289 400 441 529 625 576 729 729 4.318 3.417 4.500 6.405 8.740 14.000 14.400 18.495 19.845 89.802 139 P xi yi − nx̄ȳ 89.802 − 8 · (461, 38)(23) β̂ = P 2 = 0, 0159 = 2 2.011.501 − 8(461, 38)2 xi − nx̄ α̂ = ȳ − β̂ x̄ = 23 − (0, 0159)(461, 38) = 15, 66 Logo, ŷ = 0, 0159x + 15, 66 Partindo da reta de regressão pode-se afirmar que para uma venda de 400 mil podese obter um lucro de ŷ = (0, 0159)(400.000) + 15, 66 = 22 mil. Figura 12: Diagrama de Dispersão com a reta ajustada. 12.3 Decomposição da variância total A dispersão da variação aleatória "y "pode ser medida através da soma dos quadrados dos desvios em relação a sua média ȳ . Essa soma de quadrados será denominada Soma de Quadrados Total (SQTotal) n X SQTotal = (yi − ȳ)2 i=1 140 A SQTotal pode ser decomposta da seguinte forma: n n n X X X 2 2 (yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )2 i=1 i=1 i=1 Assim, SQTotal = SQRegressão + SQResíduo Fórmulas para cálculo: n n n X 2 X X 2 2 SQTotal = (yi − ȳ) = n yi − yi , i=1 i=1 i=1 com (n − 1) graus de liberdade. n n n n X X X X 2 SQRegressão = (yi − ŷi ) = β n xi y i − xi yi , i=1 i=1 i=1 i=1 com 1 grau de liberdade. 12.4 Análise de Variância da Regressão A Soma de Quadrados da Regressão (SQRegressão), segue uma distribuição χ2 com um grau de liberdade, enquanto que a Soma de Quadrados do Resíduo (SQResíduo) segue a mesma distribuição, porém com (n − 2) graus de liberdade. Portanto, o quociente QM Regressão SQRegressão/1 = , SQResíduo/n − 2 QM Resíduo segue uma distribuição F de Snedecor com 1 e (n − 2) graus de liberdade. Esse fato nos permite empregar a distribuição F de Snedecor para testar a significância da regressão, através da chamada Análise de Variância, sintetizada no quadro a seguir. 141 Tabela 18: Tabela ANOVA para modelo de regressão C. V. g.l. SQ Regressão 1 SQReg QM Reg = SQReg 1 Resíduo n−2 SQRes QM Res = SQRes n−2 Total QM n − 1 SQTotal F QM Reg QM Res = Fcalc - Para testar a significância da regressão, formula-se as seguintes hipóteses: H0 : β = 0 contra H1 : β 6= 0, em que β representa o coeficiente de regressão paramétrico. Se o valor de F , calculado a partir do quadro anterior, superar o valor teórico de F com 1 e (n − 2) graus de liberdade, para o nível de significância α, rejeita-se H0 e conclui-se que a regressão é significativa. Se Fcal > Fα,[1,(n−2)] , rejeita-se H0 . Para o exemplo anterior, ŷi = 0, 0159xi + 15, 66 n n n h X i X X SQRegressão = β n xi y i − xi yi = i=1 i=1 i=1 SQRegressão = 0, 0159[8(89.802) − (3.691)(184)] = 624, 42 SQTotal = n n X i=1 yi2 n X 2 − yi = 8(4.318) − (184)2 = 688 i=1 Comparando o Fcal = 58, 93 com o Ftab = F0,05;(1,6) = 5, 99 Conclui-se que a regressão de y sobre x segundo o modelo ŷi = 0, 0159xi + 15, 66 é 142 Tabela 19: Tabela ANOVA para modelo de regressão C. V. Regressão Resíduo Total g.l. SQ QM F 1 6 7 624,42 63,58 688,00 624,42 10,60 58,93 siginificativa ao nível de 5%. Uma vez estabelecida e testada a equação de regressão, a mesma pode ser usada para explicar o relacionamento entre as variáveis e também fazer predições dos valores de y para os valores fixados x. 12.5 Coeficiente de determinação Este coeficiente é uma medida da proporção da variação da variável resposta Y que é explicada pela equação de regressão quando está envolvida a variável independente X. O coeficiente de determinação é dado por 2 P Pn Pn n n i=1 xi yi − i=1 xi i=1 yi cov(x, y) Pn Pn 2 Pn = r2 = Pn 2 2 2 [n i=1 xi − ( i=1 xi ) ] · [n i=1 yi − ( i=1 yi ) ] Sxx Syy O valor de r2 varia de 0 a 1. No exemplo, r2 = [8(89.802) − (3.691)(184)]2 = 0, 908 [8(2.011.501) − (3.691)2 ] · [8(4.318) − (184)2 ] indica que aproximadamente 91% da variação dos lucros estão relacionados com a variação das vendas. 143 12.6 Exercícios 1. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte equação: ŷ = −1, 20 + 0, 40x em que ŷ despesa mensal estimada com mercadorias e x renda líquida mensal. Estimar a despesa de uma família com renda mensal líquida de 15 s.m. 2. Complete o esquema de cálculo do coeficiente de correlação para os valores das variáveis xi e yi . Obtenha os parâmetros α e β da reta ajustada. xi yi 4 12 6 10 8 8 10 12 12 14 3. Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada indústria: Produção xi Custo total yi 12 80 4 44 6 51 11 70 8 61 a) Estime uma função linear para o custo total dessa indústria. b) Determine o valor do coeficiente de determinação r2 . c) Construa a tabela ANOVA e realize o teste de hipótese. 4. As notas de uma sala com nove estudantes em um relatório de meio de curso (x) e em um exame final (y ) são as seguintes xi yi 77 82 50 66 71 78 72 34 81 47 94 85 96 99 99 99 67 68 a) Estime a reta de regressão linear b) Estime a nota do exame final de um aluno que teve uma nota 85 no relatório de meio de curso. c) Determine o valor de r2 e interprete o resultado. d) Construa a tabela ANOVA e realize o teste de hipótese. 144 Referências BUSSAB, W. O., MORETTIN, P. A., Estatística Básica, São Paulo: Saraiva 5.ed (2003). COSTA NETO, P. L. O., Estatística, São Paulo: Edgard Blucher 3.ed. (2002). DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Pioneira Thomson Learning. (2006). FONSECA, J. S. da; MARTINS, G. A. Curso de estatística. São Paulo: Atlas, (2009). MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística. 6a Ed. São Paulo. Editora Edusp, (2005). MARTINS, G. de A. Estatística Geral e aplicada. São Paulo: Atlas, (2001). MEYER, P.L. Probabilidade, Aplicações à Estatística. Rio de Janeiro; Ao Livro Técnico S.A. (1976). MILONE, G., Estatística: Geral e Aplicada, São Paulo: Pioneira Thomson Learning 1.ed. (2004). MORETTIN, L. G. Estatística Básica - Probabilidade e Inferência. Volume Único. São Paulo: : Pearson Prentice Hall. (2010). SPIEGEL, M.R. Estatística. São Paulo: McGraw-Hill do Brasil, (1975). TOLEDO, G. L., OVALLE, I. I., Estatística Básica, São Paulo: Atlas 2.ed. (1985). TRIOLA, M. F. Introdução à Estatística, 9 ed. São Paulo: LTC. (2005). WALPOLE, R. E... [et al.]. Probabilidade e Estatística para engenharia e ciências. São Paulo: Pearson Prentice Hall, (2009). Tabelas estatísticas Tabela da Distribuição Normal Padrão P(Z<z) z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,0 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000 P(Z<z) z 0,0 -0,1 -0,2 -0,3 -0,4 -0,5 -0,6 -0,7 -0,8 -0,9 -1,0 -1,1 -1,2 -1,3 -1,4 -1,5 -1,6 -1,7 -1,8 -1,9 -2,0 -2,1 -2,2 -2,3 -2,4 -2,5 -2,6 -2,7 -2,8 -2,9 -3,0 -3,1 -3,2 -3,3 -3,4 -3,5 -3,6 -3,7 -3,8 -3,9 0,0 0,5000 0,4602 0,4207 0,3821 0,3446 0,3085 0,2743 0,2420 0,2119 0,1841 0,1587 0,1357 0,1151 0,0968 0,0808 0,0668 0,0548 0,0446 0,0359 0,0287 0,0228 0,0179 0,0139 0,0107 0,0082 0,0062 0,0047 0,0035 0,0026 0,0019 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000 0,01 0,4960 0,4562 0,4168 0,3783 0,3409 0,3050 0,2709 0,2389 0,2090 0,1814 0,1562 0,1335 0,1131 0,0951 0,0793 0,0655 0,0537 0,0436 0,0351 0,0281 0,0222 0,0174 0,0136 0,0104 0,0080 0,0060 0,0045 0,0034 0,0025 0,0018 0,0013 0,0009 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000 0,02 0,4920 0,4522 0,4129 0,3745 0,3372 0,3015 0,2676 0,2358 0,2061 0,1788 0,1539 0,1314 0,1112 0,0934 0,0778 0,0643 0,0526 0,0427 0,0344 0,0274 0,0217 0,0170 0,0132 0,0102 0,0078 0,0059 0,0044 0,0033 0,0024 0,0018 0,0013 0,0009 0,0006 0,0005 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,2981 0,2643 0,2327 0,2033 0,1762 0,1515 0,1292 0,1093 0,0918 0,0764 0,0630 0,0516 0,0418 0,0336 0,0268 0,0212 0,0166 0,0129 0,0099 0,0075 0,0057 0,0043 0,0032 0,0023 0,0017 0,0012 0,0009 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,2946 0,2611 0,2296 0,2005 0,1736 0,1492 0,1271 0,1075 0,0901 0,0749 0,0618 0,0505 0,0409 0,0329 0,0262 0,0207 0,0162 0,0125 0,0096 0,0073 0,0055 0,0041 0,0031 0,0023 0,0016 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,2912 0,2578 0,2266 0,1977 0,1711 0,1469 0,1251 0,1056 0,0885 0,0735 0,0606 0,0495 0,0401 0,0322 0,0256 0,0202 0,0158 0,0122 0,0094 0,0071 0,0054 0,0040 0,0030 0,0022 0,0016 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,2877 0,2546 0,2236 0,1949 0,1685 0,1446 0,1230 0,1038 0,0869 0,0721 0,0594 0,0485 0,0392 0,0314 0,0250 0,0197 0,0154 0,0119 0,0091 0,0069 0,0052 0,0039 0,0029 0,0021 0,0015 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,2843 0,2514 0,2206 0,1922 0,1660 0,1423 0,1210 0,1020 0,0853 0,0708 0,0582 0,0475 0,0384 0,0307 0,0244 0,0192 0,0150 0,0116 0,0089 0,0068 0,0051 0,0038 0,0028 0,0021 0,0015 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,2810 0,2483 0,2177 0,1894 0,1635 0,1401 0,1190 0,1003 0,0838 0,0694 0,0571 0,0465 0,0375 0,0301 0,0239 0,0188 0,0146 0,0113 0,0087 0,0066 0,0049 0,0037 0,0027 0,0020 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,2776 0,2451 0,2148 0,1867 0,1611 0,1379 0,1170 0,0985 0,0823 0,0681 0,0559 0,0455 0,0367 0,0294 0,0233 0,0183 0,0143 0,0110 0,0084 0,0064 0,0048 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001 0,0000 Tabela 5 Distribuição t de Student Á re a in d icad a 0 t (V alor tab u lad o) gl 0,25 0,10 0,05 Área na cauda superior 0,025 0,01 0,005 0,0025 0,001 0,0005 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 z 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,682 0,681 0,680 0,679 0,674 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,306 1,303 1,301 1,299 1,282 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,690 1,684 1,679 1,676 1,645 12,71 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,030 2,021 2,014 2,009 1,960 318,3 22,33 10,21 7,173 5,894 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,340 3,307 3,281 3,261 3,090 31,82 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,438 2,423 2,412 2,403 2,326 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,724 2,704 2,690 2,678 2,576 Nota: A coluna em destaque é a mais usada. BARBETTA, P. A. - Estatística aplicada às Ciências Sociais. 7 ed. Florianópolis: Editora da UFSC, 2010 127,3 14,09 7,453 5,598 4,773 4,317 4,029 3,833 3,690 3,581 3,497 3,428 3,372 3,326 3,286 3,252 3,222 3,197 3,174 3,153 3,135 3,119 3,104 3,091 3,078 3,067 3,057 3,047 3,038 3,030 2,996 2,971 2,952 2,937 2,807 636,6 31,60 12,92 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,660 3,646 3,591 3,551 3,520 3,496 3,291 Tabela 3 - Valores críticos (unilaterais à esquerda) da distribuição Qui-Quadrado P(χ2 com n graus de liberdade ≥ valor tabelado) = α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0,995 0,000 0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 8,034 8,643 9,260 9,886 10,520 11,160 11,808 12,461 13,121 13,787 14,458 15,134 15,815 16,501 17,192 17,887 18,586 19,289 19,996 20,707 21,421 22,138 22,860 23,584 24,311 25,041 25,775 26,511 27,249 27,991 0,99 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,647 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,878 13,565 14,256 14,953 15,655 16,362 17,073 17,789 18,509 19,233 19,960 20,691 21,426 22,164 22,906 23,650 24,398 25,148 25,901 26,657 27,416 28,177 28,941 29,707 0,975 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 17,539 18,291 19,047 19,806 20,569 21,336 22,106 22,878 23,654 24,433 25,215 25,999 26,785 27,575 28,366 29,160 29,956 30,754 31,555 32,357 0,95 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 19,281 20,072 20,867 21,664 22,465 23,269 24,075 24,884 25,695 26,509 27,326 28,144 28,965 29,787 30,612 31,439 32,268 33,098 33,930 34,764 0,9 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,041 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 21,434 22,271 23,110 23,952 24,797 25,643 26,492 27,343 28,196 29,051 29,907 30,765 31,625 32,487 33,350 34,215 35,081 35,949 36,818 37,689 0,1 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 41,422 42,585 43,745 44,903 46,059 47,212 48,363 49,513 50,660 51,805 52,949 54,090 55,230 56,369 57,505 58,641 59,774 60,907 62,038 63,167 0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 44,985 46,194 47,400 48,602 49,802 50,998 52,192 53,384 54,572 55,758 56,942 58,124 59,304 60,481 61,656 62,830 64,001 65,171 66,339 67,505 0,025 5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 48,232 49,480 50,725 51,966 53,203 54,437 55,668 56,895 58,120 59,342 60,561 61,777 62,990 64,201 65,410 66,616 67,821 69,023 70,222 71,420 0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 52,191 53,486 54,775 56,061 57,342 58,619 59,893 61,162 62,428 63,691 64,950 66,206 67,459 68,710 69,957 71,201 72,443 73,683 74,919 76,154 OBS.: (1) G.L. = Graus de Liberdade (2) Para graus de liberdade que não estão na tabela, isto é acima de 50, 2 1 2 use a aproximação: χp = z + 2k − 1 , onde zp é o valor 2 p correspondente na normal padrão. ( ) 0,005 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,558 46,928 48,290 49,645 50,994 52,335 53,672 55,002 56,328 57,648 58,964 60,275 61,581 62,883 64,181 65,475 66,766 68,053 69,336 70,616 71,892 73,166 74,437 75,704 76,969 78,231 79,490 Probabilidades da distribuição F de Snedecor – valores de Fv1 ,v 2 ,p , onde p = P(Fv1 ,v2 ≥ Fv1 ,v2 ,p ) ; p = 10% v2 1 v1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 50 60 100 150 infinito 39,90 49,50 53,60 55,80 57,20 58,20 58,90 59,40 59,90 60,20 60,50 60,70 60,90 61,10 61,20 61,30 61,50 61,60 61,70 61,70 62,10 62,30 62,50 62,70 62,80 63,00 63,10 63,33 2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,40 9,41 9,42 9,42 9,43 9,43 9,43 9,44 9,44 9,44 9,45 9,46 9,47 9,47 9,48 9,48 9,49 9,49 3 5,54 5,46 5,39 5,34 5,31 5,29 5,27 5,25 5,24 5,23 5,22 5,22 5,21 5,21 5,20 5,20 5,19 5,19 5,19 5,18 5,18 5,17 5,16 5,16 5,15 5,14 5,14 5,13 4 4,55 4,33 4,19 4,11 4,05 4,01 3,98 3,96 3,94 3,92 3,91 3,90 3,89 3,88 3,87 3,86 3,86 3,85 3,85 3,84 3,83 3,82 3,80 3,80 3,79 3,78 3,77 3,76 5 4,06 3,78 3,62 3,52 3,45 3,41 3,37 3,34 3,32 3,30 3,28 3,27 3,26 3,25 3,24 3,23 3,22 3,22 3,21 3,21 3,19 3,17 3,16 3,15 3,14 3,13 3,12 3,11 6 3,78 3,46 3,29 3,18 3,11 3,06 3,01 2,98 2,96 2,94 2,92 2,91 2,89 2,88 2,87 2,86 2,86 2,85 2,84 2,84 2,82 2,80 2,78 2,77 2,76 2,75 2,74 2,72 7 3,59 3,26 3,07 2,96 2,88 2,83 2,79 2,75 2,73 2,70 2,68 2,67 2,65 2,64 2,63 2,62 2,62 2,61 2,60 2,60 2,57 2,56 2,54 2,52 2,51 2,50 2,49 2,47 8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,52 2,50 2,49 2,48 2,46 2,45 2,45 2,44 2,43 2,43 2,40 2,38 2,36 2,35 2,34 2,32 2,31 2,29 9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,40 2,38 2,36 2,35 2,34 2,33 2,32 2,31 2,31 2,30 2,27 2,26 2,23 2,22 2,21 2,19 2,18 2,16 10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,30 2,28 2,27 2,26 2,24 2,23 2,22 2,22 2,21 2,20 2,17 2,16 2,13 2,12 2,11 2,09 2,08 2,06 11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,23 2,21 2,19 2,18 2,17 2,16 2,15 2,14 2,13 2,12 2,10 2,08 2,05 2,04 2,03 2,01 1,99 1,97 12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,25 2,21 2,19 2,17 2,15 2,13 2,12 2,11 2,09 2,08 2,08 2,07 2,06 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,90 13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,12 2,10 2,08 2,07 2,05 2,04 2,03 2,02 2,01 2,01 1,98 1,96 1,93 1,92 1,90 1,88 1,87 1,85 14 3,10 2,73 2,52 2,40 2,31 2,24 2,19 2,15 2,12 2,10 2,07 2,05 2,04 2,02 2,01 2,00 1,99 1,98 1,97 1,96 1,93 1,91 1,89 1,87 1,86 1,83 1,82 1,80 15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,04 2,02 2,00 1,99 1,97 1,96 1,95 1,94 1,93 1,92 1,89 1,87 1,85 1,83 1,82 1,79 1,78 1,76 16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 2,01 1,99 1,97 1,95 1,94 1,93 1,92 1,91 1,90 1,89 1,86 1,84 1,81 1,79 1,78 1,76 1,74 1,72 17 3,03 2,65 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,98 1,96 1,94 1,93 1,91 1,90 1,89 1,88 1,87 1,86 1,83 1,81 1,78 1,76 1,75 1,73 1,71 1,69 18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,01 1,98 1,95 1,93 1,92 1,90 1,89 1,88 1,86 1,85 1,85 1,84 1,81 1,78 1,75 1,74 1,72 1,70 1,68 1,66 19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,93 1,91 1,89 1,88 1,87 1,85 1,84 1,83 1,82 1,81 1,78 1,76 1,73 1,71 1,70 1,67 1,66 1,63 20 2,98 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,97 1,94 1,91 1,89 1,88 1,86 1,85 1,83 1,82 1,81 1,80 1,79 1,76 1,74 1,71 1,69 1,68 1,65 1,64 1,61 25 2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,90 1,87 1,84 1,82 1,80 1,79 1,77 1,76 1,75 1,74 1,73 1,72 1,68 1,66 1,63 1,61 1,59 1,57 1,55 1,52 30 2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82 1,79 1,77 1,75 1,74 1,72 1,71 1,70 1,69 1,68 1,67 1,63 1,61 1,57 1,55 1,54 1,51 1,49 1,46 40 2,84 2,44 2,23 2,09 2,00 1,93 1,87 1,83 1,79 1,76 1,74 1,72 1,70 1,68 1,66 1,65 1,64 1,63 1,62 1,61 1,57 1,54 1,51 1,48 1,47 1,43 1,42 1,38 50 2,81 2,41 2,20 2,06 1,97 1,90 1,84 1,80 1,76 1,73 1,70 1,68 1,66 1,64 1,63 1,61 1,60 1,59 1,58 1,57 1,53 1,50 1,47 1,44 1,42 1,39 1,37 1,33 60 2,79 2,39 2,18 2,04 1,95 1,88 1,82 1,78 1,74 1,71 1,68 1,66 1,64 1,62 1,60 1,59 1,58 1,56 1,55 1,54 1,50 1,48 1,44 1,41 1,40 1,36 1,34 1,29 100 2,76 2,36 2,14 2,00 1,91 1,83 1,78 1,73 1,70 1,66 1,64 1,61 1,59 1,57 1,56 1,54 1,53 1,52 1,51 1,49 1,45 1,42 1,38 1,36 1,34 1,29 1,27 1,21 150 2,74 2,34 2,12 1,98 1,89 1,81 1,76 1,71 1,67 1,64 1,61 1,59 1,57 1,55 1,53 1,52 1,50 1,49 1,48 1,47 1,43 1,40 1,35 1,33 1,31 1,26 1,23 1,17 infinito 2,71 2,30 2,08 1,95 1,85 1,77 1,72 1,67 1,63 1,60 1,57 1,55 1,52 1,51 1,49 1,47 1,46 1,44 1,43 1,42 1,38 1,34 1,30 1,26 1,24 1,19 1,15 1,00 Probabilidades da distribuição F de Snedecor – valores de Fv1 ,v 2 ,p , onde p = P(Fv1 ,v2 ≥ Fv1 ,v2 ,p ) ; p = 5% v2 v1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 50 60 100 150 infinito 1 161,40 199,50 215,70 224,60 230,20 234,00 236,80 238,90 240,50 241,90 243,00 243,90 244,70 245,40 245,90 246,50 246,90 247,30 247,70 248,00 249,30 250,10 251,10 251,80 252,20 253,00 253,50 254,31 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,39 19,40 19,41 19,41 19,42 19,42 19,43 19,43 19,44 19,44 19,44 19,45 19,46 19,46 19,47 19,48 19,48 19,49 19,49 19,50 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,75 8,73 8,72 8,70 8,69 8,68 8,68 8,67 8,66 8,63 8,62 8,59 8,58 8,57 8,55 8,55 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,89 5,87 5,86 5,84 5,83 5,82 5,81 5,80 5,77 5,75 5,72 5,70 5,69 5,66 5,65 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,66 4,64 4,62 4,60 4,59 4,58 4,57 4,56 4,52 4,50 4,46 4,44 4,43 4,41 4,39 4,37 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,98 3,96 3,94 3,92 3,91 3,90 3,88 3,87 3,84 3,81 3,77 3,75 3,74 3,71 3,70 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,58 3,55 3,53 3,51 3,49 3,48 3,47 3,46 3,45 3,40 3,38 3,34 3,32 3,30 3,28 3,26 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,26 3,24 3,22 3,20 3,19 3,17 3,16 3,15 3,11 3,08 3,04 3,02 3,01 2,98 2,96 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94 2,89 2,86 2,83 2,80 2,79 2,76 2,74 2,71 10 4,97 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,89 2,87 2,85 2,83 2,81 2,80 2,79 2,77 2,73 2,70 2,66 2,64 2,62 2,59 2,57 2,54 11 4,84 3,98 3,59 3,36 3,20 3,10 3,01 2,95 2,90 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,69 2,67 2,66 2,65 2,60 2,57 2,53 2,51 2,49 2,46 2,44 2,40 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,66 2,64 2,62 2,60 2,58 2,57 2,56 2,54 2,50 2,47 2,43 2,40 2,38 2,35 2,33 2,30 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,64 2,60 2,58 2,55 2,53 2,52 2,50 2,48 2,47 2,46 2,41 2,38 2,34 2,31 2,30 2,26 2,24 2,21 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,51 2,48 2,46 2,45 2,43 2,41 2,40 2,39 2,34 2,31 2,27 2,24 2,22 2,19 2,17 2,13 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,45 2,42 2,40 2,39 2,37 2,35 2,34 2,33 2,28 2,25 2,20 2,18 2,16 2,12 2,11 2,07 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,43 2,40 2,37 2,35 2,33 2,32 2,30 2,29 2,28 2,23 2,19 2,15 2,12 2,11 2,07 2,05 2,01 17 4,45 3,59 3,20 2,97 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,35 2,33 2,31 2,29 2,27 2,26 2,24 2,23 2,18 2,15 2,10 2,08 2,06 2,02 2,00 1,96 18 4,41 3,56 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,29 2,27 2,25 2,23 2,22 2,20 2,19 2,14 2,11 2,06 2,04 2,02 1,98 1,96 1,92 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,22 2,20 2,18 2,17 2,16 2,11 2,07 2,03 2,00 1,98 1,94 1,92 1,88 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,25 2,23 2,20 2,18 2,17 2,15 2,14 2,12 2,07 2,04 1,99 1,97 1,95 1,91 1,89 1,84 25 4,24 3,39 2,99 2,76 2,60 2,49 2,41 2,34 2,28 2,24 2,20 2,17 2,14 2,11 2,09 2,07 2,05 2,04 2,02 2,01 1,96 1,92 1,87 1,84 1,82 1,78 1,76 1,71 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,17 2,13 2,09 2,06 2,04 2,02 2,00 1,98 1,96 1,95 1,93 1,88 1,84 1,79 1,76 1,74 1,70 1,67 1,62 40 4,09 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,97 1,95 1,92 1,90 1,89 1,87 1,85 1,84 1,78 1,74 1,69 1,66 1,64 1,59 1,56 1,51 50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,92 1,90 1,87 1,85 1,83 1,81 1,80 1,78 1,73 1,69 1,63 1,60 1,58 1,53 1,50 1,44 60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,89 1,86 1,84 1,82 1,80 1,78 1,76 1,75 1,69 1,65 1,59 1,56 1,53 1,48 1,45 1,39 100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,98 1,93 1,89 1,85 1,82 1,79 1,77 1,75 1,73 1,71 1,69 1,68 1,62 1,57 1,52 1,48 1,45 1,39 1,36 1,28 150 3,90 3,06 2,67 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,82 1,79 1,76 1,73 1,71 1,69 1,67 1,66 1,64 1,58 1,54 1,48 1,44 1,41 1,35 1,31 1,22 infinito 3,84 3,00 2,61 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,72 1,69 1,67 1,64 1,62 1,60 1,59 1,57 1,51 1,46 1,39 1,35 1,32 1,24 1,20 1,00 Probabilidades da distribuição F de Snedecor – valores de Fv1 ,v 2 ,p , onde p = P(Fv1 ,v2 ≥ Fv1 ,v2 ,p ) ; p = 2,5% v2 1 v1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 973,0 976,7 979,8 982,5 984,9 986,9 988,7 990,3 991,8 993,1 998,1 1001,4 1005,6 1008,1 1009,8 1013,2 1014,9 1018,3 30 40 50 60 100 150 infinito 2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,42 39,42 39,43 39,43 39,44 39,44 39,44 39,45 39,45 39,46 39,47 39,47 39,48 39,48 39,49 39,49 39,50 3 17,44 16,04 15,44 15,10 14,89 14,74 14,62 14,54 14,47 14,42 14,37 14,34 14,31 14,28 14,25 14,23 14,21 14,20 14,18 14,17 14,12 14,08 14,04 14,01 13,99 13,96 13,94 13,90 4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,91 8,84 8,79 8,75 8,72 8,68 8,66 8,63 8,61 8,59 8,58 8,56 8,50 8,46 8,41 8,38 8,36 8,32 8,30 8,26 5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,57 6,53 6,49 6,46 6,43 6,40 6,38 6,36 6,34 6,33 6,27 6,23 6,18 6,14 6,12 6,08 6,06 6,02 6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,41 5,37 5,33 5,30 5,27 5,24 5,22 5,20 5,18 5,17 5,11 5,07 5,01 4,98 4,96 4,92 4,89 4,85 7 8,07 6,54 5,89 5,52 5,29 5,12 5,00 4,90 4,82 4,76 4,71 4,67 4,63 4,60 4,57 4,54 4,52 4,50 4,48 4,47 4,41 4,36 4,31 4,28 4,25 4,21 4,19 4,14 8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,24 4,20 4,16 4,13 4,10 4,08 4,05 4,03 4,02 4,00 3,94 3,89 3,84 3,81 3,78 3,74 3,72 3,67 9 7,21 5,72 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,91 3,87 3,83 3,80 3,77 3,74 3,72 3,70 3,68 3,67 3,60 3,56 3,51 3,47 3,45 3,40 3,38 3,33 10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,86 3,78 3,72 3,67 3,62 3,58 3,55 3,52 3,50 3,47 3,45 3,44 3,42 3,36 3,31 3,26 3,22 3,20 3,15 3,13 3,08 11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,47 3,43 3,39 3,36 3,33 3,30 3,28 3,26 3,24 3,23 3,16 3,12 3,06 3,03 3,00 2,96 2,93 2,88 12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,32 3,28 3,24 3,21 3,18 3,15 3,13 3,11 3,09 3,07 3,01 2,96 2,91 2,87 2,85 2,80 2,78 2,73 13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,20 3,15 3,12 3,08 3,05 3,03 3,00 2,98 2,97 2,95 2,88 2,84 2,78 2,74 2,72 2,67 2,65 2,60 14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,10 3,05 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,78 2,73 2,67 2,64 2,61 2,57 2,54 2,49 15 6,20 4,77 4,15 3,80 3,58 3,42 3,29 3,20 3,12 3,06 3,01 2,96 2,93 2,89 2,86 2,84 2,81 2,79 2,77 2,76 2,69 2,64 2,59 2,55 2,52 2,47 2,45 2,40 16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,13 3,05 2,99 2,93 2,89 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,68 2,61 2,57 2,51 2,47 2,45 2,40 2,37 2,32 17 6,04 4,62 4,01 3,67 3,44 3,28 3,16 3,06 2,99 2,92 2,87 2,83 2,79 2,75 2,72 2,70 2,67 2,65 2,63 2,62 2,55 2,50 2,44 2,41 2,38 2,33 2,30 2,25 18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,81 2,77 2,73 2,70 2,67 2,64 2,62 2,60 2,58 2,56 2,49 2,45 2,38 2,35 2,32 2,27 2,24 2,19 19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,77 2,72 2,68 2,65 2,62 2,59 2,57 2,55 2,53 2,51 2,44 2,39 2,33 2,30 2,27 2,22 2,19 2,13 20 5,87 4,46 3,86 3,52 3,29 3,13 3,01 2,91 2,84 2,77 2,72 2,68 2,64 2,60 2,57 2,55 2,52 2,50 2,48 2,46 2,40 2,35 2,29 2,25 2,22 2,17 2,14 2,09 25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,56 2,52 2,48 2,44 2,41 2,38 2,36 2,34 2,32 2,30 2,23 2,18 2,12 2,08 2,05 2,00 1,97 1,91 30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,28 2,26 2,23 2,21 2,20 2,12 2,07 2,01 1,97 1,94 1,88 1,85 1,79 40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,33 2,29 2,25 2,21 2,18 2,15 2,13 2,11 2,09 2,07 1,99 1,94 1,88 1,83 1,80 1,74 1,71 1,64 50 5,34 3,98 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,26 2,22 2,18 2,14 2,11 2,08 2,06 2,03 2,01 1,99 1,92 1,87 1,80 1,75 1,72 1,66 1,62 1,55 60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,22 2,17 2,13 2,09 2,06 2,03 2,01 1,99 1,96 1,94 1,87 1,82 1,74 1,70 1,67 1,60 1,56 1,48 100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,12 2,08 2,04 2,00 1,97 1,94 1,91 1,89 1,87 1,85 1,77 1,72 1,64 1,59 1,56 1,48 1,44 1,35 150 5,13 3,78 3,20 2,87 2,65 2,49 2,37 2,28 2,20 2,14 2,08 2,03 1,99 1,96 1,92 1,89 1,87 1,84 1,82 1,80 1,72 1,67 1,59 1,54 1,50 1,42 1,38 1,27 infinito 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,99 1,95 1,90 1,87 1,83 1,80 1,78 1,75 1,73 1,71 1,63 1,57 1,48 1,43 1,39 1,30 1,24 1,00 Probabilidades da distribuição F de Snedecor – valores de Fv1 ,v 2 ,p , onde p = P(Fv1 ,v2 ≥ Fv1 ,v2 ,p ) ; p = 1% v2 1 v1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 50 60 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6083 6107 6126 6143 6157 6170 6181 6191 6201 6209 6240 6260 6286 6302 6313 100 6334 150 6345 infinito 6366 2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,41 99,42 99,42 99,43 99,43 99,44 99,44 99,44 99,45 99,45 99,46 99,47 99,48 99,48 99,48 99,49 99,49 99,50 3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,13 27,05 26,98 26,92 26,87 26,83 26,79 26,75 26,72 26,69 26,58 26,50 26,41 26,35 26,32 26,24 26,20 26,13 4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,31 14,25 14,20 14,15 14,11 14,08 14,05 14,02 13,91 13,84 13,75 13,69 13,65 13,58 13,54 13,46 5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,83 9,77 9,72 9,68 9,64 9,61 9,58 9,55 9,45 9,38 9,29 9,24 9,20 9,13 9,09 9,02 6 13,75 10,93 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,66 7,61 7,56 7,52 7,48 7,45 7,42 7,40 7,30 7,23 7,14 7,09 7,06 6,99 6,95 6,88 7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,41 6,36 6,31 6,28 6,24 6,21 6,18 6,16 6,06 5,99 5,91 5,86 5,82 5,76 5,72 5,65 8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,61 5,56 5,52 5,48 5,44 5,41 5,38 5,36 5,26 5,20 5,12 5,07 5,03 4,96 4,93 4,86 9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 5,06 5,01 4,96 4,92 4,89 4,86 4,83 4,81 4,71 4,65 4,57 4,52 4,48 4,42 4,38 4,31 10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,65 4,60 4,56 4,52 4,49 4,46 4,43 4,41 4,31 4,25 4,17 4,12 4,08 4,01 3,98 3,91 11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,34 4,29 4,25 4,21 4,18 4,15 4,12 4,10 4,01 3,94 3,86 3,81 3,78 3,71 3,67 3,60 12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,10 4,05 4,01 3,97 3,94 3,91 3,88 3,86 3,77 3,70 3,62 3,57 3,54 3,47 3,43 3,36 13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,03 3,96 3,91 3,86 3,82 3,78 3,75 3,72 3,69 3,67 3,57 3,51 3,43 3,38 3,34 3,27 3,24 3,17 14 8,86 6,52 5,56 5,04 4,70 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,75 3,70 3,66 3,62 3,59 3,56 3,53 3,51 3,41 3,35 3,27 3,22 3,18 3,11 3,08 3,00 15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,90 3,81 3,73 3,67 3,61 3,56 3,52 3,49 3,45 3,42 3,40 3,37 3,28 3,21 3,13 3,08 3,05 2,98 2,94 2,87 16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,50 3,45 3,41 3,37 3,34 3,31 3,28 3,26 3,17 3,10 3,02 2,97 2,93 2,86 2,83 2,75 17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,40 3,35 3,31 3,28 3,24 3,21 3,19 3,16 3,07 3,00 2,92 2,87 2,84 2,76 2,73 2,65 18 8,29 6,01 5,09 4,58 4,25 4,02 3,84 3,71 3,60 3,51 3,43 3,37 3,32 3,27 3,23 3,19 3,16 3,13 3,10 3,08 2,98 2,92 2,84 2,78 2,75 2,68 2,64 2,57 19 8,19 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,24 3,20 3,15 3,12 3,08 3,05 3,03 3,00 2,91 2,84 2,76 2,71 2,67 2,60 2,57 2,49 20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,18 3,13 3,09 3,05 3,02 2,99 2,96 2,94 2,84 2,78 2,70 2,64 2,61 2,54 2,50 2,42 25 7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 3,22 3,13 3,06 2,99 2,94 2,89 2,85 2,81 2,78 2,75 2,72 2,70 2,60 2,54 2,45 2,40 2,36 2,29 2,25 2,17 30 7,56 5,39 4,51 4,02 3,70 3,47 3,31 3,17 3,07 2,98 2,91 2,84 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,45 2,39 2,30 2,25 2,21 2,13 2,09 2,01 40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,67 2,61 2,56 2,52 2,48 2,45 2,42 2,39 2,37 2,27 2,20 2,11 2,06 2,02 1,94 1,90 1,81 50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,79 2,70 2,63 2,56 2,51 2,46 2,42 2,38 2,35 2,32 2,29 2,27 2,17 2,10 2,01 1,95 1,91 1,83 1,78 1,68 60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,44 2,39 2,35 2,32 2,28 2,25 2,22 2,20 2,10 2,03 1,94 1,88 1,84 1,75 1,70 1,60 100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,43 2,37 2,31 2,27 2,22 2,19 2,15 2,12 2,09 2,07 1,97 1,89 1,80 1,74 1,69 1,60 1,55 1,43 150 6,81 4,75 3,92 3,45 3,14 2,92 2,76 2,63 2,53 2,44 2,37 2,31 2,25 2,20 2,16 2,12 2,09 2,06 2,03 2,00 1,90 1,83 1,73 1,67 1,62 1,52 1,47 1,33 infinito 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,25 2,19 2,13 2,08 2,04 2,00 1,97 1,93 1,91 1,88 1,77 1,70 1,59 1,52 1,47 1,36 1,29 1,00 Probabilidades da distribuição F de Snedecor – valores de Fv1 ,v 2 ,p , onde p = P(Fv1 ,v2 ≥ Fv1 ,v2 ,p ) ; p = 0,5% v2 1 v1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 50 60 100 150 infinito 16213 19997 21614 22501 23056 23440 23715 23924 24092 24222 24334 24427 24505 24572 24632 24684 24729 24766 24803 24837 24959 25041 25146 25213 25254 25339 25377 25464 2 198,5 199,0 199,2 199,2 199,3 199,3 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,4 199,5 199,5 199,5 199,5 199,5 199,5 199,5 3 55,55 49,80 47,47 46,20 45,39 44,84 44,43 44,13 43,88 43,69 43,53 43,39 43,27 43,17 43,09 43,01 42,94 42,88 42,83 42,78 42,59 42,47 42,31 42,21 42,15 42,02 41,96 41,83 4 31,33 26,28 24,26 23,15 22,46 21,98 21,62 21,35 21,14 20,97 20,82 20,71 20,60 20,52 20,44 20,37 20,31 20,26 20,21 20,17 20,00 19,89 19,75 19,67 19,61 19,50 19,44 19,33 5 22,79 18,31 16,53 15,56 14,94 14,51 14,20 13,96 13,77 13,62 13,49 13,39 13,29 13,22 13,15 13,09 13,03 12,99 12,94 12,90 12,76 12,66 12,53 12,45 12,40 12,30 12,25 12,14 6 18,64 14,54 12,92 12,03 11,46 11,07 10,79 10,57 10,39 10,25 10,13 10,03 9,95 9,88 9,81 9,76 9,71 9,66 9,63 9,59 9,45 9,36 9,24 9,17 9,12 9,03 8,98 8,88 7 16,24 12,40 10,88 10,05 9,52 9,16 8,89 8,68 8,51 8,38 8,27 8,18 8,10 8,03 7,97 7,92 7,87 7,83 7,79 7,75 7,62 7,53 7,42 7,35 7,31 7,22 7,17 7,08 8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 7,11 7,02 6,94 6,87 6,81 6,76 6,72 6,68 6,64 6,61 6,48 6,40 6,29 6,22 6,18 6,09 6,04 5,95 9 13,61 10,11 8,72 7,96 7,47 7,13 6,89 6,69 6,54 6,42 6,31 6,23 6,15 6,09 6,03 5,98 5,94 5,90 5,86 5,83 5,71 5,63 5,52 5,45 5,41 5,32 5,28 5,19 10 12,83 9,43 8,08 7,34 6,87 6,55 6,30 6,12 5,97 5,85 5,75 5,66 5,59 5,53 5,47 5,42 5,38 5,34 5,31 5,27 5,15 5,07 4,97 4,90 4,86 4,77 4,73 4,64 11 12,23 8,91 7,60 6,88 6,42 6,10 5,87 5,68 5,54 5,42 5,32 5,24 5,17 5,10 5,05 5,00 4,96 4,92 4,89 4,86 4,74 4,65 4,55 4,49 4,45 4,36 4,32 4,23 12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,99 4,91 4,84 4,78 4,72 4,67 4,63 4,60 4,56 4,53 4,41 4,33 4,23 4,17 4,12 4,04 3,99 3,90 13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,72 4,64 4,57 4,51 4,46 4,41 4,37 4,33 4,30 4,27 4,15 4,07 3,97 3,91 3,87 3,78 3,74 3,65 14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,51 4,43 4,36 4,30 4,25 4,20 4,16 4,12 4,09 4,06 3,94 3,86 3,76 3,70 3,66 3,57 3,53 3,44 15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,33 4,25 4,18 4,12 4,07 4,02 3,98 3,95 3,91 3,88 3,77 3,69 3,59 3,52 3,48 3,39 3,35 3,26 16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 4,18 4,10 4,03 3,97 3,92 3,88 3,83 3,80 3,76 3,73 3,62 3,54 3,44 3,38 3,33 3,25 3,20 3,11 17 10,38 7,35 6,16 5,50 5,08 4,78 4,56 4,39 4,25 4,14 4,05 3,97 3,90 3,84 3,79 3,75 3,71 3,67 3,64 3,61 3,49 3,41 3,31 3,25 3,21 3,12 3,08 2,98 18 10,22 7,22 6,03 5,38 4,96 4,66 4,45 4,28 4,14 4,03 3,94 3,86 3,79 3,73 3,68 3,64 3,60 3,56 3,53 3,50 3,38 3,30 3,20 3,14 3,10 3,01 2,97 2,87 19 10,07 7,09 5,92 5,27 4,85 4,56 4,35 4,18 4,04 3,93 3,84 3,76 3,70 3,64 3,59 3,54 3,50 3,46 3,43 3,40 3,29 3,21 3,11 3,04 3,00 2,91 2,87 2,78 20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,76 3,68 3,61 3,55 3,50 3,46 3,42 3,38 3,35 3,32 3,20 3,12 3,02 2,96 2,92 2,83 2,78 2,69 25 9,48 6,60 5,46 4,84 4,43 4,15 3,94 3,78 3,65 3,54 3,45 3,37 3,30 3,25 3,20 3,15 3,11 3,08 3,04 3,01 2,90 2,82 2,72 2,65 2,61 2,52 2,47 2,38 30 9,18 6,36 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,26 3,18 3,11 3,06 3,01 2,96 2,92 2,89 2,85 2,82 2,71 2,63 2,52 2,46 2,42 2,32 2,28 2,18 40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 3,03 2,95 2,89 2,83 2,78 2,74 2,70 2,66 2,63 2,60 2,48 2,40 2,30 2,23 2,18 2,09 2,04 1,93 50 8,63 5,90 4,83 4,23 3,85 3,58 3,38 3,22 3,09 2,99 2,90 2,83 2,76 2,70 2,65 2,61 2,57 2,53 2,50 2,47 2,35 2,27 2,16 2,10 2,05 1,95 1,90 1,79 60 8,50 5,80 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,82 2,74 2,68 2,62 2,57 2,53 2,49 2,45 2,42 2,39 2,27 2,19 2,08 2,01 1,96 1,86 1,81 1,69 100 8,24 5,59 4,54 3,96 3,59 3,33 3,13 2,97 2,85 2,74 2,66 2,58 2,52 2,46 2,41 2,37 2,33 2,29 2,26 2,23 2,11 2,02 1,91 1,84 1,79 1,68 1,62 1,49 150 8,12 5,49 4,45 3,88 3,51 3,25 3,05 2,89 2,77 2,67 2,58 2,51 2,44 2,39 2,34 2,29 2,25 2,21 2,18 2,15 2,03 1,94 1,83 1,76 1,70 1,59 1,53 1,37 infinito 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62 2,52 2,43 2,36 2,29 2,24 2,19 2,14 2,10 2,06 2,03 2,00 1,88 1,79 1,67 1,59 1,53 1,40 1,32 1,00