Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva http://paginapessoal.utfpr.edu.br/ngsilva Inferência Estatística e Distribuições Amostrais Inferência Estatística O objetivo principal da inferência estatística é obter informações sobre determinada característica da população baseando-se apenas das informações obtidas de uma amostra. Parâmetro: quantidades da população, em geral, desconhecidas e sobre as quais temos interesse. Representados por letras gregas: µ, σ, etc. Estatística: quantidades calculadas com base nos elementos da amostra. Representadas por letras do alfabeto latino: , s, etc. Inferência Estatística Estimador: é uma estatística destinada a estimar um parâmetro de interesse da população. Por exemplo: µ̂ é um estimador de µ. Estimativa: é o valor numérico do estimador. Denominação Média Variância Número de elementos Proporção Estimador Parâmetro X µ S2 σ2 n N p̂ p Inferência Estatística Vício ou viesado: um estimador é não viciado ou não , ou seja, se viesado para um parâmetro θ se a esperança matemática do estimador é igual ao valor do parâmetro. Consistência: um estimador é consistente, se à medida que o tamanho da amostra aumenta, sua esperança matemática converge para o parâmetro de interesse e sua variância converge para zero. ^ ^ Eficiência: dados dois estimadores θ1 e θ2 , não ^ viciados para uma parâmetro ^ θ , dizemos que θ1 é mais eficiente que θ2 se V(θ1 ) < V(θ2 ). ^ ^ Distribuições Amostrais As estatísticas e os parâmetros são funções de variáveis aleatórias e são, também, variáveis aleatória, portanto possuem distribuição de probabilidade, esperança matemática e variância. Distribuições amostrais são distribuições de probabilidades para estimadores como média, variância e proporção. 1. Distribuição Amostral da Média Considere uma população em que a VA X assume os valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X é dada por: X=x 1 3 5 7 P(X = x) 1/5 1/5 2/5 1/5 µ = E(X) = 1.1/5 + 3.1/5 + 5.2/5 + 7.1/5 = 4,2 σ²= V(X) = (1-4,2)2.1/5 + (3-4,2)2.1/5 + … + (7 – 4,2)2.1/5 = 4,16 1. Distribuição Amostral da Média x Vamos relacionar todas as amostras possíveis de tamanho n = 2, selecionadas ao acaso e com reposição dessa população, e encontrar a distribuição da média amostral de tal que: x + x = x 1 2 2 xx sendo: 1 : valor selecionado na primeira extração, 2 : valor selecionado na segunda extração 1. Distribuição Amostral da Média 1. Distribuição Amostral da Média A distribuição de probabilidade para a média amostral é: x µ = E( ) = 1.(1/25) + 2.(2/25) + … + 7.(1/25) = 4,2 x σ² = V( ) = (1 – 4,2)2.1/25 + ... + (7 – 4,2)2.1/25 = 2,08 x σ² = V( ) = 4,16/2 1. Distribuição Amostral da Média x Repetindo o mesmo procedimento para amostras de tamanho n = 3, tem-se a seguinte distribuição de probabilidade para a média amostral: E( ) = 1.(1/125) + ... + 7.(1/125) x E( ) = 4,2 x V( ) = (1–4,2)2.1/125 + … + (7-4,2)2.1/125 x V( ) = 1,39 = 4,16/3 1. Distribuição Amostral da Média x Os histogramas correspondentes da variável aleatória X e da variável aleatória para n = 2 e n = 3 estão apresentados abaixo: 1. Distribuição Amostral da Média Dos histogramas observamos que: • Conforme n aumenta os valores da média amostral tendem a se concentrar cada vez mais em torno da E(X), pois a variância diminui • Os valores extremos passam a ter pequenas probabilidades de ocorrência • Conforme n aumenta, a forma da distribuição das médias se aproxima da distribuição normal 1. Distribuição Amostral da Média 1. Distribuição Amostral da Média 1. Distribuição Amostral da Média Observação: Logo, se X tem média µ e variância então 1. Distribuição Amostral da Média Exemplo 1: Uma variável aleatória X assume os valores 3, 6 e 8 com, respectivamente, probabilidades 0,4; 0,3 e 0,3. Uma amostra de 40 observações com reposição é obtida aleatoriamente. Qual a probabilidade da média amostral ser maior que 5? Exemplo 2: O faturamento diário de um supermercado está normalmente distribuído com média de R$ 20.000,00 e desvio-padrão de R$ 2000,00. Qual a probabilidade do faturamento ultrapassar R$ 1230000,00 em 60 dias? 1. Distribuição Amostral da Média Exemplo 3: Considere que a distribuição dos níveis de colesterol para todos os homens de 20 a 74 anos está normalmente distribuído com média 211 mg e desvio-padrão de 46 mg. Selecionando 25 homens desta população, determine: a) A proporção destes 25 homens que terá um valor médio inferior a 230 mg; b) O valor médio de nível de colesterol que limita os 10% dos valores mais baixos da distribuição amostral; c) Os limites superior e inferior que incluem 95% das médias das amostras de tamanho 25; d) Qual deve ser o tamanho das amostras para que 95% de suas médias se encontrem a ±5 mg da média da população? 1. Distribuição Amostral da Média Se amostra de tamanho n é retirada de uma população finita (sem reposição) de tamanho N (N > n), utiliza-se o fator de correção para a variância. Exemplo: As lâmpadas fabricadas por uma indústria tem duração média de 800 horas e desvio-padrão de 100 horas. É escolhida aleatoriamente 200 lâmpadas de um lote de 2000 lâmpadas. Determine a probabilidade da média destas lâmpadas escolhidas ser superior a 810 horas. 2. Distribuição Amostral da Proporção Considere que a proporção de elementos de uma população com determinada característica é p. Para cada elemento da população pode ser definida uma VA X tal que: Ou seja, X é uma VA com distribuição de Bernoulli com E(X) = p e V(X) = p.(1 – p). 2. Distribuição Amostral da Proporção Seja x1, x2, ... , xn uma amostra simples retirada aleatoriamente com reposição dessa população e, seja, Sn = x1 + x2 + .... + xn o total de elementos portadores da característica na amostra. Sn tem distribuição binomial com parâmetros n e p. A proporção amostral pode ser reescrita como: Logo, Então, é um estimador não viciado e consistente para p. 2. Distribuição Amostral da Proporção Utilizando o Teorema do Limite Central tem-se que a distribuição amostral de para n suficientemente grande tem distribuição normal com µ = p e σ2 = p.(1 – p)/n. Ou seja, 2. Distribuição Amostral da Proporção Exemplos: 1) A proporção de peças defeituosas de um lote é de 40%. Foi coletada aleatoriamente uma amostra de 30 peças com reposição. Determine a probabilidade desta amostra fornecer uma proporção de peças defeituosas menor que 50%. 2) Qual a probabilidade de ocorrer entre 40% e 50% de caras em 120 lançamentos de uma moeda não viciada? 3. Distribuição Amostral da Diferença de Médias n + n N x x Sejam duas populações 1 e 2, com médias µ1 e µ2 e desvios-padrão σ1 e σ2, respectivamente. São retiradas, independentemente e com reposição, amostras de tamanho n1 da população 1 e de tamanho n2 da população 2. De todas as possíveis amostras retiradas pode-se obter a distribuição amostral da diferença entre as duas médias. Se n1 e n2 forem suficientemente grandes: σ12 σ22 ( 1 - 2 ) ~ (µ1 - µ 2 , ) - 2 2 ) - (µ1 - µ 2 ) σ12 σ22 n + n 1 x x = z Logo: ( 1 1 2 3. Distribuição Amostral da Diferença de Médias Exemplo: As lâmpadas elétricas do fabricante A têm duração média de 1400 horas, com desvio-padrão de 200 horas, enquanto as do fabricante B têm duração média de 1200 horas, com desvio-padrão de 100 horas. Se forem ensaiadas amostras aleatórias de 125 lâmpadas de cada marca, qual será a probabilidade de que as lâmpadas da marca A tenham vida média maior do que as da marca B de pelo menos 160 horas ? 4. Distribuição Amostral da Diferença de Proporções Considere que seja extraídas amostras de tamanho n1 da população 1 cuja proporção de elementos com uma determinada característica seja p1 e que se seja extraídas amostras de tamanho n2 da população 2 cuja proporção de elementos com a referida característica seja p2. A distribuição amostral da diferença das duas proporções é dada por: Logo: 4. Distribuição Amostral da Diferença de Proporções Exemplo: Duas pessoas A e B jogam uma partida do tipo “cara e coroa” onde cada uma lança 50 vezes uma moeda não viciada. O jogador A vencerá o jogo se conseguir 5 ou mais caras do que o jogador B e, se isso não ocorrer, o jogador B vencerá. Determine a probabilidade de cada jogador ganhar. Tabela Z