Noções de Inferência Estatística Introdução: O objetivo principal da inferência estatística é fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra. Para isso veremos como se relacionam estatísticas ( características dos elementos de uma amostra ) com parâmetros ( características dos elementos de uma população ). A inferência estatística se divide em duas grandes áreas: estimação ( pontual e intervalar) e teste de hipóteses. Conceitos Básicos Alguns conceitos básicos são necessários para o desenvolvimento da Inferência Estatística: População: conjunto de elementos que formam o universo de nosso estudo e que são passíveis de ser observados, sob as mesmas condições. Amostra: é um subconjunto de elementos extraídos de uma população. Amostragem: processo de seleção da amostra Amostragem aleatória simples: processo de amostragem onde todos os elementos da população tem a mesma chance de fazer parte da amostra. Outros conceitos importantes: Parâmetro: alguma medida descritiva associada à população. Estatística: qualquer valor calculado com base (apenas) nos elementos da amostra. Estimador: uma estatística destinada a estimar um parâmetro populacional. Estimativa: é o valor numérico do estimador com base nas observações amostrais. Símbolos mais comuns Estimador Média Variância s2 X Parâmetro 2 Proporções p̂ p As estatísticas, como funções de variáveis aleatórias, são também variáveis aleatórias, e portanto, têm uma distribuição de probabilidade, esperança e variância. Introdução à Amostragem Na maioria dos casos é impraticável observar toda uma população, seja pelo alto custo, seja por dificuldades diversas. Examina-se então uma amostra da população. Se essa amostra for bastante representativa, os resultados obtidos poderão ser generalizados para toda a população. O uso de amostras que produzam resultados confiáveis e livres de vieses é o ideal. Assim, a maneira de se obter a amostra é tão importante que constitui uma especialidade dentro da Estatística, conhecida como Amostragem. Os procedimentos científicos para obtenção de dados amostrais podem ser divididos em três grupos: levantamentos amostrais, planejamento de experimentos e levantamentos observacionais. Nós iremos nos concentrar principalmente em levantamentos amostrais nos quais a amostra é obtida de uma população bem definida, por meio de processos bem protocolados e controlados pelo pesquisador. Os vários procedimentos de se escolher uma amostra podem ser agrupados em dois grandes grupos: os chamados planos probabilísticos e planos nãoprobabilísticos. O primeiro grupo reúne todas as técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais como: amostras intencionais, onde os elementos são selecionados com auxílio de especialistas, e amostras de voluntários. Alguns planos probabilísticos são delineados a seguir: Amostragem Aleatória Simples Este tipo de amostragem consiste em selecionar a amostra através de sorteios, sem restrição. Qualquer subconjunto da população, com o mesmo número de elementos, tem a mesma probabilidade de fazer parte da amostra. A seleção pode ser facilitada com o uso de números aleatórios. Existem algoritmos computacionais capazes de gerar dados que satisfazem aproximadamente a esta propriedade. Amostragem Estratificada Informações adicionais podem aprimorar um desenho amostral. Por exemplo, em uma pesquisa sobre renda familiar média, conhece-se de antemão as regiões da cidade onde predominam moradias de diferentes classes de renda. Este conhecimento pode ser usado para definir sub populações homogêneas segundo a renda, e aí então sortear amostras dentro de cada uma dessas regiões. Este procedimento é conhecido como a divisão da população em estratos, e consequentemente, definem os planos de Amostragem Estratificada. Amostragem sistemática É um processo simples que consiste em sortear o primeiro elemento e extrair os demais sistematicamente. Calcula-se o intervalo de seleção, dado por = I=N/n, sorteia-se o primeiro elemento do conjunto e completa-se a amostra , extraindo um elemento a cada I elementos. Amostragem por conglomerados Embora possa produzir resultados menos precisos se comparada à estratificada, este processo tem um custo financeiro bem menor. Chama-se de conglomerados um grupamento de elementos da população. Este tipo de amostragem consiste, num primeiro estágio em selecionar os conglomerados. Num próximo estágio, todos os elementos dos conglomerados selecionados são observados (amostragem de conglomerados em um estágio) ou se faz uma segunda seleção de conglomerados e nesta se analisam todos os elementos ( amostragem de conglomerados por dois estágios ). Todas as seleções devem ser aleatórias. Trabalharemos num caso simples de amostragem probabilística : a amostragem aleatória simples, com reposição Erros amostrais e não amostrais1 O uso de um levantamento amostral introduz um tipo de erro, que pode se resumido na diferença entre o valor de uma certa característica na amostra e o parâmetro de interesse na população. Esta diferença pode ocorrer apenas devido à particular amostra selecionada, ou então devido a fatores externos ao plano amostral. Quando o erro é devido à amostra selecionada é chamado de erro amostral e quando é devido à fatores independentes do plano amostral (erros de medida, digitação, etc) é chamado de erro não amostral. Considera-se um erro amostral aquele desvio que aparece porque o pesquisador não levantou a população toda. Cada amostra possível de um plano acarreta em um desvio. Vejamos o esquema que se segue que considera a média como a característica de interesse. Vamos denotar por a média da variável na população e X a média amostral. População ou Universo 1 2 3 . . . Amostras possíveis de tamanho n A1 => X1 A2 => X 2 | X - | = E = erro ………………… Ai => X 3 N ………………… Ak 1 => X k NOTAS DE AULA: ESTATÍSTICA BÁSICA . UNIVERSIDADE FEDERAL DE MINAS GERAIS No caso da média, o estudo do erro amostral consiste basicamente em estudar o comportamento da diferença ( X - ) quando X percorre todas as possíveis amostras que poderiam ser formadas através do plano amostral escolhido. Conhecendo-se a distribuição amostral de X pode-se avaliar sua média e seu desvio padrão. Neste caso particular o desvio padrão recebe o nome de erro padrão de X . Distribuições Amostrais Diferentes amostras extraídas da população irão originar valores distintos para a estatística considerada. Por este motivo, dizemos que as estatísticas são variáveis aleatórias, já que seu valor não pode ser predito com certeza antes da amostra ter sido extraída. A distribuição de probabilidade de uma estatística quando consideramos todas as amostras possíveis de tamanho n é denominada de distribuição amostral. Distribuição Amostral da Média A distribuição amostral das médias X , de amostras casuais simples de tamanho n, extraída de uma população que tem média e desvio padrão , tem as seguintes características: E( X ) = V( X ) = 2/n Caso a população tenha distribuição Normal com média e desvio padrão , a distribuição amostral das médias X , é Normal com média e desvio padrão / n . A distribuição amostral das médias X , de amostras aleatórias simples de tamanho n extraída de uma população não Normal, com média e desvio padrão , é aproximadamente normal com média e desvio padrão / n , quando n é suficientemente grande. Este resultado é uma aplicação de um importante teorema de probabilidade, chamado Teorema Central do Limite. Para a utilização deste resultado, é usual considerar que o tamanho n da amostra é suficientemente grande quando n é pelo menos 30. EXEMPLO2 : Uma máquina de empacotar café o faz segundo uma distribuição normal, com média 500 e desvio padrão de 10g. Colhe-se uma amostra de n=100 pacotes e estes são pesados. Se a máquina estiver regulada qual a probabilidade de encontrarmos a média da amostra diferindo de 500g de menos de 2 gramas? 100 X ~ N 500, 100 P( X 500 2) P (498 X 502) P( 2 Z 2) 95% 2 BUSSAB & MORETTIN. Estatística Básica. Editora Saraiva, 2003 Distribuição Amostral da Proporção3 Considere que a proporção de elementos numa população com determinada característica é p. Assim, para cada elemento da população podemos definir uma variável X, tal que 1, se o elemento é portador da caracterís tica X= 0, se o elemento não é portador da caracterís tica Isto é, X ~Bernoulli(p) = Binomial (1,p) , e portanto E(X) = p e V(X) = p(1-p). Seja X1 , X2 , ... , Xn uma amostra aleatória simples retirada com reposição dessa n população, e seja S n X i o total elementos portadores da característica na amostra. 1 Tem-se que Sn ~ Binomial (n,p). Defina como p̂ a proporção de elementos portadores da característica na n amostra, isto é, p̂ Sn n Xi 1 n X . Utilizando o Teorema Central do Limite, tem-se que a distribuição amostral de p(1 p) p̂ é aproximadamente N p, , quando n é suficientemente grande. n EXEMPLO: Suponha que 30% de uma escola sejam mulheres. Colhemos uma amostra aleatória de 10 estudantes e calculamos a proporção de mulheres na amostra. Qual a probabilidade de que a proporção de mulheres na amostra difira em menos de 1% da proporção de mulheres da população? 0,3(1 0,3) 1 p pˆ ~ N p, N 0,3; N (0,3;0,021) n 10 P ( pˆ p 0,01) P (0,01 0,3 p 0,01) P(0,07 Z 0,07) 0,056 EXERCÍCIOS: Resolver os exercícios 4, 5, 6, 7 e 8 (pág 178 e 179) do seguinte livro: BARBETTA, REIS E BORNIA. Estatística para cursos de Engenharia e Informática. Editora Átlas 3 NOTAS DE AULA: ESTATÍSTICA BÁSICA . UNIVERSIDADE FEDERAL DE MINAS GERAIS Estimação Aqui estudaremos o problema de avaliar parâmetros populacionais, a partir de operações com dados de uma amostra . EXEMPLOS: 1) Estimar a proporção de peças defeituosas num lote. 2) Estimar o peso médio de um determinado produto de uma linha de produção. Existem dois tipos de estimação de um parâmetro populacional: estimação pontual o Método dos momentos o Mínimos Quadrados o Máxima Verossimilhança estimação intervalar Estimação Pontual Procura encontrar um valor numérico único que esteja bastante próximo do verdadeiro valor do parâmetro. Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo. Estimadores Pontuais Dos Principais Parâmetros Populacionais Parâmetro Estimador Média () Variância (2) Desvio padrão Proporção (p) 1 n X n i 1 i 1 n Xi X2 s2 n 1 i 1 X 1 n Xi X2 s n 1 i 1 X p̂ onde n X = número de elementos da amostra que possuem a característica n = tamanho da amostra Muito provavelmente uma estimativa pontual não coincide exatamente com o valor verdadeiro do parâmetro populacional que está sendo estimado e, além disto, esta estimativa não traz associada a ela uma medida de sua precisão. A estimação intervalar que será apresentada a seguir ajuda a resolver este tipo de problema. Estimação por Intervalos de Confiança Procura determinar um intervalo que abranja o valor do parâmetro populacional, com uma certa margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo. De um modo geral, nos basearemos na amostra para construir um intervalo que com alto grau (ou nível) de confiança contenha o verdadeiro valor do parâmetro, os intervalos de confiança. Grau de confiança é a probabilidade do intervalo de confiança conter o verdadeiro valor do parâmetro. É também chamado de nível de confiança e geralmente expresso em porcentagem. Formalizando um pouco, se denotarmos o parâmetro de interesse por , desejamos obter um intervalo com limite inferior I e limite superior S tal que P(I < < S) = γ onde γ é próximode 1. Os limites deste intervalo são variáveis aleatórias pois dependem da amostra selecionada. Um intervalo deste tipo é denominado intervalo de γ(100)% confiança para o parâmetro . Valores de γmais comumente usados são 95% e 99%. Para esclarecer o conceito de intervalo de confiança, suponha que retiremos um grande número de amostras de tamanho n (fixo) da população em estudo e para cada amostra, construamos um intervalo. Os limites dos intervalos resultantes variarão de amostra para amostra. Por exemplo, ao desejar um intervalo de confiança de 95%, se 100 desses intervalos fossem calculados a partir de 100 amostras diferentes, deve-se esperar que em torno de 95 desses intervalos contenham o valor do verdadeiro parâmetro .A figura a seguir ilustra isto. Intervalos de confiança AMOSTRA 1 2 ( ( ( 3 4 ) ( ... 7 ( ) ( ) 5 6 ) ( ) ) ) O verdadeiro valor do parâmetro estará contido em (100)% desses intervalos. Intervalo de confiança para a proporção Em muitas situações , o principal parâmetro de interesse é alguma proporção p. Vamos obter um intervalo de confiança para o parâmetro o de uma distribuição b(n,p). Sabe-se que se X = número de sucessos nas n provas, então X tem distribuição aproximadamente normal com média μ=np e variância σ²=np(1-p) logo: Z Z X np N (0,1) npq X n p pq n n ( pˆ p) N ( 0,1) pq Assim para γ=0,95 teremos: P 1,96 Z 1,96 0,95 P 1,96 pˆ 1,96 n ( pˆ p ) pq 1,96 0,95 p(1 p ) p (1 p) p pˆ 1,96 n n Temos que para γ qualquer, 0 <<1 : IC ( p, ) pˆ z pˆ (1 pˆ ) n EXEMPLO4: Na avaliação de dois sistemas computacionais, A e B, foram selecionadas 400 cargas de trabalho ( tarefas ) supostamente uma amostra aleatória da infinidade de cargas de trabalho que poderiam ser submetidas a estes sistemas. O sistema A foi melhor que o B em 60% dos casos. Construir um intervalo de confiança para p ( proporção de vezes que o sistema A foi melhor que o B, considerando todas as possíveis cargas de trabalho ) usando níveis de confiança de 95% . IC ( p, 95%) 0,6 1,96 0,6(1 p0,6) 0,600 0, 048 400 Concluímos que o intervalo (55,2%;64,8%) contém o parâmetro p, com nível de confiança de 95%. Construa agora o intervalo de confiança de 99%. Observe que ao exigir-se maior confiança, o intervalo aumenta em magnitude. 4 BARBETTA, REIS E BORNIA. Estatística para Cursos de Engenharia e informática. ÁTLAS Intervalo de confiança para a média populacional Pelo Teorema Central do limite sabemos que : Z X n Ou seja, dado γ podemos encontrar valores Zγ tal que : X P z z n X z P X z n n Então o intervalo de confiança será: IC ( , ) X z n EXEMPLO5: Em uma indústria de cerveja a quantidade inserida em latas tem-se comportado como uma variável aleatória com média 350ml e desvio padrão 3ml. Após alguns problemas na linha de produção suspeita-se que houve alteração na média. Uma amostra de 20 latas acusou média de 346lm. Construa um intervalo de confiança para o novo valor da quantidade média μ de cerveja inserida em latas, com nível de confiança de 95%, supondo que não tenha ocorrido alteração no desvio do processo. IC ( , ) X z 3 346 1,96 346 1,31ml n 20 O intervalo (344,69; 347,31) contém, com 95% de confiança, o verdadeiro valor da média μ, quantidade média de cerveja inserida nas latas após os problemas na linha de produção. Variância desconhecida O intervalo de confiança descrito anteriormente só poderá ser utilizado nas situações em que conhecemos a variância da população, o que não é usual na prática. Para contornar este problema o procedimento recomendado é substituir pela variância calculada com os dados da amostra, e utilizamos a estatística t da distribuição t de Student. No desvio padrão calculado com os dados da amostra devemos considerar no denominador ( n-1 ). 5 BARBETTA, REIS E BORNIA. Estatística para Cursos de Engenharia e informática. ÁTLAS Distribuição t de Student Supondo a população com distribuição normal, a estatística t tem distribuição conhecida como distribuição t de Student, com gl = n-1 graus de liberdade. T X S n Esta distribuição tem uma forma parecida com a normal, todavia um pouco mais dispersa ( veja o capítulo 7 do nosso livro texto - OUTROS MODELOS CONTÍNUOS). Para amostras grandes se próxima da distribuição normal. f(x) t com gl = (normal padrão) t com gl = 3 t com gl = 1 0 x Gráficos de distribuições t de Student e da normal padrão6 Intervalo de confiança para a média com o uso da distribuição t de Student s IC ( , ) x t onde s é o desvio padrão da amostra. n EXEMPLO: Deseja-se avaliar a dureza esperada μ do aço produzido sob um novo processo de têmpera. Uma amostra de 10 corpos de prova do aço produziu os seguintes resultados de dureza em HRc: 36,4 35,7 37,2 36,5 34,9 35,2 36,3 35,8 36,6 36,9 Construir um intervalo se confiança para a média de 95%. x 36,15 s 0,7352 IC ( , ) x t Onde tγ = 2,262 s 0,7352 36,15 2,262 36,15 0,53 n 10 para gl = 10 – 1 = 9 e p = 5% ( veja a tabela t ) EXERCÍCIOS: Resolver os exercícios 9 a 12 da página 191 do Livro: BARBETTA, REIS E BORNIA. Estatística para cursos de Engenharia e Informática. Editora Atlas Tamanho de amostra 6 BARBETTA, REIS E BORNIA. Estatística para Cursos de Engenharia e informática. ÁTLAS Na fase do planejamento da pesquisa, muitas vezes precisamos calcular o tamanho n da amostra, para garantir uma certa precisão desejada, a qual é descrita em termos do erro amostral máximo tolerado (E0,) e do nível de confiança a ser adotado no processo de estimação. No caso de estimação da média temos: X E0 z n n E0 z 2 2 E02 Onde E0 é o erro amostral máximo tolerável tolerável A variância pode ser avaliada por meio de estudos anteriores ou em uma amostra piloto. EXEMPLO: Para o exemplo anterior qual deve ser o tamanho da amostra se for tolerado um erro amostral de 0,3 e o nível de confiança 99%? 2,576 2 (0,54) n 39,8 0,3 2 A amostra deve conter 40 corpos de prova. Raciocínio análogo pode ser feito para determinar o tamanho da amostra quando o parâmetro de interesse for proporção. n n z 2 p(1 p) E02 z 2 ou 4E 02 Onde p é obtido de estudos anteriores ou de uma amostra piloto. Na segunda fórmula temos o chamado intervalo conservador onde para p(1-p) consideramos o máximo valor que este produto pode ter. EXERCÍCIOS: Resolver os exercícios 13 a 24 das páginas 195, 196 e 197 do livro: BARBETTA, REIS E BORNIA. Estatística para cursos de Engenharia e Informática. Editora Atlas Intervalo de Confiança para Diferença de Médias Frequentemente surgem situações em que precisamos comparar duas populações, em relação a determinada variável aleatória. Exemplos: Renda média de duas cidades diferentes Receita de vendas de duas firmas Tempo de resposta de dois algoritmos Número de leitores de dois periódicos Portanto é interessante estimar a diferença de médias das duas variáveis aleatórias XA ( média μA, desvio padrão σA) e XB ( média μB, desvio padrão σB). Para tal calcula-se a diferença das médias amostrais x A x B e forma-se um intervalo de confiança. O intervalo de confiança A B é pois: x A x B erro Variância conhecida erro z A B n A nB 2 erro t Variância desconhecida s 2p 2 1 1 s 2p nA nB ( n A 1) s A2 ( n B 1) s B2 ( n A 1) ( n B 1) Onde t depende do grau de confiança adotado e grau de liberdade (GL) calculado GL n A n B 2 EXEMPLO : Os dados abaixo representam um conjunto de cifras ( em milhares ) de um jornal em duas cidades vizinhas, durante um período de alguns dias: CIDADE A: 25, 13, 14, 19, 23, 35, 29, 28, 17, 17, 16, 13, 18, 20 CIDADE B: 10, 12, 15, 13, 7, 6, 11, 5, 9,14, 15, 18, 17, 16, 12, 12, 10, 11, 13, 14 Suponha que as variâncias das populações sejam conhecidas A2 40, B2 14 . Determinar um intervalo de 99% de confiança. x A 21,13 x B 12,13 x A x B 9,13 erro 2,58 40 14 4,73 15 20 9,13 4,73 O intervalo de 99% confiança é: ]4,40; 13,86[ EXEMPLO 2: As cifras de vendas ( em milhares ) de duas diferentes marcas de câmaras de ar para meses selecionados aleatoriamente: MARCA A: 15, 20, 33, 27 MARCA B: 23, 42, 39 Construir um intervalo de 95% de confiança x A 23,75 x B 34,67 x A x B 10,92 s A2 62,25 s B2 104,3 s 2p 79, 08 gl 4 3 2 5 1 1 erro 2,571 79,08 17,46 4 3 O intervalo fica ] -28,38; 6,54 [ Intervalo de Confiança para diferença de proporções ( pA pB ) z p A (1 p A ) p B (1 p B ) nA nB Exemplo 3: Numa pesquisa sobre a opinião de moradores de duas cidades A e B, com relação a um determinado projeto, obteve-se: B Cidade A Nº de entrevistados 400 600 Nº de favoráveis 180 350 Construa um IC de 95% para a diferença de opiniões das duas cidades ( 0,583 0,450) 1,96 0,583(1 0,583) 0,450(1 0,450) 0,133 0,063 600 400 Intervalo de Confiança = ]0,07; 0,196[ REFERÊNCIAS: BARBETTA, REIS E BORNIA. Estatística para cursos de Engenharia e Informática. Editora Atlas CLARK & DOWNING. Estatística Aplicada. Saraiva BUSSAB & MORETTIN. Estatística Básica. Saraiva UFMG- NOTAS DE AULA – Estatística Básica: