ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini ÍNDICE 1. INTRODUÇÃO ....................................................................................................................................................2 2. PRINCIPAIS CONCEITOS ..................................................................................................................................2 2.1. POPULAÇÃO ..................................................................................................................................................2 2.2. AMOSTRA ......................................................................................................................................................2 2.3. AMOSTRAGEM................................................................................................................................................2 2.4. AMOSTRAGEM ALEATÓRIA ..............................................................................................................................2 2.5. INFERÊNCIA ESTATÍSTICA OU INDUÇÃO ESTATÍSTICA ........................................................................................2 2.6. AMOSTRA ALEATÓRIA.....................................................................................................................................2 2.7. PARÂMETRO ..................................................................................................................................................2 2.8. ESTATÍSTICA OU ESTIMADOR ..........................................................................................................................2 2.9. ESTIMATIVA ...................................................................................................................................................3 3. DISTRIBUIÇÕES AMOSTRAIS ..........................................................................................................................3 3.1. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS ...........................................................................................................3 3.1.1. PROPRIEDADES (OU TEOREMAS) ............................................................................................................3 3.2. DISTRIBUIÇÃO AMOSTRAL DAS FREQÜÊNCIAS RELATIVAS ................................................................................4 3.3. DISTRIBUIÇÃO AMOSTRAL DE VARIÂNCIAS .......................................................................................................4 3.4. DISTRIBUIÇÃO AMOSTRAL DA SOMA OU DIFERENÇA DE DUAS MÉDIAS ..............................................................4 3.5. DISTRIBUIÇÃO AMOSTRAL DA SOMA OU DIFERENÇA DE DUAS FREQUÊNCIAS RELATIVAS ...................................5 3.6. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS QUANDO A VARIÂNCIA DA POPULAÇÃO É DESCONHECIDA ......................5 4. ESTIMAÇÃO DE PARÂMETROS ......................................................................................................................5 4.1. PROPRIEDADES DE UM ESTIMADOR .................................................................................................................6 4.1.1. ESTIMADOR NÃO TENDENCIOSO .............................................................................................................6 4.1.2. EFICIÊNCIA DO ESTIMADOR ....................................................................................................................6 5. INTERVALO DE CONFIANÇA ...........................................................................................................................6 5.1. INTERVALO DE CONFIANÇA PARA MÉDIA, VARIÂNCIA POPULACIONAL ( 2 ) CONHECIDA. ....................................7 5.2. INTERVALO DE CONFIANÇA PARA MÉDIA, VARIÂNCIA POPULACIONAL ( 2 ) DESCONHECIDA. ..............................9 5.3. INTERVALO DE CONFIANÇA PARA PROPORÇÃO OU PROBABILIDADE ................................................................10 5.4. INTERVALO DE CONFIANÇA PARA VARIÂNCIA..................................................................................................11 5.5. INTERVALO DE CONFIANÇA PARA DESVIO PADRÃO.........................................................................................11 6. FERRAMENTA ESTATÍSTICA DESCRITIVA DO EXCEL ..............................................................................11 7. EXERCÍCIOS PROPOSTOS .............................................................................................................................13 7.1 – DISTRIBUIÇÃO AMOSTRAL ...........................................................................................................................13 7.2 – INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL ...........................................................................13 7.3 – INTERVALO DE CONFIANÇA PARA PROPORÇÕES...........................................................................................14 1/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini 1. INTRODUÇÃO Em capítulos anteriores estudamos as MEDIDAS DESCRITIVAS (POSIÇÃO, DISPERSÃO E FORMA) para uma DISTRIBUIÇÃO DE FREQÜÊNCIAS ou TABELA PRIMITIVA. Cabe lembrar que os dados de uma Distribuição de Freqüências provêm de uma Tabela Primitiva, e que os dados da Tabela Primitiva normalmente provêm da coleta de dados de uma AMOSTRA. Assim, já estamos habilitados a calcular as MEDIDAS que caracterizam uma AMOSTRA. Na seqüência dos capítulos anteriores, estudamos os principais MODELOS DE DISTRIBUIÇÃO DE PROBABILIDADE, destacando que a ESTATÍSTICA INFERENCIAL, a parte da disciplina que estabelece as condições de generalização das medidas amostrais para a população, está assentada sobre modelos matemáticoprobabilísticos. A partir deste capítulo, estamos juntando as MEDIDAS ESTATÍSTICAS e os MODELOS PROBABILÍSTICOS, para obtenção das DISTRIBUIÇÕES AMOSTRAIS dos principais estimadores das características da população, o que constitui a base das técnicas de inferência estatística. 2. PRINCIPAIS CONCEITOS 2.1. POPULAÇÃO Conjunto de entes portadores de pelo menos uma característica em comum e que são passíveis de ser observados, sob as mesmas condições, formando o universo de estudo. É o conjunto total de unidades elementares de pessoas, objetos ou coisas, sobre as quais se deseja obter informações. 2.2. AMOSTRA Um subconjunto finito de elementos extraído de uma população. Para ser REPRESENTATIVA, a amostra tem que possuir as mesmas características da população de origem. A amostra é ALEATÓRIA, quando todos os elementos da população têm a mesma chance de serem escolhidos. 2.3. AMOSTRAGEM O processo de seleção de uma amostra da população. 2.4. AMOSTRAGEM ALEATÓRIA O processo de seleção de uma amostra (normalmente por sorteio) que permite que todos os elementos da população tenham a mesma chance de serem escolhidos, e que também todo subconjunto de n elementos tenha a mesma chance de fazer parte da amostra. 2.5. INFERÊNCIA ESTATÍSTICA OU INDUÇÃO ESTATÍSTICA Processo de obtenção de informações sobre a população, a partir de resultados observados numa amostra. 2.6. AMOSTRA ALEATÓRIA Considerando X uma variável populacional que se deseja estudar, uma amostra aleatória de X é o conjunto de n variáveis aleatórias independentes (X1, X2,...Xn), de forma que cada uma delas possui a mesma característica (ou distribuição de probabilidade) da variável populacional X. 2.7. PARÂMETRO Uma MEDIDA DESCRITIVA (média, variância, proporção, etc.) associada à POPULAÇÃO. 2.8. ESTATÍSTICA OU ESTIMADOR Uma MEDIDA DESCRITIVA (média, variância, proporção, etc.) associada à AMOSTRA. a) Estimador para a Média Populacional μ MÉDIA AMOSTRAL: x b) Estimador para a Variância Populacional 2 VARIÂNCIA AMOSTRAL: xi n s2 ( x i x) 2 .fi n 1 c) Estimador para a Proporção ou probabilidade de um evento populacional P x nro de casos favoráveis FREQÜÊNCIA RELATIVA: f p̂ n nro total de casos 2/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA d) Estimador para o Desvio Padrão Populacional DESVIO PADRÃO AMOSTRAL: s Prof Me Aloizio Magrini s2 e) Estimador para a Soma ou Diferença de duas Médias Populacionais (μ1 μ2) SOMA OU DIFERENÇA DE DUAS MÉDIAS AMOSTRAIS: (x1 x 2 ) 2.9. ESTIMATIVA O valor numérico de um estimador. 3. DISTRIBUIÇÕES AMOSTRAIS Considere todas as possíveis amostras de tamanho n que se pode extrair de uma determinada população. Se para cada uma das amostras for calculado o valor de uma medida (ou estimador), tem-se uma distribuição amostral desta medida ou estimador. 3.1. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS Queremos determinar qual é a distribuição amostral da média aritmética. Sabemos que a média aritmética amostral é um estimador da média aritmética populacional. Como a média amostral é uma variável aleatória, busca-se conhecer sua distribuição de probabilidade. População: N elementos X: Variável quantitativa Parâmetros: μ = E(X) 2 = V(X) Amostra (x1,x2,x3,..., xn) Estatísticas xi x n 2 ( x i x) s2 n 1 X pode ser vista como uma variável aleatória, se considerarmos a distribuição de freqüências da população como uma distribuição de probabilidades, a distribuição da população. 3.1.1. PROPRIEDADES (OU TEOREMAS) 1) A média da DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS, denotada por μ , é igual à média populacional μ. E[ x] ( x) 2) Se a população é infinita (ou muito grande) OU se a amostragem é com reposição, a VARIÂNCIA AMOSTRAL DAS MÉDIAS é igual à razão da variância populacional pelo tamanho da amostra, ou seja, a variância da média amostral é menor que a variância da população: E[(x ) 2 ] 2 ( x) 2 n 3) Se a população é finita (N < 20n ou n>5% de N) OU se a amostragem é sem reposição, então a variância da distribuição amostral das médias é dada por: 2 ( x) 2 N n n N 1 NOTA: Ao termo (N-n)/(N-1) denomina-se FATOR DE CORREÇÃO PARA POPULAÇÃO FINITA (FCPF). 3/14 Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA ESTATÍSTICA I Prof Me Aloizio Magrini 4) TEOREMA CENTRAL DO LIMITE: Se o tamanho da amostra for razoavelmente grande ( n 30 ), então a DISTRIBUIÇÃO AMOSTRAL DA MÉDIA pode ser aproximada pela DISTRIBUIÇÃO NORMAL. Em outras palavras, se a população tem ou não DISTRIBUIÇÃO NORMAL com média μ e variância 2, então a DISTRIBUIÇÃO DAS MÉDIAS AMOSTRAIS será normalmente distribuída com média μ e variância dada por: para POPULAÇÃO INFINITA: σ2 n σ2 N n n N 1 para POPULAÇÃO FINITA: 3.2. DISTRIBUIÇÃO AMOSTRAL DAS FREQÜÊNCIAS RELATIVAS Queremos determinar qual é a distribuição amostral da freqüência relativa ou proporção. Seja X uma população infinita, e seja p a probabilidade (ou proporção) para um certo evento de X. Assim, q = 1 – p é a probabilidade do evento não ocorrer. Seja (x1,x2,x3,..., xn) uma amostra aleatória de n elementos dessa população, e seja x o número de sucessos nesta amostra. Identifica-se facilmente que X é uma variável aleatória com DISTRIBUIÇÃO BINOMIAL, tendo média=nxp e variância=nxpxq. A DISTRIBUIÇÃO AMOSTRAL DA FREQÜÊNCIA RELATIVA p̂ f x np Média Ef E p n n x terá por parâmetros: n x npq pq Variância Vf V 2 n n n Para n 30 a DISTRIBUIÇÃO AMOSTRAL DA FREQÜÊNCIA RELATIVA f será NORMAL com parâmetros: d pq f N p ; n 3.3. DISTRIBUIÇÃO AMOSTRAL DE VARIÂNCIAS Seja a VARIÂNCIA POPULACIONAL designada por 2 e a VARIÂNCIA AMOSTRAL designada por s2. Logo, s2 é o estimador de 2. Pode ser demonstrado que a DISTRIBUIÇÃO de s2 tem parâmetros: Média E[s2] σ2 Variância V s2 2σ4 n1 Prova-se também que s2 tem DISTRIBUIÇÃO QUI-QUADRADO com (n-1) graus de liberdade, ou seja: (n 1) S2 d 2 n1 2 Assim, a relação entre s2 e 2 é dada por uma DISTRIBUIÇÃO QUI-QUADRADO. 3.4. DISTRIBUIÇÃO AMOSTRAL DA SOMA OU DIFERENÇA DE DUAS MÉDIAS Desejamos identificar a distribuição amostral do estimador ( x 1 x 2 ) . Sabe-se que a distribuição amostral da média é NORMAL com média = μ e variância = 2/n. A soma ou diferença de duas médias terá também DISTRIBUIÇÃO NORMAL, com média igual à soma ou diferença das médias populacionais e variância igual à soma das variâncias populacionais. d 2 2 ( x1 x 2 ) N 1 2; 1 2 n1 n2 4/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini 3.5. DISTRIBUIÇÃO AMOSTRAL DA SOMA OU DIFERENÇA DE DUAS FREQUÊNCIAS RELATIVAS Desejamos identificar a distribuição amostral do estimador (f1 f 2 ) . Sabe-se que a distribuição amostral da freqüência relativa, considerando-se n 30, é NORMAL com média = p e variância = pq/n. Considerando-se amostras independentes de duas populações, a soma ou diferença de duas proporções terá distribuição NORMAL, com média igual à soma ou diferença das proporções populacionais e variância igual à soma das variâncias populacionais. d p .q p .q ( f1 f2 ) N p1 p2 ; 1 1 2 2 n n2 1 3.6. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS QUANDO A VARIÂNCIA DA POPULAÇÃO É DESCONHECIDA Sabe-se que a distribuição amostral da média é NORMAL com média = μ e variância = 2/n, o que implica em sua distribuição normal padronizada ser representada por: Zi xi n Como não se conhece o valor da variância populacional 2, e portanto não se conhece também o valor do desvio padrão populacional , uma possibilidade é substituir o desvio padrão populacional pelo seu estimador, o desvio padrão amostral. Neste caso, passamos a ter a estatística T: Ti xi s n que possui DISTRIBUIÇÃO DE STUDENT com (n-1) graus de liberdade, e portanto: t n 1 xi s n 4. ESTIMAÇÃO DE PARÂMETROS Trata-se da questão de avaliar parâmetros populacionais a partir de operações com os dados de uma amostra. É um raciocínio tipicamente indutivo, onde se generalizam resultados obtidos na parte (amostra) para o todo (população). No início deste capítulo foi estabelecido que uma ESTATÍSTICA é normalmente uma MEDIDA DESCRITIVA (Média, Desvio Padrão, etc.), que é função dos elementos contidos na amostra. Quando uma ESTATÍSTICA é usada para avaliar algum PARÂMETRO DA POPULAÇÃO, é também chamada de ESTIMADOR. Desta forma, pelo fato de depender dos particulares elementos selecionados na amostra, o ESTIMADOR é também uma VARIÁVEL ALEATÓRIA. Uma vez realizada uma amostragem, ao valor calculado para o estimador nesta amostra, dá-se o nome de ESTIMATIVA, conforme definido na seção 1.9. Há dois tipos de ESTIMATIVAS: ESTIMATIVA PONTUAL: É o valor obtido por cálculo de uma medida numa amostra retirada da população de interesse. ESTIMATIVA INTERVALAR: A estimativa está incluída num intervalo, considerando um certo grau de acerto, determinado INTERVALO DE CONFIANÇA, que contém a estimativa pontual. Note-se que, ao se definir um grau de acerto, automaticamente fica também definido um grau de erro, ao qual se dá o nome de margem de erro da estimativa (em pontos percentuais), e que resulta em um erro de estimativa ou erro amostral (em unidades da variável). 5/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini 4.1. PROPRIEDADES DE UM ESTIMADOR Por se tratar de uma VARIÁVEL ALEATÓRIA, um estimador pode assumir valores segundo uma distribuição de probabilidades. A principal característica que um estimador deve apresentar é a de que, em média, ele seja igual ao parâmetro populacional que se deseja estimar. De outra forma: 4.1.1. ESTIMADOR NÃO TENDENCIOSO Seja T um estimador do parâmetro . O estimador T é não-tendencioso (ou não-viesado) se E[T] = . Na prática, normalmente retiramos apenas uma amostra da população e produzimos através dela um único valor para o ESTIMADOR: uma ESTIMATIVA. Ainda que nosso estimador seja não tendencioso, o valor da estimativa pode ser diferente do valor do parâmetro populacional. É desejável portanto, que nosso estimador tenha variância pequena, para reduzir a chance de nossa estimativa se afastar muito do valor do parâmetro. 4.1.2. EFICIÊNCIA DO ESTIMADOR Sejam T1 e T2 dois estimadores não tendenciosos de um parâmetro, sendo V[T1] < V[T2]. Neste caso, T1 é dito mais eficiente que T2, e a eficiência relativa de T1 em relação a T2 é dada por: ef (T1, T2 ) V[T2 ] V[T1] Os conceitos de TENDÊNCIA e EFICIÊNCIA são bem ilustrados através da figura abaixo, onde T1 e T2 são rifles não tendenciosos e T3 é tendencioso. Embora T1 e T2 sejam não tendenciosos, T1 é mais eficiente do que T2. Usando as DISTRIBUIÇÕES AMOSTRAIS, é possível avaliar probabilisticamente, o erro que se está cometendo por se usar uma amostra e não toda a população. Conforme anteriormente mencionado, a este erro dá-se o nome de ERRO AMOSTRAL ou ERRO DE ESTIMATIVA, e seu cálculo fica evidenciado na estimativa em forma de INTERVALO DE CONFIANÇA. 5. INTERVALO DE CONFIANÇA Trata-se de uma das técnicas para inferência estatística, onde a partir de um intervalo de confiança, construído com os elementos da amostra, pode-se inferir sobre um parâmetro populacional. Devido à variabilidade amostral, as possíveis amostras aleatórias de mesmo tamanho retiradas da mesma população terão medidas diferentes. Assim, surge naturalmente a pergunta: qual a confiabilidade de uma estimativa pontual? O intervalo de confiança foi instituído para definir de forma objetiva a credibilidade da estimativa. INTERVALO DE CONFIANÇA é o intervalo de valores que contém o parâmetro da população, com uma determinada probabilidade de acerto, e é construído a partir de uma amostra aleatória retirada da população. 6/14 Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA ESTATÍSTICA I Prof Me Aloizio Magrini Exemplificando o INTERVALO DE CONFIANÇA para a MÉDIA. Se o tamanho da amostra ( n ) for suficientemente grande, a média de uma amostra aleatória terá distribuição normal, com média igual à da população, e variância igual à variância da população dividida por n, conforme previamente estabelecido neste capítulo, seção 3.1. Da distribuição normal padrão, podemos então concluir, por exemplo, que a probabilidade da média estar incluída no intervalo de dois desvios padrão ao redor da média é de 95,45%, conforme a seguir demonstrado: P( x 2 a x 2 a ) P(Z 2) P(Z 2) , onde a significa o desvio padrão da amostra. P( x 2 a x 2 a ) 0,9772 0,02275 0,9545 P( x 2 a x 2 a ) 95,45% De outra maneira, podemos dizer que 95,45% das médias amostrais se situam ao redor de mais ou menos dois desvios padrão da média. Portanto, em 95,45% das vezes em que repetirmos a amostragem aleatória e calcularmos sua média, a média populacional estará incluída no intervalo de mais ou menos 2 desvios padrão ao redor da média amostral. Reciprocamente, em 4,55% das vezes, a média populacional não estará incluída no intervalo definido por dois desvios padrão. O INTERVALO DE CONFIANÇA neste caso define o percentual de todas as amostras possíveis que satisfazem à margem de erro (ou erro de estimativa) de 2 desvios padrão amostral. Adicionalmente, fica bastante claro que o erro da estimativa ou margem de erro, depende fundamentalmente da amostra. Utilizando raciocínio semelhante ao desenvolvido acima, podemos calcular, no caso da média, o erro da estimativa ou margem de erro, para alguns níveis de confiabilidade de interesse, conforme abaixo ilustrado. IC ( 1 - α ) α ( 1 - α/2 ) Zα/2 90,00% 10,00% 95,00% 1,64 95,00% 5,00% 97,50% 1,96 95,50% 4,50% 97,75% 2,00 97,50% 2,50% 98,75% 2,24 99,00% 1,00% 99,50% 2,58 5.1. INTERVALO DE CONFIANÇA PARA MÉDIA, VARIÂNCIA POPULACIONAL ( 2 ) CONHECIDA. _ Conforme já estabelecido, o estimador da média populacional ( ) é a média amostral ( x ), e a distribuição de probabilidade das médias é NORMAL com parâmetros: para população infinita _ d σ2 x N μ ; n ou para população finita _ d σ 2 N n x N μ ; n N 1 Logo, para o caso de populações infinitas, a variável padronizada de x será: _ x μ Z σ n 7/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini Fixando-se um nível de confiança (1 ) , temos a seguinte representação da situação: ou seja: P z Z z 1 2 2 _ x Substituindo-se o valor de Z, tirado de Z para o caso de POPULAÇÕES INFINITAS, e resolvendo-se n para as duas ineqüações, temos: _ _ 1 P x z . x z . 2 n 2 n Para fins de cálculo, a utilização da fórmula é muito simples: basta fixar o nível de confiabilidade (1 ) e portanto também , e observar na tabela da DISTRIBUIÇÃO NORMAL PADRÃO, o valor da abscissa z para a 2 _ probabilidade 1 1 . Com os valores da média amostral x , do desvio padrão da população e 2 2 do tamanho da amostra n, constrói-se o intervalo. _ No caso de populações finitas, lembre-se que Z x n POPULAÇÕES FINITAS se transforma em: Nn N1 e portanto o intervalo de confiança para _ _ Nn N n P x z . . x z . . 1 2 n N1 2 n N 1 Considerando a DISTRIBUIÇÃO NORMAL de probabilidades podemos calcular antecipadamente o valor da abscissa para alguns níveis de confiabilidade de interesse, conforme indicado abaixo: IC ( 1 - α ) α ( 1 - α/2 ) Zα/2 90,00% 10,00% 95,00% 1,64 95,00% 5,00% 97,50% 1,96 95,50% 4,50% 97,75% 2,00 97,50% 2,50% 98,75% 2,24 99,00% 1,00% 99,50% 2,58 Exemplo: A duração da vida de uma peça tem desvio padrão = 5 horas. Foram amostradas 100 peças observando-se a média de 500 horas. Construir o intervalo de confiança para a verdadeira duração da peça, com um nível de confiabilidade de 95%. Solução: temos que: x 500 ; =5; n=100 ; (1-α).100 = 95% Da tabela acima retiramos o valor da abscissa Zα/2 como sendo 1,96 (para 97,5%) e substituindo os valores na fórmula para população infinita obtemos a inequação: , cujo cálculo resulta em uma margem de erro 5 5 95 % (ou erro de estimativa) de 0,98 horas. P 500 1,96 . 500 1,96 . 100 100 Assim, o intervalo 500±0,98, ou [499,02 ; 500,98] contém a duração média da peça com 95% de confiança, significando com isso que permanece uma chance de 5% de a real duração da peça não pertencer a este intervalo. 8/14 Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA ESTATÍSTICA I Prof Me Aloizio Magrini 5.2. INTERVALO DE CONFIANÇA PARA MÉDIA, VARIÂNCIA POPULACIONAL ( 2 ) DESCONHECIDA. O processo de obtenção do intervalo de confiança neste caso, é bastante semelhante ao caso anterior. A grande diferença é que, ao substituirmos a variância populacional pelo seu estimador, a variância amostral, a _ variável normalizada resultante passa a ser constituída pelo quociente entre duas variáveis aleatórias: x e s , _ x μ o que implica que a distribuição da variável t passe a ter DISTRIBUIÇÃO DE STUDENT com n-1 graus de s n liberdade. Dessa forma, temos que: Ou seja: P t t t 1 2 2 Substituindo o valor de t e resolvendo as ineqüações, temos então: (população infinita) _ _ S S 1 P x t . x t . 2 2 n n ou então: (população finita) _ _ S Nn S N n P x t . . x t . . 1 2 n N1 2 n N 1 d onde t t n 1 . Considerando que os valores das abscissas (tα/2) da DISTRIBUIÇÃO “T” dependem agora do tamanho da amostra (n) e do desvio padrão amostral, podemos calcular referido valor para alguns níveis de confiabilidade de interesse e para alguns tamanhos usuais de amostra, conforme indicado abaixo: IC ( 1 - α ) α tα/2, n=10,gl=9 tα/2, n=20,gl=19 tα/2, n=30,gl=29 tα/2, n=50,gl=49 tα/2, n=100,gl=99 90,00% 10,00% 1,83 1,73 1,70 1,68 1,66 95,00% 5,00% 2,26 2,09 2,05 2,01 1,98 95,50% 4,50% 2,33 2,15 2,10 2,06 2,03 97,50% 2,50% 2,69 2,43 2,36 2,31 2,28 99,00% 1,00% 3,25 2,86 2,76 2,68 2,63 Exemplo: A amostra: 9; 8; 12; 7; 9; 6; 11; 6; 10; 9 foi extraída de uma população normal. Construir o intervalo de confiança para a média ao nível de 95%. Solução: Calculando a média aritmética e o desvio padrão da amostra, obtemos os seguintes resultados: _ x 8,7 e s=2 Considerando que (1-α) = 95% e g.l.= 9 (graus de liberdade=n-1) , da tabela acima retiramos o valor 2,26 para a abscissa tα/2. Com tais valores, o erro de estimativa (ou margem de erro) é 1,43 e o intervalo de confiança 8,7±1,43 torna-se [7,27 ; 10,13], o qual contém a média da população com 95% de confiança. 9/14 Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA ESTATÍSTICA I Prof Me Aloizio Magrini 5.3. INTERVALO DE CONFIANÇA PARA PROPORÇÃO OU PROBABILIDADE Na seção 3.2 foi estabelecido que o estimador para proporção ( p ) é a freqüência relativa ( f ), e a distribuição de probabilidade das freqüências relativas é Normal com parâmetros: d p.q f N p ; para população infinita n ou d p.q N n para população finita f N p ; n N 1 Assim, para o caso de populações infinitas, a variável padronizada de f é dada por: Z f p p.q n Fixando-se um nível de confiança 1 , temos a seguinte representação da situação: Ou seja: P z Z z 1 2 2 Substituindo-se o valor de Z tirado de Z f p p.q n para o caso de populações infinitas, e resolvendo-se para as duas ineqüações, temos: p.q p.q Pf z . p f z . 1 2 n 2 n (população infinita) Para amostras grandes (n > 30), pode-se substituir os parâmetros da população p e q pelos seus estimadores f e (1 – f) de forma que o intervalo de confiança torna-se: f.(1 f ) f.(1 f ) Pf z . p f z . 1 2 n 2 n (população infinita) e (população finita) f .(1 f ) N n f .(1 f ) N n Pf z . p f z .. 1 2 n 2 n N 1 N 1 Exemplo: Examinadas 500 peças de uma produção, encontrou-se 260 defeituosas. Construir um intervalo de confiança a 90% para a verdadeira proporção de peças defeituosas. (1- α)=90% x 260 0,52 . O valor da abscissa zα/2 pode ser obtido da tabela do Assim, a proporção na amostra é f n 500 item 5.1 como sendo 1,645. Substituindo tais valores na fórmula encontramos: 0,52(1 0,52) 0,52(1 0,52) P 0,52 1,645 p 0,52 1,645 90% 500 500 Solução: Temos n=500; x=260; 10/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini e portanto P(0,4832 p 0,5568) = 90% , ou ainda o intervalo [ 48,32% ; 55,68%] (margem de 3,68%) contém a verdadeira proporção de peças defeituosas, com uma confiança de 90%. A maneira mais fácil de se calcular o intervalo de confiança é calcular primeiramente a margem de erro, expressa neste caso por: f .(1 f ) 0,52(1 0,52 ) Margem de Erro z . 1,645 0,0368 2 n 500 Assim, o intervalo de confiança é obtido pelos limites f erro, ou seja [0,52-0,0368 ; 0,52+0,0368] que fornece o mesmo resultado acima [0,4832 ; 0,5568]. 5.4. INTERVALO DE CONFIANÇA PARA VARIÂNCIA Na seção 3.3 foi estabelecido que s2 é o estimador de 2, e que s2 tem distribuição QUI-QUADRADO com (n-1) graus de liberdade, ou seja: d (n 1) s 2 (n 1) s 2 d 2 , o que pode ser escrito como n 1 n1 2 O intervalo será: e portanto P(inf sup ) 1 2 2 2 Substituindo-se os valores na fórmula acima temos: (n 1).s 2 (n 1).s 2 2 P 2 2 inf sup 1 Exemplo: Suponha que uma amostra de 10 elementos, tenha revelado variância amostral igual a 4. Construir o Intervalo de Confiança ao nível de 90%. Solução: Temos n=10; s2=4; (1- α)=90%; Consultando a tabela do Qui-Quadrado com gl=9, temos: a) Para α=5%, temos 2sup =16,9190 2 b) Para α=95% temos inf =3,3251 Logo, gl=(n-1)=9 94 94 P 2 90 % 16 , 919 3 ,3251 e portanto P(2,13 2 10,81) = 90% , com a mesma interpretação dada aos intervalos anteriores. 5.5. INTERVALO DE CONFIANÇA PARA DESVIO PADRÃO Como o desvio padrão é a raiz quadrada da variância, pode-se calcular o IC para a variância e depois extrair a raiz quadrada dos limites do intervalo para obtenção do intervalo de confiança para o desvio padrão. 6. FERRAMENTA ESTATÍSTICA DESCRITIVA DO EXCEL Agora, após o entendimento sobre o significado dos conceitos ERRO AMOSTRAL, ERRO DA ESTIMATIVA (ou M ARGEM DE ERRO) e INTERVALO DE CONFIANÇA, estamos em condições de interpretar os resultados emitidos pela ferramenta ESTATÍSTICA DESCRITIVA do Excel. 11/14 ESTATÍSTICA I Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA Prof Me Aloizio Magrini Primeiramente, vamos enfatizar a diferença que existe entre uma Função de Planilha e uma Ferramenta no Excel. Uma Função sempre retorna para dentro de uma célula da planilha, algum dos tipos de dados (número, datas, texto) aceitos numa planilha do Excel, como um único resultado do instanciamento da função (esqueça funçoes de matriz por enquanto). O resultado de uma função sempre é atualizado quando do recálculo de uma planilha. Já o que o Excel chama de Ferramenta, normalmente requer um endereço de planilha a partir do qual serão retornados vários resultados associados à tarefa a que se propõe a Ferramenta. Os resultados retornados por uma Ferramenta não são atualizados quando do recálculo de uma planilha. Para utilizar a Ferramenta Estatística Descritiva, é necessário primeiro instalar o Suplemento Ferramentas de Análise. Através do Menu Ferramentas, opção Suplementos, o Excel oferece a instalação do suplemento Ferramentas de Análise (só isso, sem menção a VBA). Após instalado este suplemento, quando do acionamento da opção Ferramentas no Menu principal, deverá aparecer no Menu tipo cortina uma opção intitulada Análise de Dados, que disponibiliza o pacote de ferramentas estatísticas do Excel. Merece destaque o fato de as Ferramentas do Excel exigirem conjuntos de dados organizados em linhas ou colunas. Isto significa que o formato de matriz que utilizamos para representar a Tabela Primitiva ou Rol nos capítulos anteriores não é adequado para acionamento de ferramentas no Excel. O fragmento de planilha abaixo, indica que os dados brutos provenientes da pesquisa sobre Idade dos Alunos, foi arranjado na forma de banco de dados, com todos os resultados dos casos em uma única coluna, mais especificamente no intervalo de células A2:A51. A ferramenta Estatística Descritiva foi acionada com especificação de saída no intervalo iniciado pela célula C1. Na coluna F foram registradas as FUNÇÕES (e FÓRMULAS) que a Ferramenta utilizou para emitir os 14 resultados mostrados nas linhas 3 a 16. Observa-se que a Ferramenta assume os dados de entrada como provenientes de uma amostra (e não população), e que a variância da população é desconhecida, tendo sido estimada pela variância amostral, conforme demonstra a utilização da Distribuição t de Student na determinação do Erro de Estimativa. 12/14 Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA ESTATÍSTICA I Prof Me Aloizio Magrini 7. EXERCÍCIOS PROPOSTOS 7.1 – DISTRIBUIÇÃO AMOSTRAL 1. Se a variável aleatória X tem distribuição normal com média μ(x) = 6 e desvio padrão (x) = 1,5, calcule _ _ P( x 4), onde x é a média de uma amostra de nove elementos, retirada ao acaso desta população. (100%) 2. Uma amostra aleatória de cinco elementos é retirada ao acaso de uma população normal com média _ μ(x)=30 e desvio padrão (x)=9 . Calcule P(28 x 31) . (29,02%) _ _ 3. Uma variável aleatória tem média μ(x)=15 e desvio padrão (x)=2. Calcule P(14 x 15,5) , onde x é a média de uma amostra aleatória de 50 elementos, retirada desta população. (96,14%) 4. Uma variável aleatória x tem distribuição de Poisson com média μ(x)=5. Uma amostra de 100 elementos é _ retirada ao acaso desta população. Calcule P( x 6) . (1,29%) 5. A carteira de títulos de uma corretora tem apresentado rendimento médio trimestral μ(x)=10% e desviopadrão (x)=2% .O administrador da carteira garante que qualquer grupo de 40 títulos escolhido ao acaso tem rendimento médio trimestral superior a 9%. Qual a probabilidade de ele estar correto? (99,92%) 7.2 – INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL 6. Foram retiradas 25 peças da produção diária de uma máquina, encontrando-se para uma medida uma média de 5,2 mm. Sabendo-se que as medidas têm distribuição normal com desvio padrão populacional 1,2 mm, construir intervalos de confiança para a média aos níveis de 90%, 95% e 99%. ([4,81;5,59], [4,73;5,67], [4,58;5,82]) 7. De uma distribuição normal com 2 = 1,96, obteve-se a seguinte amostra: 25,2; 26,0; 26,4; 27,1; 28,2; 28,4. Determinar o intervalo de confiança para a média da população, sendo α = 0,05 e α = 0,10. ([25,76;28,00], [25,94;27,82]) 8. Suponha que as alturas dos alunos de nossa faculdade tenham distribuição normal com = 15 cm. Foi retirada uma amostra aleatória de 100 alunos obtendo-se média=175 cm. Construir, ao nível de significância de 95% o intervalo para a verdadeira altura média dos alunos. ([172,06;177,94]) 9. Dados n = 10, média amostral = 110 e S = 10, determinar os intervalos de confiança para a média populacional, aos níveis de 90% e 95%. ([104,2;115,8], [102,84;117,16]) 10. Uma amostra é composta pelos seguintes elementos: 7, 7, 8, 9, 9, 9, 10, 11, 11, 11, 12, 13, 13, 14, 15, 15. Construir os intervalos de confiança para a média sendo: 1 - α = 97,5% e 1 - α = 75%. ([9,164;12,586], [9,993;11,757]) 11. Colhida uma amostra de 30 peças, forneceu os seguintes pesos: 250 265 267 269 271 275 277 281 283 284 287 289 291 293 293 298 301 303 306 307 307 309 311 315 322 319 324 328 335 339 Por meio da construção do intervalo de confiança, responder se esta amostra satisfaz à especificação pela qual o peso médio deve ser 300 kg. (Adote α = 5%). ([288,33kg;304,93kg] a 95%) 13/14 Cap 8 – DISTRIBUIÇÃO AMOSTRAL E ESTIMATIVA ESTATÍSTICA I Prof Me Aloizio Magrini 12. Em uma fábrica, colhida uma amostra de certa peça, obtiveram-se as seguintes medidas para os diâmetros: 10 11 11 11 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 15 15 15 16 16 a) Estimar a média e a variância da população. (13,13 ; 2,05) b) Construir um intervalo de confiança para a média sendo α = 5%. ([12,60;13,66]) 13. Em quatro leituras experimentais de um "comercial" de 30 segundos, um locutor levou em média 29,2 segundos com uma S2 = 5,76 segundos ao quadrado. Construir os limites de confiança para a média, considerando α=10%. ([26,38;32,02]) 14. Construir intervalos de confiança para a média populacional, admitindo-se as seguintes distribuições amostrais, ao nível de 95%. a) Classes fi 0-5 2 15 - 18 8 18 - 21 9 10 - 15 5 15 – 20 2 21 - 24 24 – 27 12 15 ([22,00;24,55]) 27 - 30 7 6,2 – 10,2 10,2 – 14,2 4 5 ([7,98;12,67]) 14,2 – 18,2 3 5 - 10 3 ([7,26;13,58]) b) Classes fi 30 - 33 4 c) Classes fi 2,2 – 6,2 3 7.3 – INTERVALO DE CONFIANÇA PARA PROPORÇÕES 15. Uma centena de componentes foi ensaiada e 93 deles funcionaram mais de 500 horas. Determinar um intervalo de confiança de 95% para a proporção. ([0,88;0,98]) 16. Uma amostra aleatória de 400 domicílios mostra-nos que 25% deles são casas de aluguel. Qual é o intervalo de confiança da proporção de casas de aluguel? (α = 2%). ([16%;34%]) 17. Em 50 lances de uma moeda, foram obtidas 30 caras. A partir de um intervalo de confiança de 96%, podese dizer que a moeda é honesta? ([0,46;0,74]) 18. Para verificar se um dado era viciado, jogou-se o mesmo 120 vezes, obtendo-se 25 vezes o número cinco. Calcular um intervalo de confiança para a proporção a α = 1 %. Pode-se dizer que o dado é viciado? ([0,11;0,31]) 19. Uma amostra de 300 habitantes de uma cidade mostrou que 180 desejavam a água fluorada. Encontrar os limites de confiança de 90% e 95% para a proporção da população favorável à fluoração. ([0,56;0,65] , [0,54;0,66]) 14/14