CAPÍTULO 9 ESTIMAÇÃO DE PARÂMETROS 9.1 Introdução Foi visto anteriormente que a inferência estatística é o processo pelo qual informações a cerca da população são obtidas a partir de dados para uma determinada amostra. Esta técnica é dividida em: estimação de parâmetros, estimação do intervalo de confiança e teste de hipóteses. Parâmetros são aqueles coeficientes que identificam ou descrevem a distribuição de probabilidade de uma variável aleatória, tais como a média e a variância, no caso da distribuição normal, ou os coeficientes em um modelo empírico ou teórico de um processo qualquer. Aplica-se, por exemplo, a estimação de parâmetros quando se quer estimar a força média que deve ser exercida na asa de todos os aviões (população) produzidos na fábrica da Boeing ou quando se quer estimar a variabilidade desta força. Para isto, existem métodos de estimação destes parâmetros (média e variância da população), assim como métodos para determinação dos intervalos de confiança. A seguir, faz-se uma classificação dos modelos que contêm parâmetros a determinar. 9.1.1 Classificação dos Modelos Os modelos podem ser: a) Determinísticos: estipulam que as condições sob as quais um experimento seja executado determinam o resultado do experimento. Quando um certo experimento é repetido um número de vezes, o mesmo resultado será esperado. Por exemplo, na lei de Ohm, V=RI, a mesma voltagem será obtida para a mesma corrente e resistência. Claro que fatores como, altura de quem lê o instrumento, temperatura e umidade do local, podem variar, mas não devem influenciar sobremaneira o resultado final. Há uma correspondência direta entre a voltagem e a corrente e resistência; b) Não-Determinísticos ou Probabilísticos ou Estocásticos: modelos que, por exemplo, determinam a quantidade de chuva que cairá em uma cidade. Dispõe-se de instrumentos de medição da precipitação. Informações, tais como velocidade do vento, variações de pressão, etc., são obtidas em vários pontos. Estas informações são responsáveis por um prognóstico (chuva fraca, média, forte) apenas, mas é impossível afirmar quanta chuva cairá. Este é o tipo de fenômeno que não pode ser descrito por um modelo determinístico. As condições físicas que permitiram prever o resultado em um modelo determinístico, só conseguem especificar uma distribuição probabilística em um modelo estocástico. Uma outra classificação dos modelos é dada a seguir: a) Modelos de Fenômenos de Transporte - usa princípios físico-químicos. São as equações fenomenológicas de conservação de massa, energia e momento linear. Podem ser classificados de acordo com a complexidade física e com a complexidade matemática. b) Modelos de Balanço Populacional - usa os balanços populacionais. São as distribuições vistas anteriormente para descrever populações e amostras de variáveis aleatórias, como tempo de residência. 1 c) Modelos Empíricos - usa ajuste de dados experimentais. São, por exemplo, polinomiais ou exponenciais usados para ajustar dados experimentais. 9.2 Tipos de Erro No uso de todos esses modelos mencionados, medidas experimentais são necessárias, resultando em valores de variáveis que variam de uma repetição de uma experiência para outra. Estes resultados são chamados de aleatórios, estocásticos, estatísticos ou probabilísticos. As variáveis associadas são denominadas variáveis estocásticas ou aleatórias. As razões para a aleatoriedade podem ser devido à: a) Inerência ao processo - por exemplo, fenômenos que ocorrem a nível molecular, mas são medidos com equipamentos macroscópicos; b) Informação insuficiente a cerca da variável; c) Falta de técnicas para coletar a informação requerida; d) Negligência do operador; e) Ruídos no processo ou no sinal; f) Não adequação do modelo para descrição do processo físico. Entende-se por valor verdadeiro da variável aquele valor que seria obtido através de medida experimental, se não houvesse aleatoriedade associada a esta variável. Assim, o valor verdadeiro é hipotético. Chama-se erro aleatório a diferença entre a variável aleatória e seu valor verdadeiro. Deve-se diferenciar o erro aleatório do erro sistemático, que é aquele erro introduzido devido à falta de calibração do equipamento ou a uma idéia preconcebida dos dados esperados. Este erro causa tendência ou falta de acurácia. Acurácia se refere a quão próximo o valor médio dos dados experimentais está do valor verdadeiro. Precisão se refere a quão dispersos os dados experimentais estão em torno do valor verdadeiro. Erros sistemáticos não devem ser tratados pelos métodos que serão vistos neste curso. As variáveis dependentes e independentes de um processo podem ser contínuas ou discretas, como visto anteriormente. A maioria das variáveis associadas com processos contínuos são variáveis contínuas, como a temperatura, pressão e composição. Estas variáveis podem assumir qualquer valor dentro de um intervalo. Uma variável discreta pode ter somente valores distintos no intervalo. Desde que o modelo represente bem a situação real, de modo que as conclusões deduzidas a partir da análise matemática do modelo tenham a precisão desejada, o modelo é adequado. As vantagens de trabalhar com modelos em vez de resultados experimentais diretamente são: Relações no modelo podem ser precisamente estabelecidas e manipuladas matematicamente; O modelo concentra atenção nas características relevantes do processo; O modelo pode ser usado para inferir o que acontecerá no domínio onde as observações experimentais estão ausentes. Considerando que somente erros aleatórios estão presentes nas medidas de uma variável de processo, o analista está mais interessado em determinar, na base de um número finito de medidas: A tendência central das observações de uma dada variável; A dispersão das observações a cerca de um valor central; A incerteza destas estimativas. 9.3 Estimação de Parâmetros Considere uma função densidade de probabilidade de uma variável aleatória X, p(x,), que contenha um parâmetro que seja desconhecido. Uma amostra aleatória (x1,x2,...xn) é então 2 selecionada. Baseando-se em dados experimentais, faz-se uma estimativa do valor de , através do cálculo de alguma estatística (chamada neste caso de estimador), por exemplo, a média X da amostra. Diz-se então que X = X . Embora não se espere que a estimativa de um parâmetro seja igual a ele, deve-se buscar sempre a melhor aproximação possível entre estes dois valores. Assim, cabem duas questões: a) Quais as características necessárias a uma boa estimativa ? b) Como decidir qual estimativa é melhor que outra ? Outra questão pertinente é a seleção dos estimadores (média ou mediana para estimar ). Existem algumas propriedades, vistas a seguir, que orientam a escolha das estimativas e estimadores. 9.3.1 Propriedades das Estimativas e dos Estimadores a) Uma estimativa de uma parâmetro é dita ser não tendenciosa se: E ( ) (1) Assim, como visto anteriormente, a média X da amostra é um bom estimador da média da população, uma vez que E( X ) = , o mesmo acontecendo para a variância s2 da amostra, visto que E(s2) = 2. A variância da amostra calculada pela Equação (2) é um estimador tendencioso da variância da população. n s' 2 _ ( X i X )2 i 1 (2) n b) Um estimador é dito ser consistente se a estimativa tende a se aproximar cada vez mais dos valores da população à medida que o tamanho da amostra aumenta. Ou seja: E (( ) 2 ) 0 O desvio-padrão da amostra, dado por X (3) n , é um estimador consistente. c) O estimador mais eficiente, para o mesmo tamanho de amostra, é aquele que tem menor variância. Os critérios de imparcialidade (ser não tendencioso) e mínima variância não podem ser considerados separadamente, porque uma estimativa levemente tendenciosa com uma pequena variância pode ser preferível a uma estimativa não tendenciosa mas com grande variância. Em suma, a média X e a variância s2 da amostra são os estimadores mais comumente utilizados para a estimação dos parâmetros característicos de uma população, uma vez que eles são não tendenciosos e mais eficientes e consistentes que as demais estatísticas. 9.3.2 Técnicas de Estimação de Parâmetros Existem vários métodos que podem ser utilizados para estimar parâmetros. Os dois mais comuns são: Método da Máxima Verossimilhança e o Método dos Mínimos Quadrados. Este último é sem dúvida o mais amplamente adotado. 3 9.3.3. Método da Máxima Verossimilhança Este método foi introduzido por R. A. Fisher e consiste em determinar estimativas que tenham a maior eficiência, mas que não necessariamente sejam não tendenciosas. Uma caraterística desejável deste método é que, sob certas condições (que não são tão rigorosas), os parâmetros estimados sejam normalmente distribuídos para grandes amostras. Seja X uma variável aleatória com fdp igual a f(x,), sendo um parâmetro a determinar. Considere (x1,x2,...,xn) os valores observados em uma amostra de tamanho n. A função verossimilhança da amostra é definida por: L( x1 , x2 ,..., xn , ) f ( x1 , ) f ( x1 , ) ... f ( xn , ) (4) A estimativa de máxima verossimilhança de ; isto é, , é então aquele valor de que torna máxima a função L( x1 , x2 ,..., xn , ) , que é a probabilidade de que = É mais conveniente trabalhar com ln L do que com L. Assim: ln L ln f ( x1 , ) ln f ( x1 , ) ... ln f ( x n , ) (5) n ln L ln f ( xi , ) i 1 O máximo de ln L pode ser encontrado derivando-se esta variável em relação ao parâmetro de interesse, no caso e igualando o resultado a zero. n ln L ln f ( xi , ) i 1 0 (6) O valor de assim encontrado será a estimativa desejada, chamada de . No caso de estimação de mais de um parâmetro, obtém-se um sistema de equações diferenciais parciais que deve ser resolvido analítica ou numericamente. Exemplo 1: Encontre as estimativas de máxima verossimilhança de e para a distribuição normal, cuja fdp é dada por: f ( x, , ) 2 1 2 e ( x )2 2 2 (7) Solução: A função verossimilhança para uma amostra de uma variável aleatória X, com valores de (x1,x2,...,xn) é dada por: 1 n xi 2 1 2 L( x1 , x2 ,..., xn , , ) exp (8) n 2 2 i 1 Aplicando-se o logaritmo neperiano em ambos os membros da Equação (8), fica-se com: 1 n x ln L n ln 2 i 2 i 1 2 (9) Derivando-se a Equação (9) em relação aos parâmetros e 2, tem-se: 4 ln L 1 0 2 n (x i 1 i ln L n 1 0 3 ) (10) n ( xi ) 2 i 1 1 1 n 2 n (x i 1 i )2 (11) Resolvendo o sistema formado pelas Equações (10) e (11), chega-se aos valores estimados da média e do desvio-padrão da população com distribuição normal. n x i 1 n i X (12) 1 (x n i X )2 1/ 2 n 1 2 sX n 1/ 2 O método da máxima verossimilhança forneceu uma estimativa tendenciosa do desviopadrão, como pode ser observado na Equação (12). 9.3.4. Método dos Mínimos Quadrados O método dos mínimos quadrados será visto em detalhes nos capítulos de Regressão Linear Simples e Múltipla. 9.4 Estimação do Intervalo de Confiança Como visto anteriormente, a média X é um bom estimador de para populações aproximadamente normais, mas não se espera que X seja precisamente igual a . Assim, existe um intervalo de confiança da forma: X erro de amostragem (13) onde o erro de amostragem depende de quanto X flutua. Para saber isto, primeiro deve-se decidir o nível de confiança que se deseja para o intervalo que envolve o valor de . Comumente, escolhe-se 95%. Esta probabilidade corresponde à área central abaixo da curva da distribuição normal. Cada área extrema da curva corresponde a uma probabilidade de 2.5% Pela tabela da distribuição normal, percebe-se que esta probabilidade está associada a um valor de z igual a 1,96, ficando-se então com: X (14) P z Z z 0.95 n P( 1.96 X X 1.96 X ) 0.95 (15) A Equação (15) significa dizer: Há uma chance de 95% que X seja próximo de , dentro de 1.96 X . Uma outra forma de expressar a Equação (15) é: P( X 1.96 X X 1.96 X ) 0.95 (16) 5 A Equação (16) não significa dizer que a probabilidade do parâmetro cair dentro de um intervalo especificado seja igual a 0,95; 95% é a probabilidade de que o intervalo aleatório ( X 1.96 X , X 1.96 X ) contenha . Conseqüentemente, tal intervalo é chamado de intervalo de confiança do parâmetro . Quem está variando é o intervalo e não . Denota-se a área sob a porção da curva normal contida entre o intervalo especificado por 1 e as áreas restantes (iguais) por /2 cada. No caso de se estipular 95% de confiança, fica-se com 1- = 0.95 e /2 = 0.025. Assim: z / 2 z 0.025 1.96 X z / 2 n ou X z / 2 n X z / 2 n (17) O significado do intervalo de confiança pode ser melhor entendido através da Figura 5.1. Ela quer dizer o seguinte: Suponha que um experimento seja repetido várias vezes, cada vez, pegando-se um conjunto diferente de n observações, com seus respectivos intervalos de estimação. O nível de confiança é a percentagem daquelas estimativas com intervalos que realmente contêm o valor verdadeiro do parâmetro da população sendo estimado. Naturalmente, somente uma amostra de tamanho n é selecionada, não havendo maneira de saber se a estimativa obtida é a verdadeira. A única forma de evitar isto é aumentando o intervalo de confiança, usando um valor maior de z (e assim reduzindo a precisão) ou aumentar o tamanho da amostra. 9.4.1 Intervalo de Confiança Para a Média Quando é Conhecida Este é o caso mais simples de determinação do intervalo de confiança. Quando a amostra for grande (n 30), este intervalo será calculado pela Equação (17). Figura 9.1 – Esquema Ilustrativo do Significado do Intervalo de Confiança 6 Se a amostra for pequena, a Equação (18) deverá ser usada. X z / 2 9.4.2 N n N 1 n (18) Intervalo de Confiança Para a Média Quando é Desconhecida Neste caso, o desvio-padrão da população é estimado pelo desvio-padrão da amostra (considerando n grande, n 30), ficando-se com: X z / 2 s n ou X z / 2 s n X z / 2 s n (19) Embora a curva normal geralmente descreva a distribuição amostral para X , ela não é apropriada para amostras pequenas e desvio-padrão da população desconhecido. Conseqüentemente, deve-se usar a distribuição t de Student, definida anteriormente. O intervalo de confiança é calculado do mesmo modo de antes, apenas trocando-se z por t, ficando-se com: s s s (20) X t / 2 ou X t / 2 X t / 2 n n n Para uma amostra com 25 observações e um intervalo de confiança igual a 95%, t0.025=2.064. 9.4.3 Intervalo de Confiança Para a Variância O intervalo da confiança para a variância é calculado a partir da distribuição qui-quadrado, ficando-se com: (n 1) s 2 (n 1) s 2 2 (21) 2 2 1 / 2 / 2 Devido à não simetria da distribuição qui-quadrado, existem dois valores críticos: / 2 e 12 / 2 . 2 Exemplo 2: Considere um intervalo de confiança de 90% para a variância no tempo de espera de mensagens recebidas por um satélite. O desvio-padrão de uma amostra contendo 25 mensagens é igual a 10.4 microsegundos. Calcule o intervalo que contém a variância da população. Solução: Como df=25-1, pela tabela em anexo, vê-se que: 02.95 36.145 e 02.05 13.848 . Assim, (25 1)(10.4) 2 (25 1)(10.4) 2 2 36.145 13.848 2 71.28 187.45 microsegundos 8.4 13.7 Para casos em que o tamanho da amostra seja grande, n > 30, a distribuição normal pode ser usada para aproximar a distribuição qui-quadrado, ficando-se com: (n 1) s 2 (n 1) s 2 (22) 2 n 1 z / 2 2(n 1) n 1 z / 2 2(n 1) No caso de n=100 e s=2.35, para um intervalo de confiança de 99%, tem-se que z0.005=2.57. 7 (100 1) s 100 1 2.57 2(100 1) 2 (100 1)s 2 100 1 2.57 2(100 1) 4.04 8.70 2,01 2,95 2 9.4.4 Intervalo de Confiança para a Diferença entre Duas Médias 9.4.4.1 Variância Conhecida Considere duas variáveis aleatórias independentes, X1, com média desconhecida 1 e variância 12 conhecida e X2, com média desconhecida 2 e variância 22 conhecida. A diferença entre os valores das médias das duas populações é dada por: 12 1 2 ( X 1 X 2 ) z / 2 X 1 X 2 z / 2 12 n1 22 n2 n1 22 ou n2 1 2 X 1 X 2 z / 2 12 n1 22 (23) n2 9.4.4.2 Variância Desconhecida Na prática, a variância da população não é conhecida, usando-se assim a variância da amostra. Quando a amostra for pequena, a distribuição t de Student deve ser usada. a) Variâncias Iguais - é bastante razoável considerar variâncias iguais para as duas distribuições, resultando em: 1 1 1 2 ( X 1 X 2 ) t / 2 s p ou n1 n2 (24) 1 1 1 1 X 1 X 2 t / 2 s p 1 2 X 1 X 2 t / 2 s p n1 n2 n1 n2 onde s 2p é a variância ponderada, conhecida por pooled variance, calculada por: s 2p n m i 1 j 1 ( X 1i X 1 ) 2 ( X 2 j X 2 ) 2 (n1 1) (n2 1) (25) O grau de liberdade é dado por: df=(n1-1)+(n2-1). Exemplo 3: De uma grande classe, uma amostra foi retirada, contendo 4 graus: 64, 66, 89 e 77. De uma segunda classe, uma amostra independente foi selecionada, contendo 3 graus: 56,71 e 53. Calcule o intervalo, com 95% de confiança, para a diferença das médias. Solução: s 2p 398 186 584 117 3 2 5 Pela tabela da distribuição de Student, com df=5 e =0.025, tem-se t0.025=2.571, ficando-se então com: 8 1 2 (74 60) 2.57 117 1 1 14 21 4 3 7 ( 1 2 ) 35 Este resultado significa dizer que a média da primeira classe pode ser até 7 pontos abaixo ou até 35 pontos acima daquela da segunda classe. Esta grande variação é devida ao tamanho da amostra. X1 64 66 89 77 X 1 =296/4 X 1 =74 Classe 1 (X1- X 1 ) -10 -8 15 3 0 (X1- X 1 100 64 225 9 398 X2 )2 56 71 53 Classe 2 (X2- X 2 ) -4 11 -7 (X2- X 2 )2 16 121 49 0 186 X 2 =180/3 X 2 =60 a) Variâncias Diferentes – existem situações em que não se pode afirmar que as variâncias sejam iguais. Logo, tem-se: 1 2 ( X 1 X 2 ) t / 2 X 1 X 2 t / 2 2 1 s12 s 22 n1 n2 ou 2 2 (26) 2 1 2 2 s s s s 1 2 X 1 X 2 t / 2 n1 n2 n1 n2 com o número de graus de liberdade dado por: s12 s 22 n1 n2 df 2 2 2 ( s1 / n1 ) ( s 22 / n2 ) 2 n1 1 n2 1 (27) Exemplo 4: Um fabricante de monitores está testando dois projetos de circuitos, para determinar se eles produzem corrente médias equivalentes. Os seguintes dados experimentais foram obtidos: Projeto 1: n1 = 15 s12 = 10 x1 = 24,2 Projeto 2: n2 = 10 s12 = 20 x1 = 23,9 Usando = 0,10, calcule o intervalo de confiança, supondo que as duas populações sejam normais e que as variâncias sejam desconhecidas e diferentes. Solução: Usando as Equações (26) e (27), fica-se com: 10 20 15 10 df 2 16,17 16 (10 / 15) 2 (20 / 10) 2 15 1 10 1 9 10 20 10 20 1 2 24,2 23,9 1,746 15 10 15 10 24,2 23,9 1,746 - 2,55 1 - 2 3,15 9.4.5 Intervalo de Confiança na Relação de Variâncias A variável aleatória F é definida como a razão entre duas variáveis aleatórias independentes quiquadrado, divididas pelos seus respectivos graus de liberdade: 12 F ( 1 , 2 ) 2 2 1 (28) 2 A função densidade de probabilidade (fdp) para a distribuição F é dada matematicamente pela Equação (29) e graficamente pela Figura 5.2. 2 1 1 1 2 1 / 2 2 / 2 F 2 f ( x) ( 1 2 ) 1 2 1 2 ( 2 1 F ) 2 2 2 (29) A distribuição de probabilidade é: F ( x) P( F Fi ) Fi f ( x)dx (30) 0 Os valores de F(x) são tabelados (segue tabela em anexo). O valor esperado e a variância dessa distribuição são dados por: E( X ) 2 para 2 2 2 2 2 22 ( 1 2 2) Var ( X ) 1 ( 2 2) 2 ( 2 4) (31) (32) Figura 9.2 Funções Densidade de Probabilidade de Duas Distribuições F. 10 Uma relação útil é: f1 ,1 , 2 1 f ,1 , 2 (33) Considere duas amostras aleatórias provenientes de duas populações normais independentes, com médias e variâncias desconhecidas, 1, 2, 12 e 22 , respectivamente. Se as amostras tiverem variâncias iguais a s12 e s 22 , então s12 F ( 1 , 2 ) 12 s 22 (34) 22 terá uma distribuição F, sujeita aos graus de liberdade 1=n1-1, no numerador, e 2= n2-1, no denominador. Se as variâncias 12 e 22 forem iguais, ter-se-á: s2 (35) F ( 1 , 2 ) 12 s2 O intervalo de confiança é dado por: s12 12 s12 (36) f f / 2,n2 1,n1 1 1 / 2 , n2 1, n1 1 s 22 22 s 22 em que f1 / 2,n2 1,n1 1 e f / 2,n2 1,n1 1 são os pontos percentuais superior e inferior da distribuição F, com n2 – 1 e n1 – 1 graus de liberdade no numerador e no denominador, respectivamente. Exemplo 5 (Montgomery): Uma companhia fabrica propulsores para uso em motores de turbinas de avião. Uma das operações envolve esmerilhar o acabamento de uma superfície particular para um componente de liga de titânio. Dois processos diferentes para esmerilhar podem ser usados, podendo produzir peças com iguais rugosidades médias na superfície. Uma amostra aleatória de n1 = 11 peças, proveniente do primeiro processo, resulta em um desvio-padrão de s1 = 5,1 micropolegadas. Uma amostra aleatória de n2 = 16 peças, proveniente do segundo processo, resulta em um desvio-padrão de s2 = 4,7 micropolegadas. Determine o intervalo de confiança de 90% para a razão de duas variâncias 12 / 22 . Solução: Considerando que os dois processos sejam independentes e que a rugosidade na superfície seja normalmente distribuída, tem-se: 12 (5,1) 2 (5,1) 2 f 0,95,15,10 2 f 0,05,15,10 (4,7) 2 2 (4,7) 2 0,46 12 3,56 22 Uma vez que esse intervalo de confiança inclui a unidade, não se pode afirmar que os desviospadrão da rugosidade da superfície para os dois processos sejam diferentes, a um nível de 90% de confiança. 9.5 Determinação do Tamanho da Amostra Os dados usados para a estimação de parâmetros devem ser precisos e confiáveis. A precisão está ligada ao menor desvio-padrão apresentado pela amostra, enquanto que a confiabilidade é simplesmente a probabilidade de uma estimativa (resultado da estimação) estar correta. O aumento da probabilidade da média da população estar entre um determinado intervalo provoca uma redução 11 na precisão. Para que haja uma melhor confiabilidade em conjunto com uma precisão satisfatória, deve-se aumentar o tamanho da amostra. Mas neste caso, a amostragem fica mais demorada e mais cara. Portanto, deve haver um balanço entre estes três fatores: precisão, confiabilidade e tamanho da amostra. O tamanho da amostra depende de dois fatores: precisão desejada; confiabilidade especificada. Diferentes equações serão dadas a seguir, dependendo do fato de se ter uma ou duas populações, com variâncias conhecidas ou desconhecidas. 9.5.1 Tamanho da Amostra para o Cálculo da Média de uma População Devido ao erro experimental, não se pode nunca afirmar que o máximo desvio permitido não será ultrapassado, mas se pode calcular a probabilidade para que isso aconteça. Essa probabilidade define a confiabilidade, dada por: Confiabilidade = 1 P( d X d ) (37) Se X tiver distribuição normal, sabe-se que: P( z / 2 X X z / 2 X ) Assim, d z / 2 X , sendo X desconhecido. Para populações grandes, X se com d z / 2 n (38) n , ficando- . Resolvendo para n, tem-se: n z2 / 2 2 d2 (39) em que d = | x - | é a precisão desejada (ou erro máximo); z/2 é a variável normal padrão para a confiabilidade especificada, 1-; e é o desvio-padrão assumido para a população. Se n der um número não inteiro, deve-se arredondar para mais, de modo a garantir que o nível de confiança não seja menor do que 100(1 - ). Exemplo 6: Imagine que um engenheiro queira estimar a força média de tensão requerida para distorcer, de forma permanente, barras reforçadas de um determinado material. Considere uma precisão de 5 lb, com uma probabilidade de confiança de 1-=0.95. Estudos prévios com barras similares indicam que =50 lb. Calcule qual deve ser o tamanho da amostra. Solução: Pela tabela da distribuição normal, vê-se que z0.025=1.96. Assim: n=1.962*502/52=384. Uma relação similar à Equação (39) pode ser deduzida para populações pequenas, através do uso do fator de correção para população finita. É importante observar que se o valor de z/2 for dobrado na Equação (39) (o que corresponde a um aumento na confiabilidade de 95.44% para 99.994%), necessita-se de uma amostra 4 vezes maior. A precisão usada não deve ser maior do que a realmente requerida. 9.5.2 Tamanho da Amostra para o Cálculo da Diferença da Média entre Duas Populações O tamanho da amostra é calculado pela equação: 12 2 z (40) n / 2 ( 12 22 ) E com E = | ( x1 x2 ) (1 2 ) |, 12 e 22 sendo as variâncias conhecidas das duas populações. A análise do tamanho da amostra pode ser feita em termos econômicos. O custo total de amostragem pode ser expresso em termos de dois componentes: custo de coleta de dados e custo de erros. Este último é difícil de se medir e são provenientes do efeito líquido entre escolhas erradas e ações que resultam da obtenção de amostras que super ou subestimam seriamente os objetivos. A Figura 5.3 apresenta um gráfico dos custos em função do tamanho da amostra. A interseção das curvas correspondentes aos custos com a coleta de dados e com os erros fornece o tamanho ótimo da amostra. Figura 9.3 Tamanho ótimo da amostra. 9.6 Exercícios 9.6.1 Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o débito médio anual nesses cartões, para contas individuais, é R$ 1592,00, com desvio-padrão de R$ 997,00. Com essas estatísticas, construa um intervalo de 90% de confiança para o débito médio anual em cartões de crédito para a população de todas as contas. 9.6.2 Um pesquisador médico deseja estimar o nível de colesterol (em mg/100 ml) de todas as mulheres na faixa etária de 18 a 24. Há forte evidência de que = 41,0 mg/100 ml (com base em dados de uma pesquisa feita com 1.524 mulheres com 18 a 24 anos de idade). Se o pesquisador deseja ter 95% de confiança em obter uma amostra que não apresente erro superior a quatro unidades, qual deve ser o tamanho da amostra? 13 9.6.3 Sabe-se que a vida em horas de um bulbo de uma lâmpada de 75 W é distribuída de forma aproximadamente normal, com desvio-padrão = 25 horas. Uma amostra aleatória de 20 bulbos tem uma vida média de x = 1.014 horas. (a) Qual será o erro para o teste no item (a), se a vida média verdadeira for 1.050 h? (b) Qual seria o tamanho requerido da amostra para assegurar que não excederia 0,10, se a vida média verdadeira fosse 1.025 h? (c) Construa um intervalo bilateral de confiança de 95% para a vida média. 9.6.4 Uma máquina de pós-mistura de bebidas é ajustada para liberar uma certa quantidade de xarope em uma câmara onde ela seja misturada com água carbonatada. Uma amostra de 25 bebidas apresentou um conteúdo médio de xarope de x = 1,10 onça fluida e um desvio-padrão s = 0,015 onça fluida. Encontre um intervalo de confiança de 95% para a quantidade média de xarope liberado. 14