Bioestatística Dr Cláudio S. Sartori FATEC 1 compreendida entre 5,25 e 5,31 m, apresentamos uma estimativa por intervalo. Inferência Estatística: Introdução: Inferência estatística é o processo de estimativas de uma população a partir de propriedades de uma amostra da população. Há dois tipos de inferência estatística que discutiremos a seguir. Do ponto de vista prático, é extremamente mais importante poder deduzir informações relativas a uma população mediante informações de amostras dela extraídas. Um problema importante na inferência estatística é a extimação dos parâmetros populacionais ou abreviadamente parâmetro, deduzidos da estatística amostral. • Estimativas: Envolve aproximadamente o valor de um parâmetro desconhecido. Esse parâmetro é um número descrevendo alguma propriedade numérica de uma população. Como exemplo, pode-se estar interessado em obter uma estimativa do valor médio de todas as casas de uma determinada cidade. Estimativas imparciais: Se a média de uma distribuição amostral de uma estatística for igual ao parâmetro populacional correspondente, a estatística será denominada de estimador imparcial do parâmetro; se isso não ocorrer, chamamos de estimador parcial. Tais valores correspondentes desta estatística são denominados estimadores imparciais ou parciais, respectivamente. Exemplo 1 - A média da distribuição amostral das médias, µ X é igual a µ, isto é, a média A declaração do erro ou precisão de uma estimativa é denominada de sua fidedignidade. Distribuições amostrais: Considerem-se todas as amostras possíveis de tamanho N que podem ser tiradas de uma população dada (com ou sem reposição). Para cada amostra pode-se tirar uma grandeza estatística como uma média ou desvio padrão, que varia de amostra para amostra. Desse modo obtém-se uma distribuição da grandeza que é denominada distribuição amostral. Se a grandeza estatística adotada for a média da amostra, a distribuição é denominada amostral das médias. Distribuição amostral das médias. Admitindo-se amostras possíveis de tamanho N são retiradas sem reposição de uma população finita de tamanho Np > N. Se a média e o desvio padrão da distribuição amostral das médias forem designadas por µ X e σ X , e os valores correspondentes da população forem µ e σ. Então: µx = µ σx = por pontos e intervalos. Quando estimamos um parâmtro populacional por um número, denominamos de etimativa de ponto; quando estimamos por dois números entre os quais pode-se dizer que ele esteja situado, denominamos de estimativa por intervalo. Tais estimativas indicam sua precisão ou exatidão e são preferíveis às estimativas por pontos. Exemplo 2 - Se dissermos que uma certa distância mede 5,28 ± 0,03 m , isto é, ela está 1 N NP − N N p −1 Se a população for finita, ou se a amostragem for tomada com reposição, os resultados acima tornam-se: µx = µ populacional. Por isso a estatística amostral X é uma estimativa imparcial da populacional µ. Estimativas Fidedignidade. σ σx = σ N Para grandes valores de N (N ≥ 30) a distribuição amostral das médias é aproximadamente normal, com a média µ X e o desvio padrão σ X ,independentemente da população. Tal resultado é fruto do teorema do limite central: Teorema do Limite Central: À medida que se aproxima o tamanho da amostra, a distribuição de amostragem média se aproxima da forma da distribuição normal, qualquer que seja a forma da distribuição de população. Na Bioestatística Dr Cláudio S. Sartori prática a distribuição de amostragem da média pode ser considerada como aproximadamente normal sempre que o tamanho da amostra for N > 30. Erros padrões: O desvio padrão de uma distribuição amostral de uma grandeza estatística é frequentemente denominado de seu erro padrão. Lembremos que , tendo N conjunto de dados xi, calculamos a média µ e o desvio padrão σ da forma: N µ= N ∑ xi i =1 σ= N ∑ (xi − µ ) 2 i =1 N Se os dados xi forem distribuídos em frequência fi: N µ= ∑ xi f i i =1 N ∑ fi i =1 N σ= ∑ f i ( xi − µ ) 2 i =1 N ∑ fi i =1 2 2 FATEC A tabela ilustra os valores da área da curva normal padrão. z 0 1 2 3 4 5 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,6 0,2258 0,2291 0,2324 0,2357 0,2389 0,2422 0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,8 0,2881 0,2910 0,2939 0,2967 0,2996 0,3023 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 3,6 0,4998 0,4998 0,4998 0,4999 0,4999 0,4999 3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 3,8 0,4999 3,9 0,5000 0,4999 0,5000 0,4999 0,5000 0,4999 0,5000 0,4999 0,5000 0,4999 0,5000 Bioestatística Dr Cláudio S. Sartori z 6 7 8 9 0,0 0,0239 0,0279 0,0319 0,0359 0,1 0,0636 0,0675 0,0714 0,0754 0,2 0,1026 0,1064 0,1103 0,1141 0,3 0,1406 0,1443 0,1480 0,1517 0,4 0,1772 0,1808 0,1844 0,1879 0,5 0,2123 0,2157 0,2190 0,2224 0,6 0,2454 0,2486 0,2518 0,2549 0,7 0,2764 0,2794 0,2823 0,2852 0,8 0,3051 0,3078 0,3106 0,3133 0,9 0,33151 0,3340 0,3365 0,3389 1,0 0,3554 0,3577 0,3599 0,3621 1,1 0,3770 0,3790 0,3810 0,3830 1,2 0,3962 0,3980 0,3997 0,4015 1,3 0,4131 0,4147 0,4162 0,4177 1,4 0,4279 0,4292 0,4306 0,4319 1,5 0,4406 0,4418 0,4429 0,4441 1,6 0,4515 0,4525 0,4535 0,4545 1,7 0,4608 0,4616 0,4625 0,4633 1,8 0,4686 0,4693 0,4699 0,4706 1,9 0,4750 0,4756 0,4761 0,4767 2,0 0,4803 0,4808 0,4812 0,4817 2,1 0,4846 0,4850 0,4854 0,4857 2,2 0,4881 0,4884 0,4887 0,4890 2,3 0,4909 0,4911 0,4913 0,4916 2,4 0,4931 0,4932 0,4934 0,4936 2,5 0,4948 0,4949 0,4951 0,4952 2,6 0,4961 0,4962 0,4963 0,4964 2,7 0,4971 0,4972 0,4973 0,4974 2,8 0,4979 0,4979 0,4980 0,4981 2,9 0,4985 0,4985 0,4986 0,4986 3,0 0,4989 0,4989 0,4990 0,4990 3,1 0,4992 0,4992 0,4993 0,4993 3,2 0,4994 0,4995 0,4995 0,4995 3,3 0,4996 0,4996 0,4996 0,4997 3,4 0,4997 0,4997 0,4997 0,4998 3,5 0,4998 0,4998 0,4998 0,4998 3,6 0,4999 0,4999 0,4999 0,4999 3,7 0,4999 0,4999 0,4999 0,4999 3,8 0,4999 0,4999 0,4999 0,4999 3,9 0,5000 0,5000 0,5000 3 FATEC − 1 Yi = e σ 2π ( xi − µ ) 2 2σ 2 Se tratamos os dados na variável reduzida z: z= x−µ σ z2 1 − 2i Yi = e 2π Para a distribuição amostral das médias Xi ( µX supondo distribuição normal) com média σ X teremos a relação: X − µX zi = i σX e desvio padrão Xi : X i = µ X + σ X zi Ou, explicitando o valor Exercícios: 0,5000 Lembramos que para uma distribuição normal ou gaussiana de dados (xi ,Yi ) e desvio padrão σ e média µ dados por : 3 1 - Uma população consiste de 5 números: 2,3,6,8 e 11. Considerem todas as amostras possíveis de 2 elementos que dela podem ser retiradas com reposição. Determinar: a) A média da população. b) O desvio padrão da população. c) A média da distribuição amostral das médias. d) O desvio padrão da distribuição amostral das médias, isto é, o erro padrão das médias. 2. Resolver o problema anterior no caso de amostragem sem repetição. 3. Admite-se que a altura de 3000 estudantes do sexo masculino de uma universidade são normalmente distribuídas, com a média 172,72 cm e o desvio padrão7,62 cm. Se forem obtidas 80 amostras de 25 estudantes cada uma, quais serão a média e o desvio padrão esperados na distribuição amostral das médias resultantes se a amostragem for feita: a) Com reposição. b) Sem reposição. 4. Em quantas amostras do problema anterior pode-se esperar que a média se encontre: a) Entre 169,27 cm e 173,48 cm. b) Abaixo de 169,65 cm? 5. Quinhentos rolamentos de esferas têm um peso médio de 5,02 onças (1 onça = 0,028349 kg). e um desvio padrão de 0,3 onça. Determinar a probabilidade de uma amostra de Bioestatística Área sob a Curva Gaussiana dftr 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 -1,000 -,500 ,000 ,500 1,000 X (a) 0 ≤ x ≤ 3 (b) -2,5 ≤ x ≤ 4,5 Respostas: (a) Área sob a Curva Gaussiana Y(X) dftr 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 ,000 ,500 1,000 1,500 X 2,000 2,500 3,000 Área sob a curva normal padrão dftr 0,35 0,3 Y(z) 0,25 0,2 0,15 0,1 0,05 -2 -1,5 -1 -0,5 z 0 0,5 1 4 1,500 2,000 2,500 3,000 Área sob a curva normal padrão dftr 0,35 0,3 0,25 0,2 0,15 0,1 0,05 -3,5 -3 -2,5 -2 -1,5 -1 z 11. Construa as distribuições Gaussiana e Normal padrão para µ = 2 e σ = 0,816, com: 4 (b) Y (X ) 100 rolamentos de esferas, escolhidos ao acaso nesse grupo, ter um peso total de: a) Entre 496 e 500 onças. b) Mais de 500 onças. 6. Suponha que a média de uma população bastante grande seja µ = 50,0 e o desvio padrão σ = 12,0. Determine o desvio padrão para a distribuição de amostragem das médias. 7. Sabe-se que a vida útil de operação de um tubo de imagem de TV de certa marca é, em média, µ = 9000 horas com um desvio padrão σ = 500 horas. Determinar o valor esperado e o desvio padrão para a distribuição de amostragem para a média, sendo o tamanho da amostra n = 25. 8. Um analista financeiro toma uma amostra aleatória de 10% de 300 contas e acha que o saldo médio das contas é R $ 148,50. Sabendo que o desvio padrão da distribuição das médias é R$ 35,75 encontre o desvio padrão da amostra. 9. Dados os valores 3,5,7 e 8 encontre a média da população e seu desvio padrão. 10. Se escolhermos uma população de 2 elementos, sem reposição, encontre a média e o desvio padrão das médias para o problema anterior. FATEC Y(z) Dr Cláudio S. Sartori -0,5 0 0,5 1 Bioestatística Dr Cláudio S. Sartori Estimativas Um problema importante da inferência estatística é a estimação dos parâmetros populacionais, ou parâmetros (média, variância, etc da população) deduzidos da estatística amostral correspondente. Estimativas imparciais são aquelas em que a média da distribuição amostral é igual ao parâmetro populacional correspondente. Caso contrário ela será um estimador parcial. Caso tenhamos duas estatísticas de distribuições amostrais com a mesma média, denominamos estimador eficiente da média, àquela estatística de menor variância, enquanto as demais recebem o nome de ineficientes. A estimativa de um valor populacional pode ser dada por pontos ou por dois números, entre os quais ele pode ser considerado; ou seja, por meio de um intervalo. Essas estimativas por intervalos são preferíveis às estimativas por pontos. Estimativas de intervalo de confiança dos parâmetros populacionais. Sejam µs e σs a média e o desvio padrão (erro padrão) da distribuição amostral de uma estatística S. Então a distribuição amostral de S é aproximadamente Normal (o que se tem verificado para N ≥ 30 ); pode-se esperar que se encontre uma estatística amostral real, S, situada nos seguintes intervalos, com os seguintes percentuais: (Entende-se: estar confiante de se encontrar µs nos intervalos dados). Intervalo (µS - σS , µS + σS ) (µS - 2σS , µS + 2σS ) (µS - 3σS , µS + 3σS ) % 68,27 95,45 99,73 FATEC Limite de Confiança (%) 99,73 99 98 96 95,45 90 80 5 Coeficientes de confiança zc . 3,00 2,58 2,33 2,05 2,00 1,645 1,28 1,00 68,27 50 0,6745 Estimativa do intervalo de confiança das médias: Se temos uma estatística S que é a média amostral X então os limites de confiança de 95% e 99%, para a estimação da média populacional µ, são dados por: X ± 1,96σ X e X ± 2,58σ , respectivamente. X De um modo geral os limites de confiança são dados por: X ± z C σ X X ± zC Ou µ ± zC σ N σ N (Para amostragem de uma população infinita ou quando a amostragem é retirada com reposição). Esses intervalos são denominados de intervalos de confiança de 68,27%;95,45% e 99,73%para a avaliação de µS. Os números extremos desses intervalos são denominados de limites de confiança ou limites fiduciais. A percentagem de confiança é frequentemente denominada de nível de confiança. Os números dos limites de confiança são denominados de coeficientes de confiança ou valores críticos , e representados por zc. A tabela a seguir mostra os valores de zC correspondente a diversos níveis de confiança adotados na prática. 5 X ± zC µ ± zC σ N NP − N NP −1 ou σ NP − N N NP −1 (Para amostragem com população finita ou quando a amostragem é retirada sem reposição). Em geral, o desvio padrão da população σ é desconhecido, de modo que, para se obterem os limites de confiança acima emprega-se a estimativa da amostra s. Isso será satisfatório desde que N ≥ 30. Para N < 30, a aproximação é insuficiente e deve-se empregar a teoria de pequenas amostras que veremos adiante. Bioestatística Dr Cláudio S. Sartori todos os 1546 estudantes dessa universidade. Determinar uma estimativa imparcial e eficiente da média verdeira e da variância verdadeira. A média da distribuição amostral das variâncias é igual a µ = N − 1σ 2 , onde σ2 é a s2 N variância populacional e N é o tamanho da amostra. Então a variância amostral s2 é uma estimativa parcial da variância populacional σ2. Chamando de variância Alturas (cm) modificada σ̂ , que é uma estimativa imparcial de σ2, teremos: 2 σˆ 2 = 151 159 167 175 183 N σ a2 N −1 - Lembremos que há uma relação entre sa e σa dada por: σ = N − 1s . Para N muito grande, não há a a N muita diferença entre s e σ. Exemplo1 - A amostra constante de 5 medidas do diâmetro de uma esfera foi registrada por um cientista com os valores de 6.33, 6.37, 6.36, 6.32 e 6.37 cm. Determinar as estimativas imparciais e eficientes da: a) Média verdadeira. b) Variância e o desvio padrão da amostra. c) A variância e o desvio padrão da população. d) O intervalo de confiânça correspondente a 95%. a) A estimativa imparcial e eficiente da média verdadeira é a média populacional: x= i =1 5 = 6.35 b) Desvio σa = c) ∑ ( xi − x ) da amostra: i =1 N = 0 , 0022 5 = 0,0209 ; 5 18 42 27 8 N = Σfi =100 N x= 100 N ∑ fi i =1 Cálculo do N σa = ∑ f i (xi − x ) i =1 desvio padrão: 2 =7,78 cm N N σ2 N −1 ⇒ σˆ 2 = 2 154,5 162,5 170,5 178,5 186,5 158 166 174 182 190 ∑ xi f i ⇔ x = 17170 = 171,70 i =1 σˆ 2 = padrão Frequência (f) 772,5 2 925,0 7 161,0 4819,5 1 492,0 Σxi fi = 17170,0 cm. N Ponto médio (xi) fX 5 ∑ xi 6 FATEC 100 (7,78)2 ⇒ σˆ = 62,4659 = 7,79 99 Variância: σ a2 = 0,00044 A estimativa imparcial e eficiente da variância verdadeira é a variância populacional: N N σˆ 2 = σ a2 = N −1 ∑ ( xi − x ) i =1 N −1 d) X ± z σ = X ± z σˆ = C C N N 0.0234 = 6.35 ± 1.96 = 6.35 ± 0.00048 5 2 Note que, como N é grande, não há diferença entre σˆ 2 , σ 2 ou entre σˆ , σ . Exemplo 3 - Determine os intervalos de confiança de: a) 95% 2 2 99%= 0,0234 = 0,00055cm ⇒ σˆ = σ a = 0b),00055 Para a avaliação da altura média dos estudantes da universidade do exemplo anterior. a) Lembrando que os limites de confiança de 95% são dados por: Exemplo 2 - Admita-se que as alturas de 100 estudantes do sexo masculino de uma universidade representam uma amostra aleatória das alturas de 6 X ± 1,96 σ . Adotando x = 171,70 e N Bioestatística Dr Cláudio S. Sartori considerando como estimativa de σ , sˆ = 7,79 , teremos: 7,79 171,70 ± 1,96 = 171,70 ± 1,526 100 Consequentemente, o intervalo de confiança de 95% para a média da população µ é de 170,174 a 173,226 cm; ou: 170,17 < µ < 173,23 = 171, 70 ± 2, 58 7,79 = 171, 70 ± 2, 01 100 O intervalo de confiança de 99% para a média da população µ é: 169,69 < µ < 173,71 Exemplo 4 - As medidas dos diâmetros de uma amostra aleatória de 200 rolamentos esféricos produzidos por certa máquina, durante uma semana, apresentam a média de 0,824 polegada e o desvio padrão de 0,042 polegada. Determinar os limites de confiança de: a) 95% b) 99% Para o diâmetro médio de todos os rolamentos esféricos. Limites de confiança: a) X ± 1,96 σ = X ± 1,96 sˆ = N N = 0,824 ± 1, 96 b) X ± 2,58 σ N X ± 2,58 2,58 σ 7 σ ⇒ Erro da estimativa: N Tomando-se s = σ =0,05 segundo o N erro será de 2,58 b) Os limites de confiança de 99% são: σ sˆ X ± 2,58 = X ± 2,58 N N 0,042 200 FATEC 0,05 N = 0,01 ⇒ N = (2,58)(0,05) ⇒ N = 167 0,01 Exemplo 6 - Uma amostra aleatória de 50 graus em matemática, num total de 200, apresenta a média de 75 e desvio padrão de 10. a) Quais os limites de confiança de 95%, para a estimativa da média dos 200 graus? b) Com que grau de confiança se diria que a média dos 200 graus é 75 ±1? a) Como o tamanho da população não é muito grande, em comparação com o tamanho da amostra, deve-se ajustá-las. Então os limites de confiança de 95% são: σ NP − N X ± 1, 96 = 75 ± 1,96 = 0,824 ± 0, 0058 = 0,824 ± 0, 006 10 50 N NP −1 = 200 − 50 = 75 ± 2, 4 200 − 1 b) X ± z cσ = X ± z σ X c N NP − N NP −1 10 200 − 50 = 75 ± 1,23 z C 50 200 − 1 valor = 0Como ,824 ±esse 0,0077 = deve 0,824ser ± 0igual ,008a 75 ±1 = 75 ± z C = X ± 2,58 sˆ 042 = 0,824 ± 2,58 0,200 N Exemplo 5 - Ao medir o tempo de reação, um psicólogo avaliou que seu desvio padrão era de 0,05 segundos. Que extensão deve ser tomada para a amostra destinada às medições para que se esteja: a) 95% e b) 99% confiantes de que o erro dessa estimativa não exceda a 0,01 segundo? ⇔ 1,23zc = 1 ⇒ zc = 0,81. A área subentendida pela curva normal, entre z = 0 e z = zc=0,81 é 0,2910; então o grau de confiança desejado é: 2.(0,2910) = 0,582 ou 58,2%. Exercícios 1. Foram determinados os valores: 8,3;10,6;9,7;8,8;10,2 e 9,4 quilos, respectivamente, para os pesos de uma amostra. b) 95% possuem limites de confiança: Determinar aas estimativas para: σ ⇒ Erro da estimativa: σ a) A média populacional. (9,5 kg). X ± 1,96 1,96 b) A variância populacional. (0,74 kg). N N c) Compare o desvio padrão da Tomando-se s = σ =0,05 segundo o erro será de amostracom sua estimativa para a (1,96)(0,05) 0,05 população. (0,78 e 0,86 kg). 1,96 = 0,01 ⇒ N = = 9,8 ⇒ N = 96,04 0,01 N 2. Uma amostra de 10 componentes b) 99% possuem limites de confiança: eletrônicos de televisão produzidas por uma 7 Dr Cláudio S. Sartori Bioestatística companhia apresentou a vida média de 1200 horas e o desvio padrão de 100 horas. Estimar: a) A média . (1200 h). b) O desvio padrão populacional de todos os componentes produzidos pela companhia. (105,4 h). 3. A média e o desvio padrão das cargas máximas suportadas por 60 cabos são dados por 11,09 t e 0,73 t , respectivamente. Determinar os limites de confiança para a média de todos os cabos produzidos para a companhia de: a) 95%. (11,09 ± 0,18 t) b) 99% (11,09 ± 0,24 t) 4. A média e o desvio padrão dos diâmetros de uma amostra de 250 rebites fabricados por uma companhia são:0,72642 e 0,00058 polegadas, respectivamente. Determinar o limite de confiança para todos os rebites fabricados pela companhia de: a) 99 %. (0,72642 ± 0,000095 polegadas). b) 98 %. (0,72642 ± 0,000085 polegadas). c) 95 %. (0,72642 ± 0,000072 polegadas). d) 90 %. (0,72642 ± 0,000060 polegadas). 5. Determine, em relação ao problema anterior, os limites de confiança de 50% e o erro provável para a média dos diâmetros. (0,72642 ± 0,000025 e 0,000025 polegadas). 6. Um analista de mercados obtém dados de uma amostra de 100 consumidores de um total de 400 que adquiriram uma oferta especial. As 100 pessoas gastaram na loja, uma média de $ 24,57 com um desvio padrão de $ 6,60. Usando um intervalo de 95% de confiança, estimar: a) O valor médio de compras para todos os 400 clientes. ($23,45 a $25,69). b) O valor total das compras dos 400 clientes. ($9.380 a $10.276). 8 FATEC 8 Dr Cláudio S. Sartori Bioestatística Testes de Hipóteses: Envolve a escolha de duas afirmações de uma dada população. Tais afirmações são chamadas de hipóteses. Num teste de hipótese principiamos com um valor suposto (hipotético) de um parâmetro da população; depois de coletar uma amostra aleatória, comparamos a estatística da amostra , tal como a média amostral, com o parâmetro suposto, tal como a média populacional hipotética. Então, aceitamos ou rejeitamos o valor hipotético como sendo correto. O valor hipotético é rejeitado somente se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. Uma hipótese nula H0 é o valor suposto do parâmetro o qual é comparado com o resultado da amostra. Ele é rejeitado somente se o resultado da amostra for improvável sendo a hipótese considerada verdadeira. A hipótese alternativa H1 é aceita somente se a hipótese nula é rejeitada. Dividimos em diversas etapas os testes de hipóteses: ETAPA 1 - Formular a hipótese nula H0 e a hipótese alternativa H1. ETAPA 2 - Especificar o nível de significância a ser usado. O nível de significância é o padrão estatístico especificado para rejeitar a hipótese nula. Se é especificado um nível de significância de 5%, a hipótese nula é rejeitada somente se o resultado da amostra é tão diferente do valor suposto que uma diferença igual ou maior ocorreria por acaso com uma Decisões possíveis Aceitação da hipótese nula Rejeição da hipótese nula FATEC 9 probabilidade máxima de 0,05. Observamos que se for utilizado um nível de significância de 5%, existe uma probabilidade de 5% de rejeitar a hipótese nula sendo a mesma verdadeira. Este é o chamado Erro Tipo I. A probabilidade do Erro Tipo I é sempre igual ao nível de significância utilizado como padrão para rejeitar a hipótese nula. Ele é simbolizado pela letra grega minúscula "alfa" α, sendo que α representa o nível de significância. Os níveis de significância mais frequentementes utilizados em testes de hipóteses são os de 1% e 5%. Um Erro Tipo II ocorre quando a hipótese nula é aceita sendo a mesma falsa. ETAPA 3 - Selecionar a estatística do teste. Poderá ser ou a estatística da amostra, ou uma versão modificada da amostra. A tabela a seguir ilustra as consequências de decisões em testes de hipóteses. Estados possíveis Hipótese nula Hipótese nula falsa verdadeira Aceita corretamente Erro tipo II Erro tipo I ETAPA 4 - Estabelecer o valor crítico, ou valores críticos da estatística do teste. Tendo estabelecido a hipótese nula, o nível de significância e a estatística a ser usada, agora estabelecemos o valor crítico (ou valores críticos) da estatística de teste. Pode existir um ou dois desses valores, segundo seja efetuado um teste unilateral ou bilateral. Quando manifestamos interesse nos valores extremos da estatística, ou nos escores z de ambos os lados da média, isto é, em ambas as extremidades da distribuição, chamamos esses testes de bilaterais. Muitas vezes, entretanto, pode-se ter interesse em apenas nos valores extremos de um mesmo lado da média, isto é, em uma extremidade da distribuição; por 9 Rejeita corretamente exemplo, quando se está testando a hipótese de um teste ser melhor do que o outro. Tais testes denominam-se unilaterais. Em ambos os casos, o valor crítico identifica o valor da estatística de teste necessário para rejeitar a hipótese nula. ETAPA 5 - Determinar o valor real da estatística de teste. Exemplo: para testar um valor hipotético da média populacional, coleta-se uma amostra aleatória e determina-se o valor da média da amostra. Se o valor crítico for estabelecido como um valor z, a média da amostra será então, convertida em um valor z. ETAPA 6 - Tomar a decisão. O valor observado da estatística da amostra é comparado Bioestatística Dr Cláudio S. Sartori com o valor crítico da estatística de teste. A hipótese nula é, então, ou aceita ou rejeitada. Se a hipótese nula é rejeitada, a hipótese alternativa é aceita. Esta decisão terá relevância em relação a outras decisões a serem tomadas por administradores, tais como se se deve ou não manter um padrão de desempenho, ou sobre qual, de duas estratégias de mercado, deve empregar-se. A tabela abaixo indica para alguns testes o nível de significância. 0,10 Nível de significância α -1,28 ou Valores críticos de z para testes 1,28 unilaterais -1,645 e Valores críticos de z para testes 1,645 bilaterais Teste de um valor hipotético da média utilizando a distribuição normal. Pode-se utilizar a distribuição normal de probabilidade para testar um valo hipotético da média quando N > 30 ou, caso N < 30 e a população ser normalmente distribuída e o desvio padrão ser conhecido. Um teste bilateral é utilizado quando estamos interessados em possíveis desvios em ambas as direções a partir do valor hipotético da média. A fórmula utilizada para estabelecer os valores críticos da média da amostra é similar à fórmula para determinar os limites de confiança para estimar a média populacional. Sendo µ a média da população, os X RC = µ ± zσ x = 260 ± 1,96 σ n FATEC 2 valores críticos da média da amostra, sendo σ conhecido são: X RC = µ ± zσ x Exemplo 1 - Um auditor deseja testar a hipótese de que o valor médio de todas as contas a receber em uma dada firma é de $ 260,00, tomando para uma amostra N = 36 e calculando a média amostral. Ele deseja rejeitar o valor hipotético se tal valor 0,05 de $ 260,00 0,01 somente 0,005 0,002for claramente contraditado pela média da amostra, -1,645 ou -2,33 ou -2,58 ou -2,88 ou sendo que, desta 2,33 maneira, é dado 1,645 2,58o valor suposto 2,88 o -1,96 "benefício da-2,58 dúvida". As hipóteses nula ee e e -2,81 e -3,08 alternativa 0: µ = $ 260,00 1,96 para esse 2,58teste são H 2,81 3,08 e H1: µ ≠ $260,00. Para a hipótese nula, determinar os valores críticos da médiada amostra para testar a hipótese a um nível de significância de 5%. Dado que se conhece o desvio padrão dos valores das contas a receber: σ = $ 43,00. Hipóteses: H0: : µ = $ 260,00 e H1: µ ≠ $260. Nível de significância: α = 0,05 Estatística do teste: X Baseada numa amostra de n = 36 e σ = $ 43,00. X RC : Valores críticos da média da amostra. = 260 ± 1,96 43 ⎧$245,95 =⎨ 36 ⎩$274,05 0.05 0.04 0.03 0.02 0.01 Região de Aceitação 0 230 240 250 260 270 245,95 Região de rejeição 280 290 274,05 Região de rejeição Portanto, para rejeitar a hipótese nula, a média da amostra deve ter um valor menor que $245,95 ou maior do que 274,05. Existem duas regiões de rejeição no caso de um teste bilateral. Quando o valor da média da amostra estiver determinado, ele será transformado para um valor z, de modo a poder ser comparado com os valores críticos 2 de z. A fórmula para essa transformação, sendo σ conhecido é: z = Xσ−xµ Exemplo 2 - Para o teste de hipótese anterior, suponha que a média seja de X = $240 . Determine se se deve aceitar ou rejeitar a Bioestatística Dr Cláudio S. Sartori FATEC 2 hipótese nula transformando tal média no valor de z crítico correspondente: z= X −µ σX = 2407,−17260 = −2,79 0.05 0.04 0.03 0.02 Região de aceitação 0.01 0 -3 -2 -1 0 -1,96 Região de rejeição 1 2 3 1,96 z Região de rejeição Este valor de z encontra-se na região de rejeição da da cauda esquerda; portanto rejeita-se a hipótese nula e aceita-se a hipótese alternativa, isto é, µ ≠ $260,00. Um teste unilateral é apropriado quando estamos interessados em possíveis desvios em apenas uma direção, a partir do valor hipotético da média. No exemplo anterior, o auditor pode não estar interessado em que a verdadeira média de todas as contas a receber supere $ 260,00, mas sim em que ela possa ser menor que $ 260,00. Pode-se ter então as hipóteses: H0: µ ≥ $ 260,00; H1: µ < $ 260,00. Existe apenas uma região de rejeição em um teste unilateral, e, para o exemplo acima, o teste é um teste de cauda inferior. A região de rejeição de um teste unilateral encontra-se sempre na cauda que representa apoio à hipótese alternativa. O valor crítico pode também ser determinado para a média ou em termos de um valor z. Os valores críticos para testes unilaterais diferem dos bilaterais devido às áreas, como mostramos em tabela. Exemplo 3 - Suponha que o auditor comece com a hipótese nula de que o valor médio de todas as contas a receber é no mínimo de X = $260 . Dado que a média da amostra é $ 240,00, testar essa hipótese ao nível de significância de 5%, através dos procedimentos: a) Determinando o valor crítico do valor médio da amostra, onde H0 : µ ≥ $ 260,00; e tomando para H1: µ < $ 260,00. 2 xrc = µ 0 + zσ x = 260 + (−1,65)(7,17) = $248,17 Uma vez que X = $240 , o mesmo se encontra na região de rejeição. Rejeita-se portanto a hipótese nula e aceita-se a hipótese alternativa de que µ < $ 260,00. b) especificando o valor crítico em termos de z, onde zc(α=0,05) = -1,65 z= X −µ σX = 2407,−17260 = −2,79 Então se rejeita a hipótese nula. Bioestatística Dr Cláudio S. Sartori FATEC 2 0.05 0.04 0.03 0.02 0.01 0 -3 -2 -1 0 -1,67 z 248,17 260 Região de Rejeição 1 2 3 X Região de aceitação Os limites críticos de X (α = 0.05) são: Erros Tipo I e Tipo II em testes de hipóteses. A probabilidade do Erro Tipo I (A hipótese nula é rejeitada sendo a mesma verdadeira) é igual ao nível de significância α utilizado no teste de hipótese. Isso ocorre pois a proporção da área na região de rejeição é igual à proporção dos resultados amostrais que ocorreriam naquela região se a hipótese nula fosse verdadeira. Já a probabilidade de Erro Tipo II (A hipótese nula é aceita sendo a mesma falsa) é indicada pela letra grega "beta" (β) . A maneira pela qual ela pode ser determinada é relativa a um valor específico, incluído dentro do intervalo da hipótese alternativa. Exemplo 4 - O representante de um grupo comunitário informa a uma pessoa que está interessada em estabelecer um centro comercial, que a renda média familiar na área é de $ 15.000,00. Suponha que, para o tipo de zona em questão, é possível supor que a renda média familiar tem distribuição aproximadamente normal, e que se pode aceitar o desvio padrão como sendo σ = $ 2.000,00 , com base em um estudo anterior. Para uma amostra aleatória de 15 famílias, a renda média familiar foi de $14.000,00 . Testar a hipótese nula de que µ = $15.000,00 , estabelecendo os limites críticos da média da amostra, utilizando um nível de significância de 5%. Observação: Mesmo se a amostra for pequena, pode-se utilizar a distribuição normal, uma vez que se supões a população normalmente distribuída e uma vez que σ é conhecido. H0: µ = $15.000,00 e H1: µ ≠ $15.000,00 2 X = µ ± zσ X = µ ± σ N = 15000 ± 1,96 2000 15 ⎧$16.013,93 = 15000 ± 1,96(516,80) = ⎨ ⎩ $13987, 07 Uma vez que a média da amostra X = $14.000,00 encontra-se na região de aceitaçãoda hipótese nula, não se pode rejeitar a afirmação do representante da comunidade a um nível de significância de 5%. Exemplo 5 - Resolver o exemplo 4 utillizando a variável reduzida z como estatística do teste: zcritico (α = 0.05) = ±1.96 Então: σx = σ N = 2000 = $516,80 15 z= x −µ σ −15000 = 14000 = −1,93 . Logo 516 ,80 z = -1,93 está na região de aceitação da hipótese nula. Não se pode rejeitar a informação do representante da comunidade, ao nível de significância de 0,05%. Exemplo 6 - Para o exemplo anterior, suponha que o desvio padrão da população é desconhecido, o que seria o caso típico, e suponha também, que a população dos valores de renda não esteja normalmente distribuída. Para uma amostra de N = 30 famílias, o desvio padrão é de s = $ 2.000 e a média da amostra é x = $14.000 . Testar a hipótese nula de que a renda familiar média na população é, no mínimo, Bioestatística Dr Cláudio S. Sartori $15.000,00, usando o nível de significância do teste de 5%. Nota: A distribuição normal de probabilidade pode ser usada por dois motivos: pelo Teorema do Limite Central e z pode ser utilizado pois N ≥30. Assim: H0: µ ≥ $15.000,00; H1 : µ < $15.000,00 sx = s N x −µ sx z= = 2000 30 = $364,96 −15.000 = 14.000 = −2,74 364 ,96 z= z c (α = 0,01) = +2,33 σx −9000 = 8800 = −1,55 129 , 20 Exemplo 9 - Com respeito ao exemplo anterior, suponha que a informação amostral foi obtida de uma amostra de n = 35 televisores. Testar a afirmação ao nível de significância de 5%. H0: µ = ≥ 9000h; H1: µ < 9000h z c (α = 0,05) = −1,65 σ x = σN = 500 = 84,46 35 z= x −µ σx −9000 = 8800 = −2,37 84 , 46 Portanto rejeita-se a hipótese nula ao nível de significância de 5%. Exemplo 9 - Um analista de mercados coleta informações de uma amostra aleatória de 100 clientes, dos 400 que compraram uma oferta especial. As 100 pessoas gastaram uma média de x = $24,57 na loja, com desvio padrão de $ 6,60. Antes de ver esses resultados da amostra, o gerente havia afirmado que a média das compras feitas por aqueles que responderam à oferta especial teria sido de, no mínimo, $ 25,00. Podese rejeitar essa afirmação utilizando um nível de significância de 5%? Observação: é necessário o fator de correção finita quando N > 0,05Np N ∑ xi x = i =N1 = 450 40 = 11,25 min H0: µ = ≥ $ 25,00; H1: µ < $ 25,00 sx = z= x −µ 2 Logo a hipótese nula não pode ser rejeitada ao nível de significância de 5%. Logo, rejeita-se a hipótese nula ao nível de significância de 5% Exemplo 7 - Um fabricante interessado na compra de um novo equipamento para produzir ferramentas especificou que o equipamento não deve exigir, em média, mais do que 10 minutos de manutenção para cada hora de operação. O agente de compras visita uma companhia onde está instalado o equipamento, e, pela informação que recolhe, nota que 40 horas de operação aleatoriamente selecionadas incluem um total de 7 horas e 30 minutos de manutenção, sendo que o desvio padrão do tempo de manutenção por hora foi de 3,0 minutos. Com base neste reultado amostral, pode-se rejeitar a hipótese de que o equipamento possui as especificações sobre o tempo de manutenção, ao nível de significância de 1 %? H0: µ ≤ 10 min/hora; H1: µ > 10 min/hora FATEC s = 340 = 0,47 min N x −µ = 11,025, 47−10 = +2,66 sx z c (α = 0,05) = −1,65 Rejeita-se portanto a hipótese nula ao nível de significância de 1% e aceita-se a hipótese alternativa de que o tempo médio de manutenção para esse equipamento é maior de que 10 minutos por hora de operação. Exemplo 8 - O desvio padrão da vida útil de um tubo de TV de determinada marca é de σ = 500 horas, sendo que a vida útil dos tubos é normalmente distribuídas. O fabricante afirma que a vida útil média é, no mínimo, de 9.000 horas. Testar esta informação, ao nível de significância de 5%, denominando-a como hipótese nula, e dado que a vida média em uma amostra de n = 15 tubos foi de x = 8800h . H0: µ = ≥ 9000h; H1: µ < 9000h z c (α = 0,05) = −1,65 σ x = σN = 500 = 129,20 15 2 σx = N p −N σ N z= N P −1 x −µ σx = = 6, 60 100 400 −100 400 −1 24 , 57 − 25, 00 0, 57 = 0,57 = −0,75 Portanto não se pode rejeitar afirmação ao nível de significância de 5%. a Testes de significância que envolvem diferenças amostrais: Sejam x1 e x 2 as médias obtidas em duas grandes amostras, de tamanhos N1 e N2, retiradas de populações respectivas que têm as médias µ1 e µ2 e desvios padrões σ1 e σ2. Considere-se a hipótese nula de que não há diferença entre as médias populacionais, isto é, µ1 = µ2, ou de que as amostras são retiradas de duas populações que têm médias iguais. Bioestatística Dr Cláudio S. Sartori Vemos que a distribuição amostral para a diferença das médias é aproximadamente normal, com média e desvio padrão dados por: µ x1−x2 = µ1 − µ 2 ⇒ µ x1−x2 = 0 ; ( µ1 = µ 2 ) σ 12 σ x1− x2 = N1 + σ 22 N2 Exemplo 10 - Determinar a probabilidade de obter-se entre 40 a 60 caras, inclusive, em 100 lances de uma moeda honesta. A média e o desvio padrão dos números de caras, em 100 lances, de acordo com a Distribuição de Bernoulli ou Binomial é dado por: µ = Np : (p:probabilidade de obter-se sucesso em um lançamento) σ = Npq : (q:probabilidade de insucesso em um lançamento (q = 1- p)) Lembre-se que a distribuição de Bernoulli é N! p X qN−X p( X ) = CN , X p X q N − X = X !( N − X )! dada por (X: número de sucessos) : A probabilidade é dada por: ⎛100⎞ 40 60 ⎛100⎞ 41 59 ⎛100⎞ 60 40 P = ⎜⎜ ⎟⎟(12) (12) + ⎜⎜ ⎟⎟(12) (12) +…+ ⎜⎜ ⎟⎟(12) (12) ⎝ 40⎠ ⎝ 41⎠ ⎝ 60⎠ Utilizando o ajustamento da curva normal à distribuição de Bernoulli: FATEC µ = 100.0,5=50 3 e σ = 100.0,5.0,5 = 5 Considerando a escala contínua, o intervalo entre 40 e 60 caras, inclusive, é o mesmo que entre 39,5 e 60,5 caras. Passando para variável reduzida: Z1 = (39,5 - 50)/5 = -2,10 Z2 = (60,5 - 50)/5 = +2,10 A área subebntendida entre a curva normal de z1 a z2 dará a probabilidade: P = 0,9642. Exemplo 11 - Para testar a hipótese de que a moeda é honesta, adota-se a seguinte decisão: (1) Aceita-se a hipótese, se o número de caras em uma única amostra de 100 lances, estiver entre 40 e 60, inclusive. (2) Rejeitá-la, caso contrário. a) Determine a probabilidade de rejeitar a hipótese, quando ela for realmente correta. A probabilidade de não se obter entre 40 e 60 caras, inclusive, é dada por: 1-0,9642 = 0,0358. Então a probabilidade da hipótese ser rejeitada quando ela for correta é de 0,0358=3,58%. b) Interprete a regra de decisão e o resultado do item a). 0.08 0.06 0.04 0.02 Região de Rejeição -3 Região de Rejeição Região de aceitação -2 -1 1 z =-2.10 (39,5 caras) 2 3 z = 2.10 (60,5 caras) Se uma única amostra de 100 lances resultar em um escore z entre -2,10 e 2,10. Aceitar-se-á a hipótese; caso contrário ela será rejeitada e dicidir-se-á que a moeda é viciada. O erro cometido ao rejeitar a 3 hipótese, quando deveria ser aceita, é do Tipo I, e a probabilidade de cometê-lo é igual a 0,0358, conforme o item a). Bioestatística Dr Cláudio S. Sartori c) Que conclusões se poderiam tirar do fato de uma amostra de 100 lances apresentar 53 caras? 60 caras? De acordo com a regra de decisão, deve-se aceitar a hipótese da moeda ser honesta, em ambos os casos. d) Poder-se-ia estar errado nas conclusões do item c? Explicar. Sim. Poder-se-ia aceitar a hipótese quando deveria ser rejeitada, e esse seria o caso, por exemplo, se a probabilidade de caras fosse de 0,7 em vez de 0,5. O erro cometido ao aceitar a hipótese, quando deveria ser rejeitada, é do Tipo II da decisão. Exemplo 12 - Em uma experiência sobre percepção extra-sensorial (P.E.S), um sujeito, em uma sala, é solicitado a declarar a cor vermelha ou preta de uma carta escolhida, de um baralho bem embaralhado de 50 cartas, por outro indivíduo colocado na mesma sala. O sujeito desconhece quantas cartas vermelhas ou pretas há no baralho. Se o sujeito identifica corretamente 32 cartas, determinar se os resultados são significativos, nos níveis de significância de: a) 0,05 b) 0,01 Se p é a probabilidade do sujeito declarar a cor da carta corretamente, enão deve-se decidir entre as hipóteses: H0: p = 0,5 e o sujeito está simplesmente adivinhando. H1: p > 0,5 e o sujeito tem faculdades em P.E.S.. Escolhe-se um teste unilateral, pois não há interesses em obter escores extremamente baixos mas, ao contrário, na de obter escores altos: Média: µ = N p = 50 (0,5) = 25 e Desvio Padrão: σ = Npq ⇒ σ = 3,54 Para x = 32, em unidades reduzidas: z= x−µ σ = 323,−5425 = 1,98 Como z c (α = 0,05) = −1,65 e o z encontrado encontra-se na região crítica, rejeita-se H0, ou seja o indivíduo apresenta P.E.S. Exemplo 13 - O fabricante de uma droga medicinal reivindicou que ela era 90% eficaz em curar uma alergia, em umperíodo de 8 horas. Em uma amostra de 200 pessoas que tinham a alergia, a droga curou 160 pessoas. Determinar se a pretensão do fabricante é legítima p: probabilidade de obter-se a cura da alergia. 2 2 FATEC H0: p = 0,9 ⇒ A pretensão é correta. H1: p < 0,9 ⇒ A pretensão é falsa. Escolhemos um teste unilateral pois não há interesse em determinar se a proporção de pessoas curadas pela droga é muito baixa.. Se o nível de significância é α = 0,01 e z(α) = -2,33 µ = Np =200.0,9 = 180 σ = Npq = 200.0,9.0,1 = 4,23 z = (x - µ) / σ = ( 160 - 180 ) / 4,23 = 4,73 Logo como z < -2,33 conclui-se que a pretensão não é legítima. 0.08 0.06 z = -2,33 0.04 0.02 -3 -2 -1 1 2 3 Exemplo 14 - A vida média de uma amostra de 100 lâmpadas fluorescentes, produzidas por uma companhia, foi calculada em 1570 horas, com o desvio padrão de 120 horas. Se µ é a vidamédia de todas as lâmpadas produzidas pela companhia, testar a hipótese de µ = 1600 horas, em face da hipótese alternativa d de µ ≠ 1600 horas, adotando o nível de significância de: a) α = 0,05 b) α = 0,01 H0: µ = 1600 h; H1: µ ≠ 1600 h Teste tipo bilateral: a) zc (α = 0,05) = ±1,96 σ x = σ = 120 = 12 h; µ x = µ N z= x −µ σx = 100 1570−1600 12 = −2,50 ⇔ Este valor está fora do intervalo (1.96,+1.96) Logo rejeita-se H0 ao bnível de significância de 0,05% b) α = 0,01 Agora o intervalo é zc (α = 0,05) = ± 2,58 ((-2.58,+2.58)) Bioestatística Dr Cláudio S. Sartori Como -2.50 está dentro do intervalo, aceita-se H0 no nível de significância de 0,01. Exercícios: 1. A tensão de ruptura dos cabos produzidos por um fabricante apresenta a média de 1800 kg e o desvio padrão de 100 kg. Mediante nova técnica no processo de fabricação, proclamou-se que a tensão de ruptura pode ter aumentado. Para testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se determinado a tensão média de ruptura de 1850 kg. Pode-se confirmar a declaração no nível de significância de 0,01? 2. Referente ao exemplo 14, testar a hipótese de µ = 1600 h em face da alternativa µ < 1600 h para o nível de significância de : a) 0,05 b) 0,01 3 Uma companhia fabrica cabos cuja tensão de ruptura têm média de 300 kg e desvio padrão de 24 kg. Acredita-se que, mediante um processo recentemente aperfeiçoado, a tensão média de ruptura pode ser aumentada. a) Planejar uma regra de decisão para rejeição do processo anrtigo, ao nível de significância de 0,01, se foi resolvido submeter 64 cabos a ensaio. b) De acordo com a regra de decisão adotada em a), qual é a probabilidade de aceitação do processo antigo, quando, de fato, o novo aumentou a tensão média de ruptura para 310 kg? Considerar que o desvio padrão ainda é 24 kg. 4. Um analista de mercados coleta informações de uma amostra aleatória de 100 clientes, dos 400 que compraram uma oferta especial. As 100 pessoas gastaram uma média de x = $24,57 na loja, com desvio padrão de $ 6,60. Antes de ver esses resultados da amostra, o gerente havia afirmado que a média das compras feitas por aqueles que responderam à oferta especial teria sido de, no mínimo, $ 25,00. Pode-se rejeitar essa afirmação utilizando um nível de significância de 1%? 5. Um fabricante interessado na compra de um novo equipamento para produzir ferramentas especificou que o equipamento não deve exigir, em média, mais do que 10 minutos de manutenção para cada hora de operação. O agente de compras visita uma companhia onde está instalado o equipamento, e, pela informação que recolhe, nota que 40 horas de operação aleatoriamente selecionadas incluem um total de 7 horas e 30 minutos de manutenção, sendo que o desvio padrão do tempo de 3 FATEC 3 manutenção por hora foi de 3,0 minutos. Com base neste reultado amostral, pode-se rejeitar a hipótese de que o equipamento possui as especificações sobre o tempo de manutenção, ao nível de significância de 5 %? Esboce o gráfico da distribiuição normal explicitando as regiões de aceitação e rejeição. 6. Uma cadeia de lanchonetes instalará um novo estabelecimento em um local proposto se passarem pelo local, no mínimo, 200 carros por hora durante certos períodos do dia. Para 20 horas aleatóriamente selecionadas durante tais períodos, o número médio de carros que passarem pelo local foi de x = 208,5 com desvio padrão de 30. Supõe-se que a população estatística seja aproximadamente normal. O gerente da cadeia de lanchonete adota, conservadoramente, a hipótese nula de que o volume de tráfego não satisfaz a exigência, ou seja, H0: µ ≤ 200,0. Pode essa hipótese ser rejeitada a um níveld e significância de 5%? 7. Suponha que os resultados amostrais do problema anterior sejam baseados em uma amostra de n = 50 horas. Pode a hipótese nula ser rejeitada ao nível de significância de 5%? 8. O valor médio das vendas por estabelecimento varejista, durante o último ano de um particular produto, foi de x = $3.425,00 para uma amostra de 25 estabelecimentos. Com base em dados de vendas em outros produtos similares, supõe-se que a distribuição das vendas seja normal e que o valor do desvio padrão da amostra seja de σ = $ 200,00. Suponha que tenha sido afirmado que o verdadeiro valor das vendas no estabelecimento é no mínimo de $ 3.500,00. Testar essa afirmação ao nível de significância de: a) 5% b) 1% 9. Uma amostra de 50 firmas tomadas de uma particular indústria, o número médio de empregados por firma é de 420,5 com desvio padrão amostral de 55,7. Existem ao todo 380 firmas nesta indústria. Antes que os dados fossem coletados, foi feita a hipótese de que o número médio de empregados por firma, nesta indústria, não era superior a 408. Testar a hipótese ao nível de significância de 5%. Dr Cláudio S. Sartori Bioestatística 10. Suponha que o analista do problema anterior ignorasse o uso do fator de correção finita para determinar o valor deo erro padrão da média. Qual teria sido o resultado do teste, ainda usando o nível de significância de 5%? 11. Uma amostra de aleatória de 30 empregados no nível II de Secretariado foi submetido a um teste de datilografia. Os resultados da amostra são: x = 63,0 ppm (palavras por minuto) e σ = 5,0 ppm. Testar a hipótese nula de que as secretárias, em geral, não ultrapassam uma velocidade de datilografia de 60 ppm, usando um nível de significância de 1%. 12. Um analista de departamento de pessoal seleciona aleatoriamente os registros de 16 empregados horistas e acha um salário médio horário de x = $7,50 com um desvio padrão de $ 1,00. Supõe-se que os salários da firma sejam normalmente distribuídos. Testar a hipótese nula H0 : µ = $ 8,00 usando um nível de significância de 10%. 4 FATEC 4 Bioestatística Dr Cláudio S. Sartori Exercícios - Revisão 1. Uma população consta de 4 números: 3, 7, 11 e 15. Considerar todas as amostras possíveis de 2 elementos, que podem ser retiradas com reposição. Determinar: a) A média populacional. b) O desvio padrão da população. c) A média da distribuição amostral das médias. d) O desvio padrão da distribuição amostral das médias. Dados: µx = µ σx = σx = σ N σ N NP − N N p −1 σ N 125 206 154 309 40 78 16 25 3 50 7 6 64 100 81 225 49 144 5 bairro, mostraram uma média de $29400,00 e desvio padrão de $ 6325,00. a) Encontre um intervalo de confiança para a média de 95%, assumindo que há 120 casas no bairro. Faça o gráfico da distribuição gaussiana indicando os valores do intervalo para a média populacional, µ, usando a ( xi −µ )2 − expressão: Y = 1 e 2σ 2 e localize a média i σ 2π amostral nesse gráfico. b) Encontre um intervalo de confiança para a média de 95%, assumindo que há 1000 casas no bairro. Faça o gráfico da distribuição gaussiana indicando os valores do intervalo para a média populacional, µ, usando a ( xi −µ )2 − expressão: Y = 1 e 2σ 2 e localize a média i σ 2π amostral nesse gráfico. Utilize a aproximação de que N < 10%Np. ; N < 10% N P 2. Para cada dado, encontre o intervalo de confiança para a média populacional µ. N se refere ao tamanho da amostra. x FATEC Intervalo de Confiança (%) 95 99 90 95 99 90 6. Testes sonoros feitos em 40 veículos indicaram uma média de 65 decibéis e desvio padrão de 6 decibéis. a) Encontre um intervalo de 90% de confiança para a média. b) Quais são os limites de confiança? 7. Os dados a seguir indicam para alguns dados econômicos para o Brasil. 3. Considere uma simulação feita em um computador em que em uma amostra de 100 elementos de uma população de média 50 e desvio padrão 5. O número de elementos da população é muito maior que o da amostra. Construa o intervalo de confiança de 95%. 4. Um médico quer estimar o tempo médio que um determinado paciente espera para uma consulta. Uma amostra de 50 pacientes mostraram uma média de espera de 23,4 minutos e desvio padrão de 7.1 minutos. Encontre o intervalo de confiança de 95% para a média µ 5. Um acessor de uma determinada cidade deseja estimar o valor médio de casas em um certo bairro. A média previamente conhecida é de $23500,00. Uma amostra randômica de 40 casas no 5 Ano PIB($) (bi) Cresci mento (%) 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 652 659 655 688 728 758 779 804 -4,3 1,0 -0,5 4,9 5,9 4,2 2,8 3,2 Renda per capita ($) 4526 4500 4407 4555 4752 4883 4949 5029 Cresc iment o (%) -5,5 -0,6 -2,1 3,4 4,3 2,8 1,3 1,6 a) Utilizando uma média dos últimos 2 anos, faça uma projeção para o PIB e renda per capita para os anos de 1998 e 1999. b) Determine agora a média e o desvio padrão dos 10 anos. Utilize: Bioestatística Dr Cláudio S. Sartori N µ= ∑ xi i =1 N N σ= ∑ (xi − µ ) 2 i =1 N c) Construa um histograma para o PIB e a renda per capita. Indique os valores das médias. d) Construa a função gaussiana que representa o Pib e a renda per capita. Através dela estime os valores do PIB e renda per capita para os anos de 1998 e 1999. Compare com os valores da tabela. e) Construa um intervalo de confiança de 95% para a média do PIB e a renda per capita. Os valores de 1999 estão dentro dos limites de confiança? 8. Para testar a hipótese de que a moeda é honesta, adota-se a seguinte decisão: (3) Aceita-se a hipótese, se o número de caras em uma única amostra de 100 lances, estiver dentro de um intervalo de confiança de 95%. (4) Rejeitá-la, caso contrário. a) Construa o intervalo de confiança, usando a aproximação normal para a distribuição binomial. b) Determine o número de caras correspondente. b) Que conclusões se poderiam tirar do fato de uma amostra de 100 lances apresentar 53 caras? 60 caras? 20 caras? 78 caras? Dados: µ = Np : (p:probabilidade de obter-se sucesso em um lançamento) σ = Npq : (q:probabilidade de insucesso em um lançamento (q = 1- p)) z= X −µ σ Repita o problema para 99% de confiança. 9. Uma experiência sobre percepção extra-sensorial (P.E.S), um sujeito, em uma sala, é solicitado a declarar a cor vermelha ou preta de uma carta escolhida, de um baralho bem embaralhado de 50 cartas, por outro indivíduo colocado na mesma sala. O sujeito desconhece quantas cartas vermelhas ou pretas há no baralho. Se o sujeito identifica corretamente 32 cartas, determinar se os resultados são significativos, nos níveis de significância de: c) 0,05 d) 0,01 10. Um determinado tipo de plástico possui uma resistência de 27 e um desvio padrão de 15 libras por polegada quadrada ( 1 libra .≈ 0.45 kg ). Um novo 6 FATEC 6 processo será desenvolvido substituindo o antigo, providenciando uma significativa mudança na resistência do plástico. Uma amostra de 40 peças feita com o novo processo dá uma média de 30 libras por polegada quadrada. Assumindo desvio padrão de 6 há suficiente evidência para sugerir que a resistência do produto aumentou a 5% de significância ? 11. Um industrial gostaria que seu produto esteja pronto em pelo menos 700 horas. Ele espera que seu produto não atrase muito nem se adiante muito em relação a 700 horas. Numa amostra de 48 produtos obteve-se média de 675 h e desvio padrão de 77 h. Faça o teste a 1% de significância. 12. Um pediatra mede um parâmetro de recordação relativo a seus 38 pacientes. Ele espera que seu resultado seja menor que a média sempre adotada, de 6.5 dias. Os resultados amostrais obtidos são: 8 7 2 6 9 4 5 3 7 8 10 7 7 6 4 10 3 6 8 2 5 4 4 5 3 8 7 4 6 3 7 12 4 3 6 6 9 4 Usando um nível de significância de 5%, construa o intervalo de confiânça e em seguida faça o teste de hipótese explicitando a hipótese nula e a alternativa. Indique na gaussiana a média amostral. 13. O proprietário de uma empresa de máquinas de copiar utiliza frequentemente, um modelo de máquina denominado DW 140. O proprietário está interessado em decidir nâo utilizar esse modelo caso a média dos trabalhos executados pela máquina exceder 40 min. Ele mediu o tempo de trabalho da máquina para 36 trabalhos: 23 27 28 33 35 37 39 40 40 41 42 42 42 42 43 43 44 44 45 46 46 46 47 47 47 48 49 50 51 52 53 53 56 57 61 62 Use um nível de significância de 5% para decidir se o proprietário utilizará o modelo DW140 para seus trabalhos. 14. Um procedimento de treinamento datilográfico padrão baseia-se em 64 palavras datilografadas por minuto. Um instrutor analisou 38 candidatas a secretária e encontrou os seguintes resultados (palavras por minuto): Bioestatística Dr Cláudio S. Sartori 56 60 60 70 60 59 41 66 67 33 55 43 61 71 73 60 56 77 43 58 65 67 71 56 48 90 82 46 68 36 27 52 64 54 49 69 46 68 Usando uma significância de 5% pode o instrutor afirmar que a este nível a média seja diferente de 64? 15. Há duas medidas de pressão sanguínea utilizadas em exames: a correspondente à sístole, quando o músculo do coração está contraindo e `a diástole, quando o músculo do coração está relaxado. Para adultos jovens, a pressão sístole/diástole vale 120/74 mm de Hg. Essa pressão tende a aumentar com a idade. Para homens de 35-59 anos se encontra a 130/84. Alguns médicos estudaram a pressão sanguínea para alguns (41) atletas em determinada universidade e encontraram uma pressão média (sístole/diástole) de 123/80 mm Hg). Utilizando uma significância de 1% verifique se essa média está na região de aceitação ou rejeição e escreva as hipóteses nula e alternativa: 15.1) Para a pressão correspondente à sístole: a) Comparada com adultos jovens e desvio padrão de 2 mm Hg. b) Comparada com adultos jovens e desvio padrão de 4 mm Hg. c) Comparada com homens de 35 - 59 anos e desvio padrão de 2 mm Hg. d) Comparada com homens de 35 - 59 anos e desvio padrão de 4 mm Hg. 7 FATEC 15.2) Para a pressão correspondente à diástole: Comparada com adultos jovens e desvio padrão de 2 mm Hg. f) Comparada com adultos jovens e desvio padrão de 4 mm Hg. g) Comparada com homens de 35 - 59 anos e desvio padrão de 2 mm Hg. h) Comparada com homens de 35 - 59 anos e desvio padrão de 4 mm Hg. e) Exercícios - Testes de Hipóteses Uma companhia de ônibus 4. avisa que o tempo de viagem entre duas cidades é de 150 min. Um grupo de consumidores reclamou que o tempo médio era maior que 150 minutos, atrassando assim seus compromissos. Uma amostra de 40 viagens mostrou uma média de 153 minutos e um desvio padrão de 7,5 min. Usando um nível de significância de 5%, há evidências suficientes para crer no grupo? H0: µ = 150 min ;Ha: µ > 150 min σ = 7,5 min Como Ha apresenta sinal > o tipo do teste é de "cauda direita". Gráfico de: 1 e 2π 7.5 − ( x −150 ) 2 2⋅( 7 , 5 ) 2 0.4 0.05 0.3 0.04 0.03 0.2 0.02 0.1 0.01 0 120 0 130 140 150 Região de aceitação de H0 160 170 180 Região de rejeição a H0 151.951 Construção do intervalo de confiança: zα=0,05 = 1,645 µ + zC σ N = 150 + 1.645 -4 7.5 = 150 + 1.951 = 151.951 40 7 -2 0 2 Região de aceitação de H0 Região de rejeição a H0 1.645 4 Bioestatística Dr Cláudio S. Sartori Como 153 pertence à regiãod e rejeição, rejeita-se Ho, ou seja, o grupo está certo a um nívelde confiança de 95%. Podemos também utilizar a variável reduzida: z= z= xa − µ σ N µ + zC σ N = 15 + 1.645 2 5.4 = 15 + 0.7637 = 15.7637 50 Decisão: Como 17.3 > 15, rejeita-se H0, ou seja, aceita-se Ha de que µ > 15. ⇒ 153 − 150 = 2.5298 1.1851 Como 2.5298 > 1.645, rejeita-se H0 a um nível de confiança de 95%. 2. Uma psicóloga quer confirmar sua crença que crianças maltratadas teriam elevados níveis de depressão. Ela dá um teste chamado de POMS (Profile of Mood States) parta uma amostra de 50 crianças abusadas. Os resultados mostraram um escore de depressão média de 17.3 e um desvio padrão de 5.4 . A um nível de 5%, pode-se concluir que, as crianças abusadas, têm em geral um nível de depressão maior de 15 (que é a média para estudantes de colégio) ? = 1,645 FATEC 3. O proprietário de uma empresa perfuradora de poços artesianos suspeita que, para um determinado tipo de solo, a profundidade média na qual se encontrava água era inferior a 500 pés. Perfurações realizadas em 32 regiões diferentes mostraram uma média de 486 pés e um desvio padrão de 53 pés. A um nível de significância de 1 %, é justificada a suspeita do proprietário? H0 µ = 500 pés; Ha: µ < 500 pés Como Ha contém <: Teste unilateral cauda esquerda. H0 : µ = 15; Ha µ > 15 Teste unilateral cauda direita. Construção do intervalo de confiança: zα=0,05 Construção do intervalo de confiança: zα=0,01 = 2,33 σ 53 = 500 + ( −2.33) = 500 − 21.830 = 478.16 µ + zC 32 N 0.007 0.006 0.005 0.004 0.003 0.002 0.001 0 300 400 500 Rejeição a H0 600 700 Aceitação a H0 478.16 Gráfico de: 1 e 2π 53 − ( x −500 ) 2 2⋅( 53) 2 Como 486 pertence à região de aceitação, aceita-se H0 a um nível de confiança de 5%, ou seja a média da profundidade de perfuração de poços artesianos é de 500 pés. 2 4. Um determinado tipo de plástico possui uma resistência de 27 e um desvio padrão de 15 libras por polegada quadrada ( 1 libra .≈ Bioestatística Dr Cláudio S. Sartori 0.45 kg ). Um novo processo será desenvolvido substituindo o antigo, providenciando uma significativa mudança na resistência do plástico. Uma amostra de 40 peças feita com o novo processo dá uma média de 30 libras por polegada quadrada. Assumindo desvio padrão de 6 há suficiente evidência para sugerir que a resistência do produto aumentou a 1% de significância ? H0 µ = 27 libras/pol2 ; Ha: µ > 27 pés Como Ha contém >: Teste unilateral cauda direita. Construção do intervalo de confiança: zα=0,01 = 2,33 σ 15 = 27 + 2.33 = 27 + 5.526 = 32.526 µ + zC 40 N Como 30 < 32.526, está na região de aceitação, aceita-se H0 a 1% de significância. Poderíamos resolver também: z= xa − µ σ = N 30 − 27 15 40 = 1.265 Como 1.265 < 2.33 está na região de aceitação, não se rejeita H0. 5. Um industrial gostaria que seu produto esteja pronto em pelo menos 700 horas. Ele espera que seu produto não atrase muito nem se adiante muito em relação a 700 horas. Numa amostra de 48 produtos obteve-se média de 675 h e desvio padrão de 77 h. a) Complete o teste a 5% de significância. b) Qual o tipo de erro de se cometer e com que probabilidade? a) H0 µ = 700 h ; Ha: µ ≠ 700 h zα=0,01 = 1.96 µ ± zC σ N = 700 ± 1.96 77 = 700 ± 21.783 ⇒ 678.216 < µ I < 721.783 48 Como 675 está na região de rejeição, rejeitase H0 a um nível de significância de 5%. b) O erro é do Tipo I com 5% de probabilidade. 2 FATEC 2 Bioestatística Dr Cláudio S. Sartori televisores vendidos eram pequenos, 35 de tamanho médio e 10 grandes. Exercícios de Revisão - Estatística • Distribuições t de Student e Qui Quadrado a) 1. Construir um intervalo de confiança para estimar a vida média útil dos tubos de imagem de TV com base em uma amostra n = 15, desvio padrão e média da amostra, respectivamente iguais a σ = 500 h e µ = 8900 h, respectivamente. 2. Um encarregado de compras em um supermercado toma uma amostra aleatória de 12 latas de ervilha e encontra os seguintes dados: Peso por lata (em 10 gramas) 15,7 15,8 15,9 16,0 16,1 16,2 χ (ν ) Televisores Tela Pequena (< 14) Tela Grande (> 21) b) Calcule o valor de χ2 com base na tabela, através de sua definição: (NE:Número de eventos). NE ( f e − f o )2 i =1 fe χ =∑ 1 2 2 3 3 1 <σ < Tela média (14 – 20) Frequência observada fo em N = 100 Frequência esperada fe Em N = 100 2 c) Verifique as hipóteses a 1 % de significância: H0: A percentagem de todas as compras de televisores das categorias seguem 40%, 40%, 20%. H1: O padrão atual das compras é diferente do padrão histórico apresentado em H0. 3. Para o conjunto de 12 latas do exemplo anterior, encontre, usando a distribuição Qui Quadado, um intervalo de confiança de 95% para o desvio Ns Construa a tabela abaixo. Número de latas Determine: a) O peso líquido médio em cada lata desta amostra e o desvio padrão da amostra. b) Use a distribuição t de Student para construir um intervalo de confiança de 95%. 2 1− α2 3 FATEC Ns χ α2 (ν ) 5. A tabela a seguir ilustra o número de instalações de um sistema de ar-condicionado de acordo com o tipo de sala usado em uma indústria. fo (número observado) fe (número esperado) A 6 10 Tipos de sala B C D 12 14 8 10 10 10 Total 40 40 a) Calcule o valor de χ2 com base na tabela. b) Dada as hipóteses: 2 padrão da população: Com ν = N – 1 4. Historicamente, um fabricante de televisores vende 40% de aparelhos com tela pequena (menos de 14 polegadas), 40 % de aparelhos com telas médias (de 14 a 20 polegadas) e 20 % de aparelhos com telas grandes ( 21 polegadas ou mais). Com o fim de estabelecer programas apropriados de produção para o próximo mês, ele toma uma amostra aleatória de 100 vendas durante o atual período e encontra que 55 3 H0: A quantidade de instalações está igualmente distribuída entre as 4 salas. H1: A quantidade de instalações não está igualmente distribuída nas 4 salas Testar a 5% de significância as hipóteses acima. 6. Um gerente de departamento de pessoal estima que 40% dos empregados de uma grande empresa participará de um novo programa de investimentos em ações. São feitos contatos com uma amostra aleatória de 50 empregados, sendo que 10 deles indicam sua intenção de participar. Bioestatística Dr Cláudio S. Sartori Espera-se, com o emprego da distribuição normal, que 20 funcionários participem do programa. a) Monte a tabela abaixo. Participação do programa Sim Não Total fo fe 20 30 50 b) A uma significância de 5% teste a hipótese inicial de que H0: percentual de participação = 40 % H1: percentual de participação ≠ 40 % Utilize um teste bilateral com a distribuição Qui Quadrado. c) Faça o mesmo teste a 1 % de significância. 7. Um fabricante de refrigeradores oferece três linhas de produtos básicos, que podem ser descritascomo "baixa" , "intermediária" e "alta" em termos comparatuvos de preços. Antes de uma promoção de vendas destinada a destacar as qualidades de refrigeradores de preço alto, as vendas percentuais das três categorias eram, respectivamente, 45, 30, 25. De uma amostra aleatória de 50 refrigeradores vendidos depois da promoção, as quantidades vendidas nas categorias de preço baixa, intermediária e alta foram, respectivamente, 15,15 e 20. Completar a tabela abaixo e testar a hipótese nula de que o atual padrão de vendas não difere do padrão histórico, utilizando um nível de significância de 5%. Ou seja H0: o atual padrão de vendas segue o padrão histórico; H1: o atual padrão de vendas difere do padrão histórico. Categoria s Baixa Interme diária Alta Total fo (quantidade vendida) fe (quantidade que se espera vender) 8. Em um trabalho publicado em 1908, Gosset (Student) discutiu alguns .dados obtidos pelos cientistas A. Cushny e A. Peebles, que estudaram os efeitos de isômeros óticos de hyoscyamine hydrobromide em induzir o sono nas pessoas. Os dados obtidos eram de horas adicionais de sono por 4 FATEC 4 noite em 10 pacientes tratados com hyoscine e são mostrados na tabela abaixo. As drogas promoveriam horas adicionais de sono se a média de sono para todos os pacientes possíveis excedesse 0 (µ > 0). Estabeleceu-se as hipóteses: H0: µ = 0 Ha: µ > 0 Paciente Horas adicionais de sono 1 1.9 2 0.8 3 1.1 4 0.1 5 -0.1 6 4.4 7 5.5 8 1.6 9 4.6 10 3.4 a) Encontre a média e o desvio padrão das horas adicionais de sono por paciente. b) A um nível de significância de 5%, confirme se as drogas promovem o aumento de sono ou não. 9. A associação americana do coração recomenda que um nível de colesterol abaixo de 200 miligramas por 100 mililitros. Mediu-se o nível de colesterol de mulheres com idade inferior a 40 anos escolhidas randomicamente: 233 197 192 179 174 217 186 221 188 209 196 167 238 179 196 191. A um nível de significância de 10 % é razoável supor que mulheres abaixo de 40 anos possuem nível de colesterol abaixo da média 200 ? H0: µ = 200 mg/100ml Ha: µ < 200 mg/100ml 10. Uma companhia de sorvete argumenta que seu produto contém 500 cal por quartil, (1 quartil equivale a 560 ml, aproximadamente). Para comprovar essa hipótese, foram analizados 24 potes de 1 quartil, onde obteve-se uma média de 507 calorias e desvio padrão de 21 calorias. Teste a hipºotese a 2 % de nível de significância utilizando a distribuição t de Student. H0: µ = 500 cal Ha: µ ≠ 500 cal 11. Construa um intervalo de confiança de 95% utilizando a distribuição t de Student Bioestatística Dr Cláudio S. Sartori 5 FATEC para o nível médio de ansiedade de estudantes de colégio, medidos por meio de um questionário, cuja pontuação média para 20 estudantes equivale a 60 pontos com desvio padrão de 7.5 . 12. Uma indústria de produtos eletrônicos utiliza na montagem de um produto, 4 linhas de manufatura para produzir o mesmo produto. Cada linha de produção é teoricamente equivalente, desde que todos tenham a mesma razão de produção de instrumentos necessários até o prazo de garantia do produto. A companhia deseja checar esse processo. A decisão foi tomada em observar os próximos 100 produtos que retornaram defeituosos e determinar quantos chegam a cada linha de montagem. A linha de montagem 1 é usada 2 vezes por dia enquanto as linhas de montagem 2, 3 e 4 são utilizadas uma vez só. Os produtos defeituosos que chegam nas linhas 1,2,3 e 4 são, respectivamente, 53,18,14 e 15. a) Determine as probabilidades com que ocorrem os produtos defeituosos nas linhas de produção. b) Construa a tabela abaixo. Linha de 1 2 3 4 Total produção Frequência observada fo em N = 100 Frequência esperada fe Em N = 100 c) Calcule o valor de χ2 com base na tabela, através de sua definição: (NE:Número de eventos). NE ( f e − f o )2 i =1 fe χ =∑ 2 d) Verifique as hipóteses a 1 % de significância: H0: As linhas de produção seguem as probebilidades encontradas (2/5 para linha 1,1/5 para linha 2,1/5 para linha 3,1/5 para linha 4) para produtos defeituosos. H1: O padrão é maior do apresentado em H0. 13. A tabela a seguir ilustra o número de instalações de ventiladores de acordo com o tipo de sala usado em uma indústria. 5 fo (número observado) fe (número esperado) A 6 5 Tipos de sala B C D 12 12 10 15 5 15 Total 40 40 Calcule o valor de χ2 com base na tabela. d) Dada as hipóteses: c) H0: A quantidade de instalações está igualmente distribuída entre as 4 salas. H1: A quantidade de instalações não está igualmente distribuída nas 4 salas Testar a 5% de significância as hipóteses acima. Adaptados de General Statistics, Warren Chase and Fred Bown, John Wiley & Sons, Inc., Third edition Distribuições t de Student e Qui Quadrado Bioestatística Dr Cláudio S. Sartori Teoria de Pequenas Amostras Notamos anteriormente que para distribuições de amostras com número N > 30, denominadas de grandes amostras, as distribuições eram aproximadamente normais, tornando-se a aproximação melhor com o crescimento de N. Para amostras com N < 30 essa aproximação não e boa piora com o decréscimo de N. Elas são denominadas de pequenas amostras e seu estudo é denominado de teoria de pequenas amostras, onde duas distribuições importantes, a Student t ou t de Student e a qui quadrado serão estudadas. • do qual podem ser calculados x e s. Entretanto, como µ deve ser avaliado, k =1. O parâmetro de normalização pode ser obtido e a distribuição t de student é dada por: f ( x, µ , υ ) = A Distribuição de Student t x−µ sˆ / N Com sˆ = ⎡ ⎛ x − µ ⎞2 ⎤ ⎢ ⎜ ⎟ ⎥ s ⎠ ⎥ ⎛υ ⎞ Γ ⎜ ⎟ πυ ⎢1 + ⎝ ⎢ ⎥ υ ⎝2⎠ ⎢ ⎥ ⎣ ⎦ ⎛ υ +1⎞ Γ⎜ ⎟ ⎝ 2 ⎠ N N −1 s Considerando-se amostras com tamanho N, extraídas de uma população normal (ou aproximadamente normal) de média µ, e, se para amostra , calcular-se o valor de t, por meio da média amostral x e do desvio padrão s, pode-se determinar a distribuição amostral de t. Tal distribuição é dada por: υ +1 2 f ( t ,υ ) = ⎡ t2 ⎤ ⎛υ ⎞ Γ ⎜ ⎟ πυ ⎢1 + ⎥ ⎝2⎠ ⎣ υ⎦ υ +1 2 Aqui, Γ é a função Gamma, definida por: ∞ Γ ( x ) = ∫ t x −1e − t dt Y0 Y= ⎛ υ +1⎞ Γ⎜ ⎟ ⎝ 2 ⎠ Ou, reduzindo a variável: Definimos a estatística : t= 6 FATEC N 0 ⎛ t2 ⎞ 2 ⎜⎜1 + ⎟⎟ N − 1 ⎝ ⎠ ou Y= Y0 ⎛ t2 ⎞ ⎜⎜1 + ⎟⎟ υ⎠ ⎝ (υ +1) 2 Onde ν (letra grega "nu") é denominada de número de graus de liberdade. Note que υ = N −1 O número de graus de liberdade de uma estatística é definido o número N de observações independentes da amostras menos o número k de parâmetros populacionais que devem ser estimados por meio das observações amostrais. Então: υ = N − k . No caso da estatística definida por t, o número de observações independentes da amostra é N, 6 A forma gráfica da distribuição t de Student está mostrada a seguir, para alguns valores do grau de liberdade υ e comparadas com a distribuição normal, pois para grandes valores de N a distribuição t de Student se aproxima com a normal reduzida: 2 1 − t2 Y= e 2π Pequena Bibliografia (http://history.math.csusb.edu/Mathematicians/G osset.html) Bioestatística Dr Cláudio S. Sartori Gosset trabalhou com um grande número de estatísticos, como Fisher, Neyman e Pearson. http://ubmail.ubalt.edu/~harsham/statdata/opre330.htm#rt distributions Γ(ν 2+1 ) 1 Chamamos de yν = Γ(ν2 ) π ⋅ν parâmetro relacionado à normalização de fν (t ) . 0.4 o (n − 2 )!! π ( n −1 ) 2 0.35 0.3 0.25 É importante salientar as propriedades da função gamma: Γ ( n2 ) = 7 FATEC 0.2 0.15 0.1 ⇔ n = 1,3,5 , 0.05 2 Γ(n ) = (n − 1)!⇔ n = 1,2,3,4,5, -4 n !! é chamado de fatorial duplo, e é definido por: ⎧n ⋅ (n − 2) ⋅ (n − 4) ⋅ 5⋅ 3⋅1 se n > 0 ímpar ⎪ n!!= ⎨ n ⋅ (n − 2) ⋅ (n − 4) ⋅ 6 ⋅ 4 ⋅ 2 se n > 0 par. ⎪ 1se n = −1,0. ⎩ -2 0 2 4 Curvas t de Student para υ=4 ,Y0=0.4 , υ=1 Y0=0.35 e υ=2 Y0=0.33 comparadas com a distribuição normal (linha cheia). N-1= 1 N-1= 2 N-1= 3 N-1= 4 N-1= 5 N-1= 6 Distribuição t de Student: Variável reduzida t 0,35 Com essas propriedades é possível encontrar o parâmetro de normalização da distribuição, yυ. 0,3 y ( t) 0,25 William Gosset - 1876 em Canterbury, Inglaterra -16 outubro 1937 em Beaconsfield, Inglaterra. William foi educado em Winchester, onde em Oxford estudou química a matemática. Trabalhou em Dublin onde fez importante trabalho importante em estatística. Em 1905 contatou Karl Pearson foi à Londres estudar no laboratório de Pearson. Neste tempo trabalhou no chamado limite de Poisson, com a distribuição binomial e de amostragem, desvio padrão, e do coeficiente de correlação. Publicou mais tarde três trabalhos importantes que tinha empreendido durante este ano que trabalhou no laboratório de Pearson . É familiarmente conhecido como "estudante" mas não como Gosset. De fato, Gosset escreveu sob pseudônimo de "estudante" que explica porque seu nome não era divulgado em virtude de resultados estatísticos importantes. Inventou o t - teste para segurar amostras pequenas para o controle de qualidade. Descobriu o formulário da distribuição de t por uma combinação do trabalho matemático e empírico com os números aleatórios, uma aplicação adiantada do método de Monte-Carlo. 7 0,2 0,15 0,1 0,05 -3 -2,5 -2 -1,5 -1 -0,5 0 t 0,5 1 1,5 2 2,5 3 A tabela ilustra a área compreendida pela curva da distribuição t de Student, de -∞ a tp : Valores dos percentis t p Distribuição t de Student com ν graus de liberdade (Área sombreada =p) tp Bioestatística Dr Cláudio S. Sartori FATEC 8 ν t 0.995 t 0.99 t 0.975 t 0.95 t 0.9 t 0.8 t 0.75 t 0.7 t 0.6 t 0.55 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 2,58 31,82 6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,48 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 2,33 12,71 4,80 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,04 2,04 2,02 2,00 1,98 1,96 6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1,645 3,08 1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,36 1,36 1,35 1,34 1,34 1,34 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1,28 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674 0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,527 0,526 0,524 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,254 0,254 0,253 0,158 0,142 0,137 0,134 0.132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126 Número de graus de liberdade: υ = N −1 Intervalo de Confiança com um determinado nível de significância α: µ ± t p Bilaterais: t p = ±t1−α ; Unilaterais: t p = t1−α 2 8 s ν Bioestatística Dr Cláudio S. Sartori Intervalos de Confiança da Distribuição tde Student: FATEC 2 confiança desejado e do tamanho da amostra. Também são tirados da tabela anterior. Testes de Hipótese e Confiança: Como na distribuição normal, podem ser definidos intervalos de confiança de 95%, 99% e outros para a distribuição t de Student, com o emprego da tabela anterior. Dessa maneira, a média da população µ pode ser avaliada dentro dos limites de confiança especificados. Por exemplo, -t0,975 e t0,975 são os valores de t, para os quais 2,5% da área ficam localizados em cada extremidade da distribuição t, então o intervalo de confiança de 95% para t é: − t 0,975 < x−µ N − 1 < t 0,975 s Ou seja, verifica-se que a média µ é avaliado para que caia no intervalo: − t 0,975 s N −1 < µ < t 0,975 São estendidos aos problemas que envolvem pequenas amostras. A única diferença é que tratamos ao escore t, com a estatística t de Student. Exemplo 1 - O gráfico da distribuição t de Student está indicado abaixo, para 9 graus de liberdade e Y0 = 1. Determinar os valores de t1 para os quais: a) A área sombreada à direita é igual a 0,05. b) A área sombreada total vale 0,05. c) A área não sombreada total é 0,99. d) A área sombreada à esquerda vale 0,01. e) A área à esquerda de t1 = 0,90. s N −1 Com a confiança de 95% (ou probabilidade de 0,95). t0,975 representa o valor do percentil 97,5, enquanto t0,025 = -t0,975 representa o do percentil 2,5. Em geral, pode-se representar os limites de confiança para as médias populacionais como sendo: µ ± tc s υ Os valores ± tc são chamados críticos ou coeficientes de confiança e dependem do nível de 1 0.8 0.6 0.4 0.2 -4 -2 -t1 a) Área sobreada à direita é 0,05, então a área à esquerda de t1 é 1-0,05=0,95 e t1 representa o percentil 950, e, pela tabela, t0.95 = 1,83. b) Se a área total sombreada é 0,05, por simetria, a área à direita é 0,025. Portanto a área à esquerda de t1 vale 1-0,025 = 0,975. t1 representa o percentil 97,50. Na tabela encontra-se o valor de t0.975=2,26. 2 0 2 4 t1 c) Se a área não sombreada é 0,99, a área total sombreada é 1 - 0,99 = 0,01 e a sombreada à direita é 0,01/2=0,005. Na tabela se determina t0,995=3,25. d) Se a área sombreada à esquerda vale 0,01, por simetria, à direita é 0,01. Na tabela, t0,99=2,82. Portanto o valor crítico de t, para o qual a área sombreada à esquerda é 0,01 é igual a -2,82. Bioestatística Dr Cláudio S. Sartori e) Se a área à esquerda de t1 é 0,90, então t1 corresponde ao 900 percentil; t0,90 = 1,38. Exemplo 2 - Determinar os valores críticos de t para os quais a área da extremidade direita da distribuição t é 0,05, quando o número de graus de liberdade ν for: a) ν = 16 b) ν = 27 c) ν = 200 Os limites de confiança de 95% são dados por: = x ± t 0.975 s N −1 Como N = 10 ⇒ ν = N - 1 = 9; Da tabela encontramos t0.975 = 2,26. Logo: polegad x ± t0.975 Ns −1 = 4, 38 ± 2, 26 0,06 10 −1 s N −1 = x ± t 0.995 s N −1 Como N = 10 ⇒ ν = N - 1 = 9; Da tabela encontramos t0.995 = 3,25. Os limites de confiança serão: s υ s N −1 = 4, 38 ± 3, 25 0,06 10 −1 = 4, 38 ± 0, 0650 Exemplo 5 - Antigamente, certa máquina produzia arruelas que tinham a espessura de 0,05 polegadas. Para se verificar se a máquina está trabalhando adequadamente, escolheu-se uma amostra de 10 arruelas cuja espessura média é 0,053 polegada e cujo desvio padrão é 0,003 polegada. Testar a hipótese de a máquina estar trabalhando adequadamente, adotando os níveis de significância de: a) 0,05. b) 0,01 Deseja-se decidir entre as hipóteses: H0: µ = 0,05, e a máquina está trabalhando adequadamente. H1: µ ≠ 0,05 ela não está. Tipo de teste: Bilateral. Então: t= x−µ s N −1 = 0,053 − 0,05 0, 03 =3 10−1 a) Para α=0,05 Aceitamos H0 quando t estiver compreendido entre -t0.975 e t 0,975. Pela tabela, ν = 9; t0.975=2,26 e o intervalo vai de -2.26 a 2.26. Como t = 3, rejeita-se H0 ao nível de significância de 0,05. b) Se α=0,01, aceitamos H0 quando t estiver compreendido entre -t0.995 e t 0,995 Pela tabela, ν = 9; t0.995= 3,25 e o intervalo vai de -3.25 a 3.25. Logo, como t = 3, aceita-se H0 ao nível de 0,01. Exemplo 6 - Um ensaio de tensões de ruptura de 6 cabos produzidos por uma companhia mostrou que a tensão média de ruptura de 7750 kg e o desvio padrão de 145 kg, as. x ± t0.975 s N −1 O intervalo de confiança de 99% será: (4.315,4.445) polegadas. Exemplo 4 - Uma amostra de 10 medidas de diâmetro de uma esfera apresentou a média de x = 4,38 polegadas e o desvio padrão s = 0,06 polegada. Determinar os limites de confiança de: a) 95% b) 99% para o diâmetro real. s N −1 x ± tc x ± t0.995 Exemplo 3 - Os coeficientes de confiança de 95% (bilateral) para a distribuição normal são dados por ±1,96. Quais serão os coeficientes correspondentes para a distribuição t, quando: a) ν = 9 ? b) ν = 120 ? c) ν = 30 ? d) ν = 60 ? A área total sombreada ( caudas) será de: 1 0,95 = 0,05. A área da extremidade direita é 0,025 e o valor crítico correspondente de t é tc = t0.975. Então os coeficientes de confiança desejados são ± t0.975 Logo: a) ν = 9 ⇒ t0.975 = ± 2,26 b) ν = 120 ⇒ t0.975 = ± 2,09 c) ν = 30 ⇒ t0.975 = ± 2,04 d) ν = 60 ⇒ t0.975 = ± 2,00 x ± tc 2 Pode-se estar 95% confiante de que a média verdadeira está compreendida entre 4,38 0,045 = 4,335 polegadas e 4,38+0,045 = 4,425 polegadas. b) Os limites de confiança de 99 % são: x ± t0.995 Escolhendo-se t0.95 na tabela achamos: a) ν = 16 ⇒ t0.95 = 1,75 b) ν = 27 ⇒ t0.95 = 1,70 c) ν = 200 ⇒ t0.95 = 1,645 a) FATEC = 4, 38 ± 0, 0452 2 Bioestatística Dr Cláudio S. Sartori ao passo que o fabricante declara que aquela tensão média é de 8000 kg. Será verdadeira a declaração do fabricante, aos níveis de significância de: a) 0,05 b) 0,01 Deve-se decidir em: H0: µ = 8000 kg, e a declaração do fabricante é justificada. H1: µ < 8000 kg e ela não o é. Teste tipo unilateral. a) t= x−µ s = N −1 7750 − 8000 145 = −3,86 6−1 Como ν = N - 1 = 6 - 1 = 5 Aceitamos H0 desde que t seja superior a t0.95; para ν = 5 ⇒ t0.95 = -2,02. Caso contrário, rejeitase H0. Como t = -3,86 < t0.95 rejeitamos H0 ao nível de significância de 0.05. b) Aceitaremos H0 desde que t > t0.99 ; para ν = 5 ⇒ t0.99 = -3,36 ; ou seja t > -3,36 Como t = -3,86 < -3,36rejeita-se H0, ou seja, é improvável a declaração do fabricante. Exercícios: A vida média de operação de 10 1. lâmpadas é x = 4000h com o desvio padrão da amostra de s = 200 horas. Supõe-se que o tempo de operação das lâmpadas em geral tenha distribuição aproximadamente normal. Estimar a vida média de operação para a população das lâmpadas da qual foi extraída a amostra, usando um intervalo de confiança da forma: x ± tc s N −1 2. A hipótese nula formulada é de que a média da vida útil de lâmpadas de uma determinada marca, é, no mínimo, de 4200 horas, com desvio padrão amostral de s = 200 horas. A vida útil das lâmpadas segue uma distribuição normal. Teste a hipótese nula a um nível de significância de 5%, usando a distribuição t de Student. 3 Um representante de um grupo comunitário informa, a um investidor interessado em desenvolver um centro comercial, que a renda média familiar na comunidade é no mínimo µ = $ 15000,00. Supõe-se que os valores de renda na população comunitária sejam normalmente distribuídos. Para uma amostra aleatória de n = 15 famílias na comunidade, a média amostral é de x = $14000,00 e o desvio padrão amostral vale s = $ 2000,00. Testar a hipótese nula ao nível de significância de 5%. 4. Como agente de compras de um certo supermercado, suponha que você tome uma amostra aleatória de 12 latas de vagens em conserva na 3 FATEC 3 própria fábrica de enlatados. O peso líquido, em 10 gramas, encontrado em média por lata foi de x = $15,97 , com s = 0,15. Foi afirmado que o preço médio por lata, era de $ 16,00, sempre em unidades de 10 gramas. Pode essa afirmação ser rejeitada a um nível de significância de 10% ? 5. Como agente de compras de um certo supermercado, suponha que você tome uma amostra aleatória de 12 latas de vagens em conserva na própria fábrica de enlatados. O peso líquido, em 10 gramas, encontrado em média por lata foi de x = $15,97 , com s = 0,15. Foi afirmado que o preço médio por lata, era de $ 16,00, sempre em unidades de 10 gramas. Pode essa afirmação ser rejeitada a um nível de significância de 5% ? 6. Para uma distribuição t de Student com 10 graus de liberdade, determine o valor de t1 de modo que: a) A área à direita de t1 seja de 0,01. b) A área à esquerda de t1 seja de 0,95. c) A área à direirata de t1 seja de 0,10. d) A soma das áreas à direita de t1 e à esquerda de -t1 seja de 0,01. e) A área entre -t1 e t1 seja de 0,85. 7. Determinar os valores críticos de t , para oa quais a área da extremidade direita da distribuição será 0,01, se o número de graus de liberdade for: a) ν = 4 b) ν = 12 c) ν = 25 d) ν = 60 e) ν = 160 8. Usando o software Excel da Microsoft, elabore uma planilha para construir os gráficos da distribuição t de Student com os graus de liberdade: a) b) c) d) ν=4 ν=6 ν=8 ν = 16 Utilize Y0 = 1. Bioestatística Dr Cláudio S. Sartori FATEC 4 A distribuição de qui quadrado Definimos a estatística: N χ2 = Ns σ 2 2 = ∑ ( X i − X )2 i =1 σ2 em que χ é a letra grega qui e χ2 é lido como qui quadrado. Considerando-se amostras de tamanho N retiradas de uma população normal, com o desvio σ, e se, para cada amostra, for calculado o valor de χ2, pode-se obter uma distribuição amostral desses valores. Essa distribuição é chamada de qui quadrado, e é dada por: Y = Y0 χ υ −2 e − χ2 2 Aqui: ν = N - 1 é o número de graus de liberdade e Y0 é uma constante dependente de ν, de modo que a área total subentendida pela curva é igual a 1. As distribuições estão mostradas na figura abaixo, para alguns valores de ν. (ν = 2,4,6,8,10) N-1= N-1= N-1= N-1= N-1= N-1= Distribuição Qui-Quadrado 0,55 0,5 1 2 3 4 5 6 0,45 0,4 Y 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 2 4 6 8 10 χ2 12 14 16 18 20 Tabela: Valores dos percentis χ 2p da distribuição de Qui Quadrado com ν graus de liberdade (Área sombreada =p) . Intervalo de confiança para χ2 Como fizemos para as distribuições normal e t de Student, podem ser definidos os limites e intervalos de confiança de 95%, 99% e outros, para χ2, mediante o emprego da tabela a seguir. 0 4 χ 2p χ2 Bioestatística Dr Cláudio S. Sartori ν χ 02,995 χ 02,99 χ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 7,88 10,6 12,8 14,9 16,7 18,3 20,3 22,0 23,6 25,2 26,8 28,3 29,8 31,3 32,8 34,3 35,7 37,2 38,6 40,0 41,4 42,8 44,2 45,6 46,9 48,3 49,6 51,0 52,3 53,7 66,8 79,5 92,0 104,2 116,3 128,3 140,2 6,63 9,21 11,3 13,3 15,1 16,8 18,5 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,2 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47,0 48,3 49,6 50,9 63,7 76,2 88,4 100,4 112,3 124,1 135,5 5,02 7,38 9,35 11,1 12,8 14,4 16,0 17,5 19,0 20,5 21,9 23,3 24,7 26,1 27,5 28,8 30,2 31,5 32,9 34,2 35,5 36,8 38,1 39,4 40,6 41,9 43,2 44,5 45,7 47,0 59,3 71,4 83,3 95,0 106,6 118,1 129,6 2 0 , 975 χ02,95 χ02,90 χ02,75 3,84 5,99 7,81 9,49 11,1 12,6 14,1 15,5 16,9 18,3 19,7 21,0 22,4 23,7 25,0 26,3 27,6 28,9 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9 40,1 41,3 42,6 43,8 55,8 67,5 79,1 90,5 101,9 113,1 124,3 2,71 4,61 6,25 7,78 9,24 10,6 12,0 13,4 14,7 16,0 17,3 18,5 19,8 21,1 22,3 23,5 24,8 26,0 27,2 28,4 29,6 30,8 32,0 33,2 34,4 35,6 36,7 37,9 39,1 40,3 51,8 63,2 74,4 85,5 96,6 107,6 118,5 1,32 2,77 4,11 5,39 6,63 7,84 9,04 10,2 11,4 12,5 13,7 14,8 16,0 17,1 18,2 19,4 20,5 21,6 22,7 23,8 24,9 26,0 27,1 28,2 29,3 30,4 31,5 32,6 33,7 34,8 45,6 56,3 67,0 77,6 88,1 98,6 109,1 5 FATEC 5 χ02,50 χ02,25 χ02,10 χ02,05 χ 02, 025 χ 02,01 χ 0,455 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,3 11,3 12,3 13,3 14,3 15,3 16,3 17,3 18,3 19,3 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28,3 29,3 39,3 49,3 59,3 69,3 79,3 89,3 99,3 0,102 0,575 1,21 1,92 2,67 3,45 4,25 5,07 5,90 6,74 7,58 8,44 9,30 10,2 11,0 11,9 12,8 13,7 14,6 15,5 16,3 17,2 18,1 19,0 19,9 20,8 21,7 22,7 23,6 24,5 33,7 42,9 52,3 61,7 71,1 80,6 90,1 0,0158 0,211 0,584 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,1 10,9 11,7 12,4 13,2 14,0 14,8 15,7 16,5 17,3 18,1 18,9 19,8 20,6 29,1 37,7 46,5 55,3 64,3 73,3 82,4 0,0039 0,103 0,352 0,711 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,1 10,9 11,6 12,3 13,1 13,8 14,6 15,4 16,2 16,9 17,7 18,5 26,5 34,8 43,2 51,7 60,4 69,1 77,9 0,001 0,0506 0,216 0,484 0,831 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,3 11,0 11,7 12,4 13,1 13,8 14,6 15,3 16,0 16,8 24,4 32,4 40,5 48,8 57,2 65,6 74,2 0,0002 0,0201 0,115 0,297 0,554 0,872 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,73 8,26 8,90 9,54 10,2 10,9 11,5 12,2 12,9 13,6 14,3 15,0 22,2 29,7 37,5 45,4 53,5 61,8 70,1 0,000 0,010 0,072 0,207 0,412 0,676 0,989 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 5,70 6,26 6,84 7,43 8,03 8,64 9,26 9,89 10,5 11,2 11,8 12,5 13,1 13,8 20,7 28,0 35,5 43,3 51,2 59,2 67,3 2 0 , 005 Bioestatística Dr Cláudio S. Sartori Exemplo 1 - O gráfico da distribuição qui quadrado com 5 graus de liberdade está representado ao lado: A distribuição de Qui-Quadrado pode ser escrita por: Y (χ 2 )= 1 υ ⎛υ ⎞ 22 Γ ⎜ ⎟ ⎝2⎠ χ υ −2 e − 0.2 χ2 0.175 2 0.15 0.125 0.1 0.075 Pode-se avaliar, dentro dos limites do intervalo de confiança, o desvio padrão populacional σ, expresso em função do desvio padrão amostral s. Ns 2 χ α2 < σ 2 N ⇔s χ 2 1− 2 0 1− N χα 2 χ a) b) c) d) 2 0 , 975 são os σ < χ 02.975 2 χ 02.975 <σ < s N χ 02.025 com o grau de confiança de 95%. Similarmente podemos determinar outros intervalos de confiança. Os valores χ 02.025 e χ 02.975 representam , respectivamente, os valores dos percentis 2,5 e 97,5. A tabela anterior fornece os valores dos percentis correspondentes aos graus de liberdade ν. Para grandes valores de ν (ν ≥ 30), pode-se utilizar o fato de 2 χ − 2υ − 1 ter 2 distribuição aproximadamente normal com média 0 e desvio padrão 1, de modo que podem ser usadas as tabelas da distribuição normal, quando ν ≥ 30. Então, se χ 2p e zp são percentis de ordem p das distribuições qui respectivamente, tem-se: χ 22 A área sombreada à direita = 0,05 A área sombreada total é 0,05 A área sombreada à esquerda é 0,10. A área sombreada à direita = 0,01. a) Se a área sombreada à direita é 0,05, então a área situada à esquerda de (1-0,05)=0,95 e do qual se deduz que σ é estimado para que fique dentro do intervalo : s N 20 que: valores de χ (denominados valores críticos), para os quais 2,5% da área são localizados em cada extremidade da distribuição, o intervalo de confiança de 95% é então: χ 02.025 < 15 Determine os valores críticos de χ2 tais 2 2 Ns 2 10 2 2 2 0 , 025 e 5 χ12 α χ 0.05 0.025 < χ2 α <σ < s Exemplificando, se 6 FATEC quadrado e normal, χ 2p = 12 (z p + 2υ − 1) 2 6 χ 22 χ 22 é representa o 950 percentil, χ 02.95 . Percorrendo a tabela por υ = 5 achamos χ 02,95 = 11,1 b) Como a distribuição é assimétrica, há vários valores críticos para os quais a área total sombreada é igual a 0,05. É costume escolher as duas áreas de valores iguais, 0,025. Se a área sombreada à direita é 0,025, a situada à esquerda de situada = 0,975 e χ χ 22 é (1 - 0,025) 2 0 2 representa o 97,5 percentil, χ 02,975 =12,8 Similarmente, se a área sombreada à χ12 é 0,025, e χ12 representa o 2,50 2 percentil, então χ 0, 025 = 0,831 esquerda de c) Se a área sombreada à esquerda é 0,10, χ12 representa χ 02,1 = 1,61 . o 100 percentil e Bioestatística Dr Cláudio S. Sartori Se a área sombreada à direita é 0,10, d) a área à esquerda de 990 percentil e χ 22 é 0,99 e χ 22 Exemplo 2 Determinar os valores críticos de χ2 para os quais a área da extremidade direita da distribuição de χ2 será de 0.05, quando o número de graus de liberdade, ν for igual a: b) Para 99%, os limites de confiança s N χ 02,95 χ 0.995 encontra-se os valores dos percentis: a) ν = 15 ⇒ 25 b) ν = 21 ⇒ 32.7 c) ν = 50 ⇒ 67.5 Como χ 2 0 , 995 <σ < ν = 32.8; χ = 2 0 , 005 s N χ 0.005 16 - 1 = 15 ⇔ = 4.60 χ 0.995 = 32.8 ⇒ χ 0.995 = 5.73 Exemplo 3 Determinar os valores medianos de χ2 correspondente aos graus de liberdade ν de: χ 0.005 = 4.60 ⇒ χ 0.005 = 2.14 Limites de confiança de 99%: a) 9 b) 28 c) 40 Na coluna 2.4 16 2.4 16 <σ < 5.24 2.50 ⇒ 1.83 < σ < 3.84 serão: a) 15 b) 21 c) 50 Na coluna χ 0.025 = 6.26 ⇒ χ 0.025 = 2.50 representa o χ 02,99 = 15,1. 7 FATEC 2.4 16 2.4 16 <σ < 5.73 2.14 χ 02,50 encontra-se os valores dos percentis: d) ν = 9 ⇒ 8.34 e) ν = 28 ⇒ 27.3 f) ν = 40 ⇒ 39.3 Exemplo 4 O desvio padrão das alturas de 16 estudantes do sexo masculino, escolhidos aleatoriamente em uma escola de 1000 estudantes vale 2.4 cm. Determinar os limites de confiança de: a) 95% b) 99% Do desvio padrão para todos os estudantes do sexo masculino da escola. Os limites de confiança são dados por: s N χ 0.975 <σ < s N χ 0.025 Para N = 16 ⇒ ν = N - 1 = 16 - 1 = 15 Observando a tabela, temos: χ 02,975 = 27.5; χ 02,025 = 6.26 χ 0.975 = 27.5 ⇒ χ 0.975 = 5.24 7 ⇒ 1.68 < σ < 4.49 Portanto, pode-se estar 99% confiante em que o desvio padrão populacional está entre 1.68 e 4.49 cm. Bioestatística Dr Cláudio S. Sartori O teste de Qui Quadrado Os resultados obtidos por meio de amostras, nem sempre coincidem com os teóricos esperados, de acordo com as regras de probabilidade. Exemplificando: teoricamente espera-se obter 50 caras e 50 coroas em 100 lançamentos de uma moeda honesta, mas é raro obter esses resultados na prática. Suponha-se que, em uma determinada amostra, observou-se que um conjunto de eventos possíveis, E1, E2, E3,…, Ek, ocorreram com as freqüências o1, o2, o3,…,ok, denominadas freqüências observadas, , e que, de acordo com as regras de probabilidade, esperar-se-ia que elas ocorressem com as freqüências e1, e2, e3,…,ek, denominadas freqüências esperadas ou teóricas. Evento Freqüência observada Freqüência teórica E1 o1 E2 o2 E3 o3 … … Ek ok e1 e2 e3 … ek Deseja-se, frequentemente, saber se as freqüências observadas diferem de modo significativo, das freqüências esperadas. No caso de serem possíveis somente dois eventos E1 e E2, o que é denominado às vezes de classificação dicotômica ou dicotomia, como, por exemplo, caras e coroas, parafusos defeituosos ou não, etc., o problema é resolvido satisfatoriamente como descrevemos anteriormente. Vamos agora considerar o caso geral. Definição de χ2: Uma medida da discrepância existente entre as freqüências observadas e esperadas é proporcionada pela estatística de χ2, expressa por: χ = 2 ( o1 −e1 ) 2 e1 + ( o2 −e2 ) 2 e2 k χ =∑ 2 j =1 (f + oj ( o3 −e3 )2 e3 − fe j ) +…+ Testes de significância: Na prática, as freqüências esperadas são calculadas com base em uma hipótese H0. Se, para essa hipótese, o valor de χ2 calculado pela equação dada for maior que alguns valores críticos, tais como χ 02.95 fe j χ2 − χ ν −2 e 2 O número de graus de liberdade ν é dado por: • υ=k-1 Quando as freqüências esperadas puderem ser calculadas, sem que se façam estimativas dos 8 e χ 02.99 , que são os valores críticos nos níveis de significância 0.05 e 0.01, respectivamente, concluir-se-á que as freqüências observadas diferem, de modo significativo, das esperadas, e rejeitar-se-á H0 ao nível de significância dado. Caso contrário, aceitar-se-á H0, ou pelo menos, não a rejeitar. Esse processo é denominado teste de qui quadrado da hipótese ou significância. Encaramos com suspeita quando χ2 próximo de 0, pois em geral é raro que as freqüências observadas concordem com as esperadas. A tabela anterior, na quais as freqüências observadas figuram numa linha única, é denominada de tabela de simples entrada. Quando as freqüências observadas ocupam h linhas e k colunas, ou seja, uma tabela dupla de entrada h x k denominamos de tabelas de contingência. A freqüência total de cada linha ou coluna é denominada de freqüência marginal. Para verificar a concordância entre as freqüências observadas e esperadas:, calcula-se a estatística: k χ2 = ∑ j =1 2 8 parâmetros populacionais, a partir de estatísticas amostrais. • υ = k - 1 -m Quando as freqüências esperadas somente podem ser calculadas mediante a estimativa de m parâmetros populacionais, a partir de estatísticas amostrais. ( ok −ek ) 2 ek A distribuição amostral de χ2 pode ser aproximada por: Y = Y0 FATEC (f oj − fe j ) 2 fe j Considera-se a soma de todas as casas da tabela de contingência de ordem j. Essa soma contém kh termos. A soma de todas as freqüências observadas é igual a soma de todas as freqüências esperadas e vale N. O número de graus de liberdade dessa distribuição qui quadrado, para k > 1 e h > 1 é dado por: • υ = (h - 1)(k - 1) Quando as freqüências esperadas puderem ser calculadas, sem que se façam estimativas dos parâmetros populacionais, a partir de estatísticas amostrais. Bioestatística Dr Cláudio S. Sartori • υ = (h - 1)(k - 1) -m Quando as freqüências esperadas somente podem ser calculadas mediante a estimativa de m parâmetros populacionais, a partir de estatísticas amostrais. k χ =∑ 2 (o − ej ) j χ =∑ (o − ej ) 2 =∑ ej j =1 k 2 (o j − ej ) ej j =1 χ =∑ j χ2 = ( 2 = 2 =( 115−100) 100 2 +( 85−100 ) 100 j =1 a) O valor crítico χ 02.95 2 para 1 grau de liberdade vale 3.84. Como 4.50 > 3.84, rejeitar-se-á a hipótese ser honesta, no nível de significância 0.05 b) O valor crítico χ 02.99 (o j para 1 grau de − ej ) 2 ej j =1 = 4.50 ej O número de classes é k = 2. Então: ν=k-1=2-1=1 2 k 2 Exemplo 1 - Em 200 lances de uma moeda, observaram 115 caras e 85 coroas. Testar a hipótese da moeda ser honesta, adotadas os níveis de significância: a) 0.05 b) 0.01 As freqüências observadas de caras e coroas são, respectivamente: o1 = 115 e o2 = 85. As freqüências esperadas de caras e coroas são 100 e 100 Então: 9 FATEC 315−312.75) 312.75 2 4 =∑ (o − ej ) j ej j =1 +( 108−104.25) 104.25 a) para ν 2 2 +( 101−104.25) 104.25 = 2 +( 32−34.75) 34.75 2 = 0.47 = 3; χ 02.99 = 11.3 ⇒ Não se pode rejeitar a teoria no nível de significância 0.01. b) para ν = 3; χ 02.95 = 7.81 ⇒ Não se pode rejeitar a teoria no nível de significância 0.05. Exemplo 3 - Numa urna há grande número de bolas de gude de quatro cores distintas: vermelha, laranja, amarela e verde. Uma amostra de 12 bolas, retiradas da urna ao acaso, revelou 2 vermelhas, 5 laranjas, 4 amarelas e 1 verde. Testar a hipótese da urna conter proporções iguais das bolas de gude de cores diferentes. Para conter proporções iguais, seria esperado 3 bolas de cada cor. Como esses números esperados são menores que 5, a aproximação qui-quadrado estaria incorreta. Assim consideramos as catagorias amarela ou verde; laranja ou vermelha: liberdade vale 6.33. Como 4.50 < 6.33, rejeitar-se-á a hipótese ser honesta, no nível de significância 0.01. χ =∑ Exemplo 2 - Nas estatísticas de Mendel realizadas com ervilhas, ele observou 315 redondas e amarelas, 108 redondas e verdes, 101 enrugadas e amarelas e 32 enrugadas e verdes. De acordo com a teoria de hereditariedade, os números deveriam estar na proporção 9:3:3:1. Há alguma evidência para se duvidar de sua teoria, nos níveis de significância: χ2 = ( 2 k (o − ej ) 2 2 =∑ ej j =1 3− 6 ) 6 j 2 +( j =1 9−6 ) 6 2 (o j − ej ) ej 2 = =3 Para υ= 2 - 1 = 1 ν = 2; χ 02.95 = 3.84 ⇒ Não se pode rejeitar a hipótese no nível de significância de 0.05. a) 0.01 ? b) 0.05? Exemplo 4 - Em 360 lances de um par de dados obtiveram-se 74 “setes” e 24 “onzes”. Adotado o nível de significância 0.05, testar a hipótese de o dado ser honesto. Um par de dados pode cair de 36 maneiras. Um sete pode ocorrer de seis maneiras e um onze de 2 maneiras. Então: Pr{" 7"}=1/6 e : Pr{" 11"}=2/36=1/18 Em 360 lances esperar-se-ia: 360 (1/6) = 60 " setes" e 360 (1/18) = 20 " onzes". Assim: O número total de ervilhas é: 315+108+101+32 = 556. Os números esperados estão na proporção 9:3:3:1 (9+3+3+1=16) (9/16)556=312.75 redondas e amarelas. (3/16)556=104.25 enrugadas e amarelas. (3/16)556=104.25 redondas e verdes. (1/16)556=34.75 enrugadas e verdes. Então: 9 Bioestatística Dr Cláudio S. Sartori k χ =∑ 2 (o j − ej ) χ2 = ( ; Comoν 74 − 60 ) 60 2 2 = ej j =1 +( 24 − 20 ) 20 2 Exercícios = 4.07 = 2; χ 02.95 = 3.84 ⇒ rejeita-se a hipótese no nível de significância de 0.05 do dado ser honesto. Exemplo 5 - O recenseamento de 320 famílias com cinco crianças revelou a distribuição apresentada na tabela abaixo. Esse resultado é compatível com a hipótese dos nascimentos de homens e mulheres igualmente prováveis? Tipo 5 meninos 0 meninas 4 meninos 1 meninas 3 meninos 2 meninas 2 meninos 3 meninas 1 meninos 4 meninas 0 meninos 5 meninas Total Número De famílias 18 pe(X) 5 p 10 FATEC fei 5p4 q =5/32 110 10p3 q2=10/32 88 10p2 q5=10/32 40 5p q4=5/32 8 q5=1/32 Número de Caras X 0 1 2 3 4 5 Pr {X} fe fo 0.0332 0.1619 0.3162 0.3087 0.1507 0.0294 33.2 161.9 316.2 308.7 150.7 29.4 38 144 342 287 164 25 2. Dois grupos, A e B, são formados, cada um de 100 pessoas que têm a mesma enfermidade. É ministrado um soro ao grupo A, mas não ao B (denominado grupo de controle), a todos os outros respeitos, os dois grupos são tratados de modo idêntico. Determinou-se que 75 e 65 pessoas dos grupos A e B, respectivamente, curaram-se da enfermidade. Testar a hipótese do soro auxiliar a cura da enfermidade, mediante o teste qui quadrado, adotando o nível de significância: a) α = 0.01 b) α = 0.05 c) α = 0.10 = 1/32 56 1. Usar o teste de chi quadrado quando lançamos 5 moedas 100 vezes. A tabela mostra em cada lance o número de caras, a frequência esperada e medida. 320 Freqüências observadas: Seja p a probabilidade do nascimento de 1 homem. q =1 - p a de uma mulher. Dado o desenvolvimento binomial: 5⎞ 5−i i 5 4 3 2 2 3 4 5 ⎟⎟p q = p + 5 p q +10p q +10p q + 5 pq + q i=0 ⎝ i ⎠ ( p + q)5 = ∑⎛⎜⎜ 5 Os valores esperados (freqüências esperadas) para famílias com 5,4,3,2,1 e 0 meninos são obtidos, respectivamente, multiplicando-se as probabilidade por 320: Assim: k χ2 = ∑ (o j − ej ) 18−10) 10 2 +( 56−50) 50 5 =∑ ej j =1 χ2 = ( 2 2 +( 110−100) 100 (o j j =1 2 +( 88−100) 100 − ej ) ej 2 +( Grupo A (Usando o soro) Grupo B (Não usando o soro) Total Curados Não curados Total 75 25 100 65 35 100 140 60 200 Freqüências esperadas: Curados Não curados Total 70 30 100 70 30 100 140 60 200 2 = 40−50) 50 2 +( 8−10) 10 2 = 12 ν = 6 − 1 = 5; χ 02.95 = 11.1; χ 02.99 = 15.1 ⇒ pode-se rejeitar a hipótese no nível de significância de 0.05 mas não de 0.01. 10 Grupo A (Usando o soro) Grupo B (Não usando o soro) Total Bioestatística Dr Cláudio S. Sartori Na tabela estão indicadas os números 3. de estudantes aprovados e reprovados por 3 instrutores:Sr. X, Sr. Y e Sr. Z . Testar a hipótese das proporções dos estudantes reprovados pelos 3 instrutores serem iguais. Freqüências observadas: Sr. X Sr. Y Sr. Z Total 50 5 55 47 14 61 56 8 64 153 27 180 Aprovados Reprovados Total Sr. X Sr. Y Sr. Z Total 46.75 54.4 153 Reprovados Total 8.25 55 51.8 5 9.15 61 9.6 64 27 180 4. Para cada um dos itens abaixo, encontre: i) t 0.005 ii) t 0.01 iii) t 0.025 iv) t 0.05 v) t 0.1 a) Assumindo uma distribuição t de Student com ν = 7 graus de liberdade. b) Assumindo uma distribuição t de Student com ν = 12 graus de liberdade. c) Assumindo uma distribuição t de Student com ν = 25 graus de liberdade. 5. 11 criança por ano. Para verificar essa hipótese, ele pesquisou uma amostra de 20 famílias e encontrou uma média de R$ 620,00 e desvio padrão s = R$ 30,00. Assumindo α = 0.05 teste sua hipótese. 7. A média gasta por ano em um departamento de uma determinada loja de roupa, relativa à compra de retalhos, vale R$ 30,00. O departamento quer substituir os retalhos por um novo produto e estima-se que uma amostra de 25 peças custaria uma média de R$ 34,25 e desvio padrão s = R$5,48. Faça o teste de hipótese para a média utilizando a distribuição t de Student. Freqüências esperadas: Aprovados FATEC Para cada item abaixo, resolva o teste de hipótese assumindo: a) Que a média populacional µ > 16 e N = 14; α = 0.01; x =18; s =4 b) Que a média populacional µ < 27 e N = 9; α = 0.05; x =23; s =7 8. Recentes estudos mostram que para um funcionário terminar determinado trabalho leva em média 160 minutos. Um novo método de aprimoração aplicada em uma amostra de 11 funcionários revelou uma média de 145 minutos e desvio padrão 9.47 minutos. Estabelecer o teste de hipótese para a distribuição t de Student usando uma significância de 5%. 9. Uma bateria alcalina para radio stereo FM-AM dura pelo menos 30 horas, na média. Consumidores suspeitaram que o tempo de duração era inferior a 30 horas, pois analisaram uma amostra de 38 baterias e obtiveram uma média de 29.3 horas e desvio padrão de 2.95 horas. É coerente a suspeita dos consumidores a 5% de significância? 10. O proprietário de uma clínica dentária suspeita que o tempo médio de atendimento em uma clínica dentária ultrapassa 40 minutos. Analisando uma amostra de 18 pacientes, constatou um tempo médio de espera de 43.50 minutos e desvio padrão de 10.62 minutos. É consistente a suspeita do proprietário, a 5% de significância? 11. Um médico suspeita que fumantes entre 40-45 anos portadores de bronquite crônica haviam fumado na média por mais de 20 anos. Umas amostras de 10 pacientes deram os seguintes tempos, em anos, pelos fumantes: c) Que a média populacional µ ≠ 30 e N = 6; α = 0.01; x =25; s =4 d) Que a média populacional µ > 125 e N = 40; α = 0.05; x =128; s =18 22 21 19 25 24 26 23 21 23 22 e) Que a média populacional µ < 50 e N = 8; α = 0.1; x =70; s =16 6. O diretor de uma universidade sabe que famílias com renda acima de R$ 3.000,00 contribuem com uma média de R$ 600,00 na educação de uma 11 Usando 1% de significância, há suficiente evidência para justificar a hipótese do médico? Dr Cláudio S. Sartori Bioestatística 12 FATEC 12