Estatística II – Antonio Roque – Aula 3 Distribuição Amostral da Média: Exemplos Talvez a aplicação mais simples da distribuição amostral da média seja o cálculo da probabilidade de uma amostra ter média dentro de certa faixa de valores. Vamos ver alguns exemplos. 1. Suponha que se saiba que para uma grande população de pessoas o comprimento craniano seja distribuído de uma forma aproximadamente normal com média igual a 185,6 mm e desvio padrão igual a 12,7 mm. Qual a probabilidade de que uma amostra aleatória de 10 pessoas da população tenha comprimento craniano médio acima de 190 mm? A amostra de 10 pessoas é uma das várias possíveis amostras de tamanho 10 da população, e sua média x é um dos valores que constituem a distribuição amostral de médias. Sabemos que, como a variável x (comprimento craniano) da população obedece a uma distribuição aproximadamente normal, sua distribuição amostral de médias também terá uma distribuição normal. E também sabemos, pelo T.C.L., que a média da distribuição amostral de médias é igual a µ x = µ = 185,6 mm e que seu desvio padrão é igual a σ x = σ n = 12,7 mm 10 = 4,02 mm . (Estamos assumindo que a população é muito maior que a amostra, de maneira que n/N << 0,05). Logo, a distribuição amostral de x é algo como a mostrada na figura a seguir: 1 Estatística II – Antonio Roque – Aula 3 Como a distribuição de x é normal, podemos calcular a probabilidade de termos um valor acima de 190 mm transformando-a em uma distribuição normal padrão. A probabilidade de que uma amostra de 10 pessoas tenha média do comprimento craniano maior que 190 mm é dada pela área hachureada abaixo do gráfico da distribuição normal padrão, como mostrado na figura abaixo. 2 Estatística II – Antonio Roque – Aula 3 Para este caso, a fórmula que transforma a distribuição normal das médias na distribuição normal padrão é: Z= x − µx x−µ = , σx σ n de maneira que x =190 é levado em: Z∗ = 190 − 185,6 4,4 = = 1,09 . 4,02 4,02 Consultando a tabela da distribuição normal padrão, dada a seguir, vemos que a área à direita de 1,09 vale 0,5 – 0,36214 = 0,1379. Portanto, a probabilidade de que uma amostra de 10 pessoas tenha comprimento craniano médio maior que 190 mm é igual a 0,1379 (ou 13,79% de chances de se obter uma amostra de 10 pessoas da população cujo valor médio do comprimento craniano seja maior que 190 mm). 3 Estatística II – Antonio Roque – Aula 3 Distribuição normal reduzida: N (µ = 0 : σ = 1) Probabilidades p tais que p = P (0 < Z < Z c ) Parte inteira e Parte SEGUNDA DECIMAL DE Z c interira e 1ª decimal 1ª decimal de Z c 0 1 2 3 4 5 6 7 8 9 de Z c 0,0 00000 00399 00798 01197 01595 01994 02392 02790 03188 03580 0,0 0,1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07536 0,1 0,2 07926 08317 08706 09095 09483 09871 10257 10642 11026 11409 0,2 0,3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 0,3 0,4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 0,4 0,5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 0,5 0,6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 0,6 0,7 25804 26115 26424 26730 27036 27337 27637 27935 28230 28524 0,7 0,8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 0,8 0,9 31594 31859 32121 32381 32639 32804 33147 33398 33646 33891 0,9 1,0 34134 34375 34614 34850 35083 35314 35543 35769 35993 36214 1,0 1,1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 1,1 1,2 38493 38686 38877 39065 39251 39436 39617 39796 39973 40147 1,2 1,3 40320 40490 40658 40824 40988 41149 41309 41466 41621 41774 1,3 1,4 41924 42073 42220 42364 42507 42647 42786 42922 43056 43189 1,4 1,5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 1,5 1,6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 1,6 1,7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 1,7 1,8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 1,8 1,9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 1,9 2,0 47725 47778 47831 47882 47937 47982 48030 48077 48124 48169 2,0 2,1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 2,1 2,2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 2,2 2,3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 2,3 2,4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 2,4 2,5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 2,5 2,6 49534 49547 49560 49573 49585 49598 49600 49621 49632 49643 2,6 2,7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 2,7 2,8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 2,8 2,9 49813 49819 49825 49831 49836 49841 49846 49851 49856 49861 2,9 3,0 49865 49869 49874 49878 49887 49886 49889 49893 49897 49900 3,0 3,1 49903 49906 49910 49913 49916 49918 49921 49924 49926 49929 3,1 3,2 49931 49934 49936 49938 49940 49942 49944 49946 49948 49950 3,2 3,3 49952 49953 49955 49957 49958 49960 49961 49962 49964 49965 3,3 3,4 49966 49968 49969 49970 49971 49972 49973 49974 49975 49976 3,4 3,5 49977 49978 49978 49979 49980 49981 49981 49982 49983 49983 3,5 3,6 49984 49985 49985 49986 49986 49987 49987 49988 49988 49989 3,6 4 Estatística II – Antonio Roque – Aula 3 3,7 49989 49990 49990 49990 49991 49991 49992 49992 49992 49992 3,7 3,8 49993 49993 49993 49994 49994 49994 49994 49995 49995 49995 3,8 3,9 49995 49995 49996 49996 49996 49996 49996 49996 49997 49997 3,9 4,0 49997 49997 49997 49997 49997 49997 49998 49998 49998 49998 4,0 4,5 49999 50000 50000 50000 50000 50000 50000 50000 50000 50000 4,5 Parte inteira e Parte SEGUNDA E TERCEIRA DECIMAIS DE Z c interira e 1ª decimal 1ª decimal de Z c 05 15 25 35 45 55 65 75 85 95 de Z c 0,0 00199 00598 09997 01396 01735 02193 02591 02989 03387 03784 0,0 0,1 04181 04578 04974 05369 05764 06159 06553 06946 07339 07730 0,1 0,2 08121 08512 08901 09290 09677 10064 10450 10834 11218 11600 0,2 0,3 11982 12362 12741 13119 13495 13871 14244 14617 14988 15358 0,3 0,4 15726 16093 16458 16822 17184 17545 17903 18261 18500 18970 0,4 0,5 19322 19677 20021 20368 20712 21055 21396 21735 22073 22408 0,5 0,6 22741 23072 23401 23729 24054 24377 24697 25016 25333 25647 0,6 0,7 25959 26270 26577 26886 27186 27488 27786 28083 28377 28669 0,7 0,8 28959 29246 29531 29814 30094 30371 30648 30921 31192 31461 0,8 0,9 31727 31990 32252 32511 32767 33021 33273 33522 33769 34013 0,9 2. Um levantamento feito em vários supermercados do país revelou que o valor médio do preço do vidro de 500 ml de azeite importado é R$ 24,5 com um desvio padrão de R$ 5,45. Seleciona-se uma amostra aleatória de 50 vidros de azeite importado de 500 ml retirados de diferentes supermercados. Qual a probabilidade de que o preço médio dessa amostra esteja entre R$ 18,00 e R$ 25,00? Não foi dito qual a forma funcional da distribuição dos preços do vidro de 500 ml de azeite importado, mas como a amostra selecionada é grande (n = 50 > 30), podemos usar o T.C.L. e supor que a distribuição amostral de x será aproximadamente normal com média µ x = 24,5 e desvio padrão σ x = 5,45 / 50 = 0,77 . Portanto: 5 Estatística II – Antonio Roque – Aula 3 25 − 24,5 18 − 24,5 P (18 ≤ x ≤ 25) = P ≤Z ≤ = P (− 8,44 ≤ Z ≤ 0,65) = 0 , 77 0 , 77 = 0,5 + 0,24215 = 0,74215 (74,2%) E qual a probabilidade de que uma amostra de 50 vidros de 500 ml de azeite importado escolhidos aleatoriamente de supermercados tenha preço médio abaixo de R$ 26,00? 26 − 24,5 P(x < 25) = P Z < = P (Z < 1,95) = 0,5 + 0,47441 = 0,97441 0,77 (97,4%). Note que, para todos os efeitos, para z > 4,5 a área da curva normal padrão entre 0 e z é igual a 0,5000. 6 Estatística II – Antonio Roque – Aula 3 Distribuição da diferença entre duas médias amostrais Há muitas situações importantes em que se está interessado em estudar duas populações ao invés de uma. Uma coisa que, em geral, se quer saber quando se estuda duas populações é como as médias da duas populações se comparam: são elas iguais ou diferentes? Se são diferentes, qual o tamanho da diferença entre elas? Um exemplo seria comparar os valores médios da taxa de colesterol de duas populações, uma de trabalhadores de escritório sedentários e outra de trabalhadores agrícolas, para ver se há alguma diferença entre eles. Em situações deste tipo, o resultado teórico usado (dado aqui sem prova) – análogo ao T.C.L. – para uma população, é: Sejam duas populações de variáveis cujas distribuições são normais com 2 2 médias µ 1 e µ 2 e variâncias σ 1 e σ 2 , respectivamente. A distribuição amostral da diferença entre as médias de duas amostras independentes de tamanhos n1 e n2 das populações, x1 − x 2 , é normal com média µ x1 − x 2 = µ 1 − µ 2 e variância σ x2 − x = (σ 12 n1 ) + (σ 22 n2 ). 1 2 Quando as variáveis das duas populações não forem normalmente distribuídas ou tiverem distribuições desconhecidas, o resultado acima continua válido para amostras n1 e n2 de tamanho grande (acima de 30). 7 Estatística II – Antonio Roque – Aula 3 Antes de ilustrar aplicações deste resultado com exemplos, vamos mostrar como se constrói uma distribuição amostral da diferença entre as médias de duas populações. Suponhamos que a população 1 tenha N1 elementos e que sejam tomadas amostras de tamanho n1 dela e que a população 2 tenha N 2 elementos e que sejam tomadas amostras de tamanho n 2 dela. Suponhamos que as amostras sejam tomadas sem reposição, ou seja, os indivíduos retirados da população não são recolocados nela. Quando se tiram amostras de tamanho n de uma população de tamanho N sem reposição e ignorando-se a ordem N da retirada, o número possível de amostras é dado por Cn = N! . n!( N − n )! Então, para a população 1 podemos ter CnN possíveis amostras de tamanho 1 1 n1 diferentes e para a população 2 podemos ter C nN possíveis amostras de 2 2 tamanho n 2 diferentes. Cada uma dessas amostras tem um valor médio, x11 , x12 ,..., x1C N1 para a população 1 e x21 , x22 ,..., x 2C N 2 para a população 2. n 1 n2 Os valores das médias para as amostras possíveis estão indicados na tabela abaixo. 8 Estatística II – Antonio Roque – Aula 3 Amostras da Amostras da Médias das Médias das população 1 população 2 amostras da amostras da C nN 1 1 C nN 2 população 1 população 2 n11 n21 x11 x21 n12 n22 x12 x22 n13 n23 x13 x23 ... ... ... ... n 2 n N 1 1C n 1 x N2 2 x2 C N 2 N 1 1 Cn 1 2C n n2 Nota: n11 lê-se amostra nº 1 da população 1, n12 = amostra nº 2 da população 1, n23 = amostra nº 3 da população 2, n2 C N2 n2 = amostra nº CnN2 2 da população 2, etc... Os valores das diferenças entre as médias das amostras das duas populações são: x11 − x21 x11 − x22 ... x11 − x 2C N 2 x12 − x21 x12 − x 22 ... x12 − x 2C N 2 ... ... ... ... x1C N1 − x 21 x1C N1 − x 22 ... x1C N1 − x 2C N 2 n1 n1 n2 n2 n1 n2 9 Estatística II – Antonio Roque – Aula 3 Exemplo Ilustrativo 1. Suponhamos que temos duas populações de indivíduos, a população 1 e a população 2. A população 1 é composta por clientes de uma agência de um banco na região central de uma cidade e a população 2 é composta por clientes de uma agência do mesmo banco em um bairro periférico da cidade. Um executivo do banco está desconfiado de que as duas populações de clientes possuem gastos mensais médios com cartão de crédito diferentes, sendo que os clientes da agência central gastam mais que os clientes da agência periférica. O executivo não conhece as distribuições de gastos mensais com cartão de crédito dos clientes das duas agências, mas ele tem boas razões para assumir que elas são aproximadamente normais com desvios padrões idênticos e iguais a R$ 450,00. O executivo toma duas amostras aleatórias de 15 clientes, uma de cada população, e calcula as médias mensais de gastos com cartão de crédito para as duas amostras, obtendo: x1 = 1050 reais e x2 = 920 reais. A diferença entre as médias de gastos mensais com cartão de crédito das duas amostras é de x1 − x2 = 1050 − 920 = 130 reais. Se não houver diferença entre as duas populações quanto aos seus gastos mensais médios com cartão de crédito, qual seria a probabilidade de que a diferença ( x1 − x 2 ) entre as médias de duas amostras aleatórias de 15 clientes retirados das duas populações seja maior que R$ 130,00? Ou seja, P[( x1 − x 2 ) ≥ 130] ? 10 Estatística II – Antonio Roque – Aula 3 Como as distribuições dos gastos mensais com cartão de crédito das duas populações são aproximadamente normais, a distribuição das diferenças entre as médias de suas amostras também será normal. Supondo que não há diferença entre as duas populações, a média da distribuição amostral da diferença entre as médias será igual a µ x − x = µ1 − µ 2 = 0 e a variância será 1 σ 12 σ 22 (450) (450) = 27000. = + = + n1 n 2 15 15 2 igual a σ 2 x1 − x2 2 2 Para uma distribuição normal com estes parâmetros (µ = 0 e σ2 = 27000), a probabilidade de que um valor seja maior ou igual a 130 é obtida calculando-se: P[( x1 − x2 ) ≥ 130] = P (Z ≥ Z130 ) , onde Z130 = 130 − 0 130 = = 0,79 . 27000 164,32 Consultando a tabela, vemos que P (Z ≥ 0,79 ) = 0,2148 . Portanto, a resposta à pergunta é que se não houver diferença entre as médias das duas populações, a probabilidade de obtermos, ao acaso, uma diferença entre médias amostrais maior ou igual a R$ 130,00 vale 0,2148 (≈21,5%). Esta probabilidade não é tão baixa para sugerir que a hipótese inicial sobre a igualdade das duas populações esteja errada. Desta forma, o executivo não pode concluir, com base nos dados de suas amostras, que existe de fato uma diferença quanto aos gastos mensais com cartão de crédito entre as duas populações de clientes. 11 Estatística II – Antonio Roque – Aula 3 2. Suponha que se saiba que para bebês de até um mês de vida o ganho de peso médio quando alimentados com uma dieta suplementar é de 311,9 g com desvio padrão de 142,8 g e o ganho de peso sem a dieta suplementar é de 212,4 g com desvio padrão de 160,3 g. Selecionam-se aleatoriamente 35 bebês alimentados com dieta suplementar e 40 bebês alimentados sem dieta suplementar. Qual a probabilidade de que a diferença entre as médias de ganho de peso para as duas amostras seja maior que 100 g?. Nada se sabe sobre as formas das distribuições de ganho de peso para as duas populações, mas como as duas amostras tomadas têm mais de 30 membros, podemos supor que a distribuição amostral da diferença entre as médias das amostras é aproximadamente µ x1 − x2 = µ 1 − µ 2 = 311,9 − 212,4 = 99,5 g σ x1 − x2 σ 12 σ 22 = + = n1 n 2 (142,8)2 + (160,3)2 35 40 e normal com desvio média padrão = 582,6 + 642,4 = 35,0 g. Logo, P[( x1 − x2 ) ≥ 100] = P(Z ≥ Z100 ) , onde: Z100 = 100 − 99,5 = 0,01 . 35,0 Segundo a tabela: P(Z ≥ 0,01) = 0,5 − 0,0040 = 0,496 (49,6%). Há 49,6% de probabilidade de que a diferença as médias de duas amostras aleatórias seja maior que 100g. 12