Estatística II – Antonio Roque – Aula 1 População e Amostra De importância fundamental para toda a análise estatística é a relação entre amostra e população. Praticamente todas as técnicas a serem discutidas neste curso consistem de métodos para a obtenção de informação sobre uma população a partir de informações contidas em uma amostra retirada da população. População: O conjunto de todas as coisas que se pretende estudar. Representada por tudo o que está no interior do desenho. Amostra: Parte representativa da população; aquela que realmente é estudada. Representada pelas áreas pintadas no desenho. Exemplos: • Pesquisa de opinião pública: a população é o número total de habitantes de um país; a amostra é uma parte dessa população. • Pesquisa de um novo tratamento para uma certa doença: a população é o conjunto total de pessoas com a doença ou que venham a ter a doença, um número que não é conhecido; a amostra é o conjunto de doentes escolhido para testar o tratamento. 1 Estatística II – Antonio Roque – Aula 1 Porque estudar uma amostra ao invés de toda a população? • O tamanho de uma população faz com que, em geral, seja impossível ou impraticável estudá-la na sua totalidade. • O custo para a realização de observações envolvendo todos os elementos de uma população pode ser proibitivo. • Pode ser que nem todos os membros individuais de uma população sejam observáveis, por limitações técnicas por exemplo. • A observação pode ser destrutiva. Uma amostra não tem interesse por si só, mas pelo que ela revela sobre a população. Por exemplo, um médico seleciona 50 pacientes para estudar a eficácia de um novo método de tratamento de úlcera gástrica. Do ponto de vista da pesquisa, os 50 pacientes não constituem a população de interesse. O médico quer usar os resultados obtidos com os 50 pacientes para fazer inferências sobre todos os possíveis pacientes, e o que importa é se a amostra de 50 pacientes pode ser considerada representativa de toda a população. Quando se calculam medidas descritivas numéricas (por exemplo, média e desvio padrão) para uma amostra, costuma-se denotá-las por letras do alfabeto latino: x, y, s etc. Por outro lado, grandezas relativas a toda uma população são designadas por letras gregas: α, β, γ etc. 2 Estatística II – Antonio Roque – Aula 1 Uma grandeza que se refira aos dados de uma amostra é chamada de estatística. Uma grandeza que se refira aos dados de uma população é chamada de parâmetro. Portanto, a média x e o desvio padrão s de uma amostra são estatísticas, pois seus valores variam de amostra para amostra. Já a população de onde foram retiradas as amostras tem um único e invariável valor para a sua média, e um único e invariável valor para o seu desvio padrão. A média µ e o desvio padrão σ são os parâmetros que caracterizam a população. 3 Estatística II – Antonio Roque – Aula 1 Noções de Amostragem O objetivo de se selecionar uma amostra é obter informações que sejam representativas da população como um todo. A maneira mais simples de se fazer isso é escolher uma amostra aleatória, de maneira que cada membro da população tenha igual probabilidade de estar em qualquer amostra. Por exemplo, se quisermos tirar uma amostra de 5 estudantes da população composta por todos os estudantes da sala, podemos numerar todos os estudantes de 1 a N e utilizar uma urna contendo N bolinhas iguais numeradas de 1 a N, de maneira que cada bolinha represente um único estudante. Na prática, a escolha de uma amostra não é feita com uma urna contendo bolinhas, mas usando-se uma tabela de números aleatórios. Quando se tem um computador, pode-se também usar um programa que contenha um gerador de números aleatórios. Por exemplo, a lista de números a seguir foi obtida usando-se o gerador de números aleatórios do programa Microsoft Excel (“ALEATÓRIO()”). Cada número foi gerado aleatoriamente de dentro do conjunto de números inteiros no intervalo entre 0 e 9, com probabilidade uniforme igual a 1/10. 4 Estatística II – Antonio Roque – Aula 1 3 4 9 5 1 2 0 4 1 1 4 5 5 2 0 0 3 9 2 9 8 5 3 8 5 2 1 5 2 6 4 8 8 4 9 5 4 9 1 4 5 9 8 3 1 6 1 4 3 5 3 4 4 9 2 7 2 8 7 4 9 1 8 6 6 5 1 9 8 1 3 0 4 3 5 0 8 6 0 9 7 4 8 3 3 1 7 2 3 9 8 8 4 6 6 3 9 7 9 6 0 2 2 0 9 9 3 1 5 5 4 9 4 3 4 2 5 9 4 0 0 8 7 9 5 4 9 6 7 3 9 9 9 3 1 0 0 3 4 5 1 4 0 8 6 4 1 5 9 3 2 8 2 1 8 0 7 0 6 7 4 4 3 9 1 6 4 3 9 8 3 3 9 3 2 2 7 3 5 9 2 3 6 8 1 7 3 1 6 7 7 2 6 6 2 1 6 3 2 3 0 0 7 0 8 9 2 2 2 9 3 1 8 2 1 1 0 8 6 2 0 6 3 4 3 2 4 3 2 8 9 6 5 5 2 4 8 0 0 2 3 3 2 3 7 0 8 8 2 9 7 9 6 2 2 4 4 9 2 2 2 7 1 3 7 7 3 7 5 9 4 8 4 2 3 7 1 9 8 7 8 8 3 0 4 4 2 7 7 7 1 7 7 5 8 9 9 8 3 8 5 Estatística II – Antonio Roque – Aula 1 Vamos agora ilustrar como se usa uma tabela de números aleatórios para se fazer uma amostragem aleatória sem reposição. Uma amostragem sem reposição é aquela em que cada elemento selecionado aleatoriamente não retorna para a população, para evitar que ele seja contado duas vezes. Considere a tabela a seguir, dando valores de açúcar no sangue (em mg/dl) de 150 pessoas normais em jejum (valores hipotéticos). Queremos colher uma amostra aleatória de 10 pessoas dessa população para estudos. Usando a tabela de números aleatórios acima (ou qualquer outra que você encontrar em um livro), feche os olhos e toque a tabela com o indicador em algum ponto dela. O número mais próximo do dedo será o número aleatório inicial. Como temos 150 valores, devemos usar números de 3 dígitos indo de 001 a 150. Portanto, tome o número aleatório inicial e os dois números a sua direita como o número de partida. Se este número for maior que 150, vá para o quarto número a partir do número inicial e veja se o número formado pelos três dígitos a partir dele (inclusive) está entre 001 e 150. No 1 2 3 4 5 6 7 8 9 Valor 91 94 115 85 89 107 94 105 94 No 31 32 33 34 35 36 37 38 39 Valor 107 94 101 95 80 104 94 102 89 N0 61 62 63 64 65 66 67 68 69 Valor 87 104 109 93 95 107 88 107 113 No 91 92 93 94 95 96 97 98 99 Valor 91 104 109 92 85 108 99 103 81 No 121 122 123 124 125 126 127 128 129 Valor 90 105 100 89 90 106 94 100 92 6 Estatística II – Antonio Roque – Aula 1 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 103 104 105 88 104 90 95 104 93 109 87 92 117 98 89 105 101 81 108 94 104 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 98 106 85 93 103 119 90 82 90 113 104 97 101 90 88 108 95 100 103 108 85 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 95 102 94 99 87 102 105 80 90 108 105 90 115 82 90 102 91 103 107 107 97 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 96 105 91 115 108 102 101 94 93 102 119 96 104 85 108 103 90 105 99 88 103 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 91 87 105 102 101 111 91 92 98 81 117 103 96 101 88 100 100 95 103 101 90 Continue com este processo até chegar a um número entre 001 e 150. Este será o primeiro dos 10 dados. Continue tabela abaixo, pegando os números que forem menores que 150. Se você chegar à base da tabela e ainda não tiver completado os dez números, repita a operação contando os números da direita para a esquerda e subindo a tabela. Lembre-se de não considerar um mesmo número 2 vezes, já que supomos que a amostragem é sem reposição. 7 Estatística II – Antonio Roque – Aula 1 Por exemplo, se o seu número sorteado aleatoriamente for o número na sétima linha e terceira coluna da tabela de números aleatórios (número 1), os seus 10 números serão: 118, 078, 015, 090, 046, 133, 054, 092, 097 e 053. Portanto, os 10 valores de concentração de açúcar no sangue (em mg/dl) a serem usados no estudo são: 99, 90, 90, 97, 90, 102, 88, 104, 99 e 90. Outra técnica de amostragem bastante usada é a chamada amostragem sistemática, em que se pré-define um sistema de escolha. Por exemplo, escolhe-se para entrevistar cada 3o cliente que chega em uma agência bancária ao longo de um dia (o 3o cliente que entrar no banco, o 6o, o 9o etc). No entanto, este tipo de amostragem pode introduzir tendências externas na amostra. Por exemplo, uma amostra composta pelos moradores dos apartamentos de numeração par de um prédio pode estar afetada pelo posicionamento dos apartamentos pares no prédio (por causa do sol, do tipo de garagem destinada a cada apartamento ou da proximidade das janelas dos quartos de casal dos apartamentos pares com um terreno baldio, por exemplo). O investigador deve estar sempre atento para a possibilidade de ocorrência de tais efeitos e deve tentar evitá-los sempre que possível. Além disso, qualquer avaliação crítica de uma pesquisa deve conter uma análise sobre o método de amostragem utilizado e sobre as possíveis fontes causadoras de tendências externas nos resultados da pesquisa. 8 Estatística II – Antonio Roque – Aula 1 Ainda uma outra técnica de amostragem é a chamada amostragem estratificada. Muitas vezes é útil e desejável classificar amostras de acordo com algum fator, como sexo, idade, nível econômico, etc. Em uma amostragem estratificada, dentro de cada estrato executa-se uma amostragem aleatória. É importante que as porcentagens de indivíduos por estrato reflitam as porcentagens globais da população. Por exemplo, se uma população tem 60% de mulheres e 40% de homens, uma amostra de tamanho 50 deve ter 30 mulheres e 20 homens (veja a regra de três abaixo). 50 − 100% x1 = 30 x − 60%(40%) x2 = 20 (60%) (40%) Uma distribuição de freqüências obtida para os dados de uma amostra é chamada de distribuição empírica. A distribuição de freqüências para toda a população é chamada de distribuição teórica. A distribuição teórica depende da natureza da variável sendo medida: variável discreta ou variável contínua. Uma vez obtida uma amostra a partir de uma população, podemos usar algumas características da amostra para estimar alguns parâmetros da população. Exemplos de tais características são a média x e o desvio padrão s da amostra. 9 Estatística II – Antonio Roque – Aula 1 Quando se usa uma estatística calculada a partir dos valores de uma amostra para se estimar um parâmetro da população de onde foi retirada a amostra, diz-se que está sendo feita uma estimativa por ponto. Segundo esta terminologia, o valor da média x de uma amostra é um estimador por ponto da média µ da população; e o valor do desvio padrão s de uma amostra é um estimador por ponto do desvio padrão σ da população. Se obtivermos, a partir da população, uma outra amostra de mesmo tamanho, teremos um novo conjunto de dados e, portanto, uma nova média x e um novo desvio padrão S . Para cada amostra retirada de uma população teremos, em princípio, valores diferentes da média e do desvio padrão. Dá-se abaixo uma outra tabela de números aleatórios para uso durante a disciplina. 10 Estatística II – Antonio Roque – Aula 1 Tabela de números aleatórios 00000 12345 00001 67890 11111 12345 11112 67890 22222 12345 22223 67890 33333 12345 33334 67890 44444 12345 44445 67890 01 02 03 04 05 85967 07483 96283 49174 97366 73152 51453 01898 12074 39941 14511 11649 61414 98551 21225 85285 86348 83525 37895 93629 36009 76431 04231 93547 19574 95892 81594 13604 24769 71565 36962 95848 75339 09404 33413 67835 36738 11730 76548 56087 63314 25014 85423 05393 40875 50162 15460 60698 96770 13351 06 07 08 09 10 90474 28599 25254 28785 84725 41469 64109 16210 02760 86576 16812 09497 89717 24359 86944 81542 76235 65997 99410 93296 81652 41383 82667 77319 10081 45554 31555 74624 73408 82454 27931 12639 36348 58993 76810 93994 00619 44018 61098 52975 22375 22909 64732 04393 10324 00953 29563 93589 48245 15457 11 12 13 14 15 41059 67434 72766 92079 29187 66456 41045 68816 46784 40350 47679 82830 37643 66125 62533 66810 47617 19959 94932 73603 15941 36932 57550 64451 34075 84602 46728 49620 29275 16451 14493 71183 98480 57669 42885 65515 36345 25640 66658 03448 19251 41404 67257 30818 37390 41642 81110 18671 58353 96328 16 17 18 19 20 74220 03786 75085 09161 75707 17612 02407 55558 33015 48992 65522 06098 15520 19155 64998 80607 92917 27038 11715 87080 19184 40434 25471 00551 39333 64164 60602 76107 24909 00767 66962 82175 90832 31894 45637 82310 04470 10819 37774 12538 18163 78754 56797 37953 67439 63495 90775 33751 78837 94914 21 22 23 24 25 21333 65626 84380 46479 59847 48660 50061 07389 32072 97197 31288 42539 87891 80083 55147 00086 14812 76255 63868 76639 79889 48895 89604 70930 76971 75532 11196 41372 89654 55928 28704 34335 10837 05359 36141 62844 60492 66992 47196 95141 92337 70650 93183 12452 42333 99695 51108 56920 38234 67483 26 27 28 29 30 31416 82066 01850 32315 59388 11231 83436 42782 89276 42703 27904 67914 39202 89582 55198 57383 21465 18582 87138 80380 31852 99605 46214 16165 67067 69137 83114 99228 15984 97155 96667 97885 79541 21466 34160 14315 74440 78298 63830 85019 01007 99622 75404 30475 03527 31929 87912 63648 74729 78140 31 32 33 34 35 58089 61705 18914 11965 85251 27632 57285 98982 94089 48111 50987 30392 60199 34803 80936 91373 23660 99275 48941 81781 07736 75841 41967 69709 93248 20436 21931 35208 16784 67877 96130 04295 30357 44642 16498 73483 00875 76772 89761 31924 85332 09114 92656 66864 51315 24384 32101 62318 62803 79921 36 37 38 39 40 66121 53972 14509 37700 854696 96986 96642 16594 07688 59392 84844 24199 78883 65533 72722 93873 58080 43222 72126 15473 46352 35450 23093 23611 73295 92183 03482 58645 93993 49759 51152 66953 60257 01848 56157 85878 49521 89250 03910 60477 30490 63719 63266 38552 83284 15974 57615 90858 17472 56367 41 42 43 44 45 52969 42744 26140 95589 39113 55863 68315 13336 56319 13217 42312 17514 67726 14563 59999 67842 02878 61876 24071 49952 05673 97291 29971 06916 83021 91878 74851 99294 59555 47709 32738 42725 96664 18195 53105 36563 57894 52817 32280 19295 79540 81434 90039 79357 88318 61935 62041 53211 04224 41626 46 47 48 49 50 41392 54684 89442 36751 98159 17622 53645 61001 16778 02564 18994 79246 36658 54888 21416 98283 70183 57444 15357 74944 07249 87731 95388 68003 53049 52289 19185 36682 43564 88749 24209 08541 38052 90976 02865 91139 33519 46719 58904 25772 30715 07223 09428 40512 89853 06604 97413 94012 07725 88714 11