Prof. Janete Pereira Amador 1 1 Introdução Um dos principais objetivos da maioria dos estudos, análises ou pesquisas estatísticas é fazer generalizações seguras com base em amostras, sobre as populações das quais as amostras foram extraídas. Para tanto é utilizado a técnica de amostragem é que pode ser definida como o processo de seleção de amostra (s) de uma população. A partir dos resultados da amostra, obtém-se valores aproximados, ou estimativas, para as características populacionais de interesse (parâmetros). No processo de amostragem, a seleção dos elementos que serão observados, deve ser feita sob uma metodologia adequada, de tal forma que os resultados da amostra sejam representativos de toda a população. 1.2 Importância da Utilização da Amostragem Algumas razões para o uso de amostragem em levantamentos de grandes populações Economia – em geral, torna-se bem mais econômico o levantamento de somente uma parte da população Tempo – numa pesquisa eleitoral, faltando três dias para eleição, não haveria tempo suficiente para pesquisar toda a população de eleitores do país, mesmo que houvesse recursos financeiros não haveria tempo. Operacionalidade – é mais fácil realizar operações de pequena escala. Um dos problemas nos grandes censos é o controle dos entrevistados. 1.3 Situações em que pode não valer á pena a realização de uma amostragem População pequena Característica de fácil mensuração Necessidade de alta precisão (censo) 1.4 Plano de Amostragem Cuidados especiais devem ser tomados na seleção da amostra com o objetivo de se ter uma boa representatividade da população a ser analisada caso o contrario os resultados da pesquisa poderão ser incorretos. Sendo assim, o plano de amostragem torna-se uma ferramenta essencial na pesquisa. Para se fazer um plano de amostragem deve-se ter bem definidos: os objetivos da pesquisa, a população a ser amostrada, as unidades amostrais, modo como a amostra será retirada (o tipo de amostragem), e o próprio tamanho da amostra, além dos parâmetros a serem estimados para que os objetivos da pesquisa sejam alcançados. Prof. Janete Pereira Amador A) Definição dos objetivo O que? Onde? Precisão exigida Tempo necessário Custo previsto C) Preparação do plano Elaboração do questionário Características das questões Experimentação do questionário Execução Coleta Crítica Apuração Apresentação dos dados 2 B) Determinação dos meios Tipo de amostragem Tamanho da amostra Qual o método para o levantamento dos dados Como os interessados serão questionados D)Análise dos resultados Determinar uma característica Estimar e verificar os parâmetros E) Relatório final: Claro e conciso Honesto 2 Tipos de Amostragem Pode-se definir o processo de seleção de amostra em dois grandes grupos: Amostragem probabilística e Amostragem não probabilística Amostragem probabilística A amostragem é probabilística quando a seleção da amostra é feita de forma aleatória, sendo que cada elemento da população tem uma probabilidade conhecida de participar da amostra. Assim: se N define o tamanho da população e se todos os elementos da população 1 possuem igual probabilidade, teremos que é a probabilidade de cada elemento N participar da amostra. A principal característica da amostragem probabilística é a possibilidade de se obter uma estimativa do erro amostral. . Amostragem não probabilística A amostragem é não probabilística quando há uma escolha deliberada dos elementos da amostra. Este tipo de amostragem pode prejudicar a representatividade da amostra em relação à população. Geralmente é feita quando há inacessibilidade a toda a população ou a população é constituída de material contínuo como líquido ou gases 3 Técnicas de Seleção da Amostra As principais técnicas de amostragem probabilística são: ­ Amostragem aleatória simples; ­ Amostragem sistemática; ­ Amostragem estratificada; ­ Amostragem por conglomerado. Prof. Janete Pereira Amador 3 3.1 Amostragem aleatória simples Os elementos da população são enumerados, onde a seleção da amostra é feita por meio de um sorteio, sem restrição, onde cada elemento da população tem a mesma probabilidade de pertencer à amostra. A população é numerada de 1 a N. Escolhem-se, em seguida, na Tabela de números aleatórios, n números compreendidos entre 1 e N. Os elementos correspondentes aos números escolhidos formarão a amostra. Procedimento 1) Numerar todos os elementos da população por linha 2) Escolher na Tabela de números aleatórios (TNA) uma linha ou uma coluna 3) Encontrar a amostra especificada, os valores não podem ser superiores ao tamanho da população Ex.: A tabela a seguir refere-se aos diâmetros (mm) de 30 eixos produzidos por uma indústria automobilística (dados hipotéticos). Diâm. 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 Diâm. 19 14 16 16 26 27 31 13 26 18 29 18 16 21 24 Extrair uma amostra aleatória de tamanho n = 5. Solução: 1) Numerar todos os elementos da população por linha Eixo 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 Diâm. 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 Eixo 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Diâm. 19 14 16 16 26 27 31 13 26 18 29 18 16 21 24 2) Escolher na TNA uma coluna Partindo da coluna 3 3) Encontrar a amostra especificada, os valores não podem ser superiores ao tamanho da população Partindo da coluna 3 na TNA procuramos os cinco primeiros números não superiores a 30, lendo os dois últimos algarismos à direita. Obtemos a amostra: Leitura na TNA 26 15 03 07 06 Diâmetro 29 26 26 30 22 3.2 Amostragem Sistemática Trata –se de uma variação da amostragem aleatória simples, muito conveniente quando a população esta naturalmente ordenada, como fixas em um fichário, listas telefonias etc.. Procedimento 1) Seja N o tamanho da população e n o tamanho da amostra então o intervalo de amostragem, denota do por K , será: K N n 2) Sorteia-se um número no intervalo de 1 a K. Prof. Janete Pereira Amador 4 3) A amostra será composta pelos elementos correspondente aos números x; ( x K ); ( x 2 K ); ( x 3K )....; ( x nK ) . Ex.: Extrair uma amostra de n = 10 da população, abaixo, que se refere a paginas de lista telefônicas. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Solução: 1) intervalo de amostragem K N n N = 30 n = 10 K 30 3 10 2) Sorteia-se um número no intervalo de 1 a K . 1: 2: 3 número sorteado: x= 2 3) A amostra será composta pelos elementos correspondente aos números. x, x K , x 2K ,...., x nK . Então x22 x 5 K 2 5.3 17 17 x K 2 3 5 5 x 2 K 2 2.3 8 8 x 6 K 2 6.3 20 20 x 7 K 2 7.3 23 23 x 8 K 2 8.3 26 26 x 9 K 2 9.3 29 29 Desta forma as 10 paginas selecionadas foram 2 5 8 11 14 17 20 23 26 29 x 3 K 2 3.3 11 11 x 4 K 2 4.3 14 14 3.3 Amostragem estratificada É quando a população está dividida em subgrupos (estratos) e a variável de interesse apresenta comportamento diferente de um subgrupo para o outro embora tenha comportamento homogêneo dentro do estrato, neste caso sorteiam-se elementos em cada estrato para formar a amostra. As variáveis de estratificação podem ser qualitativas e quantitativas - Variável de estratificação qualitativa: A estratificação pode ser feita em função se um atributo qualitativo como sexo, categorias de trabalhadores, etc. - Variável de estratificação quantitativa: A estratificação é feita em função de uma variável quantitativa como área plantada, volume de vendas, etc. Prof. Janete Pereira Amador 5 Uma das vantagens da amostragem estratificada é que os dados são geralmente mais homogêneos dentro de cada estrato do que na população como um todo. A amostragem estratificada pode ser uniforme e proporcional. 3.3.1 Amostragem estratificada uniforme É recomendada quando os estratos da população forem aproximadamente do mesmo tamanho. Sendo assim, calcula-se a mesma quantidade de elementos em cada estrato. Seja NH número de estratos, n o tamanho da amostra e nh número de elementos a serem observadas, então tem-se: nh n NH Procedimento: 1) Calcular o número de unidades a serem observadas nh 2) Escolher na Tabela de números aleatórios (TNA) uma linha ou uma coluna, para cada estrato 3) Encontrar o número de unidades a serem observadas, para cada estrato, os valores não podem ser superiores ao tamanho da população em cada estrato. Ex: Dentre 60 pessoas escaladas para sorteio de um Júri, 30 são negras e 30 brancas. Extrato 1 (negros) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Extrato 2 (brancos) 1 2 3 4 5 6 7 8 9 16 17 18 19 20 21 22 23 24 Extrair uma amostra estratificada de tamanho n =12 10 25 11 26 12 27 13 28 14 29 15 30 Solução: 1) número de unidades a serem observadas n 12 = nh 6 amostras por estrato NH 2 2) Encontrar a amostra especificada, os valores não podem ser superiores ao tamanho da população em cada estrato Amostra de indivíduos negros Leitura na TNA 27 29 03 07 06 12 Indivíduos 27 29 03 07 06 12 Amostra de indivíduos brancos Leitura na TNA 11 18 30 10 5 Indivíduos 11 18 30 10 5 06 06 Prof. Janete Pereira Amador 6 3.3.2 Amostragem estratificada proporcional É recomendada quando os extratos diferem no número de elementos. Dessa forma, o número de elementos sorteado em cada extrato é proporcional ao número de elementos existente no extrato. Seja N tamanho da população, n o tamanho da amostra e Nh tamanho do estrato, nh número de elementos a serem observados, então tem-se: nh Nh n N Procedimento: 1) Calcular o número de unidades a serem observadas nh 2) Escolher na Tabela de números aleatórios (TNA) uma linha ou uma coluna, para cada estrato 3) Encontrar o número de unidades a serem observadas, para cada estrato, os valores não podem ser superiores ao tamanho da população em cada estrato. Ex: Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: A e B. Em uma análise do custo do material foram consideradas 30 faturas, representadas abaixo pelo preço de 10m de eletroduto: Eletroduto A Fatura 01 02 03 04 05 06 Preço (R$) 710 710 715 715 755 760 Eletroduto B Fatura 01 02 03 04 05 06 07 08 09 10 Preço (R$) 750 750 750 750 755 760 760 765 765 765 Fatura (cont.) 11 12 13 14 15 16 17 18 19 20 Preço (R$) 765 765 770 770 770 785 785 790 790 795 Fatura (cont.) 21 22 23 24 Preço (R$) 795 800 810 820 Extrair uma amostra estratificada de tamanho n = 8. Solução: 1) número de unidades a serem observadas para Eletroduto A (Extrato A) N 6 nh h n = 8 1,6 ~ 2 amostras N 30 2) número de unidades a serem observadas para Eletroduto B (Extrato B) N 24 nh h n = 8 6,4 ~ 6 amostras N 30 De cada estrato serão sorteadas, amostras aleatórias simples, respectivamente n1 = 2 correspondente ao Extrato A e n2 = 6 correspondente ao Extrato B. Lendo os dois últimos algarismos a partir do início da sétima coluna da TNA, obtemos o resultado Extrato A B Leitura na TNA 03 02 06 14 18 24 03 02 Fatura (R$) 715 710 760 770 790 820 750 750 Prof. Janete Pereira Amador 7 Exercícios 1. No total de 60 fichas de distribuidora de bebidas, 35 serão selecionados para investigação com relação ao pagamento do ICM. Desta forma, organizar esta amostra em esquema de Amostragem Sistemática e retirar da população as distribuidoras que serão investigadas. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 2. Usando o exercício anterior extrair amostras sistemáticas de tamanho n = 15 e n = 25 3. Um estudo foi realizado para verificar o índice de infestação por barbeiros em 100 casas na periferia de Salvador. Para um melhor desempenho dos técnicos da vigilância Sanitária, as casas foram divididas por região de localização. Sendo: Extrato 1 (Região A) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Extrato 2 (Região B) 1 2 3 4 5 6 7 8 9 10 11 16 17 18 19 20 21 22 23 24 25 26 31 32 33 34 35 36 37 38 39 40 41 46 47 48 49 50 Extrair uma amostra estratificada de tamanho n =30 e n = 15 12 27 42 13 28 43 14 29 44 15 30 45 4. Extrair uma amostra aleatória simples de tamanho n = 19 da população que consiste em 50 farmácias. Será investigado o recolhimento de impostos relativo aos anos de 1999 a 2004. 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 09 08 07 06 05 04 03 02 01 5. Utilizando os dados do exercício anterior extraia uma amostra estratificada de tamanho n= 28. 6. Devido a problemas financeiros 80 empresas de transporte urbano, pertencente ao Grupo Ande Bem, serão submetidas a auditoria. As empresas estão espalhadas em 14 capitais brasileiras. Em um primeiro momento será feita auditoria em 12 empresas. Para tanto estas foram divididas em dois grupos de acordo com a performance econômica. O Grupo A possui 30 empresas e o Grupo B 50. Sendo assim, qual a técnica de seleção de amostra que você utilizaria para retirar estas 12 empresas, quantas e quais seriam as empresas selecionadas nos dois grupos. Grupo A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Prof. Janete Pereira Amador Grupo B 1 2 16 17 31 32 46 47 3 18 33 48 4 19 34 49 5 20 35 50 8 6 21 36 7 22 37 8 23 38 9 24 39 10 25 40 11 26 41 12 27 42 13 28 43 14 29 44 15 30 45 7. Utilizando os dados do exercício anterior extraia uma amostra estratificada de tamanho n= 17 Prof. Janete Pereira Amador 9 4 Determinação do Tamanho da Amostra Um fator de grande importância na pesquisa é saber calcular corretamente o tamanho da amostra que será trabalhada. Devemos ter em mente que as estatísticas calculadas na amostra corresponderão a descrição do comportamento da população em relação a variável em estudo. Além disto amostras desnecessariamente grandes acarretam desperdício de tempo e dinheiro e amostras demasiadamente pequenas podem levar a resultados não confiáveis. Sendo assim, para determinar o tamanho mínimo de uma amostra afim de estimar parâmetros como a media populacional a proporção populacional , é preciso que seja compreendido significado de terminados termos tais como: Parâmetro ( ): é uma medida usada para descrever uma características da população. Por exemplo a média populacional , a proporção populacional , a variância populacional da amostra 2 . Os parâmetros, via de regra, são desconhecidos, são estimados a partir Estatística ( ̂ ): é uma mediada numérica que descreve uma característica de amostra. Poderá ser a média amostral S X, a proporção amostral P e a variância 2 amostral . Erro amostral ( e ) ou precisão: é a máxima diferença que o investigador admite 0 suportar entre - ̂ . Nível de confiança ou grau de confiança : é a probabilidade 1 - de o intervalo de confiança conter o verdadeiro valor do parâmetro é expresso em porcentagem. Intervalo de confiança: é um intervalo centrado na estimativa pontual, cuja probabilidade de conter o verdadeiro valor do parâmetro é igual ao nível de confiança. Alfa (): é a probabilidade de erro na estimação por intervalo, geralmente trabalha-se com = 5% ou 0,05 e = 1% ou 0,01. Valor crítico Z 2 : é o número na fronteira que separa valores da estatística amostral prováveis de ocorrerem, dos valores que tem pouca chance de ocorrer. O exemplo a seguir refere-se a valor crítico e nível de confiança. Ex: Ache o valor crítico Z correspondente a um grau de confiança de 95%. 2 Solução: Um grau de confiança de 95% corresponde a = 5% , na figura a área sombreada corresponde a 2 = 2,5%. Desta forma obtemos Z 2 = 1,96 . Prof. Janete Pereira Amador 10 Grau de confiança :95% 2 2 47,5% Z 2 1,96 47,5% Z =0 Z 2 1,96 Exercícios Determine o valor crítico a) b) c) d) e) Z que corresponde ao grau de confiança indicado. 2 99% 94% 98% 92% 95% 2.1 Equações para o Cálculo do tamanho da Amostra População Infinita População Finita (Z ) 2 . p.q n 2 d2 obs: q 1 p ( Z ) 2 . p.q.N n 2 2 d .( N 1) ( Z ) 2 . p.q 2 obs: q 1 p Obs: As vezes não se tem informação a respeito de p. Neste caso adota-se p = q =50%, o que levará a um tamanho de amostra superavaliado mas garantindo a precisão desejada, embora podendo ter como conseqüências, aumentos nos custos e no tempo de amostragem e, conseqüentemente, na pesquisa. Exemplo 1. Um estudo foi realizado para investigar a proporção de eleitores favoráveis ao candidato X. O pesquisador tem subsídios para suspeitar que esta diferença seja de 30%. Admita a população infinita e que se deseja um nível de confiança de 99% e um erro amostral de 2%. Qual o tamanho da amostra para realização deste estudo. 1 1% 0,5% (2,57) 2 .0,30.0,70 2 2 n (0,02) 2 Z 50 0,5% 49,5% Z 2,57 ( Z ) 2 . p.q 6,60.0,21 2 n . d 2% 0,02 2 d 0,0004 p 30% 0,30 1,40 3.500 q 1 p q 1 0,30 0,70 0,0004 Desta forma seria necessário uma amostra de 3500 pessoas para investigar a intenção de votos. 2. Valdemar, candidato a prefeitura do município Alfa deseja investigar a proporção de eleitores favoráveis a sua eleição. O candidato contratou uma empresa de assessoria Prof. Janete Pereira Amador n 11 para realizar uma pesquisa de intenção de votos. Sabendo que o município possui 20.000 eleitores, quantos eleitores seriam necessários para investigar a intenção de votos, com um nível de confiança de 95% e um erro amostral de 4%. ( Z )2 . p.q.N 2 d 2 .( N 1) ( Z ) 2 . p.q 2 5 5% 2,5% 2 2 Z 50 2,5% 47,5% Z 1,96 d 4% 0,04 p 50% 0,50 n (1,96) 2 .0,5.0,5.20.000 0,042 .(19.999) (1,96) 2 .(0,5.0,5) 19.208 19.208 583 32 0,96 32,96 q 1 p q 1 0,50 0,50 N 20.000 N 1 19.999 Desta forma seria necessário uma amostra de 583 pessoas para investigar a intenção de votos. Exercícios 1. Deve-se realizar uma pesquisa de opinião pública para determinar a proporção de pessoas que sofreram lesões em conseqüência de algum tipo de acidente de trânsito. Quantas pessoas deverão ser ouvidas para que sejam satisfeitas as seguintes condições: d = 0,02, p = 10%, = 2%? 2. Um estudo será realizado para verificar a quantidade de lixo não reciclável produzido diariamente em dois bairros de São Paulo. Sendo assim quantas residências devemos investigar em cada bairro, para termos 99% de confiança no cálculo da amostra. As características de cada bairro são as seguintes primeiro é um bairro de moradias populares com 15.000 moradias. Assuma um erro amostral 3%. o segundo é um bairro de classe média alta com 5.000 moradias. Assuma um erro amostral 1%. 3. Um estudo será realizado para traçar o perfil sócio - econômico dos pequenos produtores rurais (considera-se pequeno até 40 ha de terra), de uma cidade no interior do RS. Algumas das variáveis estudas serão o índice de analfabetismo, proporção de velhos jovens e crianças, renda. Sabe-se que o município possui 10.000 pequenos produtores. Quantos produtores seriam necessários para realizar o estudo. Admitindo um nível de confiança de 99% e um erro amostral de 2%. Prof. Janete Pereira Amador 12 4. Deve-se realizar uma pesquisa de opinião pública para determinar a proporção de pessoas que sofreram lesões em conseqüência de algum tipo de acidente de trânsito. Quantas pessoas deverão ser ouvidas para que sejam satisfeitas as seguintes condições: d = 0,02, p = 10%, = 2%?