DEPARTAMENTO DE GEOCIÊNCIAS GCN 7901 – ANÁLISE ESTATÍSTICA EM GEOCIÊNCIAS PROFESSOR: Dr. ALBERTO FRANKE CONTATO: [email protected] F: 3721 8595 CAPÍTULO 3 POPULAÇÃO E AMOSTRA • As pesquisas de opinião induzem os eleitores? Por quê? Quais induzem? agosto/2014 Prof. Franke 2 CONCEITOS População: É o conjunto de elementos sobre os quais se desejam informações, ou seja, nosso universo de estudo. As populações podem ser finitas, como a população dos alunos matriculados na Geografia, ou infinitas, como a população dos resultados que podem ser obtidos quando se joga um dado sucessivamente. Parâmetro: Característica numérica da população. Normalmente é desconhecido! Amostra: É todo subconjunto de elementos retirado de uma população, para obter informações sobre essa população. As amostras são coletadas e estudadas para trazer informação sobre a população. Estatística: Característica numérica da amostra. Toda amostra permite calcular uma estatística. Distinção entre parâmetro e estatística? agosto/2014 Prof. Franke 3 Relação entre amostragem e inferência Fonte: ANDRIOTTI. Fundamentos de estatística e geoestatística. São Leopoldo, Unisinos, 2009. agosto/2014 Prof. Franke 4 CONCEITOS Censo: É o conjunto de dados que descrevem as características da população. É a coleta de dados sobre todos os elementos da população e recebe o nome de recenseamento. Variável: São as características que podem ser observadas (ou medidas) em cada elemento da população. Qualitativa: quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (preta, parda, branca, amarela, vermelha), etc. Quantitativa: quando seus valores são expressos por números (peso, altura, pH, etc.) Variável contínua: quando puder assumir qualquer valor num intervalo. Variável discreta: quando só pode assumir valores pertencentes a um conjunto enumerável. Ex.: peso dos alunos (variável contínua), nº de alunos (variável discreta). Normalmente, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. agosto/2014 Prof. Franke 5 CONCEITOS Dados: Pode ser considerado como uma informação necessária para auxiliar numa decisão Por que dados são necessários? Dados categorizados São os possíveis resultados de variáveis observadas em forma de categorias. Tabela 1 – Distribuição de 300 pessoas classificadas segundo sexo (gênero) e tabagismo. Tabagismo Fumante Não-fumante Total Sexo Masculino 92 (46%) 108 (54%) 200 (100%) Feminino 38 (38%) 62 (62%) 100 (100%) Total 130 (43,3%) 170 (56,7%) 300 (100%) Fonte: Autor (2013) agosto/2014 Prof. Franke 6 CLASSIFICAÇÃO DOS DADOS Tipo de dados Quantitativos: quando os possíveis resultados são números de uma certa escala, dizemos que este é um dado quantitativo. Qualitativos: quando os possíveis resultados são atributos ou qualidades, dizemos que o dado é qualitativo. Figura 1 – Classificação das variáveis e dos dados em termos do nível de mensuração. Adaptado de BARBETTA (2012, p. 30). agosto/2014 Prof. Franke 7 TÉCNICAS DE AMOSTRAGEM 1. Amostragem: É o processo de seleção da amostra Se uma estatística é usada para avaliar ou estimar o valor de algum parâmetro, é chamada de estimador. A qualidade de uma estimativa depende basicamente da representatividade da amostra. O que é representatividade de uma amostra? 2. Por que fazemos amostragem? Economia Tempo Confiabilidade dos dados Operacionalidade 3. Quando o uso da amostragem não é interessante? População pequena Características de fácil mensuração Necessidade de alta precisão agosto/2014 Prof. Franke 8 TÉCNICAS DE AMOSTRAGEM 4. Tipos de amostras: Uma amostra não-probabilística é aquela na qual os itens ou indivíduos incluídos são escolhidos sem levar em conta a probabilidade de sua ocorrência. Uma amostra probabilística é aquela na qual os sujeitos da amostra são escolhidos com base em probabilidade conhecidas. Figura 2 – Tipos de amostras. Fonte: LEVINE et al. (2005, p. 11) agosto/2014 Prof. Franke 9 TÉCNICAS DE AMOSTRAGEM 4.1. Amostras probabilísticas 4.1.1. Amostra aleatória simples É aquela em que cada indivíduo da população possui a mesma chance de ser selecionado do que cada um dos outros indivíduos. Ou seja, a seleção dos elementos que farão parte da amostra serão sorteados. Na amostragem aleatória simples, n é usado para representar o tamanho da amostra e N representar o tamanho da população. Todo item ou pessoa na população é numerado de 1 a N. A chance de qualquer membro em particular desta população ser selecionado no primeiro sorteio é de 1/N. As amostragens aleatórias são muito úteis por permitirem a utilização das técnicas clássicas de inferência estatística, facilitando a análise dos dados e fornecendo maior segurança na generalização dos resultados da amostra para a população. agosto/2014 Prof. Franke 10 Tabela 2 - Números aleatórios. Fonte LEVINE et al. (2005, p.770) agosto/2014 Prof. Franke 11 TÉCNICAS DE AMOSTRAGEM 4.1.1. Amostra aleatória simples Amostragem com reposição Significa que, após um indivíduo da população ser selecionado, ele retorna para a população, onde tem a mesma probabilidade de ser novamente selecionado. Amostragem sem reposição Significa que, após um indivíduo da população ser selecionado, ele não retorna para a população e, assim, não pode ser novamente selecionado A chance de qualquer membro da população ser selecionado no 1º sorteio é de 1 𝑁 A chance de qualquer indivíduo não previamente selecionado ser escolhido no 2º 1 sorteio é de 𝑁−1 O processo é repetido até ser alcançado o tamanho n, o desejado da amostra. Atividade: sortear, entre os alunos da turma, amostra de tamanho n = 6 com uso de urna e de tabela de números aleatórios. Cada um começa o sorteio onde quiser! Fazer com e sem reposição. agosto/2014 Prof. Franke 12 TÉCNICAS DE AMOSTRAGEM 4.1.2. Amostra aleatória sistemática Numa amostra sistemática, os N indivíduos ou itens na população são divididos em k grupos, pela divisão da população N pelo tamanho n da amostra. 𝑘= 𝑁 𝑛 Onde k é chamado de intervalo de seleção. O 1º indivíduo a ser selecionado é escolhido aleatoriamente (sorteio) do primeiro grupo fracionado da população, o restante da amostra é obtido selecionando cada k-enésimo indivíduo na população total. Exemplo: alunos que chegam para aula Cuidados com a amostra aleatória simples ou sistemática! São menos eficientes que outros métodos probabilísticos de amostragem. Não é possível saber se as amostras obtidas são de fato representativas da população. A possibilidade de haver viés de seleção ou falta de representatividade das características de população é maior na amostragem sistemática. Se existir padrão na população, podem resultar graves vieses de seleção. agosto/2014 Prof. Franke 13 TÉCNICAS DE AMOSTRAGEM 4.1.3. Amostragem estratificada Consiste em dividir a população em subgrupos, que são denominados de estratos. Os estratos devem ser internamente mais homogêneos do que a população toda, com respeito às principais variáveis em estudo. Sobre os diversos estratos da população, são realizadas seleções aleatórias, de forma independente. A amostra é obtida através reunião das amostras de cada estrato. Amostragem estratificada proporcional A proporcionalidade do tamanho de cada estrato da população é mantida na amostra Amostragem estratificada uniforme Seleciona-se a mesma quantidade de elementos em cada estrato A amostragem estratificada uniforme costuma ser usada em situações em que o maior interesse é obter estimativas separadas para cada estrato, ou quando se deseja comparar os diversos estratos. agosto/2014 Prof. Franke 14 TÉCNICAS DE AMOSTRAGEM Figura 3 – Esquema de obtenção de uma amostragem estratificada. Fonte: BARBETTA (2012, p. 49). Figura 4 – Exemplo de uma amostragem estratificada proporcional. Fonte: BARBETTA (2012, p. 49). agosto/2014 Prof. Franke 15 TÉCNICAS DE AMOSTRAGEM 4.1.4. Amostragem de conglomerados (Cluster) Chama-se de conglomerados a um agrupamentos de elementos da população. Ex.: numa população de domicílios residenciais de uma cidade, os quarteirões formam conglomerados residenciais de uma cidade. Figura 5 – Processo de amostragem de conglomerados em dois estágios. Fonte: BARBETTA (2012, p. 51). agosto/2014 Prof. Franke 16 TÉCNICAS DE AMOSTRAGEM 4.2. Amostragem não aleatória (não probabilística) Podem ser empregadas quando a seleção de uma amostra aleatória é muito difícil ou impossível. O principal problema é obtenção de uma lista elementos da população. 4.2.1 – Amostragem por cotas Assemelha-se com a amostragem estratificada proporcional. A população é vista de forma segregada e dividida em diversos subgrupos com grande homogeneidade para compensar a falta de aleatoriedade. Seleciona-se uma cota de cada subgrupo proporcional ao seu tamanho. Ex.: Numa pesquisa socioeconômica, a população pode ser dividida por localidade, por nível de instrução, faixa de renda, etc. 4.2.2. – Amostragem por julgamento Os elementos escolhidos (não sorteados) são aqueles julgados como típicos da população que se deseja estudar. O pesquisador precisa ter um grande conhecimento da estrutura da população agosto/2014 Prof. Franke 17 Relação entre amostragem e inferência Fonte: ANDRIOTTI. Fundamentos de estatística e geoestatística. São Leopoldo, Unisinos, 2009. agosto/2014 Prof. Franke 18 RESUMO DO CAPÍTULO Fonte: LEVINE et al. (2005, p. 11) agosto/2014 Prof. Franke 19 TAMANHO MÍNIMO DE UMA AMOSTRA É um problema complexo. Muitas vezes o tamanho da amostra fica restrita aos recursos financeiros disponíveis. A heterogeneidade da população e os tipos de parâmetros que se quer estimar são pontos importantes na determinação da amostra 1. Conceito de erro amostral Erro amostral é a diferença entre uma estatística e o parâmetro que se quer estimar. 2. Erro amostral tolerável É quanto o pesquisador admite errar na estimação dos parâmetros de interesse. Para determinar o tamanho da amostra, o pesquisador precisa especificá-lo. Ex.: Pesquisas eleitorais mostram o erro do levantamento – normalmente ± 2% A especificação do erro amostral tolerável deve ser feito sob um enfoque probabilístico. Qual a influência do erro amostral no tamanho da amostra? agosto/2014 Prof. Franke 20 TAMANHO MÍNIMO DE UMA AMOSTRA 3. Baseado no erro amostral tolerável Onde: n = tamanho mínimo de uma amostra E = erro amostral tolerável (nº decimal do erro) Obs.: utiliza-se este cálculo inicial, mesmo não conhecendo o tamanho da população 4. Baseado no tamanho da população Onde: nc = tamanho mínimo da amostra corrigido em função da população N = tamanho da população Obs.: Se a população for muito grande, então n pode ser adotado como tamanho da amostra. Caso contrário, usa-se a correção baseado no tamanho da população. agosto/2014 Prof. Franke 21 TAMANHO MÍNIMO DE UMA AMOSTRA 5. Baseado no nível de confiabilidade desejado Quantas observações são necessárias para 90% de confiabilidade? Onde: n = tamanho mínimo de uma amostra e = erro amostral tolerado = desvio-padrão da população z = valor correspondente ao nível de confiabilidade desejado (distribuição normal padronizada z) Obs.: Deve-se notar que n (tamanho da amostra) depende do grau de confiança desejado, da dispersão dos dados e do erro tolerável, mas não do tamanho da população. agosto/2014 Prof. Franke 22 FONTES DE ERROS EM LEVANTAMENTOS POR AMOSTRAGEM O erro amostral, definido como a diferença entre uma estatística e o verdadeiro valor do parâmetro, parte do princípio de que as n observações da amostra são obtidas sem erros. Havendo erros ou desvios nos dados da própria amostra, a diferença entre a estatística e o parâmetro pode ser maior que o limite tolerável, E. Exemplos de erros não amostrais: 1º População acessível diferente da população-alvo (viés de seleção). 2º Falta de resposta (viés por falta de resposta) 3º Erros de amostragem 4º Erros de mensuração Obs.: erros de mensuração refere-se à falta de exatidão das respostas registradas, o que ocorre devido a deficiências na formulação da pergunta, um efeito causado pela influência do entrevistador sobre o entrevistado, ou no resultado do esforço do entrevistado. agosto/2014 Prof. Franke 23