Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança Prof. Marcos Pó Métodos Quantitativos para Ciências Sociais Distribuição amostral • Duas amostragens oriundas da mesma população quase sempre terão estatísticas diferentes. • Diferentes amostragens produzirão amostras com estatísticas distintas. • Amostragens são probabilísticas, portanto, estatísticas baseadas nas amostragens também o são. • Se as características da amostragem e a composição da população são conhecidas, a probabilidade de cada resultado pode ser determinada. 2 Teorema do Limite Central (TLC) • Quando o tamanho da amostra (n) aumenta, independente da forma de distribuição da população, a distribuição amostral da média da amostra (x) converge para uma distribuição normal. Histogramas de distribuição da média para amostras de algumas populações 3 Por que o TLC é importante para nós? • Se a média de uma amostra for um estimador razoável não será necessário conhecer a f.d.p. da população, pois a distribuição de probabilidades da média das amostras será aproximadamente uma normal. • Dessa forma conseguimos fazer inferências a respeito da amostra, tais como estimar se está dentro dos nossos critérios de aceitação. • A média das distribuições amostrais será igual à da população (μ) e a sua variância será dada por σ2/n. Matematicamente: E x = μ Var x = 2 n x = n 4 Distribuição amostral da média • Seja X uma variável aleatória (v.a.) com média μ e variância σ2, e seja (X1, X2,..., Xn) uma Amostra Aleatória Simples (AAS) de X, de tamanho n, então: E( X ) = = X n n 2 2 X = • Ou seja, quanto maior a amostra, menor o desvio padrão da distribuição amostral. 5 Exercício: entregar em 12/02 • Utilizando a planilha “Alturas”, determinar a média e o desviopadrão de cada uma das 100 amostras (n = 15; n = 30; n = 60; n = 150). • Depois, utilizando as médias obtidas em cada uma das observações amostrais, determinar: ► ► Média, desvio-padrão e amplitude Fazer uma quadro comparando esses valores de cada n amostral Amplitude das amostras n médias mín desvios-padrão máx mín máx Das médias média dpad 15 30 60 150 6 Resultados Amplitude das amostras n médias desvios-padrão Das médias mín máx mín máx média dpad 15 1,550 1,777 0,085 0,239 1,672 0,039 30 60 150 1,610 1,738 0,101 0,213 1,672 0,027 1,624 1,720 0,114 0,182 1,671 0,019 1,643 1,703 0,132 0,168 1,669 0,012 População = X~N(1,67; 0,152) Parece haver alguma relação entre o desvio-padrão das médias e o tamanho da amostra (n)? 7 Exemplo: uso da curva normal e do TLC Uma v.a. x tem distribuição normal, com média 100 e desviopadrão 10 X~N(100; 102). a. b. c. Qual a P(90<X<110)? Se X for a média de uma amostra de 16 elementos tirados dessa população, calcule P(90<X<110)? Que tamanho deveria ter a amostra para que P(90<X<110) = 0,95? 8 Distribuição amostral de uma proporção • Consideramos X uma v.a. onde: 1, se portador da característica X 0, se não for portador da característica • Ex.: doador de órgãos, profissão, preferência futebolística, eleitor do candidato tal... • Uma proporção é a freqüência de ocorrência da característica, podendo ser descrita como uma porcentagem. 9 Distribuição amostral de uma proporção • Podemos aproximar a distribuição binomial para uma normal, onde a média e desvio-padrão são definidos como: μ= E(X) = p σ2 = Var(X) = p(1-p) • Ou seja, a nossa população de proporção pode ser definida como: p(1 p) pˆ ~ N p; n 10 Exercício: binomial como normal 1. Uma pesquisa de boca-de-urna com 400 eleitores aleatoriamente selecionados mostra que o candidato Walfrido Canavieira tem 52% das preferências em votos válidos. a. Qual a probabilidade de que Walfrido Canavieira não vença a eleição? b. Recalcule a probabilidade anterior caso a amostra fosse de 1024 eleitores. 2. Aceita-se que no preenchimento de cadastros de um departamento haja 5% de erros. A cada semana sorteia-se uma amostra de 25 cadastros e, se houver mais de 8% de erros, o serviço é interrompido para conferência de todos os cadastros feitos no período. Calcule a probabilidade de uma interrupção desnecessária. 11 Estimação de parâmetros • Problemas: ► ► Estimar parâmetros de uma população a partir de amostras Testar hipótese sobre os parâmetros • Para isso precisamos buscar estimadores ► ► ► Acurados Precisos Não-viesados 12 Estimadores • Estimador: estatística usada para aferir parâmetro da população. • Notação genérica: T estimador de x x erro x x • Há vários estimadores possíveis. x ► Ex. para média populacional : x x • Erro entre a estimativa e o alvo: ► ► erro absoluto: |T-| erro quadrático: (T-)² 13 Características de um bom estimador • Precisão: proximidade da média de todas as observações. • Acurácia: proximidade do valor alvo. • Ausência de viés: distância das observações em relação ao alvo. (a) (b) (c) 14 Estimador de ponto • Fornece um número único como estimativa de um parâmetro da população. • Nossa preocupação é em minimizar o erro: 2 2 ˆ E ˆ 2ˆ • Ou seja, que nossa estimativa amostral seja o mais próxima possível do parâmetro da população. • Pequena questão crucial: como saber se estamos perto se não temos noção dos parâmetros da população? 15 Intervalo de confiança Estimação de intervalos • Quando determinamos uma estimativa T de uma amostra, não temos nenhuma indicação de sua proximidade em relação ao parâmetro θ da população. • Diferente da estimação pontual, a estimação por intervalo nos permite julgar a magnitude do erro que estamos cometendo. • A sua determinação é baseada na distribuição amostral do estimador pontual. 17 Fonte: Bussab; Morettin, 2002: 304 Ilustrativamente PX 1,96 x X 1,96 x = 0,95 18 Intervalo de confiança (IC) • IC = Probabilidade de que o intervalo estimado contenha o parâmetro populacional que queremos determinar. • Também definido como coeficiente de confiança (γ). • Os valores mais comuns são 95% e 99%. Fonte: Bussab; Morettin, 2002: 305 19 Metaforicamente x x x 1,96 x x 1,96 x x Estimador pontual x x 1,96 x 1,96 x 1,96 x 1,96 Estimador intervalar 20 Intervalo de confiança para proporção • O procedimento para o caso de proporção é o mesmo que para valores contínuos, com variância p(1-p). pˆ z p(1 p) p pˆ z n p(1 p) n • Se não tivermos ideia sobre o valor de p, há duas alternativas: ► ► Buscar uma estimativa de p por meio de uma pesquisa piloto Usar p(1-p) = 0,25 (valor máximo), de forma a obter uma estimativa conservadora do IC. 21 E se a variância da população não for conhecida? • Nesse caso temos que usar o s da amostra para determinar o intervalo de confiança. • Podemos ter duas situações ► ► Amostras grandes: nesse caso pode-se considerar que a amostra aproxima-se da normal Amostras pequenas: usar a distribuição t de Student • Costuma-se tomar arbitrariamente 30 ou 60 como referência para definir se uma amostra é grande ou pequena, mas devese analisar o problema e a variância para uma decisão mais informada. 22 Distribuição t de Student • Desenvolvida por Willian S. Gosset em 1908, que publicou suas descobertas sob o pseudônimo Student. • Ele desenvolveu essa distribuição enquanto trabalhava nas cervejarias Guinness, na Irlanda, visando resolver problemas relacionados às pequenas amostragens que não se comportavam como predito pela distribuição normal. 23 Distribuição t de Student • A distribuição t é semelhante à normal, porém com caudas mais largas. • O parâmetro que a define é o número de graus de liberdade (ν). Quanto mais graus de liberdade, mais próxima da normal será sua curva. ► ► Graus de liberdade são o número de escolhas livres depois que uma estatística como a média é calculada. No caso de intervalos de confiança e teste de hipótese sobre médias: gl = ν = n-1. Fonte: http://en.wikipedia.org/wiki/File:Student_t_pdf.svg 24 Intervalo de confiança: resumo • É o intervalo que contém o parâmetro da população que queremos estimar com um determinado grau de certeza, indicado pelo coeficiente de confiança γ. • O uso de intervalo permite estabelecer um julgamento do erro que estamos cometendo, que é determinado com base na distribuição amostral do estimador pontual. ICx; P X z IC pˆ ; ˆ z P p n xX z p(1 p) pˆ pˆ z n = n p(1 p) n γ α/2 α/2 25 Exercícios 1. Calcule o intervalo de confiança para a média de altura de uma população normal em cada um dos casos abaixo: n σ γ 170 cm 36 15 cm 95% 170 cm 225 15 cm 95% 180 cm 225 15 cm 99% 2. Do público que frequenta um posto de saúde é retirada uma amostra de 100 pessoas, obtendo-se uma renda média de R$800 e desvio-padrão de R$250. a. Qual o intervalo de confiança de 95% para a renda média da população? b. Com que confiança pode-se dizer que a renda média é R$800±R$75? 3. Uma amostra aleatória de 484 donas de casa revela que 60% viram os comunicados de vacinação veiculados no intervalo da programação matinal de televisão. Construa um intervalo de confiança de 90% para a proporção das donas de casa que viram os comunicados. 26 Exercícios 4. Alunos da UFXYZ, tentando salvar o que resta de humanidade nas redes sociais, tiveram a ideia de lançar a campanha “abraça-um-reaça”, onde dariam demonstrações de afeto aos que fazem comentários politicamente retrógrados, desinformados ou preconceituosos. Para testar a adesão à campanha, fazem uma amostra aleatória de 40 estudantes, obtendo os seguintes resultados: Resposta n % Sim, apoio: mais amor, por favor! 21 52,5% Agora não dá, meu CR está perigando... 10 25% Bebeu? Eu abraçar reaça/comuna? Nunquinha! 9 22,5% • Determine: a. Um intervalo de confiança de 95% de alunos que apoiariam a campanha. (use a distribuição t de Student) b. O tamanho da amostra necessário para que os proponentes da campanha tivessem 99% de certeza de que a maioria dos alunos a apoia. c. Com base no intervalo de confiança determinado no item (a), você acha prudente lançar a campanha? Justifique. 27 Números do cotidiano Um terço dos estudantes do sexo masculino diz que eles estuprariam uma mulher se não houvesse consequências Buzzfeed, 20 de janeiro de 2015, 12:44 p.m. [...] Em um estudo liderado pelo professor Sarah Edwards e publicado em Violence and Gender, 86 estudantes universitários americanos do sexo masculino [...] foram convidados a autodenunciar a probabilidade de se envolverem em certos tipos de uma conduta sexual [...]. Um terço dos participantes (31,7%) disse que forçariam uma mulher a ter relações sexuais em uma “situação sem consequências” – e muitos não rotulariam ou não reconheceriam suas ações como “estupro”. Além disso, 13,6% dos participantes disseram que estuprariam uma mulher. Como parte do estudo, os investigadores abordaram o nível de hostilidade que os participantes mostraram em relação às mulheres e se isso influenciou na evolução dos resultados. [...] Os pesquisadores disseram que é importante dissipar a ideia de um “estuprador estereotipado”, já que o grupo que “endossa a força, mas nega o estupro” não se identifica com o comportamento dos estupradores. A ideia do estereótipo do estuprador poderia levar a programas de prevenção de estupro menos eficazes. http://www.buzzfeed.com/rossalynwarren/um-tereo-dos-estudantes-do-sexo-masculino-diz-que#.bup3Eo11d; Íntegra do estudo aqui. Com base no tamanho da amostra, calcule: (a). O intervalo de confiança da proporção de estudantes que “forçariam uma mulher a ter relações em uma ‘situação sem consequências’” e dos que “disseram que estuprariam uma mulher”. (b). É possível extrapolar os resultados do estudo como faz a manchete? Discuta. 28 Apresentação de grupos: dia 26/02 (quinta) • Explicar Enem e as possíveis manipulações e cuidados com rankings. • O que se pode aprender disso? • Fontes: http://exame.abril.com.br/brasil/noticias/30-melhores-notas-por-escola-mudam-ranking-doenem http://educacao.estadao.com.br/noticias/geral,escolas-publicas-e-privadas-da-mesma-classesocial-tem-medias-iguais-no-enem,1611102 http://revistaeducacao.uol.com.br/textos/0/o-incoerente-ranking-do-enem-294325-1.asp http://educacao.estadao.com.br/blogs/mateus-prado/campea-do-enem-e-ao-mesmo-tempo-aescola-1-e-a-escola-569-do-brasil/ 29