Bioestatística e Computação I Inferência estatística ● Distribuição Amostral da Média Variável aleatória numérica ● Maria Virginia P Dutra ● Eloane G Ramos parâmetros desconhecidos – média – desvio padrão estimativa dos parâmetros – Vania Matos Fonseca a partir de uma amostra → inferência estatística Pós Graduação em Saúde da Mulher e da Criança IFF – FIOCRUZ Baseado nas aulas de M. Pagano e Gravreau e Geraldo Marcelo da Cunha Inferência estatística ● Distribuição de probabilidade de uma variável aleatória na população (ex. altura ou peso) Inferência estatística 1000 ∑ xi i=1 x = 1000 ● ● ● ● Deseja-se estimar a média desta variável para a população em questão. ● x estimador do parâmetro Na distribuição da população ● parâmetro ● µ – média da população σ – desvio-padrão Na amostra ● estimador x - média da amostra ou média amostral Retira-se uma amostra de 1000 pessoas dessa população. ● ● estimador de máxima verossimilhança Calcula-se a média a partir da amostra. ● SD – desvio padrão da amostra Inferência estatística ● Se for selecionada uma nova amostra ● ● Inferência estatística ● Incerteza da estimação depende de vários fatores a média amostral será diferente da anterior. Existe uma incerteza na estimação de um parâmetro populacional a partir de uma amostra. Tamanho mínimo da amostra ● ● – Garantia da precisão desejada – Cálculo do tamanho da amostra Características desejáveis da amostra População homogênea. ● – Inferência estatística ● Representatividade da amostra para a variável de interesse – – Estimação não viesada Estimação viesada População População -2 0 2 µ Cada indivíduo da população deve ter igual probabilidade (>0) de ser selecionado. 4 6 8 -2 0 2 µ x Amostra aleatória – ● Viés de seleção garantir que a amostra contenha indivíduos de toda a faixa etária pretendida faixas de renda, locais/condições de moradia, acesso aos serviços de saúde, condições gerais de saúde → amostra estratificada ● Se os indivíduos forem muito parecidos, qualquer amostra será representativa do grupo inteiro. 4 6 8 x 15 amostras 15 amostras Viés de seleção ● Se algum dos critérios anteriores não for satisfeito. -2 -1 0 1 2 3 4 x 1 xx 15 5 6 7 8 9 -2 -1 0 1 2 3 4 x 5 6 7 8 9 Inferência estatística Inferência estatística Exemplo: Deseja-se estimar a média de uma variável numérica para a população do Rio de Janeiro. Retira-se várias amostras de tamanho n. x2 Amostra 2, média = x1 Amostra 1, média = desvio SD Distribuiçãos dos valores medidos em cada amostra Amostra 2 Amostra 1 2 desvio SD1 População, média = µ desvio padrão = σ Amostra 3 Amostra 3, média = desvio SD3 x 3 Amostra 4, média = desvio SD4 x 4 N(µ,σ) x 1 -2 -2 0 2 4 6 -1 0 1 2 µ ● Média populacional µ = 3,24 Desviopadrão populacional ● σ 6 7 8 9 x Inferência estatística ● 5 8 x ● x 2 3 x3 4 Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Distribuição amostral Média Amostral x 1 2.925542 x 2 2.875775 x 3 3.224229 x 4 3.247810 3.015967 ⁞ 3.124409 3.120330 3.414648 3.181152 3.529341 3.072117 2.922282 3.035807 3.362200 3.282813 3.108830 3.174209 3.099439 3.139982 3.564698 2.907053 3.029296 3.209778 3.069454 3.524735 3.158513 Variável aleatória X Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 X x 1 x 2 x 3 x 4 ⁞ 2.925542 2.875775 3.224229 3.247810 3.015967 3.124409 3.120330 3.414648 3.181152 3.529341 3.072117 2.922282 3.035807 3.362200 3.282813 3.108830 3.174209 3.099439 3.139982 3.564698 2.907053 3.029296 3.209778 3.069454 3.524735 3.158513 ● Distribuição da variável aleatória X formada pelas médias amostrais calculadas a partir de várias amostras de tamanho n. Distribuição Amostral da Média Variabilidade → SDM 1.5 2.0 2.5 3.0 x 3.5 4.0 4.5 5.0 X Distribuição amostral ● ● Não é prático selecionar várias amostras para estimar a média populacional. Teorema Central do Limite ● Entretanto, a distribuição amostral possui propriedades que permitem inferir sobre a média populacional a partir de uma única amostra de tamanho n, por meio do intervalo de confiança. Dado que ● X é uma variável aleatória numérica ● A distribuição de probabilidade populacional da variável X possui média µ e desvio σ ● Foram selecionadas várias amostras dessa população de tamanho n → Teorema Central do Limite Teorema Central do Limite 1.A média da distribuição amostral, x, é idêntica a média populacional µ. Teorema Central do Limite ● Exemplo: Níveis séricos de colesterol. ● Suponha que a média na população é µ = 211 mg/100ml e o desvio é σ = 46 mg/100ml. ● Ao retirarmos várias amostras de tamanho n = 30, quantas amostras terão média maior ou igual a 230 mg/100m? 2.O desvio-padrão da distribuição amostral, SDM, é igual a . SDM tem um nome n especial: erro-padrão da média (EP). 3.Se n é suficientemente grande (>30), a distribuição amostral é aproximadamente normal, independente da distribuição populacional. Teorema Central do Limite Teorema Central do Limite ● µ = 211 ● n = 30 ● σ = 46 ● P( x ≥ 230) = ? x ==211 46 EP= = =8,4 n 30 ● − X − X −211 X −211 X = = = EP 8,4 / n 46/ 30 Para X =230 230−211 z= =2,26 8,4 Z= f(z) Distribuição amostral ( X ) Transforma-se a variável X em uma variável com distribuição normal padrão (Z) e consulta-se a tabela da distribuição (A.3). Distribuição na população (X) -4 Pela tabela A.3: 100 200 211 300 400 ● E se tivéssemos selecionado amostras de tamanho n=100, quantas amostras teriam média maior ou igual a 230 mg/100m? − X − X −211 X −211 X = = = EP 4,6 / n 46/ 100 =230 Para X 230−211 =4,13 z= 4,6 Z= Pela tabela A.3: P( x ≥ 230) = P(z ≥ 4,13) < 0,001 (< 0,1%) -2 -1 0 1 2 3 z P( x ≥ 230) = P(z ≥ 2,26) = 0,012 = 1,2% Nível sérico de colesterol (mg/100ml) Teorema Central do Limite -3 Exercícios ● Capítulo 8 ● 1 a 6, 8 e 10 4