Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 7 - Distribuições Amostrais e Estimação de Parâmetros APOIO: Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina (FAPESC) Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Amostragem e Inferência estatística Ex. POPULAÇÃO: todos os possíveis consumidores amostragem AMOSTRA: um subconjunto dos consumidores inferência BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Conceitos • Parâmetro: alguma medida descritiva (média, variância, proporção, etc.) dos valores x1, x2, x3,..., associados à população. • Amostra aleatória simples: conjunto de n variáveis aleatórias independentes {X1, X2, ..., Xn}, cada uma com a mesma distribuição de probabilidades de uma certa variável aleatória X. Esta distribuição de probabilidades deve corresponder à distribuição de freqüências dos valores da população (x1, x2, x3, ...). • Estatística: alguma medida descritiva (média, variância, proporção, etc.) das variáveis aleatórias X1, X2, ..., Xn, associadas à amostra BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Parâmetros e Estatísticas População (x1, x2, x3,..., xN) Amostra (X1, X2, ..., Xn) Parâmetros Proporção n o de elementos com o atributo p= N Média Variância Estatísticas 1 µ= N 1 σ = N 2 N N ∑ xi 1 n X = ∑ Xi n i =1 i =1 ∑ (x i − µ ) i =1 n o de elementos com o atributo ˆ P= n 2 1 n 2 ( ) S = X − X ∑ i n − 1 i =1 2 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Exemplos de parâmetros • X variável aleatória discreta com função de probabilidade p k µ = E( X ) = ∑ x j p j Média ou valor esperado: j =1 k σ = V ( X ) = ∑ (x j − µ)2 p j Variância: 2 j =1 ou: 2 V ( X ) = E( X ) − µ 2 k onde: E ( X ) = ∑ x 2j p j 2 j =1 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Exemplos de parâmetros • X variável aleatória contínua com função de densidade f Média ou valor esperado: Variância: ou: ∞ 2 V ( X ) = E( X ) − µ 2 onde: E ( X 2 ) = ∫ x f ( x) dx −∞ BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Exemplos de estatísticas • (X1, X2,..., Xn): uma amostra aleatória simples da população caracterizada por X. Média : X 1 + X 2 + ... + X n 1 n X= = ∑ Xi n n i =1 Variância: n 1 2 ( ) S2 = X − X ∑ i n − 1 i =1 • Uma estatística é uma variável aleatória e a sua distribuição de probabilidades é chamada de distribuição amostral. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estatísticas • (x1, x2,..., xn): amostra efetivamente observada. Média : x1 + x2 + ... + xn 1 n x= = ∑ xi n n i =1 Variância: 1 n 2 ( ) s = x − x ∑ i n − 1 i =1 ou: 1 n 2 s = ∑ xi −nx 2 n−1 i =1 2 2 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Ex. 7.2 p(x) • População: {2, 3, 4, 5} • Parâmetros: 2 1 4 1 4 1 4 3 4 x 5 1 4 µ = E ( X ) = 2 × + 3 × + 4 × + 5 × = 3,5 N σ = V ( X ) = ∑ ( xi − µ )2 . pi = 2 i =1 1 (2 − 3,5) 2 + (3 − 3,5) 2 + (4 − 3,5) 2 + (5 − 3,5) 2 = 1,25 4 [ ] BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição da média amostral (Ex. 7.2) • Amostragem aleatória simples de tamanho n = 2. – Construção da distribuição amostral da média: Amostras possíveis Probabilidade X (2, 2) (2, 3), (3, 2) (2, 4), (3, 3), (4, 2) (2, 5), (3, 4), (4, 3), (5, 2) (3, 5), (4, 4), (5, 3) (4, 5), (5, 4) (5, 5) 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1⁄ 16 2⁄ 16 3⁄ 16 4⁄ 16 3⁄ 16 2⁄ 16 1⁄ 16 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição da média amostral (Ex. 7.2) Distribuição da população p(x) Distribuição da média amostral p(x ) 2 3 4 E(X) = 3,5 5 x 2 3 4 5 x E ( X ) = 3,5 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Média e variância da média amostral (Ex. 7.2) 1 2 3 4 3 2 1 E (X ) = 2 + 2,5 + 3 + 3,5 + 4 + 4,5 + 5 = 3,5 16 16 16 16 16 16 16 1 2 2 2 1 V ( X ) = (2 − 3,5) + (2,5 − 3,5) + ... + (5 − 3,5) = 0,625 16 16 16 2 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição amostral da média Amostragem aleatória simples População: N elementos X : variável quantitativa Parâmetros: µ = E(X), σ2 = V(X) X pode ser vista como uma variável aleatória se considerar a distribuição de freqüências da população como uma distribuição de probabilidades – a distribuição da população. Amostra: (X1, X2, ..., Xn) Estatísticas: 1 n X = ∑ Xi n i =1 1 n 2 ( S = Xi − X) ∑ n − 1 i =1 2 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Exemplo de motivação • Lembrando: X uniforme em [α, β]. 1 , para x ∈ [α , β ] f ( x) = β − α 0, para x ∉ [α , β ] • População X uniforme em [0, 1]. f(x) 1 β −α 0 α E( X ) = x β α+β 2 ( β − α )2 V (X ) = 12 • E( X ) = 1 2 V (X ) = 1 12 Simular dados numa numa planilha eletrônica e calcular estatísticas. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Média e variância da média amostral • Seja a população com média µ e variância σ2. E (X ) = µ V (X ) = V (X ) = σ2 se a amostragem for com reposição, ou N muito grande ou infinito n σ2 N −n n ⋅ N −1 se a amostragem for sem reposição e N não muito grande, N < 20n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição da média amostral • (Teorema do limite central) Se o tamanho da amostra for razoavelmente grande, então a distribuição amostral da média pode ser aproximada pela distribuição normal. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição da média amostral • População • Amostra E (X ) = µ V (X ) = σ 1 n X = ∑ Xi n i =1 E (X ) = µ 2 DP ( X ) = σ V (X ) = DP ( X ) = σ2 n σ n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 População de tamanho N População dos salários dos empregados de certo setor da economia (N =1.000) E( X ) = µ E( X ) = µ V (X ) = σ Distribuição de freqüências de médias de amostras de tamanho n = 100 2 DP ( X ) = σ V (X ) = σ2 N −n DP ( X ) = ⋅ n N −1 σ N −n n N −1 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição amostral da proporção População: A N = NA + NA elementos A Amostra: (X1, X2, ..., Xn) Parâmetro: p = proporção dos elementos que têm o atributo A 0 ou 1 (0 = sem o atributo; 1 = com o atributo) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição da população (caso de proporção) x p(x) 0 1 1–p p Média e variância: µ =p σ2 = p(1 – p) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Média e variância da proporção amostral E ( Pˆ ) = p p(1 − p) ˆ V ( P) = n ou: se a amostragem for com reposição, ou N muito grande ou infinito p(1 − p) N − n ˆ V ( P) = ⋅ n N −1 se a amostragem for sem reposição e N não muito grande, N < 20n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Distribuição da proporção amostral • Se o tamanho da amostra for razoavelmente grande, então a distribuição amostral da proporção pode ser aproximada pela distribuição normal. • OBS. Se n for pequeno, a distribuição exata é binomial ou hipergeométrica (dependendo se a amostragem for com ou sem reposição) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de Parâmetros universo do estudo (população) dados observados O raciocínio indutivo da estimação de parâmetros BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de Parâmetros POPULAÇÃO p=? Observações: AMOSTRA X1 X2 X3 ... p̂ p = p̂ ± erro amostral BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para proporção p pˆ σ P̂ = proporção na população (parâmetro que se quer estimar) = proporção na amostra (pode ser calculada com base na amostra) = erro-padrão da proporção, que para amostra aleatória simples com reposição (ou sem reposição, mas com N >> n), pode ser estimado por: s Pˆ = pˆ (1 − pˆ ) n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para proporção Seja uma variável aleatória normal padrão, Z. Vale: P{− 1,96 ≤ Z ≤ 1,96} = 0,95 Então: ou: Pˆ − p P − 1,96 ≤ ≤ 1,96 = 0,95 σ Pˆ { sendo: σ Pˆ = p (1 − p ) n } P Pˆ − (1,96)σ Pˆ ≤ p ≤ Pˆ + (1,96)σ Pˆ = 0,95 com probabilidade de 95%: intervalo de confiança para p, com nível de confiança de 95%: Pˆ − p ≤ (1,96)σ Pˆ IC ( p, 95%) = pˆ ± (1,96)σ Pˆ BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para proporção • Com dados de uma amostragem aleatória simples com reposição (ou sem reposição, mas com N >> n), tem-se um intervalo de confiança para p, com nível de confiança γ : IC ( p, γ ) = pˆ ± zγ pˆ (1 − pˆ ) n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para proporção IC ( p, γ ) = pˆ ± zγ α pˆ (1 − pˆ ) n n ív e l d e c o n fia n ç a d e s e ja d o (γ = 1 - α ) ⁄2 - Zγ 0 α ⁄2 Zγ γ 0,800 0,900 0,950 0,980 0,990 0.995 0,998 zγ 1,282 1,645 1,960 2,326 2,576 2,807 3,090 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Resultados do Exemplo 7.3: Intervalo de 99% de confiança para p (60,0 ± 6,3%) Intervalo de 95% de confiança para p (60,0 ± 4,8%) 53,7% 55,2% 60,0% 64,8% 66,2% Estimação de parâmetros: intervalo de confiança para média µ = média na população (parâmetro que se quer estimar) x = média na amostra (pode ser calculada com base na amostra) σX = erro-padrão da média. σX = σ n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para média µ Seja uma variável aleatória normal padrão, Z. Vale: P{− 1,96 ≤ Z ≤ 1,96} = 0,95 { } P − zγ ≤ Z ≤ zγ = γ ou: Então: σ σ P X − zγ ≤ µ ≤ X + zγ =γ n n X −µ P − z γ ≤ ≤ zγ = γ σ n com probabilidade de 95%: intervalo de confiança para µ, com nível de confiança de γ: IC ( µ , γ ) = x ± z γ σ n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para média Caso o desvio padrão (populacional) seja conhecido: IC ( µ , γ ) = x ± z γ σ n BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Estimação de parâmetros: intervalo de confiança para média Caso o desvio padrão (populacional) não seja conhecido: uso da distribuição t de Student. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 A distribuição t de Student • Supondo a população com distribuição normal, a estatística X −µ T= S n tem distribuição de probabilidades conhecida como distribuição t de Student, com gl = n – 1 graus de liberdade. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 A distribuição t de Student f(x) t com gl = ∞ (normal padrão) t com gl = 3 t com gl = 1 0 x BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 A distribuição t de Student Estimação de parâmetros: intervalo de confiança para média Caso o desvio padrão (populacional) não seja conhecido: IC ( µ , γ ) = x ± tγ s n s = desvio padrão calculado na amostra BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Como usar a Tabela t (Tab. IV do Apêndice) • Ilustração com gl = 9 e nível de confiança de 95%. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Tamanho de amostra • Na fase do planejamento da pesquisa, muitas vezes precisamos calcular o tamanho n da amostra, para garantir uma certa precisão desejada, a qual é descrita em termos do erro amostral máximo tolerado (E0,) e do nível de confiança (γ) a ser adotado no processo de estimação. • Suponha amostragem aleatória simples BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Tamanho de amostra • No caso de estimação de µ, podemos exigir X − µ ≤ E0 ou: zγ σ n ≤ E0 ou: n ≥ z γ2 σ 2 E0 2 BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Tamanho de amostra • No caso de estimação de p, a população é caracterizada por uma variável 0-1, portanto: σ 2 = p (1 - p ) 1 2 σ = p.(1 − p) ≤ 4 Assim: n ≥ 1 ⁄4 zγ2 p (1 − p ) E0 Então, 2 0 2 n = zγ 4E 0 1 ⁄2 1 p 2 Ver discussão no livro. é suficiente para qualquer p. BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004 Tamanho mínimo de uma amostra aleatória simples Parâmetro de interesse Valor inicial do tamanho da amostra uma média (µ): n0 = uma proporção (p): n0 = várias proporções (p1, p2, ...): zγ2 σ 2 E0 2 zγ2 p(1− p ) n0 = E0 2 zγ2 4E 0 2 Tamanho da amostra População infinita: População de tamanho N: n = n0 (arredondamento para o inteiro superior) N. n0 n= N + n0 − 1 (arredondamento para o inteiro superior) BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004