Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Estimação A Estatística Descritiva tem por objectivo resumir ou descrever características importantes de dados populacionais conhecidos. Na Inferência Estatística utilizamos os dados amostrais para fazer inferências (ou generalizações) sobre a população. As duas principais aplicações da estatística inferencial envolvem a utilização de dados amostrais para estimar o valor de um parâmetro populacional e para formular uma conclusão sobre a população. Vamos estudar como, a partir de estatísticas baseadas numa amostra aleatória, podemos fazer inferências ou generalizações acerca do valor de parâmetros de uma distribuição. 1 Estimador e estimativa Métodos para determinar estimadores Existem dois métodos gerais para obter estimadores de parâmetros da população: o método dos momentos e o método da máxima verosimilhança. O método dos momentos - devido a Karl Pearson - é um dos mais antigos métodos de estimação pontual. De fácil aplicação, apesar de falta de uma sólida justificação teórica, fornece frequentemente estimadores aceitáveis. O método da máxima verosimilhança é um método melhor, o qual requer usualmente soluções numéricas de equações não lineares. E se antes o método dos momentos se popularizou face a esta dificuldade, a sua razão de ser desapareceu face às facilidades computacionais actuais. Deve dizer-se, contudo, que as estimativas do método dos momentos são ainda usadas como primeira aproximação nos procedimentos iterativos para a resolução das equações de verosimilhança. O estudo destes dois métodos não faz parte do programa da disciplina de Probabilidades e Estatística. Estimação C. Fernandes & P. Ramos Propriedades dos estimadores 1. Consistência: A consistência indica que, quanto maior for a amostra, maior é a probabilidade do valor estimado do parâmetro estar próximo ” ı p ´ θ |ď ε Ñ 1 de θ. Um estimador dir-se-á consistente se e só se P | Θ quando n Ñ 8, @ε ą 0. Note-se que a consistência é fundamentalmente, uma propriedade para grandes amostras. 2. Não enviesamento: Um estimador diz-se não enviesado se o valor” espeı p coincidir com θ, isto é, E Θ p “ rado por amostragem do estimador Θ ” ı p ‰ θ, o estimador Θ p diz-se enviesado e a função b pθq, θ. Caso E Θ dada por Um estimador (ou estimador pontual) de um parâmetro θ de uma populap utilizada para obter uma aproximação do ção é uma estatística amostral Θ parâmetro populacional θ. Por exemplo, a média amostral X é estimador pontual da média µ da população. Uma estimativa de um parâmetro θ de uma população é um valor espep de uma estatística amostral Θ, p usado para aproximar o parâmetro cífico θ, populacional θ. Por exemplo, o valor x do estimador X, calculado de uma amostra aleatória é estimativa da média µ da população. 1.1 1.1.1 ´ ¯ ” ı p “E Θ p ´θ b Θ mede o enviesamento do estimador. 3. Eficiência e erro quadrático médio: Entre estimadores não-enviesados, preferimos o estimador com menor variância, isto é, o estimador mais eficiente. A eficiência de um estimador não-enviesado é a variância da sua distribuição amostral. O erro quadrático médio de um estimador p é definido como sendo o valor esperado do quadrado da pontual Θ p e θ, isto é, distância entre Θ „´ ´ ¯ ¯2 ȷ p “E Θ p ´θ EQM Θ . O erro quadrático médio é igual à soma da variância com o quadrado do enviesamento. Assim, o erro quadrático médio de um estimador é a sua variância quando o estimador é não-enviesado: ´ ¯ ” ı ” ´ ¯ı2 p “ V ar Θ p ` b Θ p EQM Θ . Podemos, então, generalizar o conceito de eficiência: a eficiência de um estimador é o erro quadrático médio da sua distribuição amostral. 4. Suficiência: Se for possível condensar, numa simples estatística, toda a informação amostral relevante para o parâmetro a estimar, essa estatística diz-se um estimador suficiente para o parâmetro em análise. p diz-se suficiente (ou exaustiva) para θ, se retira da A estatística Θ amostra observada x1 , x2 , . . . , xn toda a informação desejada sobre θ. Qualquer outra informação contida na amostra, além do valor da estatística suficiente, não contém mais informações sobre θ. Isto implica 1/23 Estimação C. Fernandes & P. Ramos 2/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística que as inferências sobre θ, obtidas de amostras distintas que conduzam p são as mesmas, ou seja, a distribuição conao mesmo valor θp de Θ, p não dicional da amostra aleatória X1 , X2 , . . . , Xn , dado o valor de Θ, depende de θ. 1.2 Estimação por intervalos de confiança Em vários problemas de inferência estatística está-se interessado em construir uma família de conjuntos - colecções de pontos - que contenham o verdadeiro valor do parâmetro desconhecido com uma probabilidade alta especificada. Tais colecções são vulgarmente conhecidas por intervalos de confiança. Um intervalo de confiança (ou estimativa intervalar) é uma amplitude (ou um intervalo) de valores que tem probabilidade de conter o verdadeiro valor da população. Um intervalo de confiança está associado a um nível de confiança que é uma medida da nossa certeza de que o intervalo contém o parâmetro populacional. Pretende-se construir intervalos que contenham o valor do parâmetro populacional desconhecido com uma certa probabilidade. de confiança aleatório para o parâmetro θ é um ı Um intervalo ” p 1; Θ p 2 , onde Θ p1 e Θ p 2 são duas estatísticas amostrais tais que intervalo Θ ” ı p1 ă θ ă Θ p 2 “ 1 ´ α, com 0 ă α ă 1, onde 1 ´ α é o nível de confiP Θ ança e α o nível de significância. Para uma amostra em particular obtêm-se estimativas para as estatísticas amostrais θp1 e θp2 . Diferentes amostras produde intervalo diferentes, obtendo-se o intervalo determinista ızem estimativas ” θp1 ; θp2 . O nível de confiança é a probabilidade 1 ´ α (normalmente expressa como valor percentual equivalente) de o intervalo de confiança aleatório conter o verdadeiro valor do parâmetro populacional. O nível de confiança é também chamado grau de confiança ou coeficiente de confiança. O nível de significância α pα P s0, 1rq é a probabilidade do intervalo de confiança aleatório não conter o verdadeiro valor do parâmetro θ. Quanto mais pequena for a amplitude de um intervalo de confiança, maior é a precisão desse intervalo. Idealmente, um intervalo de confiança deverá ter amplitude pequena e nível de confiança elevado. Infelizmente, para um tamanho da amostra fixo, o coeficiente de confiança só pode aumentar, se a amplitude do intervalo também aumentar. Além disso, em geral, para valores do coeficiente de confiança elevados, a amplitude do intervalo de confiança aumenta rapidamente. São escolhas comuns para o nível de confiança: 90% (com α “ 0, 1), 95% (com α “ 0, 05) e 99% (com α “ 0, 01). A mais comum é a opção 95%, porque proporciona bom equilíbrio entre a precisão (reflectida na amplitude do Estimação C. Fernandes & P. Ramos 3/23 intervalo de confiança) e a confiabilidade (expressa pelo nível de confiança), no entanto, pode ser utilizado outro nível de confiança. Como vimos, a estimativa intervalar consiste em um intervalo e está associada a um nível de confiança. O nível de confiança 1´α deve ser interpretado como uma probabilidade, do intervalo de confiança aleatório conter o parâmetro θ, anterior à realização da amostragem e portanto, anterior à estimação dos limites do intervalo. Este aspecto da probabilidade ser anterior à realização da amostragem ı ”é fundamental. Na prática, não se sabe se um intervalo determinista θp1 , θp2 , obtido de uma amostra particular, contém ou não o parâmetro θ, porque o valor de θ é desconhecido. Devemos ter em conta que θ é um valor fixo e não uma variável aleatória; portanto, é errado dizer que há 95% de hipóteses de θ estar no intervalo determinista. Qualquer intervalo de confiança contém, ou não contém θ e como θ é fixo e desconhecido, não existe a probabilidade de θ estar num intervalo. Existe a probabilidade condicional, posterior à realização da amostragem, ” ı " p1 ă θ ă Θ p2 | Θ p 1 “ θp1 ; Θ p 2 “ θp2 “ 0 , se o intervalo não contém θ . P Θ 1 , se o intervalo contém θ O nível de confiança não se refere ao evento condicional p1 ă θ ă Θ p2 | Θ p 1 “ θp1 ; Θ p 2 “ θp2 , Θ o intervalo de confiança observado, que nada tem de aleatório, mas refere-se p1 ă θ ă Θ p 2 e indica a probabilidade deste intervalo aleatório ao intervalo Θ conter o parâmetro θ. Ou seja, o nível de ı ” confiança indica a proporção de vezes que os intervalos observados θp1 , θp2 contêm o parâmetro θ. Interpretamos este intervalo de confiança como se segue: Se seleccionássemos muitas amostras diferentes de tamanho n da população e construíssemos um intervalo de 95% de confiança análogo para cada amostra, 95% desses intervalos conteriam efectivamente o parâmetro populacional θ. Para a construção de um intervalo de confiança deverá proceder-se da seguinte forma: 1. identificar a população, a sua distribuição e o parâmetro a estimar; 2. estabelecer um nível de confiança e o tamanho da amostra; 3. escolher a variável fulcral, que é a estatística a escolher para estimar o parâmetro. A variável fulcral contém o parâmetro a estimar na sua expressão e a sua distribuição não pode depender do parâmetro a estimar nem de quaisquer outros valores que se desconheçam; Estimação C. Fernandes & P. Ramos 4/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 4. identificar a distribuição amostral da variável fulcral; • Se σ é desconhecido, X é uma variável aleatória com distribuição normal e n qualquer então ȷ „ S S sI1´α rµ “ X ´ ? tn´1;1´ α2 ; X ` ? tn´1;1´ α2 , n n ` ˘ α onde tn´1;1´ α2 é o percentil 100 ˆ 1 ´ 2 da distribuição tn´1 . 5. construir o intervalo de confiança aleatório; 6. determinar os extremos do intervalo de confiança a partir dos valores da amostra observada, obtendo o intervalo de confiança determinista. Nota 1.1. Consultar o quadro resumo sobre intervalos de confiança para uma e duas populações. 1.2.1 Intervalo de confiança para a média • Se σ é conhecido, X é uma variável aleatória com distribuição normal e n qualquer então ȷ „ σ σ sI1´α rµ “ X ´ ? Z1´ α2 ; X ` ? Z1´ α2 , n n ` ˘ ` ˘ α ´1 1 ´ 2 é o percentil 100 ˆ 1 ´ α2 da distribuição onde Z1´ α2 “ Φ N p0; 1q; 1− α α/2 −Z 1− α/2 1− α α/2 • Se σ é conhecido, X é uma variável aleatória com distribuição arbitrária e n ą 30 então ȷ „ σ σ sI1´α rµ “ X ´ ? Z1´ α2 ; X ` ? Z1´ α2 , n n ˘ ` ˘ ` α ´1 onde Z1´ α2 “ Φ 1 ´ 2 é o percentil 100 ˆ 1 ´ α2 da distribuição N p0; 1q; • Se σ é desconhecido, X é uma variável aleatória com distribuição arbitrária e n ą 30 então „ ȷ S S sI1´α rµ “ X ´ ? Z1´ α2 ; X ` ? Z1´ α2 , n n ` ˘ ` ˘ α ´1 onde Z1´ α2 “ Φ 1 ´ 2 é o percentil 100 ˆ 1 ´ α2 da distribuição N p0; 1q; C. Fernandes & P. Ramos tn−1;1− α/2 σ ? Z1´ α2 n Z 1− α/2 ou Estimação 0 Quando utilizamos dados amostrais para estimar uma média populacional µ, a margem de erro, denotada por E, é a diferença máxima provável (com probabilidade 1´α) entre a média amostral observada X e a verdadeira média populacional µ. A margem de erro E também é chamada erro máximo da estimativa e pode ser obtida por: α/2 0 α/2 −tn−1;1− α/2 5/23 ou S ? Z1´ α2 n S ? tn´1;1´ α2 , n conforme o caso. Assim, antes de efectuar a amostragem, pode estimar-se, com um nível de confiança de 1 ´ α dado, o tamanho n da amostra que garante um erro máximo de estimativa (precisão) que não ultrapasse um valor ε desejado. Para isso, consoante o caso, resolvemos a inequação: σ ? Z1´ α2 ď ε n ou Estimação C. Fernandes & P. Ramos S ? Z1´ α2 ď ε, n 6/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística em ordem a n, obtendo-se, respectivamente: ně ˆ ně ˆ ou σZ1´ α2 ε ˙2 SZ1´ α2 ε ˙2 1− α α/2 −Z 1− α/2 com ´Z1´ α2 “ ´Z0,975 “ ´1, 96 e Z1´ α2 “ Z0,975 “ 1, 96. Tem-se „ P ´Z1´ α2 ă ȷ ă Z1´ α2 “ 1 ´ α ô ı ” ô P ´Z1´ α2 ˆ ?Sn ă X ´ µ ă Z1´ α2 ˆ ?Sn “ 1 ´ α ô ” ı ô P X ´ Z1´ α2 ˆ ?Sn ă µ ă X ` Z1´ α2 ˆ ?Sn “ 1 ´ α. Exemplo 1.1. Um fabricante produz peças de peso especificado em 200 gramas. Querendo estimar o verdadeiro peso médio num grande lote a fornecer ao seu maior cliente, seleccionouř35 peças ao acaso, ř35que depois2 de pesadas forneceram os seguintes valores: 35 i“1 xi “ 7140 e i“1 pxi ´ xq “ 560. i“1 n Xi obtém-se x “ ř35 i“1 xi 35 “ 7140 35 “ 204 gramas. Seja X - “peso, em gramas, das peças do lote”. Pretendemos um intervalo de confiança para o verdadeiro peso médio das peças. Estima-se, com um nível de confiança de 95%, que o peso médio das peças do lote se situe entre 202, 656 gramas e 205, 344 gramas. – Parâmetro a estimar: µ; – Tipo de população: desconhecida; (c) Qual deve ser a dimensão mínima da amostra para que a amplitude do intervalo de confiança a 95% para o peso médio seja inferior a 1, 75? ¯ ´ ¯ ´ Amplitude do intervalo “ X ` Z1´ α2 ˆ ?Sn ´ X ´ Z1´ α2 ˆ ?Sn “ – Nível de confiança: 1 ´ α “ 0, 95; – Dimensão da amostra: n “ 35; X´µ S ? n „N 9 p0; 1q; c – Outros dados: Como S “ b 560 “ 4, 058; 34 Estimação C. Fernandes & P. Ramos řn i“1 pXi ´X q n´1 S ? n e o intervalo determinista: „ ȷ 4, 058 4, 058 “ sI0,95 r˚µ “ 204 ´ 1, 96 ˆ ? ; 204 ` 1, 96 ˆ ? 35 35 “ s202, 656; 205, 344r . (b) Construa um intervalo de confiança a 95% para o peso médio das peças do lote; – Variável fulcral: X´µ Obtém-se o intervalo aleatório: ȷ „ S S sI1´α rµ “ X ´ Z1´ α2 ˆ ? ; X ` Z1´ α2 ˆ ? n n (a) Apresente uma estimativa para o peso médio das peças do lote; řn Z 1− α/2 , pelo que basta tomar para n o menor inteiro que satisfaz a desigualdade. É imediato concluir que para diminuir o erro é necessário aumentar o tamanho da amostra. Nos casos em que a variância populacional σ 2 é desconhecida, antes de se determinar a ordem de grandeza de n recorre-se a uma amostra preliminar de tamanho n ą 30 para calcular S. Como X “ α/2 0 2 obtém-se s “ b ř35 2 i“1 pxi ´xq 34 7/23 “ ? 2 ˆ Z1´ α2 ˆ ?Sn . Pretende-se que Amplitude ă 1, 75 ô 2 ˆ 1, 96 ˆ 4,058 ă n 1, 75 ô n ą 80, 63. A dimensão mínima da amostra é de 81 peças. Estimação C. Fernandes & P. Ramos 8/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.2. O tempo em horas de funcionamento sem falha de um componente electrónico tem distribuição aproximadamente normal. Para estimar os parâmetros da referida distribuição foi recolhida uma amostra aleatória de 15 componentes para os quais foram observados ř15os tempos de funcionamento. Obtiveram-se os seguintes resultados: i“1 xi “ 147180 e ř15 2 i“1 xi “ 1446552944. Tem-se „ P ´tn´1;1´ α2 ă ȷ ă tn´1;1´ α2 “ 1 ´ α ô ı ” ô P ´tn´1;1´ α2 ˆ ?Sn ă X ´ µ ă tn´1;1´ α2 ˆ ?Sn “ 1 ´ α ô ” ı ô P X ´ tn´1;1´ α2 ˆ ?Sn ă µ ă X ` tn´1;1´ α2 ˆ ?Sn “ 1 ´ α. (a) Indique estimativas pontuais do tempo médio de funcionamento sem falha e do desvio padrão do tempo de funcionamento sem falha deste tipo de componentes. řn ř15 X x e o intervalo determinista: „ ȷ 416 416 “ sI0,95 r˚µ “ 9812 ´ 2, 1448 ˆ ? ; 9812 ` 2, 1448 ˆ ? 15 15 “ s9581, 625; 10042, 375r . (b) b) Construa um intervalo de confiança a 95% para o tempo médio de funcionamento sem falha de um componente electrónico. Seja X - “tempo de funcionamento sem falha de um componente electrónico em horas”. Pretendemos um intervalo de confiança para o tempo médio de funcionamento sem falha de um componente electrónico. – Nível de confiança: 1 ´ α “ 0, 95; X´µ S ? n „ tn´1 ; – Outros dados: x “ 9812 e s “ 416; ` ˘ ` ˘ onde Z1´ α2 “ Φ´1 1 ´ α2 é o percentil 100ˆ 1 ´ α2 da distribuição N p0; 1q. Erro máximo da estimativa: g ´ ¯ f f Pp 1 ´ Pp e . E “ Z1´ α2 n 1− α α/2 −tn−1;1− α/2 α/2 0 Intervalo de confiança para a proporção Se n ą 30 (amostras grandes) então fi g ´ g ´ ¯ ¯» f f f Pp 1 ´ Pp f Pp 1 ´ Pp — ffi e e —, p α ; Pp ` Z1´ α2 sI1´α rp “ ffi – flP ´ Z1´ 2 n n – Dimensão da amostra: n “ 15; – Variável fulcral: Estima-se, com um nível de confiança de 95%, que o tempo médio de funcionamento sem falha de um componente electrónico se situe entre 9581, 625 horas e 10042, 375 horas. 1.2.2 – Tipo de população: normal; S ? n Obtém-se o intervalo aleatório: ȷ „ S S sI1´α rµ “ X ´ tn´1;1´ α2 ˆ ? ; X ` tn´1;1´ α2 ˆ ? n n i i Como X “ i“1 obtém-se x “ i“1 “ 147180 “ 9812 horas. n 15 15 bř b ? n 2 ´nX 2 2 X i“1 i obtém-se s “ 1446552944´15ˆ9812 “ 173056 “ Como S “ n´1 14 416 horas. – Parâmetro a estimar: µ; X´µ tn−1;1− α/2 Tamanho da amostra: ´ ¯ ˆ Z1´ α ˙2 2 n ě Pp 1 ´ Pp , ε com ´tn´1;1´ α2 “ ´t14;0,975 “ ´2, 1448 e tn´1;1´ α2 “ t14;0,975 “ 2, 1448. onde ε é o valor do erro pretendido. Estimação C. Fernandes & P. Ramos 9/23 Estimação C. Fernandes & P. Ramos 10/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.3. O dono de uma ervanária produz um chá, relativamente ao qual, afirma ser eficaz em pelo menos 85% dos casos para curar dores de cabeça. Num inquérito feito a 250 pessoas, 198 concordaram que o chá cura de facto as dores de cabeça. Construa um intervalo de confiança com um nível de 95% para a percentagem de potenciais consumidores que concordam com o dono da ervanária. Seja X - “número de consumidores que concorda com o dono da ervanária”. Pretendemos um intervalo de confiança para a percentagem de potenciais consumidores que concordam com o dono da ervanária. Obtém-se o intervalo aleatório: fi g ´ g ´ ¯ ¯» f f f Pp 1 ´ Pp f Pp 1 ´ Pp ffi — e e p — α sI1´α rp “ ffi ; Pp ` Z1´ α2 ˆ flP ´ Z1´ 2 ˆ – n n e o intervalo determinista: ff sI0,95 r˚p “ • Parâmetro a estimar: p; • Tipo de população: Bernoulli; Estima-se que a percentagem de potenciais consumidores que concordam com o dono da ervanária se situe entre 74, 17% e 84, 23%, a um nível de confiança de 95%. • Dimensão da amostra: n “ 250; p c P ´p Pp p1´Pp q n • Outros dados: pp “ 198 250 „N 9 p0; 1q; 1.2.3 “ 0, 792; Intervalo de confiança para a variância duma população normal ff « pn ´ 1q S 2 pn ´ 1q S 2 sI1´α rσ2 “ ; , χ2n´1;1´ α χ2n´1; α 2 2 ` ˘ onde χ2n´1;1´ α é o percentil 100 ˆ 1 ´ α2 da distribuição χ2n´1 e χ2n´1; α é o 2 2 percentil 100 ˆ α2 da distribuição χ2n´1 . Este resultado não deve ser usado no caso de populações claramente não normais. 1− α α/2 α/2 −Z 1− α/2 0, 792 ˆ 0, 208 ; 250 « c 0, 792 ˆ 0, 208 “ 0, 792 ` 1, 96 ˆ 250 “ s0, 7417; 0, 8423r . • Nível de confiança: 1 ´ α “ 0, 95; • Variável fulcral: c 0, 792 ´ 1, 96 ˆ 0 Z 1− α/2 com ´Z1´ α2 “ ´Z0,975 “ ´1, 96 e Z1´ α2 “ Z0,975 “ 1, 96. Tem-se » P –´Z1´ α2 ă p c P ´p Pp p1´Pp q n fi 1− α ă Z1´ α2 fl “ 1 ´ α ô α/2 „ ȷ b b p p Pp p1´Pp q p ´ p ă Z1´ α ˆ P p1´P q “ 1 ´ α ô ô P ´Z1´ α2 ˆ ă P n n 2 ȷ „ b b p p Pp p1´Pp q p ` Z1´ α ˆ P p1´P q “ 1 ´ α. ă p ă P ô P Pp ´ Z1´ α2 ˆ n n 2 Estimação C. Fernandes & P. Ramos 11/23 χn2 −1;α/2 α/2 χn2 −1;1− α/2 Se pretendermos obter o intervalo de confiança para o desvio padrão faz-se « ffd d pn ´ 1q S 2 pn ´ 1q S 2 ; . sI1´α rσ “ χ2n´1;1´ α χ2n´1; α 2 Estimação C. Fernandes & P. Ramos 2 12/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.4. Um laboratório pretende avaliar a variabilidade associada ao resultado de um determinado método de análise química. Com esse objectivo, efectuaram-se 17 análises a uma determinada substância em que se seguiu o referido método, em condições perfeitamente estabilizadas. A variância amostral dos resultados, expressos numa determinada unidade, foi de 2, 70. Admitindo que o resultado das análises segue uma distribuição normal, construa um intervalo de confiança a 95% para o desvio padrão dos resultados do método de análise química. Seja X - “resultado de um determinado método de análise química”. Pretendemos um intervalo de confiança para o verdadeiro desvio padrão dos resultados do método de análise química. Vamos começar por construir o intervalo de confiança para a variância. Obtém-se o intervalo aleatório: sI1´α rσ2 e o intervalo determinista: • Dimensão da amostra: n “ 17; • Outros dados: s “ 2, 70; 1− α α/2 χn2 −1;1− α/2 com χ2n´1; α “ χ216;0,025 “ 6, 9077 e χ2n´1;1´ α “ χ216;0,975 “ 28, 8454. 2 2 Tem-se ” ı 2 P χ2n´1; α ă pn´1qS ă χ2n´1;1´ α “ 1 ´ α ô σ2 2 2 ȷ „ 2 χ2n´1;1´ α χn´1; α ô P pn´1qS22 ă σ12 ă pn´1qS 22 “ 1 ´ α ô „ ȷ 2 pn´1qS 2 2 ô P χpn´1qS ă σ ă “ 1 ´ α. 2 2 χ α α n´1;1´ 2 Estimação C. Fernandes & P. Ramos „ 16 ˆ 2, 70 16 ˆ 2, 70 ; “ 28, 8454 6, 9077 “ s1, 4976; 6, 2539r . Intervalo de confiança para a diferença de valores médios com duas amostras independentes • Se σ1 e σ2 são conhecidos, X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então fi d ` ˘ σ12 σ22 sI1´α rµ1 ´µ2 “ fl X 1 ´ X 2 ´ ` Z1´ α2 ; n1 n2 » d ˘ ` σ12 σ22 X1 ´ X2 ` ` Z1´ α2 – , n1 n2 2 χn2 −1;α/2 ȷ Estima-se, com um nível de confiança de 95%, que variância dos resultados do método de análise química se situe entre 1, 4976 e 6, 2539. O intervalo de confiança para o desvio padrão será: 1.2.4 χ2n´1 ; α/2 2 Estima-se, com um nível de confiança de 95%, que o desvio padrão dos resultados do método de análise química se situe entre 1, 2238 e 2, 5008. • Nível de confiança: 1 ´ α “ 0, 95; „ 2 « sI0,95 r˚σ “ s1, 2238; 2, 5008r . • Tipo de população: normal; • Variável fulcral: pn ´ 1q S 2 pn ´ 1q S 2 “ ; χ2n´1;1´ α χ2n´1; α sI0,95 r˚σ2 “ • Parâmetro a estimar: σ 2 ; pn´1qS 2 σ2 ff n´1; 2 13/23 ` ˘ ` ˘ onde Z1´ α2 “ Φ´1 1 ´ α2 é o percentil 100 ˆ 1 ´ α2 da distribuição N p0, 1q; • Se σ1 e σ2 são conhecidos, X1 e X2 seguem uma distribuição arbitrária e n1 ą 30 e n2 ą 30 então fi d ` ˘ σ12 σ22 fl ` Z1´ α2 ; sI1´α rµ1 ´µ2 “ X1 ´ X2 ´ n1 n2 » d ` ˘ σ12 σ22 X1 ´ X2 ` ` Z1´ α2 – , n1 n2 Estimação C. Fernandes & P. Ramos 14/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística ˘ ` ˘ ` onde Z1´ α2 “ Φ´1 1 ´ α2 é o percentil 100 ˆ 1 ´ α2 da distribuição N p0, 1q; • se σ1 e σ2 são desconhecidos, X1 e X2 seguem uma distribuição arbitrária e n1 ą 30 e n2 ą 30 então fi d ` ˘ S1 2 S2 2 fl sI1´α rµ1 ´µ2 “ X1 ´ X2 ´ ` Z1´ α2 ; n1 n2 » d ` ˘ S1 2 S2 2 ` Z1´ α2 – , X1 ´ X2 ` n1 n2 ` ˘ ` ˘ onde Z1´ α2 “ Φ´1 1 ´ α2 é o percentil 100 ˆ 1 ´ α2 da distribuição N p0, 1q; • Se σ1 e σ2 são desconhecidos, as populações são homocedásticas pσ12 “ σ22 q, X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então ˘ ‰` X 1 ´ X 2 ´ A ˆ tn1 `n2 ´2;1´ α2 ; sI1´α rµ1 ´µ2 “ ˘ “ ` X 1 ´ X 2 ` A ˆ tn1 `n2 ´2;1´ α2 , onde ˆ ˙ pn1 ´ 1q S1 2 ` pn2 ´ 1q S2 2 1 1 ` n1 ` n2 ´ 2 n1 n2 ` ˘ é o percentil 100 ˆ 1 ´ α2 da distribuição tn1 `n2 ´2 ; A“ e tn1 `n2 ´2;1´ α2 d • Se σ1 e σ2 são desconhecidos, as populações são heterocedásticas pσ12 ‰ σ22 q, X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então fi d ˘ ` S11 2 S21 2 fl ` tr;1´ α2 ; sI1´α rµ1 ´µ2 “ X1 ´ X2 ´ n1 n2 » d ˘ ` S1 2 S2 2 α X1 ´ X2 ` ` tr;1´ 2 – , n1 n2 onde r é o número natural mais próximo de r ˚ e este é dado por ´ 2 ¯ 2 2 S1 ` Sn22 n1 ˚ r “ ´ 2 ¯2 ´ 2 ¯2 . S1 1 ` n21´1 Sn22 n1 ´1 n1 Estimação C. Fernandes & P. Ramos 15/23 Exemplo 1.5. Um campo experimental foi utilizado para testar o crescimento de duas espécies florestais, A e B. Analisaram-se 200 árvores da espécie A com 2 anos de idade, obtendo-se uma altura média de 145cm e um desvio padrão de 15cm. Uma amostra de 150 árvores da espécie B, com a mesma idade, conduziu a uma altura média de 141cm e um desvio padrão de 12cm. Pretende-se determinar o intervalo de confiança a 95% para a diferença entre os valores esperados das alturas das duas espécies ao fim de dois anos. Sejam X1 - “altura, em cm, das árvores da espécie A” e X2 - “altura, em cm, das árvores da espécie B”. Pretendemos um intervalo de confiança para a diferença entre os valores esperados das alturas das duas espécies ao fim de dois anos. • Parâmetro a estimar: µ1 ´ µ2 ; • Tipos de população: Quaisquer; • Nível de confiança: 1 ´ α “ 0, 95; • Dimensão das amostras: n1 “ 200 e n2 “ 150; • Variável fulcral: pX 1 ´X 2 q´pµ1 ´µ2 q c 2 S1 S2 ` n2 n1 2 „N 9 p0; 1q; • Outros dados: x1 “ 145, x2 “ 141, s1 “ 15 e s2 “ 12; 1− α α/2 α/2 0 −Z 1− α/2 Z 1− α/2 com ´Z1´ α2 “ ´Z0,975 “ ´1, 96 e Z1´ α2 “ Z0,975 “ 1, 96. Tem-se » fi pX 1 ´X 2 q´pµ1 ´µ2 q – c α α ă Z1´ 2 fl “ 1 ´ α ô P ´Z1´ 2 ă S2 S2 Estimação C. Fernandes & P. Ramos 1 n1 ` n2 2 16/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística „ b 2 S P ´Z1´ α2 ˆ n11 ` ô ô P „ ` Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística ` ˘ ă X 1 ´ X 2 ´ pµ1 ´ µ2 q ă Z1´ α2 ˆ ȷ b 2 S S2 ˆ n11 ` n22 “ 1 ´ α ô S22 n2 b 2 ˘ S X 1 ´ X 2 ´ Z1´ α2 ˆ n11 ` ˆ b S12 n1 ` ˘ ă µ1 ´ µ2 ă X 1 ´ X 2 ` Z1´ α2 ˆ ȷ S2 ` n22 “ 1 ´ α. S22 n2 Obtém-se o intervalo aleatório: fi d ` ˘ S12 S22 fl sI1´α rµ1 ´µ2 “ X 1 ´ X 2 ´ Z1´ α2 ˆ ` ; n1 n2 » d ` ˘ S12 S22 – α ` X 1 ´ X 2 ` Z1´ 2 ˆ n1 n2 e o intervalo determinista: ff sI0,95 r˚µ1 ´µ2 “ com 95% de confiança, para a diferença entre os valores médios da quantidade de enxofre por quilograma de petróleo proveniente de cada campo. Sejam X1 - “conteúdo de enxofre no petróleo bruto no campo A, em gramas” e X2 - “conteúdo de enxofre no petróleo bruto no campo B, em gramas”. Pretendemos um intervalo de confiança para a diferença entre os valores médios da quantidade de enxofre por quilograma de petróleo proveniente de cada campo. • Parâmetro a estimar: µ1 ´ µ2 ; • Tipos de população: Normais; • Nível de confiança: 1 ´ α “ 0, 95; • Dimensão das amostras: n1 “ 10 e n2 “ 8; • Variável fulcral: c n1 `n2 ´2 1 ` n1 n1 2 ¯ „ tn1 `n2 ´2 ; • Outros dados: x1 “ 109, 6, x2 “ 105, 75, s21 “ 8, 267 e s22 “ 9, 643; c 152 122 ` ; 200 150 « c 152 122 p145 ´ 141q ` 1, 96 ˆ ` “ 200 150 p145 ´ 141q ´ 1, 96 ˆ pX 1 ´X 2 q´pµ1 ´µ2 q pn1 ´1qS12 `pn2 ´1qS22 ´ 1− α α/2 α/2 −tn +n −2;1− α/2 1 2 0 tn +n −2;1− α/2 1 2 “ s1, 1698; 6, 8302r . Estima-se que a diferença entre os valores esperados das alturas das duas espécies ao fim de dois anos se situe entre 1, 1698cm e 6, 8302cm, a um nível de confiança de 95%. Exemplo 1.6. Um determinado método de análise permite determinar o conteúdo de enxofre no petróleo bruto. Os ensaios efectuados em 10 e 8 amostras de 1kg de petróleo bruto, provenientes de furos pertencentes respectivamente aos campos A e B, revelaram os seguintes resultados (em gramas): • Campo A: 105, 111, 114, 112, 106, 110, 109, 107, 112, 110. com ´tn1 `n2 ´2;1´ α2 “ ´t16;0,975 “ ´2, 1199 e tn1 `n2 ´2;1´ α2 “ t16;0,975 “ 2, 1199. Tem-se » ` ˘ — ffi X 1 ´ X 2 ´ pµ1 ´ µ2 q ffi α P— ´ ¯ ă tn1 `n2 ´2;1´ α2 fl “ 1 ´ α –´tn1 `n2 ´2;1´ 2 ă c pn1 ´1qS12 `pn2 ´1qS22 1 1 ` n1 `n2 ´2 n1 n2 Considere que o conteúdo de enxofre por quilograma de petróleo bruto, medido em gramas para os dois campos, se pode considerar normal com variâncias iguais e que as amostras obtidas são independentes. Determine um intervalo, Para aligeirar esta expressão podemos considerar d ˆ ˙ pn1 ´ 1q S12 ` pn2 ´ 1q S22 1 1 A“ ` n1 ` n2 ´ 2 n1 n2 Estimação Estimação • Campo B: 101, 106, 104, 105, 103, 110, 108, 109. C. Fernandes & P. Ramos 17/23 fi C. Fernandes & P. Ramos 18/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística tendo-se “ ` ˘ P ´tn1 `n2 ´2;1´ α2 ˆ A ă X 1 ´ X 2 ´ pµ1 ´ µ2 q ă tn1 `n2 ´2;1´ α2 ˆ ˆAs “ 1 ´ α ô “` ` ˘ ˘ ô P X 1 ´ X 2 ´ tn1 `n2 ´2;1´ α2 ˆ A ă µ1 ´ µ2 ă X 1 ´ X 2 ` ‰ `tn1 `n2 ´2;1´ α2 ˆ A “ 1 ´ α. Obtém-se o intervalo aleatório: ˘ ‰` X 1 ´ X 2 ´ tn1 `n2 ´2;1´ α2 ˆ A; sI1´α rµ1 ´µ2 “ ` ˘ “ X 1 ´ X 2 ` tn1 `n2 ´2;1´ α2 ˆ A . Para obter o intervalo determinista teremos que calcular d ˆ ˙ 9 ˆ 8, 267 ` 7 ˆ 9, 643 1 1 ` “ 1, 413 A“ 16 10 8 • Parâmetro a estimar: p1 ´ p2 ; • Tipos de população: Bernoulli; • Nível de confiança: 1 ´ α “ 0, 95; e tem-se: sI0,95 r˚µ1 ´µ2 “ sp109, 6 ´ 105, 75q ´ 2, 1199 ˆ 1, 413; p109, 6 ´ 105, 75q ` `2, 1199 ˆ 1, 413r “ “ s0, 855; 6, 845r . Estima-se, com um nível de confiança de 95%, que a diferença entre os valores médios da quantidade de enxofre por quilograma de petróleo proveniente de cada campo se situe entre 0, 855 gramas e 6, 845 gramas. 1.2.5 Exemplo 1.7. Uma grande cadeia de venda a retalho pretende comparar os hábitos de compra de homens e mulheres. Uma das variáveis em estudo consiste na proporção de vezes que uma compra é concretizada após a entrada numa loja. Em 45 observações seleccionadas aleatoriamente, os homens realizaram compras 27 vezes. No caso das mulheres, em 74 observações a compra concretizou-se 32 vezes. Com base nestes dados, construa o intervalo de confiança a 95% para a diferença entre as proporções de concretização de compras entre homens e mulheres. Sejam X1 - “número de vezes que a compra é concretizada pelos homens” e X2 - “número de vezes que a compra é concretizada pelas mulheres”. Pretendemos um intervalo de confiança para a diferença entre as proporções de concretização de compras entre homens e mulheres. • Dimensão das amostras: n1 “ 45 e n2 “ 74; • Variável fulcral: „N 9 p0; 1q; “ 0, 6 e pp2 “ 32 74 “ 0, 43; 1− α α/2 α/2 0 Z 1− α/2 com ´Z1´ α2 “ ´Z0,975 “ ´1, 96 e Z1´ α2 “ Z0,975 “ 1, 96. ˘ ` ˘ ` onde Z1´ α2 “ Φ´1 1 ´ α2 é o percentil 100ˆ 1 ´ α2 da distribuição N p0, 1q. C. Fernandes & P. Ramos 27 45 −Z 1− α/2 » g ´ ¯ ´ ¯ f p p ´ ¯ f Pp2 1 ´ Pp2 — e P1 1 ´ P1 ` Z1´ α2 — Pp1 ´ Pp2 ` –, n1 n2 Estimação Pp1 p1´Pp1 q Pp2 p1´Pp2 q ` n1 n2 • Outros dados: pp1 “ Intervalo de confiança para a diferença de proporções com duas amostras independentes Se n1 ą 30 e n2 ą 30 (amostras grandes) então fi g ´ ´ ¯ ¯ f p p ¯ f Pp2 1 ´ Pp2 ffi´ e P1 1 ´ P1 p p ffi ` Z1´ α2 ; sI1´α rp1 ´p2 “ fl P1 ´ P2 ´ n1 n2 pPp1 ´Pp2 q´pp1 ´p2 q c 19/23 Tem-se » fi ´ ¯ Pp1 ´ Pp2 ´ pp1 ´ p2 q — ffi α P— ă Z1´ α2 ffi –´Z1´ 2 ă c p fl “ 1 ´ α ô P1 p1´Pp1 q Pp2 p1´Pp2 q ` n1 n2 Estimação C. Fernandes & P. Ramos 20/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística ô « P ´Z1´ α2 ˆ ô P « c Pp1 p1´Pp1 q n1 ˆ c ´ ¯ Pp1 ´ Pp2 ´ Z1´ α2 ˆ ` Pp2 p1´Pp2 q n2 Pp1 p1´Pp1 q n1 c `Z1´ α2 ˆ ` Pp1 p1´Pp1 q n1 c Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística ´ ¯ ă Pp1 ´ Pp2 ´ pp1 ´ p2 q ă Z1´ α2 ˆ Pp2 p1´Pp2 q n2 ` ff “1´αô Pp2 p1´Pp2 q n2 Pp1 p1´Pp1 q n1 ` ´ ¯ ă p1 ´ p2 ă Pp1 ´ Pp2 ` Pp2 p1´Pp2 q n2 ff g ´ ´ ¯» ¯ f f Pp1 1 ´ Pp1 p2 1 ´ Pp2 — ´ ¯ P e — ` Pp1 ´ Pp2 ` Z1´ α2 ˆ – n1 n2 sI0,95 r˚p1 ´p2 “ c 0, 6 ˆ 0, 4 0, 43 ˆ 0, 57 ` ; 45 74 « c 0, 6 ˆ 0, 4 0, 43 ˆ 0, 57 p0, 6 ´ 0, 43q ` 1, 96 ˆ ` “ 45 74 p0, 6 ´ 0, 43q ´ 1, 96 ˆ “ s´0, 0118; 0, 3518r . α/2 F (n 1−1;n2 −1;α/2) F (n 1−1;n2 −1;1−α/2) Exemplo 1.8. Pretende-se comparar o desempenho de duas máquinas, A e B, no que diz respeito à precisão de fabrico de uma peça. A partir de 13 peças produzidas na máquina A e de 16 peças produzidas na máquina B, obtiveram-se os seguintes resultados para a variância amostral de uma determinada dimensão cotada no desenho: s21 “ 6, 32mm2 para a máquina A e s22 “ 4, 8mm2 para a máquina B. Admitindo que para as duas máquinas a distribuição da referida dimensão é normal, determine um intervalo de confiança a 90% para a razão entre as variâncias σ12 e σ12 . Sejam X1 - “dimensão cotada no desenho de uma peça produzida na máquina A em mm” e X2 - “dimensão cotada no desenho de uma peça produzida na máquina B em mm”. Pretendemos um intervalo de confiança para o quociente entre as variâncias das dimensões cotadas no desenho para peças produzidas nas duas máquinas. • Parâmetro a estimar: σ22 ; σ12 • Tipos de população: Normais; Estima-se que a diferença entre as proporções de concretização de compras entre homens e mulheres se situe entre ´0, 0118 e 0, 3518, a um nível de confiança de 95%. 1.2.6 1− α α/2 “ 1 ´ α. Obtém-se o intervalo aleatório: fi g ´ ¯ ´ ¯ f f Pp1 1 ´ Pp1 ´ ¯ Pp2 1 ´ Pp2 ffi e p p α sI1´α rp1 ´p2 “ ffi ` ; fl P1 ´ P2 ´ Z1´ 2 ˆ n1 n2 e o intervalo determinista: ff ˘ ` F onde F n1 ´` 1; n2 ´ 1; α2 designa˘o percentil 100ˆ α2 da distribuição ` ˘ pn1 ´ 1; n2 ´ 1q e F n1 ´ 1; n2 ´ 1; 1 ´ α2 designa o percentil 100 ˆ 1 ´ α2 da distribuição F pn1 ´ 1; n2 ´ 1q. Intervalo de confiança para o quociente de duas variâncias de populações normais Sejam X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Yn duas amostras aleatórias independentes de dimensão n1 e n2 , respectivamente, onde X „ N pµ1 ; σ1 q e Y „ N pµ2 ; σ2 q. Então „ ȷ 2 ´ ´ α ¯ S22 α¯ S2 ; , sI1´α r σ22 “ ˆ F n ´ 1; n ´ 1; ˆ F n ´ 1; n ´ 1; 1 ´ 1 2 1 2 S12 2 S12 2 σ2 • Nível de confiança: 1 ´ α “ 0, 90; • Dimensão das amostras: n1 “ 13 e n2 “ 16; • Variável fulcral: S12 S22 ˆ σ22 σ12 „ F pn1 ´ 1; n2 ´ 1q; • Outros dados: s21 “ 6, 32, s22 “ 4, 8; 1 Estimação C. Fernandes & P. Ramos 21/23 Estimação C. Fernandes & P. Ramos 22/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 1− α α/2 α/2 F (n 1−1;n2 −1;α/2) F (n 1−1;n2 −1;1−α/2) ˘ ` 1 1 “ 2,6169 “ com F n1 ´ 1; n2 ´ 1; α2 “ F p12; 15; 0, 05q “ F p15;12;0,95q ˘ ` α 0, 3821 e F n1 ´ 1; n2 ´ 1; 1 ´ 2 “ F p12; 15; 0, 95q “ 2, 4753. Tem-se ” ` ˘ P F n1 ´ 1; n2 ´ 1; α2 ă ô S12 S22 ˆ σ22 σ12 ` ˘ı ă F n1 ´ 1; n2 ´ 1; 1 ´ α2 “ “1´αô ” ` ` ˘ S2 ˘ σ2 P F n1 ´ 1; n2 ´ 1; α2 ˆ S22 ă σ22 ă F n1 ´ 1; n2 ´ 1; 1 ´ α2 ˆ 1 1 ı S2 ˆ S22 “ 1 ´ α. 1 Obtém-se o intervalo aleatório: „ ȷ ´ ´ α ¯ S22 α ¯ S22 ˆ 2 ; F n1 ´ 1; n2 ´ 1; 1 ´ ˆ 2 sI1´α r σ22 “ F n1 ´ 1; n2 ´ 1; 2 S1 2 S1 σ2 1 e o intervalo determinista: „ ȷ 4, 8 4, 8 sI0,9 r˚σ22 “ 0, 3817 ˆ ; 2, 4753 ˆ “ 6, 32 6, 32 σ2 1 “ s0, 2902; 1, 8800r . Estima-se que o quociente entre as variâncias das dimensões cotadas no desenho para peças produzidas nas duas máquinas se situe entre 0, 2902mm e 1, 8800mm, a um nível de confiança de 90%. Estimação C. Fernandes & P. Ramos 23/23