Instituto Politécnico de Leiria Escola Superior de Tecnologia e Gestão Apontamentos Teóricos de Estatística Rui Filipe Vargas de Sousa Santos Departamento de Matemática 2004 O presente trabalho é um texto provisório e tem como objectivo auxiliar os alunos na disciplina de Estatística. 1 Probabilidades 1.1 Introdução A Teoria das Probabilidades teve origem nos chamados jogos de azar, por volta do século XV II, com Chevalier, Fermat e Pascal. Entretanto outros matemáticos se interessaram pela Teoria das Probabilidades, tais como Bernoulli (1654 − 1705), que introduziu a base matemática da teoria, estabelecendo a relação entre probabilidade e frequência relativa. Laplace (1749 − 1827) introduziu o conceito clássico de probabilidade e Gauss (1777 − 1855) alargou o campo da aplicação do cálculo de probabilidades a outras ciências tais como a psicologia, a astronomia, a economia, a administração de empresas, entre outras. Na segunda metade do século XIX a Teoria das Probabilidades atingiu um dos seus momentos mais altos com os trabalhos da escola russa fundada por Tchebycheff (1821 − 1894), que contou com representantes como Markov (1856 − 1922) e Lyapunov (1857 − 1918) e teve o principal expoente em Kolmogorov, a quem se deve um estudo indispensável sobre os fundamentos da Teoria das Probabilidades publicado em 1933 e traduzido em 1950 para inglês sob o título de “Foundations of Probability”. Noções básicas A Teoria das Probabilidades tem como objectivo formular modelos de fenómenos naturais onde se supõe intervir o acaso, ou seja, de fenómenos cujo futuro não pode ser previsto deterministicamente apesar das informações sobre o seu passado, mas para os quais se podem encontrar, sob certas condições, taxas de realização constantes que permitem certas previsões de índole geral. Estes fenómenos dizem-se fenómenos aleatórios, isto é, são fenómenos sujeitos à influência do acaso e, como tal, fora do alcance do observador. Exemplos 1.1.1 • Ao atirar uma moeda ao ar não se sabe se vai sair cara ou coroa. • Ao lançar um dado não se sabe qual das faces ficará voltada para cima. • Ao tirar uma carta de um baralho não se sabe qual a carta que irá sair. 1 • Ao jogar no totoloto não se sabe quais os números que irão sair. Em cada um dos exemplos dados não é possível saber a priori o resultado que se irá obter. Os fenómenos aleatórios são caracterizados: — pela sua imprevisibilidade (fenómeno não determinístico), — pela sua regularidade estatística (observando o fenómeno um grande número de vezes, nas mesmas condições, a frequência relativa de cada resultado possível do fenómeno tende a estabilizar, aproximando-se dum valor constante). Sendo assim, num fenómeno aleatório não se pode prever o resultado da próxima prova, mas pode-se fazer uma previsão do resultado em média; define-se, então, experiência aleatória como sendo todo o procedimento que se pode repetir um grande número de vezes nas mesmas condições e cujo resultado é imprevisível. À Teoria das Probabilidades não interessa estudar fenómenos cujos resultados podem ser estabelecidos por leis expressas por fórmulas matemáticas ou da física. Exemplos 1.1.2 • Deixar cair uma pedra do cimo de uma torre e medir o tempo que demora a atingir o solo. • Suspender uma agulha magnética e registar a direcção indicada por ela. • Friccionar dois vidros e verificar se eles se repelem. Estes fenómenos chamam-se fenómenos deterministas, sendo as experiências deterministas ou causais caracterizadas por produzirem o mesmo resultado, desde que sejam repetidas sob as mesmas condições. Contudo, apesar de não ser possível prever com exactidão o resultado de uma experiência aleatória, podem-se identificar quais são os resultados que podem ocorrer nessa experiência aleatória. Assim, chama-se universo, espaço amostral ou espaço de resultados, representado-se por Ω = {ω 1 , ω2 , ω3 , ..., ω n }, ao conjunto formado por todos os resultados (ωi ) que é possível obter quando se efectua uma experiência aleatória. 2 Exemplo 1.1.3 • Lançamento de um dado e registo do número de pontos que sai, tem-se Ω = {1, 2, 3, 4, 5, 6}. • Lançamento de uma moeda e a observação da face que fica voltada para cima tem-se Ω = {F, C}. • Lançamento de duas moedas Ω = {F F, F C, CF, CC}. • Tempo de trabalho de uma máquina até à primeira avaria, vem Ω = R+ 0. A qualquer subconjunto do espaço amostral chama-se acontecimento aleatório. Note-se que, como qualquer conjunto é subconjunto de si próprio, tem-se que Ω é também um acontecimento. Os acontecimentos podem ser divididos em quatro categorias: i) Acontecimentos elementares - cada um dos resultados possíveis da experiência aleatória, ou seja, cada elemento de Ω; ii) Acontecimentos compostos - acontecimentos formados por dois ou mais elementos do espaço amostral; iii) Acontecimento certo - espaço de resultados (Ω); iv) Acontecimento impossível - acontecimento que não contém nenhum elemento do espaço amostral, sendo representado por ∅ ou {}. Exemplo 1.1.4 • No lançamento de duas moedas Ω = {F F, F C, CF, CC} há: → 4 acontecimentos elementares {F F }, {F C}, {CF }, {CC}; → 11 acontecimentos compostos {F F, F C}, {F F, CF }, {F F, CC}, {F C, CF }, {F C, CC}, {CF, CC}, {F F, F C, CF }, {F F, F C, CC}, {F F, CF, CC}, {F C, CF, CC}, Ω; → 1 acontecimento certo Ω = {F F, F C, CF, CC}; 3 → 1 acontecimento impossível ∅ ou {}. Diz-se que um acontecimento A, A ⊂ Ω, se realiza quando o resultado é um elemento que pertence a A : ω ∈ A, isto é, um acontecimento realiza-se se e só se o resultado da experiência aleatória pertence a esse acontecimento. Exemplo 1.1.5 Seja Ω = {1, 2, 3, 4, 5, 6} o espaço amostral associado ao lançamento de um dado e considerem-se os seguintes subconjuntos (acontecimentos): A = {1, 2, 3}; B = {2, 4, 6}; C = {4} → Se no lançamento sair o número 4, diz-se que os acontecimentos B e C se realizaram, enquanto que o acontecimento A não se realizou. → Se no lançamento do dado sair 5, significa que nenhum dos acontecimentos se realizou. Através da definição de acontecimento verifica-se que há uma equivalência entre a noção de acontecimento e a noção de conjunto. Tem-se então um paralelismo entre as propriedades de conjuntos e as propriedades de acontecimentos. Considerem-se as principais propriedades dos acontecimentos. Propriedades dos acontecimentos Definição 1.1.1 (Intersecção de acontecimentos) Intersecção dos acontecimentos A e B é o acontecimento A ∩ B que se realiza apenas quando ambos os acontecimentos se realizam e é formado pelos elementos comuns a A e a B. Com o intuito de facilitar a exposição, supõe-se Ω equivalente a um rectângulo de R2 onde os acontecimentos são representados por subconjuntos convenientes do mesmo rectângulo. Assim, os conhecidos diagramas de Venn, representam-se da seguinte forma: 4 Figura 1: Intersecção de acontecimentos: A ∩ B Propriedades 1.1.1 (Propriedades da intersecção) i) Comutatividade A∩B =B∩A ii) Associatividade A ∩ (B ∩ C) = (A ∩ B) ∩ C iii) Elemento neutro A∩Ω=A iv) Elemento absorvente A ∩ ∅ = ∅ v) Idempotência A∩A=A Definição 1.1.2 (União de Acontecimentos) Dados os acontecimentos A e B chama-se união de A com B ao acontecimento que consiste na realização de pelo menos um deles, sendo constituído por todos os elementos de A e todos os de B e representado por A ∪ B. Figura 2: União de acontecimentos: A ∪ B 5 Propriedades 1.1.2 (Propriedades da união) i) Comutatividade A∪B =B∪A ii) Associatividade A ∪ (B ∪ C) = (A ∪ B) ∪ C iii) Elemento neutro A∪∅=A iv) Elemento absorvente A ∪ Ω = Ω v) Idempotência A∪A=A Além das propriedades da intersecção e da união já referidas, existe ainda a salientar a propriedade distributiva. Propriedade 1.1.3 (Distributividade) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) Definição 1.1.3 (Acontecimento complementar) Dado um acontecimento A, chama-se acontecimento complementar de A ou acontecimento contrário a A ao conjunto de todos os elementos do espaço amostral (Ω) que não pertencem a A, representando-se por A ou AC . Ou seja, A e A dizem-se acontecimentos complementares no caso de A se realizar sse (sse lê-se se e só se e representa uma equivalência) A não se realizar. Figura 3: A - acontecimento complementar de A 6 Propriedades 1.1.4 (Propriedades dos acontecimentos complementares) i) A∪A=Ω ii) A∩A=∅ iii) Leis de De Morgan A ∩ B = A ∪ B A∪B =A∩B iv) Dupla negação A=A Definição 1.1.4 (Subacontecimento) Diz-se que A é um subacontecimento de B e escreve-se A ⊂ B, quando a realização de A implica a realização de B, ou seja, quando todos os elementos de A são elementos de B. Figura 4: A é subacontecimento de B, A ⊂ B Propriedades 1.1.5 No caso de A ⊂ B tem-se i) A∩B =A ii) A ∪ B = B Definição 1.1.5 (Acontecimentos idênticos) A e B são acontecimentos idênticos quando A ⊂ B e B ⊂ A, isto é, quando a realização de um implica a realização do outro e escreve-se A = B. 7 Definição 1.1.6 (Acontecimentos incompatíveis) Os acontecimentos A e B dizem-se incompatíveis ou mutuamente exclusivos quando a realização de um implica a não realização do outro, isto é, quando A ∩ B = ∅ sendo ∅ o acontecimento impossível (não existe nenhum elemento comum aos acontecimentos A e B). Figura 5: Acontecimentos A e B incompatíveis, A ∩ B = ∅ Definição 1.1.7 (Diferença de acontecimentos) Chama-se diferença dos acontecimentos A e B ao acontecimento A\B = A ∩ B, ou seja, ao acontecimento que se realiza quando A se realiza sem que B se realize. Figura 6: Diferença de acontecimentos: A\B = A ∩ B 8 Exemplo 1.1.6 Seja Ω = {1, 2, 3, 4, 5, 6} o espaço amostral associado ao lançamento de um dado e considere-se os seguintes acontecimentos: A = {1, 2, 3} e B = {2, 4, 6} • A = {4, 5, 6}; • B = {1, 3, 5}; • A ∪ A = {1, 2, 3} ∪ {4, 5, 6} = Ω; • A ∩ A = {1, 2, 3} ∩ {4, 5, 6} = ∅; • A ∪ B = {1, 2, 3} ∪ {2, 4, 6} = {1, 2, 3, 4, 6}; • A ∩ B = {1, 2, 3} ∩ {2, 4, 6} = {2}; • A\B = {1, 2, 3}\{2, 4, 6} = {1, 3} ou A\B = A ∩ B = {1, 2, 3} ∩ {1, 3, 5} = {1, 3}; • B\A = {2, 4, 6}\{1, 2, 3} = {4, 6} ou B\A = B ∩ A = {2, 4, 6} ∩ {4, 5, 6} = {4, 6}; • A ∩ B = {4, 5, 6} ∩ {1, 3, 5} = {5} ou A ∩ B = A ∪ B = {1, 2, 3, 4, 6} = {5}; • A ∪ B = {4, 5, 6} ∪ {1, 3, 5} = {1, 3, 4, 5, 6} ou A ∪ B = A ∩ B = {2} = {1, 3, 4, 5, 6}. 9 1.2 Definição de Probabilidade Intuitivamente, a noção de probabilidade de um acontecimento é uma medida da possibilidade de ocorrência do acontecimento quando se realiza a experiência aleatória à qual o acontecimento está ligado. 1.2.1 Definição clássica de probabilidade A primeira definição de probabilidade conhecida foi sintetizada por Laplace no princípio do século XIX, sob as hipóteses de casos igualmente prováveis ou possíveis, também conhecido por princípio de simetria, e de existência de um número finito de casos possíveis. A definição de Laplace dizia o seguinte: Definição 1.2.1 (Clássica de Probabilidades) A probabilidade de realização de um dado acontecimento é igual ao quociente entre o número de casos favoráveis à realização desse acontecimento e o número total de casos possíveis, desde que todos os acontecimentos sejam igualmente prováveis e o número total de casos possíveis seja finito. Representando-se por P(A) a probabilidade de um acontecimento A, então, na definição clássica de probabilidade, tem-se: P(A) = número de casos favoráveis ao acontecimento A . número de casos possíveis (1) Exemplo 1.2.1 • Voltando ao exemplo do lançamento de um dado, onde Ω = {1, 2, 3, 4, 5, 6} é o espaço amostral associado que contém 6 resultados possíveis, vai-se calcular a probabilidade dos seguintes acontecimentos: — P(“saída de cinco pontos”) = P ({5}) = 10 1 (pois só tem um caso favorável); 6 — P(“saída de um número par”) = P ({2, 4, 6}) = 3 (pois tem três casos favoráveis); 6 — P(“saída de um número superior a um”) = P ({2, 3, 4, 5, 6}) = 5 (pois tem cinco 6 casos favoráveis). No entanto, nem todas as probabilidades são tão fáceis de calcular como no exemplo apresentado, tendo-se, em muitos casos, que recorrer à analise combinatória. Revisões de análise combinatória Definição 1.2.2 (Permutações sem repetição) Permutações sem repetição - Número de sequências que é possível formar com n elementos distintos. n! = n × (n − 1) × · · · × 2 × 1, sendo 0! = 1. (2) Definição 1.2.3 (Permutações com repetição) Permutações com repetição - Número de sequências que é possível formar com n elementos, dos quais n1 são do tipo um, n2 são do tipo dois, · · · , e nk são do tipo k, verificando-se n1 + n2 + ... + nk = n. n! . n1 ! × n2 ! × · · · × nk ! (3) Exemplos 1.2.2 • De quantas maneiras diferentes é possível ordenar as letras da palavra «permuta»? → Considerando que a palavra « permuta» é constituída por sete letras diferentes, o número de ordenações das letras desta palavra é 7! = 5040. 11 • De quantas maneiras diferentes é possível ordenar as letras da palavra «características»? → Considerando que a palavra « características» é constituída por quinze letras, entre as quais se têm três c, três a, dois r, dois t, um e, dois i e dois s, então o número de ordenações das letras desta palavra é determinado por 15! = 2270268000. 3!3!2!2!1!2!2! Definição 1.2.4 (Arranjos com repetição) Arranjos com repetição - Número de sequências de k elementos que é possível formar de um grupo de n elementos distintos. n A0k = nk . (4) Exemplo 1.2.3 • Quantos números de vinte algarismos se podem escrever utilizando os dígitos 1 e 0? → O que se pretende é determinar o número de sequências de vinte algarismos que podem ser formadas utilizando os dígitos 1 e 0 (podendo-se repetir o mesmo dígito). Assim, a resposta é determinada por n A0k = 2 A020 = 220 = 1 048 576. Definição 1.2.5 (Arranjos sem repetição) Arranjos sem repetição - Número de sequências de k elementos diferentes que é possível formar de um grupo de n elementos distintos (k ≤ n). n Ak = n! . (n − k)! 12 (5) Exemplo 1.2.4 • Numa corrida participam dez concorrentes. Considerando que três vão receber medalhas (ouro, prata e bronze), de quantas maneiras diferentes se podem distribuir pelo pódio os dez concorrentes? → O pretendido é calcular o número de sequências de três corredores que podem ser formadas, sem repetir o mesmo corredor, de entre os dez participantes. Assim, a resposta é determinada por n Ak = 10 A3 = 10! 10 × 9 × 8 × 7! = = 10 × 9 × 8 = 720. (10 − 3)! 7! Definição 1.2.6 (Combinações sem repetição) Combinações sem repetição - Número de conjuntos de k elementos diferentes que é possível formar de um grupo de n elementos distintos (k ≤ n). µ ¶ n n! n . Ck = = (n − k)!k ! k (6) Exemplo 1.2.5 • Numa reunião foi decidido escolher, de entre os trinta indivíduos que nela participavam, um grupo de dez para efectuar determinado trabalho. Quantos grupos diferentes é possível formar? → O que é pretendido determinar, neste exemplo, é o número de conjuntos (pois não interessa a ordem com que são escolhidos, mas unicamente quais são os elementos que constituem o grupo de trabalho) de dez indivíduos que é possível formar utilizando os trinta indivíduos presentes na reunião (sem repetição pois um indivíduo não pode ser escolhido duas vezes). Assim, o número de grupos diferentes que é possível formar é determinado por 30 C10 µ ¶ 30 30! = 30 045 015. = = (30 − 10)!10! 10 13 Saliente-se que, quando são utilizados arranjos, está-se a calcular o número de sequências, onde a ordem dos elementos tem influência no agrupamento, e, quando são utilizadas combinações, está-se a calcular o número de conjuntos, onde a ordem dos elementos não tem influência. Assim, pode-se resumir o que foi descrito para os arranjos e para as combinações através do seguinte quadro: Quadro 1: Resumo de análise combinatória Sem repetição (k ≤ n) n! n 0 n Ak = nk Ak = (n − k)! ¡ ¡ ¢ ¢ n+k−1 n Ck = n+k−1 Ck = nk k Com repetição Interessa a ordem Não interessa a ordem A interpretação clássica de Laplace manteve-se até ao início deste século quando começaram a surgir críticas, quer no que diz respeito ao cálculo de probabilidades onde o princípio da simetria não é verificado, quer em situações em que o número de casos possíveis não é finito nem sequer numerável. Apesar de todas as críticas, são ainda muitos os exemplos em que há simetria e o número de casos possíveis é finito, pelo que continua a ser possível aplicar esta teoria. 14 1.2.2 Definição frequencista de probabilidade A regularidade estatística dos fenómenos aleatórios fez surgir uma outra teoria, a teoria frequencista das probabilidades. Esta teoria surgiu no início do século XX (tendo como autores Venn, Von Mises, Reichenbach, Salmon, entre outros) e, segundo ela, a probabilidade de um acontecimento pode ser determinada observando a frequência relativa desse acontecimento numa sucessão numerável de experiências aleatórias, idênticas e independentes. Efectuando n repetições de uma experiência aleatória, seja fA a frequência relativa do acontecimento A. Devido ao princípio da regularidade estatística é de esperar que as frequências relativas de A numa sucessão de provas com um grande número de repetições sejam aproximadamente iguais a um número P (com 0 ≤ P ≤ 1). Exemplo 1.2.6 • Para testar a qualidade dos dados produzidos numa fábrica recolheu-se uma amostra e cada um destes dados foi lançado um número muito grande de vezes. Se o dado for perfeito, espera-se que cada face saia o mesmo número de vezes, ou seja, que os resultados possam Frequência relativa ser apresentados num gráfico com o seguinte aspecto: 20,00% 15,00% 10,00% 5,00% 0,00% 1 2 3 4 5 6 Número da face Os gráficos seguintes foram obtidos a partir do lançamento de dois dados (A e B). 15 Dado B Resultado de 100 lançamentos Resultado de 100 lançamentos 30,00% 20,00% Frequência relativa Frequência relativa Dado A 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% 1 2 3 4 5 18,00% 16,00% 14,00% 12,00% 10,00% 1 6 2 5 Resultado de 1000 lançamentos Resultado de 1000 lançamentos 35,00% 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% 20,00% Frequência relativa Frequência relativa 4 6 Número da face Número da face 18,00% 16,00% 14,00% 12,00% 10,00% 1 2 3 4 5 6 1 2 3 4 5 6 Número da face Número da face Resultado de 10000 lançamentos Resultado de 10000 lançamentos 20,00% 35,00% 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% Frequência relativa Frequência relativa 3 18,00% 16,00% 14,00% 12,00% 10,00% 1 2 3 4 5 6 1 2 3 4 5 6 Número da face Número da face Analisando os resultados da experiência, considera-se o dado A como viciado e o dado B como perfeito. Nesta experiência utilizou-se o conhecimento de que, à medida que aumenta o número de experiências, a frequência relativa tende a estabilizar à volta de um valor. 16 1.2.3 Definição axiomática de probabilidade No início do século XX começou-se a sentir a necessidade de uma axiomatização da teoria das probabilidades que permitisse ultrapassar a ambiguidade de certos conceitos e interpretações. A definição de probabilidade que irá ser apresentada foi introduzida por Kolmogorov em 1933. Definição 1.2.7 (Definição axiomática de probabilidade) Considere-se uma experiência aleatória com espaço de resultados e seja A, com A ⊂ Ω, um acontecimento. Chama-se probabilidade à função P que a cada acontecimento associa um número real, representado por P(A) e denominado probabilidade do acontecimento A, que satisfaz as seguintes propriedades (axiomas): (A1 ) ∀A ⊂ Ω, P (A) ≥ 0; (A2 ) P (Ω) = 1; (A3 ) ∀A, B ⊂ Ω : A ∩ B = ∅ 1 =⇒ P (A ∪ B) = P (A) + P (B). Nota: Quando Ω é infinito, o conjunto de axiomas está incompleto. Terá, então, que ser considerado a generalização do terceiro axioma: Ã+∞ ! +∞ [ X (A∗3 ) P Ai = P (Ai ) se Ai ∩ Aj = ∅, para ∀i 6= j. i=1 i=1 Leis básicas das probabilidades Muitas propriedades úteis e interessantes podem ser deduzidas dos três axiomas da definição axiomática de probabilidade. Vão-se analisar algumas destas propriedades. Teorema 1.2.1 ∀A ⊂ Ω, P (A) + P (A) = 1, ou seja, P (A) = 1 − P (A). 1 A e B são acontecimentos incompatíveis ou mutuamente exclusivos. 17 Demonstração: Pelo segundo axioma (A2 ) tem-se que P (Ω) = 1. Considerando que, para qualquer acontecimento A, Ω = A ∪ A, obtém-se 1 = P (Ω) = P (A ∪ A). Tendo em conta que se pretende a probabilidade da união de dois acontecimentos ¡ ¢ disjuntos A ∩ Ā = ∅ , pelo terceiro axioma (A3 ) vem 1 = P (Ω) = P (A ∪ A) = P (A) + P (A), donde se conclui que P (A) + P (A) = 1 ⇔ P (A) = 1 − P (A). Teorema 1.2.2 Sendo ∅ o acontecimento impossível, então P (∅) = 0. Demonstração: Como ∅ = Ω pelo teorema 1.2.1 vem P(∅) = 1 − P (∅) = 1 − P (Ω), que considerando que P (Ω) = 1 (A2 ) vem 1 − P (Ω) = 1 − 1 = 0. Teorema 1.2.3 ∀A, B ⊂ Ω : A ⊂ B ⇒ P (A) ≤ P (B). Demonstração: Se A ⊂ B ⇒ B = A ∪ (B ∩ A) e A ∩ (B ∩ A) = ∅, então por (A3 ) conclui-se que ¤ £ P (B) = P A ∪ (B ∩ A) = P (A) + P (B ∩ A), como P (B ∩ A) ≥ 0 por (A1 ), vem P (B) = P (A) + P (B ∩ A) ⇒ P (B) ≥ P (A). 18 Teorema 1.2.4 ∀A ⊂ Ω, P (A) ≤ 1. Demonstração: Considerando que A ⊂ Ω e P (Ω) = 1 pelo teorema 1.2.3 vem P (A) ≤ P (Ω) = 1. Teorema 1.2.5 ∀A, B ⊂ Ω, P (A) = P (A ∩ B) + P (A ∩ B), ou seja, P (A ∩ B) = P (A) − P (A ∩ B).2 Demonstração: Como A = (A ∩ B) ∪ (A ∩ B) [ou A = (A ∩ B) ∪ (A\B)], vem ¤ £ P (A) = P (A ∩ B) ∪ (A ∩ B) , onde A∩B e A∩B são acontecimentos incompatíveis, ou seja, (A∩B)∩(A∩B) = ∅ então, por (A3 ) vem P (A) = P (A ∩ B) + P (A ∩ B). Teorema 1.2.6 ∀A, B ⊂ Ω, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Demonstração: Como A ∪ B = A ∪ (B ∩ A) e A ∩ (B ∩ A) = ∅, recorrendo a (A3 ) vem £ ¤ P (A ∪ B) = P A ∪ (B ∩ A) = P (A) + P (B ∩ A), utilizando o teorema 1.2.5 que diz que P (B ∩ A) = P (B) − P (B ∩ A) obtém-se P (A ∪ B) = P (A) + P (B) − P (B ∩ A) = P (A) + P (B) − P (A ∩ B). 2 A ∩ B = A\B 19 Exemplo 1.2.7 • Em determinada população, a revista A é adquirida por 9.8 por cento dos seus habitantes [P (A) = 0.098], a revista B por 22.9 por cento [P (B) = 0.229] e 5.1 por cento da população adquire a revista A e a revista B [P (A ∩ B) = 0.051]. Qual a probabilidade de uma pessoa escolhida ao acaso: → não adquirir a revista A? [acontecimento A] P (A) = 1 − P (A) = 1 − 0.098 = 0.902. → adquirir pelo menos uma revista? [acontecimento A ∪ B] P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = = 0.098 + 0.229 − 0.051 = 0.276. → somente adquirir a revista A? [acontecimento A ∩ B = A\B] P (A ∩ B) = P (A) − P (A ∩ B) = = 0.098 − 0.051 = 0.047. → somente adquirir a revista B? [acontecimento A ∩ B = B\A] P (A ∩ B) = P (B) − P (A ∩ B) = = 0.229 − 0.051 = 0.178. → não adquirir nenhuma revista? [acontecimento A ∩ B = A ∪ B pelas leis de De Morgan3 ] P (A ∩ B) = P (A ∪ B) = = 1 − P (A ∪ B) = 1 − 0.276 = 0.724. 3 Ver propriedades dos acontecimentos complementares na página 7 20 → adquirir somente uma revista? [acontecimento (A ∩ B) ∪ (A ∩ B)] £ ¤ P [(A ∩ B) ∪ (A ∩ B)] = P (A ∩ B) + P (A ∩ B) − P (A ∩ B) ∩ (A ∩ B) , £ ¤ que, tendo em conta que (A∩B)∩(A∩B) = ∅, vem que P (A ∩ B) ∩ (A ∩ B) = 0, logo £ ¤ P (A ∩ B) + P (A ∩ B) − P (A ∩ B) ∩ (A ∩ B) = = P (A ∩ B) + P (A ∩ B) = = P (A) − P (A ∩ B) + P (B) − P (A ∩ B) = = 0.098 − 0.051 + 0.229 − 0.051 = 0.225 21 1.3 Probabilidades condicionadas e acontecimentos independentes A definição de probabilidade de um acontecimento tem por base um dado conjunto fundamental de condições. Quando é calculada P (A) sem restrições, além das condições fundamentais, chama-se a essa probabilidade probabilidade incondicional, absoluta ou a priori. Contudo, em muitos casos, a probabilidade de um acontecimento é determinada por hipóteses suplementares ou informações adicionais, isto é, a probabilidade de um acontecimento A é condicionada pela realização de um outro acontecimento B com probabilidade não nula. A esta probabilidade dá-se o nome de probabilidade condicional e representa-se por P (A|B), que significa a probabilidade de o acontecimento A se realizar sob a condição do acontecimento B se ter realizado e lê-se a probabilidade de A condicionada a B. Definição 1.3.1 (Definição de probabilidade condicionada) Sejam A e B dois acontecimentos: A, B ⊂ Ω. Chama-se probabilidade de A condicionada a B ou probabilidade de A se B e representa-se por P(A|B), com P (B) 6= 0, a P (A|B) = P (A ∩ B) , P (B) isto é, a probabilidade de A se realizar sabendo que B se realizou. A probabilidade de A condicionada pela realização de B representa a reavaliação da probabilidade de A face à informação de que B se realizou. Nota: As probabilidades condicionadas satisfazem os três axiomas da definição axiomática de probabilidades.4 Teorema 1.3.1 ∀A, B ⊂ Ω : P (B) 6= 0 ⇒ P (A|B) ≥ 0. 4 Consultar definição axiomática de probabilidades na página 17 22 Demonstração: P (A|B) = P (A ∩ B) , P (B) como P (A ∩ B) ≥ 0 e P (B) > 0, logo P (A ∩ B) ≥ 0. P (B) Teorema 1.3.2 ∀B ⊂ Ω : P (B) 6= 0 ⇒ P (Ω|B) = 1. Demonstração: P (Ω|B) = P (B) P (Ω ∩ B) = = 1. P (B) P (B) Teorema 1.3.3 ∀A1 , A2 , B ⊂ Ω : P (B) 6= 0, A1 ∩ A2 = ∅ ⇒ P (A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B). Demonstração: P (A1 ∪ A2 |B) = P [(A1 ∪ A2 ) ∩ B] P [(A1 ∩ B) ∪ (A2 ∩ B)] = , P (B) P (B) que, considerando que A1 ∩ A2 = ∅ ⇒ (A1 ∩ B) ∩ (A2 ∩ B) = ∅, vem P [(A1 ∩ B) ∪ (A2 ∩ B)] P (A1 ∩ B) + P (A2 ∩ B) = = P (A1 |B) + P (A2 |B). P (B) P (B) Nota: As probabilidades condicionadas obedecem aos teoremas apresentados nas leis básicas das probabilidades (desde que se mantenha sempre o condicionante)5 . Teorema 1.3.4 ∀A, B ⊂ Ω : P (B) 6= 0 ⇒ P (A|B) + P (Ā|B) = 1 ou P (A|B) = 1 − P (Ā|B). 5 Rever leis básicas de probabilidade na página 17. 23 Demonstração: P (Ā|B) = P (Ā ∩ B) , P (B) utilizando o teorema 1.2.5 no numerador vem P (Ā ∩ B) P (B) − P (B ∩ A) P (B) P (B ∩ A) = = − = 1 − P (A|B). P (B) P (B) P (B) P (B) Teorema 1.3.5 ∀B ⊂ Ω : P (B) 6= 0 ⇒ P (∅|B) = 0, sendo ∅ o acontecimento impossível. Demonstração: P (∅|B) = P (∅ ∩ B) P (∅) = = 0. P (B) P (B) Teorema 1.3.6 ∀A, B, C ⊂ Ω : P (C) 6= 0, A ⊂ B ⇒ P (A|C) ≤ P (B|C). Demonstração: Se A ⊂ B ⇒ (A ∩ C) ⊂ (B ∩ C) ⇒ P (A ∩ C) ≤ P (B ∩ C), logo P (A|C) = P (A ∩ C) P (B ∩ C) ≤ = P (B|C). P (C) P (C) Teorema 1.3.7 ∀A, B ⊂ Ω : P (B) 6= 0 ⇒ P (A|B) ≤ 1. Demonstração: Considerando que A ⊂ Ω e P (Ω|B) = 1 pelo teorema 1.3.6 vem P (A|B) ≤ P (Ω|B) = 1. 24 Teorema 1.3.8 ∀A, B, C ⊂ Ω : P (C) 6= 0 ⇒ P (A|C) = P [A ∩ B|C] + P [A ∩ B|C] ou P [A ∩ B|C] = P (A|C) − P [A ∩ B|C] 6 . Demonstração: Como A = (A ∩ B) ∪ (A ∩ B) ou A = (A ∩ B) ∪ (A\B) P (A|C) = P [(A ∩ B) ∪ (A ∩ B)|C], onde (A ∩ B) e (A ∩ B) são acontecimentos incompatíveis, então pelo teorema 1.3.3 conclui-se que P [(A ∩ B) ∪ (A ∩ B)|C] = P (A ∩ B|C) + P (A ∩ B|C). Teorema 1.3.9 ∀A, B, C ⊂ Ω : P (C) 6= 0 ⇒ P (A ∪ B|C) = P (A|C) + P (B|C) − P (A ∩ B|C). Demonstração: Como A ∪ B = A ∪ (B ∩ A) e A ∩ (B ∩ A) = ∅, recorrendo ao teorema 1.3.3 vem £ ¤ P (A ∪ B|C) = P A ∪ (B ∩ A)|C = P (A|C) + P (B ∩ A|C), que utilizando o teorema 1.3.8 obtém-se P (A ∪ B|C) = P (A|C) + P (B|C) − P (A ∩ B|C). Exemplo 1.3.1 • De um baralho de 52 cartas retira-se uma carta. → Qual a probabilidade de ser um rei sabendo que é de ouros? Casos possíveis: 52 cartas 6 A ∩ B = A\B 25 1 13 = 52 4 4 1 P (“rei”) = = 52 13 P (“ouros”) = P (“rei” ∩ “ouros”) = 1 52 1 1 P (”rei” ∩ ”ouros”) = 52 = . P (”rei”|”ouros”) = 1 P (”ouros”) 13 4 → Qual a probabilidade de não ser rei sabendo que a carta é de ouros? 12 1 = P (“não rei“|“ouros“) = 1 − P (“rei“|“ouros“) = 1 − 13 13 Por vezes é mais fácil determinar o valor da probabilidade condicionada entre dois acontecimentos do que a probabilidade da sua intersecção. Assim, a relação entre a probabilidade condicionada e a probabilidade da intersecção entre dois acontecimentos patente na definição de probabilidade condicionada pode ser utilizada para calcular a probabilidade da intersecção. Este resultado é dado pelo teorema da probabilidade composta e pelo teorema da multiplicação. Teorema 1.3.10 (Teorema da probabilidade composta) Sejam A e B dois acontecimentos quaisquer tais que P (A) 6= 0 e P (B) 6= 0, então P (A ∩ B) = P (A|B) × P (B) = P (B|A) × P (A). Demonstração: P (A|B) = P (A ∩ B) ⇔ P (A ∩ B) = P (A|B)P (B), P (B) P (B|A) = P (B ∩ A) ⇔ P (B ∩ A) = P (A ∩ B) = P (B|A)P (A). P (A) 26 (7) Teorema 1.3.11 (Teorema da multiplicação) Sejam A1 , A2 , A3 , ..., An n acontecimentos quaisquer do espaço amostral tais que P (A1 ∩ A2 ∩ A3 ∩ · · · ∩ An ) 6= 0, então P (A1 ∩ A2 ∩ · · · ∩ An ) = = P (A1 ) × P (A2 |A1 ) × P (A3 |A1 ∩ A2 ) × · · · × P (An |A1 ∩ A2 ∩ · · · ∩ An−1 ) (8) Exemplos 1.3.2 • Um caixa contém cinco bolas, das quais três são brancas e duas são pretas. Considerando que são retiradas duas bolas sem reposição, qual a probabilidade de serem retiradas duas bolas brancas? P (B1 ∩ B2 ) =? → Considerando que a probabilidade de a segunda bola ser branca depende da cor da primeira bola retirada, pode-se utilizar o teorema da probabilidade composta para condicionar a probabilidade de a segunda bola ser branca ao facto de a primeira ter sido branca, ou seja P (B1 ∩ B2 ) = P (B2 |B1 )P (B1 ). A probabilidade de a primeira bola ser branca é facilmente determinada pela definição clássica (quociente entre o número de caso favoráveis e o número de casos possíveis), pois têm-se três bolas brancas em cinco bolas possíveis. Para determinar P (B2 |B1 ) utiliza-se novamente a definição clássica, onde, por já ter saído uma bola, só se tem quatro casos possíveis, e, pelo facto de a primeira bola retirada ter sido branca, já só se possui dois casos favoráveis; então, P (B2 |B1 )P (B1 ) = 6 2 3 × = = 0.3. 4 5 20 • Um lote de 30 peças contém 10 defeituosas. Tiram-se 3 peças ao acaso (sem reposição). Qual a probabilidade de serem todas não defeituosas? 27 → Seja Ai , com i = 1, 2, 3 o acontecimento “saída de uma peça não defeituosa na i-ésima tiragem“. Pretende-se calcular P (A1 ∩ A2 ∩ A3 ), que, pelo teorema da multiplicação, vem P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ), 20 19 , P (A2 |A1 ) = (visto que se sair uma peça não defeituosa na 30 29 18 primeira tiragem ficam 29 peças das quais somente 19 são boas) e P (A3 |A1 ∩A2 ) = 28 (considerando que nas duas primeiras tiragens saíram peças não defeituosas, aquando como P (A1 ) = da terceira tiragem existem 28 peças nas quais 18 são boas), então, P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) = 20 19 18 × × = 0.28. 30 29 28 Além das probabilidades condicionadas, outra noção que representa um papel de extrema importância na teoria das probabilidades é a de acontecimentos independentes. Definição 1.3.2 (Definição de dois acontecimentos independentes) Dois acontecimentos A e B dizem-se independentes quando P (A ∩ B) = P (A) × P (B). (9) Teorema 1.3.12 Se A e B são dois acontecimentos independentes, P (A) 6= 0 e P (B) 6= 0, então: P (A|B) = P (A) e P (B|A) = P (B), (10) isto é, se A e B são independentes, o conhecimento da realização de A em nada afecta a probabilidade de realização de B e vice-versa. Demonstração: 28 P (A|B) = P (A ∩ B) , P (B) que tendo em conta que A e B são independentes, vem P (A ∩ B) P (A) × P (B) = = P (A). P (B) P (B) Como exemplos de acontecimentos independentes podem-se considerar tiragens com reposição, lançamentos de um dado ou de uma moeda, entre muitos outros. Teorema 1.3.13 Se A e B são acontecimentos independentes, também o são: i) A e B, ii) A e B, iii) A e B. Demonstração: i) de A e B: P (A ∩ B) = P (A) − P (A ∩ B), que considerando a hipótese de que A e B são independentes vem P (A) − P (A ∩ B) = P (A) − P (A) × P (B) = P (A) × [1 − P (B)] = = P (A) × P (B). ii) iii) de A e B é análogo ao anterior. de A e B: P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − [P (A) + P (B) − P (A ∩ B)] = que considerando que A e B são independentes vem = 1 − [P (A) + P (B) − P (A) × P (B)] = 1 − P (A) − P (B) + P (A) × P (B) = = [1 − P (A)] − P (B) × [1 − P (A)] = P (A) − P (B) × P (A) = = P (A) × [1 − P (B)] = P (A) × P (B). 29 Exemplo 1.3.3 • Sejam A e B dois acontecimentos independentes tais que P (A ∪ B) = 0.7 e P (A) = 0.5. 1. Determine P (B). → Através do enunciado sabe-se: P (A ∪ B) = 0.7, P (A) = 0.5 e P (A ∩ B) = P (A) × P (B) (pois A e B são independentes) como P (A∪B) = P (A)+P (B)−P (A∩B) = P (A)+P (B)−P (A)×P (B) = 0.7, onde substituindo P (A) pelo seu valor obtém-se 0.5 + P (B) − 0.5P (B) = 0.7 ⇔ P (B) − 0.5P (B) = 0.7 − 0.5 ⇔ 0.2 ⇔ 0.5P (B) = 0.2 ⇔ P (B) = = 0.4. 0.5 2. Determine P (A ∩ B). → Tendo em conta que A e B são acontecimentos independentes, então, A e B também o são, ou seja, P (A ∩ B) = P (A) × P (B) = (1 − 0.5) × (1 − 0.4) = 0.3.7 Definição 1.3.3 (Definição de três acontecimentos independentes) Três acontecimentos A, B e C dizem-se independentes quando se verificar simultaneamente: 1. P (A ∩ B ∩ C) = P (A) × P (B) × P (C); 2. P (A ∩ B) = P (A) × P (B); 3. P (A ∩ C) = P (A) × P (C); 4. P (B ∩ C) = P (B) × P (C). 7 Note-se que também se poderia calcular esta probabilidade utilizando as leis de De Morgan, obtendo-se P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − 0.7 = 0.3 30 Teorema 1.3.14 Sejam A1 , A2 , · · · , An n acontecimentos independentes, então P (A1 ∩ A2 ∩ A3 ∩ · · · ∩ An ) = P (A1 ) × P (A2 ) × P (A3 ) × P (A4 ) × · · · × P (An ). (11) Assim, o cálculo da probabilidade da intersecção de vários acontecimentos independentes pode ser simplificado para a multiplicação das probabilidades de cada um dos acontecimentos isoladamente. Exemplo 1.3.4 • Considere a experiência aleatória que consiste em três lançamentos de um dado. Qual a probabilidade de sair três vezes a face seis? P (F6 ∩ F6 ∩ F6 ) =? → Tendo em conta que o resultado de cada lançamento não influencia o resultado dos restantes lançamentos, ou seja, que os acontecimentos são independentes, pode-se passar da probabilidade da intersecção para o produto das probabilidades, então µ ¶3 1 1 P (F6 ∩ F6 ∩ F6 ) = P (F6 ) × P (F6 ) × P (F6 ) = . = 6 216 31 1.4 Teorema das probabilidades totais e teorema de Bayes Definição 1.4.1 (Definição de partição de Ω) Os acontecimentos A1 , A2 , · · · , An definem uma partição de Ω quando se verificar simultaneamente as seguintes três condições: i) A1 ∪ A2 ∪ · · · ∪ An = Ω; ii) ∀i 6= j ⇒ Ai ∩ Aj = ∅; iii) i = 1, ..., n, P (Ai ) > 0. Figura 7: Exemplo de uma partição de Ω Teorema 1.4.1 (Teorema das probabilidades totais) Sejam A1 , A2 , A3 , · · · , An acontecimentos definindo uma partição sobre Ω, então, para qualquer acontecimento B, tem-se: P (B) = n X i=1 P (B|Ai ) × P (Ai ) . Figura 8: Teorema das probabilidades totais 32 Demonstração: Considerando que os acontecimentos A1 , A2 , A3 , · · · , An definem uma partição de Ω tem-se que A1 ∪ A2 ∪ · · · ∪ An = Ω logo B = B ∩ Ω = B ∩ (A1 ∪ A2 ∪ A3 ∪ · · · ∪ An ) que utilizando a propriedade distributiva vem B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ (B ∩ A3 ) ∪ · · · ∪ (B ∩ An ), então, utilizando probabilidades, vem P (B) = P [(B ∩ A1 ) ∪ (B ∩ A2 ) ∪ (B ∩ A3 ) ∪ · · · ∪ (B ∩ An )]. Como ∀i 6= j tem-se Ai ∩Aj = ∅, então ∀i 6= j também se tem (B∩Ai )∩(B∩Aj ) = ∅ obtendo-se, então P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) + P (B ∩ A3 ) + · · · + P (B ∩ An ) = considerando que P (B ∩ Ai ) = P (B|Ai )P (Ai ) (ver teorema 1.3.10 na página 26) vem = n P P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) + ... + P (B|An )P (An ) = P (B|Ai ) P (Ai ) . i=1 Teorema 1.4.2 (Teorema de Bayes) Sejam A1 , A2 , A3 , · · · , An n acontecimentos que definem uma partição sobre Ω e seja B um qualquer acontecimento de Ω tal que P (B) 6= 0. Nestas condições, para j = 1, 2, ..., n, verifica-se: P (B|Aj ) × P (Aj ) P (Aj |B) = P . n P (B|Ai ) × P (Ai ) i=1 Demonstração: Por definição de probabilidade condicional tem-se P (Ai |B) = P (Ai ∩ B) , P (B) 33 (12) que utilizando o teorema da probabilidade composta (ver teorema 1.3.10 na página 26) vem que P (Ai ∩ B) = P (B|Ai )P (Ai ). Em relação ao denominador basta usar o teorema das probabilidades totais (teorema 1.4.1 na página 32) e obtém-se o resultado pretendido, ou seja P (Ai ∩ B) P (B|Aj ) × P (Aj ) = P . n P (B) P (B|Ai ) × P (Ai ) i=1 Exemplos 1.4.1 • Uma loja vende três marcas de determinado produto (M1 , M2 e M3 ), sendo trinta por cento dos produtos vendidos da marca M1 , vinte da marca M2 e os restantes da marca M3 . Sabe-se ainda que alguns produtos possuem defeito de fabrico, correspondendo a dois por cento dos da marca M1 , cinco dos da marca M2 e dez dos da marca M3 . — Qual a probabilidade de um produto vendido possuir defeito? [P (D)] Do enunciado pode-se retirar o valor das seguintes probabilidades: P (M1 ) = 0.30 P (M2 ) = 0.20 P (M3 ) = 0.50 P (D|M1 ) = 0.02 P (D|M2 ) = 0.05 P (D|M3 ) = 0.10 Note-se que os acontecimentos M1 , M2 e M3 definem uma partição de Ω, ou seja: i) Só são vendidos produtos das marcas M1 , M2 e M3 , ou seja, M1 ∪ M2 ∪ M3 = Ω; ii) Se um produto é de uma marca não pode ser simultaneamente doutra marca, ou seja, Mi ∩ Mj = ∅ para i 6= j. iii) Qualquer marca vende produtos, ou seja, P (Mi ) > 0, para i = 1, 2, 3. Assim, estão satisfeitas as condições de utilização do teorema das probabilidades totais, P (D) = P (D|M1 )P (M1 ) + P (D|M2 )P (M2 ) + P (D|M3 )P (M3 ) = = 0.02 × 0.3 + 0.05 × 0.2 + 0.1 × 0.5 = 0.066 34 — Qual a probabilidade de um produto vendido ser da marca M1 sabendo que possui defeito de fabrico? P (M1 |D) =? Recordando que os acontecimentos M1 , M2 e M3 definem uma partição de Ω e que P (D) 6= 0, pode utilizar-se o teorema de Bayes, obtendo-se P (M1 |D) = P (D|M1 ) P (M1 ) = 3 P P (D|Mj ) P (Mj ) j=1 = 1 0.02 × 0.3 = 0.02 × 0.3 + 0.05 × 0.2 + 0.10 × 0.5 11 • Nos parques industriais A1 , A2 e A3 existem empresas que se dedicam à actividade têxtil, respectivamente, 10, 40 e 25 por cento das empresas. Escolhido ao acaso um parque e nele, também ao acaso, uma empresa: — Qual a probabilidade de a empresa ser têxtil? 1 1. Escolha do parque P (A1 ) = P (A2 ) = P (A3 ) = ; 3 2. Escolha de uma empresa no parque obtido em 1). Seja B o acontecimento “saída de uma empresa têxtil”. São dados fornecidos pelo enunciado: P (B|A1 ) = 0.1, P (B|A2 ) = 0.4, P (B|A3 ) = 0.25 A probabilidade pedida é P (B) que, utilizando o teorema das probabilidades totais, vem: P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) = = 0.1 × 1 1 1 + 0.4 × + 0.25 × = 0.25. 3 3 3 35 — Supondo que a empresa escolhida é do sector têxtil, qual a probabilidade de esta empresa pertencer ao parque A1 ? P (A1 |B) =? Pelo teorema de Bayes P (Aj |B) = P (B|Aj ) P (Aj ) P (B|Aj ) P (Aj ) , ou seja = 3 P P (B) P (B|Ai ) × P (Ai ) i=1 0.1 × 13 P (B|A1 ) P (A1 ) P (A1 |B) = = = 0.13 (3) . P (B) 0.25 36 2 Distribuições 2.1 Definição de variável aleatória Como foi visto no capítulo anterior, uma experiência aleatória é um procedimento que leva à obtenção de um ou vários resultados sujeitos ao acaso. Em algumas experiências aleatórias verifica-se que os elementos (ω) do espaço amostral (Ω) são números reais: medição de um comprimento, tempo que um autocarro demora a percorrer um determinado trajecto entre duas cidades, quantidade produzida por uma fábrica, número de pessoas que entram diariamente numa loja, lucro de uma empresa, entre outras. Noutras experiências aleatórias o resultado não é um número real, mas sim uma característica, como por exemplo descrever a produção de baterias em “defeituosas” e “não defeituosas”. Contudo, nestas experiências, o interesse recai sobre a mensuração de algumas características e sobre o seu registo como um número. Portanto, quando o espaço amostral não é um conjunto numérico, a aplicação de procedimentos estatísticos passa pela atribuição de um número real (ou conjunto de números reais) a cada elemento ω pertencente a Ω. No caso referido, poder-se-ia atribuir o número 1 às peças “defeituosas” e o número 0 às peças “não defeituosas”. Estes valores podem ser vistos como valores assumidos por uma variável no decurso de uma experiência aleatória. A essa variável chama-se variável aleatória. Definição 2.1.1 (Definição de variável aleatória) Chama-se variável aleatória (representando-se por uma letra maiúscula, normalmente X) a uma função cujo valor é um número real determinado pelo resultado de uma experiência aleatória, isto é, X: Ω → R ω 7→ x = X (ω) Assim, uma função, X, que associa a cada elemento ω ∈ Ω um número real, x = X(ω), é denominada variável aleatória. As variáveis aleatórias, consoante o conjunto de valores que podem assumir, são classificadas em variáveis aleatórias discretas e variáveis aleatórias contínuas. Considerando X uma 37 variável aleatória, se os valores possíveis de X (o contradomínio de X) for finito ou infinito numerável, denomina-se X de variável aleatória discreta. Ou seja, uma variável diz-se discreta quando pode assumir com probabilidade diferente de zero um número finito ou infinito numerável de valores. Exemplo 2.1.1 • número de pontos de um lançamento de um dado; • número de pessoas em fila numa caixa de um supermercado; • observação do sexo num conjunto de nascimentos; • alunos reprovados e aprovados em determinada disciplina. Se X é uma variável aleatória cujo contradomínio é um intervalo real ou uma colecção de intervalos reais, então X é uma variável aleatória contínua. Exemplo 2.1.2 • peso de um indivíduo; • comprimento de uma árvore; • tempo que um corredor demora a percorrer a maratona. 38 2.2 Variáveis Aleatórias Discretas Neste capítulo começa-se por definir os principais conceitos para caracterizar e trabalhar com as variáveis aleatórias discretas, seguindo-se uma descrição das principais distribuições utilizadas na prática. 2.2.1 Caso unidimensional a) Função de probabilidade Como foi referido, uma variável aleatória diz-se discreta quando assume um número finito ou uma infinidade numerável de valores. Considere-se que os valores que a variável aleatória X pode assumir são x1 , x2 , · · · , xn ocorrendo com probabilidade p1 , p2 , · · · , pn , respectivamente. Nestas condições, a função que associa a cada valor da variável (xi ) a sua probabilidade (pi ) chama-se função de probabilidade da variável aleatória X. Definição 2.2.1 (Definição de Função de Probabilidade) Chama-se função de probabilidade da variável aleatória X à função que associa a cada valor da variável (xi ) a sua probabilidade (pi ), ou seja, f (xi ) = P (X = xi ) = pi . Assim, pode-se definir função de probabilidade da variável aleatória X como o conjunto de pares (xi , pi ), que podem ser dispostos na forma: X: x1 x2 ··· xn f (x) p1 p2 ··· pn verificando: pi ≥ 0 para i = 1, · · · , n e p1 + p2 + · · · + pn = 1. Nota: No caso de a variável aleatória assumir um número infinito numerável de valores, a função de probabilidade será f (xi ) = P (X = xi ) verificando-se f (xi ) ≥ 0 para +∞ P i = 1, 2, · · · e f (xi ) = 1. i=1 39 Exemplo 2.2.1 Considere uma variável aleatória que pode assumir os valores 0, 1, 2, 3, 4, 5 e 6 com função de probabilidade definida da seguinte forma: X: f (x) : 0 1 2 3 4 5 6 0.05 0.1 0.2 0.3 0.2 0.1 0.05 A interpretação de cada um dos valores que a função de probabilidade da variável aleatória X assume é: f (0) = P (X = 0) = 0.05; f (1) = P (X = 1) = 0.1; f (2) = P (X = 2) = 0.2; f (3) = P (X = 3) = 0.30; f (4) = P (X = 4) = 0.2; f (5) = P (X = 5) = 0.1; f (6) = P (X = 6) = 0.05. De salientar que, tendo em conta que os valores que uma função de probabilidade assume são probabilidades, estes valores nunca podem ser negativos [P (X = x) ≥ 0] e a soma de todos os valores tem que ser igual à probabilidade de Ω, ou seja, P (X = 0) + P (X = 1) + · · · + P (X = 6) = 1. b) Função de distribuição Em variáveis cujo espaço amostral é constituído por muitos valores, a utilização da função de probabilidade para o cálculo da probabilidade da variável assumir um valor inferior (ou superior) a determinado número torna-se muito trabalhoso. Por exemplo, se uma variável aleatória, X, descrever o número de carros que passam diariamente na ponte 25 de Abril, no caso de se pretender calcular a probabilidade de em determinado dia passarem menos de cinco mil carros [P (X < 5000)], ter-se-ia de somar cinco mil probabilidades: a de não passar nenhum carro, a de passar só um carro e assim sucessivamente até à de passarem exactamente 4999 carros [P (X = 0) + P (X = 1) + P (X = 2) + · · · + P (X = 4999)]. Para facilitar estes cálculos existe a função de distribuição ou distribuição cumulativa da variável aleatória X. Para ser definida esta função, considere-se que X é uma variável aleatória. Assim, a igualdade F (x) = P (X ≤ x) define uma função real de variável real denominada função de distribuição da variável aleatória 40 X e, como tal, o valor da função de distribuição no ponto x é igual à probabilidade de a variável aleatória X assumir um valor inferior ou igual a esse número real x, sendo calculada, no caso de a variável aleatória X ser discreta, da seguinte forma: F (x) = X f (xi ). (13) xi ≤x Propriedades 2.2.1 (Propriedades da função de distribuição) 1. Para qualquer função de distribuição F (x) tem-se 0 ≤ F (x) ≤ 1; 2. F (x) é não decrescente (constante ou crescente); 3. lim F (x) = 0 e lim F (x) = 1; x→−∞ x→+∞ 4. F (x) é contínua à direita. Teorema 2.2.1 Para qualquer função de distribuição F (x), dados os números reais x1 e x2 tais que x1 < x2 , tem-se P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ) = F (x2 ) − F (x1 ). Demonstração: P (X ≤ x2 ) = P (X ∈] − ∞, x2 ]) = P (X ∈] − ∞, x1 ]∪]x1 , x2 ]) como ] − ∞, x1 ]∩]x1 , x2 ] = ∅, tem-se P (X ∈] − ∞, x1 ]∪]x1 , x2 ]) = = P (X ∈] − ∞, x1 ]) + P (X ∈]x1 , x2 ]) = = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) então, P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) ⇔ ⇔ P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ). 41 Exemplo 2.2.2 Considere a variável aleatória descrita no exemplo 2.2.1 na página 39, cuja função de probabilidade é: X: f (x) : 0 1 2 3 4 5 6 0.05 0.1 0.2 0.3 0.2 0.1 0.05 A respectiva função de ⎧ distribuição é: ⎪ ⎪ se x < 0 ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0.05 se 0 ≤ x < 1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0.15 se 1 ≤ x < 2 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 0.35 se 2 ≤ x < 3 . F (x) = P (X ≤ x) = ⎪ ⎪ 0.65 se 3 ≤ x < 4 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0.85 se 4 ≤ x < 5 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0.95 se 5 ≤ x < 6 ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 se x ≥ 6 O cálculo da função de distribuição é feito através dos valores da função de probabilidade; por exemplo, quando 4 ≤ x < 5 para o cálculo da função de distribuição P (X ≤ x) deve-se somar P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4). Utilizando os valores da função de distribuição torna-se mais fácil calcular as seguintes probabilidades8 : 1. P (X ≤ 3) = 0.65; 2. P (X < 3) = P (X ≤ 3) − P (X = 3) = 0.65 − 0.3 = 0.35 ou P (X < 3) = P (X ≤ 2) = 0.35; 3. P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X ≤ 2) = 1 − 0.35 = 0.65; 8 De notar que, no exemplo dado, também se poderiam facilmente efectuar os mesmos cálculos utilizando unicamente a função de probabilidade; no entanto, compreende-se a importância da função de distribuição em variáveis que podem assumir um elevado número de valores. 42 4. P (X > 3) = 1 − P (X ≤ 3) = 1 − 0.65 = 0.35; 5. P (1 < X ≤ 4) = P (X ≤ 4) − P (X ≤ 1) = 0.85 − 0.15 = 0.7; 6. P (1 ≤ X ≤ 4) = P (X ≤ 4) − P (X < 1) = P (X ≤ 4) − P (X ≤ 0) = 0.85 − 0.05 = 0.8; 7. P (1 < X < 4) = P (X < 4) − P (X ≤ 1) = P (X ≤ 3) − P (X ≤ 1) = 0.65 − 0.15 = 0.5; 8. P (1 ≤ X < 4) = P (X < 4) − P (X < 1) = P (X ≤ 3) − P (X ≤ 0) = 0.65 − 0.05 = 0.6. c) Valor esperado e variância de uma variável aleatória discreta Na prática, em muitas situações, está-se interessado em saber apenas algumas características da variável aleatória, tais como a sua localização e a sua dispersão. Assim, como medida de localização mais importante utiliza-se o valor esperado e como medidas de dispersão a variância e o desvio padrão. Medida de localização Definição 2.2.2 (Definição de valor esperado de uma variável aleatória discreta) Dada uma variável aleatória discreta X, chama-se valor esperado, esperança matemática ou valor médio, representando-se por E(X) ou μX , à quantidade assim definida: E(X) = μX = n X xi f (xi ), (14) i=1 onde X é uma variável aleatória discreta que assume os valores xi com probabilidade f (xi ), para i = 1, · · · , n. 43 Nota: No caso de a variável aleatória assumir um número infinito numerável de valores dever-se-á definir o valor esperado através de: E(X) = μX = +∞ X xi f (xi ), i=1 que só existe se a série for absolutamente convergente, ou seja, se +∞ P i=1 |xi | f (xi ) < ∞. Exemplo 2.2.3 Considere uma lotaria com 1000 bilhetes diferentes custando cada um 10 euros. Considere ainda que este sorteio vai distribuir três prémios monetários, sendo o primeiro de 3000 euros, o segundo de 2000 euros e o terceiro de 1000 euros. Então, a variável aleatória (X) que descreve o que uma pessoa ganha ao comprar um bilhete é a seguinte: X: f (x) 0 1000 2000 3000 0.997 0.001 0.001 0.001 As probabilidades são fáceis de calcular. Cada um dos prémios só sai num bilhete, então, a probabilidade será o número de casos favoráveis (1) a dividir pelo número de casos possíveis (1000) sendo o resultado 0.001. Os restantes bilhetes (997 dos 1000) não dão direito a prémio. Assim, o valor esperado desta variável aleatória é determinado por E(X) = 0 × 0.997 + 1000 × 0.001 + 2000 × 0.001 + 3000 × 0.001 = = 0 + 1 + 2 + 3 = 6. .O valor esperado ser igual a 6 euros pode ser interpretado como o valor que cada pessoa espera ganhar ao comprar um bilhete, ou seja, o valor médio que ganha cada pessoa que comprou um bilhete. Neste caso, como o valor que cada pessoa ganha em média por bilhete é inferior ao custo de cada bilhete, de um ponto de vista económico, comprar um bilhete é um mau negócio. 44 Considere que, em vez de se desejar calcular o valor esperado da variável aleatória X, se pretende determinar o valor esperado de uma qualquer função de uma variável aleatória X; para tal, utilizar-se-ia a seguinte definição. Definição 2.2.3 Seja g(X) uma função real de variável real qualquer, então, E [g(X)] = n X (15) g(xi )f (xi ). i=1 Nota: No caso de a variável aleatória assumir um número infinito numerável de valores dever-se-á definir E [g(X)] = +∞ X g(xi )f (xi ) i=1 que só existe se a série for absolutamente convergente, ou seja, se +∞ P i=1 ∞. |g(xi )| f (xi ) < Exemplo 2.2.4 Considerando a variável aleatória X do exemplo 2.2.3 da página 44 que descreve o que uma pessoa ganha ao comprar um bilhete, no caso de se pretender calcular o valor esperado de g(X) = 10 + 20X, bastará, pela definição apresentada, fazer E [g(X)] = n X i=1 n X g(xi )f (xi ) = (10 + 20xi )f (xi ) = i=1 = (10 + 20 × 0) × 0.997 + (10 + 20 × 1000) × 0.001+ + (10 + 20 × 2000) × 0.001 + (10 + 20 × 3000) × 0.001 = 130. Propriedades 2.2.2 (Propriedades do valor esperado) Considerando a e b duas constantes e X uma variável aleatória qualquer, então 1. E(a) = a; 45 2. E(aX) = aE(X); 3. E(a + X) = a + E(X); 4. E(a + bX) = a + bE(X). Nota: Todas estas propriedades são facilmente demonstradas utilizando a definição 2.2.3. Por exemplo, para demonstrar a quarta propriedade faz-se: Demonstração: g (x) = a + bX, sendo n n n n n P P P P P E (a + bX) = (a + bxi )f (xi ) = af (xi ) + bxi f (xi ) = a f (xi ) + b xi f (xi ) i=1 que, como n P i=1 f (xi ) = 1 e i=1 a n P i=1 f (xi ) + b n P i=1 i=1 i=1 xi f (xi ) = E (X), vem i=1 n P xi f (xi ) = a + bE (X). i=1 Medida de dispersão Como foi referido anteriormente, as medidas de dispersão que são mais utilizadas no estudo das variáveis aleatórias são a variância e o desvio padrão, como seguidamente se indica. Definição 2.2.4 (Definição de variância) A variância de uma variável aleatória pode ser representada por σ 2 , V ar(X) ou V (X) e é definida como sendo o valor esperado de (X − μX )2 , ou seja, £ ¤ £ ¤ σ 2X = V ar(X) = V (X) = E [X − E (X)]2 = E (X − μX )2 . (16) No caso de a variável aleatória ser discreta, pode-se utilizar a definição, anteriormente apresentada, que fornece o valor esperado de uma função de uma variável aleatória, sendo a variância calculada através de V ar(X) = n X (xi − μX )2 f (xi ). i=1 46 (17) Nota: No caso de a variável aleatória assumir um número infinito numerável de valores dever-se-á utilizar V ar(X) = +∞ X (xi − μX )2 f (xi ) i=1 Definição 2.2.5 (Definição de desvio padrão) O desvio padrão é definido como sendo a raiz quadrada positiva da variância, ou seja, representando o desvio padrão por σ, vem p σ = + V ar(X). (18) No entanto, tal como na estatística descritiva, os cálculos da variância não são habitualmente efectuados pela sua definição, mas, sim, pela fórmula simplificada de Köning, que, neste contexto, tem a seguinte forma: σ2X = V ar(X) = V (X) = E(X 2 ) − E 2 (X) = E(X 2 ) − μ2X . Demonstração: σ 2X = E[(X − μX )2 ] = E(X 2 − 2XμX + μ2X ) = que pelas propriedades do valor esperado obtém-se = E(X 2 ) − E(2XμX ) + E(μ2X ) = que tendo em conta que μX é uma constante vem = E(X 2 ) − 2μX E(X) + μ2X = que, como E(X) = μX , vem = E(X 2 ) − 2μ2X + μ2X = E(X 2 ) − μ2X . 47 (19) Exemplo 2.2.5 Um gestor de uma empresa está indeciso entre dois negócios cujo lucro é descrito pelas variáveis aleatórias discretas X e Y 9 . X: −100 f (x) : 0.05 Y : f (y) : 0 100 300 0.20 0.50 0.20 0.05 −1900 −900 0.05 200 0.20 100 1100 2100 0.50 0.20 0.05 E(X) = −100 × 0.05 + 0 × 0.2 + 100 × 0.5 + 200 × 0.2 + 300 × 0.05 = = −5 + 0 + 50 + 40 + 15 = 100; E(Y ) = −1900 × 0.05 − 900 × 0.2 + 100 × 0.5 + 1100 × 0.2 + 2100 × 0.05 = = −95 − 180 + 50 + 220 + 105 = 100. Ambos os negócios têm o mesmo valor esperado, ou seja, em ambos os negócios ganha-se o mesmo montante em média. Para o gestor, o valor esperado de cada negócio leva-o a concluir que estes são rentáveis, pois ele espera ter um lucro de 100 unidades monetárias. Compare-se agora o valor das variâncias. Para calcular a variância da variável aleatória X, utilizando a fórmula simplificada de Köning, é necessário antes determinar E(X 2 ). Para o cálculo de E(X 2 ) utiliza-se a fórmula (15) (ver página 45) considerando que g(x) = x2 , de onde se conclui que E(X 2 ) = n X x2i f (xi ) i=1 que aplicando ao exemplo, temos E(X 2 ) = (−100)2 × 0.05 + (0)2 × 0.2 + (100)2 × 0.5 + (200)2 × 0.2 + (300)2 × 0.05 = = 500 + 0 + 5000 + 8000 + 4500 = 18000, assim, V ar(X) = E(X 2 ) − E 2 (X) = 18000 − 1002 = 8000 e consequentemente σX = 9 √ 8000 ' 89, 4427. Em rigor deveriam ser variáveis aleatórias continuas; no entanto, considere-se que o lucro proveniente de cada negócio só assume alguns valores. 48 Para a variância de Y tem-se E(Y 2 ) = (−1900)2 × 0.05 + (−900)2 × 0.2 + (100)2 × 0.5 + (1100)2 × 0.2 + (2100)2 × 0.05 = = 180500 + 162000 + 5000 + 242000 + 220500 = 810000, V ar(Y ) = E(Y 2 ) − E 2 (Y ) = 810000 − 1002 = 800000 sendo σY = √ 800000 ' 894, 427. A variância (e o desvio padrão) da variável que descreve o lucro do negócio Y é superior, logo, a variável Y é mais dispersa (ou menos concentrada) do que a variável X. Note-se que a variável Y assume valores mais distantes da média. Assim, caso o gestor opte pelo negócio Y , assumirá maiores riscos, pois poderá perder 1900 unidades monetárias enquanto que no negócio X, no máximo, perde 100 unidade monetárias. Em contrapartida, no negócio Y pode ganhar 2100 unidades monetárias, sendo no negócio X o lucro máximo igual a 300 unidades monetárias. Neste caso, a decisão de qual o negócio que o gestor deverá optar é feita consoante o risco que este está disposto a assumir. Propriedades 2.2.3 (Propriedades da variância) Considerando a e b duas constantes e X uma variável aleatória qualquer, tem-se 1. V ar(X) ≥ 0; 2. V ar(a) = 0; 3. V ar(a + X) = V ar(X); 4. V ar(aX) = a2 V ar(X); 5. V ar(a + bX) = b2 V ar(X). 49 Nota: Todas estas propriedades podem ser demonstradas utilizando as propriedades do valor esperado na definição de variância (fórmula (16) na página 46). Como exemplo vai-se demonstrar a quinta propriedade. Demonstração: £ ¤ V ar (a + bX) = E [a + bX − E (a + bX)]2 como E (a + bX) = a + bE (X) tem-se £ ¤ £ ¤ £ ¤ E [a + bX − E (a + bX)]2 = E [a + bX − a − bE (X)]2 = E [bX − bE (X)]2 = £ ¤ ¤ £ = E b2 [X − E (X)]2 = b2 E [X − E (X)]2 = b2 V ar (X). 2.2.2 Caso bidimensional Neste capítulo vai-se explicar como analisar duas variáveis aleatórias discretas simultaneamente. Assim, considerando duas variáveis aleatórias discretas, X e Y , ao par (X, Y ) denomina-se por variável aleatória bidimensional (discreta). Para trabalhar com variáveis aleatórias bidimensionais discretas adopta-se um processo análogo ao caso unidimensional: vai-se utilizar uma função cuja imagem é a probabilidade de a variável aleatória X assumir o valor xi e simultaneamente a variável aleatória Y assumir o valor yj . Esta função é denominada por função de probabilidade conjunta. a) Função de probabilidade conjunta Definição 2.2.6 (Definição de função de probabilidade conjunta) Chama-se função de probabilidade conjunta da variável aleatória bidimensional (X, Y ) à função que associa a cada par de valores (xi , yj ) a sua respectiva probabilidade, ou seja f (xi , yj ) = P (X = xi ∧ Y = yj ), que satisfaz as seguinte condições: 50 1. f (xi , yj ) ≥ 0; 2. PP i f (xi , yj ) = 1. j Exemplo 2.2.6 Considere a seguinte função de probabilidade conjunta das variáveis aleatórias X e Y : Y 0 1 2 fX X 0 0.05 0.10 0.15 0.30 1 0.10 0.20 0.10 0.40 2 0.15 0.10 0.05 0.30 fY 0.30 0.40 0.30 1.00 Os valores centrais do quadro são os valores assumidos pela função de probabilidade conjunta, ou seja, a P (X = xi ∧ Y = yj ). Por exemplo, caso se pretenda saber qual a probabilidade de X = 1 e simultaneamente Y = 1, esta probabilidade encontra-se no quadro na intersecção da linha correspondente a X = 1 e da coluna correspondente a Y = 1, sendo P (X = 1 ∧ Y = 1) = f (1, 1) = 0.2. Além dos valores da função de probabilidade conjunta, o quadro também contém a função de probabilidade da variável aleatória X (última coluna) e da variável aleatória Y (última linha). Note-se que para obter P (X = 0) esta resulta da seguinte soma P (X = 0) = P (X = 0 ∧ Y = 0) + P (X = 0 ∧ Y = 1) + P (X = 0 ∧ Y = 2) = = 0.05 + 0.10 + 0.15 = 0.3. Assim, para se obter a função de probabilidade da variável aleatória X bastará somar os valores da função de probabilidade conjunta da linha correspondente. Utilizando o mesmo raciocínio, conclui-se que, para obter a função de probabilidade da variável aleatória Y , bastará somar os valores da função de probabilidade conjunta da coluna correspondente. 51 b) Covariância e Correlação Quando se analisam duas variáveis aleatórias simultaneamente está-se, muitas vezes, interessado em avaliar se existe alguma relação entre essas variáveis (por exemplo, perante o facto de uma variável aumentar, saber qual vai ser o impacto deste aumento na outra variável). Para esta análise existem as medidas de variação conjunta: covariância e coeficiente de correlação. Definição 2.2.7 (Definição de covariância) A covariância de duas variáveis aleatórias X e Y é uma medida de variação conjunta das duas variáveis e é definida pelo valor esperado de [(X − μX )(Y − μY ], ou seja, Cov(X, Y ) = E[(X − μX )(Y − μY )]. (20) No entanto, tal como a variância, para calcular a covariância não é habitualmente utilizada a sua definição, mas, sim, uma fórmula simplificada que, neste caso, é Cov(X, Y ) = E(XY ) − E(X)E(Y ). (21) Demonstração: Cov(X, Y ) = E [(X − μX )(Y − μY )] = E [XY − Y μX − XμY + μX μY ] = = E (XY ) − E (Y μX ) − E (XμY ) + E (μX μY ) = = E (XY ) − μX E (Y ) − μY E (X) + μX μY = = E (XY ) − E (X) E (Y ) − E (Y ) E (X) + E (X) E (Y ) = = E (XY ) − E (X) E (Y ). Nota: A covariância de uma variável com ela própria é a variância dessa variável, ou seja, Cov(X, X) = E(XX) − E(X)E(X) = E(X 2 ) − E 2 (X) = V ar(X). Apesar de a covariância ser uma medida de variação conjunta, a interpretação desta não é “linear”, pois esta pode assumir qualquer valor real (−∞ < Cov(X, Y ) < +∞) e o valor que assume depende das unidades de medida em que as variáveis estão expressas. Assim, para corrigir este problema, existe o coeficiente de correlação entre duas variáveis. 52 Definição 2.2.8 (Definição de coeficiente de correlação entre duas variáveis) Sejam X e Y duas variáveis aleatórias quaisquer, então, se representarmos o coeficiente de correlação entre estas duas variáveis por Corr(X, Y ) este é definido por Corr(X, Y ) = Cov(X, Y ) , sendo − 1 ≤ Corr(X, Y ) ≤ 1. σX σY (22) Para fazer a interpretação do valor do coeficiente de correlação entre duas variáveis é necessário ter em conta dois factores. O primeiro é o valor do módulo do coeficiente de correlação. Considerando que o coeficiente varia entre −1 e 1, o seu módulo varia entre zero e a unidade. Assim, se o valor absoluto do coeficiente de correlação possuir um valor perto da unidade, significa que existe uma forte dependência linear entre as variáveis, ou seja, é possível traçar uma recta com os pares de valores (xi , yj ) a situarem-se perto dessa recta (no caso de ser exactamente igual à unidade os valores estão todos sobre a recta). Se, pelo contrário, o módulo do coeficiente possuir um valor baixo (perto de zero), significa que existe uma fraca dependência linear entre as variáveis (ou seja, os pares de valores (xi , yj ) formam uma “nuvem” de pontos tal que é impossível traçar uma recta que descreva a relação entre as variáveis). O segundo factor a ter em conta na interpretação do coeficiente de correlação é o sinal que o coeficiente de correlação possui (note-se que o sinal do coeficiente de correlação é determinado pelo sinal da covariância, pois o denominador é sempre positivo). Se o sinal é positivo, significa que as variáveis variam no mesmo sentido, ou seja, se uma variável aumenta a outra tende a aumentar (a recta que descreve a relação entre as variáveis tem declive positivo). No caso de o sinal ser negativo, significa que as variáveis variam em sentidos opostos, ou seja, se uma variável aumenta a outra tende a diminuir (a recta que descreve a relação entre as variáveis tem declive negativo). Para o cálculo destas medidas, nomeadamente para determinar o valor de E (XY ), é necessário recorrer à seguinte definição. 53 Definição 2.2.9 Seja g(X, Y ) uma função qualquer das variáveis aleatórias X e Y , então, E [g(X, Y )] = XX i g(xi , yj )f (xi , yj ). (23) j Exemplo 2.2.7 Para exemplificar a cálculo do coeficiente de correlação considere-se a seguinte função de probabilidade: Y 0 1 2 fX X 0 0.05 0.10 0.25 0.40 1 0.05 0.20 0.10 0.35 2 0.10 0.10 0.05 0.25 fY 0.20 0.40 0.40 1 Corr(X, Y ) = Cov(X, Y ) σX σY Para calcular o coeficiente de correlação é necessário calcular a covariância entre as duas variáveis e a variância de cada uma das variáveis. Considerando que Cov(X, Y ) = E(XY ) − E(X)E(Y ), vem E(X) = 3 P i=1 E(Y ) = 3 P i=1 xi fX (xi ) = 0 × 0.4 + 1 × 0.35 + 2 × 0.25 = 0.85; yi fY (yi ) = 0 × 0.2 + 1 × 0.4 + 2 × 0.4 = 1.20. Para determinar o valor esperado de XY , ou seja E(XY ), é necessário recorrer à fórmula (23) (ver página 54). Assim, pode-se considerar que XY é a função g(X, Y ) na definição 54 anterior, sendo, então, o seu valor esperado determinado por E(XY ) = 3 3 X X xi yj f (xi , yj ) = i=1 j=1 = 0 × 0 × 0.05 + 0 × 1 × 0.10 + 0 × 2 × 0.25 + 1 × 0 × 0.05 + 1 × 1 × 0.2+ +1 × 2 × 0.1 + 2 × 0 × 0.1 + 2 × 1 × 0.1 + 2 × 2 × 0.05 = 0.8; então, Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.8 − 0.85 × 1.2 = −0.22. Para determinar o valor da variância das variáveis aleatórias X e Y é ainda necessário calcular E(X 2 ) e E(Y 2 ). E(X 2 ) = E(Y 2 ) = 3 X i=1 3 X i=1 x2i fX (xi ) = 02 × 0.4 + 12 × 0.35 + 22 × 0.25 = 1.35; yi2 fY (yi ) = 02 × 0.2 + 12 × 0.4 + 22 × 0.4 = 2.00; assim, as variâncias e os desvios padrões assumem os seguintes valores V ar(X) = E(X 2 ) − E 2 (X) = 1.35 − 0.852 = 0.6275 ⇒ σ X ' 0.79214898; V ar(Y ) = E(Y 2 ) − E 2 (Y ) = 2 − 1.22 = 0.56 ⇒ σY ' 0.748331477; sendo o coeficiente de correlação igual a Corr(X, Y ) = Cov(X, Y ) −0.22 √ =√ ' −0.37112636. σX σY 0.6275 × 0.56 Como o coeficiente de correlação é negativo, pode-se afirmar que as variáveis variam em sentidos opostos, ou seja, se a variável X aumenta a variável Y tende a diminuir. Além de ser negativo, o seu valor absoluto é aproximadamente 0.37, o que é relativamente baixo; logo, conclui-se que existe uma fraca dependência linear entre as variáveis aleatórias X e Y . c) Variáveis aleatórias independentes 55 Definição 2.2.10 (Definição de variáveis aleatórias independentes) Duas variáveis aleatórias dizem-se independentes quando, para todos os pares de valores (xi , yj ), se verificar f (xi , yj ) = fX (xi ) × fY (yj ), ou seja P (X = xi ∧ Y = yj ) = P (X = xi ) × P (Y = yj ). (24) Nota: Esta definição de independência é semelhante à efectuada no segundo capítulo, onde dois acontecimentos eram considerados independentes se e só se P (A ∩ B) = P (A)P (B). Teorema 2.2.2 Se as variáveis aleatórias X e Y são independentes, então a covariância (e o coeficiente de correlação) entre estas variáveis é igual a zero. Nota: O recíproco não é verdadeiro, ou seja, se a covariância de X e Y for zero, não significa necessariamente que estas duas variáveis sejam independentes, mas, se a covariância for diferente de zero, significa que as variáveis não são independentes. Exemplo 2.2.8 1. Considere as variáveis aleatórias independentes X e Y com funções de probabilidade, respectivamente, X 0 f (x) 1 2 0.2 0.3 0.5 Y 0 f (y) 56 1 0.4 0.6 Vai-se determinar a função de probabilidade conjunta das duas variáveis aleatórias X e Y . Para tal é essencial a informação de que as duas variáveis aleatórias são independentes, ou seja, que para todos os pares de valores (xi , yj ) se tem P (X = xi ∧ Y = yj ) = P (X = xi ) × P (Y = yj ); então, a função de probabilidade conjunta será: Y 0 1 fX X 0 0.2 × 0.4 = 0.08 0.2 × 0.6 = 0.12 0.20 1 0.3 × 0.4 = 0.12 0.3 × 0.6 = 0.18 0.30 2 0.5 × 0.4 = 0.20 0.5 × 0.6 = 0.30 0.50 fY 0.40 0.60 1.00 2. Considere a seguinte função de probabilidade conjunta das variáveis aleatórias X e Y . Y 0 1 2 fX X 0 0.06 0.15 0.09 0.30 1 0.14 0.35 0.21 0.70 fY 0.20 0.50 0.30 1.00 Conhecendo a função de probabilidade conjunta, como verificar se as variáveis são independentes? Considerando que a definição de variáveis independentes é P (X = xi ∧ Y = yj ) = P (X = xi ) × P (Y = yj ) 57 para todos os pares de valores (xi , yj ), então, bastará verificar se tal acontece: (xi , yj ) P (X = xi ∧ Y = yj ) P (X = xi ) × P (Y = yj ) (0, 0) 0.06 0.3 × 0.2 = 0.06 (0, 1) 0.15 0.3 × 0.5 = 0.15 (0, 2) 0.09 0.3 × 0.3 = 0.09 (1, 0) 0.14 0.7 × 0.2 = 0.14 (1, 1) 0.35 0.7 × 0.5 = 0.35 (1, 2) 0.21 0.7 × 0.3 = 0.21 Tendo em conta que se verificou a igualdade em todos os pares de valores, conclui-se que as variáveis são independentes. Nota: Para concluir que as variáveis não são independentes basta haver um par (xi , yj ) em que P (X = xi ∧ Y = yj ) 6= P (X = xi ) × P (Y = yj ). d) Propriedades do valor esperado e da variância Serão aqui apresentadas as propriedades, na continuação das anteriormente apresentas no caso unidimensional (consultar páginas 45 e 49), quer para o valor esperado quer para a variância de funções lineares de duas variáveis aleatórias. Propriedades 2.2.4 (Valor esperado e variância de duas variáveis) Considere-se que a, b e c são constantes e que X e Y são duas variáveis aleatórias quaisquer, então 1. E(X + Y ) = E(X) + E(Y ); 2. E(a + bX + cY ) = a + bE(X) + cE(Y ); 58 3. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ); 4. V ar(a + bX + cY ) = b2 V ar(X) + c2 V ar(Y ) + 2bc Cov(X, Y ). Nota: No caso de X e Y serem duas variáveis aleatórias independentes, tendo em conta que nestes casos Cov(X, Y ) = 0, as duas últimas fórmulas apresentadas reduzem-se a V ar(X + Y ) = V ar(X) + V ar(Y ) e V ar(a + bX + cY ) = b2 V ar(X) + c2 V ar(Y ). Podem-se ainda generalizar estas propriedades para funções lineares com mais de duas variáveis aleatórias. Contudo, nesta análise, vai-se considerar apenas o caso em que todas as variáveis são independentes, pois será o único que será utilizado doravante. Propriedades 2.2.5 (Valor esperado e da variância de mais de duas variáveis) Considere-se que a, b1 , b2 , · · · , bn são constantes e que X1 , X2 , · · · , Xn são n variáveis aleatórias independentes, então 1. E(a + b1 X1 + · · · + bn Xn ) = a + b1 E(X1 ) + · · · + bn E(Xn ) = a + 2. V ar(a + b1 X1 + · · · + bn Xn ) = b21 V ar(X1 ) + · · · + b2n V ar(Xn ) = n X bi E (Xi ); i=1 n X b2i V ar (Xi ). i=1 Nota: No caso de as variáveis aleatórias não serem independentes, na fórmula da variância, tem-se V ar(a + b1 X1 + · · · + bn Xn ) = n X b2i V ar (Xi ) + 2 i=1 n n−1 X X i=1 j=i+1 59 bi bj Cov (Xi , Xj ) ; Exemplos 2.2.9 1. Considere as variáveis aleatórias X e Y das quais se sabe que E(X) = 10, E(Y ) = 100, V ar(X) = 4, V ar(Y ) = 9 e Cov(X, Y ) = −3. Qual o valor esperado e a variância da variável aleatória W , sendo W = 30 + 5X − 4Y ? E(W ) = E(30 + 5X − 4Y ) = 30 + 5E(X) − 4E(Y ) = = 30 + 5 × 10 − 4 × 100 = −320; V ar(W ) = V ar(30 + 5X − 4Y ) = V ar(5X − 4Y ) = = 52 V ar(X) − 2 × 5 × 4 × Cov(X, Y ) + (−4)2 V ar(Y ) = = 25 × 4 − 40 × (−3) + 16 × 9 = 364. 2. Considere as variáveis aleatórias X1 , X2 , X3 e X4 que são independentes, das quais se sabe que: E(X1 ) = 50 V ar(X1 ) = 10 E(X2 ) = 10 V ar(X2 ) = 2 E(X3 ) = 80 V ar(X3 ) = 1 E(X4 ) = 20 V ar(X4 ) = 5 Qual o valor esperado e a variância da variável aleatória W , sendo esta variável definida por W = 25 + X1 − 3X2 − 2X3 + 5X4 ? E(W ) = E(25 + X1 − 3X2 − 2X3 + 5X4 ) = = 25 + E(X1 ) − 3E(X2 ) − 2E(X3 ) + 5E(X4 ) = = 25 + 50 − 3 × 10 − 2 × 80 + 5 × 20 = 15; V ar(W ) = V ar(25 + X1 − 3X2 − 2X3 + 5X4 ) que, tendo em conta que as variáveis são independentes, vem = V ar(X1 ) + (−3)2 V ar(X2 ) + (−2)2 V ar(X3 ) + 52 V ar(X4 ) = = 10 + 9 × 2 + 4 × 1 + 25 × 5 = 157. 60 2.3 Distribuições discretas de probabilidade Neste capítulo vai-se apresentar um conjunto de distribuições conhecidas que se têm imposto como modelos probabilísticos de variáveis ou fenómenos aleatórios que surgem correntemente nas ciências empíricas. Estas distribuições deram, e continuam a dar, respostas a muitos problemas de aplicação da teoria da probabilidade. Assim, vão ser abordadas cinco distribuições discretas: a de Bernoulli, a Binomial, a Binomial Negativa, a Hipergeométrica e a de Poisson. 2.3.1 Distribuição de Bernoulli Considere a realização de uma experiência aleatória para a qual só estão definidos dois acontecimentos: → Sucesso - quando ocorre o acontecimento em análise; → Insucesso - quando não ocorre o acontecimento em análise. Neste contexto pode ser definida uma variável aleatória que assume o valor 1 (X = 1), com probabilidade p, quando ocorre um sucesso e assume o valor 0 (X = 0), com probabilidade 1−p, quando ocorre um insucesso. Diz-se, então, que essa variável tem distribuição de Bernoulli, sendo representada por X ∼ Ber(p) e tendo como função de probabilidade: X: 0 f (x) : 1 − p 1 p Exemplo 2.3.1 i) Classificação de uma bateria em defeituosa e não defeituosa; ii) Lançamento de uma moeda. Teorema 2.3.1 Se X é uma variável aleatória com distribuição de Bernoulli com probabilidade de sucesso igual a p, ou seja, X ∼ Ber(p), então, E(X) = p e V ar(X) = p(1 − p). 61 (25) Demonstração: E (X) = n P xi f (xi ) = 0 × (1 − p) + 1 × p = p i=1 n P E (X 2 ) = i=1 x2i f (xi ) = 02 × (1 − p) + 12 × p = p, logo V ar (X) = E (X 2 ) − E 2 (X) = p − p2 = p (1 − p). 2.3.2 Distribuição Binomial Suponha que se pretende fazer repetições sucessivas de uma experiência nas condições de Bernoulli. Cada repetição chama-se uma prova. Assim, estas provas verificam as condições seguintes: 1. Cada prova tem apenas definidos dois acontecimentos: sucesso ou insucesso; 2. Em cada prova a probabilidade de sucesso (representada por p) permanece constante, sendo a probabilidade de insucesso (1 − p) também constante; 3. As provas são independentes. A estas provas dá-se o nome de provas de Bernoulli, sendo a variável aleatória que conta o número de sucessos em n provas de Bernoulli designada por variável aleatória Binomial. Exemplo 2.3.2 Considere uma experiência aleatória que consiste em quatro lançamentos de um dado, onde se pretende calcular a probabilidade de saírem em dois lançamentos faces com valor superior a 4. Assim, o sucesso em cada prova serão os acontecimentos {5, 6} e o insucesso os acontecimentos 2 1 {1, 2, 3, 4}, sendo a probabilidade de sucesso igual a = e a probabilidade de insucesso igual a 6 3 µ ¶ 1 2 ou 1 − . Se o sucesso for representado por S e o insucesso por I existem seis formas de 3 3 acontecer dois sucessos em quatro lançamentos: SSII, SISI, SIIS, ISIS, ISSI, IISS. Assim, a probabilidade pretendida é: P (SSII ∪ SISI ∪ SIIS ∪ ISIS ∪ ISSI ∪ IISS) = 62 que, tendo em conta que os acontecimentos são disjuntos, ou seja, a sua intersecção é um conjunto vazio (nunca podem acontecer dois destes acontecimentos ao mesmo tempo), a probabilidade da união é igual à soma das probabilidades, = P (SSII) + P (SISI) + P (SIIS) + P (ISIS) + P (ISSI) + P (IISS) = considerando a independência das provas de Bernoulli, obtém-se: = P (S)P (S)P (I)P (I) + P (S)P (I)P (S)P (I) + P (S)P (I)P (I)P (S)+ + P (I)P (S)P (I)P (S) + P (I)P (S)P (S)P (I) + P (I)P (I)P (S)P (S) = que é seis vezes a soma de P (S)P (S)P (I)P (I); então, a expressão anterior é idêntica a: µ ¶2 µ ¶2 2 1 2 2 = 6P (S)P (S)P (I)P (I) = 6P (S) P (I) = 6 ; 3 3 que corresponde ao número de vezes que é possível obter dois sucessos em quatro provas (6) multiplicado pela probabilidade de haver um sucesso numa prova elevado ao número de sucessos pretendido [(1/3)2 ] multiplicado pela probabilidade de haver um insucesso numa prova elevado ao número de insucessos [(2/3)2 ] (que pode ser obtido pelo número de provas menos o número de sucessos). No entanto, o cálculo do número de vezes que é possível obter k sucessos em n provas é trabalhoso (se for efectuado de forma exaustiva como no exemplo). No caso de o número de provas ser grande, existem, para tal, as combinações sem repetição de n elementos k a k. Nota: As combinações sem repetição de n elementos k a k possuem a mesma fórmula que as permutações com repetição quando só se tem dois tipos de objectos. Em conclusão, uma variável aleatória com distribuição Binomial que seja constituída por n provas de Bernoulli e cuja probabilidade de sucesso em cada prova seja igual a p, habitualmente representada por X ∼ B(n, p), tem função de probabilidade: µ ¶ n x P (X = x) = f (x) = p (1 − p)n−x , para n ∈ N e x = 0, · · · , n. x 63 (26) Para o cálculo proposto no exemplo 2.3.2 (em quatro lançamentos saírem duas faces superiores a quatro) poder-se-ia utilizar a função de probabilidade. A variável tem distribuição 1 Binomial com 4 provas (n = 4) cuja probabilidade de sucesso em cada prova é ; então: 3 µ ¶ µ ¶2 µ ¶4−2 4 1 1 8 P (X = 2) = f (2) = 1− = . 2 3 3 27 Teorema 2.3.2 Se X é uma variável aleatória com distribuição Binomial constituída por n provas e com probabilidade de sucesso igual a p, ou seja, X ∼ B(n, p), então E(X) = np e V ar(X) = np(1 − p). (27) Exemplo 2.3.3 Considere que a probabilidade de determinada máquina possuir defeito de fabrico é 0.05. Se comprar vinte dessas máquinas, qual a probabilidade de pelo menos uma possuir defeito? Tendo em conta que a probabilidade de uma máquina possuir defeito de fabrico (0.05) é igual para todas as máquinas, pode-se utilizar a distribuição Binomial. Assim, a variável aleatória X, que conta o número de máquinas com defeito nas vinte máquinas compradas, tem distribuição Binomial com vinte provas de Bernoulli (n = 20) e probabilidade de sucesso em cada prova igual a 0.05 (p = 0.05), ou seja, X ∼ B(20, 0.05), sendo a probabilidade de pelo menos uma máquina possuir defeito dada por P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0) = µ ¶ 20 =1− × 0.050 × (1 − 0.05)20−0 = 0 ' 1 − 0.358485922 ' 0.6415. 2.3.3 Distribuição Binomial Negativa Se, em vez de se desejar contar o número de sucessos em n provas de Bernoulli, se pretender calcular o número de provas necessárias até obter r sucessos, então, a distribuição que deve 64 ser utilizada é a Binomial Negativa. Assim, a variável aleatória que conta o número de provas de Bernoulli necessárias até obter o sucesso número r tem distribuição Binomial Negativa, representando-se por X ∼ BN(r, p), sendo a sua função de probabilidade: µ ¶ x−1 r P (X = x) = f (x) = p (1 − p)x−r , para r ∈ N e x = r, r + 1, · · · . r−1 (28) Teorema 2.3.3 Se X é uma variável aleatória com distribuição Binomial Negativa constituída por r sucessos e com probabilidade de sucesso igual a p, ou seja, X ∼ BN(r, p), então E(X) = r × (1 − p) r e V ar(X) = . p p2 (29) Exemplo 2.3.4 Qual a probabilidade de sair pela segunda vez uma face com valor superior a 4 no quarto lançamento de um dado? A variável aleatória que conta o número de lançamentos necessários até atingir o segundo sucesso (sair um valor superior a 4) tem distribuição Binomial Negativa com número de sucessos 1 (r) igual a 2 e probabilidade de sucesso em cada prova (p) igual a , ou seja, 3 ¶ µ 1 , donde vem X ∼ BN 2, 3 µ ¶ x−1 r P (X = 4) = f (4) = p (1 − p)x−r = r−1 µ ¶ µ ¶2 µ ¶4−2 4−1 1 1 = × × 1− = 2−1 3 3 µ ¶ µ ¶2 µ ¶2 3 1 2 4 = × × = 1 3 3 27 Saliente-se que, quer a distribuição Binomial quer a Binomial Negativa, se baseiam em provas de Bernoulli, ou seja, em provas independentes onde a probabilidade de sucesso em cada prova (p) é constante. No entanto, utiliza-se a distribuição Binomial para calcular a probabilidade de se obter x sucessos em n provas, ou seja, os casos favoráveis são qualquer combinação de 65 x provas com sucesso em n provas efectuadas, enquanto que a distribuição Binomial Negativa é utilizada quando se pretende calcular a probabilidade de que o sucesso número r ocorra na prova número x (existindo a obrigação de que a última prova seja um sucesso). 2.3.4 Distribuição Hipergeométrica Considere a experiência aleatória que consiste em retirar uma amostra (sem reposição) constituída por n elementos de uma população constituída por N elementos dos quais r possuem determinada característica que se pretende analisar (ou seja, N − r elementos da população não possuem a característica em estudo). Nestas condições, a variável aleatória que conta o número de elementos na amostra (recolhida sem reposição) que possuem a característica em estudo tem distribuição Hipergeométrica, sendo representada por X ∼ H(N, n, r) e tendo função de probabilidade igual a: µ ¶µ ¶ r N −r x n−x µ ¶ f (x) = P (X = x) = , max{0, n − (N − r)} ≤ x ≤ min{r, n}. N n (30) Teorema 2.3.4 Se X é uma variável aleatória com distribuição hipergeométrica, ou seja, se X ∼ H(N, n, r), então E(X) = n × r N e V ar(X) = n × r N −r N −n × × . N N N −1 (31) Exemplos 2.3.5 1. Um armazém contém cem máquinas das quais vinte estão avariadas. Se forem retiradas quinze máquinas do armazém, qual a probabilidade de quatro estarem avariadas? A variável aleatória (seja X) que conta o número de máquinas avariadas na amostra tem distribuição Hipergeométrica cuja população tem dimensão 100 (N = 100) das quais vinte estão avariadas (r = 20) e a amostra tem dimensão quinze (n = 15), logo 66 X ∼ H(100, 15, 20) e µ ¶µ ¶ µ ¶µ ¶ 20 100 − 20 20 80 4 4 15 − 4 11 µ ¶ P (X = 4) = = µ ¶ ' 0.200. 100 100 15 15 2. Considere a experiência aleatória que consiste em retirar dez cartas de um baralho de 52 cartas. Qual a probabilidade de, nessas dez cartas, haver três figuras, se as cartas foram retiradas: (a) sem reposição? Este caso corresponde a ter uma população de dimensão cinquenta e dois (N = 52) [das quais doze possuem a característica “ser figura” (r = 12)] de onde é retirada uma amostra (sem reposição) de dimensão dez (n = 10), logo, a variável aleatória que conta o número de cartas que são figuras na amostra tem distribuição Hipergeométrica, ou seja, X ∼ H(52, 10, 12), então µ ¶µ ¶ µ ¶µ ¶ 12 40 12 52 − 12 3 7 3 10 − 3 µ ¶ µ ¶ = ' 0.259. P (X = 3) = 52 52 10 10 (b) com reposição? Neste caso, como as cartas são retiradas com reposição, a distribuição hipergeométrica não pode ser aplicada. No entanto, se as cartas são retiradas com reposição a probabilidade de sair uma figura é igual para cada uma das cartas retiradas. Assim, pode ser aplicada a distribuição Binomial com dez provas onde a probabilidade de sucesso em cada prova será doze (número de figuras no baralho) a dividir por 12 cinquenta e dois (número total de cartas), ou seja p = ; então, se a variável 52 aleatória que conta o número de figuras que saem nas dez cartas retiradas for repreµ ¶ 12 sentada por Y , vem que Y ∼ B 10, e a probabilidade pretendida é determinada 52 por 67 ¶10−3 µ ¶ µ ¶3 µ 10 12 12 P (Y = 3) = × × 1− ' 0.235. 52 52 3 Nota: Os valores obtidos para as probabilidades calculadas sem reposição através da distribuição Hipergeométrica e com reposição através da distribuição Binomial são, no exemplo anterior, próximos um do outro. Em certas condições torna-se mesmo indiferente utilizar a distribuição Hipergeométrica ou a Binomial como é enunciado pelo seguinte teorema. Teorema 2.3.5 (Aproximação da Hipergeométrica à Binomial) A distribuição Hipergeométrica tende para a distribuição Binomial se a dimensão da população tende para infinito, isto é, • X ∼ H(N, n, r) =⇒ X ∼ B(n, p) se N → +∞, sendo p = r . N Regra: Este teorema é utilizado, na prática, se a amostra for constituída por menos de cinco por cento da população, ou seja, se n ≤ 0.05. N Exemplo 2.3.6 Considere que, dos dez milhões de portugueses, quatro milhões fumam. Se inquirir trinta, qual a probabilidade de doze fumarem? A variável que conta o número de fumadores na amostra tem distribuição Hipergeométrica com N = 10000000, n = 30 e r = 4000000, ou seja, X ∼ H(10000000, 30, 4000000), então, para calcular a probabilidade de haver doze indivíduos que responderam que fumavam, virá µ ¶µ ¶ µ ¶µ ¶ 4000000 10000000 − 4000000 4000000 6000000 12 30 − 12 12 18 µ ¶ µ ¶ P (X = 12) = = =? 10000000 10000000 30 30 68 No entanto, a maioria das máquinas de calcular não tem capacidade para fazer estes cálculos, devendo-se então utilizar o teorema da aproximação da distribuição Hipergeométrica à distribuição Binomial. Primeiro devem-se verificar as condições de aplicabilidade do teorema, ou n seja, se ≤ 0.05. Neste caso, vem que N n 30 = = 0.000003 ≤ 0.05, logo, pode-se aplicar o teorema 2.3.5 e N 10000000 • X ∼ H(10000000, 30, 4000000) =⇒ X ∼ B(30, 0.4), pois p = 4000000 r = = 0.4 e a probabilidade pretendida é determinada por N 10000000 µ ¶µ ¶ 4000000 6000000 µ ¶ 30 12 18 µ ¶ P (X = 12) = ' × 0.412 × (1 − 0.4)30−12 ' 0.1474. 10000000 12 30 2.3.5 Distribuição de Poisson Diz-se que uma variável aleatória tem distribuição de Poisson com parâmetro λ, representando-se por X ∼ P(λ), se a sua função de probabilidade for dada por: P (X = x) = f (x) = e−λ λx com λ > 0 e x = 0, 1, · · · . x! 69 (32) Características das variáveis com distribuição de Poisson 1. O número de sucessos que ocorre num determinado intervalo de tempo é independente do número de sucessos que ocorre em qualquer outro intervalo de tempo disjunto do primeiro. 2. A probabilidade de um acontecimento se realizar uma vez em qualquer intervalo muito curto é proporcional à amplitude do intervalo. Teorema 2.3.6 Se a variável aleatória X tem distribuição de Poisson com parâmetro λ, ou seja, X ∼ P (λ), então E(X) = λ e V ar(X) = λ. (33) Teorema 2.3.7 (Aditividade da distribuição de Poisson) Sejam Xi , com i = 1, 2, · · · , n, n variáveis aleatórias independentes com distribuição de Poisson de parâmetro λi respectivamente, ou seja, Xi ∼ P (λi ) para i = 1, · · · , n, então, ! à n n X X Xi ∼ P λi i=1 (34) i=1 Exemplo 2.3.7 Considere que o número de telefonemas que determinada empresa recebe tem distribuição de Poisson com média três por hora. Sabendo que o parâmetro da Poisson é igual à sua média tem-se que a variável aleatória X que conta o número de telefonemas numa hora tem distribuição de Poisson com parâmetro λ = 3, ou seja, X ∼ P (3). 1. Qual a probabilidade de a empresa em uma hora receber (a) dois telefonemas? P (X = 2) = 70 e−3 × 32 ' 0.224. 2! (b) menos de três telefonemas? P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) = e−3 × 30 e−3 × 31 e−3 × 32 = + + ' 0! 1! 2! ' 0.0498 + 0.1494 + 0.2240 = 0.4232. Tendo em conta que P (X < 3) = P (X ≤ 2), este cálculo pode ser efectuado recorrendo à tabela da função de distribuição da Poisson (ver tabela no fim do capítulo na página 123). Relembrando que a função de distribuição, por definição, fornece a probabilidade de a variável assumir um valor menor ou igual a determinado x, ou seja, F (x) = P (X ≤ x), bastaria ir à tabela à coluna correspondente λ = 3 e à linha x = 2 e obter-se-ia de imediato o valor 0.4232. (c) mais de dez telefonemas? P (X > 10) = 1 − P (X ≤ 10) = 1 − F (10) = 1 − 0.9997 = 0.0003. 2. Qual a probabilidade de, em seis horas, haver 10 telefonemas? Nesta questão pretende-se analisar o número de telefonemas em seis horas (variável que será representada por Y ), o que equivale a analisar a soma de seis variáveis que contém o número de telefonemas em cada uma das horas; então, pelo teorema da aditividade da distribuição de Poisson, vem que Y = X1 + X2 + · · · + X6 , onde Xi ∼ P (3) para i = 1, · · · , 6, então ∼ P (3 + 3 + 3 + 3 + 3 + 3) ⇔ Y ∼ P (6 × 3) ⇔ Y ∼ P (18) e e−18 × 1810 = 0.0150, ou P (Y = 10) = 10! P (Y = 10) = P (Y ≤ 10) − P (Y ≤ 9), Y que pela tabela da função de distribuição vem = F (10) − F (9) = 0.0304 − 0.0154 = 0.0150. 71 3. Qual a probabilidade de em quinze minutos haver um telefonema? Se a variável que conta o número de telefonemas em quinze minutos for representada por Z, esta terá também distribuição de Poisson, sendo o parâmetro determinado através da regra de “três simples”, ou seja, se numa hora se espera haver três telefonemas em média, em quinze minutos quantos telefonemas são esperados? Sendo a resposta igual a 0.75, consequentemente Z ∼ P (0.75), sendo a probabilidade pedida calculada através de P (Z = 1) = e−0.75 × 0.751 ' 0.3543. 1! Teorema 2.3.8 (Aproximação da Binomial à de Poisson) A distribuição Binomial tende para a distribuição de Poisson quando o número de provas de Bernoulli tende para infinito e a probabilidade de sucesso numa prova tende para zero, mantendo-se constante o produto np = λ , ou seja, • X ∼ B(n, p) ⇒ X ∼ P (λ) se n → +∞ e p → 0 de tal forma que np = λ. Regra: Na prática utiliza-se a distribuição de Poisson como aproximação da distribuição Binomial quando simultaneamente n ≥ 20 e p ≤ 0.05. Exemplo 2.3.8 Considerando que determinada fábrica produz um milhão de baterias por mês e que a probabilidade de cada bateria estar defeituosa é 0.00001, qual a probabilidade de, num mês, haver no máximo doze baterias com defeito? X ∼ B(1000000, 0.00001) Para ser calculada a probabilidade de a variável aleatória X assumir um valor menor ou igual a doze utilizando a distribuição Binomial, tem que se calcular, por exemplo, combinações de 72 um milhão doze a doze, o que a maioria das máquinas de calcular não tem capacidade (dando erro); então, aplicando o teorema da aproximação da distribuição Binomial à de Poisson (visto que n ≥ 20 e p ≤ 0.05) vem que • • X ∼ B(1000000, 0.00001) =⇒ X ∼ P (1000000 × 0.00001) =⇒ X ∼ P (10), então, P (X ≤ 12) = F (12) = 0.7916. (valor obtido utilizando a tabela da função de distribuição da Poisson com parâmetro λ = 10.) 73 2.4 Variáveis aleatórias contínuas Relembre-se que as variáveis aleatórias são consideradas contínuas se o seu contradomínio é um intervalo real ou uma colecção de intervalos reais. Tendo em conta que qualquer intervalo real contém um número infinito (não numerável) de valores, é impossível definir uma função de probabilidade (função que associa a cada valor que a variável pode assumir a sua respectiva probabilidade) para as variáveis contínuas. Assim, nas variáveis contínuas a probabilidade não estará definida para cada um dos valores que a variável pode assumir (a probabilidade de uma variável aleatória contínua ser igual a um determinado valor, qualquer que seja esse valor, é sempre nula), mas, sim, em intervalos reais, sendo a probabilidade de uma variável assumir um valor pertencente a um dado intervalo real determinada pela área, nesse intervalo, compreendida entre o eixo (y = 0) e uma função não negativa. Essa função será denominada por função de densidade de probabilidade. 2.4.1 Função de densidade de probabilidade Definição 2.4.1 (Definição de função de densidade de probabilidade) Chama-se função de densidade de probabilidade, ou simplesmente função de densidade, de uma variável aleatória contínua a qualquer função f (x) que satisfaça simultaneamente: 1. f (x) ≥ 0; 2. +∞ R f (x)dx = 1. −∞ Propriedades 2.4.1 (Propriedades da função de densidade) 1. P (a ≤ X ≤ b) = Rb a f (x)dx para quaisquer constantes a e b tais que a ≤ b; 2. P (X = k) = 0 para qualquer constante k. 74 Exemplo 2.4.1 Considere a seguinte função: f (x) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 0 x<0 0.1 0≤x<5 ⎪ ⎪ 0.04x − 0.2 5 ≤ x < 10 ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0 x ≥ 10 . 1. Verifique que f (x) é uma função de densidade. (a) f (x) ≥ 0. A função de densidade nunca é negativa. O único problema que poderia surgir seria no intervalo 5 ≤ x < 10, mas 0.04x − 0.2 ≥ 0 ⇒ x ≥ 5, logo, mesmo neste intervalo, a função não assume valores negativos. +∞ R (b) f (x)dx = 1. −∞ Z+∞ Z0 Z5 Z10 Z+∞ f (x)dx = 0dx + 0.1dx + (0.04x − 0.2)dx + 0dx = −∞ −∞ 0 5 10 ¸10 ∙ x2 5 − 0.2x + 0 = = 0 + [0.1x]0 + 0.04 × 2 µ5 ¶ 102 52 = 0.5 + 0.04 × − 0.2 × 10 − 0.04 × − 0.2 × 5 = 2 2 = 0.5 + 2 − 2 − 0.5 + 1 = 1 2. Determine as seguintes probabilidade: (a) P (X < 3). P (X < 3) = P (X ≤ 3) = = Z0 −∞ 0dx + Z3 0 75 Z3 f (x)dx = −∞ 0.1dx = 0 + [0.1x]30 = 0.3 − 0 = 0.3. (b) P (X > 2). Z+∞ Z5 Z10 Z+∞ P (X > 2) = f (x)dx = 0.1dx + (0.04x − 0.2)dx + 0dx = 2 2 5 10 ∙ ¸10 x2 5 = [0.1x] 2 + 0.04 × − 0.2x + 0 = 2 5 µ ¶ 2 52 10 − 0.2 × 10 − 0.04 × − 0.2 × 5 = = 0.5 − 0.2 + 0.04 × 2 2 = 0.3 + 2 − 2 − 0.5 + 1 = 0.8 (c) P (1 < X < 8). P (1 < X < 8) = Z8 f (x)dx = 1 Z5 0.1dx + 1 Z8 (0.04x − 0.2)dx = 5 ¸8 ∙ x2 5 = [0.1x] 1 + 0.04 × − 0.2x = 2 5 µ ¶ 2 8 52 = 0.5 − 0.1 + 0.04 × − 0.2 × 8 − 0.04 × − 0.2 × 5 = 2 2 = 0.4 + 1.28 − 1.6 − 0.5 + 1 = 0.58. 2.4.2 Função de distribuição Tal como nas variáveis aleatórias discretas, chama-se função de distribuição à função real de variável real F (x) = P (X ≤ x), sendo, nas variáveis aleatórias contínuas, determinada por F (x) = P (X ≤ x) = Zx f (t)dt. (35) −∞ Exemplo 2.4.2 Em relação à função de densidade utilizada no último exemplo (exemplo2.4.1 na página 75), a função de distribuição correspondente é: Para x < 0 F (x) = P (X ≤ x) = Zx −∞ 76 f (t)dt = Zx −∞ 0dt = 0. Para 0 ≤ x < 5 F (x) = P (X ≤ x) = Zx f (t)dt = Z0 −∞ −∞ Zx Z0 0dt + Zx 0.1dt = [0.1t] x 0 = 0.1x. 0 Para 5 ≤ x < 10 F (x) = P (X ≤ x) = f (t)dt = −∞ 0dt + −∞ Z5 0.1dt + 0 Zx (0.04t − 0.2)dt = 5 ¸x t 5 = 0 + [0.1t] 0 + 0.04 × − 0.2t = 2 ∙ ¸ ∙ 5 ¸ 2 x 52 = 0.5 + 0.04 × − 0.2x − 0.04 × − 0.2 × 5 = 2 2 = 0.5 + 0.02x2 − 0.2x − 0.5 + 1 = 0.02x2 − 0.2x + 1 ∙ 2 Para x ≥ 10 F (x) = P (X ≤ x) = Zx −∞ f (t)dt = Z0 0dx + −∞ Z5 0 Z10 Zx 0.1dt + (0.04t − 0.2)dt + 0dt = 1. 5 Resumindo, a função de distribuição é igual a ⎧ ⎪ ⎪ 0 x<0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 0.1x 0≤x<5 . F (x) = P (X ≤ x) = ⎪ 2 ⎪ 0.02x − 0.2x + 1 5 ≤ x < 10 ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 x ≥ 10 Propriedades 2.4.2 (Propriedades da função de distribuição) 1. Para qualquer função de distribuição F (x), tem-se 0 ≤ F (x) ≤ 1; 2. F (x) é não decrescente (constante ou crescente); 3. lim F (x) = 0 e lim F (x) = 1; x→−∞ x→+∞ 4. F (x) é contínua. 77 10 Nota: Em relação às propriedades da função de distribuição apresentadas aquando das variáveis aleatórias discretas apenas existe uma diferença, nas variáveis aleatórias discretas a função de distribuição apenas é contínua à direita, enquanto que nas variáveis aleatórias contínuas a função de distribuição é contínua. Teorema 2.4.1 Para qualquer função de distribuição F (x), dados os números reais x1 e x2 tais que x1 < x2 , tem-se P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ) = F (x2 ) − F (x1 ). Ver demonstração na página 41. Nota: Tendo em conta que, para qualquer variável aleatória contínua, P (X = k) = 0 para qualquer valor de k, ter P (x1 < X ≤ x2 ) é o mesmo que ter P (x1 ≤ X ≤ x2 ), P (x1 ≤ X < x2 ) ou P (x1 < X < x2 ). Exemplo 2.4.3 Considerando a função de distribuição determinada no exemplo anterior (exemplo 2.4.2), 1. P (X < 3) = P (X ≤ 3) = F (3) = 3 × 0.1 = 0.3; 2. P (X > 2) = 1 − P (X ≤ 2) = 1 − F (2) = 1 − 2 × 0.1 = 0.8; 3. P (X ≤ 8) = F (8) = 0.02 × 82 − 0.2 × 8 + 1 = 1.28 − 1.6 + 1 = 0.68; 4. P (1 < X < 8) = F (8) − F (1) = (0.02 × 82 − 0.2 × 8 + 1) − 0.1 × 1 = 0.68 − 0.1 = 0.58. 2.4.3 Valor esperado e variância de uma variável aleatória contínua As medidas utilizadas para analisar a localização e a dispersão das variáveis aleatórias contínuas são as mesmas que foram utilizadas nas variáveis aleatórias discretas, ou seja, o valor esperado 78 será utilizado como medida de localização e a variância e o desvio padrão como medidas de dispersão. Saliente-se que a interpretação destas medidas é feita de forma análoga à apresentada aquando da apresentação das variáveis aleatórias discretas, sendo a única alteração a forma como estas medidas são determinadas. Medida de localização Definição 2.4.2 (Definição de valor esperado de uma variável aleatória contínua) O valor esperado (esperança matemática ou valor médio) de uma variável aleatória contínua é representado por E(X) ou μX e é definido por Z+∞ xf (x)dx. E(X) = μX = (36) −∞ que só existe se o integral for absolutamente convergente, ou seja, se +∞ R −∞ Nota: |x| f (x)dx < ∞. Repare nas semelhanças da fórmula apresentada com a fórmula (14) na página 43. Saliente-se que a única diferença é a utilização do integral no cálculo do valor esperado de uma variável aleatória contínua em vez do somatório (ou série) utilizado no cálculo do valor esperado de uma variável aleatória discreta. Exemplo 2.4.4 Em relação à variável aleatória que tem sido utilizada nos últimos exemplos (ver função de densidade de probabilidade no exemplo 2.4.1 na página 75), tem-se Z+∞ xf (x)dx = E(X) = −∞ 79 = Z0 (x × 0)dx + −∞ Z5 0 (x × 0.1)dx + Z10 5 Z+∞ [x × (0.04x − 0.2)] dx + (x × 0)dx = 10 ¸5 ∙ ¸10 ∙ x3 x2 x2 + 0.04 × +0= − 0.2 × = 0 + 0.1 × 2 0 3 2 5 µ ¶ 103 102 53 52 52 + 0.04 × − 0.2 × − 0.04 × − 0.2 × = = 0.1 × 2 3 2 3 2 5 5 65 5 40 + − 10 − + = = 4 3 3 2 12 Definição 2.4.3 Seja g(X) uma função real de variável real qualquer, então, Z+∞ g(x)f (x)dx. E [g(X)] = (37) −∞ que só existe se o integral for absolutamente convergente, ou seja, se +∞ R −∞ Nota: |g(x)| f (x)dx < ∞. As propriedades do valor esperado das variáveis aleatórias discretas apresentadas nas páginas 45 e 58 mantêm-se válidas para os valores esperados das variáveis aleatórias contínuas. Medida de Dispersão A variância de uma variável aleatória é definida (ver definição 2.2.4) como sendo o valor esperado da expressão [X − E(X)]2 , ou seja, σ 2X = E[(X − μX )2 ]. No caso de a variável aleatória ser contínua a variância pode ser calculada através de: Z+∞ σ 2 = V ar(X) = (x − μ)2 f (x)dx. (38) −∞ onde μ = E (X). O desvio padrão, tal com nas variáveis aleatória discretas, é definido como sendo a raiz quadrada positiva da variância, ou seja, representando o desvio padrão por σ, vem p σ = + V ar(X). 80 No entanto, tal como nas variáveis aleatórias discretas, os cálculos da variância não são usualmente efectuados pela sua definição, mas sim, pela fórmula de Köning [ver fórmula (19) na página 47], que é σ 2X = E(X 2 ) − E 2 (X). Exemplo 2.4.5 Continuando a utilizar a função de densidade do exemplo 2.4.1 para calcular a variância é ¶ µ 65 necessário saber E(X) que já foi determinado no exemplo 2.4.4 onde obteve-se E(X) = 12 2 2 e o valor esperado de X . Para determinar E(X ) utiliza-se a fórmula (37) da página 80 considerando que g(x) = x2 , de onde se obtém: Z+∞ x2 f (x)dx = E(X ) = 2 −∞ = Z0 0dx + −∞ Z5 0 Z10 Z+∞ 2 0.1x dx + (0.04x − 0.2)x dx + 0dx = 2 5 10 ¸5 ∙ ¸10 ∙ x4 x3 x3 + 0.04 × +0= − 0.2 × = 0 + 0.1 × 3 0 4 3 5 µ ¶ 104 103 54 53 53 + 0.04 × − 0.2 × − 0.04 × − 0.2 × = = 0.1 × 3 4 3 4 3 200 25 25 475 25 + 100 − − + = = 6 3 4 3 12 então, para a variância de X, vem σ 2X 475 − = E(X ) − E (X) = 12 2 2 µ 65 12 ¶2 = 1475 ' 10.24305556, 144 e para o desvio padrão vem σX ' √ 10.24305556 ' 3.2005. Nota: As propriedades da variância apresentadas nas páginas 49 e 58 mantêm-se válidas para a variância das variáveis aleatórias contínuas. 81 2.5 Distribuições Contínuas de Probabilidade Neste capítulo vai-se apresentar um conjunto de distribuições que surgem correntemente nas ciências empíricas. Assim, vão ser abordadas cinco distribuições contínuas: a Uniforme, a Exponencial, a Normal, a Qui-quadrado e a t-Student. 2.5.1 Distribuição Uniforme Considera-se que uma variável aleatória contínua X tem distribuição Uniforme no intervalo [a, b] com a < b, representando-se por X ∼ U(a, b), se a sua função de densidade for: ⎧ 1 ⎨ a≤x≤b b−a . f (x) = ⎩ 0 x<a ∨ x>b (39) Teorema 2.5.1 Se X é uma variável aleatória com distribuição Uniforme no intervalo [a, b], ou seja, X ∼ U (a, b), então E(X) = a+b (b − a)2 e V ar(X) = . 2 12 (40) Demonstração: Z+∞ Za Zb xf (x)dx = 0dx + E(X) = −∞ = x dx + b−a a −∞ ∙ ¸b Z+∞ 1 x2 0dx = 0 + +0= × b−a 2 a b 1 (b − a)(b + a) b+a (b2 − a2 ) = = . 2(b − a) 2(b − a) 2 Para calcular a variância é necessário determinar antes o E(X 2 ), Z+∞ Za Zb x2 f (x)dx = 0dx + E(X 2 ) = −∞ = −∞ 1 2 x dx + b−a a 3 3 (b − a ) 1 (b3 − a3 ) = , 3(b − a) 3(b − a) 82 ∙ ¸b Z+∞ 1 x3 0dx = 0 + +0= × b−a 3 a b logo V ar(X) = = = = µ ¶2 b3 − a3 b+a E(X ) − E (X) = = − 3(b − a) 2 b2 + 2ba + a2 b3 − a3 − = 3(b − a) 4 4b3 − 4a3 − 3b3 − 6b2 a − 3ba2 + 3b2 a + 6ba2 + 3a2 = 12(b − a) b3 − 3b2 a + 3ba2 − a3 (b − a)3 (b − a)2 = = . 12(b − a) 12(b − a) 12 2 2 obtendo-se, assim, o resultado pretendido. Exemplo 2.5.1 Considere que a variável aleatória contínua X tem distribuição Uniforme no intervalo [−1, 1], então, a sua função de densidade é ⎧ 1 ⎨ −1 ≤ x ≤ 1 2 f (x) = . ⎩ 0 x < −1 ∨ x > 1 1. Qual o valor esperado e a variância da variável aleatória X? E(X) = a + b −1 + 1 (b − a)2 [1 − (−1)]2 22 4 1 = = 0 e V ar(X) = = = = = . 2 2 12 12 12 12 3 2. Qual a probabilidade da variável aleatória X assumir um valor negativo? P (X < 0) = Z0 −∞ 2.5.2 f (x)dx = Z−1 −∞ 0dx + Z0 −1 ∙ ¸0 1 1 1 1 = 0 − × (−1) = = 0.5. dx = 0 + x 2 2 −1 2 2 Distribuição Exponencial Considera-se que uma variável aleatória contínua X tem distribuição Exponencial com parâmetro λ, representando-se por X ∼ Exp(λ), se a sua função de densidade for: ⎧ ⎨ λe−λx x > 0 f (x) = , para λ > 0. ⎩ 0 x≤0 83 (41) Teorema 2.5.2 Se a variável aleatória X tem distribuição Exponencial com parâmetro λ, ou seja, X ∼ Exp(λ), então E(X) = 1 1 e V ar(X) = 2 . λ λ (42) Demonstração: Z+∞ Z+∞ Za −λx E(X) = xf (x) dx = xλe dx = lim xλe−λx dx a→∞ −∞ 0 0 que utilizando a primitivação por partes, P (f g) = F g − P (F g 0 ), considerando f (x) = λe−λx e g (x) = x, ¡ ¤ ¢ £ 1 P xλe−λx = −xe−λx + P e−λx = −xe−λx − e−λx λ logo lim a→∞ Za 0 −λx xλe ∙ ¸a 1 −λx −λx dx = lim −xe − e = a→∞ λ 0 ∙ ¶¸ µ 1 −λa 1 0 −λa = = lim −ae − e − −0 − e a→∞ λ λ 1 1 = −0 − 0 + 0 + = . λ λ Utilizando, de forma semelhante, a primitivação por partes, obtém-se Z+∞ Z+∞ 2 2 x f (x) dx = x2 λe−λx dx = 2 , E(X ) = λ 2 −∞ 0 logo ¡ ¢ 2 V ar (X) = E X 2 − E 2 (X) = 2 − λ µ ¶2 1 1 = 2. λ λ Exemplo 2.5.2 Considere que a variável aleatória contínua X tem distribuição Exponencial com média quatro, 84 então, o parâmetro da distribuição assume o valor variável aleatória X é 1 1 (λ = ) e a função de densidade da 4 4 ⎧ x ⎪ ⎨ 1 −4 x>0 e f (x) = . 4 ⎪ ⎩ 0 x≤0 1. P (X < 12) = Z12 −∞ f (x)dx = Z0 −∞ 0dx + Z12 0 h 1 i12 1 −1x e 4 dx = 0 − e− 4 x = 4 0 ´ ³ 1 − 4 ×12 − 14 ×0 −e = −e−3 + e0 = 1 − e−3 ' 0.9502. = − e 2. " x #+∞ x Z+∞ Z+∞ − − 1 e 4 dx = − e 4 P (X > 4) = f (x)dx = = 4 4 4 4 ⎛ ⎞ x 4 − − = − ⎝ lim e 4 − e 4 ⎠ , x→+∞ x como lim e 4 = 0, vem − x→+∞ ⎞ x 4 ¢ ¡ − − − ⎝ lim e 4 − e 4 ⎠ = − 0 − e−1 = e−1 ' 0.3679. ⎛ x→+∞ Teorema 2.5.3 Seja X uma variável aleatória discreta com distribuição de Poisson com parâmetro λ. A variável aleatória que conta o tempo entre dois sucessos consecutivos da variável aleatória X é uma nova variável aleatória contínua Y que tem distribuição Exponencial com parâmetro λ. Exemplo 2.5.3 Considere que o número de carros que passam em determinada ponte tem distribuição de Poisson com média dois por hora. Considerando que acabou de passar um carro: 85 1. qual a probabilidade de ter de esperar mais de uma hora até que passe outro carro? Considerando que o número de carros que passam na ponte numa hora é descrito por uma variável aleatória X que tem distribuição de Poisson com parâmetro dois (recordando que o parâmetro da distribuição de Poisson é igual à sua média), ou seja, X ∼ P (2), pelo teorema 2.5.3 o tempo que decorre entre a passagem de dois carros na ponte é descrito por uma nova variável Y que tem distribuição Exponencial com parâmetro 2, Y ∼ Exp(2), sendo a sua função de densidade ⎧ ⎨ 2e−2y y > 0 f (y) = . ⎩ 0 y≤0 Assim, a probabilidade pretendida pode ser determinada por Z+∞ Z+∞ £ ¡ ¤ +∞ ¢ f (y) dy = 2e−2y dy = − e−2y 1 = − 0 − e−2 ' 0.1353. P (Y > 1) = 1 1 2. qual a probabilidade ter de esperar menos de trinta minutos até que passe outro carro? Considerando que trinta minutos é meia hora (se a variável aleatória utilizada com distribuição de Poisson referia-se a uma hora, cada unidade da variável aleatória Y corresponderá à mesma medida), a probabilidade pretendida é: P (Y < 0.5) = Z0.5 f (y) dy = −∞ Z0 −∞ Z0.5 0dy + 2e−2y dy = 0 £ ¡ ¢ ¤ 0.5 = 0 − e−2y 0 = − e−1 − 1 ' 0.6321. 3. qual a probabilidade de ter de esperar entre quinze e quarenta e cinco minutos até que passe outro carro? Considerando que quinze minutos é 0.25 de uma hora e quarenta e cinco minutos é 0.75 86 de uma hora, a probabilidade pretendida é: Z0.75 Z0.75 P (0.25 < Y < 0.75) = f (y) dy = 2e−2y dy = 0.25 0.25 ¡ ¤ 0.75 ¢ £ = − e−2y 0.25 = − e−1.5 − e−0.5 ' 0.3834. 2.5.3 Distribuição Normal A distribuição Normal surgiu no século XV III pelos trabalhos realizados por De Moivre, Laplace e Gauss (sendo, por isso, também denominada por distribuição de Gauss ou Gaussiana). A distribuição Normal é a distribuição com maior importância em estatística, pois muitas variáveis com distribuição diferente da Normal (como são exemplo as distribuições Binomial, Hipergeométrica e de Poisson) podem ser aproximadas, sob certas condições, de um modo simples numa outra variável com distribuição Normal. Diz-se que uma variável aleatória contínua tem distribuição Normal com parâmetros μ e σ, representada por X ∼ N(μ, σ), se a sua função de densidade de probabilidade for da seguinte forma: − 1 f (x) = √ e σ 2π (x − μ)2 2σ 2 , para σ > 0 e μ, x ∈ R. (43) Propriedades 2.5.1 (Propriedades da distribuição Normal) Considerando uma variável aleatória X ∼ N(μ, σ) tem-se: 1. O valor esperado da variável aleatória X é igual a μ, ou seja, E(X) = μ. 2. O desvio padrão da variável aleatória X é igual a σ, sendo a variância igual a σ2 , ou seja, V ar(X) = σ 2 . 3. A função de densidade de uma variável aleatória com distribuição Normal é simétrica em relação à sua média. 87 y 0.3 0.2 0.1 0 -5 -2.5 0 2.5 5 x Função de densidade de uma variável aleatória com distribuição Normal de média nula e desvio padrão igual a um. Tendo em conta que não é possível primitivar a função de densidade da distribuição Normal pelos métodos elementares do cálculo integral, as probabilidades das variáveis aleatórias com distribuição Normal são calculadas recorrendo a uma tabela. Nesta distribuição, pelo facto de ser contínua, utiliza-se a tabela da função de distribuição F (x) = P (X ≤ x). No entanto, só existem tabelados os valores da função de distribuição para a distribuição Normal com média zero e desvio padrão igual a 1 (representada por Z e denominada por Normal standard) cuja função de distribuição é representada por P (Z ≤ z) = φ(z) (tabela apresentada no final do capítulo na página 126). Assim, o próximo teorema permite a transformação de qualquer variável aleatória com distribuição Normal noutra variável com distribuição Normal com média zero e desvio padrão 1 (Normal standard). Teorema 2.5.4 Se X é uma variável aleatória com distribuição Normal com média μ e desvio padrão σ, ou seja, X ∼ N(μ, σ), então, Z= X −μ ∼ N(0, 1). σ (44) Outro problema prático na utilização das tabelas é a existência da função de distribuição apenas para valores positivos. Tendo em conta que a distribuição Normal é simétrica em torno da sua média e, em particular, a variável Z é simétrica em torno do ponto zero, este problema 88 pode ser resolvido utilizando o seguinte teorema. Teorema 2.5.5 Considerando que Z ∼ N(0, 1), então, P (Z ≤ −z) = P (Z ≥ z) = 1 − P (Z < z), ou seja, φ(−z) = 1 − φ(z). Exemplificação da fórmula P (Z ≤ −z) = P (Z ≥ z) Exemplo 2.5.4 Considere que o tempo que determinada tarefa demora na sua realização é uma variável aleatória com distribuição Normal com média igual a 5 (μ = 5) e desvio padrão igual a 2 (σ = 2) [X ∼ N(5, 2)]. 1. Pretende-se calcular a probabilidade de: (a) P (X ≤ 7). µ ¶ 7−5 P (X ≤ 7) = P Z ≤ = P (z ≤ 1) = φ(1) = 0.8413, 2 onde o valor de φ(1) foi retirado da tabela da função de distribuição da variável aleatória Z (Normal standard) apresentada no fim do capítulo. 89 (b) P (X > 10.04). µ ¶ 10.04 − 5 P Z> = P (Z > 2.52) = 1 − P (Z ≤ 2.52) = 2 = 1 − φ(2.52) = 1 − 0.9941 = 0.0059. (c) P (X < 3). P (X < 3) = φ(−1) = 1 − φ(1) = 1 − 0.8413 = 0.1587. (d) P (1 < X < 11). P (1 < X < 11) = P (−2 < Z < 3) = P (Z < 3) − P (Z ≤ −2) = = φ(3) − φ(−2) = φ(3) − [1 − φ(2)] = = φ(3) − 1 + φ(2) = 0.9987 − 1 + 0.9772 = 0.9759. 2. (a) Determinar a tal que P (X < a) = 0.6915. ¶ a−5 = 0.6915 ⇔ P (X < a) = 0.6915 ⇔ φ 2 a−5 = 0.5 ⇔ a = 6. ⇔ 2 ¶ µ a−5 = 0.6915 foi retirado da tabela da função de distribuição da onde o valor φ 2 variável Z (normal standard) apresentada no final do capítulo. µ (b) Determinar b tal que P (X < b) = 0.0202. µ b−5 P (X < b) = 0.0202 ⇔ φ 2 ¶ = 0.0202 tendo em conta que este valor não aparece na tabela, tem-se que recorrer à probabilidade do seu simétrico, µ ¶ µ ¶ b−5 b−5 φ = 0.0202 ⇔ φ − = 1 − 0.0202 ⇔ 2 2 ¶ µ b−5 b−5 = 0.9798 ⇔ − = 2.05 ⇔ b = 0.9. ⇔ φ − 2 2 90 Teorema 2.5.6 (Estabilidade da lei Normal) Sejam X1 , X2 , · · · , Xn , n variáveis aleatórias independentes com distribuição Normal, ou seja, Xi ∼ N(μi , σ i ) para i = 1, 2, · · · , n, então X = a + b1 X1 + · · · + bn Xn = a + Nota: n X i=1 ⎛ bi Xi ∼ N ⎝a + n X i=1 v ⎞ u n uX bi μi , t b2i σ 2i ⎠ . (45) i=1 Para determinar os valores dos parâmetros da distribuição poder-se-ia utilizar as propriedades do valor esperado e da variância presentes na página 59, assim, E (X) = E (a + b1 X1 + · · · + bn Xn ) = = a + b1 E (X1 ) + · · · + bn E (Xn ) = n X bi μi = a + b1 μ1 + · · · + bn μ2 = a + i=1 V ar (X) = V ar (a + b1 X1 + · · · + bn Xn ) = que pela independencia das variáveis, vem = b21 V ar (X1 ) + · · · + b2n V ar (Xn ) = n X 2 2 2 2 = b1 σ 1 + · · · + bn σ n = b2i σ 2i i=1 Exemplo 2.5.5 Considere as variáveis aleatórias independentes X1 e X2 tais que X1 ∼ N(5, 3) e X2 ∼ N(10, 4). Determinar a probabilidade da variável aleatória Y ser inferior a dez sabendo que Y = 10 + 3X1 − 2X2 . Pelo fórmula (2.5.6), como a variável aleatória Y surge de uma transformação linear de variáveis aleatórias independentes com distribuição Normal, a variável aleatória Y também possui distribuição Normal. Para determinar os valores dos parâmetros da distribuição podem-se utilizar as propriedades do valor esperado e da variância (ver propriedades 2.2.4 na página 58) 91 em vez das fórmulas apresentadas no teorema. Assim, para o primeiro parâmetro tem-se E(Y ) = E(10 + 3X1 − 2X2 ) = = 10 + 3E(X1 ) − 2E(X2 ) = = 10 + 3 × 5 − 2 × 10 = 5 e para o segundo parâmetro, uma vez que as variáveis aleatórias X1 e X2 são independentes, vem a raiz quadrada de V ar(Y ) = V ar(10 + 3X1 − 2X2 ) = = 32 × V ar(X1 ) + (−2)2 V ar(X2 ) = √ = 9 × 32 + 4 × 42 = 145 ⇒ σ Y = 145, √ então Y ∼ N(5, 145) e ¶ µ 10 − 5 ' φ(0.415227), P (Y < 10) = P Z < √ 145 que, tendo em conta que a tabela só utiliza duas casas decimais, φ(0.415227) ' φ(0.42) = 0.6628. Como foi referido na introdução à distribuição Normal, uma das razões pela qual esta distribuição é muito importante deve-se ao facto de muitas variáveis aleatórias com distribuição diferente da Normal, sob certas condições, poderem ser aproximadas por outra variável aleatória com distribuição Normal. O seguinte teorema exemplifica este facto utilizando a distribuição Binomial. Teorema 2.5.7 (Aproximação da distribuição Binomial pela distribuição Normal) A distribuição Binomial tende para a distribuição Normal se o número de provas de Bernoulli tende para infinito, isto é, • X ∼ B(n, p) ⇒ X 0 ∼ N(μ, σ) se n → +∞, sendo μ = np e σ 2 = n × p × (1 − p). Regra: 92 (46) Este teorema é utilizado, na prática, se simultaneamente se verifica n × p ≥ 15 e n × (1 − p) ≥ 15. Saliente-se que neste teorema se aproxima uma variável aleatória discreta X por uma outra variável aleatória que é contínua X 0 ; como tal, será incorrecto fazer simplesmente P (X = k) = P (X 0 = k) pois P (X 0 = k) = 0 para todos os valores de k. Para colmatar este problema é necessário utilizar a correcção de continuidade que, neste caso, é P (X = k) ' P (k − 0.5 < X 0 ≤ k + 0.5). (47) Exemplos 2.5.6 1. Considere a variável aleatória X com distribuição Binomial com cem provas de Bernoulli e probabilidade de sucesso em cada prova igual a 0.2, ou seja, X ∼ B(100, 0.2). Utilizando a aproximação pela distribuição Normal, determinar: (a) P (X = 22). Tendo em conta que as condições n × p = 100 × 0.2 = 20 ≥ 15 e n × (1 − p) = 100 × (1 − 0.2) = 80 ≥ 15, verificam-se, pode ser utilizada a aproximação pela distribuição Normal, sendo μ = n × p = 20 e σ = • p n × p × (1 − p) = 4, então X 0 ∼ N(20, 4) e utilizando a fórmula (47) vem µ ¶ 21.5 − 20 22.5 − 20 0 P (X = 22) ' P (21.5 < X ≤ 22.5) = P <Z≤ 4 4 = P (0.375 < Z ≤ 0.625) = φ(0.625) − φ(0.375) ' ' φ(0.63) − φ(0.38) = 0.7357 − 0.6480 = 0.0877. 93 (b) P (X ≥ 28). P (X ≥ 28) ' P (X 0 ≥ 27.5) = P (Z ≥ 1.875) = = 1 − P (Z < 1.875) = 1 − φ(1.875) ' ' 1 − φ(1.88) = 1 − 0.9699 = 0.0301. (c) P (X ≤ 32). P (X ≤ 32) ' P (X 0 ≤ 32.5) = P (Z ≤ 3.125) = = φ(3.125) ' φ(3.13) = 0.9991. (d) P (X < 12). P (X < 12) ' P (X 0 < 11.5) = P (Z < −2.125) = φ(−2.125) = = 1 − φ(2.125) ' 1 − φ(2.13) = 1 − 0.9834 = 0.0166. (e) P (17 ≤ X ≤ 23). P (17 ≤ X ≤ 23) ' P (16.5 ≤ X 0 ≤ 23.5) = P (−0.875 ≤ Z ≤ 0.875) = = φ(0.875) − φ(−0.875) = φ(0.875) − 1 + φ(0.875) = = 2φ(0.875) − 1 ' 2φ(0.88) − 1 = 2 × 0.8106 − 1 = 0.6212. (f) P (15 < X ≤ 30). P (15 < X ≤ 30) ' P (15.5 < X 0 ≤ 30.5) = P (−1.125 < Z ≤ 2.625) = = φ(2.625) − φ(−1.125) = φ(2.625) − 1 + φ(1.125) ' ' φ(2.63) − 1 + φ(1.13) = 0.9957 − 1 + 0.8708 = 0.8665. 2. Considere a experiência aleatória que consiste em fazer duzentos lançamentos de um dado em que se deseja saber o valor da probabilidade de sair a face seis em mais de trinta e cinco lançamentos. Tendo em conta que a probabilidade de sair a face seis é igual em 94 todos os lançamentos, a variável aleatória que conta o número de vezes que sai a face seis tem distribuição Binomial com duzentas provas e com probabilidade de sucesso em µ ¶ 1 1 cada prova igual a , ou seja, X ∼ B 200, sendo a probabilidade pretendida igual 6 6 a P (X > 35). Caso se pretenda utilizar a aproximação à distribuição Normal, tendo em conta que 1 1 = 33.(3) ≥ 15 e n × (1 − p) = 200 × (1 − ) = 166.(6) ≥ 15 6 6 p • vem X 0 ∼ N(μ, σ), onde μ = n × p = 33.(3) e σ = n × p × (1 − p) ' 5.27046, então, n × p = 200 × P (X > 35) ' P (X 0 > 35.5) ' P (Z > 0.4111) = = 1 − P (Z ≤ 0.4111) ' 1 − P (Z ≤ 0.41) = = 1 − 0.6591 = 0.3409. Teorema 2.5.8 (Aproximação da distribuição de Poisson pela distribuição Normal) A distribuição de Poisson tende para a distribuição Normal se o parâmetro λ tender para infinito, isto é, • X ∼ P (λ) ⇒ X 0 ∼ N(μ, σ) se λ → +∞, sendo μ = λ e σ2 = λ. (48) Regra: Este teorema é utilizado, na prática, quando se verifica λ > 20. Saliente-se que neste teorema se aproxima uma variável aleatória discreta X por uma outra variável aleatória que é contínua X 0 (tal como na aproximação da Binomial à Normal); como tal, será necessário utilizar a correcção de continuidade (ver fórmula (47) na página 93). Exemplos 2.5.7 95 1. Considere a variável aleatória X com distribuição de Poisson com média 100. Qual a probabilidade de a variável assumir um valor superior a 110? Tendo em conta que λ = 100 > 20 pode-se utilizar a aproximação à distribuição Normal, obtendo-se ³ √ ´ • X 0 ∼ N 100, 100 , ou seja • X 0 ∼ N (100, 10) ¶ µ 110.5 − 100 0 = P (Z > 1.05) = então P (X > 110) ' P (X > 110.5) = P Z > 10 = 1 − φ (1.05) = 1 − 0.8531 = 0.1469. 2. Considerando que X ∼ P (400), determine P (X < 440). Visto que λ = 400 > 20, vai-se utilizar a aproximação à distribuição Normal, verificando-se ³ √ ´ • X 0 ∼ N 400, 400 , ou seja • X 0 ∼ N (400, 20) µ ¶ 439.5 − 400 0 = P (Z < 1.975) ' sendo P (X < 440) ' P (X < 439.5) = P Z < 20 ' P (Z < 1.98) = 0.9761. Teorema 2.5.9 (Teorema do limite central) Sejam X1 , X2 , · · · , Xn , n variáveis aleatórias independentes e identicamente distribuidas (i.i.d .) com E(Xi ) = μ e V ar(Xi ) = σ 2 , então, fazendo n tender para infinito, a variável aleatória ¶ µ n P Xi tem disX definida pela soma das variáveis anteriores X = X1 + X2 + · · · + Xn = i=1 tribuição aproximadamente Normal, ou seja, X= n X i=1 Regra: ¡ √ ¢ • Xi ∼ N nμ, n σ quando n → +∞. Na prática utiliza-se o teorema do limite central quando n ≥ 30. 96 (49) Nota: Para determinar os valores dos parâmetros da distribuição poder-se-ía utilizar as propriedades do valor esperado e da variância presentes na página 59, ! à n n n X X X Xi = E (Xi ) = μ = nμ; E (X) = E i=1 V ar (X) = V ar à n X Xi i=1 ! i=1 i=1 = que pela independencia das variáveis, vem n n X X √ √ = V ar (Xi ) = σ 2 = nσ 2 =⇒ σ X = nσ 2 = nσ. i=1 i=1 Exemplos 2.5.8 1. Considere que o lucro, num dia de trabalho de uma loja da empresa TudoVende, tem valor esperado 10000 euros e desvio padrão 1000 euros sendo o lucro de um dia independente do dos restantes dias. Qual a probabilidade de, num ano de trabalho (considere-se 300 dias úteis), o lucro desta loja ser superior a 3 050 000 euros? Seja Li , com i = 1, · · · , 300, as variáveis aleatórias que representam o lucro em cada dia da loja. Sabe-se que estas variáveis são independentes e que E (Li ) = 10000 e V ar (Li ) = 10002 . A probabilidade pedida é P à 300 X ! Li > 3 050 000 i=! que, tendo em conta que se está a somar trezentas variáveis (n ≥ 30) independentes e indenticamente distribuidas (i.i.d .), pelo teorema do limite central vem n X i=1 300 X i=1 300 X i=1 ¡ √ ¢ • Li ∼ N nμ, nσ ³ ´ √ • Li ∼ N 300 × 10 000, 300 × 1000 • Li ∼ N (3 000 000, 17320.50808) 97 logo P à 300 X ! Li > 3 050 000 i=1 ¶ µ 3 050 000 − 3 000 000 ' = P Z> 17320.50808 ' P (Z > 2.886751345) ' 1 − P (Z ≤ 2.89) = = 1 − 0.9981 = 0.0019. 2. Somam-se 100 números arredondados ao inteiro mais próximo. Supondo que o erro cometido nos arredondamentos tem distribuição uniforme no intevalo [−0.5, 0.5] e que o erros são independentes, calcule a probabilidade de o erro cometido na soma (em valor absoluto) ser inferior a duas unidades. Considere-se que os erros são representados pelas variáveis aleatórias Xi com i = 1, · · · , 100. Assim as variáveis Xi ∼ U (−0.5, 0.5) pretendendo-se determinar ! ï 100 ¯ ¯X ¯ ¯ ¯ Xi ¯ < 2 . P ¯ ¯ ¯ i=1 Considerando que as variáveis aleatórias Xi são independentes e identicamente distribuidas (i.i.d.), pode-se recorrer ao teorema do limite central, pois n ≥ 30, de onde se conclui que 100 X i=1 sendo ¡ √ ¢ • Xi ∼ N nμ, nσ 0.5 + (−0.5) =0 2 r √ 1 3 (0.5 − (−0.5))2 1 = V ar (Xi ) = = ⇒σ= = 12 12 12 6 μ = E (Xi ) = σ2 onde foram utilizadas as fórmulas (40) patentes na página 82, então à √ ! 100 X √ 3 • Xi ∼ N 100 × 0, 100 × 6 i=1 µ ¶ 100 X 5√ • Xi ∼ N 0, 3 . 3 i=1 98 A probabilidade pretendida é, então, obtida por ! à ! ï 100 ¯ 100 ¯X ¯ X ¯ ¯ = P −2 < Xi ¯ < 2 Xi < 2 = P ¯ ¯ ¯ i=1 i=1 ! à −2 − 0 2−0 √ < Z < 5√ ' = P 5 3 3 3 3 ' P (−0.69282 < Z < 0.69282) = = P (Z < 0.69282) − P (Z ≤ −0.69282) = = P (Z < 0.69282) − 1 + P (Z < 0.69282) = = 2 × P (Z < 0.69282) − 1 ' ' 2 × P (Z < 0.69) − 1 = 2 × 0.7549 − 1 = 0.5098. 2.5.4 Distribuição Qui-Quadrado Diz-se que uma variável aleatória contínua tem distribuição Qui-Quadrado com n graus de liberdade (com n ∈ N), representada por X ∼ χ2(n) , se a sua função de densidade de probabilidade é dada por: x n −1 e 2x2 f (x) = n , x>0 ³n´ 22Γ 2 10 onde Γ (.) representa a função Gama. − Teorema 2.5.10 Se a variável aleatória X tem distribuição Qui-quadrado com n graus de liberdade, ou seja, X ∼ χ2(n) , então E(X) = n e V ar(X) = 2n. (50) No cálculo de probabilidades utilizando a distribuição Qui-quadrado, tal como acontecia na distribuição Normal, vai-se utilizar tabelas (ver página 128) onde estão presentes os valores da 10 A função Gama é definida por Γ (n) = Γ (n) = (n − 1)!. R +∞ 0 e−x xn−1 dx. No caso particular em que n ∈ N verifica-se que 99 função de distribuição desta variável, ou seja, recorre-se à tabela para determinar probabilidades ³ ´ do tipo P χ2(n) ≤ x . Exemplo 2.5.9 Considere uma variável aleatória X com distribuição Qui-quadrado com 10 graus de liberdade h i X ∼ χ2(10) . Determine: 1. P (X ≤ 10.473) . para determinar esta probabilidade, tendo em conta que é pedida a função de distribuição [P (X ≤ x)] no ponto x = 10.473, vai-se à tabela procurar este valor na linha correspondente a n = 10 (graus de liberdade). Assim, este valor corresponde a α = 0.6, ou seja, a probabilidade é igual a 0.6, P (X ≤ 10.473) = 0.6. 2. P (X > 3.247) . P (X > 3.247) = 1 − P (X ≤ 3.247) = que recorrendo à tabela vem = 1 − 0.025 = 0.975. 3. P (X ≤ 5) . Neste caso, o valor 5 não se encontra na tabela. Assim, vai-se à tabela procurar os dois valores adjacentes, ou seja, o valor imediatamente inferior e o imediatamente superior, que neste caso corespondem a x = 4.8652 com α = 0.1 e a x = 5.5701 com α = 0.15. Assim vai-se fazer um interpolação linear para obter uma aproximação do valor de α correspondente a x = 5. Seja o valor de α correspondente representado por α0 . Assim, 100 tem-se Valores de x Valores de α 4.8652 0.10 5 α0 =? 5.5701 0.15 Então, uma das formas de fazer interpolação linear será resolver 5.5701 − 4.8652 0.15 − 0.10 = 5.5701 − 5 0.15 − α0 de onde se obtém α0 ' 0.10956, logo P (X ≤ 5) ' 0.10956. 4. o valor de a tal que P (X ≤ a) = 0.20. Para determinar este valor, tendo em conta que é pedida a função de distribuição [P (X ≤ x)] com α = 0.2, vai-se à tabela procurar este valor na linha correspondente a n = 10 (graus de liberdade) e coluna correspondente a 0.2. Assim, este valor corresponde a 6.1791, ou seja, o valor de a é igual a 6.1791. 5. o valor de b tal que P (X > b) = 0.95. P (X > b) = 0.95 ⇔ 1 − P (X ≤ b) = 0.95 ⇔ ⇔ P (X ≤ b) = 0.05 ⇔ b = 3.9403. 6. o valor de c tal que P (X < c) = 0.075. Neste caso, o valor α = 0.075 não se encontra na tabela. Assim, vai-se à tabela procurar os dois valores adjacentes, ou seja, o valor imediatamente inferior e o imediatamente superior, que neste caso corespondem a α = 0.05 com x = 3.9403 e α = 0.10 com x = 4.8652. Assim vai-se utilizar a interpolação linear para obter um valor aproximado 101 para x quando α = 0.075. Assim, tem-se Valores de x Valores de α 3.9403 0.05 x0 0.075 4.8652 0.10 Então, uma das formas de fazer interpolação linear será resolver 4.8652 − 3.9403 0.10 − 0.05 = 0 3.8652 − x 0.10 − 0.075 de onde se obtém c ' 3.4028. Nota: Considere-se que se tem os seguintes valores: Valores de x Valores de α x1 α1 x α x2 α2 onde x1 , x2 , α1 , α2 são valores conhecidos pretendendo-se determinar, através de uma interpolação linear, o valor de α ou o valor de x (um destes valores supõe-se conhecido sendo o outro valor o que se pretende determinar). Uma fórmula que poderá ser utilizada é α2 − α1 x2 − x1 = . x2 − x α2 − α (51) Teorema 2.5.11 Considere-se um conjunto de n variáveis aleatórias Zi (i = 1, 2, · · · , n) obedecendo às seguintes condições: i) Cada variável Zi segue uma distribuição Normal standard [ou seja Zi ∼ N(0, 1)]; 102 ii) As variáveis Zi são independentes (os valores que cada variável assume não são condicionados pelos valores das restantes). A variável aleatória X, obtida pela soma de n variáveis Zi elevadas ao quadrado, segue uma distribuição Qui-quadrado com n graus de liberdade (com n ∈ N), representada por X ∼ χ2(n) , ou seja, se X= n X i=1 Zi2 = Z12 + Z22 + · · · + Zn2 , então X ∼ χ2(n) . Exemplo 2.5.10 Considere que a empresa DelFonte vende água em garrafas de 1.5 litros. Para engarrafar a água é utilizada uma máquina que comete um erro de medida (em mililitros) em cada garrafa representado pela variável aleatória Ei (que são independentes de garrafa para garrafa), que vai aumentando ao longo do tempo de utilização da maquina sendo necessário a certa altura consertar a maquina. Para testar se os erros ao engarrafar já são suficientemente elevados para consertar a máquina a empresa testa periodicamente um lote de n garrafas. Se, no lote, se verificar que a soma dos erros ao quadrado são superiores a n a máquina é consertada, caso contrário significa que os erros são insignificantes. Suponha que, em determinada altura o erros seguem uma distribuição Normal standard, qual a probabilidade de, ao testar um lote de 100 garrafas, a máquina ter que ir ser consertada? Tem-se que o erro ao engarrafar a garrafa i, seja Ei , segue uma distribuição Normal standard, ou seja, Ei ∼ N (0, 1) e pretende-se determinar ! à n X Ei2 > n , P i=1 que tendo em conta que o lote testado é constituído por 100 garrafas, n = 100, vem à 100 ! X P Ei2 > 100 i=1 que como 100 X E 2 é a soma de 100 variáveis aleatórias independentes com distribuição Normal i=1 103 standard, pelo teorema 2.5.11 conclui-se que 100 X E 2 ∼ χ2(100) . i=1 Assim, a probabilidade pretendida é à 100 ! X ¡ ¢ ¡ ¢ P E 2 > 100 = P χ2(100) > 100 = 1 − P χ2(100) ≤ 100 i=1 que recorrendo à tabela, vem Valores de x Valores de α 99.334 0.50 100 α0 =? 102.95 0.60 logo, pela interpolação linear, vem 102.95 − 99.334 0.60 − 0.50 ⇔ α0 ' 0.518418. = 102.95 − 100 0.60 − α0 logo ¢ ¡ 1 − P χ2(100) ≤ 100 ' 1 − 0.518418 = 0.481582. Teorema 2.5.12 (Aditividade da distribuição Qui-quadrado) A soma de variáveis aleatórias independentes com distribuição Qui-quadrado tem ainda uma distribuição Qui-quadrado cujo número de graus de liberdade é igual à soma dos graus de liberdade das componentes, ou seja, se Xi ∼ χ2(ni ) com i = 1, · · · , k, forem variáveis aleatórias independentes, então X= k X i=1 Xi ∼ χ2# S k i=1 ni $. Exemplo 2.5.11 Considere a empresa V endeT udo tem três lojas e que o lucro das lojas é descritos pelas variáveis 104 X1 ∼ χ2(30) , X2 ∼ χ2(20) e X3 ∼ χ2(40) . Considerando que o lucro de cada loja é independente do das restantes, qual a probabilidade de o lucro da empresa ser superior a 101.05 euros? Pretende-se determinar P (X1 + X2 + X3 > 101.05) que, como se está a somar três variáveis com distribuição Qui-quadrado independentes, pela aditividade da distribuição Qui-quadrado vem que X1 + X2 + X3 ∼ χ2(30+20+40) X1 + X2 + X3 ∼ χ2(90) logo ¡ ¢ P (X1 + X2 + X3 > 101.05) = P χ2(90) > 101.05 = ¢ ¡ = 1 − P χ2(90) ≤ 101.05 = 1 − 0.80 = 0.20. Teorema 2.5.13 (Aproximação da Qui-quadrado à Normal) √ √ • Se X ∼ χ2(n) , então se n tende para infinito (n → +∞) tem-se 2X − 2n ∼ N (0, 1). Regra: Este teorema é utilizado, na prática, quando se verifica n ≥ 30. Exemplo 2.5.12 Considere uma variável aleatória X ∼ χ2(50) , que pela tabela da função de distribuição da Qui-quadrado tem-se P (X ≤ 71.42) = 0.97. Um resultado aproximado poder-se-ía obter pela aproximação à Normal, através de ³√ ´ ³√ ´ √ 2X ≤ 2 × 71.42 = P 2X ≤ 11.9515689 ´ ³√ √ √ 2X − 2 × 50 ≤ 11.9515689 − 2 × 50 = = P ´ ³√ √ 2X − 2 × 50 ≤ 1.9515689 = P P (X ≤ 71.42) = P 105 que através do teorema 2.5.13 vem que P √ √ √ √ • 2X − 2n = 2X − 2 × 50 = Z ∼ N (0, 1), logo ´ ³√ √ 2X − 2 × 50 ≤ 1.9515689 = P (Z ≤ 1.9515689) ' ' P (Z ≤ 1.95) = 0.9744. Teorema 2.5.14 (Aproximação da Qui-quadrado à Normal) ¡ √ ¢ • Se X ∼ χ2(n) , então se n tende para infinito (n → +∞) tem-se X ∼ N n, 2n . Regra: Este teorema é utilizado, na prática, quando se verifica n ≥ 100. Exemplo 2.5.13 Considere uma variável aleatória X ∼ χ2(150) , que pela tabela da função de distribuição da Qui-quadrado tem-se P (X ≤ 172.58) = 0.90. Um resultado aproximado poder-se-ía obter pela aproximação à Normal. Assim, pelo teorema 2.5.14, como n ≥ 100, tem-se que ³ √ ´ • X ∼ N n, 2n , ou seja, √ ¡ ¢ • X ∼ N 150, 2 × 150 , então ¶ µ 172.58 − 150 ' P (Z ≤ 1.3036569) ' P (X ≤ 172.58) ' P Z ≤ √ 2 × 150 ' P (Z ≤ 1.30) = 0.9032. 2.5.5 Distribuição de t-Student Diz-se que uma variável aleatória contínua tem distribuição t-Student11 com n graus de liberdade (com n ∈ N), representada por X ∼ t(n) , se a sua função de densidade de probabil11 Student foi o pseudónimo utilizado pelo estaticista inglês W. S. Gosset (1876-1937), que foi quem desenvolveu esta distribuição. 106 idade é dada por: Teorema 2.5.15 ¡ n+1 ¢ µ ¶− n + 1 2 Γ x 2 1+ , com x ∈ R. f (x) = ¡ n ¢ 2√ n Γ 2 nπ Se a variável aleatória X tem distribuição t—Student com n graus de liberdade, ou seja, X ∼ t(n) , então, E(X) = 0 e V ar(X) = n (para n ≥ 3). n−2 (52) A função de densidade de uma variável aleatória com distribuição t - Student é, tal como a da distribuição Normal, simétrica em relação à sua média (que é igual a zero), como tal pode-se utilizar propriedades semelhantes às verificadas no teorema 2.5.5 na página 89. Teorema 2.5.16 Seja X uma variável aleatória com distribuição de t-Student com n graus de liberdade, ou seja, X ∼ t(n) , então P (X ≤ −k) = P (X ≥ k) = 1 − P (X < k) . Para o cálculo de probabilidades, utilizam-se os valores da sua função de distribuição tabulados na página 127. Exemplo 2.5.14 Considere que a variável aleatória X tem distribuição t-Student com quarenta graus de liberdade, ou seja, X ∼ t(40) . Determine: 1. P (X ≤ 2.4233) . Como esta probabilidade já está na forma de função de distribuição, pode-se ir à tabela, procurando-se na linha correspondente a quarenta graus de liberdade, n = 40. Assim, o valor 2.4233 corresponde a α = 0.99, logo P (X ≤ 2.4233) = 0.99. 107 2. P (X ≥ 2.7045) . P (X ≥ 2.7045) = 1 − P (X < 2.7045) = = 1 − 0.995 = 0.005. 3. P (X ≤ −0.6807) . Como a tabela só apresenta valores positivos, vai-se ter que recorrer ao facto de a função de densidade ser simétrica, então, pelo teorema 2.5.16, vem P (X ≤ −0.6807) = P (X ≥ 0.6807) = = 1 − P (X < 0.6807) = = 1 − 0.75 = 0.25. 4. P (−1.05 < X < 1.05) . P (−1.05 < X < 1.05) = P (X < 1.05) − P (X ≤ −1.05) = = P (X < 1.05) − P (X ≥ 1.05) = = P (X < 1.05) − [1 − P (X < 1.05)] = = 0.85 − 1 + 0.85 = 0.70. 5. P (X ≤ 1.5) . Neste caso, ao procurar-se o valor 1.5 na tabela, este não aparece na linha n = 40. Assim, vai-se utilizar o mesmo raciocínio que foi apresentado na distribuição Qui-quadrado. Vaise à tabela buscar os valores vizinhos do ponto 1.5 que correspondem a Valores de x Valores de α 1.3031 0.90 1.5 α0 =? 1.6839 0.95 108 sendo o valor de α0 obtido pela fórmula da interpolação linear (fórmula (51) na página 102) que se obtém 1.6839 − 1.3031 0.95 − 0.90 = ⇔ α0 ' 0.935853466, 1.6839 − 1.5 0.95 − α0 logo P (X ≤ 1.5) ' 0.935853466. 6. o valor de a tal que P (X ≤ a) = 0.75. Para determinar este valor, tendo em conta que é pedida a função de distribuição [P (X ≤ x)] com α = 0.75, vai-se à tabela procurar este valor na linha correspondente a n = 40 (graus de liberdade) e coluna correspondente a 0.75. Assim, este valor corresponde a 0.6807, ou seja, o valor de a é igual a 0.6807. 7. o valor de b tal que P (X ≤ b) = 0.05. Neste caso, não se poderá ir directamente à tabela pois o valor mínimo para α na tabela é α = 0.6. Assim, vai-se utilizar a simetria da distribuição t-Student, de onde se obtém P (X ≤ b) = 0.05 ⇔ P (X ≥ −b) = 0.05 ⇔ 1 − P (X < −b) = 0.05 ⇔ ⇔ P (X < −b) = 0.95 ⇔ −b = 1.6839 ⇔ b = −1.6839. 8. o valor de c tal que P (X > c) = 0.65. P (X > c) = 0.65 ⇔ 1 − P (X ≤ c) = 0.65 ⇔ P (X ≤ c) = 0.35 que como α = 0.35 < 0.5 não está na tabela, vai-se utilizar a simetria da distribuição t-Student, de onde se obtém P (X ≤ c) = 0.35 ⇔ P (X ≥ −c) = 0.35 ⇔ ⇔ 1 − P (X < −c) = 0.35 ⇔ P (X < −c) = 0.65 109 Neste caso, o valor α = 0.65 não se encontra na tabela. Assim, vai-se à tabela procurar os dois valores adjacentes, ou seja, o valor imediatamente inferior e o imediatamente superior, que neste caso corespondem a α = 0.60 com x = 0.2550 e α = 0.70 com x = 0.5286. Assim vai-se utilizar a interpolação linear para obter um valor aproximado para x quando α = 0.65, obtendo-se Valores de x Valores de α 0.2550 0.60 x0 0.65 0.5286 0.70 Então, uma das formas de fazer interpolação linear será resolver 0.5286 − 0.2550 0.70 − 0.60 = 0 0.5286 − x 0.70 − 0.65 de onde se obtém x0 ' 0.3918, logo −c ' 0.3918 ⇔ c ' −0.3918. Teorema 2.5.17 Sejam Z ∼ N(0, 1) e Y ∼ χ2(n) duas variáveis independentes, então Z X=r Y n tem distribuição t-Student com n graus de liberdade (com n ∈ N), ou seja, X ∼ t(n) . Exemplo 2.5.15 Considere as variáveis aleatórias X ∼ N (0, 1) e Y ∼ χ2(25) que são independentes. Determine ³ √ ´ P 4X ≤ Y . ⎞ ⎛ µ ¶ ³ √ ´ X 1 X 1 P 4X ≤ Y = P √ ≤ =P⎝√ ≤ 4 ⎠= √ 4 √Y Y 25 25 ⎞ ⎛ X = P ⎝ q ≤ 1.25⎠ Y 25 110 que, pelo teorema 2.5.17, vem que X q ∼ t(25) Y 25 logo ⎛ ⎞ ¢ ¡ X P ⎝ q ≤ 1.25⎠ = P t(25) ≤ 1.25 ' 0.88714618 pois Y 25 Valores de x Valores de α 1.0584 0.85 1.25 a =? 1.3163 0.90 de onde se obtém 1.3163 − 1.0584 0.90 − 0.85 = ⇔ a ' 0.88714618. 1.3163 − 1.25 0.90 − a Teorema 2.5.18 (Aproximação da t-Student à Normal) • Se X ∼ t(n) , então se n tende para infinito (n → +∞) tem-se X ∼ N (0, 1). Regra: Este teorema é utilizado, na prática, quando se verifica n ≥ 30. Exemplo 2.5.16 1. Considere uma variável aleatória com distribuição t-Student com 150 graus de liberdade, isto é, X ∼ t(150) . Determine P (X ≤ 1.04). Tendo em conta que n ≥ 30, pode-se utilizar a aproximação à distribuição Normal patente no teorema 2.5.18, assim vai-se considerar que X ∼N ˙ (0, 1). P (X ≤ 1.04) = P (Z ≤ 1.04) = 0.8508. 111 Note-se que, se fosse utilizada a tabela da distribuição t-Student, o valor obtido seria 0.85 o que é próximo do obtido pela aproximação à Normal. 2. Considere as variáveis aleatórias independentes Zi com i = 0, · · · , 10000 que têm distribuição Normal standard. Calcule à 10000Z02 ≤ P 10000 X ! Zi2 . i=1 Pelo teorema 2.5.11 presente na página 102 vem que 10000 X Zi2 ∼ χ2(10000) , assim i=1 P à 10000Z02 ≤ 10000 X i=1 Zi2 ! ¡ ¢ = P 10000Z02 ≤ χ2(10000) = P ⎛ s = P ⎝− χ2(10000) 10000 ⎛ = P ⎝−1 ≤ q ≤ Z0 ≤ Z0 χ2(10000) 10000 s à Z02 ≤ χ2(10000) 10000 ⎞ χ2(10000) 10000 ⎞ ! = ⎠= ≤ 1⎠ que pelo teorema 2.5.17 presente na página 110 vem que s Z0 χ2(10000) ∼ t(10000) , 10000 consequentemente ⎛ P ⎝−1 ≤ q Z0 χ2(10000) 10000 ⎞ ¢ ¡ ≤ 1⎠ = P −1 ≤ t(10000) ≤ 1 que tendo em conta que n ≥ 30 pode-se utilizar o teorema 2.5.18 e aproximar a t-Student à Normal standard, obtendo-se ¡ ¢ P −1 ≤ t(10000) ≤ 1 ' P (−1 ≤ Z ≤ 1) = P (Z ≤ 1) − P (Z < −1) = = 0.8413 − [1 − P (Z ≤ 1)] = 0.8413 − 1 + 0.8413 = 0.6826. 112 2.5.6 Distribuição de F - Snedecor Diz-se que uma variável aleatória contínua tem distribuição F - Snedecor com m e n graus de liberdade, representada por X ∼ F(m,n) [onde m representa os graus de liberdade do numerador e n os graus de liberdade do denominador], se a sua função de densidade de probabilidade é da forma: m m ¶ −1 m + n ³ m ´ 0.5 Γ x2 2 n f (x) = m + n , para x > 0. ³m´ ³n´ Γ (m + nx) 2 Γ 2 2 µ Teorema 2.5.19 Se a variável aleatória X tem distribuição F-Snedcor com m e n graus de liberdade, ou seja, X ∼ F(m,n) , então E(X) = n 2n2 (n + m − 2) e V ar(X) = (para n > 4) . n−2 m (n − 2)2 (n − 4) (53) No cálculo de probabilidades utilizando a distribuição F-Snedcor vai-se utilizar tabelas (ver página 130) onde estão presentes os valores da função de distribuição desta variável, ou seja, ¡ ¢ recorre-se à tabela para determinar probabilidades do tipo P F(m,n) ≤ x . Exemplos 2.5.17 Considere a variável aleatória X com distribuição F-Snedcor com trinta e quinze graus de ¡ ¢ liberdade X ∼ F(30,15) . Determine: 1. P (X ≤ 1.87). Como esta probabilidade já está na forma de função de distribuição, pode-se ir à tabela, procurando-se na coluna correspondente a m = 30 e linha correspondente a n = 15. Assim, o valor 1.87 aparece na tabela onde α = 0.90, logo P (X ≤ 1.87) = 0.90. 113 2. P (X ≤ 3.21). Procurando este valor na coluna correspondente a m = 30 e linha correspondente a n = 15, este aparece na tabela correspondente a α = 0.99, logo P (X ≤ 3.21) = 0.99. 3. P (X ≤ 2.5). Procurando este valor, este não aparece em nenhuma das tabelas, logo vai-se procurar os valores adjacentes para fazer interpolação linear. Assim, tem-se Valores de x Valores de α 2.25 0.95 2.50 α0 =? 2.64 0.975 de onde se obtém 2.64 − 2.25 0.975 − 0.95 ⇔ α0 ' 0.96603, = 0 2.64 − 2.50 0.975 − α logo P (X ≤ 2.5) ' 0.96603. 4. o valor de a tal que P (X < a) = 0.95. Para determinar o valor de a bastará ir à tabela correspondente a α = 0.95 à coluna correspondente a m = 30 e linha correspondente a n = 15, de onde se conclui que a = 2.25. 5. o valor de b tal que P (X ≥ b) = 0.02. P (X ≥ b) = 0.02 ⇔ 1 − P (X < b) = 0.02 ⇔ ⇔ P (X < b) = 0.98 114 como não há tabela para α = 0.98 vai-se recorrer aos valores adjacentes para determinar um valor aproximado através da interpolação linear, de onde se obtém Valores de x Valores de α 2.64 0.975 b =? 0.98 3.21 0.99 de onde se obtém 0.99 − 0.975 3.21 − 2.64 = ⇔ b ' 2.83. 3.21 − b 0.99 − 0.98 Teorema 2.5.20 Se X ∼ F(m,n) , então 1 ∼ F(n,m) X Exemplos 2.5.18 Exemplo 2.5.19 Considere a variável aleatória X com distribuição F-Snedcor com trinta e quinze graus de ¡ ¢ liberdade X ∼ F(30,15) . Determine: 1. P (X ≤ 0.5). Neste caso, não há tabelas com valores próximos de 0.5 (o menor valor é o patente na tabela α = 0.9 que corresponde a 1.87), então vai-se recorrer ao teorema 2.5.20 de onde se obtém µ ¶ ¡ ¢ 1 1 P (X ≤ 0.5) = P ≥ = P F(15,30) ≥ 2 = X 0.5 ¢ ¡ = 1 − P F(15,30) < 2 que, recorrendo as tabelas, conclui-se que Valores de x Valores de α 1.72 0.90 2.00 α0 =? 2.01 0.95 115 de onde se obtém 2.01 − 1.72 0.95 − 0.90 = ⇔ α0 ' 0.94828, 2.01 − 2.00 0.95 − α0 logo ¢ ¡ 1 − P F(15,30) < 2 ' 1 − 0.94828 = 0.05172. 2. o valor de c tal que P (X > c) = 0.95. P (X > c) = 0.95 ⇔ 1 − P (X ≤ c) = 0.95 ⇔ ⇔ P (X ≤ c) = 0.05. Neste caso, não há tabelas para valores de α próximos de 0.05, pois só há tabelas para α = 0.90, 0.95, 0.975 e 0.99. Assim tem-se que recorrer ao teorema 2.5.20 de onde se conclui que, P (X ≤ c) = 0.05 ⇔ P µ 1 1 ≥ X c ¶ = 0.05 ⇔ µ ¶ 1 ⇔ P F(15,30) ≥ = 0.05 ⇔ c ¶ µ 1 = 0.05 ⇔ ⇔ 1 − P F(15,30) ≤ c µ ¶ 1 ⇔ P F(15,30) ≤ = 0.95 c que, recorrendo à tabela, conclui-se que 1 1 = 2.01 ⇔ c = ⇔ c = 0.49751. c 2.01 Teorema 2.5.21 Sejam X ∼ χ2(m) e Y ∼ χ2(n) duas variáveis aleatórias independentes, então X W = m Y n tem distribuição F-Snedecor com m e n graus de liberdade, ou seja, W ∼ F(m,n) . 116 Exemplo 2.5.20 Considere a empresa V endeT udo tem três lojas e que o lucro das lojas é descritos pelas variáveis X1 ∼ χ2(30) , X2 ∼ χ2(30) e X3 ∼ χ2(40) . Considerando que o lucro de cada loja é independente do das restantes, qual a probabilidade de o lucro da terceira loja ser superior ao lucro das restantes duas lojas? Pretende-se determinar P (X3 > X1 + X2 ) que, como X1 + X2 é a soma de duas variáveis aleatórias com distribuição Qui-quadrado independentes, pela aditividade da distribuição Qui-quadrado (teorema 2.5.12 da página 104) vem que X1 + X2 ∼ χ2(30+30) X1 + X2 ∼ χ2(60) logo ¡ ¢ P (X3 > X1 + X2 ) = P χ2(40) > χ2(60) = à 2 ! χ(40) = P >1 = χ2(60) ⎞ ⎛ 2 χ(40) 1 ⎜ 40 40 ⎟ ⎟ > = P⎜ ⎠ ⎝ χ2 1 (60) 60 60 que pelo teorema 2.5.21 vem que χ2(40) 40 ∼ F (40,60) χ2(60) 60 logo ⎛ χ2(40) ⎜ 40 P⎜ ⎝ χ2 (60) 60 ⎞ 1 ⎟ ¡ ¢ = P F > 40 ⎟ > 1.5 = (40,60) 1 ⎠ 60 ¡ ¢ = 1 − P F(40,60) ≤ 1.5 117 que recorrendo à interpolação vem Valores de x Valores de α 1.44 0.90 1.50 α0 =? 1.59 0.95 de onde se obtém 1.59 − 1.44 0.95 − 0.90 ⇔ α0 ' 0.92, = 0 1.59 − 1.50 0.95 − α logo ¡ ¢ 1 − P F(40,60) ≤ 1.5 ' 1 − 0.92 = 0.08. Teorema 2.5.22 Seja X uma variável aleatória com distribuição t-Student com n graus de liberdade, ou seja X ∼ t(n) , então X 2 ∼ F(1,n) . Exemplo 2.5.21 ¡ ¢ Considere uma variável aleatória com distribuição t-Student com 60 graus de liberdade X ∼ t(60) . Determine P (X 2 > 4). Tendo em conta que X ∼ t(60) , pelo teorema 2.5.22, vem que X 2 ∼ F(1,60) , logo ¡ ¢ ¡ ¢ ¡ ¢ P X 2 > 4 = P F(1,60) > 4 = 1 − P F(1,60) ≤ 4 = 1 − 0.95 = 0.05. 118 2.6 Desigualdade de Tchebycheff Em muitos casos pretende-se calcular probabilidades quando a variável aleatória que está a ser analisada tem distribuição desconhecida. Nestes casos não se pode determinar um valor exacto para as probabilidades, mas, se o valor esperado e o desvio padrão dessa variável forem conhecidos, pode-se encontrar um limite inferior (ou um limite superior) para essa probabilidade através da desigualdade de Tchebycheff (1821-1894), que pode ser enunciada da seguinte forma. Teorema 2.6.1 (Desigualdade de Tchebycheff) Seja X uma variável aleatória com valor esperado μ e desvio padrão σ, então, para qualquer constante positiva k, tem-se: P (|X − μ| < kσ) ≥ 1 − 1 k2 ou P (|X − μ| ≥ kσ) ≤ 1 k2 Nota: A desigualdade de Tchebycheff pode ser utilizada quer para variáveis aleatórias discretas quer para variáveis aleatórias contínuas. Demonstração: A demonstração da desigualdade de Tchebycheff que vai ser apresentada refere-se unicamente a variáveis aleatórias contínuas, no entanto, para variáveis aleatórias discretas a demonstração é semelhante. Assim, pela definição de variância, obtémse σ 2 £ ¤ = E (X − μ)2 = ≥ Z Z (X − μ)2 f (x) dx ≥ R 2 (X − μ) f (x) dx ≥ |X−μ|≥kσ = (kσ)2 Z Z (kσ)2 f (x) dx = |X−μ|≥kσ f (x) dx = (kσ)2 P (|X − μ| ≥ kσ) , |X−μ|≥kσ logo σ 2 ≥ (kσ)2 P (|X − μ| ≥ kσ) ⇔ 1 σ2 ⇔ P (|X − μ| ≥ kσ) ≤ 2 2 = 2 . σ k k 119 (54) Exemplo 2.6.1 Considerando uma variável aleatória X cujo valor esperado é cem (μ = 100) e o desvio padrão é dez (σ = 10), o que é que se pode concluir sobre as seguintes probabilidades? 1. P (70 < X < 130). P (70 < X < 130) = P (70 − 100 < X − 100 < 130 − 100) = = P (−30 < X − 100 < 30) = P (|X − 100| < 30). Comparando com a desigualdade de Tchebycheff, conclui-se que kσ = 30, então, como σ = 10, vem que k = 3, logo P (|X − 100| < 30) ≥ 1 − 8 1 = , 2 3 9 assim, pela desigualdade de Tchebycheff, conclui-se que o valor mínimo para a probabili8 dade de a variável aleatória X se situar entre setenta e cento e trinta é . 9 2. P (X < 120). P (X < 120) = P (X − 100 < 20) tendo em conta que, para utilizar a desigualdade de Tchebycheff, se pretende obter P (|X − 100| < 20), devem-se comparar estas duas probabilidades. Como o intervalo ] − ∞, 20[ contém o intervalo ] − 20, 20[ a probabilidade da variável X pertencer ao primeiro intervalo será superior ou igual à probabilidade de pertencer ao segundo, ou seja, P (X − 100 < 20) ≥ P (|X − 100| < 20), que pela desigualdade de Tchebycheff, tendo em conta que neste caso k = 2, vem P (|X − 100| < 20) ≥ 1 − 120 1 = 0.75, 22 concluindo-se que a probabilidade de a variável assumir um valor inferior a 120 é de, pelo menos, 0.75. 3. P (60 < X < 200). P (60 < X < 200) = P (−40 < X − 100 < 100) como para utilizar módulos o intervalo tem que ser simétrico, então, vai-se passar do intervalo ] − 40, 100[ para o intervalo ] − 40, 40[, pois este está contido no anterior. Desta análise conclui-se que P (40 < X − 100 < 100) ≥ P (40 < X − 100 < 40) = = P (|X − 100| < 40) ≥ 1 − 1 15 = , 42 16 ou seja, a probabilidade de a variável assumir um valor entre sessenta e duzentos é, no 15 mínimo, . 16 4. P (X > 200). P (X > 200) = P (X − 100 > 100). Tendo em conta que o intervalo ]100, +∞[ não contém nenhum intervalo simétrico (todos os valores deste intervalo são positivos), vai ser utilizado o acontecimento complementar, obtendo-se P (X − 100 > 100) = 1 − P (X − 100 ≤ 100). Assim, para ser possível utilizar a desigualdade de Tchebycheff, do intervalo ] − ∞, 100] opta-se pelo intervalo simétrico com maior amplitude. Neste caso o intervalo correspondente é ] − 100, 100[ e, tendo em conta que P (X − 100 ≤ 100) ≥ P (|X − 100| < 100), conclui-se que 1 − P (X − 100 ≤ 100) ≤ 1 − P (|X − 100| < 100) ≤ ¶ µ 1 1 ≤ 1− 1− 2 = = 0.01, 10 100 121 ou seja, a probabilidade de a variável aleatória X assumir um valor superior a duzentos é, no máximo, 0.01. 5. P (300 < X < 400). P (300 < X < 400) = P (200 < X − 100 < 300) como o intervalo ]200, 300[ não contém nenhum intervalo simétrico, passa-se deste intervalo para o seu complementar, obtendo-se P (200 < X − 100 < 300) = 1 − P (X − 100 ≤ 200 ∨ X − 100 ≥ 300). Assim, no intervalo ] − ∞, 200] ∪ [300, +∞[ escolhe-se o intervalo simétrico de maior amplitude, que corresponde a ] − 200, 200[, então, 1 − P (X − 100 ≤ 200 ∨ X − 100 ≥ 300) ≤ 1 − P (|X − 100| < 200) ≤ µ ¶ 1 ≤ 1− 1− 2 = 20 1 = = 0.0025. 400 O valor máximo para a probabilidade de a variável aleatória X se situar entre duzentos e quatrocentos é 0.0025. Nota: Nem sempre é possível tirar conclusões através da desigualdade de Tchebycheff, como ilustra o seguinte exemplo: Considere as condições apresentadas no exemplo anterior, ou seja μ = 100 e σ = 10. P (90 < X < 110) = P (−10 < X − 100 < 10) = P (|X − 100| < 10) ≥ 1 − 1 =0 12 Neste caso, através da desigualdade de Tchebycheff, conclui-se que a probabilidade de a variável assumir valores entre noventa e cento e dez é no mínimo igual a zero; no entanto, todas as probabilidades satisfazem esta desigualdade, logo, este cálculo de nada serviu. 122 2.7 Tabelas Função de distribuição da Poisson - P (λ) 2.7.1 P (X ≤ x) = λ x 0 1 2 3 4 5 6 7 λ x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 x X e−λ λk k=0 k! 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.9048 0.9953 0.9998 1.0000 0.8187 0.9825 0.9989 0.9999 1.0000 0.7408 0.9631 0.9964 0.9997 1.0000 0.6703 0.9384 0.9921 0.9992 0.9999 1.0000 0.6065 0.9098 0.9856 0.9982 0.9998 1.0000 0.5488 0.8781 0.9769 0.9966 0.9996 1.0000 0.4966 0.8442 0.9659 0.9942 0.9992 0.9999 1.0000 0.4493 0.8088 0.9526 0.9909 0.9986 0.9998 1.0000 0.4066 0.7725 0.9371 0.9865 0.9977 0.9997 1.0000 0.3679 0.7358 0.9197 0.9810 0.9963 0.9994 0.9999 1.0000 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0.2231 0.5578 0.8088 0.9344 0.9814 0.9955 0.9991 0.9998 1.0000 0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 0.9989 0.9998 1.0000 0.0821 0.2873 0.5438 0.7576 0.8912 0.9580 0.9858 0.9958 0.9989 0.9997 0.9999 1.0000 0.0498 0.1991 0.4232 0.6472 0.8153 0.9161 0.9665 0.9881 0.9962 0.9989 0.9997 0.9999 1.0000 0.0302 0.1359 0.3208 0.5366 0.7254 0.8576 0.9347 0.9733 0.9901 0.9967 0.9990 0.9997 0.9999 1.0000 0.0183 0.0916 0.2381 0.4335 0.6288 0.7851 0.8893 0.9489 0.9786 0.9919 0.9972 0.9991 0.9997 0.9999 1.0000 0.0111 0.0611 0.1736 0.3423 0.5321 0.7029 0.8311 0.9134 0.9597 0.9829 0.9933 0.9976 0.9992 0.9997 0.9999 1.0000 0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682 0.9863 0.9945 0.9980 0.9993 0.9998 0.9999 1.0000 0.0041 0.0266 0.0884 0.2017 0.3575 0.5289 0.6860 0.8095 0.8944 0.9462 0.9747 0.9890 0.9955 0.9983 0.9994 0.9998 0.9999 1.0000 0.0025 0.0174 0.0620 0.1512 0.2851 0.4457 0.6063 0.7440 0.8472 0.9161 0.9574 0.9799 0.9912 0.9964 0.9986 0.9995 0.9998 0.9999 1.0000 As tabelas apresentam o valor de P (X ≤ x) onde X ∼ P (λ). 123 Função de distribuição da Poisson - P (λ) λ x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 6.5 7 7.5 8 8.5 9 9.5 10 10.5 11 0.0015 0.0113 0.0430 0.1118 0.2237 0.3690 0.5265 0.6728 0.7916 0.8774 0.9332 0.9661 0.9840 0.9929 0.9970 0.9988 0.9996 0.9998 0.9999 1.0000 0.0009 0.0073 0.0296 0.0818 0.1730 0.3007 0.4497 0.5987 0.7291 0.8305 0.9015 0.9467 0.9730 0.9872 0.9943 0.9976 0.9990 0.9996 0.9999 1.0000 0.0006 0.0047 0.0203 0.0591 0.1321 0.2414 0.3782 0.5246 0.6620 0.7764 0.8622 0.9208 0.9573 0.9784 0.9897 0.9954 0.9980 0.9992 0.9997 0.9999 1.0000 0.0003 0.0030 0.0138 0.0424 0.0996 0.1912 0.3134 0.4530 0.5925 0.7166 0.8159 0.8881 0.9362 0.9658 0.9827 0.9918 0.9963 0.9984 0.9993 0.9997 0.9999 1.0000 0.0002 0.0019 0.0093 0.0301 0.0744 0.1496 0.2562 0.3856 0.5231 0.6530 0.7634 0.8487 0.9091 0.9486 0.9726 0.9862 0.9934 0.9970 0.9987 0.9995 0.9998 0.9999 1.0000 0.0001 0.0012 0.0062 0.0212 0.0550 0.1157 0.2068 0.3239 0.4557 0.5874 0.7060 0.8030 0.8758 0.9261 0.9585 0.9780 0.9889 0.9947 0.9976 0.9989 0.9996 0.9998 0.9999 1.0000 0.0001 0.0008 0.0042 0.0149 0.0403 0.0885 0.1649 0.2687 0.3918 0.5218 0.6453 0.7520 0.8364 0.8981 0.9400 0.9665 0.9823 0.9911 0.9957 0.9980 0.9991 0.9996 0.9999 0.9999 1.0000 0.0000 0.0005 0.0028 0.0103 0.0293 0.0671 0.1301 0.2202 0.3328 0.4579 0.5830 0.6968 0.7916 0.8645 0.9165 0.9513 0.9730 0.9857 0.9928 0.9965 0.9984 0.9993 0.9997 0.9999 1.0000 0.0000 0.0003 0.0018 0.0071 0.0211 0.0504 0.1016 0.1785 0.2794 0.3971 0.5207 0.6387 0.7420 0.8254 0.8879 0.9317 0.9604 0.9781 0.9885 0.9942 0.9972 0.9987 0.9994 0.9998 0.9999 1.0000 0.0000 0.0002 0.0012 0.0049 0.0151 0.0375 0.0786 0.1432 0.2320 0.3405 0.4599 0.5793 0.6887 0.7813 0.8540 0.9074 0.9441 0.9678 0.9823 0.9907 0.9953 0.9977 0.9990 0.9995 0.9998 0.9999 1.0000 As tabelas apresentam o valor de P (X ≤ x) onde X ∼ P (λ). 124 Função de distribuição da Poisson - P (λ) λ x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 11.5 12 13 14 15 16 17 18 19 20 0.0000 0.0001 0.0008 0.0034 0.0107 0.0277 0.0603 0.1137 0.1906 0.2888 0.4017 0.5198 0.6330 0.7330 0.8153 0.8783 0.9236 0.9543 0.9738 0.9857 0.9925 0.9962 0.9982 0.9992 0.9996 0.9998 0.9999 1.0000 0.0000 0.0001 0.0005 0.0023 0.0076 0.0203 0.0458 0.0895 0.1550 0.2424 0.3472 0.4616 0.5760 0.6815 0.7720 0.8444 0.8987 0.9370 0.9626 0.9787 0.9884 0.9939 0.9970 0.9985 0.9993 0.9997 0.9999 0.9999 1.0000 0.0000 0.0000 0.0002 0.0011 0.0037 0.0107 0.0259 0.0540 0.0998 0.1658 0.2517 0.3532 0.4631 0.5730 0.6751 0.7636 0.8355 0.8905 0.9302 0.9573 0.9750 0.9859 0.9924 0.9960 0.9980 0.9990 0.9995 0.9998 0.9999 1.0000 1.0000 0.0000 0.0000 0.0001 0.0005 0.0018 0.0055 0.0142 0.0316 0.0621 0.1094 0.1757 0.2600 0.3585 0.4644 0.5704 0.6694 0.7559 0.8272 0.8826 0.9235 0.9521 0.9712 0.9833 0.9907 0.9950 0.9974 0.9987 0.9994 0.9997 0.9999 0.9999 1.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0028 0.0076 0.0180 0.0374 0.0699 0.1185 0.1848 0.2676 0.3632 0.4657 0.5681 0.6641 0.7489 0.8195 0.8752 0.9170 0.9469 0.9673 0.9805 0.9888 0.9938 0.9967 0.9983 0.9991 0.9996 0.9998 0.9999 1.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0040 0.0100 0.0220 0.0433 0.0774 0.1270 0.1931 0.2745 0.3675 0.4667 0.5660 0.6593 0.7423 0.8122 0.8682 0.9108 0.9418 0.9633 0.9777 0.9869 0.9925 0.9959 0.9978 0.9989 0.9994 0.9997 0.9999 0.9999 1.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054 0.0126 0.0261 0.0491 0.0847 0.1350 0.2009 0.2808 0.3715 0.4677 0.5640 0.6550 0.7363 0.8055 0.8615 0.9047 0.9367 0.9594 0.9748 0.9848 0.9912 0.9950 0.9973 0.9986 0.9993 0.9996 0.9998 0.9999 1.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029 0.0071 0.0154 0.0304 0.0549 0.0917 0.1426 0.2081 0.2867 0.3751 0.4686 0.5622 0.6509 0.7307 0.7991 0.8551 0.8989 0.9317 0.9554 0.9718 0.9827 0.9897 0.9941 0.9967 0.9982 0.9990 0.9995 0.9998 0.9999 0.9999 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0005 0.0015 0.0039 0.0089 0.0183 0.0347 0.0606 0.0984 0.1496 0.2148 0.2920 0.3784 0.4695 0.5606 0.6472 0.7255 0.7931 0.8490 0.8933 0.9269 0.9514 0.9687 0.9805 0.9882 0.9930 0.9960 0.9978 0.9988 0.9994 0.9997 0.9998 0.9999 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0021 0.0050 0.0108 0.0214 0.0390 0.0661 0.1049 0.1565 0.2211 0.2970 0.3814 0.4703 0.5591 0.6437 0.7206 0.7875 0.8432 0.8878 0.9221 0.9475 0.9657 0.9782 0.9865 0.9919 0.9953 0.9973 0.9985 0.9992 0.9996 0.9998 0.9999 1.0000 A tabela apresenta o valor de P (X ≤ x) onde X ∼ P (λ). 125 2.7.2 z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Função de distribuição da Normal Standard - Z 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000 z F(z) 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000 1.282 1.645 1.96 2.326 2.576 3.09 3.291 3.891 4.417 0.90 0.95 0.975 0.99 0.995 0.999 0.9995 0.99995 0.999995 A tabela apresenta o valor de P (Z ≤ z) onde Z ∼ N (0, 1). 126 2.7.3 α n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 60 70 80 90 100 120 150 Valores percentuais da t-Student com n graus de liberdade - t (n) 0.6 0.7 0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995 0.999 0.9995 0.3249 0.2887 0.2767 0.2707 0.2672 0.2648 0.2632 0.2619 0.2610 0.2602 0.2596 0.2590 0.2586 0.2582 0.2579 0.2576 0.2573 0.2571 0.2569 0.2567 0.2566 0.2564 0.2563 0.2562 0.2561 0.2560 0.2559 0.2558 0.2557 0.2556 0.2555 0.2555 0.2554 0.2553 0.2553 0.2552 0.2552 0.2551 0.2551 0.2550 0.2549 0.2547 0.2545 0.2543 0.2542 0.2541 0.2540 0.2539 0.2538 0.7265 0.6172 0.5844 0.5686 0.5594 0.5534 0.5491 0.5459 0.5435 0.5415 0.5399 0.5386 0.5375 0.5366 0.5357 0.5350 0.5344 0.5338 0.5333 0.5329 0.5325 0.5321 0.5317 0.5314 0.5312 0.5309 0.5306 0.5304 0.5302 0.5300 0.5298 0.5297 0.5295 0.5294 0.5292 0.5291 0.5289 0.5288 0.5287 0.5286 0.5281 0.5278 0.5272 0.5268 0.5265 0.5263 0.5261 0.5258 0.5255 1.0000 0.8165 0.7649 0.7407 0.7267 0.7176 0.7111 0.7064 0.7027 0.6998 0.6974 0.6955 0.6938 0.6924 0.6912 0.6901 0.6892 0.6884 0.6876 0.6870 0.6864 0.6858 0.6853 0.6848 0.6844 0.6840 0.6837 0.6834 0.6830 0.6828 0.6825 0.6822 0.6820 0.6818 0.6816 0.6814 0.6812 0.6810 0.6808 0.6807 0.6800 0.6794 0.6786 0.6780 0.6776 0.6772 0.6770 0.6765 0.6761 1.3764 1.0607 0.9785 0.9410 0.9195 0.9057 0.8960 0.8889 0.8834 0.8791 0.8755 0.8726 0.8702 0.8681 0.8662 0.8647 0.8633 0.8620 0.8610 0.8600 0.8591 0.8583 0.8575 0.8569 0.8562 0.8557 0.8551 0.8546 0.8542 0.8538 0.8534 0.8530 0.8526 0.8523 0.8520 0.8517 0.8514 0.8512 0.8509 0.8507 0.8497 0.8489 0.8477 0.8468 0.8461 0.8456 0.8452 0.8446 0.8440 1.9626 1.3862 1.2498 1.1896 1.1558 1.1342 1.1192 1.1081 1.0997 1.0931 1.0877 1.0832 1.0795 1.0763 1.0735 1.0711 1.0690 1.0672 1.0655 1.0640 1.0627 1.0614 1.0603 1.0593 1.0584 1.0575 1.0567 1.0560 1.0553 1.0547 1.0541 1.0535 1.0530 1.0525 1.0520 1.0516 1.0512 1.0508 1.0504 1.0500 1.0485 1.0473 1.0455 1.0442 1.0432 1.0424 1.0418 1.0409 1.0400 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 1.3095 1.3086 1.3077 1.3070 1.3062 1.3055 1.3049 1.3042 1.3036 1.3031 1.3006 1.2987 1.2958 1.2938 1.2922 1.2910 1.2901 1.2886 1.2872 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 1.6955 1.6939 1.6924 1.6909 1.6896 1.6883 1.6871 1.6860 1.6849 1.6839 1.6794 1.6759 1.6706 1.6669 1.6641 1.6620 1.6602 1.6577 1.6551 12.706 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 2.0395 2.0369 2.0345 2.0322 2.0301 2.0281 2.0262 2.0244 2.0227 2.0211 2.0141 2.0086 2.0003 1.9944 1.9901 1.9867 1.9840 1.9799 1.9759 31.821 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573 2.4528 2.4487 2.4448 2.4411 2.4377 2.4345 2.4314 2.4286 2.4258 2.4233 2.4121 2.4033 2.3901 2.3808 2.3739 2.3685 2.3642 2.3578 2.3515 63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500 2.7440 2.7385 2.7333 2.7284 2.7238 2.7195 2.7154 2.7116 2.7079 2.7045 2.6896 2.6778 2.6603 2.6479 2.6387 2.6316 2.6259 2.6174 2.6090 318.31 22.327 10.215 7.1732 5.8934 5.2076 4.7853 4.5008 4.2968 4.1437 4.0247 3.9296 3.8520 3.7874 3.7328 3.6862 3.6458 3.6105 3.5794 3.5518 3.5272 3.5050 3.4850 3.4668 3.4502 3.4350 3.4210 3.4082 3.3962 3.3852 3.3749 3.3653 3.3563 3.3479 3.3400 3.3326 3.3256 3.3190 3.3128 3.3069 3.2815 3.2614 3.2317 3.2108 3.1953 3.1833 3.1737 3.1595 3.1455 636.62 31.599 12.924 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.4370 4.3178 4.2208 4.1405 4.0728 4.0150 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.6460 3.6335 3.6218 3.6109 3.6007 3.5911 3.5821 3.5737 3.5657 3.5581 3.5510 3.5203 3.4960 3.4602 3.4350 3.4163 3.4019 3.3905 3.3735 3.3566 ¡ ¢ A tabela apresenta os pontos x tais que P t(n) ≤ x = α. 127 Valores percentuais da Qui—quadrado com n graus de liberdade - χ2(n) 2.7.4 α n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 60 70 80 90 100 120 150 0.005 0.01 0.025 0.05 0.10 0.15 0.20 0.25 0.30 0.40 0.0000 0.0100 0.0717 0.2070 0.4117 0.6757 0.9893 1.3444 1.7349 2.1559 2.6032 3.0738 3.5650 4.0747 4.6009 5.1422 5.6972 6.2648 6.8440 7.4338 8.0337 8.6427 9.2604 9.8620 10.520 11.160 11.808 12.461 13.121 13.787 14.458 15.134 15.815 16.501 17.192 17.887 18.586 19.289 19.996 20.707 24.311 27.991 35.534 43.275 51.172 59.196 67.328 83.852 109.14 0.0002 0.0201 0.1148 0.2971 0.5543 0.8721 1.2390 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2293 5.8122 6.4078 7.0149 7.6327 8.2604 8.8972 9.5425 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 15.655 16.362 17.074 17.789 18.509 19.233 19.960 20.691 21.426 22.164 25.901 29.707 37.485 45.442 53.540 61.754 70.065 86.923 112.67 0.0010 0.0506 0.2158 0.4844 0.8312 1.2373 1.6899 2.1797 2.7004 3.2470 3.8157 4.4038 5.0088 5.6287 6.2621 6.9077 7.5642 8.2307 8.9065 9.5908 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 17.539 18.291 19.047 19.806 20.569 21.336 22.106 22.878 23.654 24.433 28.366 32.357 40.482 48.758 57.153 65.647 74.222 91.573 117.98 0.0039 0.1026 0.3519 0.7107 1.1455 1.6354 2.1673 2.7326 3.3251 3.9403 4.5748 5.2260 5.8919 6.5706 7.2609 7.9616 8.6718 9.3905 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 19.281 20.072 20.867 21.664 22.465 23.269 24.075 24.884 25.695 26.509 30.612 34.764 43.188 51.739 60.391 69.126 77.929 95.705 122.69 0.0158 0.2107 0.5844 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 21.434 22.271 23.110 23.952 24.797 25.643 26.492 27.343 28.196 29.051 33.350 37.689 46.459 55.329 64.278 73.291 82.358 100.62 128.28 0.0358 0.3250 0.7978 1.3665 1.9938 2.6613 3.3583 4.0782 4.8165 5.5701 6.3364 7.1138 7.9008 8.6963 9.4993 10.309 11.125 11.946 12.773 13.604 14.439 15.279 16.122 16.969 17.818 18.671 19.527 20.386 21.247 22.110 22.976 23.844 24.714 25.586 26.460 27.336 28.214 29.093 29.974 30.856 35.290 39.754 48.759 57.844 66.994 76.195 85.441 104.04 132.14 0.0642 0.4463 1.0052 1.6488 2.3425 3.0701 3.8223 4.5936 5.3801 6.1791 6.9887 7.8073 8.6339 9.4673 10.307 11.152 12.002 12.857 13.716 14.578 15.445 16.314 17.187 18.062 18.940 19.820 20.703 21.588 22.475 23.364 24.255 25.148 26.042 26.938 27.836 28.735 29.635 30.537 31.441 32.345 36.884 41.449 50.641 59.898 69.207 78.558 87.945 106.81 135.26 0.1015 0.5754 1.2125 1.9226 2.6746 3.4546 4.2549 5.0706 5.8988 6.7372 7.5841 8.4384 9.2991 10.165 11.037 11.912 12.792 13.675 14.562 15.452 16.344 17.240 18.137 19.037 19.939 20.843 21.749 22.657 23.567 24.478 25.390 26.304 27.219 28.136 29.054 29.973 30.893 31.815 32.737 33.660 38.291 42.942 52.294 61.698 71.145 80.625 90.133 109.22 137.98 0.1485 0.7134 1.4237 2.1947 2.9999 3.8276 4.6713 5.5274 6.3933 7.2672 8.1479 9.0343 9.9257 10.821 11.721 12.624 13.531 14.440 15.352 16.266 17.182 18.101 19.021 19.943 20.867 21.792 22.719 23.647 24.577 25.508 26.440 27.373 28.307 29.242 30.178 31.115 32.053 32.992 33.932 34.872 39.585 44.313 53.809 63.346 72.915 82.511 92.129 111.42 140.46 0.2750 1.0217 1.8692 2.7528 3.6555 4.5702 5.4932 6.4226 7.3570 8.2955 9.2373 10.182 11.129 12.078 13.030 13.983 14.937 15.893 16.850 17.809 18.768 19.729 20.690 21.652 22.616 23.579 24.544 25.509 26.475 27.442 28.409 29.376 30.344 31.313 32.282 33.252 34.222 35.192 36.163 37.134 41.995 46.864 56.620 66.396 76.188 85.993 95.808 115.46 145.00 ³ ´ 2 A tabela apresenta os pontos x tais que P χ(n) ≤ x = α. 128 Valores percentuais da Qui—quadrado com n graus de liberdade - χ2(n) α n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 60 70 80 90 100 120 150 0.50 0.60 0.70 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995 0.4549 1.3863 2.3660 3.3567 4.3515 5.3481 6.3458 7.3441 8.3428 9.3418 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 30.336 31.336 32.336 33.336 34.336 35.336 36.336 37.335 38.335 39.335 44.335 49.335 59.335 69.334 79.334 89.334 99.334 119.33 149.33 0.7083 1.8326 2.9462 4.0446 5.1319 6.2108 7.2832 8.3505 9.4136 10.473 11.530 12.584 13.636 14.685 15.733 16.780 17.824 18.868 19.910 20.951 21.991 23.031 24.069 25.106 26.143 27.179 28.214 29.249 30.283 31.316 32.349 33.381 34.413 35.444 36.475 37.505 38.535 39.564 40.593 41.622 46.761 51.892 62.135 72.358 82.566 92.761 102.95 123.29 153.75 1.0742 2.4079 3.6649 4.8784 6.0644 7.2311 8.3834 9.5245 10.656 11.781 12.899 14.011 15.119 16.222 17.322 18.418 19.511 20.601 21.689 22.775 23.858 24.939 26.018 27.096 28.172 29.246 30.319 31.391 32.461 33.530 34.598 35.665 36.731 37.795 38.859 39.922 40.984 42.045 43.105 44.165 49.452 54.723 65.227 75.689 86.120 96.524 106.91 127.62 158.58 1.3233 2.7726 4.1083 5.3853 6.6257 7.8408 9.0371 10.219 11.389 12.549 13.701 14.845 15.984 17.117 18.245 19.369 20.489 21.605 22.718 23.828 24.935 26.039 27.141 28.241 29.339 30.435 31.528 32.620 33.711 34.800 35.887 36.973 38.058 39.141 40.223 41.304 42.383 43.462 44.539 45.616 50.985 56.334 66.981 77.577 88.130 98.650 109.14 130.05 161.29 1.6424 3.2189 4.6416 5.9886 7.2893 8.5581 9.8032 11.030 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250 37.359 38.466 39.572 40.676 41.778 42.879 43.978 45.076 46.173 47.269 52.729 58.164 68.972 79.715 90.405 101.05 111.67 132.81 164.35 2.0723 3.7942 5.3170 6.7449 8.1152 9.4461 10.748 12.027 13.288 14.534 15.767 16.989 18.202 19.406 20.603 21.793 22.977 24.155 25.329 26.498 27.662 28.822 29.979 31.132 32.282 33.429 34.574 35.715 36.854 37.990 39.124 40.256 41.386 42.514 43.640 44.764 45.886 47.007 48.126 49.244 54.810 60.346 71.341 82.255 93.106 103.90 114.66 136.06 167.96 2.7055 4.6052 6.2514 7.7794 9.2364 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 41.422 42.585 43.745 44.903 46.059 47.212 48.363 49.513 50.660 51.805 57.505 63.167 74.397 85.527 96.578 107.57 118.50 140.23 172.58 3.8415 5.9915 7.8147 9.4877 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 44.985 46.194 47.400 48.602 49.802 50.998 52.192 53.384 54.572 55.758 61.656 67.505 79.082 90.531 101.88 113.15 124.34 146.57 179.58 5.0239 7.3778 9.3484 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 48.232 49.480 50.725 51.966 53.203 54.437 55.668 56.896 58.120 59.342 65.410 71.420 83.298 95.023 106.63 118.14 129.56 152.21 185.80 6.6349 9.2103 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 52.191 53.486 54.776 56.061 57.342 58.619 59.893 61.162 62.428 63.691 69.957 76.154 88.379 100.43 112.33 124.12 135.81 158.95 193.21 7.8794 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672 55.003 56.328 57.648 58.964 60.275 61.581 62.883 64.181 65.476 66.766 73.166 79.490 91.952 104.21 116.32 128.30 140.17 163.65 198.36 ³ ´ A tabela apresenta os pontos x tais que P χ2(n) ≤ x = α. 129 2.7.5 Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n) Valores percentuais da distribuição F-Snedcor - α = 0.90 m 1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 120 1000 1 39.9 49.5 53.6 55.8 57.2 58.2 58.9 59.4 59.9 60.2 61.2 61.7 62.3 62.5 62.8 63.1 63.3 2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.42 9.44 9.46 9.47 9.47 9.48 9.49 3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.20 5.18 5.17 5.16 5.15 5.14 5.13 4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.87 3.84 3.82 3.80 3.79 3.78 3.76 5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.24 3.21 3.17 3.16 3.14 3.12 3.11 6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.87 2.87 2.80 2.78 2.76 2.74 2.72 7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.63 2.59 2.56 2.54 2.51 2.49 2.47 8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.46 2.42 2.38 2.36 2.34 2.32 2.30 n 9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.34 2.30 2.25 2.23 2.21 2.18 2.16 10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.24 2.20 2.16 2.13 2.11 2.08 2.06 11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.17 2.12 2.08 2.05 2.03 2.00 1.98 12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.10 2.06 2.01 1.99 1.96 1.93 1.91 13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.05 2.01 1.96 1.93 1.90 1.88 1.85 14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 3.92 2.01 1.96 1.91 1.89 1.86 1.83 1.80 15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 1.97 1.92 1.87 1.85 1.82 1.79 1.76 16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.08 2.06 2.03 1.94 1.89 1.84 1.81 1.78 1.75 1.72 17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.91 1.86 1.81 1.78 1.75 1.72 1.69 18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.89 1.84 1.78 1.75 1.72 1.69 1.66 19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.86 1.81 1.76 1.73 1.70 1.67 1.64 20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.84 1.79 1.74 1.71 1.68 1.64 1.61 21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.83 1.78 1.72 1.69 1.66 1.62 1.59 22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.81 1.76 1.70 1.67 1.64 1.60 1.57 23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.80 1.74 1.69 1.66 1.62 1.59 1.55 24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.78 1.73 1.67 1.64 1.61 1.57 1.54 25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.77 1.72 1.66 1.63 1.59 1.56 1.52 26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.76 1.71 1.65 1.61 1.58 1.54 1.51 27 2.90 2.51 2.30 2.16 2.07 2.00 1.95 1.91 1.87 1.85 1.75 1.70 1.64 1.60 1.57 1.53 1.50 28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.74 1.69 1.63 1.59 1.56 1.52 1.48 29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.73 1.68 1.62 1.58 1.55 1.51 1.47 30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.72 1.67 1.61 1.58 1.54 1.50 1.46 40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.66 1.61 1.54 1.51 1.47 1.42 1.38 60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.60 1.54 1.48 1.44 1.40 1.35 1.30 120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.55 1.48 1.41 1.37 1.32 1.26 1.20 1000 2.71 2.31 2.09 1.95 1.85 1.78 1.72 1.68 1.64 1.61 1.49 1.43 1.35 1.30 1.25 1.18 1.08 ¡ ¢ A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.90. 130 Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n) Valores percentuais da distribuição F-Snedcor - α = 0.95 m 1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 120 1000 1 161 200 216 225 230 234 237 239 241 242 246 248 250 251 252 253 254 2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.70 8.66 8.62 8.59 8.57 8.55 8.53 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.86 5.80 5.75 5.72 5.69 5.66 5.63 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.62 4.56 4.50 4.46 4.43 4.40 4.37 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 3.94 3.87 3.81 3.77 3.74 3.70 3.67 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.51 3.44 3.38 3.34 3.30 3.27 3.23 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.22 3.15 3.08 3.04 3.01 2.97 2.93 n 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.01 2.94 2.86 2.83 2.79 2.75 2.71 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.85 2.77 2.70 2.66 2.62 2.58 2.54 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.72 2.65 2.57 2.53 2.49 2.45 2.41 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.62 2.54 2.47 2.43 2.38 2.34 2.30 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.53 2.46 2.38 2.34 2.30 2.25 2.21 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.46 2.39 2.31 2.27 2.22 2.18 2.14 15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.40 2.33 2.25 2.20 2.16 2.11 2.07 16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.35 2.28 2.19 2.15 2.11 2.06 2.01 17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.31 2.23 2.15 2.10 2.06 2.01 1.97 18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.27 2.19 2.11 2.06 2.02 1.97 1.92 19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.23 2.16 2.07 2.03 1.98 1.93 1.88 20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.20 2.12 2.04 1.99 1.95 1.90 1.85 21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.18 2.10 2.01 1.96 1.92 1.87 1.82 22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.15 2.07 1.98 1.94 1.89 1.84 1.79 23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.13 2.05 1.96 1.91 1.86 1.81 1.76 24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.11 2.03 1.94 1.89 1.84 1.79 1.74 25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.09 2.01 1.92 1.87 1.82 1.77 1.72 26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.07 1.99 1.90 1.85 1.80 1.75 1.70 27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.06 1.97 1.88 1.84 1.79 1.73 1.68 28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.04 1.96 1.87 1.82 1.77 1.71 1.66 29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.03 1.94 1.85 1.81 1.75 1.70 1.65 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.01 1.93 1.84 1.79 1.74 1.68 1.63 40 4.08 3.23 2.84 2.601 2.45 2.34 2.25 2.18 2.12 2.08 1.92 1.84 1.74 1.69 1.64 1.58 1.52 60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.84 1.75 1.65 1.59 1.53 1.47 1.40 120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.75 1.66 1.55 1.50 1.43 1.35 1.27 1000 3.85 3.00 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84 1.68 1.58 1.47 1.41 1.33 1.24 1.11 ¡ ¢ A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.95. 131 Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n) Valores percentuais da distribuição F-Snedcor - α = 0.975 m 1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 120 1000 n 1 648 800 864 900 922 937 948 957 963 969 985 993 1001 1006 1010 1014 1018 2 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5 39.5 39.5 39.5 3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.2 14.1 14.0 14.0 13.9 13.9 4 12.2 10.6 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.66 8.56 8.46 8.41 8.36 8.31 8.26 5 10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.43 6.33 6.23 6.18 6.12 6.07 6.02 6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.27 5.17 5.07 5.01 4.96 4.90 4.86 7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.57 4.47 4.36 4.31 4.25 4.20 4.15 8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.10 4.00 3.89 3.84 3.78 3.73 3.68 9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.77 3.67 3.56 3.51 3.45 3.39 3.34 10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.52 3.42 3.31 3.26 3.20 3.14 3.09 11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.33 3.23 3.12 3.06 3.00 2.94 2.89 12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.18 3.07 2.96 2.91 2.85 2.79 2.73 13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.05 2.95 2.84 2.78 2.72 2.66 2.60 14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 2.95 2.84 2.73 2.67 2.61 2.55 2.50 15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.86 2.76 2.64 2.59 2.52 2.46 2.40 16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.79 2.68 2.57 2.51 2.45 2.38 2.32 17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.72 2.62 2.50 2.44 2.38 2.32 2.26 18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.67 2.56 2.44 2.38 2.32 2.26 2.20 19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.62 2.51 2.39 2.33 2.27 2.20 2.14 20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.57 2.46 2.35 2.29 2.22 2.16 2.09 21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.53 2.42 2.31 2.25 2.18 2.11 2.05 22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.50 2.39 2.27 2.21 2.14 2.08 2.01 23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.47 2.36 2.24 2.18 2.11 2.04 1.98 24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.44 2.33 2.21 2.15 2.08 2.01 1.94 25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.41 2.30 2.18 2.12 2.05 1.98 1.91 26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.39 2.28 2.16 2.09 2.03 1.95 1.86 27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.36 2.25 2.13 2.07 2.00 1.93 1.86 28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.34 2.23 2.11 2.05 1.98 1.91 1.84 29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.32 2.21 2.09 2.03 1.96 1.89 1.82 30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.31 2.20 2.07 2.01 1.94 1.87 1.80 40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.18 2.07 1.94 1.88 1.80 1.72 1.65 60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.06 1.94 1.82 1.74 1.67 1.58 1.50 120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 1.95 1.82 1.69 1.61 1.53 1.43 1.33 1000 5.04 3.70 3.13 2.80 2.58 2.42 2.30 2.20 2.13 2.03 1.85 1.72 1.58 1.50 1.41 1.29 1.13 ¡ ¢ A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.975. 132 Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n) Valores percentuais da distribuição F-Snedcor - α = 0.99 m 1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 120 1000 1 4052 5000 5403 5625 5764 5859 5928 5981 6023 6056 6157 6209 6261 6287 6313 6339 6363 2 98.5 99.0 99.2 99.2 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.5 99.5 99.5 99.5 99.5 3 34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 26.9 26.7 26.5 26.4 26.3 26.2 26.1 4 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5 14.2 14.0 13.8 13.7 13.7 13.6 13.5 5 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1 9.72 9.55 9.38 9.29 9.20 9.11 9.03 6 13.7 10.9 9.78 9.12 8.75 8.47 8.26 8.10 7.98 7.87 7.56 7.40 7.23 7.14 7.06 6.97 6.89 7 12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.31 6.16 5.99 5.91 5.82 5.74 5.66 8 11.3 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.52 5.36 5.20 5.12 5.03 4.95 4.87 n 9 10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 4.96 4.81 4.65 4.57 4.48 4.40 4.32 10 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.56 4.41 4.25 4.17 4.08 4.00 3.92 11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.25 4.10 3.94 3.86 3.78 3.69 3.61 12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.01 3.86 3.70 3.62 3.54 3.45 3.37 13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.82 3.66 3.51 3.43 3.34 3.25 3.18 14 8.86 6.51 5.56 5.04 4.70 4.46 4.28 4.14 4.03 3.94 3.66 3.51 3.35 3.27 3.18 3.09 3.02 15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.52 3.37 3.21 3.13 3.05 2.96 2.88 16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.41 3.26 3.10 3.02 2.93 2.84 2.76 17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.31 3.16 3.00 2.92 2.83 2.75 2.66 18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.23 3.08 2.92 2.84 2.75 2.66 2.58 19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.15 3.00 2.84 2.76 2.67 2.58 2.50 20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.09 2.94 2.78 2.69 2.61 2.52 2.43 21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.03 2.88 2.72 2.64 2.55 2.46 2.37 22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 2.98 2.83 2.67 2.58 2.50 2.40 2.32 23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 2.93 2.78 2.62 2.54 2.45 2.35 2.27 24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 2.89 2.74 2.58 2.49 2.40 2.31 2.22 25 7.77 5.57 4.68 4.18 3.86 3.63 3.46 3.32 3.22 3.13 2.85 2.70 2.54 2.45 2.36 2.27 2.18 26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.82 2.66 2.50 2.42 2.33 2.23 2.14 27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.78 2.63 2.47 2.38 2.29 2.20 2.11 28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.75 2.60 2.44 2.35 2.26 2.17 2.08 29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.73 2.57 2.41 2.33 2.23 2.14 2.05 30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.70 2.55 2.39 2.30 2.21 2.11 2.02 40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.52 2.37 2.20 2.11 2.02 1.92 1.82 60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.35 2.20 2.03 1.94 1.84 1.73 1.62 120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.19 2.03 1.86 1.76 1.66 1.53 1.40 1000 6.66 4.63 3.80 3.34 3.03 2.82 2.66 2.53 2.43 2.34 2.06 1.90 1.71 1.61 1.50 1.35 1.16 ¡ ¢ A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.99. 133 3 Inferência Estatística Este capítulo tem como objectivo fazer uma pequena abordagem a algumas técnicas estatísticas que permitem tirar conclusões sobre as características da população com base na informação contida numa amostra. 3.1 Noções básicas Regra geral, num estudo estatístico, são raras as situações onde se pode obter informação sobre todos os indivíduos que o estudo pretende analisar, ou seja, sobre todos os elementos da população (considere que esta é constituída por N indivíduos se for finita). Como tal, obtém-se informação sobre um subconjunto da população denominado por amostra (considere-se que é constituída por n indivíduos, com n < N). Ao conjunto de operações que têm por objectivo a escolha, numa população, dos indivíduos que devem constituir a amostra designa-se por amostragem. A definição deste processo é importante, pois o processo de escolha dos elementos que deverão estar na amostra irá condicionar as possíveis conclusões sobre a população. Assim sendo, ao longo deste capítulo, com o objectivo de facilitar a exposição das técnicas que aqui vão ser apresentadas, considera-se que a amostra com que se está a trabalhar é uma amostra aleatória simples. Definição 3.1.1 (Amostra aleatória simples) Uma amostra é aleatória se todos os elementos da população têm igual probabilidade de pertencerem à amostra. Este processo pode ser efectuado com reposição ou sem reposição12 . Uma amostra diz-se simples se todos os elementos da amostra forem recolhidos de forma independente uns dos outros. Assim, uma amostra aleatória simples (X1 , X2 , · · · , Xn ) é constituída por n variáveis aleatórias independentes e identicamente distribuidas 13 à variável aleatória X (população). 12 No entanto, no caso das amostras recolhidas sem reposição, ao longo deste capítulo abordar-se-á somente n os casos em que ≤ 0.05. N 13 Ao longo deste capítulo, representar-se-á por i. i. d. a idependentes e identicamente distribuidas. 134 Exemplo 3.1.1 Considere que se pretende analisar uma população com determinada função de densidade (ou função de probabilidade) com valor esperado μ e variância σ 2 . Então, se for recolhida uma amostra aleatória de dimensão n, representada por (X1 , X2 , · · · , Xn ), esta é constituída por n variáveis aleatórias independentes com a mesma função de densidade (ou função de probabilidade) que a população e, consequentemente, com o mesmo valor esperado [E(Xi ) = μ] e a mesma variância [V ar(Xi ) = σ 2 ]. Nota: Uma amostra aleatória é representada por (X1 , X2 , · · · , Xn ) onde cada Xi representa uma variável aleatória e uma amostra concreta será representada por (x1 , x2 , · · · , xn ) onde xi já não são variáveis aleatórias mas sim valores concretos (constantes). Assim, sempre que, neste capítulo, for referida uma amostra aleatória (X1 , X2 , · · · , Xn ) está-se a referir a um conjunto de n variáveis aleatórias independentes com o mesmo valor esperado e com a mesma variância, isto é, E(Xi ) = μ e V ar(Xi ) = σ 2 para i = 1, · · · , n, ou seja, n variáveis aleatória i. i. d.. Este resultado é vital para se compreender as conclusões que neste capítulo serão analisadas. Exemplo 3.1.2 A variável aleatória X, que conta o tempo em que os iogurtes Boa Vida se encontram em bom estado de conservação, tem distribuição Normal com média igual a 270 horas e desvio padrão igual a 20 horas. Considerando que o prazo de validade utilizado pela empresa é de 200 horas, qual a probabilidade de, ao recolher uma amostra aleatória de dimensão 20, seja (X1 , X2 , · · · , X20 ), todos os iogurtes estarem bons no fim do prazo de validade? Em relação à população (tempo em que os iogurtes Boa Vida se encontram em bom estado de conservação) sabe-se que X ∼ N (270, 20), logo a amostra aleatória (X1 , X2 , · · · , X20 ) é constituída por n variáveis aleatórias independentes, onde Xi ∼ N (270, 20) para i = 1, · · · , 20. A probabilidade pedida é a de todos os iogurtes estarem bons no fim do prazo de validade (200 horas), ou seja, considerando que Xi é o tempo em que o iogurte i se encontra em bom 135 estado de conservação, pretende-se determinar P (X1 > 200 ∧ X2 > 200 ∧ · · · ∧ Xn > 200) = que tendo em conta que as variáveis são independentes, vem = P (X1 > 200) × P (X2 > 200) × · · · × P (Xn > 200) = que, como as variáveis são identicamente distribuidas, ou seja, todas têm a mesma distribuição que X, vem que = P (X > 200) × P (X > 200) × · · · × P (X > 200) = = [P (X > 200)]20 = [P (Z > −3.5)]20 = = [P (Z < 3.5)]20 = (0.9998)20 = 0.99601 A inferência estatística será, então, a parte da estatística que desenvolve técnicas que permitem, a partir da informação contida na amostra, tirar conclusões sobre as características da população que são desconhecidas. Às características da população que irão ser analisadas denominam-se por parâmetros e são considerados fixos. Exemplos 3.1.3 μ ⇒ média da população; σ 2 ⇒ variância da população; p ⇒ proporção de sucessos na população (populações de Bernoulli). Com o objectivo de analisar os parâmetros utilizam-se estatísticas, que são variáveis aleatórias obtidas através da informação contida na amostra, não dependendo de parâmetros desconhecidos, ou seja, são funções das observações da amostra, T (X1 , X2 , · · · , Xn ). Exemplos 3.1.4 1X X = Xi ⇒ média da amostra; n i=1 n ¢2 1 X 2 1 X¡ 2 = Xi − X ⇒ variância da amostra. Xi − X = n i=1 n i=1 n S 2 n 136 Nota: A fórmula da média amostral (da amostra), 1X Xi n i=1 n X= é muitas vezes apresentada em estatística descritiva (onde estamos a trabalhar com quadros de frequências) através de p p X 1X X= ni Xi onde ni = n. n i=1 i=1 No entanto, se considerarmos que todas as observações são diferentes (numa amostra aleatória ainda não se conhece o valor das observações, como tal, estas serão analisadas separadamente) tem-se que ni = 1 para i = 1, · · · , p (ni - frequências absolutas ordinárias - número de observações na modalidade i), e, consequentemente n = p. Assim, as duas fórmulas para a média amostral que foram apresentadas são exactamente iguais, a primeira só difere da segunda por supor que todas as observações são diferentes. O mesmo raciocínio pode ser aplicado à fórmula da variância apresentada, pois esta também difere da fórmula habitualmente utilizada em estatística descritiva pelas mesmas razões. Nota: Uma estatística é uma variável aleatória que é uma função das observações da amostra aleatória, como tal, pode ser representada por T (X1 , X2 , · · · , Xn ) que assume valores particulares T (x1 , x2 , · · · , xn ). Por exemplo X é uma estatística pelo facto de ser uma função das variáveis aleatórias X1 , X2 , · · · , Xn e, como tal, também é uma variável aleatória (para amostras diferentes assume valores diferentes). Numa amostra concreta x é um valor fixo. 137 3.2 Estimadores Pontuais Este sub-capítulo tem como objectivo estudar o problema da estimação pontual. Assim, vai-se supor que uma população tem uma determinada distribuição que depende de um parâmetro θ desconhecido (que pode representar qualquer parâmetro tal como μ, σ 2 , p ou outro). O objectivo da estimação pontual consiste em obter uma estatística [função da amostra T (X1 , X2 , · · · , Xn )] que “melhor” aproxima o valor do parâmetro desconhecido θ. Assim, a estatística que vai ser usada para aproximar o valor de um parâmetro denomina-se por estimador, sendo o seu valor numa amostra concreta denominado por estimativa. Definição 3.2.1 (Estimador) Um estimador de θ, representado por θ̂ (X1 , X2 , · · · , Xn ) ou simplesmente por θ̂, é uma estatística que usa o informação contida na amostra com o objectivo de estimar o valor de parâmetros desconhecidos da população. Definição 3.2.2 (Estimativa) Uma estimativa θ̂ (x1 , x2 , · · · , xn ), ou simplesmente θ̂, é o valor assumido por um estimador numa amostra concreta. Nota: Um estimador é uma estatística, como tal, é uma função de uma amostra aleatória sendo, por esta razão, também uma variável aleatória. Uma estimativa, pelo contrário, é uma constante, pois é igual ao valor assumido pela função (estimador) numa amostra concreta. Existem duas formas tradicionais de obter estimadores para os parâmetros da população, pelo método dos momentos e pelo método da máxima verosimilhança. No entanto, estes métodos não serão desenvolvidos nesta disciplina. Assim, apenas serão analisadas as propriedades dos estimadores. Estas propriedades têm como objectivo averiguar a qualidade de um estimador. 138 3.2.1 Método dos momentos Este método de determinação de estimadores foi desenvolvido por Karl Pearson e é denominado por método dos momentos pois, a obtenção de estimadores para os parâmetros, consiste em igualar os momentos amostrais aos momentos da população. Assim, os momentos da amostra e da população podem ser definidos da seguinte forma. Definição 3.2.3 (Momentos da amostra) Seja (X1 , X2 , · · · , Xn ) uma amostra aleatória de uma variável aleatória X. O valor médio das potência de ordem k de (X1 , X2 , · · · , Xn ), 1X k X Mk = n i=1 i n (55) designa-se por momento amostral de ordem k, para k = 1, 2, 3, · · · . Nota: O primeiro momento amostral é a média da amostra, 1X Xi = X, M1 = n i=1 n sendo o segundo momento definido por 1X 2 X n i=1 n M2 = que é utilizado na fórmula simplificada de Köning para o cálculo da variância amostral, 1X 2 2 X − X = M2 − M12 . n i=1 i n S2 = Definição 3.2.4 (Momentos da População) Seja X uma variável aleatória qualquer, então, o momento de ordem k de X é definido por μk = E(X k ) para k = 1, 2, 3, · · · . 139 (56) Nota: O primeiro momento da população representa o valor esperado μ1 = E(X) = μ. O segundo momento da população é utilizado para determinar a variância, pois este é definido por μ2 = E(X 2 ) que aparece na fórmula simplificada do cálculo da variância que é ¡ ¢ V ar (X) = E X 2 − E 2 (X) = μ2 − μ21 . Definição 3.2.5 (Método dos momentos) Suponhamos que a distribuição de X é caracterizada à custa de um parâmetro θ que se pode exprimir através da relação θ = h (μ1 , μ2 , μ3 , · · · ) , então o estimador construido pelo método dos momentos é dado por θ̂ = h (M1 , M2 , M3 , · · · ) , ou seja, θ é expresso através de sendo o estimador dado por ¡ ¡ ¢ ¡ ¢ ¢ θ = h E (X) , E X 2 , E X 3 , · · · , à 1X 2 1X 3 X , X ,··· θ̂ = h X, n i=1 i n i=1 i n n 140 ! . (57) (58) Exemplo 3.2.1 Considere que o número de telefonemas recebidos por hora pela ESTG tem distribuição de Poisson. Com base numa amostra aleatória com n = 100, x = 15 e s2 = 220 pretende-se encontrar uma estimativa para λ pelo método dos momentos. Tendo em conta que, na distribuição de Poisson, tem-se E(X) = λ que corresponde à função (57) (λ = μ1 = μ), então, utilizando o método dos momentos, o estimador é obtido substituindo os momentos da população (μ) pelos respectivos momentos amostrais (M1 ) de onde se obtém 1X Xi = X λ̂ = M1 = n i=1 n que corresponde à função (58). A estimativa é obtida calculando o valor que o estimador assume numa amostra particular, ou seja, neste exemplo será igual a 1 X 1X xi = xi = x = 15. λ̂ = n i=1 100 i=1 n 100 Exemplo 3.2.2 Considere que o tempo entre dois telefonemas tem distribuição exponencial. Calcule uma estimativa para o λ utilizando uma amostra aleatória onde n = 50, x = 2 e s2 = 4. 1 1 Considerando que na distribuição exponencial tem-se E(X) = , ou seja, λ = , então λ E(X) o estimador obtido pelo método dos momentos é λ̂ = 1 1 1 = = n M1 X 1X Xi n i=1 e a estimativa é λ̂ = 1 1 = = 0.5. x 2 Exemplo 3.2.3 Considere que o tempo que determinada pessoa demora de casa ao seu posto de trabalho tem distribuição Normal. Utilizando uma amostra onde n = 40, x = 50 e s2 = 100. Calcule estimativas para μ e para σ utilizando o método dos momentos. 141 Considerando que μ = E(X), tem-se como estimador para μ 1X Xi = X. n i=1 n μ̂ = M1 = Em relação à variância sabe-se que σ 2 = E(X 2 ) − E(X)2 , logo, para obter o estimador substitui-se os momentos da população pelos da amostra, resultando σb2 = M2 − M12 = 1X 2 = X − n i=1 i n à 1X Xi n i=1 n !2 = 1X 2 2 = Xi − X = S 2 , n i=1 n que em relação ao desvio padrão tem-se σ= p √ √ σ 2 ⇒ σ̂ = σb2 = S 2 = S, logo, as estimativas para os parâmetros são μ̂ = x = 50 e σ̂ = s = √ 100 = 10. Exemplo 3.2.4 Considere uma determinada população com distribuição Uniforme no intervalo [0, θ]. Determine uma estimativa pelo método dos momentos para o parâmetro θ utilizando uma amostra onde foram observados os seguintes valores (10, 22, 35, 7, 28, 42, 23, 14, 3, 34, 12, 23, 27, 34, 5, 22, 25, 17, 4, 13) . Considerando que se X ∼ U (a, b) tem-se E (X) = então, como X ∼ U(0, θ), tem-se a+b , 2 θ E (X) = , 2 142 ou seja, θ = 2E (X) sendo o estimador pelo método dos momentos 1X θ̂ = 2 Xi = 2X n i=1 n e a estimativa θ̂ = 2x = 2 × 20 = 40, pois a média da amostra apresentada é igual a vinte. Note-se que o valor obtido não é uma boa estimativa para θ pois, como X ∼ U(0, θ) e θ = 40, então o valor máximo que X poderá assumir é quarenta e na amostra obtida existe uma observação que ultrapassa este valor. Exemplo 3.2.5 Considere que determinada população é descrita por uma v. a. X com função de probabilidade ⎧ ⎨ px (1 − p)1−x x = 0, 1 f (x) = , onde 0 < p < 1. ⎩ 0 Caso contrário Utilizando uma amostra onde n = 200, x = 0.25 e s2 = 0.19, utilize o método dos momentos para determinar uma estimativa para p. Note-se que trata-se de uma variável aleatória com distribuição de Bernoulli (como tal, nestes caso, denominamos a população de Bernoulli), pois a variável só assume o valor 0 e o valor 1, com função de probabilidade X: 0 1 f (x) : 1 − p p sendo E (X) = 0 × (1 − p) + 1 × p = p, logo o estimador é 1X p̂ = Xi = X n i=1 n 143 e a estimativa é 1 X p̂ = xi = x = 0.25. 200 i=1 200 Exemplo 3.2.6 Considere uma população descrita por uma v. a. X com função de densidade de probabilidade igual a ⎧ x ⎨ 0 ≤ x ≤ 2θ 2θ2 f (x) = , onde θ > 0. ⎩ 0 Caso contrário Utilizando o método dos momentos, determine uma estimativa para θ com base na amostra (4, 15, 11, 12, 6, 20, 12, 14, 10, 16) . Vai-se começar por calcular o valor esperado da variável aleatória X. Z+∞ Z0 Z2θ 2 Z+∞ x E (X) = xf (x) dx = 0dx + dx + 0dx = 2θ2 −∞ −∞ 0 2θ ∙ 3 ¸2θ 3 3 (2θ) 8θ 4 x = = 2 2 = 2 = θ, 3 6θ 0 6θ 6θ que resolvendo-se em ordem ao parâmetro θ, vem 4 3 E (X) = θ ⇔ θ = E (X) , 3 4 logo o estimador é igual a e a estimativa é 3 3 1X 3 θ̂ = M1 = × Xi = X 4 4 n i=1 4 n 3 3 θ̂ = x = × 12 = 9. 4 4 3.2.2 Método da máxima verosimilhança Este método foi desenvolvido por Fisher e consiste em procurar os valores de θ com maior probabilidade de terem produzido as observações da amostra (x1 , x2 , · · · , xn ). 144 Definição 3.2.6 (Função de verosimilhança) Seja (X1 , X2 , · · · , Xn ) uma amostra aleatória de uma variável aleatória X, cuja distribuição depende de m parâmetros desconhecidos θ1 , θ2 , · · · , θm . Designa-se por função de verosimilhança a seguinte função: L (x1 , x2 , · · · , xn , θ1 , θ2 , · · · , θm ) = P (X1 = x1 ) × P (X2 = x2 ) × · · · × P (Xn = xn ) (59) no caso de X ser uma variável aleatória discreta e L (x1 , x2 , · · · , xn , θ1 , θ2 , · · · , θm ) = f (x1 ) × f (x2 ) × · · · × f (xn ) (60) no caso de X ser uma variável aleatória contínua. Em ambas as equações, (x1 , x2 , · · · , xn ) representa os valores observados para uma amostra aleatória. Definição 3.2.7 (Método da máxima verosimilhança) O estimador da máxima verosimilhança para os parâmetros θ1 , θ2 , · · · , θm são os valores θb1 , θb2 , · · · , θc m que maximizam a função de verosimilhança L (x1 , x2 , · · · , xn , θ 1 , θ 2 , · · · , θ m ). Nota: Apesar da função L (x1 , x2 , · · · , xn , θ1 , θ2 , · · · , θm ) ter como variáveis os parâmetros desconhecidos e as observações da amostra, é usual representar apenas por L (θ1 , θ2 , · · · , θm ) pois é em função destas variáveis (parâmetros desconhecidos) que se maximiza a função. Nota: Para maximizar a função de verosimilhança é muitas vezes utilizado o logaritmo da função de verosimilhança. Isto porque os valores de θ1 , θ2 , · · · , θm que maximizam a função de verosimilhança são os mesmos que maximizam o logaritmo da função (pois a função logaritmo é sempre crescente) e não é o valor da função que pretende-se saber mas somente os valores que a maximizam. Note-se ainda que a função de verosimilhança nunca é negativa (pois resulta do produto de funções de probabilidade ou de densidade), portanto, ao nível do domínio do logaritmo o único cuidado que se deve ter é quando a função de verosimilhança se anula. 145 Exemplo 3.2.7 Considere que o número de telefonemas recebidos por hora pela ESTG tem distribuição de Poisson. Considerando uma amostra onde n = 100, x = 15 e s2 = 220 , estime λ pelo método da máxima verosimilhança. Tendo em conta que, na distribuição de Poisson, tem-se e−λ λx P (X = x) = x! a função de verosimilhança é, segundo a fórmula (59) na página 145, definida por L (λ) = P (X1 = x1 ) × P (X2 = x2 ) × · · · × P (Xn = xn ) = −λ x1 e λ = x1 ! −λ x2 −λ xn e λ × x2 ! e λ × ··· × xn ! −nλ n S xi e λi=1 = x1 ! × x2 ! × · · · × xn ! Assim, o estimador de máxima verosimilhança é o valor de λ que maximiza a função L (λ). Recordando que o valor que maximiza L (λ) é o mesmo que maximiza ln [L (λ)] (ver nota presente na página 145), vem ⎛ ⎜ ln [L (λ)] = ln ⎝ à n S xi ⎞ e−nλ λi=1 ⎟ ⎠= x1 ! × x2 ! × · · · × xn ! −nλ = ln e n S λi=1 xi ! − ln (x1 ! × x2 ! × · · · × xn !) = ! à S n ¡ −nλ ¢ xi − ln (x1 ! × x2 ! × · · · × xn !) = + ln λi=1 = ln e = −nλ + n X i=1 xi ln (λ) − ln (x1 ! × x2 ! × · · · × xn !) = = −nλ + ln (λ) n X i=1 xi − ln (x1 ! × x2 ! × · · · × xn !) = Para maximizar vai-se calcular a primeira derivada da função ln [L (λ)] em ordem a λ e igualar 146 a zero, de onde se obtém ⇔ ∂ ln [L (λ)] =0⇔ ¸ ∙ ∂λ n P ∂ −nλ + ln (λ) xi − ln (x1 ! × x2 ! × · · · × xn !) i=1 ⇔ 1X xi = 0 ⇔ λ i=1 λ n ⇔ −n + n X i=1 ∂λ n 1X i=1 =0⇔ xi = n ⇔ n 1X xi = nλ ⇔ λ = xi = x. n i=1 Para confirmar se, de facto, x é um maximizante da função, calcula-se a segunda derivada ¸ ∙ n P 1 xi ∂ −n + λ ∂ 2 ln [L (λ)] i=1 = = ∂λ ∂λ2 n 1 X = − 2 xi < 0. λ i=1 Como a segunda derivada é negativa (note-se que sendo xi valores de uma amostra cuja população tem distribuição de Poisson, estes não podem assumir valores negativos) pode-se concluir que x é o valor que maximiza a função de verosimilhança, logo o estimador é λ̂ = X, sendo a estimativa λ̂ = x = 15. Nota: Tendo em conta as características da função de verosimilhança, sob determinadas condições de regularidade, que normalmente se verificam14 , bastará determinar a primeira derivada e igualar a zero. Exemplo 3.2.8 Considere que o tempo entre dois telefonemas tem distribuição exponencial. Calcule uma estimativa pelo método da máxima verosimilhança para o parâmetro λ utilizando uma amostra onde n = 50, x = 2 e s2 = 4. 14 As condições não serão aqui apresentadas pelo facto de a sua análise matemática não ser imediata, como tal, para mais detalhes, consultar Murteira, Bento, “Probabilidade e Estatística”, volume II. 147 Considerando que na distribuição exponencial tem-se como função de densidade ⎧ ⎨ λe−λx x > 0 , com λ > 0, f (x) = ⎩ 0 x≤0 então a função de verosimilhança, utilizando a fórmula (60) patente na página 145, é L (λ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = = λe−λx1 × λe−λx2 × · · · × λe−λxn = = λn e−λx1 −λx2 −...−λxn = n − = λ e n S λxi i=1 sendo o logaritmo da função de verosimilhança definida por # " n S − ln [L (λ)] = ln λn e λxi i=1 = n ln (λ) − n X i=1 " − = ln [λn ] + ln e λxi = n ln (λ) − λ n S λxi i=1 n X # = xi i=1 que derivando e igualando a zero, obtém-se ⇔ ∂ ln [L (λ)] =0⇔ ¸ ∙ ∂λ n P ∂ n ln (λ) − λ xi i=1 ∂λ n X 1 ⇔ n − xi = 0 ⇔ λ i=1 =0⇔ 1 X ⇔ n = xi ⇔ λ i=1 n 1 1 =λ⇔ P =λ⇔ ⇔ nP n 1 n xi xi n i=1 i=1 1 ⇔ λ= , x logo o estimador de máxima verosimilhança é λ̂ = 148 1 1 1 e a estimativa é λ̂ = = = 0.5. x 2 X Exemplo 3.2.9 Considere que o tempo que determinada pessoa demora de casa ao seu posto de trabalho tem distribuição Normal. Com base numa amostra onde n = 40, x = 50 e s2 = 100, calcule estimativas para μ e para σ utilizando o método da máxima verosimilhança. Considerando que a função de densidade da distribuição Normal é 1 f (x) = √ σ 2π (x − μ)2 − 2σ 2 ,μ ∈ R, σ > 0, e a função de verosimilhança, utilizando a fórmula (60) presente na página 145, é L (μ, σ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = (x1 − μ)2 (xn − μ)2 − − 1 1 2σ 2 2σ 2 √ e × ··· × √ e = = σ 2π σ 2π 2 n (xi − μ) ¶n S µ − 1 √ e i=1 2σ 2 = = σ 2π 2 n (xi − μ) ³ √ ´−n − S e i=1 2σ 2 = σ 2π e o logaritmo da função de densidade é ⎤ ⎡ 2 n (xi − μ) S ´−n − ³ ⎥ ⎢ √ e i=1 2σ 2 ⎦ = ln [L (μ, σ)] = ln ⎣ σ 2π ⎡ ⎤ 2 n (xi − μ) ∙³ ¸ S √ ´−n ⎢ − ⎥ = ln σ 2π + ln ⎣e i=1 2σ 2 ⎦ = n ³ √ ´ X (xi − μ)2 = −n ln σ 2π − = 2 2σ i=1 ⎞⎤ ⎡ ⎛ 1 n 1 X = −n ⎣ln (σ) + ln ⎝(2π) 2 ⎠⎦ − 2 (xi − μ)2 = 2σ i=1 n 1 X n (xi − μ)2 = −n ln (σ) − ln (2π) − 2 2 2σ i=1 149 que calculando as derivadas em ordem aos parâmetros a estimar e igualando-as a zero, tem-se ⎧ ⎨ ∂ ln[L(μ,σ)] = 0 ∂μ ⇔ ∂ ln[L(μ,σ)] ⎩ = 0 ∂σ ⎧ n P ⎪ (xi − μ) = 0 ⎨ σ12 i=1 ⇔ ⇔ n P n ⎪ ⎩ − + 2σ2 3 (xi − μ)2 = 0 σ i=1 ⎧ ∙n ¸ n P P ⎪ 1 ⎪ ⎨ σ2 xi − μ =0 i=1 i=1 ⇔ ⇔ n P n ⎪ 2 1 ⎪ (x − μ) = ⎩ σ3 i σ ⎧ n i=1 P ⎪ ⎪ xi − nμ = 0 ⎨ i=1 ⇔ n P nσ 3 ⇔ ⎪ 2 ⎪ (xi − μ) = ⎩ σ i=1 ⎧ P n ⎪ xi = nμ ⎨ i=1 ⇔ ⇔ n 1P 2 ⎪ 2 ⎩ (xi − μ) = σ n i=1 ⎧ n 1P ⎪ xi = X ⎨ μ= n i=1 ⇔ n 1P ⎪ ⎩ σ2 = (xi − μ)2 = S 2 n i=1 Assim, os estimadores da máxima verosimilhança são ⎧ ⎨ μ̂ = X ⎩ σ̂ = S sendo as estimativas para os parâmetros iguais a ⎧ ⎨ μ̂ = x = 50 ⎩ σ̂ = s = √100 = 10. Exemplo 3.2.10 Considere uma determinada população com distribuição Uniforme no intervalo [0, θ]. Determine uma estimativa, pelo método da máxima verosimilhança, para o parâmetro θ utilizando uma amostra onde foram observados os seguintes valores (10, 22, 35, 7, 28, 42, 23, 14, 3, 34, 12, 23, 27, 34, 5, 22, 25, 17, 4, 13) . 150 Considerando que X ∼ U (a, b) tem-se ⎧ ⎨ 1 a≤x≤b b−a , f (x) = ⎩ 0 x<a∨x>b então se X ∼ U (0, θ) tem-se f (x) = sendo a função de verosimilhança, ⎧ ⎨ 1 θ 0≤x≤θ ⎩ 0 x<0∨x>θ , L (θ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = ⎧ ⎨ 1 × 1 × · · · × 1 se ∀i, x ∈ [0, θ] i θ θ θ = = ⎩ 0 se ∃i, xi ∈ / [0, θ] ⎧ ¡ ¢ ⎨ 1 n se ∀i, x ∈ [0, θ] i θ = ⎩ 0 se ∃i, x ∈ / [0, θ] i Como ¡ 1 ¢n θ é sempre positivo (pois θ é positivo) o máximo desta função será no ramo em que ∀i, xi ∈ [0, θ], como tal, analisa-se apenas este ramo, sendo o logaritmo da função de verosimilhança deste ramo ∙µ ¶n ¸ ¡ ¢ 1 ln [L (θ)] = ln = ln θ−n = −n ln (θ) , θ que derivando e igualando a zero vem ∂ [−n ln (θ)] ∂ ln [L (θ)] =0 ⇔ =0⇔ ∂θ ∂θ n ⇔ − = 0, θ £ ¤ que é impossível. No entanto como a derivada − nθ é sempre negativa (pois n e θ são positivos) a função de verosimilhança é decrescente o que significa que a função assume um valor maior quanto menor for o valor de θ. Como tal vai-se escolher para valor de θ o seu valor mínimo admissível. Como todas as observações têm que estar contidas no intervalo [0, θ] (pois, como foi visto, caso contrário a sua função de verosimilhança seria zero) o valor admissível mínimo de θ é o valor máximo de xi (pois é o menor valor de θ que garante que ∀i, xi ∈ [0, θ]). Assim, 151 o estimador de máxima verosimilhança para θ é θ̂ = max Xi , sendo a estimativa a observação da amostra com maior valor, ou seja θ̂ = max xi , que na amostra obtida corresponde a 42. Note-se que o estimador da máxima verosimilhança para a distribuição Uniforme é distinto do obtido pelo método dos momentos (ver exemplo 3.2.4 na página 142). Exemplo 3.2.11 Considere uma população descrita por uma variável aleatória X com função de probabilidade ⎧ ⎨ px (1 − p)1−x x = 0, 1 , onde 0 < p < 1. f (x) = ⎩ 0 Caso contrário Com base numa amostra onde n = 200, x = 0.25 e s2 = 0.19, utilize o método da máxima verosimilhança para determinar uma estimativa para p. Como a função de probabilidade é P (X = x) = px (1 − p)1−x , tem-se como função de verosimilhança L (p) = P (X = x1 ) × P (X = x2 ) × · · · × P (X = xn ) = = px1 (1 − p)1−x1 × px2 (1 − p)1−x2 × · · · × pxn (1 − p)1−xn = n S n S xi (1−xi ) = pi=1 (1 − p)i=1 n S xi n− = pi=1 (1 − p) n S n S = pi=1 (1 − p)i=1 1− n S xi i=1 = xi i=1 sendo o logaritmo da função de verosimilhança, " S n xi n− ln [L (p)] = ln pi=1 (1 − p) " n S = ln pi=1 = n S xi n X i=1 xi # n S i=1 " xi # n− + ln (1 − p) à xi ln (p) + n − 152 = n X i=1 n S i=1 ! xi # = xi ln (1 − p) que derivando e igualando a zero, vem ⇔ ∂ [ln L (p)] =0⇔ ∂p ¶ ¸ µ ∙n n P P xi ln (p) + n − xi ln (1 − p) ∂ ⇔ n P ⇔ i=1 i=1 ∂p xi i=1 n P xi i=1 =0⇔ ¶ µ n n P P xi (1 − p) xi − p n − p − n− =0⇔ 1−p i=1 i=1 =0⇔ p (1 − p) ! à n n n X X X ⇔ xi − p xi − p n − xi = 0 ⇔ i=1 à ⇔ p n− ⇔ pn = i=1 n X xi + i=1 n X i=1 n X i=1 xi ⇔ p = xi ! = i=1 n X i=1 xi ⇔ 1X xi = x n i=1 n O estimador da máxima verosimilhança para p é p̂ = X, sendo a estimativa igual a p̂ = x = 0.25. Exemplo 3.2.12 Considere uma população com distribuição Uniforme no intervalo [α, β]. Determine uma estimativa pelo método da máxima verosimilhança para os parâmetros α e β utilizando uma amostra aleatória de dimensão 12 onde se obteve os seguinte resultados (12, 45, 23, 53, 35, 43, 23, 55, 23, 43, 10, 35) . Considerando que X ∼ U (α, β), então ⎧ ⎪ ⎨ 1 α≤x≤β β−α f (x) = ⎪ ⎩ 0 x<α∨x>β 153 sendo a função de verosimilhança igual a L (α, β) = f (x1 ) × f (x2 ) × · · · × f (xn ) = ⎧ ⎪ ⎨ 1 × 1 × ··· × 1 se ∀i, xi ∈ [α, β] β−α β−α β−α = = ⎪ ⎩ / [α, β] 0 se ∃i, xi ∈ ⎧ µ ¶n 1 ⎪ ⎨ se ∀i, xi ∈ [α, β] β−α = = ⎪ ⎩ 0 se ∃i, xi ∈ / [α, β] ⎧ ⎨ (β − α)−n se ∀i, x ∈ [α, β] i = ⎩ 0 se ∃i, x ∈ / [α, β] i Como (β − α)−n é sempre positivo (pois β > α), o máximo desta função será no ramo em que ∀i, xi ∈ [α, β]. Assim, analisa-se unicamente este ramo, sendo o logaritmo da função de verosimilhança deste ramo igual a £ ¤ ln [L (α, β)] = ln (β − α)−n = −n ln (β − α) que derivando e igualando a zero vem ⎧ ⎧ ⎨ ⎨ ∂ ln[L(α,β)] = 0 ∂α ⇔ ⎩ ⎩ ∂ ln[L(α,β)] = 0 ∂β n β−α =0 −n β−α =0 onde ambas as equações são impossíveis. No entanto, como a derivada em ordem a α, que é n , β−α é sempre positiva (pois n e (β − α) são positivos) a função de verosimilhança é crescente. Isto significa que a função assume um valor maior quanto maior for o valor de α. Como tal, escolhe-se como valor para α o seu valor máximo admissível. Em relação à derivada em ordem a n β, que é − β−α , é sempre negativa, logo a função de verosimilhança é decrescente o que significa que a função assume um valor maior quanto menor for o valor de β. Assim, vai-se escolher como valor para β o seu valor mínimo admissível. Como todas as observações têm que estar contidas no intervalo [α, β] (pois, como foi visto, caso contrário a sua função de verosimilhança seria zero) o valor admissível máximo para α é o menor valor observado na amostra, ou seja, o valor mínimo de xi (pois é o maior valor que verifica ∀i, xi ∈ [α, β]) e, pelas mesmas razões, o valor admissível mínimo para β é o valor máximo xi . Resumindo, os estimadores de máxima 154 verosimilhança para α e β são α̂ = min Xi e β̂ = max Xi , sendo as estimativas α̂ = min xi = 10 e β̂ = max xi = 55. Exemplo 3.2.13 Considere que determinada população é descrita por uma v. a. X com função de densidade de probabilidade ⎧ x ⎨ 0 ≤ x ≤ 2θ 2θ2 , onde θ > 0. f (x) = ⎩ 0 Caso contrário Utilizando o método da máxima verosimilhança, determine uma estimativa para θ, com base na amostra (4, 15, 11, 12, 6, 20, 12, 14, 10, 16) . No caso de todas as observações pertencerem ao intervalo [0, 2θ], a função de verosimilhança é L (θ) = f (x1 ) × f (x2 ) × · · · × f (xn ) = x2 xn x1 = = 2 × 2 × ··· × 2θ ¶2θ 2θ2 µ n 1 = × x1 × x2 × · · · × xn = 2θ2 ¡ ¢−n × x1 × x2 × · · · × xn = = 2θ2 = 2−n θ−2n × x1 × x2 × · · · × xn então, a função de verosimilhança é igual a ⎧ ⎨ 2−n θ−2n × x1 × x2 × · · · × xn se ∀i, xi ∈ [0, 2θ] , L (θ) = ⎩ 0 se ∃i, xi ∈ / [0, 2θ] que, de forma semelhante à realizada nos exemplos da distribuição Uniforme, como no primeiro ramo a função é sempre positiva, o máximo desta função será obrigatoriamente neste ramo. Assim, vai-se considerar que ∀i, xi ∈ [0, 2θ], sendo o logaritmo da função de verosimilhança igual a ¡ ¢ ln [L (θ)] = ln 2−n θ−2n × x1 × x2 × · · · × xn = ¡ ¢ ¡ ¢ = ln 2−n + ln θ−2n + ln (x1 × x2 × · · · × xn ) = = −n ln 2 − 2n ln θ + ln (x1 × x2 × · · · × xn ) 155 que derivando e igualando a zero, vem ∂ ln [L (θ)] =0⇔ ∂θ ∂ [−n ln 2 − 2n ln θ + ln (x1 × x2 × · · · × xn )] =0⇔ ⇔ ∂θ 2n ⇔ − =0 θ ¡ ¢ o que é impossível. Porém, como a derivada é sempre negativa − 2n < 0 pode-se concluir que θ esta função é decrescente, ou seja, quanto maior o valor de θ menor será o valor da função de verosimilhança. Assim, como o objectivo é maximizar a função de verosimilhança, deve ser escolhido o menor valor de θ que satisfaz a restrição ∀i, xi ∈ [0, 2θ], concluindo-se que o menor valor que satisfaz esta restrição é fazer 2θ ser igual ao valor máximo observado, ou seja, 2θ̂ = max Xi que, resolvendo em ordem a θ̂ obtém-se θ̂ = θ̂ = 12 max xi = 1 2 × 20 = 10. 156 1 2 max Xi . A estimativa será 3.2.3 Propriedades dos estimadores pontuais Para estimar um parâmetro desconhecido da população (θ) podem existir vários estimadores, como tal, é necessário saber por qual deles optar. Assim, para distinguir a “qualidade” de um estimador, estudam-se três características que servem para analisar ou comparar estimadores. A primeira análise sobre a qualidade de um estimador é verificar se ele é centrado. Definição 3.2.8 (Estimador Centrado) Um estimador diz-se centrado se o seu valor esperado for igual ao valor do parâmetro a estimar. (61) E(θ̂) = θ Um estimador centrado fornece, em média, estimativas correctas, isto é, coincidentes com o verdadeiro valor do parâmetro. Exemplo 3.2.14 Será que a média da amostra é um estimador centrado para a média da população? ¡ ¢ O que é pretendido é verificar se E X = μ. ! ! à n à n X ¡ ¢ 1 1X Xi = E Xi = E X = E n i=1 n i=1 1X 1X 1 E (Xi ) = μ = nμ = μ. n i=1 n i=1 n n = n ¡ ¢ Assim, conclui-se que média da amostra X é um estimador centrado para a média da popu- lação (μ). Exemplo 3.2.15 Será que a variância da amostra é um estimador centrado para a variância da população? O que é pretendido é verificar se E (S 2 ) = σ 2 ? ! à n ! à n ³ 2´ 1X 2 1X 2 2 2 =E X −X X −E X = E(S ) = E n i=1 i n i=1 i n ³ 2´ 1 X ¡ 2¢ E Xi − E X . = n i=1 157 (62) Para simplificar esta fórmula utilizam-se os seguintes resultados: V ar(Xi ) = E(Xi2 ) − E 2 (Xi ) ⇔ ⇔ σ 2 = E(Xi2 ) − μ2 ⇔ ⇔ E(Xi2 ) = σ 2 + μ2 e, considerando que V ar(X) = σ2 n (63) (ver cálculo da variância da média da amostra a seguir apresentada), conclui-se que 2 V ar(X) = E(X ) − E 2 (X) ⇔ σ2 2 = E(X ) − μ2 ⇔ ⇔ n σ2 2 + μ2 . ⇔ E(X ) = n Cálculo da variância da média da amostra: V ar(X) = V ar à 1X Xi n i=1 n ! ! à n X 1 = 2 V ar Xi , n i=1 que, como as variáveis Xi são independentes, tem-se ! à n n X 1 1 X V ar Xi = 2 V ar (Xi ) , n2 n i=1 i=1 que subtituíndo V ar (Xi ) por σ 2 (pois como as variáveis Xi são as observações de uma amostra aleatória, todas elas têm a mesma variância) vem n n 1 X 1 X 2 1 σ2 2 V ar (X ) = σ = n σ = i n2 i=1 n2 i=1 n2 n logo conclui-se que V ar(X) = σ2 . n Assim, utilizando os resultados obtidos em (63) e (64), ou seja 2 E(Xi2 ) = σ 2 + μ2 e E(X ) = 158 σ2 + μ2 , n (64) na fórmula (62), obtém-se ³ 2´ 1 X ¡ 2¢ E Xi − E X = n i=1 ¶ µ 2 n ¢ 1 X¡ 2 σ 2 2 +μ = = σ +μ − n i=1 n n ¢ σ2 1 ¡ 2 n σ + μ2 − − μ2 = n n σ2 n−1 2 − μ2 = σ = σ 2 + μ2 − n n = Assim, conclui-se que a variância da amostra não é um estimador centrado para σ 2 , ou seja, para variância da população. Para tornear este problema, tendo como objectivo utilizar um estimador centrado para a variância da população, foi criada a variância amostral corrigida, que é definida por pois ¢2 1 X¡ n S2 = Xi − X = n − 1 i=1 n−1 n SC2 (65) ¶ ¡ ¢ n n 2 S = E S2 = n−1 n−1 n−1 2 n × σ = σ2 . = n−1 n ¡ ¢ E SC2 = E µ Exemplo 3.2.16 Considere uma população onde foi recolhida uma amostra aleatória de dimensão 11, onde se obteve x = 300 e s2 = 100. Indique estimativas centradas para a média e para a variância desta população. ¡ ¢ Um estimador centrado para a média da população (μ) é a média da amostra X (ver exemplo 3.2.14) e um estimador centrado para a variância da população (σ 2 ) é a variância corrigida da amostra (SC2 ) (ver exemplo 3.2.15). Assim, a estimativa centrada para a média da população é μ̂ = x = 300 e a estimativa centrada para a variância da população é σb2 = s2C = n 2 11 s = 100 = 110. n−1 11 − 1 159 Exemplo 3.2.17 Será que X 2 μ̂ = kXk n (n + 1) k=1 n é um estimador centrado para μ? Para que μ̂ seja um estimador centrado para μ o seu valor esperado tem que ser igual a μ, ou seja, E (μ̂) = μ. E (μ̂) = E = à X 2 kXk n (n + 1) k=1 2 n (n + 1) n n X ! E (kXk ) = k=1 2 = E n (n + 1) 2 n (n + 1) n X à n X kXk k=1 ! = kE (Xk ) k=1 que, como X1 , X2 , · · · , Xn são observações de uma amostra aleatória e consequentemente são independentes e identicamente distribuidas (como tal têm todas o mesmo valor esperado), vem X X X 2 2 2μ kE (Xk ) = kμ = k n (n + 1) k=1 n (n + 1) k=1 n (n + 1) k=1 n que como n X n n k é um somatório cujo termo geral é uma progressão aritmética, este é igual a k=1 metade da soma do primeiro termo com o último vezes o número de termos, tem-se X 1+n 2μ 2μ × ×n=μ k= n (n + 1) k=1 n (n + 1) 2 n logo, pode-se concluir que μ̂ é um estimador centrado para μ. Por vezes, para um parâmetro, existem vários estimadores centrados, então, como decidir qual dos estimadores deve ser utilizado? Neste casos deve-se optar, de entre os estimadores centrados, pelo estimador que for mais eficiente. Definição 3.2.9 (Eficiência relativa) Sejam θb1 e θb2 dois estimadores centrados para θ, então diz-se que o estimador θb1 é mais eficiente que o estimador θb2 se tiver menor variância, ou seja, ³ ´ ³ ´ b V ar θ1 < V ar θb2 . 160 (66) Exemplo 3.2.18 Considere os seguintes estimadores para μ com base numa amostra aleatória de dimensão n, com n ≥ 30, 1X = X= Xi ; n i=1 n μb1 X1 + Xn ; 2 X1 + 2X2 + 3X3 + 4X4 ; = 10 n 1 X = Xi . n − 1 i=1 μb2 = μb3 μb4 1. Verificar se os estimadores são centrados. Em relação ao primeiro estimador tem-se E (μb1 ) = E(X) = μ como já foi demonstrado no exemplo 3.2.14 na página 157. Assim, o estimador μb1 é centrado para μ. Em relação ao segundo estimador tem-se ¶ µ 1 X1 + Xn = E (X1 + Xn ) = E (μb2 ) = E 2 2 1 1 1 [E (X1 ) + E (Xn )] = (μ + μ) = 2μ = μ = 2 2 2 logo, o estimador μb2 também é centrado para μ. Em relação ao estimador μb3 tem-se ¶ µ X1 + 2X2 + 3X3 + 4X4 = E (μb3 ) = E 10 1 E (X1 + 2X2 + 3X3 + 4X4 ) = = 10 1 [E (X1 ) + E (2X2 ) + E (3X3 ) + E (4X4 )] = = 10 1 = [E (X1 ) + 2E (X2 ) + 3E (X3 ) + 4E (X4 )] = 10 1 1 = [μ + 2μ + 3μ + 4μ] = 10μ = μ 10 10 assim, também o estimador μb3 é centrado para μ. Finalmente, em relação a μb4 , o seu 161 valor esperado é E (μb4 ) = E = = à 1 X Xi n − 1 i=1 n ! 1 = E n−1 à n X i=1 Xi ! = 1 X 1 X E (Xi ) = μ= n − 1 i=1 n − 1 i=1 n n n 1 nμ = μ 6= μ, n−1 n−1 de onde se conclui que o estimador μb4 não é centrado para μ. 2. Calcule a variância de cada um dos estimadores. Em relação ao estimador μb1 tem-se V ar(μb1 ) = V ar(X) = V ar à 1X Xi n i=1 n ! ! à n X 1 = 2 V ar Xi n i=1 que, tendo em conta que (X1 , X2 , · · · , Xn ) é uma amostra aleatória e, como tal, constituída por variáveis aleatórias independentes e identicamente distribuidas, conclui-se que, pela independência, a variância da soma é igual à soma das variâncias e, pelo facto de as variáveis serem identicamente distribuidas, a variância é igual em todas as variáveis, ou seja, V ar(Xi ) = σ 2 . Assim, ! à n n X 1 1 X = V ar X V ar (Xi ) = i 2 n2 n i=1 i=1 n 1 X 2 1 σ2 = 2 σ = 2 n σ2 = , n i=1 n n logo a variância de μb1 é Em relação ao estimador μb2 tem-se V ar (μb1 ) = µ σ2 . n X1 + Xn 2 ¶ = V ar(μb2 ) = V ar µ ¶2 1 = V ar (X1 + Xn ) 2 162 que, como X1 e Xn são i. i. d., então µ ¶2 1 V ar (X1 + Xn ) = 2 1 = [V ar (X1 ) + V ar (Xn )] = 4 ¤ σ2 1£ 2 σ + σ2 = = 0.5σ2 . = 4 2 Assim, a variância deste estimador é Em relação ao estimador μb3 tem-se V ar(μb2 ) = 0.5σ2 . µ X1 + 2X2 + 3X3 + 4X4 10 ¶ V ar (μb3 ) = V ar = µ ¶2 1 = V ar (X1 + 2X2 + 3X3 + 4X4 ) 10 que, tendo em conta que X1 , X2 , X3 , X4 são i. i. d., tem-se µ ¶2 1 V ar (X1 + 2X2 + 3X3 + 4X4 ) = 10 1 [V ar (X1 ) + V ar (2X2 ) + V ar (3X3 ) + V ar (4X4 )] = = 100 ¤ 1 £ = V ar (X1 ) + 22 V ar (X2 ) + 32 V ar (X3 ) + 42 V ar (X4 ) = 100 ¤ 1 £ 2 30 2 σ + 4σ 2 + 9σ 2 + 16σ 2 = σ = 0.3σ2 , = 100 100 concluindo-se que a variância do terceiro estimador é V ar(μb3 ) = 0.3σ2 . Finalmente, em relação ao estimador μb4 tem-se ! ! à à n n X 1 1 X Xi = V ar Xi V ar (μb4 ) = V ar n − 1 i=1 (n − 1)2 i=1 163 que, tendo em conta que X1 , X2 , · · · , Xn é uma amostra aleatória, tem-se ! à n X 1 V ar Xi = (n − 1)2 i=1 n n X X 1 1 = V ar (X ) = σ2 = i 2 2 (n − 1) i=1 (n − 1) i=1 n 1 2 σ2. = 2nσ = (n − 1) (n − 1)2 A variância do estimador μb4 é igual a V ar(μb4 ) = n σ2. (n − 1)2 3. Qual dos estimadores apresentados é mais eficiente? Em primeiro lugar, só faz sentido comparar a eficiência de um conjunto de estimadores centrados, como tal, o estimador μb4 (por não ser centrado) não irá ser analisado. Assim, dos restantes três estimadores pretende-se determinar aquele que possui menor variância. Considerando que a variância de cada um dos estimadores é: σ2 ; n V ar (μb2 ) = 0.5σ 2 ; V ar (μb1 ) = V ar (μb3 ) = 0.3σ 2 . Tendo em conta que n ≥ 30 tem-se V ar (μb1 ) < V ar (μb3 ) < V ar (μb2 ), concluindo-se que o estimador μb1 é o mais eficiente dos três estimadores analisados, sendo μb3 mais eficiente do que μb2 . Uma outra análise à qualidade de um estimador é averiguar se este melhora com o aumento da dimensão da amostra. Este tipo de análise é importante no caso de utilização de amostras com grandes dimensões. Uma das formas usuais de analisar se um estimador vai melhorando as suas qualidades quando a dimensão da amostra vai aumentando é averiguar se o estimador é consistente. 164 Definição 3.2.10 (Estimador consistente) O estimador θ̂ de θ diz-se consistente se ¯ ´ ³¯ ¯ ¯ ∀ε > 0 : lim P ¯θ̂ − θ¯ < ε = 1 n→+∞ (67) Para demonstrar que um estimador é consistente através da definição é, normalmente, bastante complicado, assim, na prática, é utilizado o seguinte teorema que fornece condições suficientes para garantir que um estimador seja consistente. Teorema 3.2.1 (Condições suficiente para que um estimador seja consistente) ⎧ ³ ´ ⎪ ⎨ lim E θ̂ = θ n→+∞ ³ ´ ⎪ ⎩ lim V ar θ̂ = 0 (68) n→+∞ Nota: O teorema anterior apresenta apenas as condições suficientes para que um estimador seja consistente. Isto significa que, se estas condições se verificarem, conclui-se que o estimador é consistente, mas, caso contrário, nada se pode concluir sobre a consistência do estimador. Exemplo 3.2.19 Considere os estimadores para μ apresentados no exemplo 3.2.18 na página 161 e analise-os em relação à consistência. O que se pretende ver é quais, dos quatro estimadores apresentados, é que satisfazem ⎧ ⎪ ⎨ lim E (μbi ) = μ n→+∞ , para i = 1, 2, 3, 4. ⎪ ⎩ lim V ar (μbi ) = 0 n→+∞ Em relação a μb1 tem-se ⎧ ⎪ ⎨ lim E (μb1 ) = lim μ = μ n→+∞ n→+∞ σ2 ⎪ ⎩ lim V ar (μb1 ) = lim =0 n→+∞ n→+∞ n 165 logo o estimador μb1 é consistente para μ. Em relação a μb2 tem-se ⎧ ⎪ ⎨ lim E (μb2 ) = lim μ = μ n→+∞ n→+∞ ⎪ ⎩ lim V ar (μb2 ) = lim 0.5σ2 = 0.5σ 2 6= 0 n→+∞ n→+∞ assim, como uma das condições não se verificou, nada se pode concluir sobre a consistência de μb2 . Em relação a μb3 tem-se ⎧ ⎪ ⎨ lim E (μb3 ) = lim μ = μ n→+∞ n→+∞ ⎪ ⎩ lim V ar (μb3 ) = lim 0.3σ2 = 0.3σ 2 6= 0 n→+∞ n→+∞ logo, também em relação ao estimador μb3 nada se pode concluir. Finalmente, em relação a μb4 tem-se ⎧ ⎪ ⎨ i) lim E (μb4 ) = lim n μ=μ n→+∞ n→+∞ n − 1 n ⎪ ii) lim V ar (μb4 ) = lim σ2 = 0 ⎩ n→+∞ n→+∞ (n − 1)2 logo o estimador μb4 é consistente para μ. Note-se que este estimador não é centrado, mas é consistente. 166 3.3 Distribuições amostrais Ao longo do estudo da estimação pontual utilizaram-se estimadores para calcular estimativas de parâmetros desconhecidos da população. Até agora apenas foi referido que um estimador é uma variável aleatória, mas, se é uma variável aleatória, qual será a sua distribuição? Neste capítulo responder-se-á a esta pergunta, sob determinadas condições, em relação aos estimadores mais utilizados para a média da população, para a proporção de uma população e para a variância da população. 3.3.1 Distribuição da média amostral - σ conhecido e população com distribuição Normal Teorema 3.3.1 Considere uma população que segue distribuição Normal com E (Xi ) = μ e V ar (Xi ) = σ 2 . Seja X1 , X2 , · · · , Xn uma amostra aleatória desta população, então ¶ µ σ . X ∼ N μ, √ n Demonstração: Considere-se uma população que segue uma distribuição normal com σ conhecido [X ∼ N (μ, σ)]. Assim, tendo em conta que uma amostra aleatória (X1 , X2 , · · · , Xn ) é constituída por n variáveis aleatórias i. i. d. (independentes e identicamente distribuidas) a X, pode-se concluir que Xi ∼ N(μ, σ) para i = 1, · · · , n. Finalmente, recordando que 1X X= Xi , n i=1 n ou seja, que X é obtido por uma combinação linear de variáveis aleatórias independentes com distribuição Normal, pode-se utilizar o teorema da estabilidade da distribuição Normal (rever teorema 2.5.6 na página 91) para concluir que X tem 167 (69) distribuição Normal. Como E(X) = μ e V ar(X) = σ2 tem-se n ¶ µ σ . X ∼ N μ, √ n Exemplo 3.3.1 O tempo de produção de cada peça de cerâmica da empresas BoaLoiça é uma variável aleatória com distribuição Normal com média 1000 segundos e desvio padrão 80 segundos. 1. Qual a probabilidade de, ao ser recolhida uma amostra aleatória, a média amostral situar-se entre 980 e 1020 segundos? (a) Considere uma amostra aleatória de dimensão 25. Como X ∼ N (1000, 80), ou seja μ = 1000 e σ = 80 e a amostra é constituída por vinte e cinco observações (n = 25) tem-se ¶ µ σ , X ∼ N μ, √ n ou seja, ¶ µ 80 , X ∼ N 1000, √ 25 X ∼ N (1000, 16) logo ¶ 1020 − 1000 980 − 1000 ≤Z≤ = 16 16 = P (−1.25 ≤ Z ≤ 1.25) = P (Z ≤ 1.25) − P (Z ≤ −1.25) = ¡ ¢ P 980 ≤ X ≤ 1020 = P µ = P (Z ≤ 1.25) − [1 − P (Z ≤ 1.25)] = 2P (Z ≤ 1.25) − 1 = = 2 × 0.8944 − 1 = 0.7888. 168 (b) Considere uma amostra aleatória de dimensão 100. Como X ∼ N (1000, 80), onde μ = 1000 e σ = 80, e a amostra é constituída por cem observações (n = 100) tem-se ¶ µ σ , X ∼ N μ, √ n ou seja, ¶ µ 80 X ∼ N 100, √ 100 X ∼ N (100, 8) logo µ ¶ 980 − 1000 1020 − 1000 ≤Z≤ = 8 8 = P (−2.5 ≤ Z ≤ 2.5) = P (Z ≤ 2.5) − P (Z ≤ −2.5) = ¡ ¢ P 980 ≤ X ≤ 1020 = P = P (Z ≤ 2.5) − [1 − P (Z ≤ 2.5)] = 2P (Z ≤ 2.5) − 1 = = 2 × 0.9938 − 1 = 0.9876. 2. Qual a dimensão da amostra a recolher de forma a que a média amostral seja inferior a 1020 com probabilidade superior a 0.975. Considerando que a população tem distribuição Normal e σ é conhecido, pela fórmula (69) na página 167 conclui-se que ¶ µ σ , X ∼ N μ, √ n ou seja, ¶ µ 80 X ∼ N 1000, √ n 169 pretendendo—se determinar o valor de n tal que ¢ ¡ P X < 1020 > 0.975 ⇔ ⎛ ⎞ ⎜ 1020 − 1000 ⎟ ⎟ > 0.975 ⇔ Z < ⇔ P⎜ ⎝ ⎠ 80 √ n µ ¶ √ 20 ⇔ P Z< n > 0.975 ⇔ 80 ¡ √ ¢ ⇔ P Z < 0.25 n > 0.975 ⇔ √ ⇔ 0.25 n > 1.96 ⇔ n > 61.4656 que, como n ∈ N, considera-se n ≥ 62. Nota: Na fórmula da distribuição da média amostral, ¶ µ σ , X ∼ N μ, √ n σ verifica-se que o desvio padrão de X é igual a √ , isto é n σ σX = √ , n logo este depende da dimensão da amostra (n). Assim, conclui-se que quanto maior for a dimensão da amostra (valor de n) menor será a dispersão de X em torno de μ. 3.3.2 Distribuição da média amostral - σ conhecido e população com distribuição não Normal (ou desconhecida) Quando a distribuição da população não é a distribuição Normal (ou não é conhecida) tem-se que recorrer ao teorema do limite central (teorema 2.5.9 apresentado na página 96) que é um dos teoremas com maior importância na Estatística. Deste teorema retira-se que X= n X i=1 ¡ √ ¢ • Xi ∼ N nμ, nσ que, como corolário, pode-se deduzir a distribuição da média amostral. 170 Corolário 3.3.1 Sejam X1 , X2 , · · · , Xn , n variáveis aleatórias independentes e identicamente distribuidas (i.i.d.) com E(X) = μ e V ar(X) = σ 2 , então, fazendo n tender para infinito, a variável aleatória n 1P X= Xi tem distribuição aproximadamente Normal, ou seja, n i=1 ¶ µ σ • (70) X ∼ N μ, √ n Regra: Na prática utiliza-se o teorema do limite central e, como tal, também este corolário, quando n ≥ 30. Demonstração: Considerando que 1X Xi e n i=1 n X= n X i=1 ¡ √ ¢ • Xi ∼ N nμ, nσ pelo teorema do limite central (as condições do teorema e do corolário são as mesmas), então, pelo teorema da estabilidade da Lei Normal (ver teorema 2.5.6 na página 91) X também tem distribuição (aproximadamente) Normal. Exemplo 3.3.2 O número de produtos vendidos diariamente na loja BoaVida é uma variável aleatória com valor esperado 200 e desvio padrão igual a 30. 1. Se for recolhida uma amostra aleatória de dimensão 100 (observados cem dias), qual a probabilidade de a média diária de vendas na amostra ser superior a 205? Tendo em conta que numa amostra aleatória as variáveis X1 , X2 , · · · , Xn são i. i. d., então pode-se utilizar o teorema do limite central e respectivo corolário pois n ≥ 30. Assim, pela fórmula (70), obtém-se ¶ µ σ , X ∼ N μ, √ n • 171 que substituindo pelos valores do problema, μ = 200, σ = 30 e n = 100, tem-se ¶ µ 30 • , X ∼ N 200, √ 100 que simplificando obtém-se • X ∼ N (200, 3) , logo µ ¶ 205 − 200 Z> = P (Z > 1.6667) ' 3 ' 1 − φ (1.67) = 1 − 0.9525 = 0.0475. ¢ ¡ P X > 205 ' P 2. Se for recolhida uma amostra aleatória de dimensão 400, qual a probabilidade de a média amostral ser superior a 205? Utilizando a mesma fórmula que na alínea anterior tem-se ¶ µ 30 • , X ∼ N 200, √ 400 que simplificando vem • X ∼ N (200, 1.5) , logo µ ¶ 205 − 200 Z> = P (Z > 3.3333) ' 1.5 ' 1 − φ (3.33) = 1 − 0.9996 = 0.0004. ¡ ¢ P X > 205 ' P Exemplo 3.3.3 Na loja BoaVida o tempo que um cliente tem de esperar até ser atendido é uma variável aleatória com média μ segundos e desvio padrão cinquenta (σ = 50). Qual a dimensão da amostra a recolher de forma que a distância da média amostral à média da população seja inferior a 10 com probabilidade superior a 0.99? (considere n ≥ 30) Como n ≥ 30 tem-se ¶ µ σ , X ∼ N μ, √ n • 172 pela fórmula (70), onde substituindo σ pelo seu valor tem-se ¶ µ 50 • , X ∼ N μ, √ n então, pretende-se determinar o valor de n tal que ¯ ¡¯ ¢ P ¯X − μ¯ < 10 > 0.99 ⇔ ⇔ P (−10 < X − μ < 10) > 0.99 ⇔ ⎞ ⎛ ⎜ 10 10 ⎟ ⎟ > 0.99 ⇔ − < Z < ⇔ P⎜ ⎝ 50 50 ⎠ √ √ n n µ ¶ 10 √ 10 √ ⇔ P − n<Z< n > 0.99 ⇔ 50 50 ¡ √ ¢ √ ⇔ P −0.2 n < Z < 0.2 n > 0.99 ⇔ ¡ ¡ √ ¢ √ ¢ ⇔ P Z < 0.2 n − P Z ≤ −0.2 n > 0.99 ⇔ ¡ ¡ √ ¢¤ √ ¢ £ ⇔ P Z < 0.2 n − 1 − P Z ≤ 0.2 n > 0.99 ⇔ ¡ √ ¢ ⇔ 2P Z ≤ 0.2 n − 1 > 0.99 ¡ √ ¢ ⇔ P Z ≤ 0.2 n > 0.995 ⇔ √ ⇔ 0.2 n > 2.576 ⇔ n > 165.89 que, como n ∈ N, considera-se n ≥ 166. 3.3.3 Distribuição da proporção amostral - População de Bernoulli Um caso particular de aplicação do teorema do limite central surge para as populações de Bernoulli (rever provas de Bernoulli presentes na página 61). Nas populações de Bernoulli as observações só assumem dois valores, o valor um, no caso de sucesso, e o valor zero, no caso de insucesso. Assim, nestas populações, a média não é mais do que a proporção de sucessos (número de sucessos a dividir pelo número total de elementos). Por esta razão representa-se por p a proporção de sucesso da população (que não é mais do que a média da população, ou seja, o parâmetro μ) e por p̂ a proporção de sucessos na amostra (que é a média da amostra, ou seja, o estimador X). Se recordarmos que, na distribuição de Bernoulli a variância da variável é 173 dada por p (1 − p) (ou seja, σ = p p (1 − p)), então pode-se utilizar estes resultados no corolário 3.3.1 da página 171 obtendo-se assim o teorema de De Moivre-Laplace. Teorema 3.3.2 (Teorema de De Moivre - Laplace) Sejam X1 , · · · , Xn , n variáveis i. i. d. com distribuição de Bernoulli, onde E(X) = p e V ar(X) = p (1 − p), então, fazendo n tender para infinito, a variável aleatória p̂ tem distribuição aproximadamente Normal, ou seja, à r ! p (1 − p) p̂ − p • • ∼ N (0, 1) , ou seja, r p̂ ∼ N p, n p (1 − p) n Regra: (71) Na prática utiliza-se o teorema de De Moivre - Laplace quando n ≥ 30. Exemplo 3.3.4 Considere que se pretende fazer uma sondagem para saber qual a opinião dos portugueses sobre a acção do governo. 1. Considerando que cinquenta por cento dos portugueses é favorável às políticas do governo (p = 0.5), qual é a probabilidade de, numa amostra aleatória de dimensão 100, haver uma proporção superior a cinquenta e um por cento de indivíduos favoráveis às políticas do governo (p̂ > 0.51)? Considerando que n ≥ 30, pode-se utilizar a fórmula (71), que substituído os valores conhecidos vem • p̂ ∼ N à 0.5, r 0.5 (1 − 0.5) 100 ! , ou seja, • p̂ ∼ N (0.5, 0.05) , então µ ¶ 0.51 − 0.5 P (p̂ > 0.51) ' P Z > = 0.05 = P (Z > 0.2) = 1 − P (Z ≤ 0.2) = = 1 − 0.5793 = 0.4207. 174 2. Qual deverá ser a dimensão da amostra aleatória a recolher de forma a que a distância entre a proporção de indivíduos favoráveis à acção do governo na população (p) e na amostra (p̂) seja inferior a 0.02 com probabilidade superior a 0.9? Pretende-se determinar o valor de n tal que P (|p̂ − p| < 0.02) > 0.9, então, sob a hipótese de n ≥ 30, pode-se utilizar o resultado da fórmula (71), ou seja ! à r p (1 − p) • , ou p̂ ∼ N p, n Z = r então p̂ − p p (1 − p) n • ∼ N(0, 1) P (|p̂ − p| < 0.02) > 0.9 ⇔ P (−0.02 < p̂ − p < 0.02) > 0.9, r considerando que para obter a variável aleatória Z basta dividir tudo por que P (−0.02 < p̂ − p < 0.02) > 0.9 ⇔ ⎛ p (1 − p) , vem n ⎞ ⎜ −0.02 ⎟ p̂ − p 0.02 ⎟ > 0.9 ⇔ r r r ⇔ P⎜ < < ⎝ p (1 − p) p (1 − p) p (1 − p) ⎠ n n ⎛ ⎞ n ⎜ −0.02 ⎟ 0.02 ⎜ ⎟ <Z< p ⇔ P ⎜p ⎟ > 0.9 ⎝ p (1 − p) p (1 − p) ⎠ √ √ n n que simplificando vem à √ √ ! 0.02 n 0.02 n P −p <Z< p > 0.9 ⇔ p (1 − p) p (1 − p) à à √ ! √ ! 0.02 n 0.02 n − P Z ≤ −p > 0.9 ⇔ ⇔ P Z<p p (1 − p) p (1 − p) à à √ !# √ ! " 0.02 n 0.02 n − 1−P Z < p > 0.9 ⇔ ⇔ P Z<p p (1 − p) p (1 − p) à à √ ! √ ! 0.02 n 0.02 n − 1 > 0.9 ⇔ P Z < p > 0.95 ⇔ 2P Z < p p (1 − p) p (1 − p) 175 que recorrendo à tabela da distribuição Normal vem √ 0.02 n p > 1.645 ⇔ p (1 − p) √ 1.645 p n> p (1 − p) ⇔ 0.02 µ ¶2 1.645 ⇔ n> p (1 − p) ⇔ n > 6765.0625 × p (1 − p) 0.02 assim o valor de n depende do valor de p, no entanto, para garantir o pretendido, para qualquer que seja o valor de p, deve-se maximizar esta função, pois assim vai-se garantir para o “pior” valor de p e, consequentemente, para qualquer outro valor de p. Para maximizar a função calculam-se as suas derivadas. ∂ [6765.0625 × p (1 − p)] =0⇔ ∂p ∂ [6765.0625 × (p − p2 )] =0⇔ ⇔ ∂p 1 ⇔ 6765.0625 (1 − 2p) = 0 ⇔ p = 2 para que o ponto encontrado seja, de facto, um máximo, a segunda derivada tem que ser negativa, então ∂ 2 [6765.0625 × p (1 − p)] ∂ [6765.0625 × (1 − 2p)] = = 2 ∂p ∂p = −6765.0625 × 2 < 0 logo p = 1 2 é o valor de p que maximiza a função. Substituindo obtém-se µ ¶ 1 1 1− ⇔ n > 1691.3 n > 6765.0625 × 2 2 que, como n ∈ N, considera-se n ≥ 1692. Assim, com uma amostra com dimensão de pelo menos 1692 observações garante-se, com probabilidade superior a 0.9, que a distância entre a proporção na população (p) e a proporção na amostra (p̂) seja inferior a 0.02, seja qual for o valor de p. 176 3.3.4 Distribuição da variância amostral - População com distribuição Normal Teorema 3.3.3 Considere uma população que segue distribuição Normal com E (Xi ) = μ e V ar (Xi ) = σ 2 . Seja X1 , X2 , · · · , Xn uma amostra aleatória desta população, então (n − 1) SC2 ∼ χ2(n−1) . σ2 (72) onde SC2 representa a variância corrigida da amostra. Demonstração: Considere-se uma população que tem distribuição normal [X ∼ N(μ, σ)]. Assim, tendo em conta que uma amostra aleatória (X1 , X2 , · · · , Xn ) é constituída por n variáveis aleatórias i. i. d. a X, pode-se concluir que Xi ∼ N(μ, σ) para i = 1, · · · , n, logo Zi = Xi − μ ∼ N (0, 1) σ que pela relação da distribuição Normal com a Qui-quadrado (ver teorema 2.5.11 na página 102) vem que Zi2 = µ Xi − μ σ ¶2 = (Xi − μ)2 ∼ χ2(1) . σ2 Como as variáveis aleatórias Xi são independentes, então as variáveis Zi2 = (Xi − μ)2 ∼ χ2(1) σ2 também o são. Assim, pelo teorema da aditividade da distribuição Qui-quadrado (teorema 2.5.12 presente na página 104) conclui-se que n X i=1 Zi = n µ X i=1 Xi − μ σ ¶2 = 177 n X i=1 (Xi − μ)2 σ2 ∼ χ2(n) . (73) Note-se que, se desenvolvermos o numerador desta expressão, somando e subtraindo X, obtém-se n X i=1 2 (Xi − μ) n n X ¢2 X ¢ ¡ ¢¤2 ¡ £¡ = = Xi − X + X − μ = Xi − X + X − μ = i=1 n h X i=1 i=1 ¡ ¢2 ¡ ¢¡ ¢ ¡ ¢2 i Xi − X + 2 Xi − X X − μ + X − μ = n n n X ¢2 X ¡ ¢¡ ¢ X ¢2 ¡ ¡ = 2 Xi − X X − μ + X −μ = Xi − X + = i=1 n X i=1 i=1 i=1 ¢2 ¡ ¢ ¡ Xi − X + 2 X − μ n X i=1 n X ¢2 ¡ ¢2 ¡ = Xi − X + n X − μ ¢ ¡ ¢2 ¡ Xi − X + n X − μ = i=1 pois " n # n n X ¡ ¢X ¢ ¡ ¢ X ¡ 2 X −μ Xi − X = Xi − X = 2 X − μ i=1 i=1 " i=1 # n X ¡ ¢ = 2 X −μ Xi − nX i=1 que como X 1X Xi ⇔ Xi = nX n i=1 i=1 n X= conclui-se que n " n # ¡ ¢ X ¡ ¢¡ ¢ 2 X −μ Xi − nX = 2 X − μ nX − nX = 0, i=1 logo n ¡ ¢X ¢ ¡ 2 X −μ Xi − X = 0. i=1 Como tal, tem-se n X i=1 = n X ¢2 ¡ ¢2 ¡ Xi − X + n X − μ = n X ¡ Xi − X 2 (Xi − μ) σ2 i=1 i=1 σ2 178 σ2 ¢2 = ¢2 ¡ n X −μ + . σ2 (74) (75) Note-se que ¡ ¢2 n X −μ ∼ χ2(1) σ2 pois, como (X1 , X2 , · · · , Xn ) é constituída por n variáveis aleatórias i. i. d. a X e X ∼ N(μ, σ), pode-se utilizar a fórmula (69) presente na página 167, ¶ µ σ , X ∼ N μ, √ n ou seja, Z= como tal ⎛ X −μ σ ∼ N (0, 1) , √ n ⎞2 ¡ ¢2 ¢2 ¡ n X − μ X − μ X − μ ⎜ ⎟ = ∼ χ2(1) Z2 = ⎝ σ ⎠ = 2 2 σ σ √ n n Assim, se na expressão (74) substituir-se os resultados (73) e (76) obtém-se χ2(n) = logo conclui-se que n X ¢2 ¡ Xi − X i=1 σ2 + χ2(1) , n X ¢2 ¡ Xi − X i=1 ∼ χ2(n−1) σ2 Esta fórmula pode ser desenvolvida através de n X ¢2 ¡ Xi − X i=1 σ2 = (76) (77) n ¢2 1 X¡ − X X i σ 2 i=1 que, multiplicando e dividindo tudo por n − 1, vem ¢2 n n ¡ ¢2 n − 1 X Xi − X 1 X¡ . Xi − X = σ 2 i=1 σ 2 i=1 n−1 Recordando a fórmula da variância corrigida - SC2 (ver fórmula (65) na página 159) vem que ¢2 n ¡ n − 1 X Xi − X n−1 2 S = 2 σ i=1 n−1 σ2 C 179 Assim conclui-se que (n − 1) SC2 ∼ χ2(n−1) . σ2 Nota: Note-se que na fórmula (73) tinha-se deduzido que n X i=1 (Xi − μ)2 σ2 ∼ χ2(n) e na fórmula (77) concluiu-se que n X ¢2 ¡ Xi − X i=1 σ2 ∼ χ2(n−1) , onde se verifica que se perde um grau de liberdade quando numa substitui-se um dos parâmetros (μ - média da população) pelo seu estimador (X - média da amostra). Isto verifica-se pelo facto que no primeiro caso tem-se a soma de n variáveis aleatórias independentes enquanto que, no segundo caso, uma das variáveis é dependente das restantes, pois se o valor de X e de n − 1 variáveis Xi são conhecidas, a outra variável Xi pode ser determinada. Exemplo 3.3.5 O Departamento de Pessoal da empresa BoaVida fez um levantamento dos salários dos seus funcionários do sector administrativo. Considere que os salários seguem uma distribuição Normal com valor esperado 1000 euros e desvio padrão 10 euros. 1. Qual a probabilidade de a variância amostral corrigida ser inferior a 120 considerando uma amostra aleatória de dimensão 25? Considerando que a população tem distribuição Normal então pode-se utilizar (n − 1) SC2 ∼ χ2(n−1) σ2 180 que como σ = 10 e n = 25 tem-se (25 − 1) SC2 = 0.24SC2 ∼ χ2(24) 102 logo ¡ ¢ ¡ ¢ ¡ ¢ P SC2 < 120 = P 0.24SC2 < 0.24 × 120 = P χ2(24) < 28.8 que recorrendo às tabelas da distribuição Qui-quadrado vem Valores de x Valores de α 28.241 0.75 28.8 α0 =? 29.553 0.80 logo, pela interpolação linear, vem 29.553 − 28.241 29.553 − 28.8 0.80 − 0.75 ⇔ 0.80 − α0 ⇔ α0 ' 0.7713. = logo ¢ ¡ P χ2(24) < 28.8 ' 0.7713. 2. Qual a probabilidade de o desvio padrão amostral corrigido ser superior a 9 considerando uma amostra aleatória de dimensão 101? Considerando que a população tem distribuição Normal então pode-se utilizar (n − 1) SC2 ∼ χ2(n−1) σ2 que como σ = 10 e n = 101 tem-se (101 − 1) SC2 = SC2 ∼ χ2(100) 2 10 logo ¡ ¢ ¡ ¢ ¡ ¢ P (SC > 9) = P SC2 > 81 = P χ2(100) > 81 = 1 − P χ2(100) ≤ 81 181 que recorrendo às tabelas da distribuição Qui-quadrado vem Valores de x Valores de α 77.929 0.05 81 α0 =? 82.358 0.10 logo, pela interpolação linear, vem 82.358 − 77.929 82.358 − 81 0.10 − 0.05 ⇔ 0.10 − α0 ⇔ α0 ' 0.08467. = concluindo-se que ¢ ¡ 1 − P χ2(100) ≤ 81 ' 1 − 0.08467 = 0.91533. 3.3.5 Distribuição da média amostral - σ desconhecido e população com distribuição Normal Teorema 3.3.4 Considere uma população que segue distribuição Normal com E (Xi ) = μ e V ar (Xi ) = σ 2 . Seja X1 , X2 , · · · , Xn uma amostra aleatória desta população, então X −μ ∼ t(n−1) SC √ n onde SC representa o desvio padrão corrigido da amostra. Demonstração: Em relação a uma população com distribuição Normal, quando foi analisada a distribuição da média amostral, supondo σ conhecido, deduziu-se que ¶ µ σ , X ∼ N μ, √ n 182 (78) ou seja, X −μ σ ∼ N (0, 1) . √ n Na distribuição da variância amostral concluiu-se que X0 = Y0 = (n − 1) SC2 ∼ χ2(n−1) . σ2 Supondo a independência entre estes dois resultados e utilizando o teorema 2.5.17 da página 110, conclui-se que r X0 ∼ t(n−1) , Y0 n−1 logo X −μ σ √ n v u (n − 1) S 2 u C t σ2 n−1 que, simplificando a fórmula, vem X −μ σ √ n v u (n − 1) S 2 u C t σ2 n−1 ∼ t(n−1) X −μ σ √ n X −μ σ √ n = r =s , SC2 (n − 1) SC2 σ2 σ 2 (n − 1) que, como σ > 0 e SC > 0, tem-se X −μ X −μ σ σ √ √ X −μ X −μ n n r = = = SC SC S σ SC2 √C ×√ σ σ n n σ2 logo X −μ ∼ t(n−1) SC √ n 183 Exemplo 3.3.6 O lucro obtido por cada produto vendido na loja BoaVida tem distribuição Normal com média μ e desvio padrão σ. 1. Supondo que o lucro médio é duzentos euros (μ = 200), determine a probabilidade de a média amostral ser superior a 205 com base numa amostra aleatória de dimensão 11 onde se obteve uma variância igual a 110. Considerando que a população tem distribuição Normal com σ desconhecido, utiliza-se X −μ ∼ t(n−1) . SC √ n Tendo em conta que μ = 200, n = 11, s2 = 4 e que n S 2 , logo n−1 √ 11 = × 110 = 121 =⇒ sC = 121 = 11 10 SC2 = s2C obtém-se X − 200 X − 200 = √ ∼ t(10) . 11 11 √ 11 Assim, µ ¢ ¡ P X > 205 = P X − 200 205 − 200 √ √ > 11 ¡ ¢ 11 = P t(10) > 1.5076 = ¢ ¡ = 1 − P t(10) ≤ 1.5076 que recorrendo às tabelas da distribuição t-Student vem Valores de x Valores de α 1.3722 0.90 1.5076 α0 =? 1.8125 0.95 184 ¶ = logo, pela interpolação linear, vem 1.8125 − 1.3722 1.8125 − 1.5076 0.95 − 0.90 ⇔ 0.95 − α0 ⇔ α0 ' 0.91538. = logo ¢ ¡ 1 − P t(10) ≤ 1.5076 ' 1 − 0.91538 = 0.08462. 2. Com base numa amostra aleatória de dimensão 25 onde s2 = 864, qual a probabilidade de a média do lucro obtido em cada produto numa amostra afastar-se menos de dez euros da ¯ £ ¡¯ ¢ ¤ média da população? P ¯X − μ¯ < 10 =? Considerando que a população tem distribuição Normal com σ desconhecido, vai-se uti- lizar X −μ ∼ t(n−1) SC √ n Primeiro vai-se calcular a variância corrigida n S 2 , logo n−1 √ 25 × 864 = 900 =⇒ sC = 900 = 30. = 24 SC2 = s2C Assim, X −μ X −μ ∼ t(24) , = 30 6 √ 25 logo, ¯ ¡¯ ¢ ¡ ¢ P ¯X − μ¯ < 10 = P −10 < X − μ < 10 = ¶ µ X −μ 10 10 < = = P − < 6 6 6 ¢ ¡ = P −1.6667 < t(24) < 1.6667 = ¢ ¡ ¢ ¡ = P t(24) < 1.6667 − P t(24) < −1.6667 = ¢ ¡ ¢ ¡ = P t(24) < 1.6667 − P t(24) > 1.6667 = ¢ £ ¡ ¢¤ ¡ = P t(24) < 1.6667 − 1 − P t(24) < 1.6667 = ¢ ¡ = 2P t(24) < 1.6667 − 1. 185 Recorrendo às tabelas da distribuição t-Student vem Valores de x Valores de α 1.3178 0.90 1.6667 α0 =? 1.7109 0.95 que, pela interpolação linear, conclui-se que 1.7109 − 1.3178 1.7109 − 1.6667 0.95 − 0.90 ⇔ 0.95 − α0 ⇔ α0 ' 0.94438. = Substituindo o valor obtido obtém-se ¡ ¢ 2P t(24) < 1.6667 − 1 ' 2 × 0.94438 − 1 = 0.88876. Nota: Quando a dimensão da amostra é superior a trinta elementos (n > 30), os graus de liberdade da t-Student são maiores ou iguais a 30 (n − 1 ≥ 30), logo pode-se aplicar o teorema 2.5.18 presente na página 111 que aproxima a distribuição t-Student à distribuição Normal. Desta forma conclui-se que: X −μ • ∼ N (0, 1) SC √ n ou ¶ µ SC X ∼ N μ, √ n • (79) Exemplo 3.3.7 O tempo (em minutos) que uma perfuradora Perfurix do modelo SP-2000 demora a perfurar vinte polegadas é uma variável aleatória X com distribuição Normal. Com base numa amostra aleatória de dimensão 400 onde s2 = 39900, qual a probabilidade de a média amostral afastar-se ¯ £ ¡¯ ¢ ¤ menos de vinte minutos da média da população? P ¯X − μ¯ < 20 =? Considerando que a população tem distribuição Normal com σ desconhecido, utiliza-se X −μ ∼ t(n−1). S √C n 186 Primeiro calcula-se a variância corrigida n S 2 , logo n−1 √ 400 × 39900 = 40000 =⇒ sC = 40000 = 200. = 399 SC2 = s2C Assim, X −μ X −μ = ∼ t(399) , 200 10 √ 400 mas, como os graus de liberdade da t-Student são superiores a 30, pode-se aproximar à Normal, concluindo-se que X −μ • ∼ N (0, 1) . 10 Aplicando este resultado ao problema obtém-se ¯ ¡¯ ¢ ¡ ¢ P ¯X − μ¯ < 20 = P −20 < X − μ < 20 = ¶ µ 20 20 X −μ < = = P − < 10 10 10 = P (−2 < Z < 2) = = P (Z < 2) − P (Z < −2) = = φ (2) − [1 − φ (2)] = = 0.9772 − 1 + 0.9772 = 0.9544. Exemplo 3.3.8 Considere que, para analisar o tempo que uma máquina demora a produzir determinado produto, foi recolhida uma amostra aleatória de dimensão 36 onde foi obtido x = 1200 segundos e s2 = 21875. Considerando que o tempo tem distribuição Normal, determine a probabilidade de a média da amostra afastar-se menos de sessenta segundos da média da população. Como σ não é conhecido e a população possui distribuição Normal, vai-se recorrer à fórmula (78). A variância corrigida é obtida através de n S 2 , logo n−1 √ 36 = × 21875 = 22500 =⇒ sC = 22500 = 150. 35 SC2 = s2C 187 A distribuição a utilizar é X −μ X −μ = ∼ t(35) , 150 25 √ 36 mas, como os graus de liberdade da t-Student são superiores a 30, o cálculo da probabilidade pretendida pode ser simplificado utilizando a aproximação à distribuição Normal. Assim, podese utilizar X −μ • ∼ N (0, 1) . 25 Pretende-se, então, calcular µ ¶ 60 60 − <Z< = 25 25 = P (−2.4 < z < 2.4) = P (Z < 2.4) − P (Z < −2.4) = ¯ ¡¯ ¢ ¡ ¢ P ¯X − μ¯ < 60 = P −60 < X − μ < 60 = P = P (Z < 2.4) − [1 − P (Z < 2.4)] = 2P (Z < 2.4) − 1 = = 2 × 0.9918 − 1 = 0.9826. 188 3.3.6 Quadro resumo das distribuições amostrais Parâmetro Estimador Condições μ X σ conhecido e população Normal μ X σ conhecido e n ≥ 30 μ X σ desconhecido e população Normal μ X σ desconhecido, população Normal e n > 30 p pb População Bernoulli e n ≥ 30 σ2 SC2 População Normal 189 Distribuição ¶ µ σ X ∼ N μ, √ n ¶ µ σ • X ∼ N μ, √ n X −μ ∼ t(n−1) SC √ n X −μ ∼ N (0, 1) SC √ n ! à r p (1 − p) • pb ∼ N p, n Z= (n − 1) SC2 σ2 ∼ χ2(n−1) 3.4 Intervalos de confiança Na teoria da estimação pontual foram utilizados estimadores para fornecer um valor (estimativa) para um parâmetro desconhecido θ. No entanto, não foi avaliada a precisão da estimativa. Esta precisão pode ser avaliada utilizando a teoria da estimação por intervalos, pois, neste caso, em vez de se indicar um valor concreto para o parâmetro desconhecido θ, constrói-se um intervalo que, com determinada probabilidade previamente definida, contém o verdadeiro valor do parâmetro θ. Assim, estes intervalos, ao contrário da estimação pontual, permitem definir a precisão da estimação (pois a probabilidade é escolhida previamente). Para a construção deste intervalo, determina-se um intervalo aleatório para o parâmetro e, depois, com base numa amostra particular, calcula-se o intervalo de confiança. Definição 3.4.1 (Intervalo aleatório para θ) Sejam T1 (X1 , X2 , · · · , Xn ) e T2 (X1 , X2 , · · · , Xn ) duas estatísticas (funções da amostra), então diz-se que ]T1 , T2 [ é um intervalo aleatório para θ com probabilidade 1 − α se P [T1 (X1 , X2 , · · · , Xn ) < θ < T2 (X1 , X2 , · · · , Xn )] = 1 − α (80) ou seja, ]T1 (X1 , X2 , · · · , Xn ) , T2 (X1 , X2 , · · · , Xn ) [ é um intervalo aleatório para θ com probabilidade igual a 1 − α. Definição 3.4.2 (Intervalo de confiança para θ) Se num intervalo aleatório para θ, seja ]T1 (X1 , X2 , · · · , Xn ) , T2 (X1 , X2 , · · · , Xn ) [, com probabilidade 1 − α, substituir-se nas funções T1 (X1 , X2 , · · · , Xn ) e T2 (X1 , X2 , · · · , Xn ) as variáveis aleatórias por valores de uma amostra concreta, obtém-se o intervalo ]T1 (x1 , x2 , · · · , xn ) , T2 (x1 , x2 , · · · , xn ) [ (81) que é denominado por intervalo com (1 − α) × 100 por cento de confiança para θ. Para a construção dos intervalos de confiança utiliza-se um estimador, com distribuição conhecida, para o parâmetro. Assim, para construir intervalos de confiança para μ deve-se utilizar o estimador X, pois, como foi analisado no capítulo 3.3, este estimador (sob determinadas 190 condições) tem distribuição conhecida. Seguindo o mesmo raciocínio, para construir intervalos de confiança para σ ou σ2 deve-se utilizar o estimador SC2 . Com o objectivo de facilitar a apresentação da construção dos intervalos de confiança analisa-se cada um dos casos analisados no capítulo 3.3 em particular. Note-se que o raciocínio inerente à construção de um intervalo de confiança é muito semelhante de caso para caso. 3.4.1 Intervalos de confiança para a média - σ conhecido e população com distribuição Normal Considere-se uma população com distribuição Normal com média igual a μ e desvio padrão igual a σ, isto é, X ∼ N (μ, σ). Se for recolhida uma amostra de dimensão n, como é que se pode construir um intervalo com (1 − α) × 100 por cento de confiança para μ? ¡ ¢ Em primeiro lugar, como estimador de μ tem-se a média da amostra X , que, como a população tem distribuição Normal e σ é conhecido, utiliza-se ¶ µ σ , X ∼ N μ, √ n ou seja, Z= X −μ σ ∼ N (0, 1) . √ n (82) Definição 3.4.3 (Variável fulcral) A variável aleatória X −μ σ √ n que vai ser utilizada como base para a construção do intervalo de confiança é denominada por Z= variável aleatória fulcral. Esta variável tem função de distribuição conhecida e depende unicamente de um parâmetro desconhecido (sendo este o parâmetro para o qual se vai determinar o intervalo de confiança). Para determinar o intervalo aleatório para μ começa-se por definir um intervalo em que P (linf < Z < lsup ) = 1 − α, 191 ou seja, determinar um intervalo ]linf , lsup [ onde a variável Z pertença com probabilidade igual a 1−α. Com o objectivo de o intervalo final possuir a menor amplitude possível, deve-se procurar os valores de linf e lsup que minimizem a amplitude do intervalo ]linf , lsup [, concluindo-se que linf e lsup são simétricos devido às características da distribuição Normal. Considerando que a probabilidade de Z estar contido no intervalo ]linf , lsup [ é igual a 1 − α, então a probabilidade α de não pertencer a este intervalo é α, sendo a probabilidade de ser inferior a linf igual a e a 2 α probabilidade de ser superior a lsup também igual a . 2 Interpretação gráfica de z1− α2 . Assim, vai-se representar o ponto limite superior deste intervalo (lsup ) por z1− α , sendo zγ o 2 ponto cuja probabilidade de a variável Z ser inferior (ou igual) é igual a γ, ou seja, zγ pode ser definido por P (Z ≤ zγ ) = γ. Exemplo 3.4.1 Qual o valor de z0.95 ? Pela definição apresentada na fórmula (83), z0.95 pode ser definido por P (Z ≤ z0.95 ) = 0.95, que, recorrendo à tabela da função de distribuição da Normal, vem P (Z ≤ z0.95 ) = 0.95 ⇔ z0.95 = 1.645 192 (83) Assim, z0.95 representa o ponto em que a probabilidade de a variável aleatória Z ser inferior (ou igual) a esse ponto é igual a 0.95, sendo o seu valor 1.645, ou seja, z0.95 = 1.645. Considerando que lsup é igual a z1− α então linf , como foi referido, é simétrico a lsup sendo 2 igual a −z1− α . Substituindo estes resultados no intervalo inicialmente proposto vem 2 P (linf ´ ³ α α = 1 − α. < Z < lsup ) = 1 − α ⇔ P −z1− < Z < z1− 2 2 Substituindo a variável Z pela sua expressão (ver fórmula (82) na página 191) obtém-se ⎛ ⎞ ³ ´ X −μ ⎜ ⎟ P −z1− α < Z < z1− α = 1 − α ⇔ P ⎝−z1− α < σ < z1− α ⎠ = 1 − α. 2 2 2 2 √ n Resolvendo em ordem ao parâmetro μ, conclui-se que ⎛ ⎞ X −μ ⎜ ⎟ P ⎝−z1− α < σ < z1− α ⎠ = 1 − α ⇔ 2 2 √ n µ ¶ σ σ ⇔ P −z1− α √ < X − μ < z1− α √ =1−α⇔ 2 2 n n ¶ µ σ σ ⇔ P −z1− α √ − X < −μ < z1− α √ − X = 1 − α ⇔ 2 2 n n µ ¶ σ σ ⇔ P X − z1− α √ < μ < X + z1− α √ =1−α 2 2 n n que corresponde à definição de intervalo aleatório (ver fórmula (80) na página 190), logo o intervalo aleatório para μ com probabilidade 1 − α é ∙ ¸ σ σ X − z1− α √ , X + z1− α √ 2 2 n n sendo o intervalo com (1 − α) × 100 por cento de confiança para μ definido por ¸ ∙ σ σ x − z1− α √ , x + z1− α √ 2 2 n n que resulta em substituir no intervalo aleatório o estimador pela estimativa (por valores obtidos através de uma amostra particular). 193 Exemplo 3.4.2 A duração dos computadores da marca WorkFast tem distribuição Normal com valor médio igual a μ dias e desvio padrão igual a 80 dias, isto é, X ∼ N (μ, 80). Considere que foi recolhida uma amostra de 64 computadores onde se verificou uma média de 1000 dias e uma variância igual a 6500. Construa um intervalo, com noventa e cinco por cento de confiança, para o tempo médio de duração de um computador WorkFast. Em primeiro lugar, considerando que a população tem distribuição Normal e σ é conhecido, pode-se concluir que ¶ µ σ X ∼ N μ, √ n que, substituindo pelos valores conhecidos, obtém-se ¶ µ 80 , ou seja, X ∼ N (μ, 10) . X ∼ N μ, √ 64 Assim, a variável fulcral a utilizar é Z= X −μ ∼ N (0, 1) . 10 Para determinar o intervalo inicial, vem que 1 − α = 0.95 (pois pretende-se um intervalo com 95 por cento de confiança) então z1− α = z0.975 , que pode ser determinado através de 2 P (Z ≤ z0.975 ) = 0.975 ⇔ z0.975 = 1.96 Interpretação gráfica de z0.975 . 194 Assim, o intervalo inicial será µ ¶ X −μ P −1.96 < < 1.96 = 0.95 10 que resolvendo em ordem ao parâmetro μ vem ¢ ¡ P 19.6 < X − μ < 19.6 = 0.95 ⇔ ¢ ¡ ⇔ P 19.6 − X < −μ < 19.6 − X = 0.95 ⇔ ¢ ¡ ⇔ P X − 19.6 < μ < X + 19.6 = 0.95. O intervalo aleatório para μ, com probabilidade 0.95, é ¤ £ X − 19.6, X + 19.6 e o intervalo com noventa e cinco por cento de confiança para μ é ]1000 − 19.6, 1000 + 19.6[ , ou seja, ]980.4, 1019.6[ . Assim, o tempo médio de duração de um computador WorkFast pertence ao intervalo ]980.4, 1019.6[ com noventa e cinco por cento de confiança. 195 Nota: Em relação ao exemplo analisado anteriormente, tem-se que ¡ ¢ P X − 19.6 < μ < X + 19.6 = 0.95 ¤ £ devido às características da variável aleatória X. Como tal, X − 19.6, X + 19.6 é um intervalo aleatório para μ com probabilidade 0.95. Todavia, qual será a probabilidade de μ pertencer ao intervalo de confiança? P (980.4 < μ < 1019.6) = ? (84) Saliente-se que μ representa a média da população que é desconhecida mas é fixa. Note-se, então, que na expressão anterior não existe nenhuma variável aleatória, consequentemente a desigualdade 980.4 < μ < 1019.6 ou é verdadeira (sendo a sua probabilidade igual a um) ou é falsa (sendo a sua probabilidade igual a zero). Por exemplo, se o verdadeiro valor de μ for 975, este não pertence ao intervalo de confiança, logo a probabilidade presente em (84) é igual a zero. Se, pelo contrário, μ assume o valor 1010, este pertence ao intervalo de confiança, logo, a probabilidade patente em (84) é igual a um. Assim, quando se diz que μ pertence a um intervalo com noventa e cinco por cento de confiança, significa que, para noventa e cinco por cento das amostras aleatórias, o intervalo de confiança contém o verdadeiro valor de μ. 3.4.2 Intervalos de confiança para a média - σ conhecido e população com distribuição não Normal (ou desconhecida) Considere-se uma população com distribuição desconhecida (ou outra que não seja a distribuição Normal) com média igual a μ e desvio padrão igual a σ, isto é, E (X) = μ e V ar (X) = σ 2 . Se for recolhida uma amostra de dimensão n (com n ≥ 30), como é que se pode construir um intervalo com (1 − α) × 100 por cento de confiança para μ? 196 Como estimador de μ tem-se X que nestas condições pode-se utilizar a fórmula (70), ou seja, ¶ µ σ . X ∼ N μ, √ n • Assim, a variável fulcral a utilizar neste caso é Z= X −μ • σ ∼ N (0, 1) . √ n Para construir o intervalo aleatório para μ, determina-se um intervalo que contenha a variável aleatória Z com probabilidade igual a 1 − α, ou seja, P (linf < Z < lsup ) = 1 − α, que, como a variável tem distribuição Normal Standard, utiliza-se os pontos z1− α (ver fórmula 2 (83) na página 192) que satisfazem ³ ´ P −z1− α < Z < z1− α = 1 − α 2 2 e resolve-se em ordem a μ, de onde se obtém ³ ´ α α P −z1− < Z < z1− =1−α ⇔ 2 2 ⎛ ⎞ X −μ ⎜ ⎟ ⇔ P ⎝−z1− α < σ < z1− α ⎠ = 1 − α ⇔ 2 2 √ n µ ¶ σ σ ⇔ P −z1− α √ < X − μ < z1− α √ =1−α ⇔ 2 2 n n µ ¶ σ σ ⇔ P X − z1− α √ < μ < X + z1− α √ = 1 − α. 2 2 n n O intervalo aleatório para μ com probabilidade 1 − α é ∙ ¸ σ σ X − z1− α √ , X + z1− α √ 2 2 n n sendo o intervalo com (1 − α) × 100 por cento de confiança para μ definido por ¸ ∙ σ σ x − z1− α √ , x + z1− α √ . 2 2 n n 197 Exemplo 3.4.3 Em Alfalândia, o número de computadores vendidos diariamente tem média desconhecida e desvio padrão igual a 30. Considere que foram observados o número de computadores vendidos em cem dias onde se obteve um média igual a 250. Com base nesta amostra aleatória, construa um intervalo, com noventa por cento de confiança, para a média de computadores vendidos diariamente em Alfalândia. Tendo em conta que não se conhece a distribuição da população e que n ≥ 30 utiliza-se ¶ µ σ • , X ∼ N μ, √ n sendo a variável fulcral Z= X −μ • σ ∼ N (0, 1) . √ n Substituindo σ = 30 e n = 100 na variável fulcral obtém-se Z= X −μ X −μ • = ∼ N (0, 1) . 30 3 √ 100 Primeiro determina-se o intervalo para a variável aleatória Z com probabilidade 0.9 (1 − α = 0.90, pois pretende-se um intervalo com 90 por cento de confiança) P (linf < Z < lsup ) = 0.90 como, de fora do intervalo fica 0.1, esta probabilidade será dividida, sendo 0.05 inferior a linf e 0.05 superior a lsup . Assim sendo o intervalo pretendido é P (−z0.95 < Z < z0.95 ) = 0.90 onde z0.05 pode ser determinado através de P (Z ≤ z0.95 ) = 0.95 ⇔ z0.95 = 1.645, 198 logo ⇔ ⇔ ⇔ ⇔ P (−z0.95 < Z < z0.95 ) = 0.90 ⇔ ¶ µ X −μ < 1.645 = 0.90 ⇔ P −1.645 < 3 ¢ ¡ P −1.645 × 3 < X − μ < 1.645 × 3 = 0.90 ⇔ ¢ ¡ P −4.935 < X − μ < 4.935 = 0.90 ⇔ ¢ ¡ P X − 4.935 < μ < X + 4.935 = 0.90 O intervalo aleatório para μ, com probabilidade 0.90, é ¤ £ X − 4.935, X + 4.935 e o intervalo com noventa por cento de confiança para μ é ]250 − 4.935, 250 + 4.935[ , ou seja, ]245.065, 254.935[ . Pode-se, então, concluir que a média do número de computadores vendidos diariamente em Alfalândia pertence ao intervalo ]245.065, 254.935[ com noventa por cento de confiança. Exemplo 3.4.4 O número de telemóveis vendidos diariamente numa das loja da marca FalaBarato tem variância igual a 225. Com o objectivo de analisar o número médio de telemóveis vendidos diariamente nessa loja foi recolhida amostra aleatória de dimensão 100 com média 50 telemóveis. Com base nesta amostra, construa um intervalo, com noventa por cento de confiança, para o número médio de telemóveis vendidos diariamente na loja. Tendo em conta que nada é referido em relação à população (população desconhecida), sendo σ conhecido e n ≥ 30, utiliza-se o resultado (70) presente na página 171, ou seja, ¶ µ σ • . X ∼ N μ, √ n 199 portanto ¶ µ 15 , X ∼ N μ, √ 100 • X ∼ N (μ, 1.5) , • sendo a variável fulcral X −μ • ∼ N (0, 1) . 1.5 Z= Começando a construir o intervalo de confiança, vem ´ ³ P −z1− α < Z < z1− α = 1 − α 2 2 que, como 1 − α = 0.9, ³ ´ P Z ≤ z1− α = P (Z ≤ z0.95 ) = 0.95 ⇔ z0.95 = 1.645. 2 Substituindo este valores no intervalo inicial, obtém-se ⇔ ⇔ ⇔ ⇔ P (−z0.95 < Z < z0.95 ) = 0.90 ⇔ ¶ µ X −μ < 1.645 = 0.90 ⇔ P −1.645 < 1.5 ¢ ¡ P −1.645 × 1.5 < X − μ < 1.645 × 1.5 = 0.90 ⇔ ¢ ¡ P −2.4675 − X < −μ < 2.4675 − X = 0.90 ⇔ ¢ ¡ P X − 2.4675 < μ < X + 2.4675 = 0.90. O intervalo aleatório para μ, com probabilidade 0.90, é ¤ £ X − 2.4675, X + 2.4675 e o intervalo com noventa por cento de confiança para μ é ]50 − 2.4675, 50 + 2.4675[ , ]47.5325, 52.4675[ . O número médio de telemóveis vendidos diariamente na loja da marca FalaBarato pertence ao intervalo ]47.5325, 52.4675[ com noventa por cento de confiança. 200 3.4.3 Intervalos de confiança para a proporção - População de Bernoulli Considere-se uma população com distribuição de Bernoulli com valor esperado igual a p, isto é, E (X) = p. Se for recolhida uma amostra de dimensão n, como é que se pode construir um intervalo com (1 − α) × 100 por cento de confiança para p? Como estimador de p tem-se p̂ que, se n ≥ 30, pode-se utilizar a fórmula (71) presente na página 174, ou seja, • p̂ ∼ N à r p, p (1 − p) n ! . Assim, a variável aleatória fulcral a utilizar será Z=r p̂ − p p (1 − p) n • ∼ N (0, 1) . Em primeiro lugar determina-se um intervalo onde a variável aleatória Z pertença com probabilidade 1 − α, sendo este intervalo representado por ³ ´ P −z1− α < Z < z1− α = 1 − α 2 2 que, resolvendo em ordem a p, obtém-se ⎛ ⎞ ´ ³ ⎜ ⎟ p̂ − p α < r α⎟ = 1 − α −z < z P −z1− α < Z < z1− α = 1 − α ⇔ P ⎜ 1− ⎠ ⎝ 1− 2 2 2 2 p (1 − p) n cuja resolução não é muito simples. Assim, tendo em conta que a causa desta dificuldade é a raiz que contém o parâmetro p no denominador, substitui-se o parâmetro pelo seu estimador (p̂). Com esta substituição o parâmetro só aparece no numerador o que já não traz nenhum problema para a resolução desta dupla inequação. Fazendo a substituição do parâmetro pelo 201 seu estimador dentro da raiz obtém-se ⎛ ⎞ ⎜ ⎟ p̂ − p ⎟ P⎜ ⎝−z1− α2 < r p̂ (1 − p̂) < z1− α2 ⎠ = 1 − α ⇔ n à ! r r p̂ (1 − p̂) p̂ (1 − p̂) ⇔ P −z1− α < p̂ − p < z1− α =1−α ⇔ 2 2 n n ! à r r p̂ (1 − p̂) p̂ (1 − p̂) < p < p̂ + z1− α = 1 − α. ⇔ P p̂ − z1− α 2 2 n n O intervalo aleatório para p, com probabilidade 1 − α, é # " r r p̂ (1 − p̂) p̂ (1 − p̂) p̂ − z1− α , p̂ + z1− α 2 2 n n e o intervalo com (1 − α) × 100 por cento de confiança para p é dado por # " r r p̂ (1 − p̂) p̂ (1 − p̂) p̂ − z1− α , p̂ + z1− α . 2 2 n n Exemplo 3.4.5 Com o objectivo de analisar a proporção de habitantes que são favoráveis à construção de um novo estádio municipal, foi recolhida uma amostra aleatória com n = 100 e p̂ = 0.8. Com base nesta amostra, construa um intervalo com noventa e cinco por cento de confiança para a proporção de habitantes favoráveis à construção em toda a população. Considerando que estamos perante uma população de Bernoulli (pois estamos a trabalhar com proporções) utiliza-se a equação (71) presente na página 174, ou seja, ! à r p (1 − p) • p̂ ∼ N p, , n então, a variável fulcral Z pode ser descrita por Z=r p̂ − p p (1 − p) n • ∼ N (0, 1) . Assim, o intervalo aleatório para p pode ser determinado através de ³ ´ P −z1− α < Z < z1− α = 1 − α 2 2 202 que, como α α = 0.025 ⇔ 1 − = 0.975, vem 2 2 P (Z ≤ z0.975 ) = 0.975 ⇔ z0.975 = 1.96 1 − α = 0.95 ⇔ vem ⎛ ⎞ ⎜ ⎟ p̂ − p ⎟ = 0.95. r −1.96 < < 1.96 P (−z0.975 < Z < z0.975 ) = 0.95 ⇔ P ⎜ ⎝ ⎠ p (1 − p) n Após ter substituído o parâmetro p que aparece dentro da raiz do denominador pelo seu estimador p̂, vem ⎛ ⎞ ⎜ ⎟ p̂ − p ⎟ = 0.95 ⇔ r −1.96 < P⎜ < 1.96 ⎝ ⎠ p̂ (1 − p̂) n à ! r r p̂ (1 − p̂) p̂ (1 − p̂) ⇔ P −1.96 < p̂ − p < 1.96 = 0.95 ⇔ n n ! à r r p̂ (1 − p̂) p̂ (1 − p̂) < −p < −p̂ + 1.96 = 0.95 ⇔ ⇔ P −p̂ − 1.96 n n ! à r r p̂ (1 − p̂) p̂ (1 − p̂) < p < p̂ + 1.96 = 0.95 ⇔ P p̂ − 1.96 n n O intervalo aleatório para p, com probabilidade igual 0.95, é # " r r p̂ (1 − p̂) p̂ (1 − p̂) p̂ − 1.96 , p̂ + 1.96 n n e o intervalo com noventa e cinco por cento de confiança para p é " # r r 0.8 (1 − 0.8) 0.8 (1 − 0.8) , 0.8 + 1.96 , 0.8 − 1.96 100 100 ]0.8 − 0.0784, 0.8 + 0.0784[ , ]0.7216, 0.8784[ . Conclui-se, então, que a proporção de habitantes que são favoráveis à construção de um novo estádio municipal pertence ao intervalo ]0.7216, 0.8784[ com noventa e cinco por cento de confiança. 203 3.4.4 Intervalos de confiança para a variância - População com distribuição Normal Considere-se uma população com distribuição Normal com média igual a μ e desvio padrão igual a σ. Se for recolhida uma amostra de dimensão n, como é que se pode construir um intervalo com (1 − α) × 100 por cento de confiança para σ 2 ? Como estimador de σ 2 tem-se SC2 e, nestas condições, pode-se utilizar a fórmula (72) presente na página 177, ou seja, χ2 = (n − 1) SC2 ∼ χ2(n−1) . 2 σ Note-se que esta variável é uma variável fulcral. Para encontrar o intervalo que contém a variável χ2 com probabilidade (1 − α), isto é ¡ ¢ P linf < χ2 < lsup = 1 − α, tem-se que definir o ponto χ2γ como sendo o ponto cuja probabilidade de uma variável aleatória com distribuição Qui-quadrado ser menor (ou igual) é igual a γ, ou seja, χ2γ pode ser definido por ¡ ¢ P χ2 ≤ χ2γ = γ. (85) Note-se que a distribuição Qui-quadrado não é simétrica (esta só assume valores positivos), como tal, serão necessários dois pontos não simétricos, o χ2α e χ21− α . 2 Interpretação gráfica de χ2α e χ2 α . 1− 2 2 204 2 Assim, o intervalo encontrado para χ2 é µ ¶ 2 2 2 P χ α < χ < χ1− α = 1 − α 2 2 que resolvendo a dupla inequação em ordem a σ 2 , obtém-se µ ¶ 2 2 2 P χ α < χ < χ1− α = 1 − α ⇔ 2 2 ¶ µ 2 (n − 1) SC 2 2 < χ1− α = 1 − α ⇔ ⇔ P χα < σ2 2 2 ⎞ ⎛ 2 χ21− α χα 1 2 2 ⎠=1−α⇔ < 2 < ⇔ P⎝ 2 (n − 1) SC σ (n − 1) SC2 ⎞ ⎛ 2 2 (n − 1) SC (n − 1) SC ⎠ < σ2 < = 1 − α. ⇔ P⎝ 2 χ1− α χ2α 2 2 O intervalo aleatório para σ 2 , com probabilidade 1 − α, é igual a ⎡ ⎤ 2 2 ⎦ (n − 1) SC , (n − 1) SC ⎣ χ21− α χ2α 2 2 e o intervalo com (1 − α) × 100 por cento de confiança para σ 2 é definido por ⎡ ⎤ 2 2 ⎦ (n − 1) sC , (n − 1) sC ⎣ . χ21− α χ2α 2 2 No caso de se pretender um intervalo de confiança para o desvio padrão (σ), o intervalo com (1 − α) × 100 por cento de confiança é dado por ⎡ ⎤v v u 2 u 2 (n − 1) sC u (n − 1) sC ⎣ ⎦u t ,t . χ21− α χ2α 2 2 Exemplo 3.4.6 Os salários da empresa BoaVida seguem uma distribuição Normal. Com base numa amostra aleatória de dimensão 101 com média igual a 750 euros e variância igual a 10100, construa um intervalo de confiança para a variância dos salários da empresa BoaVida com noventa e cinco por cento de confiança. 205 Como o parâmetro em análise é σ 2 e a população tem distribuição Normal, utiliza-se a variável fulcral χ2 = (n − 1) SC2 ∼ χ2(n−1) , σ2 que como n = 101, χ2 = 100SC2 ∼ χ2(100) . σ2 Primeiro determina-se o intervalo aleatório para a variável aleatória χ2 com probabilidade 0.95 (1 − α = 0.95) P (linf < Z < lsup ) = 0.95 como fora deste intervalo fica 0.05 de probabilidade, esta será dividida, sendo 0.025 inferior a linf e 0.025 superior a lsup . Assim sendo, o intervalo pretendido é ¡ ¢ P χ20.025 < χ2 < χ20.975 = 0.95 onde χ20.975 e χ20.025 podem ser determinados recorrendo às tabelas. ¢ ¡ P Z ≤ χ20.025 = 0.025 ⇔ χ20.025 = 74.222 ¡ ¢ P Z ≤ χ20.975 = 0.975 ⇔ χ20.975 = 129.56 Interpretação gráfica de χ20.025 e de χ20.975 . 206 Assim ⇔ ⇔ ⇔ ⇔ ¡ ¢ P χ20.025 < χ2 < χ20.975 = 0.95 ⇔ ¶ µ 100SC2 < 129.56 = 0.95 ⇔ P 74.222 < σ2 ¶ µ 1 129.56 74.222 = 0.95 ⇔ < 2 < P 100SC2 σ 100SC2 µ ¶ 100 2 100 2 2 P = 0.95 ⇔ S <σ < S 129.56 C 74.222 C ¢ ¡ P 0.77184SC2 < σ 2 < 1.3473SC2 = 0.95. O intervalo aleatório para σ2 , com probabilidade 0.95, é ¤ £ 0.77184SC2 , 1.3473SC2 e o intervalo, com noventa e cinco por cento de confiança, para σ 2 é ]0.77184 × 10201, 1.3473 × 10201[ , ou seja, ]7873.5, 13744[ pois SC2 = n 2 101 s = × 10100 = 10201. n−1 100 A variância dos salários da empresa BoaVida pertence ao intervalo ]7873.5, 13744[ com noventa e cinco por cento de confiança. Exemplo 3.4.7 O tempo que uma máquina, da empresa BigBaloones, demora a encher cem balões segue uma distribuição Normal. Com base numa amostra aleatória de dimensão 25 com média igual a 500 segundos e variância igual a 216, construa um intervalo, com noventa por cento de confiança, para o desvio padrão do tempo que a máquina demora a encher cem balões. Como o parâmetro em análise é σ 2 e a população tem distribuição Normal, utiliza-se a seguinte variável fulcral χ2 = (n − 1) SC2 ∼ χ2(n−1) , σ2 207 como n = 25, vem χ2 = 24 × SC2 ∼ χ2(24) . σ2 Assim, determina-se o intervalo para a variável aleatória χ2 com probabilidade 0.90, sendo o intervalo pretendido ¡ ¢ P χ20.05 < χ2 < χ20.95 = 0.90, que recorrendo à tabela ⇔ ⇔ ⇔ ⇔ ¢ ¡ P 13.848 < χ2 < 36.415 = 0.90 ⇔ µ ¶ 24 × SC2 P 13.848 < < 36.415 = 0.90 ⇔ σ2 ¶ µ 24 × SC2 24 × SC2 2 <σ < = 0.90 ⇔ P 36.415 13.848 Ãr ! r 24 × SC2 24 × SC2 P <σ< = 0.90 ⇔ 36.415 13.848 ! Ãr r 24 24 SC < σ < SC = 0.90. P 36.415 13.848 O intervalo aleatório para σ, com probabilidade 0.90, é #r " r 24 24 SC , SC 36.415 13.848 e como s2C = √ n 2 25 s = × 216 = 225 ⇒ sC = 225 = 15 n−1 24 o intervalo com noventa por cento de confiança para σ é #r " r 24 24 × 15, × 15 , 36.415 13.848 ]12.177, 19.747[ . O desvio padrão do tempo que a máquina demora a encher cem balões pertence ao intervalo ]12.177, 19.747[ com noventa por cento de confiança. 208 3.4.5 Intervalos de confiança para a média - σ desconhecido e população com distribuição Normal Considere-se uma população com distribuição Normal com média igual a μ e desvio padrão igual a σ (desconhecido). Se for recolhida uma amostra de dimensão n, como é que se pode construir um intervalo com (1 − α) × 100 por cento de confiança para μ? Como estimador de μ tem-se X e, nestas condições, utiliza-se a fórmula (78) presente na página 182, ou seja, X −μ ∼ t(n−1) SC √ n que é uma variável fulcral. Para encontrar o intervalo que contém a variável T , com probabiT = lidade 1 − α, define-se o ponto tγ como sendo o ponto cuja probabilidade de a variável T ser inferior (ou igual) é igual a γ, ou seja, P (T ≤ tγ ) = γ. (86) Note-se que a distribuição t-Student, tal como a distribuição Normal, é simétrica, como tal utilizam-se dois pontos simétricos, o −t1− α e t1− α . 2 2 Interpretação gráfica de t α . 1− 2 Assim, determina-se o intervalo ³ ´ P −t1− α ≤ T ≤ t1− α = 1 − α 2 2 209 e resolve-se a dupla inequação em ordem a μ, obtendo-se ³ ´ α α P −t1− ≤ T ≤ t1− =1−α ⇔ 2 2 ⎛ ⎞ ⎜ ⎟ X −μ α < α⎟ = 1 − α ⇔ −t ⇔ P⎜ < t 1− ⎠ ⎝ 1− 2 S 2 √C n ¶ µ SC SC =1−α ⇔ ⇔ P −t1− α √ < X − μ < t1− α √ 2 2 n n µ ¶ SC SC ⇔ P X − t1− α √ < μ < X + t1− α √ = 1 − α. 2 2 n n O intervalo aleatório para μ, com probabilidade 1 − α, é ¸ ∙ SC SC X − t1− α √ , X + t1− α √ 2 2 n n e o intervalo com (1 − α) × 100 por cento de confiança para μ é dado por ∙ ¸ SC SC x − t1− α √ , x + t1− α √ . 2 2 n n Exemplo 3.4.8 O tempo que um carro demora a passar determinada ponte tem distribuição Normal. Com base numa amostra aleatória de dimensão 11 onde se obteve uma variância igual a 110 e uma média igual a 80 segundos, construa um intervalo, com noventa e cinco por cento de confiança, para o tempo médio que um carro demora a passar a ponte. Como o parâmetro em análise é μ, a população possui distribuição Normal e σ é desconhecido, utiliza-se a variável fulcral T = X −μ ∼ t(n−1), SC √ n que, como n = 11 e s2C = √ n 2 11 s = × 110 = 121 ⇒ sC = 121 = 11, n−1 10 vem T = X −μ X −μ ∼ t(10) . = √ 11 11 √ 11 210 O intervalo, com probabilidade 0.95, para a variável T é P (−t0.975 < T < t0.975 ) = 0.95 que recorrendo às tabelas obtém-se Interpretação gráfica de −t0.975 e de t0.975 . P (−2.2281 < T < 2.2281) = 0.95 ⇔ µ ¶ X −μ ⇔ P −2.2281 < √ < 2.2281 = 0.95 ⇔ 11 ³ √ √ ´ ⇔ P X − 2.2281 11 < μ < X + 2.2281 11 = 0.95 ⇔ ¢ ¡ ⇔ P X − 7.3898 < μ < X + 7.3898 = 0.95. O intervalo aleatório para μ, com probabilidade 0.95, é £ ¤ X − 7.3898, X + 7.3898 e o intervalo, com noventa e cinco por cento, de confiança para μ é ]80 − 7.3898, 80 + 7.3898[ , ]72.6102, 87.3898[ . O tempo médio que um carro demora a passar a ponte pertence ao intervalo ]72.6102, 87.3898[ com noventa e cinco por cento de confiança. 211 Exemplo 3.4.9 O tempo que um estudante demora a resolver um determinado exercício de estatística possui distribuição normal. Com base numa amostra aleatória de dimensão 400 onde se obteve uma variância igual a 39900 e uma média igual a 1000 segundos, construa um intervalo, com noventa e nove por cento de confiança, para o tempo médio que um estudante demora a resolver o exercício. Como o parâmetro em análise é μ e a população tem distribuição Normal sendo σ desconhecido, utiliza-se a variável fulcral T = X −μ ∼ t(n−1) . SC √ n Substituindo n = 400 e s2C = √ n 2 400 s = × 39900 = 40000 ⇒ sC = 40000 = 200 n−1 399 vem X −μ X −μ ∼ t(399) . = 200 10 √ 400 Como a distribuição tem pelo menos trinta graus de liberdade, pode-se aproximar à distribuição T = Normal, obtendo-se Z= X −μ ∼N ˙ (0, 1) . 10 O intervalo, com probabilidade 0.99, para a variável Z é P (−z0.995 < Z < z0.995 ) = 0.99 que recorrendo às tabelas vem P (−2.576 < Z < 2.576) = 0.99 ⇔ ¶ µ X −μ < 2.576 = 0.99 ⇔ ⇔ P −2.576 < 10 ¢ ¡ ⇔ P X − 25.76 < μ < X + 25.76 = 0.99. O intervalo aleatório para μ, com probabilidade 0.99, é £ ¤ X − 25.76, X + 25.76 212 e o intervalo com noventa e nove por cento de confiança para μ é ]1000 − 25.76, 1000 + 25.76[ , ]9974.24, 1025.76[ . O tempo médio que um estudante demora a resolver o exercício de estatística pertence ao intervalo ]9974.24, 1025.76[ com noventa e nove por cento de confiança. Exemplo 3.4.10 A duração dos telemóveis da marca FalaBarato possui distribuição Normal. Para analisar a duração destes telemóveis foi recolhida uma amostra aleatória de dimensão 400 com média igual a 1000 horas e variância 1596. Construa um intervalo, com noventa e nove por cento de confiança, para a duração média dos telemóveis. Como o σ é desconhecido e a população possui distribuição Normal a variável que vai ser utilizada é T = X −μ ∼ t(n−1) . SC √ n A variância amostral corrigida é igual a s2C = √ n 2 400 s = × 1596 = 1600 ⇒ sC = 1600 = 40 n−1 399 que substituindo na variável obtém-se T = X −μ X −μ = ∼ t(399) . 40 2 √ 400 mas, como os graus de liberdade da t-Student são superiores a 30, para a determinação do intervalo de o confiança pretendido utiliza-se a aproximação à distribuição Normal. Assim, a variável fulcral a utilizar será X −μ • ∼ N (0, 1) . 2 Z= O intervalo aleatório para μ vai ser determinado através de ´ ³ P −z1− α < Z < z1− α = 1 − α 2 2 213 que, como 1 − α = 0.99 ⇔ α α = 0.005 ⇔ 1 − = 0.995, 2 2 conclui-se que P (Z ≤ z0.995 ) = 0.995 ⇔ z0.995 = 2.576. Substituíndo estes valores no intervalo, obtém-se ⇔ ⇔ ⇔ ⇔ P (−z0.995 < Z < z0.995 ) = 0.99 ⇔ ¶ µ X −μ < 2.576 = 0.99 ⇔ P −2.576 < 2 ¢ ¡ P −2.576 × 2 < X − μ < 2.576 × 2 = 0.99 ⇔ ¢ ¡ P −5.152 − X < −μ < 5.152 − X = 0.99 ⇔ ¢ ¡ P X − 5.152 < μ < X + 5.152 = 0.99. O intervalo aleatório para μ com probabilidade 0.99 é £ ¤ X − 5.152, X + 5.152 e o intervalo com noventa e nove por cento de confiança para μ é ]1000 − 5.152, 1000 + 5.152[ , ]994.848, 1005.152[ , concluindo-se que a duração média dos telemóveis da marca FalaBarato pertence ao intervalo ]994.848, 1005.152[ com noventa e nove por cento de confiança. 214 3.4.6 Procedimento geral para a construção de um intervalo de confiança 1. Identificar o parâmetro em análise e, com base nos conhecimentos de distribuições amostrais, definir a variável aleatória fulcral a utilizar. 2. Escolher o nível de confiança (1 − α). 3. Determinar um intervalo aleatório para a variável fulcral com probabilidade 1 − α. 4. Determinar um intervalo aleatório para o parâmetro com probabilidade 1 − α. 5. Com base numa amostra concreta, determinar o intervalo com (1 − α) × 100 por cento de confiança para o parâmetro. 3.4.7 Quadro resumo dos intervalos de confiança Parâmetro μ μ μ μ p σ2 σ Condições Intervalo de Confiança ¸ ∙ σ σ σ conhecido e população Normal x − z1− α √ , x + z1− α √ 2 2 n n ¸ ∙ σ σ σ conhecido e n ≥ 30 x − z1− α √ , x + z1− α √ 2 2 n n ¸ ∙ sC sC σ desconhecido e população Normal x − t1− α √ , x + t1− α √ 2 2 n n ¸ ∙ sC sC σ desc., população Normal e n > 30 x − z1− α √ , x + z1− α √ 2 2 n n # " r r p̂ (1 − p̂) p̂ (1 − p̂) p̂ − z1− α População Bernoulli e n ≥ 30 , p̂ + z1− α 2 2 n n ⎤ ⎡ 2 2 ⎦ (n − 1) sC , (n − 1) sC ⎣ População Normal χ21− α χ2α 2 2 ⎤ ⎡ v v u u ⎥u (n − 1) s2C u (n − 1) s2C ⎢ População Normal ,t ⎦t ⎣ χ21− α χ2α 2 215 2 3.5 Testes de hipótese Neste capítulo foi analisado o problema de como estimar o valor de um parâmetro desconhecido (média, proporção, variância ou desvio padrão da população) a partir da informação contida numa amostra, quer seja através das estimativas pontuais, quer através dos intervalos de confiança. Porém, muitas situações práticas têm objectivos diferentes, pretendendo-se tomar decisões através da informação amostral. Assim, muitos estudos estatísticos têm como objectivo averiguar, com base na informação contida numa amostra, se determinada hipótese sobre a população é verdadeira ou não. Para determinar se a média de determinada população é superior a cem, será suficiente a média de uma amostra aleatória ser igual a 101? E se a média da amostra for igual a 200, será agora suficiente? A partir de que valor da média da amostra poder-se-á afirmar que a média da população é superior a cem com alguma certeza? É com o objectivo de responder a este tipo de perguntas que existem os testes de hipóteses. Assim, os testes de hipóteses consistem na formulação de uma hipótese sobre um parâmetro desconhecido da população (testes paramétricos) ou sobre a distribuição da população (testes não paramétricos) e na definição de um critério que permita rejeitar ou não rejeitar essa hipótese. Em relação aos testes paramétricos existem, por exemplo, testes em relação ao valor da média, em relação ao valor da variância (ou desvio padrão), em relação ao valor de uma proporção, entre outros. Em relação aos testes não paramétricos, existem os testes que pretendem averiguar se a população tem uma determinada distribuição (de onde se salientam os testes de Normalidade que consistem em testar se a população tem distribuição Normal), os testes de independência entre duas amostras, entre outros. Neste capítulo irão ser apenas abordados os testes paramétricos. 3.5.1 Noções básicas Quando se faz um teste paramétrico a analisa-se a hipótese de um parâmetro da população assumir um determinado valor. A esta hipótese denomina-se por hipótese nula e é representada por H0 . Esta hipótese é uma hipótese simples, ou seja, nela é especificado apenas um valor para o parâmetro, normalmente do tipo H0 : θ = θ0 onde θ representa o parâmetro em análise e θ0 um valor particular desse parâmetro. Este valor (θ0 ) é o valor que se pretende testar se 216 é plausível o parâmetro assumir, não tendo nenhuma relação com os valores observados numa amostra. Para contrapor com a hipótese nula existe a hipótese alternativa que é representada por H1 . Esta hipótese é uma hipótese composta, ou seja, nela é especificado mais de que um valor para o parâmetro. Assim, normalmente, a hipótese alternativa é representada de uma das seguintes formas: H1 : θ 6= θ0 −→ hipótese alternativa bilateral H1 : θ > θ0 −→ hipótese alternativa unilateral (superior) H1 : θ < θ0 −→ hipótese alternativa unilateral (inferior) Exemplos 3.5.1 A empresa DelFonte comercializa garrafas de água de 1500 mililitros. As garrafas são enchidas, através de um processo automático, com uma quantidade de água que tem distribuição Normal com valor médio igual a μ mililitros e desvio padrão igual a 100 mililitros. Observem-se três situações distintas para as hipóteses a testar. 1. Considere-se que a empresa pretende testar se o processo de enchimento das garrafas está a funcionar devidamente, ou seja, se de facto o processo enche as garrafas, em média, com 1500 mililitros. Neste caso as hipóteses a testar seriam: H0 : μ = 1500 versos H1 : μ 6= 1500. 2. Considere-se que a empresa pretende controlar os custos do processo produtivo. Assim, para averiguar se o processo de enchimento está a encher as garrafas com uma quantidade superior à devida, dever-se-ía testar: H0 : μ = 1500 versos H1 : μ > 1500. 3. Considere-se que um conjunto de consumidores afirmam que as garrafas de água DelFonte possuem menos quantidade de água que a devida. Neste caso, as hipóteses a testar seriam: H0 : μ = 1500 versos H1 : μ < 1500. 217 Após a definição das hipóteses a testar define-se um processo de decisão para, com base numa amostra, rejeitar-se ou não H0 . Este procedimento que, com base na informação contida numa amostra, conduz a uma decisão acerca das hipótese é o principal objectivo dos teste de hipóteses. Assim, em primeiro lugar, através dos conhecimentos apreendidos no capítulo nas distribuições amostrais, define-se qual a estatística de teste a utilizar, ou seja, através do parâmetro que se está a analisar e através do contexto do problema, define-se qual o estimador a usar e qual a sua distribuição. Para se poder tomar uma decisão sobre o teste que se está a efectuar, define-se uma região na qual, se a estatística utilizada se situar nela, deve-se rejeitar H0 . Esta região é denominada por região crítica. Definição 3.5.1 (Região crítica e valores críticos) A região na qual a decisão é rejeitar H0 denomina-se por região crítica, sendo os valores limites da região crítica denominados por valores críticos. A região crítica é definida pela hipótese alternativa. Se se pretender testar se a média de uma população é igual a μ0 (H0 : μ = μ0 ), como o parâmetro em análise é a média da população, o estimador que será utilizado no teste será a média da amostra. No caso de a hipótese alternativa consistir na média da população ser diferente de μ0 (H1 : μ 6= μ0 ), deve-se rejeitar H0 se o valor da média amostral for suficientemente distante de μ0 (quer seja inferior ou superior). No caso de a hipótese alternativa ser a média superior a μ0 (H1 : μ > μ0 ) só se deve rejeitar H0 se o valor da média amostral for suficientemente distante e superior a μ0 . Pelo mesmo raciocínio, se a hipótese alternativa for a média ser inferior a μ0 (H1 : μ < μ0 ) deve-se rejeitar H0 nos casos em que o valor da média amostral seja suficientemente inferior a μ0 . Exemplos 3.5.2 No contexto do exemplo anterior (3.5.1), como se poderia definir um processo para decidir por uma das hipóteses. Em primeiro lugar, como o parâmetro em análise é μ deveria-se utilizar o estimador X. 1. No primeiro caso em que as hipótese são H0 : μ = 1500 versos H1 : μ 6= 1500, 218 como a hipótese alternativa é bilateral, deve-se rejeitar H0 se o valor da média da amostra for suficientemente distante de 1500 mililitros. Assim poder-se-ía definir a região crítica por Região crítica: X < 1500 − ε1 ou X > 1500 + ε1 2. No segundo caso as hipótese em análise são H0 : μ = 1500 versos H1 : μ > 1500, então, como a hipótese alternativa é unilateral superior, deve-se rejeitar H0 se a média amostral for suficientemente superior a 1500 mililitros. Assim poder-se-ía definir a região crítica por Região crítica: X > 1500 + ε2 3. No terceiro caso as hipótese em análise são H0 : μ = 1500 versos H1 : μ < 1500, então, como a hipótese alternativa é unilateral inferior, deve-se rejeitar H0 se a média amostral for suficientemente inferior a 1500 mililitros. Assim poder-se-ía definir a região crítica por Região crítica: X < 1500 − ε3 . No entanto, apesar de se conhecer como deverá ser a região crítica, falta definir o que significa suficientemente distante de H0 para a poder rejeitar, ou seja, quais os valores que ε1 , ε2 e ε3 assumem. Para definir estes valores deve-se ter em conta os possíveis erros que se pode cometer quando se efectua um teste de hipóteses. Estes erros podem ser esquematizados através do seguinte quadro. 219 Quadro 2: Erros de um teste de hipóteses Situação Decisão H0 é verdadeira H0 é falsa Rejeitar H0 Erro do tipo I Decisão P (Erro do tipo I) = α correcta Decisão Erro do tipo II correcta P (Erro do tipo II) = β Não Rejeitar H0 Assim, quando se toma uma decisão num teste de hipótese existem dois tipos de erros que podem ser cometidos. O erro do tipo I comete-se quando se rejeita a hipótese nula e esta é verdadeira, sendo a sua probabilidade representada por α e denominada por nível de significância. Definição 3.5.2 (Erro do tipo I) O erro do tipo I ou erro de primeira espécie é o erro que se comete quando se rejeita a hipótese nula (H0 ) e esta é verdadeira. Definição 3.5.3 (Nivel de significância) Denomina-se por nível de significância à probabilidade de se cometer um erro do tipo I sendo representada por α, ou seja, α = P (rejeitar H0 |H0 verdadeira) . (87) O segundo erro possível de se cometer é o erro do tipo II, quando não se rejeita a hipótese nula e esta é falsa, sendo a sua probabilidade representada por β. À probabilidade de não se cometer um erro do tipo II (1 − β) denomina-se por potência do teste. Definição 3.5.4 (Erro do tipo II) O erro do tipo II ou erro de segunda espécie é o erro que se comete quando não se rejeita a hipótese nula (H0 ) e esta é falsa. 220 Definição 3.5.5 (Potência do teste) Denomina-se por potência do teste à probabilidade de não se cometer um erro do tipo II. Representando por β a probabilidade de se cometer um erro do tipo II, ou seja, β = P (não rejeitar H0 |H0 falsa) , (88) então a potência do teste é igual a 1 − β. Nota: A probabilidade de se cometer um erro, quando se faz um teste de hipóteses, não é a soma dos dois tipos de erros indicados, pois o erro do tipo I só é cometido quando a hipótese nula é verdadeira e o erro do tipo II só é cometido quando a hipótese nula é falsa. Assim, consoante a hipótese nula seja verdadeira ou não, a probabilidade de, no teste de hipótese, se cometer um erro será apenas uma destas probabilidades e não a soma das duas. Naturalmente, quando se faz um teste de hipótese, não se sabe se a hipótese nula é verdadeira (caso contrário não se iria efectuar o teste pois já se saberia a verdade) então não se sabe qual será a probabilidade de se cometer um erro, pois se H0 for verdadeira comete-se um erro com probabilidade α e se H0 for falsa comete-se um erro com probabilidade β. Exemplos 3.5.3 Na continuação dos exemplo 3.5.1 e 3.5.2 das garrafas de água DelFonte, se ε1 = 10, ε2 = 7 e ε3 = 6, como se poderia calcular a probabilidade de cada um dos erros? Considere-se que para efectuar este teste de hipótese foi recolhida uma amostra de dimensão 400, n = 400. Em primeiro lugar, como a população tem distribuição Normal com σ conhecido (σ = 100) e o parâmetro em análise é μ utiliza-se o estimador X, que, nestas condições, ¶ µ σ , X ∼ N μ, √ n ou seja, ¶ µ 100 , X ∼ N μ, √ 400 X ∼ N (μ, 5) . 221 1. Considerando o teste H0 : μ = 1500 versos H1 : μ 6= 1500, com região crítica Região crítica: X < 1500 − ε1 ou X > 1500 + ε1 onde ε1 = 10, ou seja, Região crítica: X < 1490 ou X > 1510, a probabilidade de se cometer um erro de primeira espécie (nível de significância do teste) é dada por α = P (rejeitar H0 |H0 verdadeiro) = ¢ ¡ = P X < 1490 ∨ X > 1510|μ = 1500 = ¢ ¡ = 1 − P 1490 ≤ X ≤ 1510|μ = 1500 = ¶ µ X − 1500 1510 − 1500 1490 − 1500 ≤ ≤ |μ = 1500 = 1−P 5 5 5 que, como nesta probabilidade H0 é verdadeira (μ = 1500), tem-se que X ∼ N (1500, 5) , ou seja Z = X − 1500 5 logo µ ¶ X − 1500 1490 − 1500 1510 − 1500 α = 1−P ≤ ≤ |μ = 1500 = 5 5 5 = 1 − P (−2 ≤ Z ≤ 2) = 1 − [φ (2) − φ (−2)] = 1 − φ (2) + 1 − φ (2) = = 1 − 0.9772 + 1 − 0.9772 = 0.0456. A probabilidade de se cometer um erro de segunda espécie é dada por ¡ ¢ β = P (não rejeitar H0 |H0 falsa) = P 1490 ≤ X ≤ 1510|μ 6= 1500 . 222 Note-se que, se H0 é falsa, considera-se que a hipótese alternativa é verdadeira. Contudo, esta hipótese é composta, ou seja, existe a possibilidade de o parâmetro assumir mais do que um valor. Assim, não sabendo qual o verdadeiro valor do parâmetro, é impossível determinar a sua probabilidade. Para exemplificar a dependência desta probabilidade do verdadeiro valor do parâmetro, considerando que H1 é verdadeira, vão ser utilizados dois valores para μ, sejam μ = 1510 e μ = 1520. Para μ = 1510 tem-se ¢ ¡ β = P 1490 ≤ X ≤ 1510|μ = 1510 = ¶ µ X − 1510 1510 − 1510 1490 − 1510 ≤ ≤ |μ = 1510 = = P 5 5 5 µ ¶ 1490 − 1510 1510 − 1510 = P ≤Z≤ = P (−4 ≤ Z ≤ 0) = 5 5 = φ (0) − φ (−4) = φ (0) − 1 + φ (4) = 0.5 − 1 + 1 = 0.5, sendo a potência do teste igual a 1 − β = 1 − 0.5 = 0.5. Para μ = 1520 tem-se ¢ ¡ β = P 1490 ≤ X ≤ 1510|μ = 1520 = ¶ µ X − 1520 1510 − 1520 1490 − 1520 ≤ ≤ |μ = 1520 = = P 5 5 5 ¶ µ 1510 − 1520 1490 − 1520 ≤Z≤ = P (−6 ≤ Z ≤ −2) = = P 5 5 = φ (−2) − φ (−6) = 1 − φ (2) − 1 + φ (6) = 1 − 0.9772 − 1 + 1 = 0.0228, sendo a potência do teste igual a 1 − β = 1 − 0.0228 = 0.9772. Note-se que, se fosse considerado μ = 1490, o valor obtido seria o mesmo que para μ = 1510, sendo o valor obtido para μ = 1480 igual ao valor obtido para μ = 1520 pois a distribuição é simétrica. Naturalmente, quanto mais afastado de 1500 estiver o verdadeiro 223 valor de μ, maior é a potência do teste, ou seja, menor será a probabilidade de se cometer um erro do tipo II. 2. No segundo caso as hipótese em análise são H0 : μ = 1500 versos H1 : μ > 1500, sendo a região crítica Região crítica : X > 1500 + ε2 que, como ε2 = 7, vem Região crítica : X > 1507. A probabilidade de se cometer um erro de primeira espécie (nível de significância do teste) é dada por α = P (rejeitar H0 |H0 verdadeiro) = µ ¶ ¢ ¡ X − 1500 1507 − 1500 > |μ = 1500 = = P X > 1507|μ = 1500 = P 5 5 ¶ µ 1507 − 1500 = 1 − φ (1.4) = 1 − 0.9192 = 0.0808. = P Z> 5 A probabilidade de se cometer um erro da segunda espécie é dada por ¡ ¢ β = P (não rejeitar H0 |H0 falsa) = P X ≤ 1507|μ > 1500 no entanto, como a hipótese alternativa é uma hipótese composta, para exemplificar, determina-se o valor de β supondo que μ = 1525. µ ¶ ¢ ¡ X − 1525 1507 − 1525 β = P X ≤ 1507|μ = 1525 = P ≤ |μ = 1525 = 5 5 ¶ µ 1507 − 1525 = P (Z ≤ −3.6) = 1 − φ (3.6) = = P Z≤ 5 = 1 − 0.9998 = 0.0002, sendo a potência do teste igual a 1 − β = 1 − 0.002 = 0.9998. 224 3. Considerando que pretende-se testar H0 : μ = 1500 versos H1 : μ < 1500. sendo a região crítica Região crítica : X < 1500 − ε3 que, como ε3 = 6, tem-se Região crítica : X < 1494, a probabilidade de se cometer um erro do tipo I (nível de significância do teste) é dada por α = P (rejeitar H0 |H0 verdadeiro) = ¶ µ ¢ ¡ X − 1500 1494 − 1500 < |μ = 1500 = = P X < 1494|μ = 1500 = P 5 5 ¶ µ 1494 − 1500 = φ (−1.2) = 1 − φ (1.2) = = P Z< 5 = 1 − 0.8849 = 0.1151. A probabilidade de se cometer um erro do tipo II é dada por ¡ ¢ β = P (não rejeitar H0 |H0 falsa) = P X ≥ 1494|μ < 1500 no entanto, como a hipótese alternativa é uma hipótese composta, para exemplificar, determina-se o valor de β supondo que μ = 1480 (note-se que μ < 1500). µ ¶ ¡ ¢ X − 1480 1494 − 1480 β = P X ≥ 1494|μ = 1480 = P ≥ |μ = 1480 = 5 5 ¶ µ 1494 − 1480 = P (Z ≥ 2.8) = 1 − φ (2.8) = = P Z≥ 5 = 1 − 0.9974 = 0.0026, sendo a potência do teste igual a 1 − β = 1 − 0.0026 = 0.9974. 225 Nota: Nestes exemplos poder-se-íam mudar as probabilidades de se cometer um erro do tipo I e do tipo II alterando a região crítica. Assim, neste último exemplo, o que é que iria acontecer se o valor de ε3 fosse aumentado para 10? Como as hipóteses a testar são H0 : μ = 1500 versos H1 : μ < 1500, sendo, neste caso, a região crítica Região crítica : X < 1500 − ε3 que, como ε3 = 10, tem-se Região crítica : X < 1490, a probabilidade de se cometer um erro do tipo I é dada por α = P (rejeitar H0 |H0 verdadeiro) = µ ¶ ¢ ¡ X − 1500 1490 − 1500 < |μ = 1500 = = P X < 1490|μ = 1500 = P 5 5 ¶ µ 1490 − 1500 = φ (−2) = 1 − φ (2) = = P Z< 5 = 1 − 0.9772 = 0.0228. A probabilidade de se cometer um erro do tipo II é dada por ¡ ¢ β = P (não rejeitar H0 |H0 falsa) = P X ≥ 1490|μ < 1500 considerando que μ = 1480 (o mesmo valor utilizado anteriormente), ¶ µ ¡ ¢ X − 1480 1490 − 1480 β = P X ≥ 1490|μ = 1480 = P ≥ |μ = 1480 = 5 5 µ ¶ 1490 − 1480 = P Z≥ = P (Z ≥ 2) = 1 − φ (2) = 5 = 1 − 0.9772 = 0.0228, sendo a potência do teste igual a 1 − β = 1 − 0.0228 = 0.9772. 226 Desta análise comparativa pode-se concluir que quando se diminui a região de rejeição, o nível de significância diminuiu e a potência do teste também diminuiu, ou seja, quando se diminui a probabilidade de um tipo de erro a probabilidade do outro tipo de erro aumenta. Do estudo do exemplo anterior salientem-se duas ideias. A primeira é que, se a região crítica for alterada, o nível de significância e a potência do teste também serão alterados. Se a região crítica for diminuída, o nível de significância diminui, ou seja, a probabilidade de se cometer um erro do tipo I diminui. No entanto, a potência do teste também diminui, ou seja, a probabilidade de se cometer um erro do tipo II aumenta. Portanto, se num teste o nível de significância diminui a potência do teste também diminui, ou seja, se diminuirmos a probabilidade de se cometer um erro de um tipo estamos a aumentar a probabilidade de ocorrência de um erro do outro tipo. Na realização de um teste de hipótese, o objectivo é tentar diminuir ambas as probabilidades de ocorrência de erros, no entanto, como foi referido, é impossível minimizar ambas as probabilidades em simultâneo, pois quando uma aumenta a outra diminui. A segunda ideia a salientar é a facilidade de controlar (ou determinar) a probabilidade de ocorrência de um erro do tipo I (α), sendo, pelo contrário, impossível controlar a probabilidade de ocorrência de um erro do tipo II. Esta probabilidade depende do valor que o parâmetro assume e como, neste erro, considera-se que a hipótese alternativa é verdadeira, existem então infinitos valores para o valor do parâmetro, dependendo o valor da probabilidade de ocorrência de um erro do tipo II do valor que for considerado para o parâmetro. Conclusão 1. Se diminuirmos a probabilidade de um tipo de erro a probabilidade do outro tipo de erro aumenta; 2. Pode-se controlar a probabilidade de ocorrência de um erro da primeira espécie (controlar α - nível de significância) mas não se consegue controlar a probabilidade de ocorrência de um erro da segunda espécie (β). 227 Por consequência destas duas conclusões, os teste de hipóteses são efectuados fixando a priori o nível de significância, ou seja, fixando previamente a probabilidade de ocorrência de um erro do tipo I. Assim, tem-se como objectivo controlar o erro do tipo I (pelo facto de este ser facilmente controlado) deixando o erro do tipo II variar livremente. Como tal, a possibilidade de se rejeitar a hipótese nula (H0 ) sendo esta verdadeira é controlada pois a sua probabilidade é fixada, sendo a possibilidade de não se rejeitar a hipótese nula (H0 ) sendo esta falsa não controlada. Por esta razão, a hipótese nula só é rejeitada se a informação contida na amostra apresentar fortes indícios contra a hipótese nula. Saliente-se, então, que ao efectuar um teste de hipótese onde a decisão for não rejeitar H0 não significa necessariamente que esta seja verdadeira. Significa sim que não existem provas suficientes para rejeitar a hipótese nula, sendo esta a razão que, normalmente na teoria dos testes de hipóteses utiliza-se “não rejeitar H0 ” em vez de “aceitar H0 ” pois apenas significa que a amostra não apresenta evidência suficiente para rejeitar H0 . Exemplos 3.5.4 Considere-se o exemplo 3.5.1 das garrafas de água DelFonte. Com base numa amostra aleatória de dimensão 400 com média igual a 1509 (x = 1509), efectue os três testes propostos considerando um nível de significância igual a cinco por cento (α = 0.05). Tendo em conta que já se conhecem as hipóteses a testar e o nível de significância, deve-se determinar qual a estatística de teste a utilizar. Nesta condições, população com distribuição Normal e σ conhecido (σ = 100), utiliza-se ¶ µ σ , X ∼ N μ, √ n sendo a estatística de teste Z= X −μ σ ∼ N (0, 1) , √ n que, como σ = 100 e n = 400, vem Z= X −μ X −μ = ∼ N (0, 1) . 100 5 √ 400 228 1. Pretende-se testar H0 : μ = 1500 versos H1 : μ 6= 1500. A hipótese alternativa é bilateral, como tal, a região crítica também deve ser bilateral. Como o valor do nível de significância é 0.05, determina-se uma região de rejeição tal que a probabilidade de rejeitar H0 , sendo esta verdadeira, seja igual a 0.05. Assim, como a estatística do teste tem distribuição Normal e a região de teste é bilateral (rejeita-se H0 para valores muito altos e para valores muito baixos), a região crítica será da forma ilustrada nos seguintes gráficos. Interpretação gráfica da região crítica de um teste bilateral Como α = 0.05, recorrendo à tabela, concluem-se os valores pretendidos. Interpretação gráfica da região crítica de um teste bilateral com α = 0.05. Assim, representado por Zobs. o valor observado pela estatística de teste, rejeita-se H0 se: 229 Zobs. < −1.96 ∨ Zobs. > 1.96. O valor de Zobs. é obtido através da estatística de teste considerando que H0 é verdadeira, logo μ = 1500, então Zobs. = X − μ0 X − 1500 = 5 5 que como x = 1509, obtém-se zobs. = x − 1500 1509 − 1500 = = 1.8. 5 5 Assim, como zobs. não pertence à região crítica, não se rejeita H0 . A região de rejeição também pode ser expressa em termos de X, pois Zobs. < −1.96 ∨ Zobs. > 1.96 ⇔ X − 1500 X − 1500 < −1.96 ∨ > 1.96 ⇔ ⇔ 5 5 ⇔ X < 1500 − 1.96 × 5 ∨ X > 1500 + 1.96 × 5 ⇔ ⇔ X < 1490.2 ∨ X > 1509.8 Como na amostra foi obtido x = 1509 que não pertence à região de rejeição então não se rejeita H0 . Assim, não existe evidência estatística para afirmar que a média da população seja diferente de 1500 mililitros. 2. Pretende-se testar H0 : μ = 1500 versos H1 : μ > 1500. Como o teste é unilateral superior a região crítica também deve ser unilateral, devendo-se rejeitar H0 se o valor observado na estatística for muito elevado. Como o valor do nível de significância é 0.05 determina-se uma região de rejeição tal que a probabilidade de rejeitar H0 , sendo esta verdadeira, seja igual a 0.05. Assim, como a estatística do teste tem distribuição Normal e a região de teste é unilateral superior (rejeita-se H0 unicamente para valores muito altos), a região crítica será da forma ilustrada nos seguintes gráficos. 230 Interpretação gráfica da região crítica de um teste unilateral superior Aplicando α = 0.05 deduzem-se os valores críticos recorrendo à tabela. Interpretação gráfica da região crítica de um teste unilateral superior com α = 0.05. A região crítica será: rejeitar H0 se Zobs. > 1.645 ou, em termos de X, rejeitar H0 se X > 1508.225, pois Zobs. > 1.645 ⇔ X − 1500 > 1.645 ⇔ X > 1508.225. 5 Determinando zobs. , zobs. = x − 1500 1509 − 1500 = = 1.8, 5 5 verifica-se que zobs. > 1.645 (ou x = 1509 > 1508.225), logo rejeita-se H0 , ou seja, conclui-se que existe evidência estatística para afirmar que a média da população é superior a 1500 mililitros. 231 Figura 9: Interpretação gráfica da região crítica de um teste unilateral inferior. 3. No terceiro exemplo as hipóteses em análise são H0 : μ = 1500 versos H1 : μ < 1500. Como o teste é unilateral inferior a região crítica também deve ser unilateral, devendo-se rejeitar H0 se o valor observado na estatística for muito baixo. Assim, a região crítica será da forma apresentada no seguinte gráfico.Utilizando o nível de significância pretendido (α = 0.05), recorre-se à tabela para determinar o seu valor. Interpretação gráfica da região crítica de um teste unilateral inferior com α = 0.05. A região crítica deste teste é: rejeitar H0 se Zobs. < −1.645 ou, para obter em termos X, Zobs. < −1.645 ⇔ X − 1500 < −1.645 ⇔ X < 1491.775 5 232 sendo rejeitar H0 se X < 1491.775. Determinando zobs. , zobs. = x − 1500 1509 − 1500 = = 1.8, 5 5 verifica-se que zobs. > −1.645 (ou x = 1509 > 1491.775), concluindo-se que não se deve rejeitar H0 , ou seja, que não existe evidência estatística para afirmar que a média da população é inferior a 1500 mililitros. Uma outra forma de efectuar um teste de hipótese, chegando naturalmente à mesma conclusão, é calculando o seu p-value e comparando o valor obtido com o nível de significância do teste. Definição 3.5.6 (p-value) O p-value é a probabilidade de observar uma amostra mais desfavorável para a hipótese nula (H0 ) do que aquela que foi observada, considerando que a hipótese nula é verdadeira. Nos caso em que o p-value assume um valor pequeno significa que a probabilidade de haver uma amostra mais desfavorável que a observada, sob a hipótese de que H0 ser verdadeira, é pequena, logo deve-se rejeitar H0 . A definição de uma probabilidade pequena para rejeitar H0 é feita pelo nível de significância. Desta forma, se o valor de p-value for inferior ao nível de significância deve-se rejeitar H0 , portanto, conhecendo o valor do p-value torna-se fácil tomar a decisão de rejeitar ou não H0 . O p-value tem assumido uma maior importância nos últimas décadas com a evolução dos computadores, pois os softwares da área da estatística fazem testes de hipóteses indicando, ao utilizador, o valor do p-value. Assim, este só tem de comparar o valor obtido com o nível de significância que escolheu. Mas, como calcular o valor de p-value? O cálculo do valor de p-value depende da hipótese alternativa do teste de hipóteses. Para melhor se perceber o cálculo do p-value considere-se que a estatística de teste têm distribuição Normal. Assim, no caso de a hipótese alternativa ser bilateral (H0 : θ = θ0 versos H1 : θ 6= θ0 ) o p-value é determinado por p-value = 2P (Z > |zobs |) , 233 (89) no caso de a hipótese alternativa ser unilateral superior (H0 : θ = θ0 versos H1 : θ > θ0 ) o p-value é determinado por p-value = P (Z > zobs ) , (90) e no caso em que a hipótese alternativa é unilateral inferior (H0 : θ = θ0 versos H1 : θ < θ0 ) o p-value é determinado por p-value = P (Z < zobs ) . (91) Exemplos 3.5.5 Vai-se efectuar os mesmos teste que no exemplo 3.5.4 utilizando o p-value. Tal como no exemplo 3.5.4, a estatística de teste a utilizar, considerando que H0 é verdadeira, é Z= X − 1500 ∼ N (0, 1) 5 que, como o valor da média da amostra é 1509 (x = 1509), o valor observado da estatística de teste é zobs. = x − 1500 1509 − 1500 = = 1.8. 5 5 1. No primeiro caso vai-se testar H0 : μ = 1500 versos H1 : μ 6= 1500. Tendo em conta que a hipótese alternativa é bilateral, vai-se utilizar a fórmula (89) . p-value = 2P (Z > |zobs |) = 2P (Z > |1.8|) = 2P (Z > 1.8) = = 2 × [1 − φ (1.8)] = 2 × [1 − 0.9641] = 0.0718. O valor do p-value é superior ao nível de significância (0.0718 > 0.05 = α), como tal, não se rejeita H0 . 2. No segundo caso vai-se testar H0 : μ = 1500 versos H1 : μ > 1500. 234 A hipótese alternativa é unilateral superior, portanto utiliza-se a fórmula (90) para determinar o valor do p-value. p-value = P (Z > zobs ) = P (Z > 1.8) = 1 − φ (1.8) = = 1 − 0.9641 = 0.0359. Assim, como o p-value é inferior ao nível de significância (0.0359 < α = 0.05) deve-se rejeitar H0 . 3. No terceiro caso as hipóteses em análise são H0 : μ = 1500 versos H1 : μ < 1500. Como o teste é unilateral inferior, a fórmula que vai ser utilizada será a (91). Assim, o p-value é p-value = P (Z < zobs ) = P (Z < 1.8) = φ (1.8) = 0.9641. Considerando que o valor de p-value é superior ao nível de significância (0.9641 > α = 0.05) não se rejeita H0 . 3.5.2 Testes de hipóteses para a média - σ conhecido e população com distribuição Normal Exemplo 3.5.6 A duração dos computadores da marca WorkFast tem distribuição Normal com valor médio igual a μ dias e desvio padrão igual a 80 dias, isto é, X ∼ N (μ, 80). Considere que foi recolhida uma amostra de 64 computadores onde se verificou uma média de 1000 dias e uma variância igual a 6500. 1. Teste, com um nível de significância igual a cinco por cento, se os computadores WorkFast têm uma duração, em média, superior a 980 dias. As hipóteses a testar são H0 : μ = 980 versos H1 : μ > 980. 235 Tendo em consideração que a população tem distribuição Normal e σ é conhecido, utiliza— -se como estatística de teste ¶ µ σ X ∼ N μ, √ n que, substituindo pelos valores conhecidos, vem ¶ µ 80 , X ∼ N μ, √ 64 ou seja, X ∼ N (μ, 10), de onde se obtém Z= X −μ . 10 A região crítica do teste, tendo em conta que este teste é unilateral superior, é da forma Zobs. > z1−α . Como o nível de significância é igual a cinco por cento (α = 0.05) tem-se z1−α = z0.95 = 1.645, logo rejeita-se H0 se Zobs. > 1.645. O valor de zobs. é obtido através da estatística de teste considerando que H0 é verdadeira, logo, como μ = 980, tem-se Zobs. = X − μ0 X − 980 = 10 10 que, como x = 200 obtém-se zobs. = x − 980 1000 − 980 = = 2. 10 10 Assim, como zobs. = 2 > 1.645, rejeita-se H0 , o que significa que existe evidência estatística para afirmar que os computadores WorkFast têm uma duração média superior a 980 dias. 2. Considerando que os computadores duram, em média, 1010 dias, qual a potência do teste? A probabilidade de ocorrência de um erro do tipo II é dada por β = P (não rejeitar H0 |H0 falsa) = = P (Zobs. ≤ 1.645|μ = 1010) ¶ µ X − 980 ≤ 1.645|μ = 1010 = P 10 236 Neste caso, pelo facto do verdadeiro valor para μ ser 1010, a distribuição a utilizar será Z= X −μ X − 1010 = 10 10 logo = = = = = µ ¶ X − 980 P ≤ 1.645|μ = 1010 = 10 ¢ ¡ P X − 980 ≤ 16.45|μ = 1010 = ¢ ¡ P X ≤ 996.45|μ = 1010 = ¢ ¡ P X − 1010 ≤ −13.55|μ = 1010 = ¶ µ X − 1010 ≤ −1.355|μ = 1010 = P 10 P (Z ≤ −1.355) = = 1 − φ (1.355) ' 1 − φ (1.36) = = 1 − 0.9131 = 0.0869. Assim, a potência do teste é 1 − β = 1 − 0.0869 = 0.9131. 3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual seria a decisão do teste no caso de o nível de significância fosse igual a um por cento. O teste efectuado é um teste unilateral superior, como tal, o p-value é determinado através de p-value = P (Z > zobs ) = P (Z > 2) = 1 − φ (2) = 1 − 0.9772 = 0.0228. Como o valor do p-value é superior ao nível de significância (α = 0.01), neste caso não se rejeitaria H0 . 237 3.5.3 Testes de hipóteses para a média - σ conhecido e população com distribuição não Normal (ou desconhecida) Exemplo 3.5.7 O número de computadores vendidos diariamente em Alfalândia tem desvio padrão igual a 30. Considere que foi observado o número de computadores vendidos em cem dias, obtendo-se um média igual a 250. 1. Teste, com um nível de significância igual a dois por cento, se a média do número de computadores vendidos diariamente em Alfalândia é igual a 245. As hipóteses a testar são H0 : μ = 245 versos H1 : μ 6= 245. Tendo em consideração que σ é conhecido e n ≥ 30, utiliza—se a estatística ¶ µ σ • X ∼ N μ, √ n que, substituindo pelos valores conhecidos, vem ¶ µ 30 • , X ∼ N μ, √ 100 • que simplificando obtém-se X ∼ N (μ, 3), ou seja, Z= X −μ . 3 A região crítica do teste, pelo facto de este teste ser bilateral, será rejeitar H0 se Zobs. < −z1− α ∨ Zobs. > z1− α . 2 2 Como α = 0.02, vem z1− α = z1− 0.02 = z0.99 = 2.326. 2 2 logo rejeita-se H0 se Zobs. < −2.326 ∨ Zobs. > 2.326. O valor observado da estatística é igual a Zobs. = X − μ0 X − 245 = 3 3 238 que, como x = 250, obtém-se zobs. = 250 − 245 x − 245 = ' 1.6667. 3 3 Assim, como o valor observado não pertence à região crítica, não se rejeita H0 , logo não existe evidência estatística para afirmar que a média do número de computadores vendidos diariamente em Alfalândia seja diferente de 245. 2. Considerando que os computadores duram, em média, 255 dias, qual a probabilidade de ocorrência de um erro do tipo II? A probabilidade de ocorrência de um erro do tipo II é dada por β = P (não rejeitar H0 |H0 falsa) = = P (−2.326 ≤ Zobs. ≤ 2.326|μ = 255) ¶ µ X − 245 ≤ 2.326|μ = 255 . = P −2.326 ≤ 3 Neste caso, pelo facto do verdadeiro valor para μ ser 255, a distribuição a utilizar é Z= assim = = = = = X −μ X − 255 = , 3 3 µ ¶ X − 245 P −2.326 ≤ ≤ 2.326|μ = 255 = 3 ¢ ¡ P −6.978 ≤ X − 245 ≤ 6.978|μ = 255 = ¢ ¡ P 238.002 ≤ X ≤ 251.978|μ = 255 = ¢ ¡ P −16.978 ≤ X − 255 ≤ −3.022|μ = 255 = ¶ µ X − 255 ≤ −1.0073|μ = 255 = P −5.6593 ≤ 3 P (−5.6593 ≤ Z ≤ −1.0073) = = P (Z ≤ −1.0073) − P (Z < −5.6593) = = 1 − P (Z ≤ 1.0073) − [1 − P (Z ≤ 5.6593)] ' ' 1 − P (Z ≤ 1.01) − 1 + P (Z ≤ 5.66) = = 1 − 0.8438 − 1 + 1 = 0.1562. 239 A probabilidade de ocorrência de um erro do tipo II, quando μ = 255, é igual a 0.1562 (β = 0.1562). 3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual seria a decisão do teste no caso de o nível de significância fosse igual a cinco por cento. O teste efectuado é um teste bilateral, como tal, o p-value é determinado através de p-value = 2P (Z > |zobs |) = 2P (Z > |1.6667|) = = 2P (Z > 1.6667) = 2 [1 − φ (1.6667)] ' ' 2 [1 − φ (1.67)] = 2 [1 − 0.9525] = 0.095. Como o valor do p-value é superior ao nível de significância (α = 0.05) a decisão seria no mesmo sentido, ou seja, não rejeitar H0 . 240 3.5.4 Testes de hipóteses para a proporção - População de Bernoulli Exemplo 3.5.8 Com o objectivo de analisar a proporção de habitantes favoráveis à construção de um novo estádio municipal, foi recolhida uma amostra aleatória onde dos cem inquiridos oitenta responderam serem favoráveis. 1. Teste, com um nível de significância igual a dez por cento, se a proporção de habitantes favoráveis à construção de um novo estádio municipal é inferior oitenta e cinco por cento. As hipóteses a testar são H0 : p = 0.85 versos H1 : p < 0.85. Pelo facto de se estar a analisar uma proporção (população de Bernoulli) sendo n ≥ 30, utiliza—se a estatística • pb ∼ N ou seja, à r p, Z=r p (1 − p) n ! , pb − p . p (1 − p) n Como o teste é unilateral inferior, a região crítica do teste será rejeitar H0 se Zobs. < −z1−α . Como α = 0.10, vem z1−α = z0.90 = 1.282. logo rejeita-se H0 se Zobs. < −1.282. O valor observado da estatística é igual a Zobs. = r que, como pb = 0.8, obtém-se zobs. = r pb − p0 p0 (1 − p0 ) n pb − 0.85 0.85 (1 − 0.85) 100 =r =r 241 pb − 0.85 0.85 (1 − 0.85) 100 0.8 − 0.85 0.85 (1 − 0.85) 100 ' −1.4003. O valor observado pertence à região crítica, logo rejeita-se H0 . Existe evidência estatística para afirmar que a proporção de habitantes favoráveis à construção de um novo estádio municipal é inferior oitenta e cinco por cento. 2. Considerando que setenta e cinco por cento dos habitantes são favoráveis à construção de um novo estádio municipal, qual a potência do teste? A probabilidade de ocorrência de um erro do tipo II é dada por β = P (não rejeitar H0 |H0 falsa) = P (Zobs. |p = 0.75) ⎛ ⎞ ⎜ ⎟ pb − 0.85 ⎟, r = P⎜ ≥ −1.282|p = 0.75 ⎝ 0.85 (1 − 0.85) ⎠ 100 onde, pelo facto do verdadeiro valor para p ser 0.75, a distribuição a utilizar será logo Z=r pb − p p (1 − p) n =r pb − 0.75 0.75 (1 − 0.75) 100 ⎛ ⎞ ⎜ ⎟ pb − 0.85 ⎟= r P⎜ ≥ −1.282|p = 0.75 ⎝ 0.85 (1 − 0.85) ⎠ 100 = P (b p − 0.85 ≥ −0.0458|p = 0.75) = = P (b p ≥ 0.8042|p = 0.75) = = P (b p − 0.75 ≥ 0.0542|p = 0.75) = ⎛ ⎞ ⎟ ⎜ pb − 0.75 ⎟= r ≥ 1.2522|p = 0.75 = P⎜ ⎠ ⎝ 0.75 (1 − 0.75) 100 = P (Z ≥ 1.2522) = 1 − φ (1.2522) ' ' 1 − φ (1.25) = 1 − 0.8944 = 0.1056. A potência do teste é dada por 1 − β = 1 − 0.1056 = 0.8944. 242 3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual seria a decisão do teste no caso de o nível de significância fosse igual a cinco por cento. O teste efectuado é um teste unilateral inferior, como tal, o p-value é determinado através de p-value = P (Z < zobs ) = P (Z < −1.4003) = 1 − φ (1.4003) ' ' 1 − φ (1.40) = 1 − 0.9192 = 0.0808. Como o valor do p-value é superior ao nível de significância (α = 0.05), neste caso não se rejeitaria H0 . 3.5.5 Testes de hipóteses para a variância - População com distribuição Normal Exemplo 3.5.9 Os salários da empresa BoaVida seguem uma distribuição Normal. Com base numa amostra aleatória de dimensão 101 com média igual a 750 euros e variância igual a 10100. 1. Teste, com um nível de significância igual a cinco por cento, se os salários da empresa BoaVida têm uma variância igual a 13000. As hipóteses a testar são H0 : σ 2 = 13000 versos H1 : σ 2 6= 13000. Pelo facto de se estar a analisar a variância tendo a população distribuição Normal, utiliza—se como estatística de teste (n − 1) SC2 ∼ χ2(n−1) σ2 que, como n = 101, tem-se que 100SC2 ∼ χ2(100) . σ2 Como o teste é bilateral, a região crítica do teste será rejeitar H0 se χ2obs < χ2α ∨ χ2obs > χ21− α . 2 243 2 Como α = 0.05, vem χ2α = χ20.05 = χ20.025 = 74.222 e 2 2 χ1− α 2 = 2 2 χ 0.05 1− 2 = χ20.975 = 129.56. Assim, rejeita-se H0 se χ2obs < 74.222 ∨ χ2obs > 129.56. O valor observado da estatística é igual a χ2obs. = 100SC2 100SC2 = σ2 13000 que, como s2 = 10100 e consequentemente s2C = n 2 101 s = × 10100 = 10201, n−1 100 obtém-se χ2obs. = 100 × 10201 100s2C = ' 78.4692. 13000 13000 O valor observado não pertence à região crítica, logo não se rejeita H0 . Assim, não existe evidência estatística para afirmar que a os variância dos salários da empresa BoaVida sejam diferentes de 13000. 2. Considerando que os salários da empresa BoaVida têm uma variância igual a 10000, qual a probabilidade de ocorrência de um erro de segunda espécie? A probabilidade de ocorrência de um erro do tipo II é dada por β = P (não rejeitar H0 |H0 falsa) = ¢ ¡ = P 74.222 ≤ χ2obs. ≤ 129.56|σ 2 = 10000 = ¶ µ 100SC2 2 ≤ 129.56|σ = 10000 . = P 74.222 ≤ 13000 Devido ao facto de o verdadeiro valor para σ 2 ser 10000, a distribuição a utilizar neste cálculo será 100SC2 100SC2 = ∼ χ2(100) σ2 10000 244 logo = = = = µ ¶ 100SC2 2 P 74.222 ≤ ≤ 129.56|σ = 10000 = 13000 ¢ ¡ P 964886 ≤ 100SC2 ≤ 1684280|σ 2 = 10000 = ¶ µ 100SC2 2 ≤ 168.428|σ = 10000 = P 96.4886 ≤ 10000 ¢ ¡ P 96.4886 ≤ χ2(100) ≤ 168.428 = ¢ ¡ ¢ ¡ P χ2(100) ≤ 168.428 − P χ2(100) ≤ 96.4886 que recorrendo às tabelas da distribuição Qui-quadrado vem Valores de x Valores de α 95.808 0.40 96.4886 α0 =? 99.334 0.50 que, pela interpolação linear, obtém-se 99.334 − 95.808 99.334 − 96.4886 0.50 − 0.40 ⇔ 0.50 − α0 ⇔ α0 ' 0.4193. = Assim, conclui-se que ¡ ¢ ¡ ¢ P χ2(100) ≤ 168.428 − P χ2(100) ≤ 96.4886 = 1 − 0.4193 = 0.5807. A probabilidade de ocorrência de um erro do tipo II, quando μ = 10000, é igual a 0.5807 (β = 0.5807). 3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual seria a decisão do teste no caso de o nível de significância fosse igual a dez por cento. O teste efectuado é um teste bilateral, como tal, o p-value é determinado através de © ¡ ¢ ¡ ¢ª p-value = 2 min P χ2 < χ2obs , P χ2 > χ2obs . 245 Para determinar este valor, começa-se por calcular as duas probabilidades. ¢ ¡ ¢ ¡ P χ2 < χ2obs = P χ2 < 78.4692 = que recorrendo às tabelas da distribuição Qui-quadrado vem Valores de x Valores de α 77.929 0.05 78.4692 α0 =? 82.358 0.10 logo, pela interpolação linear, conclui-se que 82.358 − 77.929 82.358 − 78.4692 0.10 − 0.05 ⇔ 0.10 − α0 ⇔ α0 ' 0.0561. = portanto ¡ ¢ P χ2 < 78.4692 ' 0.0561 e ¢ ¡ ¢ ¡ P χ2 > χ2obs = 1 − P χ2 < χ2obs = 1 − 0.0561 = 0.9439. O valor do p-value é obtido por p-value = 2 min {0.0561, 0.9439} = 2 × 0.0561 = 0.1122. Como o valor do p-value é superior ao nível de significância (α = 0.10), a decisão seria no mesmo sentido, ou seja, não rejeitar H0 . 3.5.6 Testes de hipóteses para a média - σ desconhecido e População com distribuição Normal Exemplo 3.5.10 O tempo que um carro demora a passar determinada ponte tem distribuição Normal. Considere 246 uma amostra aleatória de dimensão 11 onde foi obtida uma variância igual a 110 e uma média igual a 80 segundos. 1. Teste, com um nível de significância igual a dez por cento, se o tempo que um carro demora a passar a ponte é, em média, inferior a 90 segundos. As hipóteses a testar são H0 : μ = 90 versos H1 : μ < 90. Tendo em consideração que a população tem distribuição Normal e σ é desconhecido, utiliza—se como estatística de teste X −μ ∼ t(n−1) SC √ n que, como n = 11, vem X −μ ∼ t(10). S √C 10 A região crítica do teste, tendo em conta que este é unilateral inferior, é da forma Tobs. < −t1−α . Como o nível de significância é igual a dez por cento (α = 0.10) tem-se t1−α = t0.90 = 1.3722, logo rejeita-se H0 se Tobs. < −1.3722. O valor de tobs. é obtido através da estatística de teste considerando que H0 é verdadeira, logo, como μ = 90 e s2C = n 2 11 s = × 110 = 121 n−1 10 ou seja sC = √ 121 = 11, tem-se Tobs. = X − μ0 X − 90 sC = 11 √ √ 10 10 247 que, como x = 80, obtém-se x − 90 80 − 90 = = −2.8748. 11 11 √ √ 10 10 = −2.8748 < −1.3722, vai-se rejeitar H0 o que significa que existe tobs. = Assim, como tobs. evidência estatística para afirmar que o tempo médio que um carro demora a passar a ponte é inferior a 90 segundos. 2. Considerando que o tempo médio que um carro demora a passar a ponte é igual a 75 segundos, qual a potência do teste? A probabilidade de ocorrência de um erro do tipo II é dada por β = P (não rejeitar H0 |H0 falsa) = = P (Tobs. ≥ −1.3722|μ = 75) = ⎞ ⎛ ⎟ ⎜ X − 90 ⎟ ≥ −1.3722|μ = 75 = P⎜ ⎠ ⎝ 11 √ 10 Neste caso, pelo facto do verdadeiro valor para μ ser 75, a distribuição a utilizar será T = logo X − μ X − 75 = ∼ t(10) 11 11 √ √ 10 10 ⎛ ⎞ ⎜ X − 90 ⎟ ⎟= P⎜ ≥ −1.3722|μ = 75 ⎝ 11 ⎠ √ 10 ¡ ¢ = P X − 90 ≥ −4.7732|μ = 75 = ¢ ¡ = P X ≥ 85.2268|μ = 75 = ¢ ¡ = P X − 75 ≥ 10.2268|μ = 75 = ⎛ ⎞ ⎜ X − 75 ⎟ ⎟= = P⎜ ≥ 2.94|μ = 75 ⎝ 11 ⎠ √ 10 ¡ ¢ ¡ ¢ = P t(10) ≥ 2.94 = 1 − P t(10) < 2.94 248 que recorrendo às tabelas da distribuição t-Student vem Valores de x Valores de α 2.7638 0.99 2.94 α0 =? 3.1693 0.995 que, pela interpolação linear, obtém-se 3.1693 − 2.7638 3.1693 − 2.94 0.995 − 0.99 ⇔ 0.995 − α0 ⇔ α0 ' 0.9922. = Assim, conclui-se que ¡ ¢ 1 − P t(10) < 2.94 ' 1 − 0.9922 = 0.0078. A potência do teste é igual a 1 − β = 1 − 0.0078 = 0.9922. 3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual seria a decisão do teste no caso de o nível de significância fosse igual a cinco por cento. O teste efectuado é um teste unilateral inferior, como tal, o p-value é determinado através de p-value = P (T < tobs ) = P (T < −2.8748) = 1 − P (T < 2.8748) que recorrendo às tabelas da distribuição t-Student vem Valores de x Valores de α 2.7638 0.99 2.8748 α0 =? 3.1693 0.995 249 Pela interpolação linear, conclui-se que 3.1693 − 2.7638 3.1693 − 2.8748 0.995 − 0.99 ⇔ 0.995 − α0 ⇔ α0 ' 0.9914. = que substituindo obtem-se 1 − P (T < 2.8748) = 1 − 0.9914 = 0.0086. Como o valor do p-value é inferior ao nível de significância (α = 0.05) a decisão seria no mesmo sentido, ou seja, rejeitar H0 . Exemplo 3.5.11 O número de telemóveis vendidos diariamente numa das loja da marca FalaBarato é descrito, aproximadamente, por uma distribuição Normal. Com o objectivo de analisar o número de telemóveis vendidos diariamente nessa loja, foi recolhida amostra aleatória de dimensão 100 com média 50 telemóveis e variância 222.75. 1. Teste, com um nível de significância igual a um por cento, se o número médio de telemóveis vendidos diariamente na loja é superior a 45. As hipóteses a testar são H0 : μ = 45 versos H1 : μ > 45. Tendo em consideração que σ é desconhecido e a população possui distribuição Normal utiliza-se, como estatística de teste, T = X −μ ∼ t(n−1) SC √ n que, como n = 100, vem T = X −μ X −μ = ∼ t(99). S SC √C 10 100 250 mas, como os graus de liberdade da t-Student são superiores a 30, a estatística de teste pode ser aproximada à distribuição Normal, obtendo-se Z= X −μ . SC 10 A região crítica do teste, pelo facto de este ser unilateral superior, será rejeitar H0 se Zobs. > z1−α . Como α = 0.01, vem z1−α = z0.99 = 2.326, logo rejeita-se H0 se Zobs. > 2.326. O valor de zobs. é obtido através da estatística utilizada no teste considerando que H0 é verdadeira, assim, como μ = 45 e s2C = √ n 2 100 s = × 222.75 = 225 ⇒ sC = 225 = 15, n−1 99 tem-se Zobs. = X − μ0 X − 45 X − 45 sC = 15 = 1.5 , 10 10 sendo o valor observado igual a zobs. = x − 45 50 − 45 = ' 3.3333. 1.5 1.5 O valor observado pertence à região crítica, logo deve-se rejeitar H0 . Assim, existe evidência estatística para afirmar que o número médio de telemóveis vendidos diariamente na loja é superior a 45. 2. Considerando que o número médio de telemóveis vendidos diariamente na loja é igual a 52, qual a probabilidade de ocorrência de um erro do tipo II? A probabilidade de ocorrência de um erro do tipo II é dada por β = P (não rejeitar H0 |H0 falsa) = = P (Zobs. ≤ 2.326|μ = 52) ¶ µ X − 45 ≤ 2.326|μ = 52 = P 1.5 251 Neste caso, pelo facto do verdadeiro valor para μ ser 52, a distribuição a utilizar será Z= X − μ X − 52 = 1.5 1.5 logo = = = = = µ ¶ X − 45 P ≤ 2.326|μ = 52 = 1.5 ¢ ¡ P X − 45 ≤ 3.489|μ = 52 = ¢ ¡ P X ≤ 48.489|μ = 52 = ¢ ¡ P X − 52 ≤ −3.511|μ = 52 = ¶ µ X − 52 ≤ −2.3407|μ = 52 = P 1.5 P (Z ≤ −2.3407) = 1 − φ (−2.3407) ' ' 1 − φ (−2.34) = 1 − 0.9904 = 0.0096. Assim, a probabilidade de ocorrência de um erro do tipo II, quando μ = 52, é igual a 0.0096 (β = 0.0096). 3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual seria a decisão do teste no caso de o nível de significância fosse igual a 0.1 por cento. O teste efectuado é um teste unilateral superior, como tal, o p-value é determinado através de p-value = P (Z > zobs ) = P (Z > 3.3333) = 1 − φ (3.3333) ' ' 1 − φ (3.33) = 1 − 0.9996 = 0.0004. Como o valor do p-value é inferior ao nível de significância (α = 0.001), neste caso também se rejeitaria H0 . 252 3.5.7 Procedimento geral para a construção de um teste de hipóteses 1. Identificar o parâmetro em análise e especificar a hipótese nula e a hipótese alternativa. 2. Escolher o nível de significância. 3. Com base no conhecimentos de distribuições amostrais, escolher uma estatística de teste adequada. 4. Determinar a região crítica do teste. 5. Com base na informação de uma amostra determinar o valor observado da estatística e decidir sobre a rejeição ou não da hipótese nula. 253 3.5.8 Quadro resumo dos testes de hipóteses Parâmetro μ μ μ μ p H1 Região Crítica σ conhecido μ 6= μ0 Zobs. < −z1− α ∨ Zobs. > z1− α 2P (Z > |zobs |) e μ > μ0 Zobs. > z1−α P (Z > zobs ) População Normal μ < μ0 Zobs. < −z1−α P (Z < zobs ) σ conhecido μ 6= μ0 Zobs. < −z1− α ∨ Zobs. > z1− α 2P (Z > |zobs |) e μ > μ0 Zobs. > z1−α P (Z > zobs ) n ≥ 30 μ < μ0 Zobs. < −z1−α P (Z < zobs ) σ desconhecido μ 6= μ0 Tobs. < −t1− α ∨ Tobs. > t1− α 2P (T > |tobs |) e μ > μ0 Tobs. > t1−α P (T > tobs ) População Normal μ < μ0 Tobs. < −t1−α P (T < tobs ) σ desconhecido μ 6= μ0 Zobs. < −z1− α ∨ Zobs. > z1− α 2P (Z > |zobs |) População Normal e μ > μ0 Zobs. > z1−α P (Z > zobs ) n > 30 μ < μ0 Zobs. < −z1−α P (Z < zobs ) População Bernoulli p 6= p0 Zobs. < −z1− α ∨ Zobs. > z1− α 2P (Z > |zobs |) e p < p0 Zobs. > z1−α P (Z > zobs ) n ≥ 30 p > p0 Zobs. < −z1−α P (Z < zobs ) 2 σ 15 2 2 2 2 2 2 2 2 σ 2 6= σ 20 2 p-value15 Condições 2 χ2obs < χ2α ∨ χ2obs > χ21− α 2 2 2 min {p1 , p2 } p1 = P (χ2 > χ2obs ) p2 = P (χ2 < χ2obs ) População Normal σ 2 > σ 20 χ2obs > χ21−α P (χ2 > χ2obs ) σ 2 < σ 20 χ2obs < χ2α P (χ2 < χ2obs ) No cálculo do p-value considera-se que a hipótese nula é verdadeira. 254 Índice 1 Probabilidades 1 1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Definição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.1 Definição clássica de probabilidade . . . . . . . . . . . . . . . . . . . . . 10 1.2.2 Definição frequencista de probabilidade . . . . . . . . . . . . . . . . . . . 15 1.2.3 Definição axiomática de probabilidade . . . . . . . . . . . . . . . . . . . 17 1.3 Probabilidades condicionadas e acontecimentos independentes . . . . . . . . . . 22 1.4 Teorema das probabilidades totais e teorema de Bayes . . . . . . . . . . . . . . . 32 2 Distribuições 37 2.1 Definição de variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.1 Caso unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.2 Caso bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.3 Distribuições discretas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.3.3 Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . 64 2.3.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . 66 2.3.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.4 Variáveis aleatórias contínuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.4.1 Função de densidade de probabilidade . . . . . . . . . . . . . . . . . . . 74 2.4.2 Função de distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.4.3 Valor esperado e variância de uma variável aleatória contínua . . . . . . 78 2.5 Distribuições Contínuas de Probabilidade . . . . . . . . . . . . . . . . . . . . . . 82 2.5.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 2.5.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 i 2.5.3 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 2.5.4 Distribuição Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . 99 2.5.5 Distribuição de t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 2.5.6 Distribuição de F - Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 113 2.6 Desigualdade de Tchebycheff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 2.7 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 2.7.1 Função de distribuição da Poisson - P (λ) . . . . . . . . . . . . . . . . . . 123 2.7.2 Função de distribuição da Normal Standard - Z . . . . . . . . . . . . . . 126 2.7.3 Valores percentuais da t-Student com n graus de liberdade - t 2.7.4 Valores percentuais da Qui—quadrado com n graus de liberdade - χ2(n) . . 128 2.7.5 Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n) 130 (n) . . . . . 127 3 Inferência Estatística 134 3.1 Noções básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 3.2 Estimadores Pontuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.2.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 3.2.2 Método da máxima verosimilhança . . . . . . . . . . . . . . . . . . . . . 144 3.2.3 Propriedades dos estimadores pontuais . . . . . . . . . . . . . . . . . . . 157 3.3 Distribuições amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 3.3.1 Distribuição da média amostral - σ conhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 3.3.2 Distribuição da média amostral - σ conhecido e população com distribuição não Normal (ou desconhecida) . . . . . . . . . . . . . . . . . . 170 3.3.3 Distribuição da proporção amostral - População de Bernoulli . . . . . . . 173 3.3.4 Distribuição da variância amostral - População com distribuição Normal 177 3.3.5 Distribuição da média amostral - σ desconhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 3.3.6 Quadro resumo das distribuições amostrais . . . . . . . . . . . . . . . . . 189 3.4 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 ii 3.4.1 Intervalos de confiança para a média - σ conhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 3.4.2 Intervalos de confiança para a média - σ conhecido e população com distribuição não Normal (ou desconhecida) . . . . . . . . . . . . . . . . . 196 3.4.3 Intervalos de confiança para a proporção - População de Bernoulli . . . . 201 3.4.4 Intervalos de confiança para a variância - População com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 3.4.5 Intervalos de confiança para a média - σ desconhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 3.4.6 Procedimento geral para a construção de um intervalo de confiança . . . 215 3.4.7 Quadro resumo dos intervalos de confiança . . . . . . . . . . . . . . . . . 215 3.5 Testes de hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 3.5.1 Noções básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 3.5.2 Testes de hipóteses para a média - σ conhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 3.5.3 Testes de hipóteses para a média - σ conhecido e população com distribuição não Normal (ou desconhecida) . . . . . . . . . . . . . . . . . . 238 3.5.4 Testes de hipóteses para a proporção - População de Bernoulli . . . . . . 241 3.5.5 Testes de hipóteses para a variância - População com distribuição Normal 243 3.5.6 Testes de hipóteses para a média - σ desconhecido e População com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 3.5.7 Procedimento geral para a construção de um teste de hipóteses . . . . . . 253 3.5.8 Quadro resumo dos testes de hipóteses . . . . . . . . . . . . . . . . . . . 254 iii