Instituto Politécnico de Leiria Escola Superior de Tecnologia e

Propaganda
Instituto Politécnico de Leiria
Escola Superior de Tecnologia e Gestão
Apontamentos Teóricos de
Estatística
Rui Filipe Vargas de Sousa Santos
Departamento de Matemática
2004
O presente trabalho é um texto
provisório e tem como objectivo
auxiliar os alunos na disciplina de
Estatística.
1
Probabilidades
1.1
Introdução
A Teoria das Probabilidades teve origem nos chamados jogos de azar, por volta do século XV II,
com Chevalier, Fermat e Pascal. Entretanto outros matemáticos se interessaram pela Teoria
das Probabilidades, tais como Bernoulli (1654 − 1705), que introduziu a base matemática da
teoria, estabelecendo a relação entre probabilidade e frequência relativa. Laplace (1749 − 1827)
introduziu o conceito clássico de probabilidade e Gauss (1777 − 1855) alargou o campo da
aplicação do cálculo de probabilidades a outras ciências tais como a psicologia, a astronomia,
a economia, a administração de empresas, entre outras. Na segunda metade do século XIX a
Teoria das Probabilidades atingiu um dos seus momentos mais altos com os trabalhos da escola
russa fundada por Tchebycheff (1821 − 1894), que contou com representantes como Markov
(1856 − 1922) e Lyapunov (1857 − 1918) e teve o principal expoente em Kolmogorov, a quem
se deve um estudo indispensável sobre os fundamentos da Teoria das Probabilidades publicado
em 1933 e traduzido em 1950 para inglês sob o título de “Foundations of Probability”.
Noções básicas
A Teoria das Probabilidades tem como objectivo formular modelos de fenómenos naturais onde se supõe intervir o acaso, ou seja, de fenómenos cujo futuro não pode ser previsto
deterministicamente apesar das informações sobre o seu passado, mas para os quais se podem
encontrar, sob certas condições, taxas de realização constantes que permitem certas previsões de
índole geral. Estes fenómenos dizem-se fenómenos aleatórios, isto é, são fenómenos sujeitos
à influência do acaso e, como tal, fora do alcance do observador.
Exemplos 1.1.1
• Ao atirar uma moeda ao ar não se sabe se vai sair cara ou coroa.
• Ao lançar um dado não se sabe qual das faces ficará voltada para cima.
• Ao tirar uma carta de um baralho não se sabe qual a carta que irá sair.
1
• Ao jogar no totoloto não se sabe quais os números que irão sair.
Em cada um dos exemplos dados não é possível saber a priori o resultado que se irá obter.
Os fenómenos aleatórios são caracterizados:
— pela sua imprevisibilidade (fenómeno não determinístico),
— pela sua regularidade estatística (observando o fenómeno um grande número de
vezes, nas mesmas condições, a frequência relativa de cada resultado possível do
fenómeno tende a estabilizar, aproximando-se dum valor constante).
Sendo assim, num fenómeno aleatório não se pode prever o resultado da próxima prova, mas
pode-se fazer uma previsão do resultado em média; define-se, então, experiência aleatória
como sendo todo o procedimento que se pode repetir um grande número de vezes nas mesmas
condições e cujo resultado é imprevisível.
À Teoria das Probabilidades não interessa estudar fenómenos cujos resultados podem ser
estabelecidos por leis expressas por fórmulas matemáticas ou da física.
Exemplos 1.1.2
• Deixar cair uma pedra do cimo de uma torre e medir o tempo que demora a atingir o
solo.
• Suspender uma agulha magnética e registar a direcção indicada por ela.
• Friccionar dois vidros e verificar se eles se repelem.
Estes fenómenos chamam-se fenómenos deterministas, sendo as experiências deterministas ou causais caracterizadas por produzirem o mesmo resultado, desde que sejam repetidas sob as mesmas condições. Contudo, apesar de não ser possível prever com exactidão o
resultado de uma experiência aleatória, podem-se identificar quais são os resultados que podem
ocorrer nessa experiência aleatória. Assim, chama-se universo, espaço amostral ou espaço
de resultados, representado-se por Ω = {ω 1 , ω2 , ω3 , ..., ω n }, ao conjunto formado por todos
os resultados (ωi ) que é possível obter quando se efectua uma experiência aleatória.
2
Exemplo 1.1.3
• Lançamento de um dado e registo do número de pontos que sai, tem-se Ω = {1, 2, 3, 4, 5, 6}.
• Lançamento de uma moeda e a observação da face que fica voltada para cima tem-se
Ω = {F, C}.
• Lançamento de duas moedas Ω = {F F, F C, CF, CC}.
• Tempo de trabalho de uma máquina até à primeira avaria, vem Ω = R+
0.
A qualquer subconjunto do espaço amostral chama-se acontecimento aleatório. Note-se
que, como qualquer conjunto é subconjunto de si próprio, tem-se que Ω é também um acontecimento. Os acontecimentos podem ser divididos em quatro categorias:
i) Acontecimentos elementares - cada um dos resultados possíveis da experiência aleatória,
ou seja, cada elemento de Ω;
ii) Acontecimentos compostos - acontecimentos formados por dois ou mais elementos do
espaço amostral;
iii) Acontecimento certo - espaço de resultados (Ω);
iv) Acontecimento impossível - acontecimento que não contém nenhum elemento do espaço amostral, sendo representado por ∅ ou {}.
Exemplo 1.1.4
• No lançamento de duas moedas Ω = {F F, F C, CF, CC} há:
→ 4 acontecimentos elementares {F F }, {F C}, {CF }, {CC};
→ 11 acontecimentos compostos {F F, F C}, {F F, CF }, {F F, CC}, {F C, CF }, {F C, CC},
{CF, CC}, {F F, F C, CF }, {F F, F C, CC}, {F F, CF, CC}, {F C, CF, CC}, Ω;
→ 1 acontecimento certo Ω = {F F, F C, CF, CC};
3
→ 1 acontecimento impossível ∅ ou {}.
Diz-se que um acontecimento A, A ⊂ Ω, se realiza quando o resultado é um elemento que
pertence a A : ω ∈ A, isto é, um acontecimento realiza-se se e só se o resultado da experiência
aleatória pertence a esse acontecimento.
Exemplo 1.1.5
Seja Ω = {1, 2, 3, 4, 5, 6} o espaço amostral associado ao lançamento de um dado e considerem-se os seguintes subconjuntos (acontecimentos):
A = {1, 2, 3};
B = {2, 4, 6};
C = {4}
→ Se no lançamento sair o número 4, diz-se que os acontecimentos B e C se realizaram,
enquanto que o acontecimento A não se realizou.
→ Se no lançamento do dado sair 5, significa que nenhum dos acontecimentos se realizou.
Através da definição de acontecimento verifica-se que há uma equivalência entre a noção de
acontecimento e a noção de conjunto. Tem-se então um paralelismo entre as propriedades de
conjuntos e as propriedades de acontecimentos. Considerem-se as principais propriedades dos
acontecimentos.
Propriedades dos acontecimentos
Definição 1.1.1 (Intersecção de acontecimentos)
Intersecção dos acontecimentos A e B é o acontecimento A ∩ B que se realiza apenas
quando ambos os acontecimentos se realizam e é formado pelos elementos comuns a A e a B.
Com o intuito de facilitar a exposição, supõe-se Ω equivalente a um rectângulo de R2 onde os
acontecimentos são representados por subconjuntos convenientes do mesmo rectângulo. Assim,
os conhecidos diagramas de Venn, representam-se da seguinte forma:
4
Figura 1: Intersecção de acontecimentos: A ∩ B
Propriedades 1.1.1 (Propriedades da intersecção)
i)
Comutatividade
A∩B =B∩A
ii)
Associatividade
A ∩ (B ∩ C) = (A ∩ B) ∩ C
iii) Elemento neutro
A∩Ω=A
iv)
Elemento absorvente A ∩ ∅ = ∅
v)
Idempotência
A∩A=A
Definição 1.1.2 (União de Acontecimentos)
Dados os acontecimentos A e B chama-se união de A com B ao acontecimento que consiste
na realização de pelo menos um deles, sendo constituído por todos os elementos de A e todos
os de B e representado por A ∪ B.
Figura 2: União de acontecimentos: A ∪ B
5
Propriedades 1.1.2 (Propriedades da união)
i)
Comutatividade
A∪B =B∪A
ii)
Associatividade
A ∪ (B ∪ C) = (A ∪ B) ∪ C
iii) Elemento neutro
A∪∅=A
iv)
Elemento absorvente A ∪ Ω = Ω
v)
Idempotência
A∪A=A
Além das propriedades da intersecção e da união já referidas, existe ainda a salientar a
propriedade distributiva.
Propriedade 1.1.3 (Distributividade)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Definição 1.1.3 (Acontecimento complementar)
Dado um acontecimento A, chama-se acontecimento complementar de A ou acontecimento contrário a A ao conjunto de todos os elementos do espaço amostral (Ω) que não
pertencem a A, representando-se por A ou AC . Ou seja, A e A dizem-se acontecimentos complementares no caso de A se realizar sse (sse lê-se se e só se e representa uma equivalência) A
não se realizar.
Figura 3: A - acontecimento complementar de A
6
Propriedades 1.1.4 (Propriedades dos acontecimentos complementares)
i)
A∪A=Ω
ii)
A∩A=∅
iii) Leis de De Morgan A ∩ B = A ∪ B
A∪B =A∩B
iv)
Dupla negação
A=A
Definição 1.1.4 (Subacontecimento)
Diz-se que A é um subacontecimento de B e escreve-se A ⊂ B, quando a realização de
A implica a realização de B, ou seja, quando todos os elementos de A são elementos de B.
Figura 4: A é subacontecimento de B, A ⊂ B
Propriedades 1.1.5
No caso de A ⊂ B tem-se
i)
A∩B =A
ii) A ∪ B = B
Definição 1.1.5 (Acontecimentos idênticos)
A e B são acontecimentos idênticos quando A ⊂ B e B ⊂ A, isto é, quando a realização
de um implica a realização do outro e escreve-se A = B.
7
Definição 1.1.6 (Acontecimentos incompatíveis)
Os acontecimentos A e B dizem-se incompatíveis ou mutuamente exclusivos quando
a realização de um implica a não realização do outro, isto é, quando A ∩ B = ∅ sendo ∅ o
acontecimento impossível (não existe nenhum elemento comum aos acontecimentos A e B).
Figura 5: Acontecimentos A e B incompatíveis, A ∩ B = ∅
Definição 1.1.7 (Diferença de acontecimentos)
Chama-se diferença dos acontecimentos A e B ao acontecimento A\B = A ∩ B, ou
seja, ao acontecimento que se realiza quando A se realiza sem que B se realize.
Figura 6: Diferença de acontecimentos: A\B = A ∩ B
8
Exemplo 1.1.6
Seja Ω = {1, 2, 3, 4, 5, 6} o espaço amostral associado ao lançamento de um dado e considere-se os seguintes acontecimentos:
A = {1, 2, 3}
e
B = {2, 4, 6}
• A = {4, 5, 6};
• B = {1, 3, 5};
• A ∪ A = {1, 2, 3} ∪ {4, 5, 6} = Ω;
• A ∩ A = {1, 2, 3} ∩ {4, 5, 6} = ∅;
• A ∪ B = {1, 2, 3} ∪ {2, 4, 6} = {1, 2, 3, 4, 6};
• A ∩ B = {1, 2, 3} ∩ {2, 4, 6} = {2};
• A\B = {1, 2, 3}\{2, 4, 6} = {1, 3} ou
A\B = A ∩ B = {1, 2, 3} ∩ {1, 3, 5} = {1, 3};
• B\A = {2, 4, 6}\{1, 2, 3} = {4, 6} ou
B\A = B ∩ A = {2, 4, 6} ∩ {4, 5, 6} = {4, 6};
• A ∩ B = {4, 5, 6} ∩ {1, 3, 5} = {5} ou
A ∩ B = A ∪ B = {1, 2, 3, 4, 6} = {5};
• A ∪ B = {4, 5, 6} ∪ {1, 3, 5} = {1, 3, 4, 5, 6} ou
A ∪ B = A ∩ B = {2} = {1, 3, 4, 5, 6}.
9
1.2
Definição de Probabilidade
Intuitivamente, a noção de probabilidade de um acontecimento é uma medida da possibilidade
de ocorrência do acontecimento quando se realiza a experiência aleatória à qual o acontecimento
está ligado.
1.2.1
Definição clássica de probabilidade
A primeira definição de probabilidade conhecida foi sintetizada por Laplace no princípio do
século XIX, sob as hipóteses de casos igualmente prováveis ou possíveis, também conhecido por princípio de simetria, e de existência de um número finito de casos possíveis. A
definição de Laplace dizia o seguinte:
Definição 1.2.1 (Clássica de Probabilidades)
A probabilidade de realização de um dado acontecimento é igual ao quociente entre o número
de casos favoráveis à realização desse acontecimento e o número total de casos possíveis, desde
que todos os acontecimentos sejam igualmente prováveis e o número total de casos possíveis
seja finito.
Representando-se por P(A) a probabilidade de um acontecimento A, então, na definição
clássica de probabilidade, tem-se:
P(A) =
número de casos favoráveis ao acontecimento A
.
número de casos possíveis
(1)
Exemplo 1.2.1
• Voltando ao exemplo do lançamento de um dado, onde Ω = {1, 2, 3, 4, 5, 6} é o espaço
amostral associado que contém 6 resultados possíveis, vai-se calcular a probabilidade dos
seguintes acontecimentos:
— P(“saída de cinco pontos”) = P ({5}) =
10
1
(pois só tem um caso favorável);
6
— P(“saída de um número par”) = P ({2, 4, 6}) =
3
(pois tem três casos favoráveis);
6
— P(“saída de um número superior a um”) = P ({2, 3, 4, 5, 6}) =
5
(pois tem cinco
6
casos favoráveis).
No entanto, nem todas as probabilidades são tão fáceis de calcular como no exemplo apresentado, tendo-se, em muitos casos, que recorrer à analise combinatória.
Revisões de análise combinatória
Definição 1.2.2 (Permutações sem repetição)
Permutações sem repetição - Número de sequências que é possível formar com n elementos distintos.
n! = n × (n − 1) × · · · × 2 × 1, sendo 0! = 1.
(2)
Definição 1.2.3 (Permutações com repetição)
Permutações com repetição - Número de sequências que é possível formar com n elementos, dos quais n1 são do tipo um, n2 são do tipo dois, · · · , e nk são do tipo k, verificando-se
n1 + n2 + ... + nk = n.
n!
.
n1 ! × n2 ! × · · · × nk !
(3)
Exemplos 1.2.2
• De quantas maneiras diferentes é possível ordenar as letras da palavra «permuta»?
→ Considerando que a palavra « permuta» é constituída por sete letras diferentes, o
número de ordenações das letras desta palavra é 7! = 5040.
11
• De quantas maneiras diferentes é possível ordenar as letras da palavra «características»?
→ Considerando que a palavra « características» é constituída por quinze letras, entre
as quais se têm três c, três a, dois r, dois t, um e, dois i e dois s, então o número
de ordenações das letras desta palavra é determinado por
15!
= 2270268000.
3!3!2!2!1!2!2!
Definição 1.2.4 (Arranjos com repetição)
Arranjos com repetição - Número de sequências de k elementos que é possível formar de
um grupo de n elementos distintos.
n
A0k = nk .
(4)
Exemplo 1.2.3
• Quantos números de vinte algarismos se podem escrever utilizando os dígitos 1 e 0?
→ O que se pretende é determinar o número de sequências de vinte algarismos que
podem ser formadas utilizando os dígitos 1 e 0 (podendo-se repetir o mesmo dígito).
Assim, a resposta é determinada por
n
A0k = 2 A020 = 220 = 1 048 576.
Definição 1.2.5 (Arranjos sem repetição)
Arranjos sem repetição - Número de sequências de k elementos diferentes que é possível
formar de um grupo de n elementos distintos (k ≤ n).
n
Ak =
n!
.
(n − k)!
12
(5)
Exemplo 1.2.4
• Numa corrida participam dez concorrentes. Considerando que três vão receber medalhas
(ouro, prata e bronze), de quantas maneiras diferentes se podem distribuir pelo pódio os
dez concorrentes?
→ O pretendido é calcular o número de sequências de três corredores que podem ser
formadas, sem repetir o mesmo corredor, de entre os dez participantes. Assim, a
resposta é determinada por
n
Ak =
10
A3 =
10!
10 × 9 × 8 × 7!
=
= 10 × 9 × 8 = 720.
(10 − 3)!
7!
Definição 1.2.6 (Combinações sem repetição)
Combinações sem repetição - Número de conjuntos de k elementos diferentes que é
possível formar de um grupo de n elementos distintos (k ≤ n).
µ ¶
n
n!
n
.
Ck =
=
(n − k)!k !
k
(6)
Exemplo 1.2.5
• Numa reunião foi decidido escolher, de entre os trinta indivíduos que nela participavam,
um grupo de dez para efectuar determinado trabalho. Quantos grupos diferentes é possível
formar?
→ O que é pretendido determinar, neste exemplo, é o número de conjuntos (pois não
interessa a ordem com que são escolhidos, mas unicamente quais são os elementos
que constituem o grupo de trabalho) de dez indivíduos que é possível formar utilizando
os trinta indivíduos presentes na reunião (sem repetição pois um indivíduo não pode
ser escolhido duas vezes). Assim, o número de grupos diferentes que é possível formar
é determinado por
30
C10
µ ¶
30
30!
= 30 045 015.
=
=
(30 − 10)!10!
10
13
Saliente-se que, quando são utilizados arranjos, está-se a calcular o número de sequências, onde a ordem dos elementos tem influência no agrupamento, e, quando são utilizadas
combinações, está-se a calcular o número de conjuntos, onde a ordem dos elementos não tem
influência. Assim, pode-se resumir o que foi descrito para os arranjos e para as combinações
através do seguinte quadro:
Quadro 1: Resumo de análise combinatória
Sem repetição (k ≤ n)
n!
n 0
n
Ak = nk
Ak =
(n − k)!
¡
¡ ¢
¢
n+k−1
n
Ck = n+k−1
Ck = nk
k
Com repetição
Interessa a ordem
Não interessa a ordem
A interpretação clássica de Laplace manteve-se até ao início deste século quando começaram
a surgir críticas, quer no que diz respeito ao cálculo de probabilidades onde o princípio da
simetria não é verificado, quer em situações em que o número de casos possíveis não é finito
nem sequer numerável. Apesar de todas as críticas, são ainda muitos os exemplos em que há
simetria e o número de casos possíveis é finito, pelo que continua a ser possível aplicar esta
teoria.
14
1.2.2
Definição frequencista de probabilidade
A regularidade estatística dos fenómenos aleatórios fez surgir uma outra teoria, a teoria frequencista das probabilidades. Esta teoria surgiu no início do século XX (tendo como
autores Venn, Von Mises, Reichenbach, Salmon, entre outros) e, segundo ela, a probabilidade
de um acontecimento pode ser determinada observando a frequência relativa desse acontecimento numa sucessão numerável de experiências aleatórias, idênticas e independentes. Efectuando n repetições de uma experiência aleatória, seja fA a frequência relativa
do acontecimento A. Devido ao princípio da regularidade estatística é de esperar que as frequências relativas de A numa sucessão de provas com um grande número de repetições sejam
aproximadamente iguais a um número P (com 0 ≤ P ≤ 1).
Exemplo 1.2.6
• Para testar a qualidade dos dados produzidos numa fábrica recolheu-se uma amostra e cada
um destes dados foi lançado um número muito grande de vezes. Se o dado for perfeito,
espera-se que cada face saia o mesmo número de vezes, ou seja, que os resultados possam
Frequência relativa
ser apresentados num gráfico com o seguinte aspecto:
20,00%
15,00%
10,00%
5,00%
0,00%
1
2
3
4
5
6
Número da face
Os gráficos seguintes foram obtidos a partir do lançamento de dois dados (A e B).
15
Dado B
Resultado de 100 lançamentos
Resultado de 100 lançamentos
30,00%
20,00%
Frequência relativa
Frequência relativa
Dado A
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
1
2
3
4
5
18,00%
16,00%
14,00%
12,00%
10,00%
1
6
2
5
Resultado de 1000 lançamentos
Resultado de 1000 lançamentos
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
20,00%
Frequência relativa
Frequência relativa
4
6
Número da face
Número da face
18,00%
16,00%
14,00%
12,00%
10,00%
1
2
3
4
5
6
1
2
3
4
5
6
Número da face
Número da face
Resultado de 10000 lançamentos
Resultado de 10000 lançamentos
20,00%
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
Frequência relativa
Frequência relativa
3
18,00%
16,00%
14,00%
12,00%
10,00%
1
2
3
4
5
6
1
2
3
4
5
6
Número da face
Número da face
Analisando os resultados da experiência, considera-se o dado A como viciado e o dado
B como perfeito. Nesta experiência utilizou-se o conhecimento de que, à medida que
aumenta o número de experiências, a frequência relativa tende a estabilizar à volta de um
valor.
16
1.2.3
Definição axiomática de probabilidade
No início do século XX começou-se a sentir a necessidade de uma axiomatização da teoria das
probabilidades que permitisse ultrapassar a ambiguidade de certos conceitos e interpretações.
A definição de probabilidade que irá ser apresentada foi introduzida por Kolmogorov em 1933.
Definição 1.2.7 (Definição axiomática de probabilidade)
Considere-se uma experiência aleatória com espaço de resultados e seja A, com A ⊂ Ω,
um acontecimento. Chama-se probabilidade à função P que a cada acontecimento associa um
número real, representado por P(A) e denominado probabilidade do acontecimento A, que satisfaz as seguintes propriedades (axiomas):
(A1 )
∀A ⊂ Ω, P (A) ≥ 0;
(A2 )
P (Ω) = 1;
(A3 )
∀A, B ⊂ Ω : A ∩ B = ∅
1
=⇒ P (A ∪ B) = P (A) + P (B).
Nota:
Quando Ω é infinito, o conjunto de axiomas está incompleto. Terá, então, que ser
considerado a generalização do terceiro axioma:
Ã+∞ ! +∞
[
X
(A∗3 ) P
Ai =
P (Ai ) se Ai ∩ Aj = ∅, para ∀i 6= j.
i=1
i=1
Leis básicas das probabilidades
Muitas propriedades úteis e interessantes podem ser deduzidas dos três axiomas da definição
axiomática de probabilidade. Vão-se analisar algumas destas propriedades.
Teorema 1.2.1
∀A ⊂ Ω, P (A) + P (A) = 1, ou seja, P (A) = 1 − P (A).
1
A e B são acontecimentos incompatíveis ou mutuamente exclusivos.
17
Demonstração:
Pelo segundo axioma (A2 ) tem-se que P (Ω) = 1. Considerando que, para qualquer
acontecimento A, Ω = A ∪ A, obtém-se
1 = P (Ω) = P (A ∪ A).
Tendo em conta que se pretende a probabilidade da união de dois acontecimentos
¡
¢
disjuntos A ∩ Ā = ∅ , pelo terceiro axioma (A3 ) vem
1 = P (Ω) = P (A ∪ A) = P (A) + P (A),
donde se conclui que
P (A) + P (A) = 1 ⇔ P (A) = 1 − P (A).
Teorema 1.2.2
Sendo ∅ o acontecimento impossível, então P (∅) = 0.
Demonstração:
Como ∅ = Ω pelo teorema 1.2.1 vem
P(∅) = 1 − P (∅) = 1 − P (Ω),
que considerando que P (Ω) = 1 (A2 ) vem
1 − P (Ω) = 1 − 1 = 0.
Teorema 1.2.3
∀A, B ⊂ Ω : A ⊂ B ⇒ P (A) ≤ P (B).
Demonstração:
Se A ⊂ B ⇒ B = A ∪ (B ∩ A) e A ∩ (B ∩ A) = ∅, então por (A3 ) conclui-se que
¤
£
P (B) = P A ∪ (B ∩ A) = P (A) + P (B ∩ A),
como P (B ∩ A) ≥ 0 por (A1 ), vem
P (B) = P (A) + P (B ∩ A) ⇒ P (B) ≥ P (A).
18
Teorema 1.2.4
∀A ⊂ Ω, P (A) ≤ 1.
Demonstração:
Considerando que A ⊂ Ω e P (Ω) = 1 pelo teorema 1.2.3 vem P (A) ≤ P (Ω) = 1.
Teorema 1.2.5
∀A, B ⊂ Ω, P (A) = P (A ∩ B) + P (A ∩ B), ou seja, P (A ∩ B) = P (A) − P (A ∩ B).2
Demonstração:
Como A = (A ∩ B) ∪ (A ∩ B) [ou A = (A ∩ B) ∪ (A\B)], vem
¤
£
P (A) = P (A ∩ B) ∪ (A ∩ B) ,
onde A∩B e A∩B são acontecimentos incompatíveis, ou seja, (A∩B)∩(A∩B) = ∅
então, por (A3 ) vem
P (A) = P (A ∩ B) + P (A ∩ B).
Teorema 1.2.6
∀A, B ⊂ Ω, P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demonstração:
Como A ∪ B = A ∪ (B ∩ A) e A ∩ (B ∩ A) = ∅, recorrendo a (A3 ) vem
£
¤
P (A ∪ B) = P A ∪ (B ∩ A) = P (A) + P (B ∩ A),
utilizando o teorema 1.2.5 que diz que P (B ∩ A) = P (B) − P (B ∩ A) obtém-se
P (A ∪ B) = P (A) + P (B) − P (B ∩ A) = P (A) + P (B) − P (A ∩ B).
2
A ∩ B = A\B
19
Exemplo 1.2.7
• Em determinada população, a revista A é adquirida por 9.8 por cento dos seus habitantes
[P (A) = 0.098], a revista B por 22.9 por cento [P (B) = 0.229] e 5.1 por cento da população
adquire a revista A e a revista B [P (A ∩ B) = 0.051]. Qual a probabilidade de uma pessoa
escolhida ao acaso:
→ não adquirir a revista A? [acontecimento A]
P (A) = 1 − P (A) = 1 − 0.098 = 0.902.
→ adquirir pelo menos uma revista? [acontecimento A ∪ B]
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
= 0.098 + 0.229 − 0.051 = 0.276.
→ somente adquirir a revista A? [acontecimento A ∩ B = A\B]
P (A ∩ B) = P (A) − P (A ∩ B) =
= 0.098 − 0.051 = 0.047.
→ somente adquirir a revista B? [acontecimento A ∩ B = B\A]
P (A ∩ B) = P (B) − P (A ∩ B) =
= 0.229 − 0.051 = 0.178.
→ não adquirir nenhuma revista? [acontecimento A ∩ B = A ∪ B pelas leis de De
Morgan3 ]
P (A ∩ B) = P (A ∪ B) =
= 1 − P (A ∪ B) = 1 − 0.276 = 0.724.
3
Ver propriedades dos acontecimentos complementares na página 7
20
→ adquirir somente uma revista? [acontecimento (A ∩ B) ∪ (A ∩ B)]
£
¤
P [(A ∩ B) ∪ (A ∩ B)] = P (A ∩ B) + P (A ∩ B) − P (A ∩ B) ∩ (A ∩ B) ,
£
¤
que, tendo em conta que (A∩B)∩(A∩B) = ∅, vem que P (A ∩ B) ∩ (A ∩ B) = 0,
logo
£
¤
P (A ∩ B) + P (A ∩ B) − P (A ∩ B) ∩ (A ∩ B) =
= P (A ∩ B) + P (A ∩ B) =
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) =
= 0.098 − 0.051 + 0.229 − 0.051 = 0.225
21
1.3
Probabilidades condicionadas e acontecimentos independentes
A definição de probabilidade de um acontecimento tem por base um dado conjunto fundamental de condições. Quando é calculada P (A) sem restrições, além das condições fundamentais,
chama-se a essa probabilidade probabilidade incondicional, absoluta ou a priori. Contudo, em muitos casos, a probabilidade de um acontecimento é determinada por hipóteses
suplementares ou informações adicionais, isto é, a probabilidade de um acontecimento A é
condicionada pela realização de um outro acontecimento B com probabilidade não nula. A
esta probabilidade dá-se o nome de probabilidade condicional e representa-se por P (A|B),
que significa a probabilidade de o acontecimento A se realizar sob a condição do
acontecimento B se ter realizado e lê-se a probabilidade de A condicionada a B.
Definição 1.3.1 (Definição de probabilidade condicionada)
Sejam A e B dois acontecimentos: A, B ⊂ Ω. Chama-se probabilidade de A condicionada a B ou probabilidade de A se B e representa-se por P(A|B), com P (B) 6= 0,
a
P (A|B) =
P (A ∩ B)
,
P (B)
isto é, a probabilidade de A se realizar sabendo que B se realizou.
A probabilidade de A condicionada pela realização de B representa a reavaliação da probabilidade de A face à informação de que B se realizou.
Nota:
As probabilidades condicionadas satisfazem os três axiomas da definição axiomática
de probabilidades.4
Teorema 1.3.1
∀A, B ⊂ Ω : P (B) 6= 0 ⇒ P (A|B) ≥ 0.
4
Consultar definição axiomática de probabilidades na página 17
22
Demonstração:
P (A|B) =
P (A ∩ B)
,
P (B)
como P (A ∩ B) ≥ 0 e P (B) > 0, logo
P (A ∩ B)
≥ 0.
P (B)
Teorema 1.3.2
∀B ⊂ Ω : P (B) 6= 0 ⇒ P (Ω|B) = 1.
Demonstração:
P (Ω|B) =
P (B)
P (Ω ∩ B)
=
= 1.
P (B)
P (B)
Teorema 1.3.3
∀A1 , A2 , B ⊂ Ω : P (B) 6= 0, A1 ∩ A2 = ∅ ⇒ P (A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B).
Demonstração:
P (A1 ∪ A2 |B) =
P [(A1 ∪ A2 ) ∩ B] P [(A1 ∩ B) ∪ (A2 ∩ B)]
=
,
P (B)
P (B)
que, considerando que A1 ∩ A2 = ∅ ⇒ (A1 ∩ B) ∩ (A2 ∩ B) = ∅, vem
P [(A1 ∩ B) ∪ (A2 ∩ B)] P (A1 ∩ B) + P (A2 ∩ B)
=
= P (A1 |B) + P (A2 |B).
P (B)
P (B)
Nota:
As probabilidades condicionadas obedecem aos teoremas apresentados nas leis básicas das probabilidades (desde que se mantenha sempre o condicionante)5 .
Teorema 1.3.4
∀A, B ⊂ Ω : P (B) 6= 0 ⇒ P (A|B) + P (Ā|B) = 1 ou P (A|B) = 1 − P (Ā|B).
5
Rever leis básicas de probabilidade na página 17.
23
Demonstração:
P (Ā|B) =
P (Ā ∩ B)
,
P (B)
utilizando o teorema 1.2.5 no numerador vem
P (Ā ∩ B)
P (B) − P (B ∩ A)
P (B) P (B ∩ A)
=
=
−
= 1 − P (A|B).
P (B)
P (B)
P (B)
P (B)
Teorema 1.3.5
∀B ⊂ Ω : P (B) 6= 0 ⇒ P (∅|B) = 0, sendo ∅ o acontecimento impossível.
Demonstração:
P (∅|B) =
P (∅ ∩ B)
P (∅)
=
= 0.
P (B)
P (B)
Teorema 1.3.6
∀A, B, C ⊂ Ω : P (C) 6= 0, A ⊂ B ⇒ P (A|C) ≤ P (B|C).
Demonstração:
Se A ⊂ B ⇒ (A ∩ C) ⊂ (B ∩ C) ⇒ P (A ∩ C) ≤ P (B ∩ C), logo
P (A|C) =
P (A ∩ C)
P (B ∩ C)
≤
= P (B|C).
P (C)
P (C)
Teorema 1.3.7
∀A, B ⊂ Ω : P (B) 6= 0 ⇒ P (A|B) ≤ 1.
Demonstração:
Considerando que A ⊂ Ω e P (Ω|B) = 1 pelo teorema 1.3.6 vem
P (A|B) ≤ P (Ω|B) = 1.
24
Teorema 1.3.8
∀A, B, C ⊂ Ω : P (C) 6= 0 ⇒ P (A|C) = P [A ∩ B|C] + P [A ∩ B|C] ou
P [A ∩ B|C] = P (A|C) − P [A ∩ B|C] 6 .
Demonstração:
Como A = (A ∩ B) ∪ (A ∩ B) ou A = (A ∩ B) ∪ (A\B)
P (A|C) = P [(A ∩ B) ∪ (A ∩ B)|C],
onde (A ∩ B) e (A ∩ B) são acontecimentos incompatíveis, então pelo teorema 1.3.3
conclui-se que
P [(A ∩ B) ∪ (A ∩ B)|C] = P (A ∩ B|C) + P (A ∩ B|C).
Teorema 1.3.9
∀A, B, C ⊂ Ω : P (C) 6= 0 ⇒ P (A ∪ B|C) = P (A|C) + P (B|C) − P (A ∩ B|C).
Demonstração:
Como A ∪ B = A ∪ (B ∩ A) e A ∩ (B ∩ A) = ∅,
recorrendo ao teorema 1.3.3 vem
£
¤
P (A ∪ B|C) = P A ∪ (B ∩ A)|C = P (A|C) + P (B ∩ A|C),
que utilizando o teorema 1.3.8 obtém-se
P (A ∪ B|C) = P (A|C) + P (B|C) − P (A ∩ B|C).
Exemplo 1.3.1
• De um baralho de 52 cartas retira-se uma carta.
→ Qual a probabilidade de ser um rei sabendo que é de ouros?
Casos possíveis: 52 cartas
6
A ∩ B = A\B
25
1
13
=
52
4
4
1
P (“rei”) =
=
52
13
P (“ouros”) =
P (“rei” ∩ “ouros”) =
1
52
1
1
P (”rei” ∩ ”ouros”)
= 52 = .
P (”rei”|”ouros”) =
1
P (”ouros”)
13
4
→ Qual a probabilidade de não ser rei sabendo que a carta é de ouros?
12
1
=
P (“não rei“|“ouros“) = 1 − P (“rei“|“ouros“) = 1 −
13
13
Por vezes é mais fácil determinar o valor da probabilidade condicionada entre dois acontecimentos do que a probabilidade da sua intersecção. Assim, a relação entre a probabilidade
condicionada e a probabilidade da intersecção entre dois acontecimentos patente na definição
de probabilidade condicionada pode ser utilizada para calcular a probabilidade da intersecção.
Este resultado é dado pelo teorema da probabilidade composta e pelo teorema da multiplicação.
Teorema 1.3.10 (Teorema da probabilidade composta)
Sejam A e B dois acontecimentos quaisquer tais que P (A) 6= 0 e P (B) 6= 0, então
P (A ∩ B) = P (A|B) × P (B) = P (B|A) × P (A).
Demonstração:
P (A|B) =
P (A ∩ B)
⇔ P (A ∩ B) = P (A|B)P (B),
P (B)
P (B|A) =
P (B ∩ A)
⇔ P (B ∩ A) = P (A ∩ B) = P (B|A)P (A).
P (A)
26
(7)
Teorema 1.3.11 (Teorema da multiplicação)
Sejam A1 , A2 , A3 , ..., An n acontecimentos quaisquer do espaço amostral tais que
P (A1 ∩ A2 ∩ A3 ∩ · · · ∩ An ) 6= 0, então
P (A1 ∩ A2 ∩ · · · ∩ An ) =
= P (A1 ) × P (A2 |A1 ) × P (A3 |A1 ∩ A2 ) × · · · × P (An |A1 ∩ A2 ∩ · · · ∩ An−1 )
(8)
Exemplos 1.3.2
• Um caixa contém cinco bolas, das quais três são brancas e duas são pretas. Considerando
que são retiradas duas bolas sem reposição, qual a probabilidade de serem retiradas duas
bolas brancas?
P (B1 ∩ B2 ) =?
→ Considerando que a probabilidade de a segunda bola ser branca depende da cor da
primeira bola retirada, pode-se utilizar o teorema da probabilidade composta para
condicionar a probabilidade de a segunda bola ser branca ao facto de a primeira ter
sido branca, ou seja
P (B1 ∩ B2 ) = P (B2 |B1 )P (B1 ).
A probabilidade de a primeira bola ser branca é facilmente determinada pela definição
clássica (quociente entre o número de caso favoráveis e o número de casos possíveis),
pois têm-se três bolas brancas em cinco bolas possíveis. Para determinar P (B2 |B1 )
utiliza-se novamente a definição clássica, onde, por já ter saído uma bola, só se tem
quatro casos possíveis, e, pelo facto de a primeira bola retirada ter sido branca, já só
se possui dois casos favoráveis; então,
P (B2 |B1 )P (B1 ) =
6
2 3
× =
= 0.3.
4 5 20
• Um lote de 30 peças contém 10 defeituosas. Tiram-se 3 peças ao acaso (sem reposição).
Qual a probabilidade de serem todas não defeituosas?
27
→ Seja Ai , com i = 1, 2, 3 o acontecimento “saída de uma peça não defeituosa na
i-ésima tiragem“.
Pretende-se calcular P (A1 ∩ A2 ∩ A3 ), que, pelo teorema da multiplicação, vem
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ),
20
19
, P (A2 |A1 ) =
(visto que se sair uma peça não defeituosa na
30
29
18
primeira tiragem ficam 29 peças das quais somente 19 são boas) e P (A3 |A1 ∩A2 ) =
28
(considerando que nas duas primeiras tiragens saíram peças não defeituosas, aquando
como P (A1 ) =
da terceira tiragem existem 28 peças nas quais 18 são boas), então,
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) =
20 19 18
×
×
= 0.28.
30 29 28
Além das probabilidades condicionadas, outra noção que representa um papel de extrema
importância na teoria das probabilidades é a de acontecimentos independentes.
Definição 1.3.2 (Definição de dois acontecimentos independentes)
Dois acontecimentos A e B dizem-se independentes quando
P (A ∩ B) = P (A) × P (B).
(9)
Teorema 1.3.12
Se A e B são dois acontecimentos independentes, P (A) 6= 0 e P (B) 6= 0, então:
P (A|B) = P (A)
e
P (B|A) = P (B),
(10)
isto é, se A e B são independentes, o conhecimento da realização de A em nada afecta a
probabilidade de realização de B e vice-versa.
Demonstração:
28
P (A|B) =
P (A ∩ B)
,
P (B)
que tendo em conta que A e B são independentes, vem
P (A ∩ B)
P (A) × P (B)
=
= P (A).
P (B)
P (B)
Como exemplos de acontecimentos independentes podem-se considerar tiragens com reposição,
lançamentos de um dado ou de uma moeda, entre muitos outros.
Teorema 1.3.13
Se A e B são acontecimentos independentes, também o são:
i)
A e B,
ii) A e B,
iii) A e B.
Demonstração:
i)
de A e B:
P (A ∩ B) = P (A) − P (A ∩ B),
que considerando a hipótese de que A e B são independentes vem
P (A) − P (A ∩ B) = P (A) − P (A) × P (B) = P (A) × [1 − P (B)] =
= P (A) × P (B).
ii)
iii)
de A e B é análogo ao anterior.
de A e B:
P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − [P (A) + P (B) − P (A ∩ B)] =
que considerando que A e B são independentes vem
= 1 − [P (A) + P (B) − P (A) × P (B)] = 1 − P (A) − P (B) + P (A) × P (B) =
= [1 − P (A)] − P (B) × [1 − P (A)] = P (A) − P (B) × P (A) =
= P (A) × [1 − P (B)] = P (A) × P (B).
29
Exemplo 1.3.3
• Sejam A e B dois acontecimentos independentes tais que P (A ∪ B) = 0.7 e P (A) = 0.5.
1. Determine P (B).
→ Através do enunciado sabe-se:
P (A ∪ B) = 0.7, P (A) = 0.5 e P (A ∩ B) = P (A) × P (B) (pois A e B são
independentes)
como P (A∪B) = P (A)+P (B)−P (A∩B) = P (A)+P (B)−P (A)×P (B) = 0.7,
onde substituindo P (A) pelo seu valor obtém-se
0.5 + P (B) − 0.5P (B) = 0.7 ⇔ P (B) − 0.5P (B) = 0.7 − 0.5 ⇔
0.2
⇔ 0.5P (B) = 0.2 ⇔ P (B) =
= 0.4.
0.5
2. Determine P (A ∩ B).
→ Tendo em conta que A e B são acontecimentos independentes, então, A e B
também o são, ou seja, P (A ∩ B) = P (A) × P (B) = (1 − 0.5) × (1 − 0.4) = 0.3.7
Definição 1.3.3 (Definição de três acontecimentos independentes)
Três acontecimentos A, B e C dizem-se independentes quando se verificar simultaneamente:
1. P (A ∩ B ∩ C) = P (A) × P (B) × P (C);
2. P (A ∩ B) = P (A) × P (B);
3. P (A ∩ C) = P (A) × P (C);
4. P (B ∩ C) = P (B) × P (C).
7
Note-se que também se poderia calcular esta probabilidade utilizando as leis de De Morgan, obtendo-se
P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − 0.7 = 0.3
30
Teorema 1.3.14
Sejam A1 , A2 , · · · , An n acontecimentos independentes, então
P (A1 ∩ A2 ∩ A3 ∩ · · · ∩ An ) = P (A1 ) × P (A2 ) × P (A3 ) × P (A4 ) × · · · × P (An ).
(11)
Assim, o cálculo da probabilidade da intersecção de vários acontecimentos independentes
pode ser simplificado para a multiplicação das probabilidades de cada um dos acontecimentos
isoladamente.
Exemplo 1.3.4
• Considere a experiência aleatória que consiste em três lançamentos de um dado. Qual a
probabilidade de sair três vezes a face seis?
P (F6 ∩ F6 ∩ F6 ) =?
→ Tendo em conta que o resultado de cada lançamento não influencia o resultado dos
restantes lançamentos, ou seja, que os acontecimentos são independentes, pode-se
passar da probabilidade da intersecção para o produto das probabilidades, então
µ ¶3
1
1
P (F6 ∩ F6 ∩ F6 ) = P (F6 ) × P (F6 ) × P (F6 ) =
.
=
6
216
31
1.4
Teorema das probabilidades totais e teorema de Bayes
Definição 1.4.1 (Definição de partição de Ω)
Os acontecimentos A1 , A2 , · · · , An definem uma partição de Ω quando se verificar simultaneamente as seguintes três condições:
i) A1 ∪ A2 ∪ · · · ∪ An = Ω;
ii) ∀i 6= j ⇒ Ai ∩ Aj = ∅;
iii) i = 1, ..., n, P (Ai ) > 0.
Figura 7: Exemplo de uma partição de Ω
Teorema 1.4.1 (Teorema das probabilidades totais)
Sejam A1 , A2 , A3 , · · · , An acontecimentos definindo uma partição sobre Ω, então, para qualquer acontecimento B, tem-se:
P (B) =
n
X
i=1
P (B|Ai ) × P (Ai ) .
Figura 8: Teorema das probabilidades totais
32
Demonstração:
Considerando que os acontecimentos A1 , A2 , A3 , · · · , An definem uma partição de Ω
tem-se que A1 ∪ A2 ∪ · · · ∪ An = Ω logo
B = B ∩ Ω = B ∩ (A1 ∪ A2 ∪ A3 ∪ · · · ∪ An )
que utilizando a propriedade distributiva vem
B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ (B ∩ A3 ) ∪ · · · ∪ (B ∩ An ),
então, utilizando probabilidades, vem
P (B) = P [(B ∩ A1 ) ∪ (B ∩ A2 ) ∪ (B ∩ A3 ) ∪ · · · ∪ (B ∩ An )].
Como ∀i 6= j tem-se Ai ∩Aj = ∅, então ∀i 6= j também se tem (B∩Ai )∩(B∩Aj ) = ∅
obtendo-se, então
P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) + P (B ∩ A3 ) + · · · + P (B ∩ An ) =
considerando que P (B ∩ Ai ) = P (B|Ai )P (Ai ) (ver teorema 1.3.10 na página 26)
vem
=
n
P
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) + ... + P (B|An )P (An ) =
P (B|Ai ) P (Ai ) .
i=1
Teorema 1.4.2 (Teorema de Bayes)
Sejam A1 , A2 , A3 , · · · , An n acontecimentos que definem uma partição sobre Ω e seja B
um qualquer acontecimento de Ω tal que P (B) 6= 0. Nestas condições, para j = 1, 2, ..., n,
verifica-se:
P (B|Aj ) × P (Aj )
P (Aj |B) = P
.
n
P (B|Ai ) × P (Ai )
i=1
Demonstração:
Por definição de probabilidade condicional tem-se
P (Ai |B) =
P (Ai ∩ B)
,
P (B)
33
(12)
que utilizando o teorema da probabilidade composta (ver teorema 1.3.10 na página
26) vem que P (Ai ∩ B) = P (B|Ai )P (Ai ). Em relação ao denominador basta usar
o teorema das probabilidades totais (teorema 1.4.1 na página 32) e obtém-se o
resultado pretendido, ou seja
P (Ai ∩ B)
P (B|Aj ) × P (Aj )
= P
.
n
P (B)
P (B|Ai ) × P (Ai )
i=1
Exemplos 1.4.1
• Uma loja vende três marcas de determinado produto (M1 , M2 e M3 ), sendo trinta por
cento dos produtos vendidos da marca M1 , vinte da marca M2 e os restantes da marca
M3 . Sabe-se ainda que alguns produtos possuem defeito de fabrico, correspondendo a dois
por cento dos da marca M1 , cinco dos da marca M2 e dez dos da marca M3 .
— Qual a probabilidade de um produto vendido possuir defeito? [P (D)]
Do enunciado pode-se retirar o valor das seguintes probabilidades:
P (M1 ) = 0.30
P (M2 ) = 0.20
P (M3 ) = 0.50
P (D|M1 ) = 0.02
P (D|M2 ) = 0.05
P (D|M3 ) = 0.10
Note-se que os acontecimentos M1 , M2 e M3 definem uma partição de Ω, ou seja:
i) Só são vendidos produtos das marcas M1 , M2 e M3 , ou seja, M1 ∪ M2 ∪ M3 = Ω;
ii) Se um produto é de uma marca não pode ser simultaneamente doutra marca, ou
seja, Mi ∩ Mj = ∅ para i 6= j.
iii) Qualquer marca vende produtos, ou seja, P (Mi ) > 0, para i = 1, 2, 3.
Assim, estão satisfeitas as condições de utilização do teorema das probabilidades
totais,
P (D) = P (D|M1 )P (M1 ) + P (D|M2 )P (M2 ) + P (D|M3 )P (M3 ) =
= 0.02 × 0.3 + 0.05 × 0.2 + 0.1 × 0.5 = 0.066
34
— Qual a probabilidade de um produto vendido ser da marca M1 sabendo que possui
defeito de fabrico?
P (M1 |D) =?
Recordando que os acontecimentos M1 , M2 e M3 definem uma partição de Ω e que
P (D) 6= 0, pode utilizar-se o teorema de Bayes, obtendo-se
P (M1 |D) =
P (D|M1 ) P (M1 )
=
3
P
P (D|Mj ) P (Mj )
j=1
=
1
0.02 × 0.3
=
0.02 × 0.3 + 0.05 × 0.2 + 0.10 × 0.5
11
• Nos parques industriais A1 , A2 e A3 existem empresas que se dedicam à actividade têxtil,
respectivamente, 10, 40 e 25 por cento das empresas. Escolhido ao acaso um parque e
nele, também ao acaso, uma empresa:
— Qual a probabilidade de a empresa ser têxtil?
1
1. Escolha do parque P (A1 ) = P (A2 ) = P (A3 ) = ;
3
2. Escolha de uma empresa no parque obtido em 1). Seja B o acontecimento “saída
de uma empresa têxtil”. São dados fornecidos pelo enunciado:
P (B|A1 ) = 0.1, P (B|A2 ) = 0.4, P (B|A3 ) = 0.25
A probabilidade pedida é P (B) que, utilizando o teorema das probabilidades totais, vem:
P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) =
= 0.1 ×
1
1
1
+ 0.4 × + 0.25 × = 0.25.
3
3
3
35
— Supondo que a empresa escolhida é do sector têxtil, qual a probabilidade de esta
empresa pertencer ao parque A1 ?
P (A1 |B) =?
Pelo teorema de Bayes
P (Aj |B) =
P (B|Aj ) P (Aj )
P (B|Aj ) P (Aj )
, ou seja
=
3
P
P (B)
P (B|Ai ) × P (Ai )
i=1
0.1 × 13
P (B|A1 ) P (A1 )
P (A1 |B) =
=
= 0.13 (3) .
P (B)
0.25
36
2
Distribuições
2.1
Definição de variável aleatória
Como foi visto no capítulo anterior, uma experiência aleatória é um procedimento que leva
à obtenção de um ou vários resultados sujeitos ao acaso. Em algumas experiências aleatórias
verifica-se que os elementos (ω) do espaço amostral (Ω) são números reais: medição de um comprimento, tempo que um autocarro demora a percorrer um determinado trajecto entre duas
cidades, quantidade produzida por uma fábrica, número de pessoas que entram diariamente
numa loja, lucro de uma empresa, entre outras. Noutras experiências aleatórias o resultado
não é um número real, mas sim uma característica, como por exemplo descrever a produção de
baterias em “defeituosas” e “não defeituosas”. Contudo, nestas experiências, o interesse recai
sobre a mensuração de algumas características e sobre o seu registo como um número. Portanto,
quando o espaço amostral não é um conjunto numérico, a aplicação de procedimentos estatísticos passa pela atribuição de um número real (ou conjunto de números reais) a cada elemento
ω pertencente a Ω. No caso referido, poder-se-ia atribuir o número 1 às peças “defeituosas” e
o número 0 às peças “não defeituosas”. Estes valores podem ser vistos como valores assumidos
por uma variável no decurso de uma experiência aleatória. A essa variável chama-se variável
aleatória.
Definição 2.1.1 (Definição de variável aleatória)
Chama-se variável aleatória (representando-se por uma letra maiúscula, normalmente X)
a uma função cujo valor é um número real determinado pelo resultado de uma experiência
aleatória, isto é,
X: Ω → R
ω
7→ x = X (ω)
Assim, uma função, X, que associa a cada elemento ω ∈ Ω um número real, x = X(ω), é
denominada variável aleatória.
As variáveis aleatórias, consoante o conjunto de valores que podem assumir, são classificadas
em variáveis aleatórias discretas e variáveis aleatórias contínuas. Considerando X uma
37
variável aleatória, se os valores possíveis de X (o contradomínio de X) for finito ou infinito
numerável, denomina-se X de variável aleatória discreta. Ou seja, uma variável diz-se
discreta quando pode assumir com probabilidade diferente de zero um número finito ou infinito
numerável de valores.
Exemplo 2.1.1
• número de pontos de um lançamento de um dado;
• número de pessoas em fila numa caixa de um supermercado;
• observação do sexo num conjunto de nascimentos;
• alunos reprovados e aprovados em determinada disciplina.
Se X é uma variável aleatória cujo contradomínio é um intervalo real ou uma colecção de
intervalos reais, então X é uma variável aleatória contínua.
Exemplo 2.1.2
• peso de um indivíduo;
• comprimento de uma árvore;
• tempo que um corredor demora a percorrer a maratona.
38
2.2
Variáveis Aleatórias Discretas
Neste capítulo começa-se por definir os principais conceitos para caracterizar e trabalhar com as
variáveis aleatórias discretas, seguindo-se uma descrição das principais distribuições utilizadas
na prática.
2.2.1
Caso unidimensional
a) Função de probabilidade
Como foi referido, uma variável aleatória diz-se discreta quando assume um número finito ou
uma infinidade numerável de valores. Considere-se que os valores que a variável aleatória X
pode assumir são x1 , x2 , · · · , xn ocorrendo com probabilidade p1 , p2 , · · · , pn , respectivamente.
Nestas condições, a função que associa a cada valor da variável (xi ) a sua probabilidade (pi )
chama-se função de probabilidade da variável aleatória X.
Definição 2.2.1 (Definição de Função de Probabilidade)
Chama-se função de probabilidade da variável aleatória X à função que associa a cada
valor da variável (xi ) a sua probabilidade (pi ), ou seja, f (xi ) = P (X = xi ) = pi . Assim, pode-se definir função de probabilidade da variável aleatória X como o conjunto de pares (xi , pi ),
que podem ser dispostos na forma:
X:
x1
x2
···
xn
f (x)
p1
p2
···
pn
verificando: pi ≥ 0 para i = 1, · · · , n e p1 + p2 + · · · + pn = 1.
Nota:
No caso de a variável aleatória assumir um número infinito numerável de valores,
a função de probabilidade será f (xi ) = P (X = xi ) verificando-se f (xi ) ≥ 0 para
+∞
P
i = 1, 2, · · · e
f (xi ) = 1.
i=1
39
Exemplo 2.2.1
Considere uma variável aleatória que pode assumir os valores 0, 1, 2, 3, 4, 5 e 6 com função de
probabilidade definida da seguinte forma:
X:
f (x) :
0
1
2
3
4
5
6
0.05 0.1 0.2 0.3 0.2 0.1 0.05
A interpretação de cada um dos valores que a função de probabilidade da variável aleatória
X assume é:
f (0) = P (X = 0) = 0.05; f (1) = P (X = 1) = 0.1; f (2) = P (X = 2) = 0.2;
f (3) = P (X = 3) = 0.30; f (4) = P (X = 4) = 0.2; f (5) = P (X = 5) = 0.1;
f (6) = P (X = 6) = 0.05.
De salientar que, tendo em conta que os valores que uma função de probabilidade assume
são probabilidades, estes valores nunca podem ser negativos [P (X = x) ≥ 0] e a soma de todos
os valores tem que ser igual à probabilidade de Ω, ou seja,
P (X = 0) + P (X = 1) + · · · + P (X = 6) = 1.
b) Função de distribuição
Em variáveis cujo espaço amostral é constituído por muitos valores, a utilização da função de
probabilidade para o cálculo da probabilidade da variável assumir um valor inferior (ou superior)
a determinado número torna-se muito trabalhoso. Por exemplo, se uma variável aleatória, X,
descrever o número de carros que passam diariamente na ponte 25 de Abril, no caso de se
pretender calcular a probabilidade de em determinado dia passarem menos de cinco mil carros
[P (X < 5000)], ter-se-ia de somar cinco mil probabilidades: a de não passar nenhum carro,
a de passar só um carro e assim sucessivamente até à de passarem exactamente 4999 carros
[P (X = 0) + P (X = 1) + P (X = 2) + · · · + P (X = 4999)]. Para facilitar estes cálculos existe
a função de distribuição ou distribuição cumulativa da variável aleatória X. Para ser definida
esta função, considere-se que X é uma variável aleatória. Assim, a igualdade F (x) = P (X ≤ x)
define uma função real de variável real denominada função de distribuição da variável aleatória
40
X e, como tal, o valor da função de distribuição no ponto x é igual à probabilidade de a variável
aleatória X assumir um valor inferior ou igual a esse número real x, sendo calculada, no caso
de a variável aleatória X ser discreta, da seguinte forma:
F (x) =
X
f (xi ).
(13)
xi ≤x
Propriedades 2.2.1 (Propriedades da função de distribuição)
1. Para qualquer função de distribuição F (x) tem-se 0 ≤ F (x) ≤ 1;
2. F (x) é não decrescente (constante ou crescente);
3. lim F (x) = 0 e lim F (x) = 1;
x→−∞
x→+∞
4. F (x) é contínua à direita.
Teorema 2.2.1
Para qualquer função de distribuição F (x), dados os números reais x1 e x2 tais que x1 < x2 ,
tem-se P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ) = F (x2 ) − F (x1 ).
Demonstração:
P (X ≤ x2 ) = P (X ∈] − ∞, x2 ]) = P (X ∈] − ∞, x1 ]∪]x1 , x2 ])
como ] − ∞, x1 ]∩]x1 , x2 ] = ∅, tem-se
P (X ∈] − ∞, x1 ]∪]x1 , x2 ]) =
= P (X ∈] − ∞, x1 ]) + P (X ∈]x1 , x2 ]) =
= P (X ≤ x1 ) + P (x1 < X ≤ x2 )
então,
P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) ⇔
⇔ P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ).
41
Exemplo 2.2.2
Considere a variável aleatória descrita no exemplo 2.2.1 na página 39, cuja função de probabilidade é:
X:
f (x) :
0
1
2
3
4
5
6
0.05 0.1 0.2 0.3 0.2 0.1 0.05
A respectiva função de
⎧ distribuição é:
⎪
⎪
se x < 0
⎪ 0
⎪
⎪
⎪
⎪
⎪
⎪
0.05 se 0 ≤ x < 1
⎪
⎪
⎪
⎪
⎪
⎪
0.15 se 1 ≤ x < 2
⎪
⎪
⎪
⎪
⎪
⎨ 0.35 se 2 ≤ x < 3
.
F (x) = P (X ≤ x) =
⎪
⎪
0.65
se
3
≤
x
<
4
⎪
⎪
⎪
⎪
⎪
⎪
0.85 se 4 ≤ x < 5
⎪
⎪
⎪
⎪
⎪
⎪
⎪
0.95 se 5 ≤ x < 6
⎪
⎪
⎪
⎪
⎪
⎩ 1
se x ≥ 6
O cálculo da função de distribuição é feito através dos valores da função de probabilidade;
por exemplo, quando 4 ≤ x < 5 para o cálculo da função de distribuição P (X ≤ x) deve-se
somar P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4).
Utilizando os valores da função de distribuição torna-se mais fácil calcular as seguintes
probabilidades8 :
1. P (X ≤ 3) = 0.65;
2. P (X < 3) = P (X ≤ 3) − P (X = 3) = 0.65 − 0.3 = 0.35 ou
P (X < 3) = P (X ≤ 2) = 0.35;
3. P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X ≤ 2) = 1 − 0.35 = 0.65;
8
De notar que, no exemplo dado, também se poderiam facilmente efectuar os mesmos cálculos utilizando
unicamente a função de probabilidade; no entanto, compreende-se a importância da função de distribuição em
variáveis que podem assumir um elevado número de valores.
42
4. P (X > 3) = 1 − P (X ≤ 3) = 1 − 0.65 = 0.35;
5. P (1 < X ≤ 4) = P (X ≤ 4) − P (X ≤ 1) = 0.85 − 0.15 = 0.7;
6. P (1 ≤ X ≤ 4) = P (X ≤ 4) − P (X < 1) = P (X ≤ 4) − P (X ≤ 0) = 0.85 − 0.05 = 0.8;
7. P (1 < X < 4) = P (X < 4) − P (X ≤ 1) = P (X ≤ 3) − P (X ≤ 1) = 0.65 − 0.15 = 0.5;
8. P (1 ≤ X < 4) = P (X < 4) − P (X < 1) = P (X ≤ 3) − P (X ≤ 0) = 0.65 − 0.05 = 0.6.
c) Valor esperado e variância de uma variável aleatória discreta
Na prática, em muitas situações, está-se interessado em saber apenas algumas características
da variável aleatória, tais como a sua localização e a sua dispersão. Assim, como medida
de localização mais importante utiliza-se o valor esperado e como medidas de dispersão a
variância e o desvio padrão.
Medida de localização
Definição 2.2.2 (Definição de valor esperado de uma variável aleatória discreta)
Dada uma variável aleatória discreta X, chama-se valor esperado, esperança matemática
ou valor médio, representando-se por E(X) ou μX , à quantidade assim definida:
E(X) = μX =
n
X
xi f (xi ),
(14)
i=1
onde X é uma variável aleatória discreta que assume os valores xi com probabilidade f (xi ),
para i = 1, · · · , n.
43
Nota:
No caso de a variável aleatória assumir um número infinito numerável de valores
dever-se-á definir o valor esperado através de:
E(X) = μX =
+∞
X
xi f (xi ),
i=1
que só existe se a série for absolutamente convergente, ou seja, se
+∞
P
i=1
|xi | f (xi ) < ∞.
Exemplo 2.2.3
Considere uma lotaria com 1000 bilhetes diferentes custando cada um 10 euros. Considere
ainda que este sorteio vai distribuir três prémios monetários, sendo o primeiro de 3000 euros,
o segundo de 2000 euros e o terceiro de 1000 euros. Então, a variável aleatória (X) que descreve
o que uma pessoa ganha ao comprar um bilhete é a seguinte:
X:
f (x)
0
1000
2000
3000
0.997 0.001 0.001 0.001
As probabilidades são fáceis de calcular. Cada um dos prémios só sai num bilhete, então,
a probabilidade será o número de casos favoráveis (1) a dividir pelo número de casos possíveis
(1000) sendo o resultado 0.001. Os restantes bilhetes (997 dos 1000) não dão direito a prémio.
Assim, o valor esperado desta variável aleatória é determinado por
E(X) = 0 × 0.997 + 1000 × 0.001 + 2000 × 0.001 + 3000 × 0.001 =
= 0 + 1 + 2 + 3 = 6.
.O valor esperado ser igual a 6 euros pode ser interpretado como o valor que cada pessoa espera
ganhar ao comprar um bilhete, ou seja, o valor médio que ganha cada pessoa que comprou um
bilhete. Neste caso, como o valor que cada pessoa ganha em média por bilhete é inferior ao
custo de cada bilhete, de um ponto de vista económico, comprar um bilhete é um mau negócio.
44
Considere que, em vez de se desejar calcular o valor esperado da variável aleatória X, se
pretende determinar o valor esperado de uma qualquer função de uma variável aleatória X;
para tal, utilizar-se-ia a seguinte definição.
Definição 2.2.3
Seja g(X) uma função real de variável real qualquer, então,
E [g(X)] =
n
X
(15)
g(xi )f (xi ).
i=1
Nota:
No caso de a variável aleatória assumir um número infinito numerável de valores
dever-se-á definir
E [g(X)] =
+∞
X
g(xi )f (xi )
i=1
que só existe se a série for absolutamente convergente, ou seja, se
+∞
P
i=1
∞.
|g(xi )| f (xi ) <
Exemplo 2.2.4
Considerando a variável aleatória X do exemplo 2.2.3 da página 44 que descreve o que uma
pessoa ganha ao comprar um bilhete, no caso de se pretender calcular o valor esperado de
g(X) = 10 + 20X, bastará, pela definição apresentada, fazer
E [g(X)] =
n
X
i=1
n
X
g(xi )f (xi ) =
(10 + 20xi )f (xi ) =
i=1
= (10 + 20 × 0) × 0.997 + (10 + 20 × 1000) × 0.001+
+ (10 + 20 × 2000) × 0.001 + (10 + 20 × 3000) × 0.001 = 130.
Propriedades 2.2.2 (Propriedades do valor esperado)
Considerando a e b duas constantes e X uma variável aleatória qualquer, então
1. E(a) = a;
45
2. E(aX) = aE(X);
3. E(a + X) = a + E(X);
4. E(a + bX) = a + bE(X).
Nota:
Todas estas propriedades são facilmente demonstradas utilizando a definição 2.2.3.
Por exemplo, para demonstrar a quarta propriedade faz-se:
Demonstração:
g (x) = a + bX, sendo
n
n
n
n
n
P
P
P
P
P
E (a + bX) = (a + bxi )f (xi ) =
af (xi ) + bxi f (xi ) = a f (xi ) + b xi f (xi )
i=1
que, como
n
P
i=1
f (xi ) = 1 e
i=1
a
n
P
i=1
f (xi ) + b
n
P
i=1
i=1
i=1
xi f (xi ) = E (X), vem
i=1
n
P
xi f (xi ) = a + bE (X).
i=1
Medida de dispersão
Como foi referido anteriormente, as medidas de dispersão que são mais utilizadas no estudo
das variáveis aleatórias são a variância e o desvio padrão, como seguidamente se indica.
Definição 2.2.4 (Definição de variância)
A variância de uma variável aleatória pode ser representada por σ 2 , V ar(X) ou V (X) e é
definida como sendo o valor esperado de (X − μX )2 , ou seja,
£
¤
£
¤
σ 2X = V ar(X) = V (X) = E [X − E (X)]2 = E (X − μX )2 .
(16)
No caso de a variável aleatória ser discreta, pode-se utilizar a definição, anteriormente
apresentada, que fornece o valor esperado de uma função de uma variável aleatória, sendo a
variância calculada através de
V ar(X) =
n
X
(xi − μX )2 f (xi ).
i=1
46
(17)
Nota:
No caso de a variável aleatória assumir um número infinito numerável de valores
dever-se-á utilizar
V ar(X) =
+∞
X
(xi − μX )2 f (xi )
i=1
Definição 2.2.5 (Definição de desvio padrão)
O desvio padrão é definido como sendo a raiz quadrada positiva da variância, ou seja, representando o desvio padrão por σ, vem
p
σ = + V ar(X).
(18)
No entanto, tal como na estatística descritiva, os cálculos da variância não são habitualmente
efectuados pela sua definição, mas, sim, pela fórmula simplificada de Köning, que, neste
contexto, tem a seguinte forma:
σ2X = V ar(X) = V (X) = E(X 2 ) − E 2 (X) = E(X 2 ) − μ2X .
Demonstração:
σ 2X = E[(X − μX )2 ] = E(X 2 − 2XμX + μ2X ) =
que pelas propriedades do valor esperado obtém-se
= E(X 2 ) − E(2XμX ) + E(μ2X ) =
que tendo em conta que μX é uma constante vem
= E(X 2 ) − 2μX E(X) + μ2X =
que, como E(X) = μX , vem
= E(X 2 ) − 2μ2X + μ2X = E(X 2 ) − μ2X .
47
(19)
Exemplo 2.2.5
Um gestor de uma empresa está indeciso entre dois negócios cujo lucro é descrito pelas variáveis
aleatórias discretas X e Y 9 .
X:
−100
f (x) :
0.05
Y :
f (y) :
0
100
300
0.20 0.50 0.20 0.05
−1900 −900
0.05
200
0.20
100
1100 2100
0.50
0.20
0.05
E(X) = −100 × 0.05 + 0 × 0.2 + 100 × 0.5 + 200 × 0.2 + 300 × 0.05 =
= −5 + 0 + 50 + 40 + 15 = 100;
E(Y )
= −1900 × 0.05 − 900 × 0.2 + 100 × 0.5 + 1100 × 0.2 + 2100 × 0.05 =
= −95 − 180 + 50 + 220 + 105 = 100.
Ambos os negócios têm o mesmo valor esperado, ou seja, em ambos os negócios ganha-se o
mesmo montante em média. Para o gestor, o valor esperado de cada negócio leva-o a concluir
que estes são rentáveis, pois ele espera ter um lucro de 100 unidades monetárias. Compare-se
agora o valor das variâncias.
Para calcular a variância da variável aleatória X, utilizando a fórmula simplificada de
Köning, é necessário antes determinar E(X 2 ). Para o cálculo de E(X 2 ) utiliza-se a fórmula
(15) (ver página 45) considerando que g(x) = x2 , de onde se conclui que
E(X 2 ) =
n
X
x2i f (xi )
i=1
que aplicando ao exemplo, temos
E(X 2 ) = (−100)2 × 0.05 + (0)2 × 0.2 + (100)2 × 0.5 + (200)2 × 0.2 + (300)2 × 0.05 =
= 500 + 0 + 5000 + 8000 + 4500 = 18000,
assim, V ar(X) = E(X 2 ) − E 2 (X) = 18000 − 1002 = 8000 e consequentemente
σX =
9
√
8000 ' 89, 4427.
Em rigor deveriam ser variáveis aleatórias continuas; no entanto, considere-se que o lucro proveniente de
cada negócio só assume alguns valores.
48
Para a variância de Y tem-se
E(Y 2 ) = (−1900)2 × 0.05 + (−900)2 × 0.2 + (100)2 × 0.5 + (1100)2 × 0.2 + (2100)2 × 0.05 =
= 180500 + 162000 + 5000 + 242000 + 220500 = 810000,
V ar(Y ) = E(Y 2 ) − E 2 (Y ) = 810000 − 1002 = 800000 sendo
σY =
√
800000 ' 894, 427.
A variância (e o desvio padrão) da variável que descreve o lucro do negócio Y é superior,
logo, a variável Y é mais dispersa (ou menos concentrada) do que a variável X. Note-se que
a variável Y assume valores mais distantes da média. Assim, caso o gestor opte pelo negócio
Y , assumirá maiores riscos, pois poderá perder 1900 unidades monetárias enquanto que no
negócio X, no máximo, perde 100 unidade monetárias. Em contrapartida, no negócio Y pode
ganhar 2100 unidades monetárias, sendo no negócio X o lucro máximo igual a 300 unidades
monetárias. Neste caso, a decisão de qual o negócio que o gestor deverá optar é feita consoante
o risco que este está disposto a assumir.
Propriedades 2.2.3 (Propriedades da variância)
Considerando a e b duas constantes e X uma variável aleatória qualquer, tem-se
1. V ar(X) ≥ 0;
2. V ar(a) = 0;
3. V ar(a + X) = V ar(X);
4. V ar(aX) = a2 V ar(X);
5. V ar(a + bX) = b2 V ar(X).
49
Nota:
Todas estas propriedades podem ser demonstradas utilizando as propriedades do
valor esperado na definição de variância (fórmula (16) na página 46). Como exemplo vai-se demonstrar a quinta propriedade.
Demonstração:
£
¤
V ar (a + bX) = E [a + bX − E (a + bX)]2
como E (a + bX) = a + bE (X) tem-se
£
¤
£
¤
£
¤
E [a + bX − E (a + bX)]2 = E [a + bX − a − bE (X)]2 = E [bX − bE (X)]2 =
£
¤
¤
£
= E b2 [X − E (X)]2 = b2 E [X − E (X)]2 = b2 V ar (X).
2.2.2
Caso bidimensional
Neste capítulo vai-se explicar como analisar duas variáveis aleatórias discretas simultaneamente.
Assim, considerando duas variáveis aleatórias discretas, X e Y , ao par (X, Y ) denomina-se por variável aleatória bidimensional (discreta). Para trabalhar com variáveis aleatórias
bidimensionais discretas adopta-se um processo análogo ao caso unidimensional: vai-se utilizar
uma função cuja imagem é a probabilidade de a variável aleatória X assumir o valor xi e
simultaneamente a variável aleatória Y assumir o valor yj . Esta função é denominada por função de probabilidade conjunta.
a) Função de probabilidade conjunta
Definição 2.2.6 (Definição de função de probabilidade conjunta)
Chama-se função de probabilidade conjunta da variável aleatória bidimensional (X, Y ) à função
que associa a cada par de valores (xi , yj ) a sua respectiva probabilidade, ou seja
f (xi , yj ) = P (X = xi ∧ Y = yj ),
que satisfaz as seguinte condições:
50
1. f (xi , yj ) ≥ 0;
2.
PP
i
f (xi , yj ) = 1.
j
Exemplo 2.2.6
Considere a seguinte função de probabilidade conjunta das variáveis aleatórias X e Y :
Y
0
1
2
fX
X
0
0.05 0.10 0.15
0.30
1
0.10 0.20 0.10
0.40
2
0.15 0.10 0.05
0.30
fY
0.30 0.40 0.30
1.00
Os valores centrais do quadro são os valores assumidos pela função de probabilidade conjunta, ou seja, a P (X = xi ∧ Y = yj ). Por exemplo, caso se pretenda saber qual a probabilidade de X = 1 e simultaneamente Y = 1, esta probabilidade encontra-se no quadro na intersecção da linha correspondente a X = 1 e da coluna correspondente a Y = 1, sendo
P (X = 1 ∧ Y = 1) = f (1, 1) = 0.2. Além dos valores da função de probabilidade conjunta, o
quadro também contém a função de probabilidade da variável aleatória X (última coluna) e da
variável aleatória Y (última linha). Note-se que para obter P (X = 0) esta resulta da seguinte
soma
P (X = 0) = P (X = 0 ∧ Y = 0) + P (X = 0 ∧ Y = 1) + P (X = 0 ∧ Y = 2) =
= 0.05 + 0.10 + 0.15 = 0.3.
Assim, para se obter a função de probabilidade da variável aleatória X bastará somar os
valores da função de probabilidade conjunta da linha correspondente. Utilizando o mesmo
raciocínio, conclui-se que, para obter a função de probabilidade da variável aleatória Y , bastará
somar os valores da função de probabilidade conjunta da coluna correspondente.
51
b) Covariância e Correlação
Quando se analisam duas variáveis aleatórias simultaneamente está-se, muitas vezes, interessado em avaliar se existe alguma relação entre essas variáveis (por exemplo, perante o facto de
uma variável aumentar, saber qual vai ser o impacto deste aumento na outra variável). Para
esta análise existem as medidas de variação conjunta: covariância e coeficiente de correlação.
Definição 2.2.7 (Definição de covariância)
A covariância de duas variáveis aleatórias X e Y é uma medida de variação conjunta das duas
variáveis e é definida pelo valor esperado de [(X − μX )(Y − μY ], ou seja,
Cov(X, Y ) = E[(X − μX )(Y − μY )].
(20)
No entanto, tal como a variância, para calcular a covariância não é habitualmente utilizada
a sua definição, mas, sim, uma fórmula simplificada que, neste caso, é
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
(21)
Demonstração:
Cov(X, Y ) = E [(X − μX )(Y − μY )] = E [XY − Y μX − XμY + μX μY ] =
= E (XY ) − E (Y μX ) − E (XμY ) + E (μX μY ) =
= E (XY ) − μX E (Y ) − μY E (X) + μX μY =
= E (XY ) − E (X) E (Y ) − E (Y ) E (X) + E (X) E (Y ) =
= E (XY ) − E (X) E (Y ).
Nota:
A covariância de uma variável com ela própria é a variância dessa variável, ou seja,
Cov(X, X) = E(XX) − E(X)E(X) = E(X 2 ) − E 2 (X) = V ar(X).
Apesar de a covariância ser uma medida de variação conjunta, a interpretação desta não é
“linear”, pois esta pode assumir qualquer valor real (−∞ < Cov(X, Y ) < +∞) e o valor que
assume depende das unidades de medida em que as variáveis estão expressas. Assim, para
corrigir este problema, existe o coeficiente de correlação entre duas variáveis.
52
Definição 2.2.8 (Definição de coeficiente de correlação entre duas variáveis)
Sejam X e Y duas variáveis aleatórias quaisquer, então, se representarmos o coeficiente de
correlação entre estas duas variáveis por Corr(X, Y ) este é definido por
Corr(X, Y ) =
Cov(X, Y )
, sendo − 1 ≤ Corr(X, Y ) ≤ 1.
σX σY
(22)
Para fazer a interpretação do valor do coeficiente de correlação entre duas variáveis é
necessário ter em conta dois factores. O primeiro é o valor do módulo do coeficiente de correlação. Considerando que o coeficiente varia entre −1 e 1, o seu módulo varia entre zero e
a unidade. Assim, se o valor absoluto do coeficiente de correlação possuir um valor perto da
unidade, significa que existe uma forte dependência linear entre as variáveis, ou seja, é possível
traçar uma recta com os pares de valores (xi , yj ) a situarem-se perto dessa recta (no caso de
ser exactamente igual à unidade os valores estão todos sobre a recta). Se, pelo contrário, o
módulo do coeficiente possuir um valor baixo (perto de zero), significa que existe uma fraca
dependência linear entre as variáveis (ou seja, os pares de valores (xi , yj ) formam uma “nuvem”
de pontos tal que é impossível traçar uma recta que descreva a relação entre as variáveis).
O segundo factor a ter em conta na interpretação do coeficiente de correlação é o sinal que o
coeficiente de correlação possui (note-se que o sinal do coeficiente de correlação é determinado
pelo sinal da covariância, pois o denominador é sempre positivo). Se o sinal é positivo, significa
que as variáveis variam no mesmo sentido, ou seja, se uma variável aumenta a outra tende
a aumentar (a recta que descreve a relação entre as variáveis tem declive positivo). No caso
de o sinal ser negativo, significa que as variáveis variam em sentidos opostos, ou seja, se uma
variável aumenta a outra tende a diminuir (a recta que descreve a relação entre as variáveis
tem declive negativo).
Para o cálculo destas medidas, nomeadamente para determinar o valor de E (XY ), é
necessário recorrer à seguinte definição.
53
Definição 2.2.9
Seja g(X, Y ) uma função qualquer das variáveis aleatórias X e Y , então,
E [g(X, Y )] =
XX
i
g(xi , yj )f (xi , yj ).
(23)
j
Exemplo 2.2.7
Para exemplificar a cálculo do coeficiente de correlação considere-se a seguinte função de probabilidade:
Y
0
1
2
fX
X
0
0.05 0.10 0.25
0.40
1
0.05 0.20 0.10
0.35
2
0.10 0.10 0.05
0.25
fY
0.20 0.40 0.40
1
Corr(X, Y ) =
Cov(X, Y )
σX σY
Para calcular o coeficiente de correlação é necessário calcular a covariância entre as duas
variáveis e a variância de cada uma das variáveis.
Considerando que Cov(X, Y ) = E(XY ) − E(X)E(Y ), vem
E(X) =
3
P
i=1
E(Y ) =
3
P
i=1
xi fX (xi ) = 0 × 0.4 + 1 × 0.35 + 2 × 0.25 = 0.85;
yi fY (yi ) = 0 × 0.2 + 1 × 0.4 + 2 × 0.4 = 1.20.
Para determinar o valor esperado de XY , ou seja E(XY ), é necessário recorrer à fórmula
(23) (ver página 54). Assim, pode-se considerar que XY é a função g(X, Y ) na definição
54
anterior, sendo, então, o seu valor esperado determinado por
E(XY ) =
3
3 X
X
xi yj f (xi , yj ) =
i=1 j=1
= 0 × 0 × 0.05 + 0 × 1 × 0.10 + 0 × 2 × 0.25 + 1 × 0 × 0.05 + 1 × 1 × 0.2+
+1 × 2 × 0.1 + 2 × 0 × 0.1 + 2 × 1 × 0.1 + 2 × 2 × 0.05 = 0.8;
então,
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.8 − 0.85 × 1.2 = −0.22.
Para determinar o valor da variância das variáveis aleatórias X e Y é ainda necessário calcular
E(X 2 ) e E(Y 2 ).
E(X 2 ) =
E(Y 2 ) =
3
X
i=1
3
X
i=1
x2i fX (xi ) = 02 × 0.4 + 12 × 0.35 + 22 × 0.25 = 1.35;
yi2 fY (yi ) = 02 × 0.2 + 12 × 0.4 + 22 × 0.4 = 2.00;
assim, as variâncias e os desvios padrões assumem os seguintes valores
V ar(X) = E(X 2 ) − E 2 (X) = 1.35 − 0.852 = 0.6275 ⇒ σ X ' 0.79214898;
V ar(Y ) = E(Y 2 ) − E 2 (Y ) = 2 − 1.22 = 0.56 ⇒ σY ' 0.748331477;
sendo o coeficiente de correlação igual a
Corr(X, Y ) =
Cov(X, Y )
−0.22
√
=√
' −0.37112636.
σX σY
0.6275 × 0.56
Como o coeficiente de correlação é negativo, pode-se afirmar que as variáveis variam em sentidos opostos, ou seja, se a variável X aumenta a variável Y tende a diminuir. Além de
ser negativo, o seu valor absoluto é aproximadamente 0.37, o que é relativamente baixo; logo,
conclui-se que existe uma fraca dependência linear entre as variáveis aleatórias X e Y .
c) Variáveis aleatórias independentes
55
Definição 2.2.10 (Definição de variáveis aleatórias independentes)
Duas variáveis aleatórias dizem-se independentes quando, para todos os pares de valores (xi , yj ),
se verificar
f (xi , yj ) = fX (xi ) × fY (yj ), ou seja P (X = xi ∧ Y = yj ) = P (X = xi ) × P (Y = yj ).
(24)
Nota:
Esta definição de independência é semelhante à efectuada no segundo capítulo, onde
dois acontecimentos eram considerados independentes se e só se
P (A ∩ B) = P (A)P (B).
Teorema 2.2.2
Se as variáveis aleatórias X e Y são independentes, então a covariância (e o coeficiente de
correlação) entre estas variáveis é igual a zero.
Nota:
O recíproco não é verdadeiro, ou seja, se a covariância de X e Y for zero, não
significa necessariamente que estas duas variáveis sejam independentes, mas, se a
covariância for diferente de zero, significa que as variáveis não são independentes.
Exemplo 2.2.8
1. Considere as variáveis aleatórias independentes X e Y com funções de probabilidade,
respectivamente,
X
0
f (x)
1
2
0.2 0.3 0.5
Y
0
f (y)
56
1
0.4 0.6
Vai-se determinar a função de probabilidade conjunta das duas variáveis aleatórias X e Y .
Para tal é essencial a informação de que as duas variáveis aleatórias são independentes,
ou seja, que para todos os pares de valores (xi , yj ) se tem
P (X = xi ∧ Y = yj ) = P (X = xi ) × P (Y = yj );
então, a função de probabilidade conjunta será:
Y
0
1
fX
X
0
0.2 × 0.4 = 0.08 0.2 × 0.6 = 0.12
0.20
1
0.3 × 0.4 = 0.12 0.3 × 0.6 = 0.18
0.30
2
0.5 × 0.4 = 0.20 0.5 × 0.6 = 0.30
0.50
fY
0.40
0.60
1.00
2. Considere a seguinte função de probabilidade conjunta das variáveis aleatórias X e Y .
Y
0
1
2
fX
X
0
0.06 0.15 0.09
0.30
1
0.14 0.35 0.21
0.70
fY
0.20 0.50 0.30
1.00
Conhecendo a função de probabilidade conjunta, como verificar se as variáveis são independentes?
Considerando que a definição de variáveis independentes é
P (X = xi ∧ Y = yj ) = P (X = xi ) × P (Y = yj )
57
para todos os pares de valores (xi , yj ), então, bastará verificar se tal acontece:
(xi , yj )
P (X = xi ∧ Y = yj ) P (X = xi ) × P (Y = yj )
(0, 0)
0.06
0.3 × 0.2 = 0.06
(0, 1)
0.15
0.3 × 0.5 = 0.15
(0, 2)
0.09
0.3 × 0.3 = 0.09
(1, 0)
0.14
0.7 × 0.2 = 0.14
(1, 1)
0.35
0.7 × 0.5 = 0.35
(1, 2)
0.21
0.7 × 0.3 = 0.21
Tendo em conta que se verificou a igualdade em todos os pares de valores, conclui-se que
as variáveis são independentes.
Nota:
Para concluir que as variáveis não são independentes basta haver um par (xi , yj )
em que
P (X = xi ∧ Y = yj ) 6= P (X = xi ) × P (Y = yj ).
d) Propriedades do valor esperado e da variância
Serão aqui apresentadas as propriedades, na continuação das anteriormente apresentas no
caso unidimensional (consultar páginas 45 e 49), quer para o valor esperado quer para a variância
de funções lineares de duas variáveis aleatórias.
Propriedades 2.2.4 (Valor esperado e variância de duas variáveis)
Considere-se que a, b e c são constantes e que X e Y são duas variáveis aleatórias quaisquer,
então
1. E(X + Y ) = E(X) + E(Y );
2. E(a + bX + cY ) = a + bE(X) + cE(Y );
58
3. V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y );
4. V ar(a + bX + cY ) = b2 V ar(X) + c2 V ar(Y ) + 2bc Cov(X, Y ).
Nota:
No caso de X e Y serem duas variáveis aleatórias independentes, tendo em conta
que nestes casos Cov(X, Y ) = 0, as duas últimas fórmulas apresentadas reduzem-se
a
V ar(X + Y ) = V ar(X) + V ar(Y ) e
V ar(a + bX + cY ) = b2 V ar(X) + c2 V ar(Y ).
Podem-se ainda generalizar estas propriedades para funções lineares com mais de duas
variáveis aleatórias. Contudo, nesta análise, vai-se considerar apenas o caso em que todas as
variáveis são independentes, pois será o único que será utilizado doravante.
Propriedades 2.2.5 (Valor esperado e da variância de mais de duas variáveis)
Considere-se que a, b1 , b2 , · · · , bn são constantes e que X1 , X2 , · · · , Xn são n variáveis aleatórias
independentes, então
1. E(a + b1 X1 + · · · + bn Xn ) = a + b1 E(X1 ) + · · · + bn E(Xn ) = a +
2. V ar(a + b1 X1 + · · · + bn Xn ) =
b21 V
ar(X1 ) + · · · +
b2n V
ar(Xn ) =
n
X
bi E (Xi );
i=1
n
X
b2i V ar (Xi ).
i=1
Nota:
No caso de as variáveis aleatórias não serem independentes, na fórmula da variância, tem-se
V ar(a + b1 X1 + · · · + bn Xn ) =
n
X
b2i V
ar (Xi ) + 2
i=1
n
n−1 X
X
i=1 j=i+1
59
bi bj Cov (Xi , Xj ) ;
Exemplos 2.2.9
1. Considere as variáveis aleatórias X e Y das quais se sabe que E(X) = 10, E(Y ) = 100,
V ar(X) = 4, V ar(Y ) = 9 e Cov(X, Y ) = −3. Qual o valor esperado e a variância da
variável aleatória W , sendo W = 30 + 5X − 4Y ?
E(W ) = E(30 + 5X − 4Y ) = 30 + 5E(X) − 4E(Y ) =
= 30 + 5 × 10 − 4 × 100 = −320;
V ar(W ) = V ar(30 + 5X − 4Y ) = V ar(5X − 4Y ) =
= 52 V ar(X) − 2 × 5 × 4 × Cov(X, Y ) + (−4)2 V ar(Y ) =
= 25 × 4 − 40 × (−3) + 16 × 9 = 364.
2. Considere as variáveis aleatórias X1 , X2 , X3 e X4 que são independentes, das quais se
sabe que:
E(X1 ) = 50
V ar(X1 ) = 10
E(X2 ) = 10
V ar(X2 ) = 2
E(X3 ) = 80
V ar(X3 ) = 1
E(X4 ) = 20
V ar(X4 ) = 5
Qual o valor esperado e a variância da variável aleatória W , sendo esta variável definida
por W = 25 + X1 − 3X2 − 2X3 + 5X4 ?
E(W ) = E(25 + X1 − 3X2 − 2X3 + 5X4 ) =
= 25 + E(X1 ) − 3E(X2 ) − 2E(X3 ) + 5E(X4 ) =
= 25 + 50 − 3 × 10 − 2 × 80 + 5 × 20 = 15;
V ar(W ) = V ar(25 + X1 − 3X2 − 2X3 + 5X4 )
que, tendo em conta que as variáveis são independentes, vem
= V ar(X1 ) + (−3)2 V ar(X2 ) + (−2)2 V ar(X3 ) + 52 V ar(X4 ) =
= 10 + 9 × 2 + 4 × 1 + 25 × 5 = 157.
60
2.3
Distribuições discretas de probabilidade
Neste capítulo vai-se apresentar um conjunto de distribuições conhecidas que se têm imposto
como modelos probabilísticos de variáveis ou fenómenos aleatórios que surgem correntemente
nas ciências empíricas. Estas distribuições deram, e continuam a dar, respostas a muitos problemas de aplicação da teoria da probabilidade. Assim, vão ser abordadas cinco distribuições
discretas: a de Bernoulli, a Binomial, a Binomial Negativa, a Hipergeométrica e a de Poisson.
2.3.1
Distribuição de Bernoulli
Considere a realização de uma experiência aleatória para a qual só estão definidos dois acontecimentos:
→ Sucesso - quando ocorre o acontecimento em análise;
→ Insucesso - quando não ocorre o acontecimento em análise.
Neste contexto pode ser definida uma variável aleatória que assume o valor 1 (X = 1), com
probabilidade p, quando ocorre um sucesso e assume o valor 0 (X = 0), com probabilidade 1−p,
quando ocorre um insucesso. Diz-se, então, que essa variável tem distribuição de Bernoulli,
sendo representada por X ∼ Ber(p) e tendo como função de probabilidade:
X:
0
f (x) : 1 − p
1
p
Exemplo 2.3.1
i) Classificação de uma bateria em defeituosa e não defeituosa;
ii) Lançamento de uma moeda.
Teorema 2.3.1
Se X é uma variável aleatória com distribuição de Bernoulli com probabilidade de sucesso igual
a p, ou seja, X ∼ Ber(p), então,
E(X) = p e V ar(X) = p(1 − p).
61
(25)
Demonstração:
E (X) =
n
P
xi f (xi ) = 0 × (1 − p) + 1 × p = p
i=1
n
P
E (X 2 ) =
i=1
x2i f (xi ) = 02 × (1 − p) + 12 × p = p, logo
V ar (X) = E (X 2 ) − E 2 (X) = p − p2 = p (1 − p).
2.3.2
Distribuição Binomial
Suponha que se pretende fazer repetições sucessivas de uma experiência nas condições de
Bernoulli. Cada repetição chama-se uma prova. Assim, estas provas verificam as condições
seguintes:
1. Cada prova tem apenas definidos dois acontecimentos: sucesso ou insucesso;
2. Em cada prova a probabilidade de sucesso (representada por p) permanece constante,
sendo a probabilidade de insucesso (1 − p) também constante;
3. As provas são independentes.
A estas provas dá-se o nome de provas de Bernoulli, sendo a variável aleatória que conta o
número de sucessos em n provas de Bernoulli designada por variável aleatória Binomial.
Exemplo 2.3.2
Considere uma experiência aleatória que consiste em quatro lançamentos de um dado, onde se
pretende calcular a probabilidade de saírem em dois lançamentos faces com valor superior a 4.
Assim, o sucesso em cada prova serão os acontecimentos {5, 6} e o insucesso os acontecimentos
2
1
{1, 2, 3, 4}, sendo a probabilidade de sucesso igual a = e a probabilidade de insucesso igual a
6
3
µ
¶
1
2
ou 1 −
. Se o sucesso for representado por S e o insucesso por I existem seis formas de
3
3
acontecer dois sucessos em quatro lançamentos: SSII, SISI, SIIS, ISIS, ISSI, IISS. Assim,
a probabilidade pretendida é:
P (SSII ∪ SISI ∪ SIIS ∪ ISIS ∪ ISSI ∪ IISS) =
62
que, tendo em conta que os acontecimentos são disjuntos, ou seja, a sua intersecção é um
conjunto vazio (nunca podem acontecer dois destes acontecimentos ao mesmo tempo), a probabilidade da união é igual à soma das probabilidades,
= P (SSII) + P (SISI) + P (SIIS) + P (ISIS) + P (ISSI) + P (IISS) =
considerando a independência das provas de Bernoulli, obtém-se:
= P (S)P (S)P (I)P (I) + P (S)P (I)P (S)P (I) + P (S)P (I)P (I)P (S)+
+ P (I)P (S)P (I)P (S) + P (I)P (S)P (S)P (I) + P (I)P (I)P (S)P (S) =
que é seis vezes a soma de P (S)P (S)P (I)P (I); então, a expressão anterior é idêntica a:
µ ¶2 µ ¶2
2
1
2
2
= 6P (S)P (S)P (I)P (I) = 6P (S) P (I) = 6
;
3
3
que corresponde ao número de vezes que é possível obter dois sucessos em quatro provas (6)
multiplicado pela probabilidade de haver um sucesso numa prova elevado ao número de sucessos
pretendido [(1/3)2 ] multiplicado pela probabilidade de haver um insucesso numa prova elevado
ao número de insucessos [(2/3)2 ] (que pode ser obtido pelo número de provas menos o número
de sucessos). No entanto, o cálculo do número de vezes que é possível obter k sucessos em
n provas é trabalhoso (se for efectuado de forma exaustiva como no exemplo). No caso de o
número de provas ser grande, existem, para tal, as combinações sem repetição de n elementos
k a k.
Nota:
As combinações sem repetição de n elementos k a k possuem a mesma fórmula que
as permutações com repetição quando só se tem dois tipos de objectos.
Em conclusão, uma variável aleatória com distribuição Binomial que seja constituída
por n provas de Bernoulli e cuja probabilidade de sucesso em cada prova seja igual a p,
habitualmente representada por X ∼ B(n, p), tem função de probabilidade:
µ ¶
n x
P (X = x) = f (x) =
p (1 − p)n−x , para n ∈ N e x = 0, · · · , n.
x
63
(26)
Para o cálculo proposto no exemplo 2.3.2 (em quatro lançamentos saírem duas faces superiores a quatro) poder-se-ia utilizar a função de probabilidade. A variável tem distribuição
1
Binomial com 4 provas (n = 4) cuja probabilidade de sucesso em cada prova é ; então:
3
µ ¶ µ ¶2 µ
¶4−2
4
1
1
8
P (X = 2) = f (2) =
1−
= .
2
3
3
27
Teorema 2.3.2
Se X é uma variável aleatória com distribuição Binomial constituída por n provas e com probabilidade de sucesso igual a p, ou seja, X ∼ B(n, p), então
E(X) = np e V ar(X) = np(1 − p).
(27)
Exemplo 2.3.3
Considere que a probabilidade de determinada máquina possuir defeito de fabrico é 0.05. Se
comprar vinte dessas máquinas, qual a probabilidade de pelo menos uma possuir defeito?
Tendo em conta que a probabilidade de uma máquina possuir defeito de fabrico (0.05) é igual
para todas as máquinas, pode-se utilizar a distribuição Binomial. Assim, a variável aleatória X,
que conta o número de máquinas com defeito nas vinte máquinas compradas, tem distribuição
Binomial com vinte provas de Bernoulli (n = 20) e probabilidade de sucesso em cada prova
igual a 0.05 (p = 0.05), ou seja, X ∼ B(20, 0.05), sendo a probabilidade de pelo menos uma
máquina possuir defeito dada por
P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0) =
µ ¶
20
=1−
× 0.050 × (1 − 0.05)20−0 =
0
' 1 − 0.358485922 ' 0.6415.
2.3.3
Distribuição Binomial Negativa
Se, em vez de se desejar contar o número de sucessos em n provas de Bernoulli, se pretender
calcular o número de provas necessárias até obter r sucessos, então, a distribuição que deve
64
ser utilizada é a Binomial Negativa. Assim, a variável aleatória que conta o número de provas
de Bernoulli necessárias até obter o sucesso número r tem distribuição Binomial Negativa,
representando-se por X ∼ BN(r, p), sendo a sua função de probabilidade:
µ
¶
x−1 r
P (X = x) = f (x) =
p (1 − p)x−r , para r ∈ N e x = r, r + 1, · · · .
r−1
(28)
Teorema 2.3.3
Se X é uma variável aleatória com distribuição Binomial Negativa constituída por r sucessos e
com probabilidade de sucesso igual a p, ou seja, X ∼ BN(r, p), então
E(X) =
r × (1 − p)
r
e V ar(X) =
.
p
p2
(29)
Exemplo 2.3.4
Qual a probabilidade de sair pela segunda vez uma face com valor superior a 4 no quarto
lançamento de um dado?
A variável aleatória que conta o número de lançamentos necessários até atingir o segundo
sucesso (sair um valor superior a 4) tem distribuição Binomial Negativa com número de sucessos
1
(r) igual a 2 e probabilidade de sucesso em cada prova (p) igual a , ou seja,
3
¶
µ
1
, donde vem
X ∼ BN 2,
3
µ
¶
x−1 r
P (X = 4) = f (4) =
p (1 − p)x−r =
r−1
µ
¶ µ ¶2 µ
¶4−2
4−1
1
1
=
×
× 1−
=
2−1
3
3
µ ¶ µ ¶2 µ ¶2
3
1
2
4
=
×
×
=
1
3
3
27
Saliente-se que, quer a distribuição Binomial quer a Binomial Negativa, se baseiam em provas
de Bernoulli, ou seja, em provas independentes onde a probabilidade de sucesso em cada prova
(p) é constante. No entanto, utiliza-se a distribuição Binomial para calcular a probabilidade
de se obter x sucessos em n provas, ou seja, os casos favoráveis são qualquer combinação de
65
x provas com sucesso em n provas efectuadas, enquanto que a distribuição Binomial Negativa
é utilizada quando se pretende calcular a probabilidade de que o sucesso número r ocorra na
prova número x (existindo a obrigação de que a última prova seja um sucesso).
2.3.4
Distribuição Hipergeométrica
Considere a experiência aleatória que consiste em retirar uma amostra (sem reposição) constituída por n elementos de uma população constituída por N elementos dos quais r possuem
determinada característica que se pretende analisar (ou seja, N − r elementos da população
não possuem a característica em estudo). Nestas condições, a variável aleatória que conta o
número de elementos na amostra (recolhida sem reposição) que possuem a característica em
estudo tem distribuição Hipergeométrica, sendo representada por X ∼ H(N, n, r) e tendo
função de probabilidade igual a:
µ ¶µ
¶
r
N −r
x
n−x
µ ¶
f (x) = P (X = x) =
, max{0, n − (N − r)} ≤ x ≤ min{r, n}.
N
n
(30)
Teorema 2.3.4
Se X é uma variável aleatória com distribuição hipergeométrica, ou seja, se X ∼ H(N, n, r),
então
E(X) = n ×
r
N
e V ar(X) = n ×
r
N −r N −n
×
×
.
N
N
N −1
(31)
Exemplos 2.3.5
1. Um armazém contém cem máquinas das quais vinte estão avariadas. Se forem retiradas
quinze máquinas do armazém, qual a probabilidade de quatro estarem avariadas?
A variável aleatória (seja X) que conta o número de máquinas avariadas na amostra tem
distribuição Hipergeométrica cuja população tem dimensão 100 (N = 100) das quais vinte
estão avariadas (r = 20) e a amostra tem dimensão quinze (n = 15), logo
66
X ∼ H(100, 15, 20) e
µ ¶µ
¶ µ ¶µ ¶
20 100 − 20
20 80
4
4
15 − 4
11
µ ¶
P (X = 4) =
= µ ¶ ' 0.200.
100
100
15
15
2. Considere a experiência aleatória que consiste em retirar dez cartas de um baralho de 52
cartas. Qual a probabilidade de, nessas dez cartas, haver três figuras, se as cartas foram
retiradas:
(a) sem reposição?
Este caso corresponde a ter uma população de dimensão cinquenta e dois (N = 52)
[das quais doze possuem a característica “ser figura” (r = 12)] de onde é retirada
uma amostra (sem reposição) de dimensão dez (n = 10), logo, a variável aleatória
que conta o número de cartas que são figuras na amostra tem distribuição Hipergeométrica, ou seja, X ∼ H(52, 10, 12), então
µ ¶µ
¶ µ ¶µ ¶
12 40
12 52 − 12
3
7
3
10 − 3
µ ¶
µ ¶
=
' 0.259.
P (X = 3) =
52
52
10
10
(b) com reposição?
Neste caso, como as cartas são retiradas com reposição, a distribuição hipergeométrica não pode ser aplicada. No entanto, se as cartas são retiradas com reposição
a probabilidade de sair uma figura é igual para cada uma das cartas retiradas. Assim, pode ser aplicada a distribuição Binomial com dez provas onde a probabilidade
de sucesso em cada prova será doze (número de figuras no baralho) a dividir por
12
cinquenta e dois (número total de cartas), ou seja p =
; então, se a variável
52
aleatória que conta o número de figuras que saem nas dez cartas retiradas for repreµ
¶
12
sentada por Y , vem que Y ∼ B 10,
e a probabilidade pretendida é determinada
52
por
67
¶10−3
µ ¶ µ ¶3 µ
10
12
12
P (Y = 3) =
×
× 1−
' 0.235.
52
52
3
Nota:
Os valores obtidos para as probabilidades calculadas sem reposição através da distribuição Hipergeométrica e com reposição através da distribuição Binomial são,
no exemplo anterior, próximos um do outro. Em certas condições torna-se mesmo
indiferente utilizar a distribuição Hipergeométrica ou a Binomial como é enunciado
pelo seguinte teorema.
Teorema 2.3.5 (Aproximação da Hipergeométrica à Binomial)
A distribuição Hipergeométrica tende para a distribuição Binomial se a dimensão da população
tende para infinito, isto é,
•
X ∼ H(N, n, r) =⇒ X ∼ B(n, p) se N → +∞, sendo p =
r
.
N
Regra:
Este teorema é utilizado, na prática, se a amostra for constituída por menos de
cinco por cento da população, ou seja, se
n
≤ 0.05.
N
Exemplo 2.3.6
Considere que, dos dez milhões de portugueses, quatro milhões fumam. Se inquirir trinta, qual
a probabilidade de doze fumarem?
A variável que conta o número de fumadores na amostra tem distribuição Hipergeométrica
com N = 10000000, n = 30 e r = 4000000, ou seja, X ∼ H(10000000, 30, 4000000), então,
para calcular a probabilidade de haver doze indivíduos que responderam que fumavam, virá
µ
¶µ
¶ µ
¶µ
¶
4000000 10000000 − 4000000
4000000 6000000
12
30 − 12
12
18
µ
¶
µ
¶
P (X = 12) =
=
=?
10000000
10000000
30
30
68
No entanto, a maioria das máquinas de calcular não tem capacidade para fazer estes cálculos,
devendo-se então utilizar o teorema da aproximação da distribuição Hipergeométrica à distribuição Binomial. Primeiro devem-se verificar as condições de aplicabilidade do teorema, ou
n
seja, se
≤ 0.05. Neste caso, vem que
N
n
30
=
= 0.000003 ≤ 0.05, logo, pode-se aplicar o teorema 2.3.5 e
N
10000000
•
X ∼ H(10000000, 30, 4000000) =⇒ X ∼ B(30, 0.4),
pois p =
4000000
r
=
= 0.4 e a probabilidade pretendida é determinada por
N
10000000
µ
¶µ
¶
4000000 6000000
µ ¶
30
12
18
µ
¶
P (X = 12) =
'
× 0.412 × (1 − 0.4)30−12 ' 0.1474.
10000000
12
30
2.3.5
Distribuição de Poisson
Diz-se que uma variável aleatória tem distribuição de Poisson com parâmetro λ, representando-se por X ∼ P(λ), se a sua função de probabilidade for dada por:
P (X = x) = f (x) =
e−λ λx
com λ > 0 e x = 0, 1, · · · .
x!
69
(32)
Características das variáveis com distribuição de Poisson
1. O número de sucessos que ocorre num determinado intervalo de tempo é independente do
número de sucessos que ocorre em qualquer outro intervalo de tempo disjunto do primeiro.
2. A probabilidade de um acontecimento se realizar uma vez em qualquer intervalo muito
curto é proporcional à amplitude do intervalo.
Teorema 2.3.6
Se a variável aleatória X tem distribuição de Poisson com parâmetro λ, ou seja, X ∼ P (λ),
então
E(X) = λ e
V ar(X) = λ.
(33)
Teorema 2.3.7 (Aditividade da distribuição de Poisson)
Sejam Xi , com i = 1, 2, · · · , n, n variáveis aleatórias independentes com distribuição de Poisson
de parâmetro λi respectivamente, ou seja, Xi ∼ P (λi ) para i = 1, · · · , n, então,
!
à n
n
X
X
Xi ∼ P
λi
i=1
(34)
i=1
Exemplo 2.3.7
Considere que o número de telefonemas que determinada empresa recebe tem distribuição de
Poisson com média três por hora.
Sabendo que o parâmetro da Poisson é igual à sua média tem-se que a variável aleatória
X que conta o número de telefonemas numa hora tem distribuição de Poisson com parâmetro
λ = 3, ou seja, X ∼ P (3).
1. Qual a probabilidade de a empresa em uma hora receber
(a) dois telefonemas?
P (X = 2) =
70
e−3 × 32
' 0.224.
2!
(b) menos de três telefonemas?
P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) =
e−3 × 30 e−3 × 31 e−3 × 32
=
+
+
'
0!
1!
2!
' 0.0498 + 0.1494 + 0.2240 = 0.4232.
Tendo em conta que P (X < 3) = P (X ≤ 2), este cálculo pode ser efectuado recorrendo à tabela da função de distribuição da Poisson (ver tabela no fim do
capítulo na página 123). Relembrando que a função de distribuição, por definição,
fornece a probabilidade de a variável assumir um valor menor ou igual a determinado
x, ou seja, F (x) = P (X ≤ x), bastaria ir à tabela à coluna correspondente λ = 3 e
à linha x = 2 e obter-se-ia de imediato o valor 0.4232.
(c) mais de dez telefonemas?
P (X > 10) = 1 − P (X ≤ 10) = 1 − F (10) = 1 − 0.9997 = 0.0003.
2. Qual a probabilidade de, em seis horas, haver 10 telefonemas?
Nesta questão pretende-se analisar o número de telefonemas em seis horas (variável que
será representada por Y ), o que equivale a analisar a soma de seis variáveis que contém
o número de telefonemas em cada uma das horas; então, pelo teorema da aditividade da
distribuição de Poisson, vem que
Y
= X1 + X2 + · · · + X6 , onde Xi ∼ P (3) para i = 1, · · · , 6, então
∼ P (3 + 3 + 3 + 3 + 3 + 3) ⇔ Y ∼ P (6 × 3) ⇔ Y ∼ P (18) e
e−18 × 1810
= 0.0150, ou
P (Y = 10) =
10!
P (Y = 10) = P (Y ≤ 10) − P (Y ≤ 9),
Y
que pela tabela da função de distribuição vem
= F (10) − F (9) = 0.0304 − 0.0154 = 0.0150.
71
3. Qual a probabilidade de em quinze minutos haver um telefonema?
Se a variável que conta o número de telefonemas em quinze minutos for representada
por Z, esta terá também distribuição de Poisson, sendo o parâmetro determinado através
da regra de “três simples”, ou seja, se numa hora se espera haver três telefonemas em
média, em quinze minutos quantos telefonemas são esperados? Sendo a resposta igual a
0.75, consequentemente Z ∼ P (0.75), sendo a probabilidade pedida calculada através de
P (Z = 1) =
e−0.75 × 0.751
' 0.3543.
1!
Teorema 2.3.8 (Aproximação da Binomial à de Poisson)
A distribuição Binomial tende para a distribuição de Poisson quando o número de provas
de Bernoulli tende para infinito e a probabilidade de sucesso numa prova tende para zero,
mantendo-se constante o produto np = λ , ou seja,
•
X ∼ B(n, p) ⇒ X ∼ P (λ) se n → +∞ e p → 0 de tal forma que np = λ.
Regra:
Na prática utiliza-se a distribuição de Poisson como aproximação da distribuição
Binomial quando simultaneamente
n ≥ 20
e p ≤ 0.05.
Exemplo 2.3.8
Considerando que determinada fábrica produz um milhão de baterias por mês e que a probabilidade de cada bateria estar defeituosa é 0.00001, qual a probabilidade de, num mês, haver no
máximo doze baterias com defeito?
X ∼ B(1000000, 0.00001)
Para ser calculada a probabilidade de a variável aleatória X assumir um valor menor ou igual
a doze utilizando a distribuição Binomial, tem que se calcular, por exemplo, combinações de
72
um milhão doze a doze, o que a maioria das máquinas de calcular não tem capacidade (dando
erro); então, aplicando o teorema da aproximação da distribuição Binomial à de Poisson (visto
que n ≥ 20 e p ≤ 0.05) vem que
•
•
X ∼ B(1000000, 0.00001) =⇒ X ∼ P (1000000 × 0.00001) =⇒ X ∼ P (10), então,
P (X ≤ 12) = F (12) = 0.7916.
(valor obtido utilizando a tabela da função de distribuição da Poisson com parâmetro λ = 10.)
73
2.4
Variáveis aleatórias contínuas
Relembre-se que as variáveis aleatórias são consideradas contínuas se o seu contradomínio é
um intervalo real ou uma colecção de intervalos reais. Tendo em conta que qualquer intervalo
real contém um número infinito (não numerável) de valores, é impossível definir uma função
de probabilidade (função que associa a cada valor que a variável pode assumir a sua respectiva
probabilidade) para as variáveis contínuas. Assim, nas variáveis contínuas a probabilidade não
estará definida para cada um dos valores que a variável pode assumir (a probabilidade de uma
variável aleatória contínua ser igual a um determinado valor, qualquer que seja esse valor, é
sempre nula), mas, sim, em intervalos reais, sendo a probabilidade de uma variável assumir um
valor pertencente a um dado intervalo real determinada pela área, nesse intervalo, compreendida
entre o eixo (y = 0) e uma função não negativa. Essa função será denominada por função de
densidade de probabilidade.
2.4.1
Função de densidade de probabilidade
Definição 2.4.1 (Definição de função de densidade de probabilidade)
Chama-se função de densidade de probabilidade, ou simplesmente função de densidade,
de uma variável aleatória contínua a qualquer função f (x) que satisfaça simultaneamente:
1. f (x) ≥ 0;
2.
+∞
R
f (x)dx = 1.
−∞
Propriedades 2.4.1 (Propriedades da função de densidade)
1. P (a ≤ X ≤ b) =
Rb
a
f (x)dx para quaisquer constantes a e b tais que a ≤ b;
2. P (X = k) = 0 para qualquer constante k.
74
Exemplo 2.4.1
Considere a seguinte função:
f (x) =
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎨
0
x<0
0.1
0≤x<5
⎪
⎪
0.04x − 0.2 5 ≤ x < 10
⎪
⎪
⎪
⎪
⎪
⎩
0
x ≥ 10
.
1. Verifique que f (x) é uma função de densidade.
(a) f (x) ≥ 0.
A função de densidade nunca é negativa. O único problema que poderia surgir seria
no intervalo 5 ≤ x < 10, mas 0.04x − 0.2 ≥ 0 ⇒ x ≥ 5, logo, mesmo neste intervalo,
a função não assume valores negativos.
+∞
R
(b)
f (x)dx = 1.
−∞
Z+∞
Z0
Z5
Z10
Z+∞
f (x)dx =
0dx + 0.1dx + (0.04x − 0.2)dx +
0dx =
−∞
−∞
0
5
10
¸10
∙
x2
5
− 0.2x + 0 =
= 0 + [0.1x]0 + 0.04 ×
2
µ5
¶
102
52
= 0.5 + 0.04 ×
− 0.2 × 10 − 0.04 ×
− 0.2 × 5 =
2
2
= 0.5 + 2 − 2 − 0.5 + 1 = 1
2. Determine as seguintes probabilidade:
(a) P (X < 3).
P (X < 3) = P (X ≤ 3) =
=
Z0
−∞
0dx +
Z3
0
75
Z3
f (x)dx =
−∞
0.1dx = 0 + [0.1x]30 = 0.3 − 0 = 0.3.
(b) P (X > 2).
Z+∞
Z5
Z10
Z+∞
P (X > 2) =
f (x)dx = 0.1dx + (0.04x − 0.2)dx +
0dx =
2
2
5
10
∙
¸10
x2
5
= [0.1x] 2 + 0.04 ×
− 0.2x + 0 =
2
5
µ
¶
2
52
10
− 0.2 × 10 − 0.04 ×
− 0.2 × 5 =
= 0.5 − 0.2 + 0.04 ×
2
2
= 0.3 + 2 − 2 − 0.5 + 1 = 0.8
(c) P (1 < X < 8).
P (1 < X < 8) =
Z8
f (x)dx =
1
Z5
0.1dx +
1
Z8
(0.04x − 0.2)dx =
5
¸8
∙
x2
5
= [0.1x] 1 + 0.04 ×
− 0.2x =
2
5
µ
¶
2
8
52
= 0.5 − 0.1 + 0.04 ×
− 0.2 × 8 − 0.04 ×
− 0.2 × 5 =
2
2
= 0.4 + 1.28 − 1.6 − 0.5 + 1 = 0.58.
2.4.2
Função de distribuição
Tal como nas variáveis aleatórias discretas, chama-se função de distribuição à função real
de variável real F (x) = P (X ≤ x), sendo, nas variáveis aleatórias contínuas, determinada por
F (x) = P (X ≤ x) =
Zx
f (t)dt.
(35)
−∞
Exemplo 2.4.2
Em relação à função de densidade utilizada no último exemplo (exemplo2.4.1 na página 75), a
função de distribuição correspondente é:
Para x < 0
F (x) = P (X ≤ x) =
Zx
−∞
76
f (t)dt =
Zx
−∞
0dt = 0.
Para 0 ≤ x < 5
F (x) = P (X ≤ x) =
Zx
f (t)dt =
Z0
−∞
−∞
Zx
Z0
0dt +
Zx
0.1dt = [0.1t]
x
0
= 0.1x.
0
Para 5 ≤ x < 10
F (x) = P (X ≤ x) =
f (t)dt =
−∞
0dt +
−∞
Z5
0.1dt +
0
Zx
(0.04t − 0.2)dt =
5
¸x
t
5
= 0 + [0.1t] 0 + 0.04 × − 0.2t =
2
∙
¸ ∙ 5
¸
2
x
52
= 0.5 + 0.04 ×
− 0.2x − 0.04 ×
− 0.2 × 5 =
2
2
= 0.5 + 0.02x2 − 0.2x − 0.5 + 1 = 0.02x2 − 0.2x + 1
∙
2
Para x ≥ 10
F (x) = P (X ≤ x) =
Zx
−∞
f (t)dt =
Z0
0dx +
−∞
Z5
0
Z10
Zx
0.1dt + (0.04t − 0.2)dt + 0dt = 1.
5
Resumindo, a função de distribuição é igual a
⎧
⎪
⎪
0
x<0
⎪
⎪
⎪
⎪
⎪
⎨
0.1x
0≤x<5
.
F (x) = P (X ≤ x) =
⎪
2
⎪
0.02x
−
0.2x
+
1
5
≤
x
<
10
⎪
⎪
⎪
⎪
⎪
⎩
1
x ≥ 10
Propriedades 2.4.2 (Propriedades da função de distribuição)
1. Para qualquer função de distribuição F (x), tem-se 0 ≤ F (x) ≤ 1;
2. F (x) é não decrescente (constante ou crescente);
3. lim F (x) = 0 e lim F (x) = 1;
x→−∞
x→+∞
4. F (x) é contínua.
77
10
Nota:
Em relação às propriedades da função de distribuição apresentadas aquando das
variáveis aleatórias discretas apenas existe uma diferença, nas variáveis aleatórias
discretas a função de distribuição apenas é contínua à direita, enquanto que nas
variáveis aleatórias contínuas a função de distribuição é contínua.
Teorema 2.4.1
Para qualquer função de distribuição F (x), dados os números reais x1 e x2 tais que x1 < x2 ,
tem-se
P (x1 < X ≤ x2 ) = P (X ≤ x2 ) − P (X ≤ x1 ) = F (x2 ) − F (x1 ).
Ver demonstração na página 41.
Nota:
Tendo em conta que, para qualquer variável aleatória contínua, P (X = k) = 0 para
qualquer valor de k, ter P (x1 < X ≤ x2 ) é o mesmo que ter P (x1 ≤ X ≤ x2 ),
P (x1 ≤ X < x2 ) ou P (x1 < X < x2 ).
Exemplo 2.4.3
Considerando a função de distribuição determinada no exemplo anterior (exemplo 2.4.2),
1. P (X < 3) = P (X ≤ 3) = F (3) = 3 × 0.1 = 0.3;
2. P (X > 2) = 1 − P (X ≤ 2) = 1 − F (2) = 1 − 2 × 0.1 = 0.8;
3. P (X ≤ 8) = F (8) = 0.02 × 82 − 0.2 × 8 + 1 = 1.28 − 1.6 + 1 = 0.68;
4. P (1 < X < 8) = F (8) − F (1) = (0.02 × 82 − 0.2 × 8 + 1) − 0.1 × 1 = 0.68 − 0.1 = 0.58.
2.4.3
Valor esperado e variância de uma variável aleatória contínua
As medidas utilizadas para analisar a localização e a dispersão das variáveis aleatórias contínuas
são as mesmas que foram utilizadas nas variáveis aleatórias discretas, ou seja, o valor esperado
78
será utilizado como medida de localização e a variância e o desvio padrão como medidas de
dispersão. Saliente-se que a interpretação destas medidas é feita de forma análoga à apresentada
aquando da apresentação das variáveis aleatórias discretas, sendo a única alteração a forma
como estas medidas são determinadas.
Medida de localização
Definição 2.4.2 (Definição de valor esperado de uma variável aleatória contínua)
O valor esperado (esperança matemática ou valor médio) de uma variável aleatória contínua
é representado por E(X) ou μX e é definido por
Z+∞
xf (x)dx.
E(X) = μX =
(36)
−∞
que só existe se o integral for absolutamente convergente, ou seja, se
+∞
R
−∞
Nota:
|x| f (x)dx < ∞.
Repare nas semelhanças da fórmula apresentada com a fórmula (14) na página
43. Saliente-se que a única diferença é a utilização do integral no cálculo do valor
esperado de uma variável aleatória contínua em vez do somatório (ou série) utilizado
no cálculo do valor esperado de uma variável aleatória discreta.
Exemplo 2.4.4
Em relação à variável aleatória que tem sido utilizada nos últimos exemplos (ver função de
densidade de probabilidade no exemplo 2.4.1 na página 75), tem-se
Z+∞
xf (x)dx =
E(X) =
−∞
79
=
Z0
(x × 0)dx +
−∞
Z5
0
(x × 0.1)dx +
Z10
5
Z+∞
[x × (0.04x − 0.2)] dx + (x × 0)dx =
10
¸5 ∙
¸10
∙
x3
x2
x2
+ 0.04 ×
+0=
− 0.2 ×
= 0 + 0.1 ×
2 0
3
2 5
µ
¶
103
102
53
52
52
+ 0.04 ×
− 0.2 ×
− 0.04 ×
− 0.2 ×
=
= 0.1 ×
2
3
2
3
2
5 5
65
5 40
+
− 10 − + =
=
4
3
3 2
12
Definição 2.4.3
Seja g(X) uma função real de variável real qualquer, então,
Z+∞
g(x)f (x)dx.
E [g(X)] =
(37)
−∞
que só existe se o integral for absolutamente convergente, ou seja, se
+∞
R
−∞
Nota:
|g(x)| f (x)dx < ∞.
As propriedades do valor esperado das variáveis aleatórias discretas apresentadas nas
páginas 45 e 58 mantêm-se válidas para os valores esperados das variáveis aleatórias
contínuas.
Medida de Dispersão
A variância de uma variável aleatória é definida (ver definição 2.2.4) como sendo o valor
esperado da expressão [X − E(X)]2 , ou seja, σ 2X = E[(X − μX )2 ].
No caso de a variável aleatória ser contínua a variância pode ser calculada através de:
Z+∞
σ 2 = V ar(X) =
(x − μ)2 f (x)dx.
(38)
−∞
onde μ = E (X).
O desvio padrão, tal com nas variáveis aleatória discretas, é definido como sendo a raiz
quadrada positiva da variância, ou seja, representando o desvio padrão por σ, vem
p
σ = + V ar(X).
80
No entanto, tal como nas variáveis aleatórias discretas, os cálculos da variância não são
usualmente efectuados pela sua definição, mas sim, pela fórmula de Köning [ver fórmula (19)
na página 47], que é σ 2X = E(X 2 ) − E 2 (X).
Exemplo 2.4.5
Continuando a utilizar a função de densidade do exemplo 2.4.1 para calcular a variância é
¶
µ
65
necessário saber E(X) que já foi determinado no exemplo 2.4.4 onde obteve-se E(X) =
12
2
2
e o valor esperado de X . Para determinar E(X ) utiliza-se a fórmula (37) da página 80
considerando que g(x) = x2 , de onde se obtém:
Z+∞
x2 f (x)dx =
E(X ) =
2
−∞
=
Z0
0dx +
−∞
Z5
0
Z10
Z+∞
2
0.1x dx + (0.04x − 0.2)x dx +
0dx =
2
5
10
¸5 ∙
¸10
∙
x4
x3
x3
+ 0.04 ×
+0=
− 0.2 ×
= 0 + 0.1 ×
3 0
4
3 5
µ
¶
104
103
54
53
53
+ 0.04 ×
− 0.2 ×
− 0.04 ×
− 0.2 ×
=
= 0.1 ×
3
4
3
4
3
200 25 25
475
25
+ 100 −
−
+
=
=
6
3
4
3
12
então, para a variância de X, vem
σ 2X
475
−
= E(X ) − E (X) =
12
2
2
µ
65
12
¶2
=
1475
' 10.24305556,
144
e para o desvio padrão vem
σX '
√
10.24305556 ' 3.2005.
Nota:
As propriedades da variância apresentadas nas páginas 49 e 58 mantêm-se válidas
para a variância das variáveis aleatórias contínuas.
81
2.5
Distribuições Contínuas de Probabilidade
Neste capítulo vai-se apresentar um conjunto de distribuições que surgem correntemente nas
ciências empíricas. Assim, vão ser abordadas cinco distribuições contínuas: a Uniforme, a
Exponencial, a Normal, a Qui-quadrado e a t-Student.
2.5.1
Distribuição Uniforme
Considera-se que uma variável aleatória contínua X tem distribuição Uniforme no intervalo
[a, b] com a < b, representando-se por X ∼ U(a, b), se a sua função de densidade for:
⎧ 1
⎨
a≤x≤b
b−a
.
f (x) =
⎩
0
x<a ∨ x>b
(39)
Teorema 2.5.1
Se X é uma variável aleatória com distribuição Uniforme no intervalo [a, b], ou seja, X ∼
U (a, b), então
E(X) =
a+b
(b − a)2
e V ar(X) =
.
2
12
(40)
Demonstração:
Z+∞
Za
Zb
xf (x)dx =
0dx +
E(X) =
−∞
=
x
dx +
b−a
a
−∞
∙
¸b
Z+∞
1
x2
0dx = 0 +
+0=
×
b−a
2 a
b
1
(b − a)(b + a)
b+a
(b2 − a2 ) =
=
.
2(b − a)
2(b − a)
2
Para calcular a variância é necessário determinar antes o E(X 2 ),
Z+∞
Za
Zb
x2 f (x)dx =
0dx +
E(X 2 ) =
−∞
=
−∞
1 2
x dx +
b−a
a
3
3
(b − a )
1
(b3 − a3 ) =
,
3(b − a)
3(b − a)
82
∙
¸b
Z+∞
1
x3
0dx = 0 +
+0=
×
b−a
3 a
b
logo
V ar(X) =
=
=
=
µ
¶2
b3 − a3
b+a
E(X ) − E (X) =
=
−
3(b − a)
2
b2 + 2ba + a2
b3 − a3
−
=
3(b − a)
4
4b3 − 4a3 − 3b3 − 6b2 a − 3ba2 + 3b2 a + 6ba2 + 3a2
=
12(b − a)
b3 − 3b2 a + 3ba2 − a3
(b − a)3
(b − a)2
=
=
.
12(b − a)
12(b − a)
12
2
2
obtendo-se, assim, o resultado pretendido.
Exemplo 2.5.1
Considere que a variável aleatória contínua X tem distribuição Uniforme no intervalo [−1, 1],
então, a sua função de densidade é
⎧ 1
⎨
−1 ≤ x ≤ 1
2
f (x) =
.
⎩
0 x < −1 ∨ x > 1
1. Qual o valor esperado e a variância da variável aleatória X?
E(X) =
a + b −1 + 1
(b − a)2
[1 − (−1)]2
22
4
1
=
= 0 e V ar(X) =
=
=
=
= .
2
2
12
12
12 12
3
2. Qual a probabilidade da variável aleatória X assumir um valor negativo?
P (X < 0) =
Z0
−∞
2.5.2
f (x)dx =
Z−1
−∞
0dx +
Z0
−1
∙ ¸0
1
1
1
1
= 0 − × (−1) = = 0.5.
dx = 0 + x
2
2 −1
2
2
Distribuição Exponencial
Considera-se que uma variável aleatória contínua X tem distribuição Exponencial com
parâmetro λ, representando-se por X ∼ Exp(λ), se a sua função de densidade for:
⎧
⎨ λe−λx x > 0
f (x) =
, para λ > 0.
⎩ 0
x≤0
83
(41)
Teorema 2.5.2
Se a variável aleatória X tem distribuição Exponencial com parâmetro λ, ou seja, X ∼ Exp(λ),
então
E(X) =
1
1
e V ar(X) = 2 .
λ
λ
(42)
Demonstração:
Z+∞
Z+∞
Za
−λx
E(X) =
xf (x) dx =
xλe dx = lim
xλe−λx dx
a→∞
−∞
0
0
que utilizando a primitivação por partes, P (f g) = F g − P (F g 0 ), considerando
f (x) = λe−λx e g (x) = x,
¡
¤
¢
£
1
P xλe−λx = −xe−λx + P e−λx = −xe−λx − e−λx
λ
logo
lim
a→∞
Za
0
−λx
xλe
∙
¸a
1 −λx
−λx
dx = lim −xe
− e
=
a→∞
λ
0
∙
¶¸
µ
1 −λa
1 0
−λa
=
= lim −ae
− e
− −0 − e
a→∞
λ
λ
1
1
= −0 − 0 + 0 + = .
λ λ
Utilizando, de forma semelhante, a primitivação por partes, obtém-se
Z+∞
Z+∞
2
2
x f (x) dx =
x2 λe−λx dx = 2 ,
E(X ) =
λ
2
−∞
0
logo
¡ ¢
2
V ar (X) = E X 2 − E 2 (X) = 2 −
λ
µ ¶2
1
1
= 2.
λ
λ
Exemplo 2.5.2
Considere que a variável aleatória contínua X tem distribuição Exponencial com média quatro,
84
então, o parâmetro da distribuição assume o valor
variável aleatória X é
1
1
(λ = ) e a função de densidade da
4
4
⎧
x
⎪
⎨ 1 −4
x>0
e
f (x) =
.
4
⎪
⎩ 0
x≤0
1.
P (X < 12) =
Z12
−∞
f (x)dx =
Z0
−∞
0dx +
Z12
0
h 1 i12
1 −1x
e 4 dx = 0 − e− 4 x
=
4
0
´
³ 1
− 4 ×12
− 14 ×0
−e
= −e−3 + e0 = 1 − e−3 ' 0.9502.
= − e
2.
" x #+∞
x
Z+∞
Z+∞
−
−
1
e 4 dx = − e 4
P (X > 4) =
f (x)dx =
=
4
4
4
4
⎛
⎞
x
4
−
−
= − ⎝ lim e 4 − e 4 ⎠ ,
x→+∞
x
como lim e 4 = 0, vem
−
x→+∞
⎞
x
4
¢
¡
−
−
− ⎝ lim e 4 − e 4 ⎠ = − 0 − e−1 = e−1 ' 0.3679.
⎛
x→+∞
Teorema 2.5.3
Seja X uma variável aleatória discreta com distribuição de Poisson com parâmetro λ. A
variável aleatória que conta o tempo entre dois sucessos consecutivos da variável aleatória X é
uma nova variável aleatória contínua Y que tem distribuição Exponencial com parâmetro λ.
Exemplo 2.5.3
Considere que o número de carros que passam em determinada ponte tem distribuição de Poisson com média dois por hora. Considerando que acabou de passar um carro:
85
1. qual a probabilidade de ter de esperar mais de uma hora até que passe outro carro?
Considerando que o número de carros que passam na ponte numa hora é descrito por uma
variável aleatória X que tem distribuição de Poisson com parâmetro dois (recordando que
o parâmetro da distribuição de Poisson é igual à sua média), ou seja, X ∼ P (2), pelo
teorema 2.5.3 o tempo que decorre entre a passagem de dois carros na ponte é descrito
por uma nova variável Y que tem distribuição Exponencial com parâmetro 2,
Y ∼ Exp(2), sendo a sua função de densidade
⎧
⎨ 2e−2y y > 0
f (y) =
.
⎩ 0
y≤0
Assim, a probabilidade pretendida pode ser determinada por
Z+∞
Z+∞
£
¡
¤ +∞
¢
f (y) dy =
2e−2y dy = − e−2y 1 = − 0 − e−2 ' 0.1353.
P (Y > 1) =
1
1
2. qual a probabilidade ter de esperar menos de trinta minutos até que passe outro carro?
Considerando que trinta minutos é meia hora (se a variável aleatória utilizada com distribuição de Poisson referia-se a uma hora, cada unidade da variável aleatória Y corresponderá à mesma medida), a probabilidade pretendida é:
P (Y < 0.5) =
Z0.5
f (y) dy =
−∞
Z0
−∞
Z0.5
0dy + 2e−2y dy =
0
£
¡
¢
¤ 0.5
= 0 − e−2y 0 = − e−1 − 1 ' 0.6321.
3. qual a probabilidade de ter de esperar entre quinze e quarenta e cinco minutos até que
passe outro carro?
Considerando que quinze minutos é 0.25 de uma hora e quarenta e cinco minutos é 0.75
86
de uma hora, a probabilidade pretendida é:
Z0.75
Z0.75
P (0.25 < Y < 0.75) =
f (y) dy =
2e−2y dy =
0.25
0.25
¡
¤ 0.75
¢
£
= − e−2y 0.25 = − e−1.5 − e−0.5 ' 0.3834.
2.5.3
Distribuição Normal
A distribuição Normal surgiu no século XV III pelos trabalhos realizados por De Moivre,
Laplace e Gauss (sendo, por isso, também denominada por distribuição de Gauss ou Gaussiana).
A distribuição Normal é a distribuição com maior importância em estatística, pois muitas
variáveis com distribuição diferente da Normal (como são exemplo as distribuições Binomial,
Hipergeométrica e de Poisson) podem ser aproximadas, sob certas condições, de um modo
simples numa outra variável com distribuição Normal.
Diz-se que uma variável aleatória contínua tem distribuição Normal com parâmetros μ e
σ, representada por X ∼ N(μ, σ), se a sua função de densidade de probabilidade for da seguinte
forma:
−
1
f (x) = √ e
σ 2π
(x − μ)2
2σ 2 , para σ > 0 e μ, x ∈ R.
(43)
Propriedades 2.5.1 (Propriedades da distribuição Normal)
Considerando uma variável aleatória X ∼ N(μ, σ) tem-se:
1. O valor esperado da variável aleatória X é igual a μ, ou seja, E(X) = μ.
2. O desvio padrão da variável aleatória X é igual a σ, sendo a variância igual a σ2 , ou
seja, V ar(X) = σ 2 .
3. A função de densidade de uma variável aleatória com distribuição Normal é simétrica
em relação à sua média.
87
y
0.3
0.2
0.1
0
-5
-2.5
0
2.5
5
x
Função de densidade de uma variável aleatória com distribuição Normal de média nula e
desvio padrão igual a um.
Tendo em conta que não é possível primitivar a função de densidade da distribuição Normal
pelos métodos elementares do cálculo integral, as probabilidades das variáveis aleatórias com
distribuição Normal são calculadas recorrendo a uma tabela. Nesta distribuição, pelo facto de
ser contínua, utiliza-se a tabela da função de distribuição F (x) = P (X ≤ x). No entanto, só
existem tabelados os valores da função de distribuição para a distribuição Normal com média
zero e desvio padrão igual a 1 (representada por Z e denominada por Normal standard)
cuja função de distribuição é representada por P (Z ≤ z) = φ(z) (tabela apresentada no final
do capítulo na página 126). Assim, o próximo teorema permite a transformação de qualquer
variável aleatória com distribuição Normal noutra variável com distribuição Normal com média
zero e desvio padrão 1 (Normal standard).
Teorema 2.5.4
Se X é uma variável aleatória com distribuição Normal com média μ e desvio padrão σ, ou
seja, X ∼ N(μ, σ), então,
Z=
X −μ
∼ N(0, 1).
σ
(44)
Outro problema prático na utilização das tabelas é a existência da função de distribuição
apenas para valores positivos. Tendo em conta que a distribuição Normal é simétrica em torno
da sua média e, em particular, a variável Z é simétrica em torno do ponto zero, este problema
88
pode ser resolvido utilizando o seguinte teorema.
Teorema 2.5.5
Considerando que Z ∼ N(0, 1), então,
P (Z ≤ −z) = P (Z ≥ z) = 1 − P (Z < z),
ou seja, φ(−z) = 1 − φ(z).
Exemplificação da fórmula P (Z ≤ −z) = P (Z ≥ z)
Exemplo 2.5.4
Considere que o tempo que determinada tarefa demora na sua realização é uma variável aleatória
com distribuição Normal com média igual a 5 (μ = 5) e desvio padrão igual a 2 (σ = 2)
[X ∼ N(5, 2)].
1. Pretende-se calcular a probabilidade de:
(a) P (X ≤ 7).
µ
¶
7−5
P (X ≤ 7) = P Z ≤
= P (z ≤ 1) = φ(1) = 0.8413,
2
onde o valor de φ(1) foi retirado da tabela da função de distribuição da variável
aleatória Z (Normal standard) apresentada no fim do capítulo.
89
(b) P (X > 10.04).
µ
¶
10.04 − 5
P Z>
= P (Z > 2.52) = 1 − P (Z ≤ 2.52) =
2
= 1 − φ(2.52) = 1 − 0.9941 = 0.0059.
(c) P (X < 3).
P (X < 3) = φ(−1) = 1 − φ(1) = 1 − 0.8413 = 0.1587.
(d) P (1 < X < 11).
P (1 < X < 11) = P (−2 < Z < 3) = P (Z < 3) − P (Z ≤ −2) =
= φ(3) − φ(−2) = φ(3) − [1 − φ(2)] =
= φ(3) − 1 + φ(2) = 0.9987 − 1 + 0.9772 = 0.9759.
2.
(a) Determinar a tal que P (X < a) = 0.6915.
¶
a−5
= 0.6915 ⇔
P (X < a) = 0.6915 ⇔ φ
2
a−5
= 0.5 ⇔ a = 6.
⇔
2
¶
µ
a−5
= 0.6915 foi retirado da tabela da função de distribuição da
onde o valor φ
2
variável Z (normal standard) apresentada no final do capítulo.
µ
(b) Determinar b tal que P (X < b) = 0.0202.
µ
b−5
P (X < b) = 0.0202 ⇔ φ
2
¶
= 0.0202
tendo em conta que este valor não aparece na tabela, tem-se que recorrer à probabilidade do seu simétrico,
µ
¶
µ
¶
b−5
b−5
φ
= 0.0202 ⇔ φ −
= 1 − 0.0202 ⇔
2
2
¶
µ
b−5
b−5
= 0.9798 ⇔ −
= 2.05 ⇔ b = 0.9.
⇔ φ −
2
2
90
Teorema 2.5.6 (Estabilidade da lei Normal)
Sejam X1 , X2 , · · · , Xn , n variáveis aleatórias independentes com distribuição Normal, ou seja,
Xi ∼ N(μi , σ i ) para i = 1, 2, · · · , n, então
X = a + b1 X1 + · · · + bn Xn = a +
Nota:
n
X
i=1
⎛
bi Xi ∼ N ⎝a +
n
X
i=1
v
⎞
u n
uX
bi μi , t
b2i σ 2i ⎠ .
(45)
i=1
Para determinar os valores dos parâmetros da distribuição poder-se-ia utilizar as
propriedades do valor esperado e da variância presentes na página 59, assim,
E (X) = E (a + b1 X1 + · · · + bn Xn ) =
= a + b1 E (X1 ) + · · · + bn E (Xn ) =
n
X
bi μi
= a + b1 μ1 + · · · + bn μ2 = a +
i=1
V ar (X) = V ar (a + b1 X1 + · · · + bn Xn ) =
que pela independencia das variáveis, vem
= b21 V ar (X1 ) + · · · + b2n V ar (Xn ) =
n
X
2 2
2 2
= b1 σ 1 + · · · + bn σ n =
b2i σ 2i
i=1
Exemplo 2.5.5
Considere as variáveis aleatórias independentes X1 e X2 tais que X1 ∼ N(5, 3) e X2 ∼ N(10, 4).
Determinar a probabilidade da variável aleatória Y ser inferior a dez sabendo que
Y = 10 + 3X1 − 2X2 .
Pelo fórmula (2.5.6), como a variável aleatória Y surge de uma transformação linear de variáveis aleatórias independentes com distribuição Normal, a variável aleatória Y também possui
distribuição Normal. Para determinar os valores dos parâmetros da distribuição podem-se utilizar as propriedades do valor esperado e da variância (ver propriedades 2.2.4 na página 58)
91
em vez das fórmulas apresentadas no teorema. Assim, para o primeiro parâmetro tem-se
E(Y ) = E(10 + 3X1 − 2X2 ) =
= 10 + 3E(X1 ) − 2E(X2 ) =
= 10 + 3 × 5 − 2 × 10 = 5
e para o segundo parâmetro, uma vez que as variáveis aleatórias X1 e X2 são independentes,
vem a raiz quadrada de
V ar(Y ) = V ar(10 + 3X1 − 2X2 ) =
= 32 × V ar(X1 ) + (−2)2 V ar(X2 ) =
√
= 9 × 32 + 4 × 42 = 145 ⇒ σ Y = 145,
√
então Y ∼ N(5, 145) e
¶
µ
10 − 5
' φ(0.415227),
P (Y < 10) = P Z < √
145
que, tendo em conta que a tabela só utiliza duas casas decimais,
φ(0.415227) ' φ(0.42) = 0.6628.
Como foi referido na introdução à distribuição Normal, uma das razões pela qual esta
distribuição é muito importante deve-se ao facto de muitas variáveis aleatórias com distribuição
diferente da Normal, sob certas condições, poderem ser aproximadas por outra variável aleatória
com distribuição Normal. O seguinte teorema exemplifica este facto utilizando a distribuição
Binomial.
Teorema 2.5.7 (Aproximação da distribuição Binomial pela distribuição Normal)
A distribuição Binomial tende para a distribuição Normal se o número de provas de Bernoulli
tende para infinito, isto é,
•
X ∼ B(n, p) ⇒ X 0 ∼ N(μ, σ) se n → +∞, sendo μ = np e σ 2 = n × p × (1 − p).
Regra:
92
(46)
Este teorema é utilizado, na prática, se simultaneamente se verifica
n × p ≥ 15
e
n × (1 − p) ≥ 15.
Saliente-se que neste teorema se aproxima uma variável aleatória discreta X por uma outra
variável aleatória que é contínua X 0 ; como tal, será incorrecto fazer simplesmente
P (X = k) = P (X 0 = k)
pois P (X 0 = k) = 0 para todos os valores de k. Para colmatar este problema é necessário
utilizar a correcção de continuidade que, neste caso, é
P (X = k) ' P (k − 0.5 < X 0 ≤ k + 0.5).
(47)
Exemplos 2.5.6
1. Considere a variável aleatória X com distribuição Binomial com cem provas de Bernoulli
e probabilidade de sucesso em cada prova igual a 0.2, ou seja, X ∼ B(100, 0.2). Utilizando
a aproximação pela distribuição Normal, determinar:
(a) P (X = 22).
Tendo em conta que as condições
n × p = 100 × 0.2 = 20 ≥ 15 e n × (1 − p) = 100 × (1 − 0.2) = 80 ≥ 15,
verificam-se, pode ser utilizada a aproximação pela distribuição Normal, sendo
μ = n × p = 20 e σ =
•
p
n × p × (1 − p) = 4,
então X 0 ∼ N(20, 4) e utilizando a fórmula (47) vem
µ
¶
21.5 − 20
22.5 − 20
0
P (X = 22) ' P (21.5 < X ≤ 22.5) = P
<Z≤
4
4
= P (0.375 < Z ≤ 0.625) = φ(0.625) − φ(0.375) '
' φ(0.63) − φ(0.38) = 0.7357 − 0.6480 = 0.0877.
93
(b) P (X ≥ 28).
P (X ≥ 28) ' P (X 0 ≥ 27.5) = P (Z ≥ 1.875) =
= 1 − P (Z < 1.875) = 1 − φ(1.875) '
' 1 − φ(1.88) = 1 − 0.9699 = 0.0301.
(c) P (X ≤ 32).
P (X ≤ 32) ' P (X 0 ≤ 32.5) = P (Z ≤ 3.125) =
= φ(3.125) ' φ(3.13) = 0.9991.
(d) P (X < 12).
P (X < 12) ' P (X 0 < 11.5) = P (Z < −2.125) = φ(−2.125) =
= 1 − φ(2.125) ' 1 − φ(2.13) = 1 − 0.9834 = 0.0166.
(e) P (17 ≤ X ≤ 23).
P (17 ≤ X ≤ 23) ' P (16.5 ≤ X 0 ≤ 23.5) = P (−0.875 ≤ Z ≤ 0.875) =
= φ(0.875) − φ(−0.875) = φ(0.875) − 1 + φ(0.875) =
= 2φ(0.875) − 1 ' 2φ(0.88) − 1 = 2 × 0.8106 − 1 = 0.6212.
(f) P (15 < X ≤ 30).
P (15 < X ≤ 30) ' P (15.5 < X 0 ≤ 30.5) = P (−1.125 < Z ≤ 2.625) =
= φ(2.625) − φ(−1.125) = φ(2.625) − 1 + φ(1.125) '
' φ(2.63) − 1 + φ(1.13) = 0.9957 − 1 + 0.8708 = 0.8665.
2. Considere a experiência aleatória que consiste em fazer duzentos lançamentos de um dado
em que se deseja saber o valor da probabilidade de sair a face seis em mais de trinta e
cinco lançamentos. Tendo em conta que a probabilidade de sair a face seis é igual em
94
todos os lançamentos, a variável aleatória que conta o número de vezes que sai a face
seis tem distribuição Binomial com duzentas provas e com probabilidade de sucesso em
µ
¶
1
1
cada prova igual a , ou seja, X ∼ B 200,
sendo a probabilidade pretendida igual
6
6
a P (X > 35). Caso se pretenda utilizar a aproximação à distribuição Normal, tendo em
conta que
1
1
= 33.(3) ≥ 15 e n × (1 − p) = 200 × (1 − ) = 166.(6) ≥ 15
6
6
p
•
vem X 0 ∼ N(μ, σ), onde μ = n × p = 33.(3) e σ = n × p × (1 − p) ' 5.27046, então,
n × p = 200 ×
P (X > 35) ' P (X 0 > 35.5) ' P (Z > 0.4111) =
= 1 − P (Z ≤ 0.4111) ' 1 − P (Z ≤ 0.41) =
= 1 − 0.6591 = 0.3409.
Teorema 2.5.8 (Aproximação da distribuição de Poisson pela distribuição Normal)
A distribuição de Poisson tende para a distribuição Normal se o parâmetro λ tender para infinito, isto é,
•
X ∼ P (λ) ⇒ X 0 ∼ N(μ, σ) se λ → +∞, sendo μ = λ e σ2 = λ.
(48)
Regra:
Este teorema é utilizado, na prática, quando se verifica
λ > 20.
Saliente-se que neste teorema se aproxima uma variável aleatória discreta X por uma outra
variável aleatória que é contínua X 0 (tal como na aproximação da Binomial à Normal); como
tal, será necessário utilizar a correcção de continuidade (ver fórmula (47) na página 93).
Exemplos 2.5.7
95
1. Considere a variável aleatória X com distribuição de Poisson com média 100. Qual a
probabilidade de a variável assumir um valor superior a 110?
Tendo em conta que λ = 100 > 20 pode-se utilizar a aproximação à distribuição Normal,
obtendo-se
³
√ ´
•
X 0 ∼ N 100, 100 , ou seja
•
X 0 ∼ N (100, 10)
¶
µ
110.5 − 100
0
= P (Z > 1.05) =
então P (X > 110) ' P (X > 110.5) = P Z >
10
= 1 − φ (1.05) = 1 − 0.8531 = 0.1469.
2. Considerando que X ∼ P (400), determine P (X < 440).
Visto que λ = 400 > 20, vai-se utilizar a aproximação à distribuição Normal, verificando-se
³
√ ´
•
X 0 ∼ N 400, 400 , ou seja
•
X 0 ∼ N (400, 20)
µ
¶
439.5 − 400
0
= P (Z < 1.975) '
sendo P (X < 440) ' P (X < 439.5) = P Z <
20
' P (Z < 1.98) = 0.9761.
Teorema 2.5.9 (Teorema do limite central)
Sejam X1 , X2 , · · · , Xn , n variáveis aleatórias independentes e identicamente distribuidas (i.i.d .)
com E(Xi ) = μ e V ar(Xi ) = σ 2 , então, fazendo n tender para infinito, a variável aleatória
¶
µ
n
P
Xi tem disX definida pela soma das variáveis anteriores X = X1 + X2 + · · · + Xn =
i=1
tribuição aproximadamente Normal, ou seja,
X=
n
X
i=1
Regra:
¡
√ ¢
•
Xi ∼ N nμ, n σ quando n → +∞.
Na prática utiliza-se o teorema do limite central quando
n ≥ 30.
96
(49)
Nota:
Para determinar os valores dos parâmetros da distribuição poder-se-ía utilizar as
propriedades do valor esperado e da variância presentes na página 59,
!
à n
n
n
X
X
X
Xi =
E (Xi ) =
μ = nμ;
E (X) = E
i=1
V ar (X) = V ar
à n
X
Xi
i=1
!
i=1
i=1
=
que pela independencia das variáveis, vem
n
n
X
X
√
√
=
V ar (Xi ) =
σ 2 = nσ 2 =⇒ σ X = nσ 2 = nσ.
i=1
i=1
Exemplos 2.5.8
1. Considere que o lucro, num dia de trabalho de uma loja da empresa TudoVende, tem valor
esperado 10000 euros e desvio padrão 1000 euros sendo o lucro de um dia independente
do dos restantes dias. Qual a probabilidade de, num ano de trabalho (considere-se 300
dias úteis), o lucro desta loja ser superior a 3 050 000 euros?
Seja Li , com i = 1, · · · , 300, as variáveis aleatórias que representam o lucro em cada dia
da loja. Sabe-se que estas variáveis são independentes e que
E (Li ) = 10000 e V ar (Li ) = 10002 .
A probabilidade pedida é
P
à 300
X
!
Li > 3 050 000
i=!
que, tendo em conta que se está a somar trezentas variáveis (n ≥ 30) independentes e
indenticamente distribuidas (i.i.d .), pelo teorema do limite central vem
n
X
i=1
300
X
i=1
300
X
i=1
¡
√ ¢
•
Li ∼ N nμ, nσ
³
´
√
•
Li ∼ N 300 × 10 000, 300 × 1000
•
Li ∼ N (3 000 000, 17320.50808)
97
logo
P
à 300
X
!
Li > 3 050 000
i=1
¶
µ
3 050 000 − 3 000 000
'
= P Z>
17320.50808
' P (Z > 2.886751345) ' 1 − P (Z ≤ 2.89) =
= 1 − 0.9981 = 0.0019.
2. Somam-se 100 números arredondados ao inteiro mais próximo. Supondo que o erro
cometido nos arredondamentos tem distribuição uniforme no intevalo [−0.5, 0.5] e que
o erros são independentes, calcule a probabilidade de o erro cometido na soma (em valor
absoluto) ser inferior a duas unidades.
Considere-se que os erros são representados pelas variáveis aleatórias Xi com i = 1, · · · , 100.
Assim as variáveis Xi ∼ U (−0.5, 0.5) pretendendo-se determinar
!
ï 100 ¯
¯X ¯
¯
¯
Xi ¯ < 2 .
P ¯
¯
¯
i=1
Considerando que as variáveis aleatórias Xi são independentes e identicamente distribuidas
(i.i.d.), pode-se recorrer ao teorema do limite central, pois n ≥ 30, de onde se conclui
que
100
X
i=1
sendo
¡
√ ¢
•
Xi ∼ N nμ, nσ
0.5 + (−0.5)
=0
2
r
√
1
3
(0.5 − (−0.5))2
1
= V ar (Xi ) =
=
⇒σ=
=
12
12
12
6
μ = E (Xi ) =
σ2
onde foram utilizadas as fórmulas (40) patentes na página 82, então
Ã
√ !
100
X
√
3
•
Xi ∼ N 100 × 0, 100 ×
6
i=1
µ
¶
100
X
5√
•
Xi ∼ N 0,
3 .
3
i=1
98
A probabilidade pretendida é, então, obtida por
!
Ã
!
ï 100 ¯
100
¯X ¯
X
¯
¯
= P −2 <
Xi ¯ < 2
Xi < 2 =
P ¯
¯
¯
i=1
i=1
!
Ã
−2 − 0
2−0
√ < Z < 5√
'
= P
5
3
3
3
3
' P (−0.69282 < Z < 0.69282) =
= P (Z < 0.69282) − P (Z ≤ −0.69282) =
= P (Z < 0.69282) − 1 + P (Z < 0.69282) =
= 2 × P (Z < 0.69282) − 1 '
' 2 × P (Z < 0.69) − 1 = 2 × 0.7549 − 1 = 0.5098.
2.5.4
Distribuição Qui-Quadrado
Diz-se que uma variável aleatória contínua tem distribuição Qui-Quadrado com n graus
de liberdade (com n ∈ N), representada por X ∼ χ2(n) , se a sua função de densidade de
probabilidade é dada por:
x n
−1
e 2x2
f (x) = n
, x>0
³n´
22Γ
2
10
onde Γ (.) representa a função Gama.
−
Teorema 2.5.10
Se a variável aleatória X tem distribuição Qui-quadrado com n graus de liberdade, ou seja,
X ∼ χ2(n) , então
E(X) = n e V ar(X) = 2n.
(50)
No cálculo de probabilidades utilizando a distribuição Qui-quadrado, tal como acontecia na
distribuição Normal, vai-se utilizar tabelas (ver página 128) onde estão presentes os valores da
10
A função Gama é definida por Γ (n) =
Γ (n) = (n − 1)!.
R +∞
0
e−x xn−1 dx. No caso particular em que n ∈ N verifica-se que
99
função de distribuição desta variável, ou seja, recorre-se à tabela para determinar probabilidades
³
´
do tipo P χ2(n) ≤ x .
Exemplo 2.5.9
Considere uma variável aleatória X com distribuição Qui-quadrado com 10 graus de liberdade
h
i
X ∼ χ2(10) . Determine:
1. P (X ≤ 10.473) .
para determinar esta probabilidade, tendo em conta que é pedida a função de distribuição
[P (X ≤ x)] no ponto x = 10.473, vai-se à tabela procurar este valor na linha correspondente a n = 10 (graus de liberdade). Assim, este valor corresponde a α = 0.6, ou seja, a
probabilidade é igual a 0.6,
P (X ≤ 10.473) = 0.6.
2. P (X > 3.247) .
P (X > 3.247) = 1 − P (X ≤ 3.247) =
que recorrendo à tabela vem
= 1 − 0.025 = 0.975.
3. P (X ≤ 5) .
Neste caso, o valor 5 não se encontra na tabela. Assim, vai-se à tabela procurar os dois
valores adjacentes, ou seja, o valor imediatamente inferior e o imediatamente superior,
que neste caso corespondem a x = 4.8652 com α = 0.1 e a x = 5.5701 com α = 0.15.
Assim vai-se fazer um interpolação linear para obter uma aproximação do valor de α
correspondente a x = 5. Seja o valor de α correspondente representado por α0 . Assim,
100
tem-se
Valores de x Valores de α
4.8652
0.10
5
α0 =?
5.5701
0.15
Então, uma das formas de fazer interpolação linear será resolver
5.5701 − 4.8652
0.15 − 0.10
=
5.5701 − 5
0.15 − α0
de onde se obtém α0 ' 0.10956, logo
P (X ≤ 5) ' 0.10956.
4. o valor de a tal que P (X ≤ a) = 0.20.
Para determinar este valor, tendo em conta que é pedida a função de distribuição [P (X ≤ x)]
com α = 0.2, vai-se à tabela procurar este valor na linha correspondente a n = 10 (graus
de liberdade) e coluna correspondente a 0.2. Assim, este valor corresponde a 6.1791, ou
seja, o valor de a é igual a 6.1791.
5. o valor de b tal que P (X > b) = 0.95.
P (X > b) = 0.95 ⇔ 1 − P (X ≤ b) = 0.95 ⇔
⇔ P (X ≤ b) = 0.05 ⇔ b = 3.9403.
6. o valor de c tal que P (X < c) = 0.075.
Neste caso, o valor α = 0.075 não se encontra na tabela. Assim, vai-se à tabela procurar
os dois valores adjacentes, ou seja, o valor imediatamente inferior e o imediatamente
superior, que neste caso corespondem a α = 0.05 com x = 3.9403 e α = 0.10 com
x = 4.8652. Assim vai-se utilizar a interpolação linear para obter um valor aproximado
101
para x quando α = 0.075. Assim, tem-se
Valores de x Valores de α
3.9403
0.05
x0
0.075
4.8652
0.10
Então, uma das formas de fazer interpolação linear será resolver
4.8652 − 3.9403
0.10 − 0.05
=
0
3.8652 − x
0.10 − 0.075
de onde se obtém c ' 3.4028.
Nota:
Considere-se que se tem os seguintes valores:
Valores de x Valores de α
x1
α1
x
α
x2
α2
onde x1 , x2 , α1 , α2 são valores conhecidos pretendendo-se determinar, através de
uma interpolação linear, o valor de α ou o valor de x (um destes valores supõe-se
conhecido sendo o outro valor o que se pretende determinar). Uma fórmula que
poderá ser utilizada é
α2 − α1
x2 − x1
=
.
x2 − x
α2 − α
(51)
Teorema 2.5.11
Considere-se um conjunto de n variáveis aleatórias Zi (i = 1, 2, · · · , n) obedecendo às seguintes
condições:
i) Cada variável Zi segue uma distribuição Normal standard [ou seja Zi ∼ N(0, 1)];
102
ii) As variáveis Zi são independentes (os valores que cada variável assume não são condicionados pelos valores das restantes).
A variável aleatória X, obtida pela soma de n variáveis Zi elevadas ao quadrado, segue
uma distribuição Qui-quadrado com n graus de liberdade (com n ∈ N), representada por
X ∼ χ2(n) , ou seja, se
X=
n
X
i=1
Zi2 = Z12 + Z22 + · · · + Zn2 , então X ∼ χ2(n) .
Exemplo 2.5.10
Considere que a empresa DelFonte vende água em garrafas de 1.5 litros. Para engarrafar a
água é utilizada uma máquina que comete um erro de medida (em mililitros) em cada garrafa
representado pela variável aleatória Ei (que são independentes de garrafa para garrafa), que
vai aumentando ao longo do tempo de utilização da maquina sendo necessário a certa altura
consertar a maquina. Para testar se os erros ao engarrafar já são suficientemente elevados
para consertar a máquina a empresa testa periodicamente um lote de n garrafas. Se, no lote,
se verificar que a soma dos erros ao quadrado são superiores a n a máquina é consertada, caso
contrário significa que os erros são insignificantes. Suponha que, em determinada altura o erros
seguem uma distribuição Normal standard, qual a probabilidade de, ao testar um lote de 100
garrafas, a máquina ter que ir ser consertada?
Tem-se que o erro ao engarrafar a garrafa i, seja Ei , segue uma distribuição Normal standard, ou seja, Ei ∼ N (0, 1) e pretende-se determinar
!
à n
X
Ei2 > n ,
P
i=1
que tendo em conta que o lote testado é constituído por 100 garrafas, n = 100, vem
à 100
!
X
P
Ei2 > 100
i=1
que como
100
X
E 2 é a soma de 100 variáveis aleatórias independentes com distribuição Normal
i=1
103
standard, pelo teorema 2.5.11 conclui-se que
100
X
E 2 ∼ χ2(100) .
i=1
Assim, a probabilidade pretendida é
à 100
!
X
¡
¢
¡
¢
P
E 2 > 100 = P χ2(100) > 100 = 1 − P χ2(100) ≤ 100
i=1
que recorrendo à tabela, vem
Valores de x Valores de α
99.334
0.50
100
α0 =?
102.95
0.60
logo, pela interpolação linear, vem
102.95 − 99.334
0.60 − 0.50
⇔ α0 ' 0.518418.
=
102.95 − 100
0.60 − α0
logo
¢
¡
1 − P χ2(100) ≤ 100 ' 1 − 0.518418 = 0.481582.
Teorema 2.5.12 (Aditividade da distribuição Qui-quadrado)
A soma de variáveis aleatórias independentes com distribuição Qui-quadrado tem ainda uma
distribuição Qui-quadrado cujo número de graus de liberdade é igual à soma dos graus de liberdade das componentes, ou seja, se Xi ∼ χ2(ni ) com i = 1, · · · , k, forem variáveis aleatórias
independentes, então
X=
k
X
i=1
Xi ∼ χ2# S
k
i=1
ni
$.
Exemplo 2.5.11
Considere a empresa V endeT udo tem três lojas e que o lucro das lojas é descritos pelas variáveis
104
X1 ∼ χ2(30) , X2 ∼ χ2(20) e X3 ∼ χ2(40) . Considerando que o lucro de cada loja é independente do
das restantes, qual a probabilidade de o lucro da empresa ser superior a 101.05 euros?
Pretende-se determinar
P (X1 + X2 + X3 > 101.05)
que, como se está a somar três variáveis com distribuição Qui-quadrado independentes, pela
aditividade da distribuição Qui-quadrado vem que
X1 + X2 + X3 ∼ χ2(30+20+40)
X1 + X2 + X3 ∼ χ2(90)
logo
¡
¢
P (X1 + X2 + X3 > 101.05) = P χ2(90) > 101.05 =
¢
¡
= 1 − P χ2(90) ≤ 101.05 = 1 − 0.80 = 0.20.
Teorema 2.5.13 (Aproximação da Qui-quadrado à Normal)
√
√
•
Se X ∼ χ2(n) , então se n tende para infinito (n → +∞) tem-se 2X − 2n ∼ N (0, 1).
Regra:
Este teorema é utilizado, na prática, quando se verifica
n ≥ 30.
Exemplo 2.5.12
Considere uma variável aleatória X ∼ χ2(50) , que pela tabela da função de distribuição da Qui-quadrado tem-se P (X ≤ 71.42) = 0.97. Um resultado aproximado poder-se-ía obter pela aproximação à Normal, através de
³√
´
³√
´
√
2X ≤ 2 × 71.42 = P
2X ≤ 11.9515689
´
³√
√
√
2X − 2 × 50 ≤ 11.9515689 − 2 × 50 =
= P
´
³√
√
2X − 2 × 50 ≤ 1.9515689
= P
P (X ≤ 71.42) = P
105
que através do teorema 2.5.13 vem que
P
√
√
√
√
•
2X − 2n = 2X − 2 × 50 = Z ∼ N (0, 1), logo
´
³√
√
2X − 2 × 50 ≤ 1.9515689 = P (Z ≤ 1.9515689) '
' P (Z ≤ 1.95) = 0.9744.
Teorema 2.5.14 (Aproximação da Qui-quadrado à Normal)
¡ √ ¢
•
Se X ∼ χ2(n) , então se n tende para infinito (n → +∞) tem-se X ∼ N n, 2n .
Regra:
Este teorema é utilizado, na prática, quando se verifica
n ≥ 100.
Exemplo 2.5.13
Considere uma variável aleatória X ∼ χ2(150) , que pela tabela da função de distribuição da
Qui-quadrado tem-se P (X ≤ 172.58) = 0.90. Um resultado aproximado poder-se-ía obter pela
aproximação à Normal. Assim, pelo teorema 2.5.14, como n ≥ 100, tem-se que
³ √ ´
•
X ∼ N n, 2n , ou seja,
√
¡
¢
•
X ∼ N 150, 2 × 150 ,
então
¶
µ
172.58 − 150
' P (Z ≤ 1.3036569) '
P (X ≤ 172.58) ' P Z ≤ √
2 × 150
' P (Z ≤ 1.30) = 0.9032.
2.5.5
Distribuição de t-Student
Diz-se que uma variável aleatória contínua tem distribuição t-Student11 com n graus de
liberdade (com n ∈ N), representada por X ∼ t(n) , se a sua função de densidade de probabil11
Student foi o pseudónimo utilizado pelo estaticista inglês W. S. Gosset (1876-1937), que foi quem desenvolveu
esta distribuição.
106
idade é dada por:
Teorema 2.5.15
¡ n+1 ¢ µ
¶− n + 1
2
Γ
x
2
1+
, com x ∈ R.
f (x) = ¡ n ¢ 2√
n
Γ 2
nπ
Se a variável aleatória X tem distribuição t—Student com n graus de liberdade, ou seja, X ∼ t(n) ,
então,
E(X) = 0 e V ar(X) =
n
(para n ≥ 3).
n−2
(52)
A função de densidade de uma variável aleatória com distribuição t - Student é, tal como a
da distribuição Normal, simétrica em relação à sua média (que é igual a zero), como tal pode-se
utilizar propriedades semelhantes às verificadas no teorema 2.5.5 na página 89.
Teorema 2.5.16
Seja X uma variável aleatória com distribuição de t-Student com n graus de liberdade, ou seja,
X ∼ t(n) , então
P (X ≤ −k) = P (X ≥ k) = 1 − P (X < k) .
Para o cálculo de probabilidades, utilizam-se os valores da sua função de distribuição tabulados na página 127.
Exemplo 2.5.14
Considere que a variável aleatória X tem distribuição t-Student com quarenta graus de liberdade,
ou seja, X ∼ t(40) . Determine:
1. P (X ≤ 2.4233) .
Como esta probabilidade já está na forma de função de distribuição, pode-se ir à tabela,
procurando-se na linha correspondente a quarenta graus de liberdade, n = 40. Assim, o
valor 2.4233 corresponde a α = 0.99, logo
P (X ≤ 2.4233) = 0.99.
107
2. P (X ≥ 2.7045) .
P (X ≥ 2.7045) = 1 − P (X < 2.7045) =
= 1 − 0.995 = 0.005.
3. P (X ≤ −0.6807) .
Como a tabela só apresenta valores positivos, vai-se ter que recorrer ao facto de a função
de densidade ser simétrica, então, pelo teorema 2.5.16, vem
P (X ≤ −0.6807) = P (X ≥ 0.6807) =
= 1 − P (X < 0.6807) =
= 1 − 0.75 = 0.25.
4. P (−1.05 < X < 1.05) .
P (−1.05 < X < 1.05) = P (X < 1.05) − P (X ≤ −1.05) =
= P (X < 1.05) − P (X ≥ 1.05) =
= P (X < 1.05) − [1 − P (X < 1.05)] =
= 0.85 − 1 + 0.85 = 0.70.
5. P (X ≤ 1.5) .
Neste caso, ao procurar-se o valor 1.5 na tabela, este não aparece na linha n = 40. Assim,
vai-se utilizar o mesmo raciocínio que foi apresentado na distribuição Qui-quadrado. Vaise à tabela buscar os valores vizinhos do ponto 1.5 que correspondem a
Valores de x Valores de α
1.3031
0.90
1.5
α0 =?
1.6839
0.95
108
sendo o valor de α0 obtido pela fórmula da interpolação linear (fórmula (51) na página
102) que se obtém
1.6839 − 1.3031 0.95 − 0.90
=
⇔ α0 ' 0.935853466,
1.6839 − 1.5
0.95 − α0
logo
P (X ≤ 1.5) ' 0.935853466.
6. o valor de a tal que P (X ≤ a) = 0.75.
Para determinar este valor, tendo em conta que é pedida a função de distribuição [P (X ≤ x)]
com α = 0.75, vai-se à tabela procurar este valor na linha correspondente a n = 40 (graus
de liberdade) e coluna correspondente a 0.75. Assim, este valor corresponde a 0.6807, ou
seja, o valor de a é igual a 0.6807.
7. o valor de b tal que P (X ≤ b) = 0.05.
Neste caso, não se poderá ir directamente à tabela pois o valor mínimo para α na tabela
é α = 0.6. Assim, vai-se utilizar a simetria da distribuição t-Student, de onde se obtém
P (X ≤ b) = 0.05 ⇔ P (X ≥ −b) = 0.05 ⇔ 1 − P (X < −b) = 0.05 ⇔
⇔ P (X < −b) = 0.95 ⇔ −b = 1.6839 ⇔ b = −1.6839.
8. o valor de c tal que P (X > c) = 0.65.
P (X > c) = 0.65 ⇔ 1 − P (X ≤ c) = 0.65 ⇔ P (X ≤ c) = 0.35
que como α = 0.35 < 0.5 não está na tabela, vai-se utilizar a simetria da distribuição
t-Student, de onde se obtém
P (X ≤ c) = 0.35 ⇔ P (X ≥ −c) = 0.35 ⇔
⇔ 1 − P (X < −c) = 0.35 ⇔ P (X < −c) = 0.65
109
Neste caso, o valor α = 0.65 não se encontra na tabela. Assim, vai-se à tabela procurar
os dois valores adjacentes, ou seja, o valor imediatamente inferior e o imediatamente
superior, que neste caso corespondem a α = 0.60 com x = 0.2550 e α = 0.70 com
x = 0.5286. Assim vai-se utilizar a interpolação linear para obter um valor aproximado
para x quando α = 0.65, obtendo-se
Valores de x Valores de α
0.2550
0.60
x0
0.65
0.5286
0.70
Então, uma das formas de fazer interpolação linear será resolver
0.5286 − 0.2550
0.70 − 0.60
=
0
0.5286 − x
0.70 − 0.65
de onde se obtém x0 ' 0.3918, logo
−c ' 0.3918 ⇔ c ' −0.3918.
Teorema 2.5.17
Sejam Z ∼ N(0, 1) e Y ∼ χ2(n) duas variáveis independentes, então
Z
X=r
Y
n
tem distribuição t-Student com n graus de liberdade (com n ∈ N), ou seja, X ∼ t(n) .
Exemplo 2.5.15
Considere as variáveis aleatórias X ∼ N (0, 1) e Y ∼ χ2(25) que são independentes. Determine
³
√ ´
P 4X ≤ Y .
⎞
⎛
µ
¶
³
√ ´
X
1
X
1
P 4X ≤ Y
= P √ ≤
=P⎝√ ≤ 4 ⎠=
√
4
√Y
Y
25
25
⎞
⎛
X
= P ⎝ q ≤ 1.25⎠
Y
25
110
que, pelo teorema 2.5.17, vem que
X
q ∼ t(25)
Y
25
logo
⎛
⎞
¢
¡
X
P ⎝ q ≤ 1.25⎠ = P t(25) ≤ 1.25 ' 0.88714618
pois
Y
25
Valores de x Valores de α
1.0584
0.85
1.25
a =?
1.3163
0.90
de onde se obtém
1.3163 − 1.0584
0.90 − 0.85
=
⇔ a ' 0.88714618.
1.3163 − 1.25
0.90 − a
Teorema 2.5.18 (Aproximação da t-Student à Normal)
•
Se X ∼ t(n) , então se n tende para infinito (n → +∞) tem-se X ∼ N (0, 1).
Regra:
Este teorema é utilizado, na prática, quando se verifica
n ≥ 30.
Exemplo 2.5.16
1. Considere uma variável aleatória com distribuição t-Student com 150 graus de liberdade,
isto é, X ∼ t(150) . Determine P (X ≤ 1.04).
Tendo em conta que n ≥ 30, pode-se utilizar a aproximação à distribuição Normal patente
no teorema 2.5.18, assim vai-se considerar que X ∼N
˙ (0, 1).
P (X ≤ 1.04) = P (Z ≤ 1.04) = 0.8508.
111
Note-se que, se fosse utilizada a tabela da distribuição t-Student, o valor obtido seria 0.85
o que é próximo do obtido pela aproximação à Normal.
2. Considere as variáveis aleatórias independentes Zi com i = 0, · · · , 10000 que têm distribuição Normal standard. Calcule
Ã
10000Z02 ≤
P
10000
X
!
Zi2 .
i=1
Pelo teorema 2.5.11 presente na página 102 vem que
10000
X
Zi2 ∼ χ2(10000) , assim
i=1
P
Ã
10000Z02 ≤
10000
X
i=1
Zi2
!
¡
¢
= P 10000Z02 ≤ χ2(10000) = P
⎛ s
= P ⎝−
χ2(10000)
10000
⎛
= P ⎝−1 ≤ q
≤ Z0 ≤
Z0
χ2(10000)
10000
s
Ã
Z02 ≤
χ2(10000)
10000
⎞
χ2(10000)
10000
⎞
!
=
⎠=
≤ 1⎠
que pelo teorema 2.5.17 presente na página 110 vem que
s
Z0
χ2(10000)
∼ t(10000) ,
10000
consequentemente
⎛
P ⎝−1 ≤ q
Z0
χ2(10000)
10000
⎞
¢
¡
≤ 1⎠ = P −1 ≤ t(10000) ≤ 1
que tendo em conta que n ≥ 30 pode-se utilizar o teorema 2.5.18 e aproximar a t-Student
à Normal standard, obtendo-se
¡
¢
P −1 ≤ t(10000) ≤ 1 ' P (−1 ≤ Z ≤ 1) = P (Z ≤ 1) − P (Z < −1) =
= 0.8413 − [1 − P (Z ≤ 1)] = 0.8413 − 1 + 0.8413 = 0.6826.
112
2.5.6
Distribuição de F - Snedecor
Diz-se que uma variável aleatória contínua tem distribuição F - Snedecor com m e n graus de
liberdade, representada por X ∼ F(m,n) [onde m representa os graus de liberdade do numerador
e n os graus de liberdade do denominador], se a sua função de densidade de probabilidade é da
forma:
m m
¶
−1
m + n ³ m ´ 0.5
Γ
x2
2
n
f (x) =
m + n , para x > 0.
³m´ ³n´
Γ
(m + nx) 2
Γ
2
2
µ
Teorema 2.5.19
Se a variável aleatória X tem distribuição F-Snedcor com m e n graus de liberdade, ou seja,
X ∼ F(m,n) , então
E(X) =
n
2n2 (n + m − 2)
e V ar(X) =
(para n > 4) .
n−2
m (n − 2)2 (n − 4)
(53)
No cálculo de probabilidades utilizando a distribuição F-Snedcor vai-se utilizar tabelas (ver
página 130) onde estão presentes os valores da função de distribuição desta variável, ou seja,
¡
¢
recorre-se à tabela para determinar probabilidades do tipo P F(m,n) ≤ x .
Exemplos 2.5.17
Considere a variável aleatória X com distribuição F-Snedcor com trinta e quinze graus de
¡
¢
liberdade X ∼ F(30,15) . Determine:
1. P (X ≤ 1.87).
Como esta probabilidade já está na forma de função de distribuição, pode-se ir à tabela,
procurando-se na coluna correspondente a m = 30 e linha correspondente a n = 15.
Assim, o valor 1.87 aparece na tabela onde α = 0.90, logo
P (X ≤ 1.87) = 0.90.
113
2. P (X ≤ 3.21).
Procurando este valor na coluna correspondente a m = 30 e linha correspondente a n = 15,
este aparece na tabela correspondente a α = 0.99, logo
P (X ≤ 3.21) = 0.99.
3. P (X ≤ 2.5).
Procurando este valor, este não aparece em nenhuma das tabelas, logo vai-se procurar os
valores adjacentes para fazer interpolação linear. Assim, tem-se
Valores de x Valores de α
2.25
0.95
2.50
α0 =?
2.64
0.975
de onde se obtém
2.64 − 2.25
0.975 − 0.95
⇔ α0 ' 0.96603,
=
0
2.64 − 2.50
0.975 − α
logo
P (X ≤ 2.5) ' 0.96603.
4. o valor de a tal que P (X < a) = 0.95.
Para determinar o valor de a bastará ir à tabela correspondente a α = 0.95 à coluna
correspondente a m = 30 e linha correspondente a n = 15, de onde se conclui que a = 2.25.
5. o valor de b tal que P (X ≥ b) = 0.02.
P (X ≥ b) = 0.02 ⇔ 1 − P (X < b) = 0.02 ⇔
⇔ P (X < b) = 0.98
114
como não há tabela para α = 0.98 vai-se recorrer aos valores adjacentes para determinar
um valor aproximado através da interpolação linear, de onde se obtém
Valores de x Valores de α
2.64
0.975
b =?
0.98
3.21
0.99
de onde se obtém
0.99 − 0.975
3.21 − 2.64
=
⇔ b ' 2.83.
3.21 − b
0.99 − 0.98
Teorema 2.5.20
Se X ∼ F(m,n) , então
1
∼ F(n,m)
X
Exemplos 2.5.18 Exemplo 2.5.19
Considere a variável aleatória X com distribuição F-Snedcor com trinta e quinze graus de
¡
¢
liberdade X ∼ F(30,15) . Determine:
1. P (X ≤ 0.5).
Neste caso, não há tabelas com valores próximos de 0.5 (o menor valor é o patente na
tabela α = 0.9 que corresponde a 1.87), então vai-se recorrer ao teorema 2.5.20 de onde
se obtém
µ
¶
¡
¢
1
1
P (X ≤ 0.5) = P
≥
= P F(15,30) ≥ 2 =
X
0.5
¢
¡
= 1 − P F(15,30) < 2
que, recorrendo as tabelas, conclui-se que
Valores de x Valores de α
1.72
0.90
2.00
α0 =?
2.01
0.95
115
de onde se obtém
2.01 − 1.72
0.95 − 0.90
=
⇔ α0 ' 0.94828,
2.01 − 2.00
0.95 − α0
logo
¢
¡
1 − P F(15,30) < 2 ' 1 − 0.94828 = 0.05172.
2. o valor de c tal que P (X > c) = 0.95.
P (X > c) = 0.95 ⇔ 1 − P (X ≤ c) = 0.95 ⇔
⇔ P (X ≤ c) = 0.05.
Neste caso, não há tabelas para valores de α próximos de 0.05, pois só há tabelas para
α = 0.90, 0.95, 0.975 e 0.99. Assim tem-se que recorrer ao teorema 2.5.20 de onde se
conclui que,
P (X ≤ c) = 0.05 ⇔ P
µ
1
1
≥
X
c
¶
= 0.05 ⇔
µ
¶
1
⇔ P F(15,30) ≥
= 0.05 ⇔
c
¶
µ
1
= 0.05 ⇔
⇔ 1 − P F(15,30) ≤
c
µ
¶
1
⇔ P F(15,30) ≤
= 0.95
c
que, recorrendo à tabela, conclui-se que
1
1
= 2.01 ⇔ c =
⇔ c = 0.49751.
c
2.01
Teorema 2.5.21
Sejam X ∼ χ2(m) e Y ∼ χ2(n) duas variáveis aleatórias independentes, então
X
W = m
Y
n
tem distribuição F-Snedecor com m e n graus de liberdade, ou seja, W ∼ F(m,n) .
116
Exemplo 2.5.20
Considere a empresa V endeT udo tem três lojas e que o lucro das lojas é descritos pelas variáveis
X1 ∼ χ2(30) , X2 ∼ χ2(30) e X3 ∼ χ2(40) . Considerando que o lucro de cada loja é independente do
das restantes, qual a probabilidade de o lucro da terceira loja ser superior ao lucro das restantes
duas lojas?
Pretende-se determinar
P (X3 > X1 + X2 )
que, como X1 + X2 é a soma de duas variáveis aleatórias com distribuição Qui-quadrado independentes, pela aditividade da distribuição Qui-quadrado (teorema 2.5.12 da página 104) vem
que
X1 + X2 ∼ χ2(30+30)
X1 + X2 ∼ χ2(60)
logo
¡
¢
P (X3 > X1 + X2 ) = P χ2(40) > χ2(60) =
à 2
!
χ(40)
= P
>1 =
χ2(60)
⎞
⎛ 2
χ(40)
1
⎜ 40
40 ⎟
⎟
>
= P⎜
⎠
⎝ χ2
1
(60)
60
60
que pelo teorema 2.5.21 vem que
χ2(40)
40 ∼ F
(40,60)
χ2(60)
60
logo
⎛
χ2(40)
⎜ 40
P⎜
⎝ χ2
(60)
60
⎞
1
⎟
¡
¢
=
P
F
> 40 ⎟
>
1.5
=
(40,60)
1 ⎠
60
¡
¢
= 1 − P F(40,60) ≤ 1.5
117
que recorrendo à interpolação vem
Valores de x Valores de α
1.44
0.90
1.50
α0 =?
1.59
0.95
de onde se obtém
1.59 − 1.44
0.95 − 0.90
⇔ α0 ' 0.92,
=
0
1.59 − 1.50
0.95 − α
logo
¡
¢
1 − P F(40,60) ≤ 1.5 ' 1 − 0.92 = 0.08.
Teorema 2.5.22
Seja X uma variável aleatória com distribuição t-Student com n graus de liberdade, ou seja
X ∼ t(n) , então X 2 ∼ F(1,n) .
Exemplo 2.5.21
¡
¢
Considere uma variável aleatória com distribuição t-Student com 60 graus de liberdade X ∼ t(60) .
Determine P (X 2 > 4).
Tendo em conta que X ∼ t(60) , pelo teorema 2.5.22, vem que X 2 ∼ F(1,60) , logo
¡
¢
¡
¢
¡
¢
P X 2 > 4 = P F(1,60) > 4 = 1 − P F(1,60) ≤ 4 = 1 − 0.95 = 0.05.
118
2.6
Desigualdade de Tchebycheff
Em muitos casos pretende-se calcular probabilidades quando a variável aleatória que está a
ser analisada tem distribuição desconhecida. Nestes casos não se pode determinar um valor
exacto para as probabilidades, mas, se o valor esperado e o desvio padrão dessa variável forem
conhecidos, pode-se encontrar um limite inferior (ou um limite superior) para essa probabilidade
através da desigualdade de Tchebycheff (1821-1894), que pode ser enunciada da seguinte forma.
Teorema 2.6.1 (Desigualdade de Tchebycheff)
Seja X uma variável aleatória com valor esperado μ e desvio padrão σ, então, para qualquer
constante positiva k, tem-se:
P (|X − μ| < kσ) ≥ 1 −
1
k2
ou P (|X − μ| ≥ kσ) ≤
1
k2
Nota:
A desigualdade de Tchebycheff pode ser utilizada quer para variáveis aleatórias
discretas quer para variáveis aleatórias contínuas.
Demonstração:
A demonstração da desigualdade de Tchebycheff que vai ser apresentada refere-se
unicamente a variáveis aleatórias contínuas, no entanto, para variáveis aleatórias
discretas a demonstração é semelhante. Assim, pela definição de variância, obtémse
σ
2
£
¤
= E (X − μ)2 =
≥
Z
Z
(X − μ)2 f (x) dx ≥
R
2
(X − μ) f (x) dx ≥
|X−μ|≥kσ
= (kσ)2
Z
Z
(kσ)2 f (x) dx =
|X−μ|≥kσ
f (x) dx = (kσ)2 P (|X − μ| ≥ kσ) ,
|X−μ|≥kσ
logo
σ 2 ≥ (kσ)2 P (|X − μ| ≥ kσ) ⇔
1
σ2
⇔ P (|X − μ| ≥ kσ) ≤ 2 2 = 2 .
σ k
k
119
(54)
Exemplo 2.6.1
Considerando uma variável aleatória X cujo valor esperado é cem (μ = 100) e o desvio padrão
é dez (σ = 10), o que é que se pode concluir sobre as seguintes probabilidades?
1. P (70 < X < 130).
P (70 < X < 130) = P (70 − 100 < X − 100 < 130 − 100) =
= P (−30 < X − 100 < 30) = P (|X − 100| < 30).
Comparando com a desigualdade de Tchebycheff, conclui-se que kσ = 30, então, como
σ = 10, vem que k = 3, logo
P (|X − 100| < 30) ≥ 1 −
8
1
= ,
2
3
9
assim, pela desigualdade de Tchebycheff, conclui-se que o valor mínimo para a probabili8
dade de a variável aleatória X se situar entre setenta e cento e trinta é .
9
2. P (X < 120).
P (X < 120) = P (X − 100 < 20)
tendo em conta que, para utilizar a desigualdade de Tchebycheff, se pretende obter
P (|X − 100| < 20),
devem-se comparar estas duas probabilidades. Como o intervalo ] − ∞, 20[ contém o
intervalo ] − 20, 20[ a probabilidade da variável X pertencer ao primeiro intervalo será
superior ou igual à probabilidade de pertencer ao segundo, ou seja,
P (X − 100 < 20) ≥ P (|X − 100| < 20),
que pela desigualdade de Tchebycheff, tendo em conta que neste caso k = 2, vem
P (|X − 100| < 20) ≥ 1 −
120
1
= 0.75,
22
concluindo-se que a probabilidade de a variável assumir um valor inferior a 120 é de, pelo
menos, 0.75.
3. P (60 < X < 200).
P (60 < X < 200) = P (−40 < X − 100 < 100)
como para utilizar módulos o intervalo tem que ser simétrico, então, vai-se passar do
intervalo ] − 40, 100[ para o intervalo ] − 40, 40[, pois este está contido no anterior. Desta
análise conclui-se que
P (40 < X − 100 < 100) ≥ P (40 < X − 100 < 40) =
= P (|X − 100| < 40) ≥ 1 −
1
15
=
,
42
16
ou seja, a probabilidade de a variável assumir um valor entre sessenta e duzentos é, no
15
mínimo,
.
16
4. P (X > 200).
P (X > 200) = P (X − 100 > 100).
Tendo em conta que o intervalo ]100, +∞[ não contém nenhum intervalo simétrico (todos
os valores deste intervalo são positivos), vai ser utilizado o acontecimento complementar,
obtendo-se
P (X − 100 > 100) = 1 − P (X − 100 ≤ 100).
Assim, para ser possível utilizar a desigualdade de Tchebycheff, do intervalo ] − ∞, 100]
opta-se pelo intervalo simétrico com maior amplitude. Neste caso o intervalo correspondente é ] − 100, 100[ e, tendo em conta que
P (X − 100 ≤ 100) ≥ P (|X − 100| < 100),
conclui-se que
1 − P (X − 100 ≤ 100) ≤ 1 − P (|X − 100| < 100) ≤
¶
µ
1
1
≤ 1− 1− 2 =
= 0.01,
10
100
121
ou seja, a probabilidade de a variável aleatória X assumir um valor superior a duzentos
é, no máximo, 0.01.
5. P (300 < X < 400).
P (300 < X < 400) = P (200 < X − 100 < 300)
como o intervalo ]200, 300[ não contém nenhum intervalo simétrico, passa-se deste intervalo para o seu complementar, obtendo-se
P (200 < X − 100 < 300) = 1 − P (X − 100 ≤ 200 ∨ X − 100 ≥ 300).
Assim, no intervalo ] − ∞, 200] ∪ [300, +∞[ escolhe-se o intervalo simétrico de maior
amplitude, que corresponde a ] − 200, 200[, então,
1 − P (X − 100 ≤ 200 ∨ X − 100 ≥ 300) ≤ 1 − P (|X − 100| < 200) ≤
µ
¶
1
≤ 1− 1− 2 =
20
1
=
= 0.0025.
400
O valor máximo para a probabilidade de a variável aleatória X se situar entre duzentos e
quatrocentos é 0.0025.
Nota:
Nem sempre é possível tirar conclusões através da desigualdade de Tchebycheff,
como ilustra o seguinte exemplo:
Considere as condições apresentadas no exemplo anterior, ou seja μ = 100 e σ = 10.
P (90 < X < 110) = P (−10 < X − 100 < 10) = P (|X − 100| < 10) ≥ 1 −
1
=0
12
Neste caso, através da desigualdade de Tchebycheff, conclui-se que a probabilidade
de a variável assumir valores entre noventa e cento e dez é no mínimo igual a zero;
no entanto, todas as probabilidades satisfazem esta desigualdade, logo, este cálculo
de nada serviu.
122
2.7
Tabelas
Função de distribuição da Poisson - P (λ)
2.7.1
P (X ≤ x) =
λ
x
0
1
2
3
4
5
6
7
λ
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
x
X
e−λ λk
k=0
k!
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.9048
0.9953
0.9998
1.0000
0.8187
0.9825
0.9989
0.9999
1.0000
0.7408
0.9631
0.9964
0.9997
1.0000
0.6703
0.9384
0.9921
0.9992
0.9999
1.0000
0.6065
0.9098
0.9856
0.9982
0.9998
1.0000
0.5488
0.8781
0.9769
0.9966
0.9996
1.0000
0.4966
0.8442
0.9659
0.9942
0.9992
0.9999
1.0000
0.4493
0.8088
0.9526
0.9909
0.9986
0.9998
1.0000
0.4066
0.7725
0.9371
0.9865
0.9977
0.9997
1.0000
0.3679
0.7358
0.9197
0.9810
0.9963
0.9994
0.9999
1.0000
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
0.2231
0.5578
0.8088
0.9344
0.9814
0.9955
0.9991
0.9998
1.0000
0.1353
0.4060
0.6767
0.8571
0.9473
0.9834
0.9955
0.9989
0.9998
1.0000
0.0821
0.2873
0.5438
0.7576
0.8912
0.9580
0.9858
0.9958
0.9989
0.9997
0.9999
1.0000
0.0498
0.1991
0.4232
0.6472
0.8153
0.9161
0.9665
0.9881
0.9962
0.9989
0.9997
0.9999
1.0000
0.0302
0.1359
0.3208
0.5366
0.7254
0.8576
0.9347
0.9733
0.9901
0.9967
0.9990
0.9997
0.9999
1.0000
0.0183
0.0916
0.2381
0.4335
0.6288
0.7851
0.8893
0.9489
0.9786
0.9919
0.9972
0.9991
0.9997
0.9999
1.0000
0.0111
0.0611
0.1736
0.3423
0.5321
0.7029
0.8311
0.9134
0.9597
0.9829
0.9933
0.9976
0.9992
0.9997
0.9999
1.0000
0.0067
0.0404
0.1247
0.2650
0.4405
0.6160
0.7622
0.8666
0.9319
0.9682
0.9863
0.9945
0.9980
0.9993
0.9998
0.9999
1.0000
0.0041
0.0266
0.0884
0.2017
0.3575
0.5289
0.6860
0.8095
0.8944
0.9462
0.9747
0.9890
0.9955
0.9983
0.9994
0.9998
0.9999
1.0000
0.0025
0.0174
0.0620
0.1512
0.2851
0.4457
0.6063
0.7440
0.8472
0.9161
0.9574
0.9799
0.9912
0.9964
0.9986
0.9995
0.9998
0.9999
1.0000
As tabelas apresentam o valor de P (X ≤ x) onde X ∼ P (λ).
123
Função de distribuição da Poisson - P (λ)
λ
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
6.5
7
7.5
8
8.5
9
9.5
10
10.5
11
0.0015
0.0113
0.0430
0.1118
0.2237
0.3690
0.5265
0.6728
0.7916
0.8774
0.9332
0.9661
0.9840
0.9929
0.9970
0.9988
0.9996
0.9998
0.9999
1.0000
0.0009
0.0073
0.0296
0.0818
0.1730
0.3007
0.4497
0.5987
0.7291
0.8305
0.9015
0.9467
0.9730
0.9872
0.9943
0.9976
0.9990
0.9996
0.9999
1.0000
0.0006
0.0047
0.0203
0.0591
0.1321
0.2414
0.3782
0.5246
0.6620
0.7764
0.8622
0.9208
0.9573
0.9784
0.9897
0.9954
0.9980
0.9992
0.9997
0.9999
1.0000
0.0003
0.0030
0.0138
0.0424
0.0996
0.1912
0.3134
0.4530
0.5925
0.7166
0.8159
0.8881
0.9362
0.9658
0.9827
0.9918
0.9963
0.9984
0.9993
0.9997
0.9999
1.0000
0.0002
0.0019
0.0093
0.0301
0.0744
0.1496
0.2562
0.3856
0.5231
0.6530
0.7634
0.8487
0.9091
0.9486
0.9726
0.9862
0.9934
0.9970
0.9987
0.9995
0.9998
0.9999
1.0000
0.0001
0.0012
0.0062
0.0212
0.0550
0.1157
0.2068
0.3239
0.4557
0.5874
0.7060
0.8030
0.8758
0.9261
0.9585
0.9780
0.9889
0.9947
0.9976
0.9989
0.9996
0.9998
0.9999
1.0000
0.0001
0.0008
0.0042
0.0149
0.0403
0.0885
0.1649
0.2687
0.3918
0.5218
0.6453
0.7520
0.8364
0.8981
0.9400
0.9665
0.9823
0.9911
0.9957
0.9980
0.9991
0.9996
0.9999
0.9999
1.0000
0.0000
0.0005
0.0028
0.0103
0.0293
0.0671
0.1301
0.2202
0.3328
0.4579
0.5830
0.6968
0.7916
0.8645
0.9165
0.9513
0.9730
0.9857
0.9928
0.9965
0.9984
0.9993
0.9997
0.9999
1.0000
0.0000
0.0003
0.0018
0.0071
0.0211
0.0504
0.1016
0.1785
0.2794
0.3971
0.5207
0.6387
0.7420
0.8254
0.8879
0.9317
0.9604
0.9781
0.9885
0.9942
0.9972
0.9987
0.9994
0.9998
0.9999
1.0000
0.0000
0.0002
0.0012
0.0049
0.0151
0.0375
0.0786
0.1432
0.2320
0.3405
0.4599
0.5793
0.6887
0.7813
0.8540
0.9074
0.9441
0.9678
0.9823
0.9907
0.9953
0.9977
0.9990
0.9995
0.9998
0.9999
1.0000
As tabelas apresentam o valor de P (X ≤ x) onde X ∼ P (λ).
124
Função de distribuição da Poisson - P (λ)
λ
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
11.5
12
13
14
15
16
17
18
19
20
0.0000
0.0001
0.0008
0.0034
0.0107
0.0277
0.0603
0.1137
0.1906
0.2888
0.4017
0.5198
0.6330
0.7330
0.8153
0.8783
0.9236
0.9543
0.9738
0.9857
0.9925
0.9962
0.9982
0.9992
0.9996
0.9998
0.9999
1.0000
0.0000
0.0001
0.0005
0.0023
0.0076
0.0203
0.0458
0.0895
0.1550
0.2424
0.3472
0.4616
0.5760
0.6815
0.7720
0.8444
0.8987
0.9370
0.9626
0.9787
0.9884
0.9939
0.9970
0.9985
0.9993
0.9997
0.9999
0.9999
1.0000
0.0000
0.0000
0.0002
0.0011
0.0037
0.0107
0.0259
0.0540
0.0998
0.1658
0.2517
0.3532
0.4631
0.5730
0.6751
0.7636
0.8355
0.8905
0.9302
0.9573
0.9750
0.9859
0.9924
0.9960
0.9980
0.9990
0.9995
0.9998
0.9999
1.0000
1.0000
0.0000
0.0000
0.0001
0.0005
0.0018
0.0055
0.0142
0.0316
0.0621
0.1094
0.1757
0.2600
0.3585
0.4644
0.5704
0.6694
0.7559
0.8272
0.8826
0.9235
0.9521
0.9712
0.9833
0.9907
0.9950
0.9974
0.9987
0.9994
0.9997
0.9999
0.9999
1.0000
0.0000
0.0000
0.0000
0.0002
0.0009
0.0028
0.0076
0.0180
0.0374
0.0699
0.1185
0.1848
0.2676
0.3632
0.4657
0.5681
0.6641
0.7489
0.8195
0.8752
0.9170
0.9469
0.9673
0.9805
0.9888
0.9938
0.9967
0.9983
0.9991
0.9996
0.9998
0.9999
1.0000
0.0000
0.0000
0.0000
0.0001
0.0004
0.0014
0.0040
0.0100
0.0220
0.0433
0.0774
0.1270
0.1931
0.2745
0.3675
0.4667
0.5660
0.6593
0.7423
0.8122
0.8682
0.9108
0.9418
0.9633
0.9777
0.9869
0.9925
0.9959
0.9978
0.9989
0.9994
0.9997
0.9999
0.9999
1.0000
0.0000
0.0000
0.0000
0.0000
0.0002
0.0007
0.0021
0.0054
0.0126
0.0261
0.0491
0.0847
0.1350
0.2009
0.2808
0.3715
0.4677
0.5640
0.6550
0.7363
0.8055
0.8615
0.9047
0.9367
0.9594
0.9748
0.9848
0.9912
0.9950
0.9973
0.9986
0.9993
0.9996
0.9998
0.9999
1.0000
0.0000
0.0000
0.0000
0.0000
0.0001
0.0003
0.0010
0.0029
0.0071
0.0154
0.0304
0.0549
0.0917
0.1426
0.2081
0.2867
0.3751
0.4686
0.5622
0.6509
0.7307
0.7991
0.8551
0.8989
0.9317
0.9554
0.9718
0.9827
0.9897
0.9941
0.9967
0.9982
0.9990
0.9995
0.9998
0.9999
0.9999
1.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0002
0.0005
0.0015
0.0039
0.0089
0.0183
0.0347
0.0606
0.0984
0.1496
0.2148
0.2920
0.3784
0.4695
0.5606
0.6472
0.7255
0.7931
0.8490
0.8933
0.9269
0.9514
0.9687
0.9805
0.9882
0.9930
0.9960
0.9978
0.9988
0.9994
0.9997
0.9998
0.9999
1.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0001
0.0003
0.0008
0.0021
0.0050
0.0108
0.0214
0.0390
0.0661
0.1049
0.1565
0.2211
0.2970
0.3814
0.4703
0.5591
0.6437
0.7206
0.7875
0.8432
0.8878
0.9221
0.9475
0.9657
0.9782
0.9865
0.9919
0.9953
0.9973
0.9985
0.9992
0.9996
0.9998
0.9999
1.0000
A tabela apresenta o valor de P (X ≤ x) onde X ∼ P (λ).
125
2.7.2
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
Função de distribuição da Normal Standard - Z
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
0.9999
1.0000
z
F(z)
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
0.9999
1.0000
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
0.9999
0.9999
1.0000
1.282 1.645 1.96 2.326 2.576 3.09 3.291
3.891
4.417
0.90 0.95 0.975 0.99 0.995 0.999 0.9995 0.99995 0.999995
A tabela apresenta o valor de P (Z ≤ z) onde Z ∼ N (0, 1).
126
2.7.3
α
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
60
70
80
90
100
120
150
Valores percentuais da t-Student com n graus de liberdade - t
(n)
0.6
0.7
0.75
0.8
0.85
0.9
0.95
0.975
0.99
0.995
0.999
0.9995
0.3249
0.2887
0.2767
0.2707
0.2672
0.2648
0.2632
0.2619
0.2610
0.2602
0.2596
0.2590
0.2586
0.2582
0.2579
0.2576
0.2573
0.2571
0.2569
0.2567
0.2566
0.2564
0.2563
0.2562
0.2561
0.2560
0.2559
0.2558
0.2557
0.2556
0.2555
0.2555
0.2554
0.2553
0.2553
0.2552
0.2552
0.2551
0.2551
0.2550
0.2549
0.2547
0.2545
0.2543
0.2542
0.2541
0.2540
0.2539
0.2538
0.7265
0.6172
0.5844
0.5686
0.5594
0.5534
0.5491
0.5459
0.5435
0.5415
0.5399
0.5386
0.5375
0.5366
0.5357
0.5350
0.5344
0.5338
0.5333
0.5329
0.5325
0.5321
0.5317
0.5314
0.5312
0.5309
0.5306
0.5304
0.5302
0.5300
0.5298
0.5297
0.5295
0.5294
0.5292
0.5291
0.5289
0.5288
0.5287
0.5286
0.5281
0.5278
0.5272
0.5268
0.5265
0.5263
0.5261
0.5258
0.5255
1.0000
0.8165
0.7649
0.7407
0.7267
0.7176
0.7111
0.7064
0.7027
0.6998
0.6974
0.6955
0.6938
0.6924
0.6912
0.6901
0.6892
0.6884
0.6876
0.6870
0.6864
0.6858
0.6853
0.6848
0.6844
0.6840
0.6837
0.6834
0.6830
0.6828
0.6825
0.6822
0.6820
0.6818
0.6816
0.6814
0.6812
0.6810
0.6808
0.6807
0.6800
0.6794
0.6786
0.6780
0.6776
0.6772
0.6770
0.6765
0.6761
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
0.8834
0.8791
0.8755
0.8726
0.8702
0.8681
0.8662
0.8647
0.8633
0.8620
0.8610
0.8600
0.8591
0.8583
0.8575
0.8569
0.8562
0.8557
0.8551
0.8546
0.8542
0.8538
0.8534
0.8530
0.8526
0.8523
0.8520
0.8517
0.8514
0.8512
0.8509
0.8507
0.8497
0.8489
0.8477
0.8468
0.8461
0.8456
0.8452
0.8446
0.8440
1.9626
1.3862
1.2498
1.1896
1.1558
1.1342
1.1192
1.1081
1.0997
1.0931
1.0877
1.0832
1.0795
1.0763
1.0735
1.0711
1.0690
1.0672
1.0655
1.0640
1.0627
1.0614
1.0603
1.0593
1.0584
1.0575
1.0567
1.0560
1.0553
1.0547
1.0541
1.0535
1.0530
1.0525
1.0520
1.0516
1.0512
1.0508
1.0504
1.0500
1.0485
1.0473
1.0455
1.0442
1.0432
1.0424
1.0418
1.0409
1.0400
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
1.3830
1.3722
1.3634
1.3562
1.3502
1.3450
1.3406
1.3368
1.3334
1.3304
1.3277
1.3253
1.3232
1.3212
1.3195
1.3178
1.3163
1.3150
1.3137
1.3125
1.3114
1.3104
1.3095
1.3086
1.3077
1.3070
1.3062
1.3055
1.3049
1.3042
1.3036
1.3031
1.3006
1.2987
1.2958
1.2938
1.2922
1.2910
1.2901
1.2886
1.2872
6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6955
1.6939
1.6924
1.6909
1.6896
1.6883
1.6871
1.6860
1.6849
1.6839
1.6794
1.6759
1.6706
1.6669
1.6641
1.6620
1.6602
1.6577
1.6551
12.706
4.3027
3.1824
2.7764
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1314
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0395
2.0369
2.0345
2.0322
2.0301
2.0281
2.0262
2.0244
2.0227
2.0211
2.0141
2.0086
2.0003
1.9944
1.9901
1.9867
1.9840
1.9799
1.9759
31.821
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5176
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
2.4528
2.4487
2.4448
2.4411
2.4377
2.4345
2.4314
2.4286
2.4258
2.4233
2.4121
2.4033
2.3901
2.3808
2.3739
2.3685
2.3642
2.3578
2.3515
63.657
9.9248
5.8409
4.6041
4.0321
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
2.7440
2.7385
2.7333
2.7284
2.7238
2.7195
2.7154
2.7116
2.7079
2.7045
2.6896
2.6778
2.6603
2.6479
2.6387
2.6316
2.6259
2.6174
2.6090
318.31
22.327
10.215
7.1732
5.8934
5.2076
4.7853
4.5008
4.2968
4.1437
4.0247
3.9296
3.8520
3.7874
3.7328
3.6862
3.6458
3.6105
3.5794
3.5518
3.5272
3.5050
3.4850
3.4668
3.4502
3.4350
3.4210
3.4082
3.3962
3.3852
3.3749
3.3653
3.3563
3.3479
3.3400
3.3326
3.3256
3.3190
3.3128
3.3069
3.2815
3.2614
3.2317
3.2108
3.1953
3.1833
3.1737
3.1595
3.1455
636.62
31.599
12.924
8.6103
6.8688
5.9588
5.4079
5.0413
4.7809
4.5869
4.4370
4.3178
4.2208
4.1405
4.0728
4.0150
3.9651
3.9216
3.8834
3.8495
3.8193
3.7921
3.7676
3.7454
3.7251
3.7066
3.6896
3.6739
3.6594
3.6460
3.6335
3.6218
3.6109
3.6007
3.5911
3.5821
3.5737
3.5657
3.5581
3.5510
3.5203
3.4960
3.4602
3.4350
3.4163
3.4019
3.3905
3.3735
3.3566
¡
¢
A tabela apresenta os pontos x tais que P t(n) ≤ x = α.
127
Valores percentuais da Qui—quadrado com n graus de liberdade - χ2(n)
2.7.4
α
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
60
70
80
90
100
120
150
0.005
0.01
0.025
0.05
0.10
0.15
0.20
0.25
0.30
0.40
0.0000
0.0100
0.0717
0.2070
0.4117
0.6757
0.9893
1.3444
1.7349
2.1559
2.6032
3.0738
3.5650
4.0747
4.6009
5.1422
5.6972
6.2648
6.8440
7.4338
8.0337
8.6427
9.2604
9.8620
10.520
11.160
11.808
12.461
13.121
13.787
14.458
15.134
15.815
16.501
17.192
17.887
18.586
19.289
19.996
20.707
24.311
27.991
35.534
43.275
51.172
59.196
67.328
83.852
109.14
0.0002
0.0201
0.1148
0.2971
0.5543
0.8721
1.2390
1.6465
2.0879
2.5582
3.0535
3.5706
4.1069
4.6604
5.2293
5.8122
6.4078
7.0149
7.6327
8.2604
8.8972
9.5425
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
15.655
16.362
17.074
17.789
18.509
19.233
19.960
20.691
21.426
22.164
25.901
29.707
37.485
45.442
53.540
61.754
70.065
86.923
112.67
0.0010
0.0506
0.2158
0.4844
0.8312
1.2373
1.6899
2.1797
2.7004
3.2470
3.8157
4.4038
5.0088
5.6287
6.2621
6.9077
7.5642
8.2307
8.9065
9.5908
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
17.539
18.291
19.047
19.806
20.569
21.336
22.106
22.878
23.654
24.433
28.366
32.357
40.482
48.758
57.153
65.647
74.222
91.573
117.98
0.0039
0.1026
0.3519
0.7107
1.1455
1.6354
2.1673
2.7326
3.3251
3.9403
4.5748
5.2260
5.8919
6.5706
7.2609
7.9616
8.6718
9.3905
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
19.281
20.072
20.867
21.664
22.465
23.269
24.075
24.884
25.695
26.509
30.612
34.764
43.188
51.739
60.391
69.126
77.929
95.705
122.69
0.0158
0.2107
0.5844
1.0636
1.6103
2.2041
2.8331
3.4895
4.1682
4.8652
5.5778
6.3038
7.0415
7.7895
8.5468
9.3122
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
21.434
22.271
23.110
23.952
24.797
25.643
26.492
27.343
28.196
29.051
33.350
37.689
46.459
55.329
64.278
73.291
82.358
100.62
128.28
0.0358
0.3250
0.7978
1.3665
1.9938
2.6613
3.3583
4.0782
4.8165
5.5701
6.3364
7.1138
7.9008
8.6963
9.4993
10.309
11.125
11.946
12.773
13.604
14.439
15.279
16.122
16.969
17.818
18.671
19.527
20.386
21.247
22.110
22.976
23.844
24.714
25.586
26.460
27.336
28.214
29.093
29.974
30.856
35.290
39.754
48.759
57.844
66.994
76.195
85.441
104.04
132.14
0.0642
0.4463
1.0052
1.6488
2.3425
3.0701
3.8223
4.5936
5.3801
6.1791
6.9887
7.8073
8.6339
9.4673
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.940
19.820
20.703
21.588
22.475
23.364
24.255
25.148
26.042
26.938
27.836
28.735
29.635
30.537
31.441
32.345
36.884
41.449
50.641
59.898
69.207
78.558
87.945
106.81
135.26
0.1015
0.5754
1.2125
1.9226
2.6746
3.4546
4.2549
5.0706
5.8988
6.7372
7.5841
8.4384
9.2991
10.165
11.037
11.912
12.792
13.675
14.562
15.452
16.344
17.240
18.137
19.037
19.939
20.843
21.749
22.657
23.567
24.478
25.390
26.304
27.219
28.136
29.054
29.973
30.893
31.815
32.737
33.660
38.291
42.942
52.294
61.698
71.145
80.625
90.133
109.22
137.98
0.1485
0.7134
1.4237
2.1947
2.9999
3.8276
4.6713
5.5274
6.3933
7.2672
8.1479
9.0343
9.9257
10.821
11.721
12.624
13.531
14.440
15.352
16.266
17.182
18.101
19.021
19.943
20.867
21.792
22.719
23.647
24.577
25.508
26.440
27.373
28.307
29.242
30.178
31.115
32.053
32.992
33.932
34.872
39.585
44.313
53.809
63.346
72.915
82.511
92.129
111.42
140.46
0.2750
1.0217
1.8692
2.7528
3.6555
4.5702
5.4932
6.4226
7.3570
8.2955
9.2373
10.182
11.129
12.078
13.030
13.983
14.937
15.893
16.850
17.809
18.768
19.729
20.690
21.652
22.616
23.579
24.544
25.509
26.475
27.442
28.409
29.376
30.344
31.313
32.282
33.252
34.222
35.192
36.163
37.134
41.995
46.864
56.620
66.396
76.188
85.993
95.808
115.46
145.00
³
´
2
A tabela apresenta os pontos x tais que P χ(n) ≤ x = α.
128
Valores percentuais da Qui—quadrado com n graus de liberdade - χ2(n)
α
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
60
70
80
90
100
120
150
0.50
0.60
0.70
0.75
0.80
0.85
0.90
0.95
0.975
0.99
0.995
0.4549
1.3863
2.3660
3.3567
4.3515
5.3481
6.3458
7.3441
8.3428
9.3418
10.341
11.340
12.340
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
30.336
31.336
32.336
33.336
34.336
35.336
36.336
37.335
38.335
39.335
44.335
49.335
59.335
69.334
79.334
89.334
99.334
119.33
149.33
0.7083
1.8326
2.9462
4.0446
5.1319
6.2108
7.2832
8.3505
9.4136
10.473
11.530
12.584
13.636
14.685
15.733
16.780
17.824
18.868
19.910
20.951
21.991
23.031
24.069
25.106
26.143
27.179
28.214
29.249
30.283
31.316
32.349
33.381
34.413
35.444
36.475
37.505
38.535
39.564
40.593
41.622
46.761
51.892
62.135
72.358
82.566
92.761
102.95
123.29
153.75
1.0742
2.4079
3.6649
4.8784
6.0644
7.2311
8.3834
9.5245
10.656
11.781
12.899
14.011
15.119
16.222
17.322
18.418
19.511
20.601
21.689
22.775
23.858
24.939
26.018
27.096
28.172
29.246
30.319
31.391
32.461
33.530
34.598
35.665
36.731
37.795
38.859
39.922
40.984
42.045
43.105
44.165
49.452
54.723
65.227
75.689
86.120
96.524
106.91
127.62
158.58
1.3233
2.7726
4.1083
5.3853
6.6257
7.8408
9.0371
10.219
11.389
12.549
13.701
14.845
15.984
17.117
18.245
19.369
20.489
21.605
22.718
23.828
24.935
26.039
27.141
28.241
29.339
30.435
31.528
32.620
33.711
34.800
35.887
36.973
38.058
39.141
40.223
41.304
42.383
43.462
44.539
45.616
50.985
56.334
66.981
77.577
88.130
98.650
109.14
130.05
161.29
1.6424
3.2189
4.6416
5.9886
7.2893
8.5581
9.8032
11.030
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.760
23.900
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.250
37.359
38.466
39.572
40.676
41.778
42.879
43.978
45.076
46.173
47.269
52.729
58.164
68.972
79.715
90.405
101.05
111.67
132.81
164.35
2.0723
3.7942
5.3170
6.7449
8.1152
9.4461
10.748
12.027
13.288
14.534
15.767
16.989
18.202
19.406
20.603
21.793
22.977
24.155
25.329
26.498
27.662
28.822
29.979
31.132
32.282
33.429
34.574
35.715
36.854
37.990
39.124
40.256
41.386
42.514
43.640
44.764
45.886
47.007
48.126
49.244
54.810
60.346
71.341
82.255
93.106
103.90
114.66
136.06
167.96
2.7055
4.6052
6.2514
7.7794
9.2364
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
41.422
42.585
43.745
44.903
46.059
47.212
48.363
49.513
50.660
51.805
57.505
63.167
74.397
85.527
96.578
107.57
118.50
140.23
172.58
3.8415
5.9915
7.8147
9.4877
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
44.985
46.194
47.400
48.602
49.802
50.998
52.192
53.384
54.572
55.758
61.656
67.505
79.082
90.531
101.88
113.15
124.34
146.57
179.58
5.0239
7.3778
9.3484
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
48.232
49.480
50.725
51.966
53.203
54.437
55.668
56.896
58.120
59.342
65.410
71.420
83.298
95.023
106.63
118.14
129.56
152.21
185.80
6.6349
9.2103
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
52.191
53.486
54.776
56.061
57.342
58.619
59.893
61.162
62.428
63.691
69.957
76.154
88.379
100.43
112.33
124.12
135.81
158.95
193.21
7.8794
10.597
12.838
14.860
16.750
18.548
20.278
21.955
23.589
25.188
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
41.401
42.796
44.181
45.559
46.928
48.290
49.645
50.993
52.336
53.672
55.003
56.328
57.648
58.964
60.275
61.581
62.883
64.181
65.476
66.766
73.166
79.490
91.952
104.21
116.32
128.30
140.17
163.65
198.36
³
´
A tabela apresenta os pontos x tais que P χ2(n) ≤ x = α.
129
2.7.5
Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n)
Valores percentuais da distribuição F-Snedcor - α = 0.90
m
1
2
3
4
5
6
7
8
9
10
15
20
30
40
60
120
1000
1
39.9
49.5
53.6
55.8
57.2
58.2
58.9
59.4
59.9
60.2
61.2
61.7
62.3
62.5
62.8
63.1
63.3
2
8.53
9.00
9.16
9.24
9.29
9.33
9.35
9.37
9.38
9.39
9.42
9.44
9.46
9.47
9.47
9.48
9.49
3
5.54
5.46
5.39
5.34
5.31
5.28
5.27
5.25
5.24
5.23
5.20
5.18
5.17
5.16
5.15
5.14
5.13
4
4.54
4.32
4.19
4.11
4.05
4.01
3.98
3.95
3.94
3.92
3.87
3.84
3.82
3.80
3.79
3.78
3.76
5
4.06
3.78
3.62
3.52
3.45
3.40
3.37
3.34
3.32
3.30
3.24
3.21
3.17
3.16
3.14
3.12
3.11
6
3.78
3.46
3.29
3.18
3.11
3.05
3.01
2.98
2.96
2.94
2.87
2.87
2.80
2.78
2.76
2.74
2.72
7
3.59
3.26
3.07
2.96
2.88
2.83
2.78
2.75
2.72
2.70
2.63
2.59
2.56
2.54
2.51
2.49
2.47
8
3.46
3.11
2.92
2.81
2.73
2.67
2.62
2.59
2.56
2.54
2.46
2.42
2.38
2.36
2.34
2.32
2.30
n
9
3.36
3.01
2.81
2.69
2.61
2.55
2.51
2.47
2.44
2.42
2.34
2.30
2.25
2.23
2.21
2.18
2.16
10
3.29
2.92
2.73
2.61
2.52
2.46
2.41
2.38
2.35
2.32
2.24
2.20
2.16
2.13
2.11
2.08
2.06
11
3.23
2.86
2.66
2.54
2.45
2.39
2.34
2.30
2.27
2.25
2.17
2.12
2.08
2.05
2.03
2.00
1.98
12
3.18
2.81
2.61
2.48
2.39
2.33
2.28
2.24
2.21
2.19
2.10
2.06
2.01
1.99
1.96
1.93
1.91
13
3.14
2.76
2.56
2.43
2.35
2.28
2.23
2.20
2.16
2.14
2.05
2.01
1.96
1.93
1.90
1.88
1.85
14
3.10
2.73
2.52
2.39
2.31
2.24
2.19
2.15
2.12
3.92
2.01
1.96
1.91
1.89
1.86
1.83
1.80
15
3.07
2.70
2.49
2.36
2.27
2.21
2.16
2.12
2.09
2.06
1.97
1.92
1.87
1.85
1.82
1.79
1.76
16
3.05
2.67
2.46
2.33
2.24
2.18
2.13
2.08
2.06
2.03
1.94
1.89
1.84
1.81
1.78
1.75
1.72
17
3.03
2.64
2.44
2.31
2.22
2.15
2.10
2.06
2.03
2.00
1.91
1.86
1.81
1.78
1.75
1.72
1.69
18
3.01
2.62
2.42
2.29
2.20
2.13
2.08
2.04
2.00
1.98
1.89
1.84
1.78
1.75
1.72
1.69
1.66
19
2.99
2.61
2.40
2.27
2.18
2.11
2.06
2.02
1.98
1.96
1.86
1.81
1.76
1.73
1.70
1.67
1.64
20
2.97
2.59
2.38
2.25
2.16
2.09
2.04
2.00
1.96
1.94
1.84
1.79
1.74
1.71
1.68
1.64
1.61
21
2.96
2.57
2.36
2.23
2.14
2.08
2.02
1.98
1.95
1.92
1.83
1.78
1.72
1.69
1.66
1.62
1.59
22
2.95
2.56
2.35
2.22
2.13
2.06
2.01
1.97
1.93
1.90
1.81
1.76
1.70
1.67
1.64
1.60
1.57
23
2.94
2.55
2.34
2.21
2.11
2.05
1.99
1.95
1.92
1.89
1.80
1.74
1.69
1.66
1.62
1.59
1.55
24
2.93
2.54
2.33
2.19
2.10
2.04
1.98
1.94
1.91
1.88
1.78
1.73
1.67
1.64
1.61
1.57
1.54
25
2.92
2.53
2.32
2.18
2.09
2.02
1.97
1.93
1.89
1.87
1.77
1.72
1.66
1.63
1.59
1.56
1.52
26
2.91
2.52
2.31
2.17
2.08
2.01
1.96
1.92
1.88
1.86
1.76
1.71
1.65
1.61
1.58
1.54
1.51
27
2.90
2.51
2.30
2.16
2.07
2.00
1.95
1.91
1.87
1.85
1.75
1.70
1.64
1.60
1.57
1.53
1.50
28
2.89
2.50
2.29
2.16
2.06
2.00
1.94
1.90
1.87
1.84
1.74
1.69
1.63
1.59
1.56
1.52
1.48
29
2.89
2.50
2.28
2.15
2.06
1.99
1.93
1.89
1.86
1.83
1.73
1.68
1.62
1.58
1.55
1.51
1.47
30
2.88
2.49
2.28
2.14
2.05
1.98
1.93
1.88
1.85
1.82
1.72
1.67
1.61
1.58
1.54
1.50
1.46
40
2.84
2.44
2.23
2.09
2.00
1.93
1.87
1.83
1.79
1.76
1.66
1.61
1.54
1.51
1.47
1.42
1.38
60
2.79
2.39
2.18
2.04
1.95
1.87
1.82
1.77
1.74
1.71
1.60
1.54
1.48
1.44
1.40
1.35
1.30
120
2.75
2.35
2.13
1.99
1.90
1.82
1.77
1.72
1.68
1.65
1.55
1.48
1.41
1.37
1.32
1.26
1.20
1000
2.71
2.31
2.09
1.95
1.85
1.78
1.72
1.68
1.64
1.61
1.49
1.43
1.35
1.30
1.25
1.18
1.08
¡
¢
A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.90.
130
Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n)
Valores percentuais da distribuição F-Snedcor - α = 0.95
m
1
2
3
4
5
6
7
8
9
10
15
20
30
40
60
120
1000
1
161
200
216
225
230
234
237
239
241
242
246
248
250
251
252
253
254
2
18.5
19.0
19.2
19.2
19.3
19.3
19.4
19.4
19.4
19.4
19.4
19.4
19.5
19.5
19.5
19.5
19.5
3
10.1
9.55
9.28
9.12
9.01
8.94
8.89
8.85
8.81
8.79
8.70
8.66
8.62
8.59
8.57
8.55
8.53
4
7.71
6.94
6.59
6.39
6.26
6.16
6.09
6.04
6.00
5.96
5.86
5.80
5.75
5.72
5.69
5.66
5.63
5
6.61
5.79
5.41
5.19
5.05
4.95
4.88
4.82
4.77
4.74
4.62
4.56
4.50
4.46
4.43
4.40
4.37
6
5.99
5.14
4.76
4.53
4.39
4.28
4.21
4.15
4.10
4.06
3.94
3.87
3.81
3.77
3.74
3.70
3.67
7
5.59
4.74
4.35
4.12
3.97
3.87
3.79
3.73
3.68
3.64
3.51
3.44
3.38
3.34
3.30
3.27
3.23
8
5.32
4.46
4.07
3.84
3.69
3.58
3.50
3.44
3.39
3.35
3.22
3.15
3.08
3.04
3.01
2.97
2.93
n
9
5.12
4.26
3.86
3.63
3.48
3.37
3.29
3.23
3.18
3.14
3.01
2.94
2.86
2.83
2.79
2.75
2.71
10
4.96
4.10
3.71
3.48
3.33
3.22
3.14
3.07
3.02
2.98
2.85
2.77
2.70
2.66
2.62
2.58
2.54
11
4.84
3.98
3.59
3.36
3.20
3.09
3.01
2.95
2.90
2.85
2.72
2.65
2.57
2.53
2.49
2.45
2.41
12
4.75
3.89
3.49
3.26
3.11
3.00
2.91
2.85
2.80
2.75
2.62
2.54
2.47
2.43
2.38
2.34
2.30
13
4.67
3.81
3.41
3.18
3.03
2.92
2.83
2.77
2.71
2.67
2.53
2.46
2.38
2.34
2.30
2.25
2.21
14
4.60
3.74
3.34
3.11
2.96
2.85
2.76
2.70
2.65
2.60
2.46
2.39
2.31
2.27
2.22
2.18
2.14
15
4.54
3.68
3.29
3.06
2.90
2.79
2.71
2.64
2.59
2.54
2.40
2.33
2.25
2.20
2.16
2.11
2.07
16
4.49
3.63
3.24
3.01
2.85
2.74
2.66
2.59
2.54
2.49
2.35
2.28
2.19
2.15
2.11
2.06
2.01
17
4.45
3.59
3.20
2.96
2.81
2.70
2.61
2.55
2.49
2.45
2.31
2.23
2.15
2.10
2.06
2.01
1.97
18
4.41
3.55
3.16
2.93
2.77
2.66
2.58
2.51
2.46
2.41
2.27
2.19
2.11
2.06
2.02
1.97
1.92
19
4.38
3.52
3.13
2.90
2.74
2.63
2.54
2.48
2.42
2.38
2.23
2.16
2.07
2.03
1.98
1.93
1.88
20
4.35
3.49
3.10
2.87
2.71
2.60
2.51
2.45
2.39
2.35
2.20
2.12
2.04
1.99
1.95
1.90
1.85
21
4.32
3.47
3.07
2.84
2.68
2.57
2.49
2.42
2.37
2.32
2.18
2.10
2.01
1.96
1.92
1.87
1.82
22
4.30
3.44
3.05
2.82
2.66
2.55
2.46
2.40
2.34
2.30
2.15
2.07
1.98
1.94
1.89
1.84
1.79
23
4.28
3.42
3.03
2.80
2.64
2.53
2.44
2.37
2.32
2.27
2.13
2.05
1.96
1.91
1.86
1.81
1.76
24
4.26
3.40
3.01
2.78
2.62
2.51
2.42
2.36
2.30
2.25
2.11
2.03
1.94
1.89
1.84
1.79
1.74
25
4.24
3.39
2.99
2.76
2.60
2.49
2.40
2.34
2.28
2.24
2.09
2.01
1.92
1.87
1.82
1.77
1.72
26
4.23
3.37
2.98
2.74
2.59
2.47
2.39
2.32
2.27
2.22
2.07
1.99
1.90
1.85
1.80
1.75
1.70
27
4.21
3.35
2.96
2.73
2.57
2.46
2.37
2.31
2.25
2.20
2.06
1.97
1.88
1.84
1.79
1.73
1.68
28
4.20
3.34
2.95
2.71
2.56
2.45
2.36
2.29
2.24
2.19
2.04
1.96
1.87
1.82
1.77
1.71
1.66
29
4.18
3.33
2.93
2.70
2.55
2.43
2.35
2.28
2.22
2.18
2.03
1.94
1.85
1.81
1.75
1.70
1.65
30
4.17
3.32
2.92
2.69
2.53
2.42
2.33
2.27
2.21
2.16
2.01
1.93
1.84
1.79
1.74
1.68
1.63
40
4.08
3.23
2.84
2.601
2.45
2.34
2.25
2.18
2.12
2.08
1.92
1.84
1.74
1.69
1.64
1.58
1.52
60
4.00
3.15
2.76
2.53
2.37
2.25
2.17
2.10
2.04
1.99
1.84
1.75
1.65
1.59
1.53
1.47
1.40
120
3.92
3.07
2.68
2.45
2.29
2.18
2.09
2.02
1.96
1.91
1.75
1.66
1.55
1.50
1.43
1.35
1.27
1000
3.85
3.00
2.61
2.38
2.22
2.11
2.02
1.95
1.89
1.84
1.68
1.58
1.47
1.41
1.33
1.24
1.11
¡
¢
A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.95.
131
Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n)
Valores percentuais da distribuição F-Snedcor - α = 0.975
m
1
2
3
4
5
6
7
8
9
10
15
20
30
40
60
120
1000
n
1
648
800
864
900
922
937
948
957
963
969
985
993
1001
1006
1010
1014
1018
2
38.5
39.0
39.2
39.2
39.3
39.3
39.4
39.4
39.4
39.4
39.4
39.4
39.5
39.5
39.5
39.5
39.5
3
17.4
16.0
15.4
15.1
14.9
14.7
14.6
14.5
14.5
14.4
14.3
14.2
14.1
14.0
14.0
13.9
13.9
4
12.2
10.6
9.98
9.60
9.36
9.20
9.07
8.98
8.90
8.84
8.66
8.56
8.46
8.41
8.36
8.31
8.26
5
10.0
8.43
7.76
7.39
7.15
6.98
6.85
6.76
6.68
6.62
6.43
6.33
6.23
6.18
6.12
6.07
6.02
6
8.81
7.26
6.60
6.23
5.99
5.82
5.70
5.60
5.52
5.46
5.27
5.17
5.07
5.01
4.96
4.90
4.86
7
8.07
6.54
5.89
5.52
5.29
5.12
4.99
4.90
4.82
4.76
4.57
4.47
4.36
4.31
4.25
4.20
4.15
8
7.57
6.06
5.42
5.05
4.82
4.65
4.53
4.43
4.36
4.30
4.10
4.00
3.89
3.84
3.78
3.73
3.68
9
7.21
5.71
5.08
4.72
4.48
4.32
4.20
4.10
4.03
3.96
3.77
3.67
3.56
3.51
3.45
3.39
3.34
10
6.94
5.46
4.83
4.47
4.24
4.07
3.95
3.85
3.78
3.72
3.52
3.42
3.31
3.26
3.20
3.14
3.09
11
6.72
5.26
4.63
4.28
4.04
3.88
3.76
3.66
3.59
3.53
3.33
3.23
3.12
3.06
3.00
2.94
2.89
12
6.55
5.10
4.47
4.12
3.89
3.73
3.61
3.51
3.44
3.37
3.18
3.07
2.96
2.91
2.85
2.79
2.73
13
6.41
4.97
4.35
4.00
3.77
3.60
3.48
3.39
3.31
3.25
3.05
2.95
2.84
2.78
2.72
2.66
2.60
14
6.30
4.86
4.24
3.89
3.66
3.50
3.38
3.29
3.21
3.15
2.95
2.84
2.73
2.67
2.61
2.55
2.50
15
6.20
4.77
4.15
3.80
3.58
3.41
3.29
3.20
3.12
3.06
2.86
2.76
2.64
2.59
2.52
2.46
2.40
16
6.12
4.69
4.08
3.73
3.50
3.34
3.22
3.12
3.05
2.99
2.79
2.68
2.57
2.51
2.45
2.38
2.32
17
6.04
4.62
4.01
3.66
3.44
3.28
3.16
3.06
2.98
2.92
2.72
2.62
2.50
2.44
2.38
2.32
2.26
18
5.98
4.56
3.95
3.61
3.38
3.22
3.10
3.01
2.93
2.87
2.67
2.56
2.44
2.38
2.32
2.26
2.20
19
5.92
4.51
3.90
3.56
3.33
3.17
3.05
2.96
2.88
2.82
2.62
2.51
2.39
2.33
2.27
2.20
2.14
20
5.87
4.46
3.86
3.51
3.29
3.13
3.01
2.91
2.84
2.77
2.57
2.46
2.35
2.29
2.22
2.16
2.09
21
5.83
4.42
3.82
3.48
3.25
3.09
2.97
2.87
2.80
2.73
2.53
2.42
2.31
2.25
2.18
2.11
2.05
22
5.79
4.38
3.78
3.44
3.22
3.05
2.93
2.84
2.76
2.70
2.50
2.39
2.27
2.21
2.14
2.08
2.01
23
5.75
4.35
3.75
3.41
3.18
3.02
2.90
2.81
2.73
2.67
2.47
2.36
2.24
2.18
2.11
2.04
1.98
24
5.72
4.32
3.72
3.38
3.15
2.99
2.87
2.78
2.70
2.64
2.44
2.33
2.21
2.15
2.08
2.01
1.94
25
5.69
4.29
3.69
3.35
3.13
2.97
2.85
2.75
2.68
2.61
2.41
2.30
2.18
2.12
2.05
1.98
1.91
26
5.66
4.27
3.67
3.33
3.10
2.94
2.82
2.73
2.65
2.59
2.39
2.28
2.16
2.09
2.03
1.95
1.86
27
5.63
4.24
3.65
3.31
3.08
2.92
2.80
2.71
2.63
2.57
2.36
2.25
2.13
2.07
2.00
1.93
1.86
28
5.61
4.22
3.63
3.29
3.06
2.90
2.78
2.69
2.61
2.55
2.34
2.23
2.11
2.05
1.98
1.91
1.84
29
5.59
4.20
3.61
3.27
3.04
2.88
2.76
2.67
2.59
2.53
2.32
2.21
2.09
2.03
1.96
1.89
1.82
30
5.57
4.18
3.59
3.25
3.03
2.87
2.75
2.65
2.57
2.51
2.31
2.20
2.07
2.01
1.94
1.87
1.80
40
5.42
4.05
3.46
3.13
2.90
2.74
2.62
2.53
2.45
2.39
2.18
2.07
1.94
1.88
1.80
1.72
1.65
60
5.29
3.93
3.34
3.01
2.79
2.63
2.51
2.41
2.33
2.27
2.06
1.94
1.82
1.74
1.67
1.58
1.50
120
5.15
3.80
3.23
2.89
2.67
2.52
2.39
2.30
2.22
2.16
1.95
1.82
1.69
1.61
1.53
1.43
1.33
1000
5.04
3.70
3.13
2.80
2.58
2.42
2.30
2.20
2.13
2.03
1.85
1.72
1.58
1.50
1.41
1.29
1.13
¡
¢
A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.975.
132
Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n)
Valores percentuais da distribuição F-Snedcor - α = 0.99
m
1
2
3
4
5
6
7
8
9
10
15
20
30
40
60
120
1000
1
4052
5000
5403
5625
5764
5859
5928
5981
6023
6056
6157
6209
6261
6287
6313
6339
6363
2
98.5
99.0
99.2
99.2
99.3
99.3
99.4
99.4
99.4
99.4
99.4
99.4
99.5
99.5
99.5
99.5
99.5
3
34.1
30.8
29.5
28.7
28.2
27.9
27.7
27.5
27.3
27.2
26.9
26.7
26.5
26.4
26.3
26.2
26.1
4
21.2
18.0
16.7
16.0
15.5
15.2
15.0
14.8
14.7
14.5
14.2
14.0
13.8
13.7
13.7
13.6
13.5
5
16.3
13.3
12.1
11.4
11.0
10.7
10.5
10.3
10.2
10.1
9.72
9.55
9.38
9.29
9.20
9.11
9.03
6
13.7
10.9
9.78
9.12
8.75
8.47
8.26
8.10
7.98
7.87
7.56
7.40
7.23
7.14
7.06
6.97
6.89
7
12.2
9.55
8.45
7.85
7.46
7.19
6.99
6.84
6.72
6.62
6.31
6.16
5.99
5.91
5.82
5.74
5.66
8
11.3
8.65
7.59
7.01
6.63
6.37
6.18
6.03
5.91
5.81
5.52
5.36
5.20
5.12
5.03
4.95
4.87
n
9
10.6
8.02
6.99
6.42
6.06
5.80
5.61
5.47
5.35
5.26
4.96
4.81
4.65
4.57
4.48
4.40
4.32
10
10.0
7.56
6.55
5.99
5.64
5.39
5.20
5.06
4.94
4.85
4.56
4.41
4.25
4.17
4.08
4.00
3.92
11
9.65
7.21
6.22
5.67
5.32
5.07
4.89
4.74
4.63
4.54
4.25
4.10
3.94
3.86
3.78
3.69
3.61
12
9.33
6.93
5.95
5.41
5.06
4.82
4.64
4.50
4.39
4.30
4.01
3.86
3.70
3.62
3.54
3.45
3.37
13
9.07
6.70
5.74
5.21
4.86
4.62
4.44
4.30
4.19
4.10
3.82
3.66
3.51
3.43
3.34
3.25
3.18
14
8.86
6.51
5.56
5.04
4.70
4.46
4.28
4.14
4.03
3.94
3.66
3.51
3.35
3.27
3.18
3.09
3.02
15
8.68
6.36
5.42
4.89
4.56
4.32
4.14
4.00
3.89
3.80
3.52
3.37
3.21
3.13
3.05
2.96
2.88
16
8.53
6.23
5.29
4.77
4.44
4.20
4.03
3.89
3.78
3.69
3.41
3.26
3.10
3.02
2.93
2.84
2.76
17
8.40
6.11
5.19
4.67
4.34
4.10
3.93
3.79
3.68
3.59
3.31
3.16
3.00
2.92
2.83
2.75
2.66
18
8.29
6.01
5.09
4.58
4.25
4.01
3.84
3.71
3.60
3.51
3.23
3.08
2.92
2.84
2.75
2.66
2.58
19
8.18
5.93
5.01
4.50
4.17
3.94
3.77
3.63
3.52
3.43
3.15
3.00
2.84
2.76
2.67
2.58
2.50
20
8.10
5.85
4.94
4.43
4.10
3.87
3.70
3.56
3.46
3.37
3.09
2.94
2.78
2.69
2.61
2.52
2.43
21
8.02
5.78
4.87
4.37
4.04
3.81
3.64
3.51
3.40
3.31
3.03
2.88
2.72
2.64
2.55
2.46
2.37
22
7.95
5.72
4.82
4.31
3.99
3.76
3.59
3.45
3.35
3.26
2.98
2.83
2.67
2.58
2.50
2.40
2.32
23
7.88
5.66
4.76
4.26
3.94
3.71
3.54
3.41
3.30
3.21
2.93
2.78
2.62
2.54
2.45
2.35
2.27
24
7.82
5.61
4.72
4.22
3.90
3.67
3.50
3.36
3.26
3.17
2.89
2.74
2.58
2.49
2.40
2.31
2.22
25
7.77
5.57
4.68
4.18
3.86
3.63
3.46
3.32
3.22
3.13
2.85
2.70
2.54
2.45
2.36
2.27
2.18
26
7.72
5.53
4.64
4.14
3.82
3.59
3.42
3.29
3.18
3.09
2.82
2.66
2.50
2.42
2.33
2.23
2.14
27
7.68
5.49
4.60
4.11
3.78
3.56
3.39
3.26
3.15
3.06
2.78
2.63
2.47
2.38
2.29
2.20
2.11
28
7.64
5.45
4.57
4.07
3.75
3.53
3.36
3.23
3.12
3.03
2.75
2.60
2.44
2.35
2.26
2.17
2.08
29
7.60
5.42
4.54
4.04
3.73
3.50
3.33
3.20
3.09
3.00
2.73
2.57
2.41
2.33
2.23
2.14
2.05
30
7.56
5.39
4.51
4.02
3.70
3.47
3.30
3.17
3.07
2.98
2.70
2.55
2.39
2.30
2.21
2.11
2.02
40
7.31
5.18
4.31
3.83
3.51
3.29
3.12
2.99
2.89
2.80
2.52
2.37
2.20
2.11
2.02
1.92
1.82
60
7.08
4.98
4.13
3.65
3.34
3.12
2.95
2.82
2.72
2.63
2.35
2.20
2.03
1.94
1.84
1.73
1.62
120
6.85
4.79
3.95
3.48
3.17
2.96
2.79
2.66
2.56
2.47
2.19
2.03
1.86
1.76
1.66
1.53
1.40
1000
6.66
4.63
3.80
3.34
3.03
2.82
2.66
2.53
2.43
2.34
2.06
1.90
1.71
1.61
1.50
1.35
1.16
¡
¢
A tabela apresenta o pontos x tais que P F(m,n) ≤ x = 0.99.
133
3
Inferência Estatística
Este capítulo tem como objectivo fazer uma pequena abordagem a algumas técnicas estatísticas
que permitem tirar conclusões sobre as características da população com base na informação
contida numa amostra.
3.1
Noções básicas
Regra geral, num estudo estatístico, são raras as situações onde se pode obter informação
sobre todos os indivíduos que o estudo pretende analisar, ou seja, sobre todos os elementos da
população (considere que esta é constituída por N indivíduos se for finita). Como tal, obtém-se informação sobre um subconjunto da população denominado por amostra (considere-se que
é constituída por n indivíduos, com n < N). Ao conjunto de operações que têm por objectivo a
escolha, numa população, dos indivíduos que devem constituir a amostra designa-se por amostragem. A definição deste processo é importante, pois o processo de escolha dos elementos
que deverão estar na amostra irá condicionar as possíveis conclusões sobre a população. Assim
sendo, ao longo deste capítulo, com o objectivo de facilitar a exposição das técnicas que aqui
vão ser apresentadas, considera-se que a amostra com que se está a trabalhar é uma amostra
aleatória simples.
Definição 3.1.1 (Amostra aleatória simples)
Uma amostra é aleatória se todos os elementos da população têm igual probabilidade de pertencerem à amostra. Este processo pode ser efectuado com reposição ou sem reposição12 . Uma
amostra diz-se simples se todos os elementos da amostra forem recolhidos de forma independente uns dos outros. Assim, uma amostra aleatória simples (X1 , X2 , · · · , Xn ) é constituída
por n variáveis aleatórias independentes e identicamente distribuidas
13
à variável aleatória X
(população).
12
No entanto, no caso das amostras recolhidas sem reposição, ao longo deste capítulo abordar-se-á somente
n
os casos em que
≤ 0.05.
N
13
Ao longo deste capítulo, representar-se-á por i. i. d. a idependentes e identicamente distribuidas.
134
Exemplo 3.1.1
Considere que se pretende analisar uma população com determinada função de densidade (ou
função de probabilidade) com valor esperado μ e variância σ 2 . Então, se for recolhida uma
amostra aleatória de dimensão n, representada por (X1 , X2 , · · · , Xn ), esta é constituída por
n variáveis aleatórias independentes com a mesma função de densidade (ou função de probabilidade) que a população e, consequentemente, com o mesmo valor esperado [E(Xi ) = μ] e a
mesma variância [V ar(Xi ) = σ 2 ].
Nota:
Uma amostra aleatória é representada por (X1 , X2 , · · · , Xn ) onde cada Xi representa
uma variável aleatória e uma amostra concreta será representada por (x1 , x2 , · · · , xn )
onde xi já não são variáveis aleatórias mas sim valores concretos (constantes).
Assim, sempre que, neste capítulo, for referida uma amostra aleatória (X1 , X2 , · · · , Xn )
está-se a referir a um conjunto de n variáveis aleatórias independentes com o mesmo valor
esperado e com a mesma variância, isto é, E(Xi ) = μ e V ar(Xi ) = σ 2 para i = 1, · · · , n, ou
seja, n variáveis aleatória i. i. d.. Este resultado é vital para se compreender as conclusões que
neste capítulo serão analisadas.
Exemplo 3.1.2
A variável aleatória X, que conta o tempo em que os iogurtes Boa Vida se encontram em
bom estado de conservação, tem distribuição Normal com média igual a 270 horas e desvio
padrão igual a 20 horas. Considerando que o prazo de validade utilizado pela empresa é de
200 horas, qual a probabilidade de, ao recolher uma amostra aleatória de dimensão 20, seja
(X1 , X2 , · · · , X20 ), todos os iogurtes estarem bons no fim do prazo de validade?
Em relação à população (tempo em que os iogurtes Boa Vida se encontram em bom estado
de conservação) sabe-se que X ∼ N (270, 20), logo a amostra aleatória (X1 , X2 , · · · , X20 ) é
constituída por n variáveis aleatórias independentes, onde Xi ∼ N (270, 20) para i = 1, · · · , 20.
A probabilidade pedida é a de todos os iogurtes estarem bons no fim do prazo de validade
(200 horas), ou seja, considerando que Xi é o tempo em que o iogurte i se encontra em bom
135
estado de conservação, pretende-se determinar
P (X1 > 200 ∧ X2 > 200 ∧ · · · ∧ Xn > 200) =
que tendo em conta que as variáveis são independentes, vem
= P (X1 > 200) × P (X2 > 200) × · · · × P (Xn > 200) =
que, como as variáveis são identicamente distribuidas, ou seja, todas têm a mesma distribuição
que X, vem que
= P (X > 200) × P (X > 200) × · · · × P (X > 200) =
= [P (X > 200)]20 = [P (Z > −3.5)]20 =
= [P (Z < 3.5)]20 = (0.9998)20 = 0.99601
A inferência estatística será, então, a parte da estatística que desenvolve técnicas que permitem, a partir da informação contida na amostra, tirar conclusões sobre as características
da população que são desconhecidas. Às características da população que irão ser analisadas
denominam-se por parâmetros e são considerados fixos.
Exemplos 3.1.3
μ ⇒ média da população;
σ 2 ⇒ variância da população;
p ⇒ proporção de sucessos na população (populações de Bernoulli).
Com o objectivo de analisar os parâmetros utilizam-se estatísticas, que são variáveis
aleatórias obtidas através da informação contida na amostra, não dependendo de parâmetros
desconhecidos, ou seja, são funções das observações da amostra, T (X1 , X2 , · · · , Xn ).
Exemplos 3.1.4
1X
X =
Xi ⇒ média da amostra;
n i=1
n
¢2 1 X 2
1 X¡
2
=
Xi − X ⇒ variância da amostra.
Xi − X =
n i=1
n i=1
n
S
2
n
136
Nota:
A fórmula da média amostral (da amostra),
1X
Xi
n i=1
n
X=
é muitas vezes apresentada em estatística descritiva (onde estamos a trabalhar com
quadros de frequências) através de
p
p
X
1X
X=
ni Xi onde
ni = n.
n i=1
i=1
No entanto, se considerarmos que todas as observações são diferentes (numa amostra
aleatória ainda não se conhece o valor das observações, como tal, estas serão analisadas separadamente) tem-se que ni = 1 para i = 1, · · · , p (ni - frequências absolutas ordinárias - número de observações na modalidade i), e, consequentemente n = p.
Assim, as duas fórmulas para a média amostral que foram apresentadas são exactamente iguais, a primeira só difere da segunda por supor que todas as observações
são diferentes. O mesmo raciocínio pode ser aplicado à fórmula da variância apresentada, pois esta também difere da fórmula habitualmente utilizada em estatística
descritiva pelas mesmas razões.
Nota:
Uma estatística é uma variável aleatória que é uma função das observações da
amostra aleatória, como tal, pode ser representada por T (X1 , X2 , · · · , Xn ) que assume valores particulares T (x1 , x2 , · · · , xn ). Por exemplo X é uma estatística pelo
facto de ser uma função das variáveis aleatórias X1 , X2 , · · · , Xn e, como tal, também é uma variável aleatória (para amostras diferentes assume valores diferentes).
Numa amostra concreta x é um valor fixo.
137
3.2
Estimadores Pontuais
Este sub-capítulo tem como objectivo estudar o problema da estimação pontual. Assim, vai-se
supor que uma população tem uma determinada distribuição que depende de um parâmetro θ
desconhecido (que pode representar qualquer parâmetro tal como μ, σ 2 , p ou outro). O objectivo
da estimação pontual consiste em obter uma estatística [função da amostra T (X1 , X2 , · · · , Xn )]
que “melhor” aproxima o valor do parâmetro desconhecido θ. Assim, a estatística que vai ser
usada para aproximar o valor de um parâmetro denomina-se por estimador, sendo o seu valor
numa amostra concreta denominado por estimativa.
Definição 3.2.1 (Estimador)
Um estimador de θ, representado por θ̂ (X1 , X2 , · · · , Xn ) ou simplesmente por θ̂, é uma estatística que usa o informação contida na amostra com o objectivo de estimar o valor de parâmetros
desconhecidos da população.
Definição 3.2.2 (Estimativa)
Uma estimativa θ̂ (x1 , x2 , · · · , xn ), ou simplesmente θ̂, é o valor assumido por um estimador
numa amostra concreta.
Nota:
Um estimador é uma estatística, como tal, é uma função de uma amostra aleatória
sendo, por esta razão, também uma variável aleatória. Uma estimativa, pelo contrário, é uma constante, pois é igual ao valor assumido pela função (estimador)
numa amostra concreta.
Existem duas formas tradicionais de obter estimadores para os parâmetros da população,
pelo método dos momentos e pelo método da máxima verosimilhança. No entanto, estes métodos não serão desenvolvidos nesta disciplina. Assim, apenas serão analisadas as propriedades
dos estimadores. Estas propriedades têm como objectivo averiguar a qualidade de um estimador.
138
3.2.1
Método dos momentos
Este método de determinação de estimadores foi desenvolvido por Karl Pearson e é denominado
por método dos momentos pois, a obtenção de estimadores para os parâmetros, consiste em
igualar os momentos amostrais aos momentos da população. Assim, os momentos da amostra
e da população podem ser definidos da seguinte forma.
Definição 3.2.3 (Momentos da amostra)
Seja (X1 , X2 , · · · , Xn ) uma amostra aleatória de uma variável aleatória X. O valor médio das
potência de ordem k de (X1 , X2 , · · · , Xn ),
1X k
X
Mk =
n i=1 i
n
(55)
designa-se por momento amostral de ordem k, para k = 1, 2, 3, · · · .
Nota:
O primeiro momento amostral é a média da amostra,
1X
Xi = X,
M1 =
n i=1
n
sendo o segundo momento definido por
1X 2
X
n i=1
n
M2 =
que é utilizado na fórmula simplificada de Köning para o cálculo da variância
amostral,
1X 2
2
X − X = M2 − M12 .
n i=1 i
n
S2 =
Definição 3.2.4 (Momentos da População)
Seja X uma variável aleatória qualquer, então, o momento de ordem k de X é definido por
μk = E(X k )
para k = 1, 2, 3, · · · .
139
(56)
Nota:
O primeiro momento da população representa o valor esperado
μ1 = E(X) = μ.
O segundo momento da população é utilizado para determinar a variância, pois este
é definido por
μ2 = E(X 2 )
que aparece na fórmula simplificada do cálculo da variância que é
¡ ¢
V ar (X) = E X 2 − E 2 (X) = μ2 − μ21 .
Definição 3.2.5 (Método dos momentos)
Suponhamos que a distribuição de X é caracterizada à custa de um parâmetro θ que se pode
exprimir através da relação
θ = h (μ1 , μ2 , μ3 , · · · ) ,
então o estimador construido pelo método dos momentos é dado por
θ̂ = h (M1 , M2 , M3 , · · · ) ,
ou seja, θ é expresso através de
sendo o estimador dado por
¡
¡ ¢
¡ ¢
¢
θ = h E (X) , E X 2 , E X 3 , · · · ,
Ã
1X 2 1X 3
X ,
X ,···
θ̂ = h X,
n i=1 i n i=1 i
n
n
140
!
.
(57)
(58)
Exemplo 3.2.1
Considere que o número de telefonemas recebidos por hora pela ESTG tem distribuição de
Poisson. Com base numa amostra aleatória com n = 100, x = 15 e s2 = 220 pretende-se
encontrar uma estimativa para λ pelo método dos momentos.
Tendo em conta que, na distribuição de Poisson, tem-se E(X) = λ que corresponde à função
(57) (λ = μ1 = μ), então, utilizando o método dos momentos, o estimador é obtido substituindo
os momentos da população (μ) pelos respectivos momentos amostrais (M1 ) de onde se obtém
1X
Xi = X
λ̂ = M1 =
n i=1
n
que corresponde à função (58). A estimativa é obtida calculando o valor que o estimador assume
numa amostra particular, ou seja, neste exemplo será igual a
1 X
1X
xi =
xi = x = 15.
λ̂ =
n i=1
100 i=1
n
100
Exemplo 3.2.2
Considere que o tempo entre dois telefonemas tem distribuição exponencial. Calcule uma estimativa para o λ utilizando uma amostra aleatória onde n = 50, x = 2 e s2 = 4.
1
1
Considerando que na distribuição exponencial tem-se E(X) = , ou seja, λ =
, então
λ
E(X)
o estimador obtido pelo método dos momentos é
λ̂ =
1
1
1
=
=
n
M1
X
1X
Xi
n i=1
e a estimativa é
λ̂ =
1
1
= = 0.5.
x 2
Exemplo 3.2.3
Considere que o tempo que determinada pessoa demora de casa ao seu posto de trabalho tem
distribuição Normal. Utilizando uma amostra onde n = 40, x = 50 e s2 = 100. Calcule
estimativas para μ e para σ utilizando o método dos momentos.
141
Considerando que μ = E(X), tem-se como estimador para μ
1X
Xi = X.
n i=1
n
μ̂ = M1 =
Em relação à variância sabe-se que
σ 2 = E(X 2 ) − E(X)2 ,
logo, para obter o estimador substitui-se os momentos da população pelos da amostra, resultando
σb2 = M2 − M12 =
1X 2
=
X −
n i=1 i
n
Ã
1X
Xi
n i=1
n
!2
=
1X 2
2
=
Xi − X = S 2 ,
n i=1
n
que em relação ao desvio padrão tem-se
σ=
p
√
√
σ 2 ⇒ σ̂ = σb2 = S 2 = S,
logo, as estimativas para os parâmetros são μ̂ = x = 50 e σ̂ = s =
√
100 = 10.
Exemplo 3.2.4
Considere uma determinada população com distribuição Uniforme no intervalo [0, θ]. Determine uma estimativa pelo método dos momentos para o parâmetro θ utilizando uma amostra
onde foram observados os seguintes valores
(10, 22, 35, 7, 28, 42, 23, 14, 3, 34, 12, 23, 27, 34, 5, 22, 25, 17, 4, 13) .
Considerando que se X ∼ U (a, b) tem-se
E (X) =
então, como X ∼ U(0, θ), tem-se
a+b
,
2
θ
E (X) = ,
2
142
ou seja,
θ = 2E (X)
sendo o estimador pelo método dos momentos
1X
θ̂ = 2
Xi = 2X
n i=1
n
e a estimativa
θ̂ = 2x = 2 × 20 = 40,
pois a média da amostra apresentada é igual a vinte. Note-se que o valor obtido não é uma
boa estimativa para θ pois, como X ∼ U(0, θ) e θ = 40, então o valor máximo que X poderá
assumir é quarenta e na amostra obtida existe uma observação que ultrapassa este valor.
Exemplo 3.2.5
Considere que determinada população é descrita por uma v. a. X com função de probabilidade
⎧
⎨ px (1 − p)1−x
x = 0, 1
f (x) =
, onde 0 < p < 1.
⎩
0
Caso contrário
Utilizando uma amostra onde n = 200, x = 0.25 e s2 = 0.19, utilize o método dos momentos
para determinar uma estimativa para p.
Note-se que trata-se de uma variável aleatória com distribuição de Bernoulli (como tal,
nestes caso, denominamos a população de Bernoulli), pois a variável só assume o valor 0 e o
valor 1, com função de probabilidade
X:
0
1
f (x) : 1 − p p
sendo
E (X) = 0 × (1 − p) + 1 × p = p,
logo o estimador é
1X
p̂ =
Xi = X
n i=1
n
143
e a estimativa é
1 X
p̂ =
xi = x = 0.25.
200 i=1
200
Exemplo 3.2.6
Considere uma população descrita por uma v. a. X com função de densidade de probabilidade
igual a
⎧ x
⎨
0 ≤ x ≤ 2θ
2θ2
f (x) =
, onde θ > 0.
⎩ 0 Caso contrário
Utilizando o método dos momentos, determine uma estimativa para θ com base na amostra
(4, 15, 11, 12, 6, 20, 12, 14, 10, 16) .
Vai-se começar por calcular o valor esperado da variável aleatória X.
Z+∞
Z0
Z2θ 2
Z+∞
x
E (X) =
xf (x) dx =
0dx +
dx +
0dx =
2θ2
−∞
−∞
0
2θ
∙ 3 ¸2θ
3
3
(2θ)
8θ
4
x
=
=
2
2 =
2 = θ,
3
6θ 0
6θ
6θ
que resolvendo-se em ordem ao parâmetro θ, vem
4
3
E (X) = θ ⇔ θ = E (X) ,
3
4
logo o estimador é igual a
e a estimativa é
3
3 1X
3
θ̂ = M1 = ×
Xi = X
4
4 n i=1
4
n
3
3
θ̂ = x = × 12 = 9.
4
4
3.2.2
Método da máxima verosimilhança
Este método foi desenvolvido por Fisher e consiste em procurar os valores de θ com maior
probabilidade de terem produzido as observações da amostra (x1 , x2 , · · · , xn ).
144
Definição 3.2.6 (Função de verosimilhança)
Seja (X1 , X2 , · · · , Xn ) uma amostra aleatória de uma variável aleatória X, cuja distribuição depende de m parâmetros desconhecidos θ1 , θ2 , · · · , θm . Designa-se por função de verosimilhança
a seguinte função:
L (x1 , x2 , · · · , xn , θ1 , θ2 , · · · , θm ) = P (X1 = x1 ) × P (X2 = x2 ) × · · · × P (Xn = xn )
(59)
no caso de X ser uma variável aleatória discreta e
L (x1 , x2 , · · · , xn , θ1 , θ2 , · · · , θm ) = f (x1 ) × f (x2 ) × · · · × f (xn )
(60)
no caso de X ser uma variável aleatória contínua. Em ambas as equações, (x1 , x2 , · · · , xn )
representa os valores observados para uma amostra aleatória.
Definição 3.2.7 (Método da máxima verosimilhança)
O estimador da máxima verosimilhança para os parâmetros θ1 , θ2 , · · · , θm são os valores θb1 , θb2 ,
· · · , θc
m que maximizam a função de verosimilhança L (x1 , x2 , · · · , xn , θ 1 , θ 2 , · · · , θ m ).
Nota:
Apesar da função L (x1 , x2 , · · · , xn , θ1 , θ2 , · · · , θm ) ter como variáveis os parâmetros desconhecidos e as observações da amostra, é usual representar apenas por
L (θ1 , θ2 , · · · , θm ) pois é em função destas variáveis (parâmetros desconhecidos) que
se maximiza a função.
Nota:
Para maximizar a função de verosimilhança é muitas vezes utilizado o logaritmo
da função de verosimilhança. Isto porque os valores de θ1 , θ2 , · · · , θm que maximizam a função de verosimilhança são os mesmos que maximizam o logaritmo da
função (pois a função logaritmo é sempre crescente) e não é o valor da função que
pretende-se saber mas somente os valores que a maximizam. Note-se ainda que a
função de verosimilhança nunca é negativa (pois resulta do produto de funções de
probabilidade ou de densidade), portanto, ao nível do domínio do logaritmo o único
cuidado que se deve ter é quando a função de verosimilhança se anula.
145
Exemplo 3.2.7
Considere que o número de telefonemas recebidos por hora pela ESTG tem distribuição de
Poisson. Considerando uma amostra onde n = 100, x = 15 e s2 = 220 , estime λ pelo método
da máxima verosimilhança.
Tendo em conta que, na distribuição de Poisson, tem-se
e−λ λx
P (X = x) =
x!
a função de verosimilhança é, segundo a fórmula (59) na página 145, definida por
L (λ) = P (X1 = x1 ) × P (X2 = x2 ) × · · · × P (Xn = xn ) =
−λ x1
e λ
=
x1 !
−λ x2
−λ xn
e λ
×
x2 !
e λ
× ··· ×
xn !
−nλ
n
S
xi
e λi=1
=
x1 ! × x2 ! × · · · × xn !
Assim, o estimador de máxima verosimilhança é o valor de λ que maximiza a função L (λ).
Recordando que o valor que maximiza L (λ) é o mesmo que maximiza ln [L (λ)] (ver nota presente na página 145), vem
⎛
⎜
ln [L (λ)] = ln ⎝
Ã
n
S
xi
⎞
e−nλ λi=1
⎟
⎠=
x1 ! × x2 ! × · · · × xn !
−nλ
= ln e
n
S
λi=1
xi
!
− ln (x1 ! × x2 ! × · · · × xn !) =
!
à S
n
¡ −nλ ¢
xi
− ln (x1 ! × x2 ! × · · · × xn !) =
+ ln λi=1
= ln e
= −nλ +
n
X
i=1
xi ln (λ) − ln (x1 ! × x2 ! × · · · × xn !) =
= −nλ + ln (λ)
n
X
i=1
xi − ln (x1 ! × x2 ! × · · · × xn !) =
Para maximizar vai-se calcular a primeira derivada da função ln [L (λ)] em ordem a λ e igualar
146
a zero, de onde se obtém
⇔
∂ ln [L (λ)]
=0⇔
¸
∙ ∂λ
n
P
∂ −nλ + ln (λ) xi − ln (x1 ! × x2 ! × · · · × xn !)
i=1
⇔
1X
xi = 0 ⇔
λ i=1
λ
n
⇔ −n +
n
X
i=1
∂λ
n
1X
i=1
=0⇔
xi = n ⇔
n
1X
xi = nλ ⇔ λ =
xi = x.
n i=1
Para confirmar se, de facto, x é um maximizante da função, calcula-se a segunda derivada
¸
∙
n
P
1
xi
∂ −n + λ
∂ 2 ln [L (λ)]
i=1
=
=
∂λ
∂λ2
n
1 X
= − 2
xi < 0.
λ i=1
Como a segunda derivada é negativa (note-se que sendo xi valores de uma amostra cuja população tem distribuição de Poisson, estes não podem assumir valores negativos) pode-se concluir
que x é o valor que maximiza a função de verosimilhança, logo o estimador é λ̂ = X, sendo a
estimativa λ̂ = x = 15.
Nota:
Tendo em conta as características da função de verosimilhança, sob determinadas
condições de regularidade, que normalmente se verificam14 , bastará determinar a
primeira derivada e igualar a zero.
Exemplo 3.2.8
Considere que o tempo entre dois telefonemas tem distribuição exponencial. Calcule uma estimativa pelo método da máxima verosimilhança para o parâmetro λ utilizando uma amostra
onde n = 50, x = 2 e s2 = 4.
14
As condições não serão aqui apresentadas pelo facto de a sua análise matemática não ser imediata, como
tal, para mais detalhes, consultar Murteira, Bento, “Probabilidade e Estatística”, volume II.
147
Considerando que na distribuição exponencial tem-se como função de densidade
⎧
⎨ λe−λx x > 0
, com λ > 0,
f (x) =
⎩ 0
x≤0
então a função de verosimilhança, utilizando a fórmula (60) patente na página 145, é
L (λ) = f (x1 ) × f (x2 ) × · · · × f (xn ) =
= λe−λx1 × λe−λx2 × · · · × λe−λxn =
= λn e−λx1 −λx2 −...−λxn =
n
−
= λ e
n
S
λxi
i=1
sendo o logaritmo da função de verosimilhança definida por
#
"
n
S
−
ln [L (λ)] = ln λn e
λxi
i=1
= n ln (λ) −
n
X
i=1
"
−
= ln [λn ] + ln e
λxi = n ln (λ) − λ
n
S
λxi
i=1
n
X
#
=
xi
i=1
que derivando e igualando a zero, obtém-se
⇔
∂ ln [L (λ)]
=0⇔
¸
∙ ∂λ
n
P
∂ n ln (λ) − λ xi
i=1
∂λ
n
X
1
⇔ n −
xi = 0 ⇔
λ i=1
=0⇔
1 X
⇔ n =
xi ⇔
λ
i=1
n
1
1
=λ⇔ P
=λ⇔
⇔ nP
n
1 n
xi
xi
n i=1
i=1
1
⇔ λ= ,
x
logo o estimador de máxima verosimilhança é λ̂ =
148
1
1
1
e a estimativa é λ̂ = = = 0.5.
x
2
X
Exemplo 3.2.9
Considere que o tempo que determinada pessoa demora de casa ao seu posto de trabalho tem
distribuição Normal. Com base numa amostra onde n = 40, x = 50 e s2 = 100, calcule
estimativas para μ e para σ utilizando o método da máxima verosimilhança.
Considerando que a função de densidade da distribuição Normal é
1
f (x) = √
σ 2π
(x − μ)2
−
2σ 2 ,μ ∈ R, σ > 0,
e
a função de verosimilhança, utilizando a fórmula (60) presente na página 145, é
L (μ, σ) = f (x1 ) × f (x2 ) × · · · × f (xn ) =
(x1 − μ)2
(xn − μ)2
−
−
1
1
2σ 2
2σ 2
√ e
× ··· × √ e
=
=
σ 2π
σ 2π
2
n (xi − μ)
¶n S
µ
−
1
√
e i=1 2σ 2
=
=
σ 2π
2
n (xi − μ)
³ √ ´−n − S
e i=1 2σ 2
= σ 2π
e o logaritmo da função de densidade é
⎤
⎡
2
n (xi − μ)
S
´−n −
³
⎥
⎢ √
e i=1 2σ 2 ⎦ =
ln [L (μ, σ)] = ln ⎣ σ 2π
⎡
⎤
2
n (xi − μ)
∙³
¸
S
√ ´−n
⎢ −
⎥
= ln σ 2π
+ ln ⎣e i=1 2σ 2 ⎦ =
n
³ √ ´ X
(xi − μ)2
= −n ln σ 2π −
=
2
2σ
i=1
⎞⎤
⎡
⎛
1
n
1 X
= −n ⎣ln (σ) + ln ⎝(2π) 2 ⎠⎦ − 2
(xi − μ)2 =
2σ i=1
n
1 X
n
(xi − μ)2
= −n ln (σ) − ln (2π) − 2
2
2σ i=1
149
que calculando as derivadas em ordem aos parâmetros a estimar e igualando-as a zero, tem-se
⎧
⎨ ∂ ln[L(μ,σ)] = 0
∂μ
⇔
∂
ln[L(μ,σ)]
⎩
=
0
∂σ
⎧
n
P
⎪
(xi − μ) = 0
⎨ σ12
i=1
⇔
⇔
n
P
n
⎪
⎩ − + 2σ2 3
(xi − μ)2 = 0
σ
i=1
⎧
∙n
¸
n
P
P
⎪
1
⎪
⎨ σ2
xi −
μ =0
i=1
i=1
⇔
⇔
n
P
n
⎪
2
1
⎪
(x
−
μ)
=
⎩ σ3
i
σ
⎧ n i=1
P
⎪
⎪
xi − nμ = 0
⎨
i=1
⇔
n
P
nσ 3 ⇔
⎪
2
⎪
(xi − μ) =
⎩
σ
i=1
⎧ P
n
⎪
xi = nμ
⎨
i=1
⇔
⇔
n
1P
2
⎪
2
⎩
(xi − μ) = σ
n i=1
⎧
n
1P
⎪
xi = X
⎨ μ=
n i=1
⇔
n
1P
⎪
⎩ σ2 =
(xi − μ)2 = S 2
n i=1
Assim, os estimadores da máxima verosimilhança são
⎧
⎨ μ̂ = X
⎩ σ̂ = S
sendo as estimativas para os parâmetros iguais a
⎧
⎨ μ̂ = x = 50
⎩ σ̂ = s = √100 = 10.
Exemplo 3.2.10
Considere uma determinada população com distribuição Uniforme no intervalo [0, θ]. Determine uma estimativa, pelo método da máxima verosimilhança, para o parâmetro θ utilizando
uma amostra onde foram observados os seguintes valores
(10, 22, 35, 7, 28, 42, 23, 14, 3, 34, 12, 23, 27, 34, 5, 22, 25, 17, 4, 13) .
150
Considerando que X ∼ U (a, b) tem-se
⎧
⎨ 1
a≤x≤b
b−a
,
f (x) =
⎩ 0 x<a∨x>b
então se X ∼ U (0, θ) tem-se
f (x) =
sendo a função de verosimilhança,
⎧
⎨
1
θ
0≤x≤θ
⎩ 0 x<0∨x>θ
,
L (θ) = f (x1 ) × f (x2 ) × · · · × f (xn ) =
⎧
⎨ 1 × 1 × · · · × 1 se ∀i, x ∈ [0, θ]
i
θ
θ
θ
=
=
⎩
0
se ∃i, xi ∈
/ [0, θ]
⎧ ¡ ¢
⎨ 1 n se ∀i, x ∈ [0, θ]
i
θ
=
⎩ 0
se ∃i, x ∈
/ [0, θ]
i
Como
¡ 1 ¢n
θ
é sempre positivo (pois θ é positivo) o máximo desta função será no ramo em
que ∀i, xi ∈ [0, θ], como tal, analisa-se apenas este ramo, sendo o logaritmo da função de
verosimilhança deste ramo
∙µ ¶n ¸
¡ ¢
1
ln [L (θ)] = ln
= ln θ−n = −n ln (θ) ,
θ
que derivando e igualando a zero vem
∂ [−n ln (θ)]
∂ ln [L (θ)]
=0 ⇔
=0⇔
∂θ
∂θ
n
⇔ − = 0,
θ
£ ¤
que é impossível. No entanto como a derivada − nθ é sempre negativa (pois n e θ são positivos)
a função de verosimilhança é decrescente o que significa que a função assume um valor maior
quanto menor for o valor de θ. Como tal vai-se escolher para valor de θ o seu valor mínimo
admissível. Como todas as observações têm que estar contidas no intervalo [0, θ] (pois, como
foi visto, caso contrário a sua função de verosimilhança seria zero) o valor admissível mínimo
de θ é o valor máximo de xi (pois é o menor valor de θ que garante que ∀i, xi ∈ [0, θ]). Assim,
151
o estimador de máxima verosimilhança para θ é θ̂ = max Xi , sendo a estimativa a observação
da amostra com maior valor, ou seja θ̂ = max xi , que na amostra obtida corresponde a 42.
Note-se que o estimador da máxima verosimilhança para a distribuição Uniforme é distinto do
obtido pelo método dos momentos (ver exemplo 3.2.4 na página 142).
Exemplo 3.2.11
Considere uma população descrita por uma variável aleatória X com função de probabilidade
⎧
⎨ px (1 − p)1−x
x = 0, 1
, onde 0 < p < 1.
f (x) =
⎩
0
Caso contrário
Com base numa amostra onde n = 200, x = 0.25 e s2 = 0.19, utilize o método da máxima
verosimilhança para determinar uma estimativa para p.
Como a função de probabilidade é P (X = x) = px (1 − p)1−x , tem-se como função de
verosimilhança
L (p) = P (X = x1 ) × P (X = x2 ) × · · · × P (X = xn ) =
= px1 (1 − p)1−x1 × px2 (1 − p)1−x2 × · · · × pxn (1 − p)1−xn =
n
S
n
S
xi
(1−xi )
= pi=1 (1 − p)i=1
n
S
xi
n−
= pi=1 (1 − p)
n
S
n
S
= pi=1 (1 − p)i=1
1−
n
S
xi
i=1
=
xi
i=1
sendo o logaritmo da função de verosimilhança,
" S
n
xi
n−
ln [L (p)] = ln pi=1 (1 − p)
"
n
S
= ln pi=1
=
n
S
xi
n
X
i=1
xi
#
n
S
i=1
"
xi
#
n−
+ ln (1 − p)
Ã
xi ln (p) + n −
152
=
n
X
i=1
n
S
i=1
!
xi
#
=
xi ln (1 − p)
que derivando e igualando a zero, vem
⇔
∂ [ln L (p)]
=0⇔
∂p
¶
¸
µ
∙n
n
P
P
xi ln (p) + n −
xi ln (1 − p)
∂
⇔
n
P
⇔
i=1
i=1
∂p
xi
i=1
n
P
xi
i=1
=0⇔
¶
µ
n
n
P
P
xi
(1 − p) xi − p n −
p
−
n−
=0⇔
1−p
i=1
i=1
=0⇔
p (1 − p)
!
Ã
n
n
n
X
X
X
⇔
xi − p
xi − p n −
xi = 0 ⇔
i=1
Ã
⇔ p n−
⇔ pn =
i=1
n
X
xi +
i=1
n
X
i=1
n
X
i=1
xi ⇔ p =
xi
!
=
i=1
n
X
i=1
xi ⇔
1X
xi = x
n i=1
n
O estimador da máxima verosimilhança para p é p̂ = X, sendo a estimativa igual a
p̂ = x = 0.25.
Exemplo 3.2.12
Considere uma população com distribuição Uniforme no intervalo [α, β]. Determine uma estimativa pelo método da máxima verosimilhança para os parâmetros α e β utilizando uma amostra
aleatória de dimensão 12 onde se obteve os seguinte resultados
(12, 45, 23, 53, 35, 43, 23, 55, 23, 43, 10, 35) .
Considerando que X ∼ U (α, β), então
⎧
⎪
⎨ 1
α≤x≤β
β−α
f (x) =
⎪
⎩ 0
x<α∨x>β
153
sendo a função de verosimilhança igual a
L (α, β) = f (x1 ) × f (x2 ) × · · · × f (xn ) =
⎧
⎪
⎨ 1 × 1 × ··· × 1
se ∀i, xi ∈ [α, β]
β−α β−α
β−α
=
=
⎪
⎩
/ [α, β]
0
se ∃i, xi ∈
⎧ µ
¶n
1
⎪
⎨
se ∀i, xi ∈ [α, β]
β−α
=
=
⎪
⎩
0
se ∃i, xi ∈
/ [α, β]
⎧
⎨ (β − α)−n se ∀i, x ∈ [α, β]
i
=
⎩
0
se ∃i, x ∈
/ [α, β]
i
Como (β − α)−n é sempre positivo (pois β > α), o máximo desta função será no ramo em
que ∀i, xi ∈ [α, β]. Assim, analisa-se unicamente este ramo, sendo o logaritmo da função de
verosimilhança deste ramo igual a
£
¤
ln [L (α, β)] = ln (β − α)−n = −n ln (β − α)
que derivando e igualando a zero vem
⎧
⎧
⎨
⎨ ∂ ln[L(α,β)] = 0
∂α
⇔
⎩
⎩ ∂ ln[L(α,β)] = 0
∂β
n
β−α
=0
−n
β−α
=0
onde ambas as equações são impossíveis. No entanto, como a derivada em ordem a α, que é
n
,
β−α
é sempre positiva (pois n e (β − α) são positivos) a função de verosimilhança é crescente.
Isto significa que a função assume um valor maior quanto maior for o valor de α. Como tal,
escolhe-se como valor para α o seu valor máximo admissível. Em relação à derivada em ordem a
n
β, que é − β−α
, é sempre negativa, logo a função de verosimilhança é decrescente o que significa
que a função assume um valor maior quanto menor for o valor de β. Assim, vai-se escolher
como valor para β o seu valor mínimo admissível. Como todas as observações têm que estar
contidas no intervalo [α, β] (pois, como foi visto, caso contrário a sua função de verosimilhança
seria zero) o valor admissível máximo para α é o menor valor observado na amostra, ou seja,
o valor mínimo de xi (pois é o maior valor que verifica ∀i, xi ∈ [α, β]) e, pelas mesmas razões,
o valor admissível mínimo para β é o valor máximo xi . Resumindo, os estimadores de máxima
154
verosimilhança para α e β são α̂ = min Xi e β̂ = max Xi , sendo as estimativas α̂ = min xi = 10
e β̂ = max xi = 55.
Exemplo 3.2.13
Considere que determinada população é descrita por uma v. a. X com função de densidade de
probabilidade
⎧ x
⎨
0 ≤ x ≤ 2θ
2θ2
, onde θ > 0.
f (x) =
⎩ 0 Caso contrário
Utilizando o método da máxima verosimilhança, determine uma estimativa para θ, com base
na amostra
(4, 15, 11, 12, 6, 20, 12, 14, 10, 16) .
No caso de todas as observações pertencerem ao intervalo [0, 2θ], a função de verosimilhança é
L (θ) = f (x1 ) × f (x2 ) × · · · × f (xn ) =
x2
xn
x1
=
=
2 ×
2 × ··· ×
2θ ¶2θ
2θ2
µ
n
1
=
× x1 × x2 × · · · × xn =
2θ2
¡ ¢−n
× x1 × x2 × · · · × xn =
= 2θ2
= 2−n θ−2n × x1 × x2 × · · · × xn
então, a função de verosimilhança é igual a
⎧
⎨ 2−n θ−2n × x1 × x2 × · · · × xn se ∀i, xi ∈ [0, 2θ]
,
L (θ) =
⎩
0
se ∃i, xi ∈
/ [0, 2θ]
que, de forma semelhante à realizada nos exemplos da distribuição Uniforme, como no primeiro
ramo a função é sempre positiva, o máximo desta função será obrigatoriamente neste ramo.
Assim, vai-se considerar que ∀i, xi ∈ [0, 2θ], sendo o logaritmo da função de verosimilhança
igual a
¡
¢
ln [L (θ)] = ln 2−n θ−2n × x1 × x2 × · · · × xn =
¡
¢
¡ ¢
= ln 2−n + ln θ−2n + ln (x1 × x2 × · · · × xn ) =
= −n ln 2 − 2n ln θ + ln (x1 × x2 × · · · × xn )
155
que derivando e igualando a zero, vem
∂ ln [L (θ)]
=0⇔
∂θ
∂ [−n ln 2 − 2n ln θ + ln (x1 × x2 × · · · × xn )]
=0⇔
⇔
∂θ
2n
⇔ −
=0
θ
¡
¢
o que é impossível. Porém, como a derivada é sempre negativa − 2n
<
0
pode-se concluir que
θ
esta função é decrescente, ou seja, quanto maior o valor de θ menor será o valor da função
de verosimilhança. Assim, como o objectivo é maximizar a função de verosimilhança, deve
ser escolhido o menor valor de θ que satisfaz a restrição ∀i, xi ∈ [0, 2θ], concluindo-se que o
menor valor que satisfaz esta restrição é fazer 2θ ser igual ao valor máximo observado, ou
seja, 2θ̂ = max Xi que, resolvendo em ordem a θ̂ obtém-se θ̂ =
θ̂ = 12 max xi =
1
2
× 20 = 10.
156
1
2
max Xi . A estimativa será
3.2.3
Propriedades dos estimadores pontuais
Para estimar um parâmetro desconhecido da população (θ) podem existir vários estimadores,
como tal, é necessário saber por qual deles optar. Assim, para distinguir a “qualidade” de um
estimador, estudam-se três características que servem para analisar ou comparar estimadores.
A primeira análise sobre a qualidade de um estimador é verificar se ele é centrado.
Definição 3.2.8 (Estimador Centrado)
Um estimador diz-se centrado se o seu valor esperado for igual ao valor do parâmetro a estimar.
(61)
E(θ̂) = θ
Um estimador centrado fornece, em média, estimativas correctas, isto é, coincidentes com o
verdadeiro valor do parâmetro.
Exemplo 3.2.14
Será que a média da amostra é um estimador centrado para a média da população?
¡ ¢
O que é pretendido é verificar se E X = μ.
!
!
à n
à n
X
¡ ¢
1
1X
Xi = E
Xi =
E X = E
n i=1
n
i=1
1X
1X
1
E (Xi ) =
μ = nμ = μ.
n i=1
n i=1
n
n
=
n
¡ ¢
Assim, conclui-se que média da amostra X é um estimador centrado para a média da popu-
lação (μ).
Exemplo 3.2.15
Será que a variância da amostra é um estimador centrado para a variância da população?
O que é pretendido é verificar se E (S 2 ) = σ 2 ?
!
à n
!
à n
³ 2´
1X 2
1X 2
2
2
=E
X −X
X −E X =
E(S ) = E
n i=1 i
n i=1 i
n
³ 2´
1 X ¡ 2¢
E Xi − E X .
=
n i=1
157
(62)
Para simplificar esta fórmula utilizam-se os seguintes resultados:
V ar(Xi ) = E(Xi2 ) − E 2 (Xi ) ⇔
⇔ σ 2 = E(Xi2 ) − μ2 ⇔
⇔ E(Xi2 ) = σ 2 + μ2
e, considerando que V ar(X) =
σ2
n
(63)
(ver cálculo da variância da média da amostra a seguir
apresentada), conclui-se que
2
V ar(X) = E(X ) − E 2 (X) ⇔
σ2
2
= E(X ) − μ2 ⇔
⇔
n
σ2
2
+ μ2 .
⇔ E(X ) =
n
Cálculo da variância da média da amostra:
V ar(X) = V ar
Ã
1X
Xi
n i=1
n
!
!
à n
X
1
= 2 V ar
Xi ,
n
i=1
que, como as variáveis Xi são independentes, tem-se
!
à n
n
X
1
1 X
V ar
Xi = 2
V ar (Xi ) ,
n2
n i=1
i=1
que subtituíndo V ar (Xi ) por σ 2 (pois como as variáveis Xi são as observações de
uma amostra aleatória, todas elas têm a mesma variância) vem
n
n
1 X
1 X 2
1
σ2
2
V
ar
(X
)
=
σ
=
n
σ
=
i
n2 i=1
n2 i=1
n2
n
logo conclui-se que V ar(X) =
σ2
.
n
Assim, utilizando os resultados obtidos em (63) e (64), ou seja
2
E(Xi2 ) = σ 2 + μ2 e E(X ) =
158
σ2
+ μ2 ,
n
(64)
na fórmula (62), obtém-se
³ 2´
1 X ¡ 2¢
E Xi − E X =
n i=1
¶
µ 2
n
¢
1 X¡ 2
σ
2
2
+μ =
=
σ +μ −
n i=1
n
n
¢ σ2
1 ¡ 2
n σ + μ2 −
− μ2 =
n
n
σ2
n−1 2
− μ2 =
σ
= σ 2 + μ2 −
n
n
=
Assim, conclui-se que a variância da amostra não é um estimador centrado para σ 2 , ou seja,
para variância da população. Para tornear este problema, tendo como objectivo utilizar um estimador centrado para a variância da população, foi criada a variância amostral corrigida,
que é definida por
pois
¢2
1 X¡
n
S2
=
Xi − X =
n − 1 i=1
n−1
n
SC2
(65)
¶
¡ ¢
n
n
2
S =
E S2 =
n−1
n−1
n−1 2
n
×
σ = σ2 .
=
n−1
n
¡ ¢
E SC2 = E
µ
Exemplo 3.2.16
Considere uma população onde foi recolhida uma amostra aleatória de dimensão 11, onde se
obteve x = 300 e s2 = 100. Indique estimativas centradas para a média e para a variância desta
população.
¡ ¢
Um estimador centrado para a média da população (μ) é a média da amostra X (ver
exemplo 3.2.14) e um estimador centrado para a variância da população (σ 2 ) é a variância
corrigida da amostra (SC2 ) (ver exemplo 3.2.15). Assim, a estimativa centrada para a média da
população é
μ̂ = x = 300
e a estimativa centrada para a variância da população é
σb2 = s2C =
n 2
11
s =
100 = 110.
n−1
11 − 1
159
Exemplo 3.2.17
Será que
X
2
μ̂ =
kXk
n (n + 1) k=1
n
é um estimador centrado para μ?
Para que μ̂ seja um estimador centrado para μ o seu valor esperado tem que ser igual a μ,
ou seja, E (μ̂) = μ.
E (μ̂) = E
=
Ã
X
2
kXk
n (n + 1) k=1
2
n (n + 1)
n
n
X
!
E (kXk ) =
k=1
2
=
E
n (n + 1)
2
n (n + 1)
n
X
à n
X
kXk
k=1
!
=
kE (Xk )
k=1
que, como X1 , X2 , · · · , Xn são observações de uma amostra aleatória e consequentemente são
independentes e identicamente distribuidas (como tal têm todas o mesmo valor esperado), vem
X
X
X
2
2
2μ
kE (Xk ) =
kμ =
k
n (n + 1) k=1
n (n + 1) k=1
n (n + 1) k=1
n
que como
n
X
n
n
k é um somatório cujo termo geral é uma progressão aritmética, este é igual a
k=1
metade da soma do primeiro termo com o último vezes o número de termos, tem-se
X
1+n
2μ
2μ
×
×n=μ
k=
n (n + 1) k=1
n (n + 1)
2
n
logo, pode-se concluir que μ̂ é um estimador centrado para μ.
Por vezes, para um parâmetro, existem vários estimadores centrados, então, como decidir
qual dos estimadores deve ser utilizado? Neste casos deve-se optar, de entre os estimadores
centrados, pelo estimador que for mais eficiente.
Definição 3.2.9 (Eficiência relativa)
Sejam θb1 e θb2 dois estimadores centrados para θ, então diz-se que o estimador θb1 é mais eficiente
que o estimador θb2 se tiver menor variância, ou seja,
³ ´
³ ´
b
V ar θ1 < V ar θb2 .
160
(66)
Exemplo 3.2.18
Considere os seguintes estimadores para μ com base numa amostra aleatória de dimensão n,
com n ≥ 30,
1X
= X=
Xi ;
n i=1
n
μb1
X1 + Xn
;
2
X1 + 2X2 + 3X3 + 4X4
;
=
10
n
1 X
=
Xi .
n − 1 i=1
μb2 =
μb3
μb4
1. Verificar se os estimadores são centrados.
Em relação ao primeiro estimador tem-se
E (μb1 ) = E(X) = μ
como já foi demonstrado no exemplo 3.2.14 na página 157. Assim, o estimador μb1 é
centrado para μ. Em relação ao segundo estimador tem-se
¶
µ
1
X1 + Xn
= E (X1 + Xn ) =
E (μb2 ) = E
2
2
1
1
1
[E (X1 ) + E (Xn )] = (μ + μ) = 2μ = μ
=
2
2
2
logo, o estimador μb2 também é centrado para μ. Em relação ao estimador μb3 tem-se
¶
µ
X1 + 2X2 + 3X3 + 4X4
=
E (μb3 ) = E
10
1
E (X1 + 2X2 + 3X3 + 4X4 ) =
=
10
1
[E (X1 ) + E (2X2 ) + E (3X3 ) + E (4X4 )] =
=
10
1
=
[E (X1 ) + 2E (X2 ) + 3E (X3 ) + 4E (X4 )] =
10
1
1
=
[μ + 2μ + 3μ + 4μ] = 10μ = μ
10
10
assim, também o estimador μb3 é centrado para μ. Finalmente, em relação a μb4 , o seu
161
valor esperado é
E (μb4 ) = E
=
=
Ã
1 X
Xi
n − 1 i=1
n
!
1
=
E
n−1
à n
X
i=1
Xi
!
=
1 X
1 X
E (Xi ) =
μ=
n − 1 i=1
n − 1 i=1
n
n
n
1
nμ =
μ 6= μ,
n−1
n−1
de onde se conclui que o estimador μb4 não é centrado para μ.
2. Calcule a variância de cada um dos estimadores.
Em relação ao estimador μb1 tem-se
V ar(μb1 ) = V ar(X) = V ar
Ã
1X
Xi
n i=1
n
!
!
à n
X
1
= 2 V ar
Xi
n
i=1
que, tendo em conta que (X1 , X2 , · · · , Xn ) é uma amostra aleatória e, como tal, constituída por variáveis aleatórias independentes e identicamente distribuidas, conclui-se que,
pela independência, a variância da soma é igual à soma das variâncias e, pelo facto de
as variáveis serem identicamente distribuidas, a variância é igual em todas as variáveis,
ou seja, V ar(Xi ) = σ 2 . Assim,
!
à n
n
X
1
1 X
=
V
ar
X
V ar (Xi ) =
i
2
n2
n
i=1
i=1
n
1 X 2
1
σ2
= 2
σ = 2 n σ2 = ,
n i=1
n
n
logo a variância de μb1 é
Em relação ao estimador μb2 tem-se
V ar (μb1 ) =
µ
σ2
.
n
X1 + Xn
2
¶
=
V ar(μb2 ) = V ar
µ ¶2
1
=
V ar (X1 + Xn )
2
162
que, como X1 e Xn são i. i. d., então
µ ¶2
1
V ar (X1 + Xn ) =
2
1
=
[V ar (X1 ) + V ar (Xn )] =
4
¤ σ2
1£ 2
σ + σ2 =
= 0.5σ2 .
=
4
2
Assim, a variância deste estimador é
Em relação ao estimador μb3 tem-se
V ar(μb2 ) = 0.5σ2 .
µ
X1 + 2X2 + 3X3 + 4X4
10
¶
V ar (μb3 ) = V ar
=
µ ¶2
1
=
V ar (X1 + 2X2 + 3X3 + 4X4 )
10
que, tendo em conta que X1 , X2 , X3 , X4 são i. i. d., tem-se
µ ¶2
1
V ar (X1 + 2X2 + 3X3 + 4X4 ) =
10
1
[V ar (X1 ) + V ar (2X2 ) + V ar (3X3 ) + V ar (4X4 )] =
=
100
¤
1 £
=
V ar (X1 ) + 22 V ar (X2 ) + 32 V ar (X3 ) + 42 V ar (X4 ) =
100
¤
1 £ 2
30 2
σ + 4σ 2 + 9σ 2 + 16σ 2 =
σ = 0.3σ2 ,
=
100
100
concluindo-se que a variância do terceiro estimador é
V ar(μb3 ) = 0.3σ2 .
Finalmente, em relação ao estimador μb4 tem-se
!
!
Ã
à n
n
X
1
1 X
Xi =
V ar
Xi
V ar (μb4 ) = V ar
n − 1 i=1
(n − 1)2
i=1
163
que, tendo em conta que X1 , X2 , · · · , Xn é uma amostra aleatória, tem-se
!
à n
X
1
V ar
Xi =
(n − 1)2
i=1
n
n
X
X
1
1
=
V
ar
(X
)
=
σ2 =
i
2
2
(n − 1) i=1
(n − 1) i=1
n
1
2
σ2.
=
2nσ =
(n − 1)
(n − 1)2
A variância do estimador μb4 é igual a
V ar(μb4 ) =
n
σ2.
(n − 1)2
3. Qual dos estimadores apresentados é mais eficiente?
Em primeiro lugar, só faz sentido comparar a eficiência de um conjunto de estimadores
centrados, como tal, o estimador μb4 (por não ser centrado) não irá ser analisado. Assim,
dos restantes três estimadores pretende-se determinar aquele que possui menor variância.
Considerando que a variância de cada um dos estimadores é:
σ2
;
n
V ar (μb2 ) = 0.5σ 2 ;
V ar (μb1 ) =
V ar (μb3 ) = 0.3σ 2 .
Tendo em conta que n ≥ 30 tem-se V ar (μb1 ) < V ar (μb3 ) < V ar (μb2 ), concluindo-se que o
estimador μb1 é o mais eficiente dos três estimadores analisados, sendo μb3 mais eficiente
do que μb2 .
Uma outra análise à qualidade de um estimador é averiguar se este melhora com o aumento
da dimensão da amostra. Este tipo de análise é importante no caso de utilização de amostras
com grandes dimensões. Uma das formas usuais de analisar se um estimador vai melhorando
as suas qualidades quando a dimensão da amostra vai aumentando é averiguar se o estimador
é consistente.
164
Definição 3.2.10 (Estimador consistente)
O estimador θ̂ de θ diz-se consistente se
¯
´
³¯
¯
¯
∀ε > 0 : lim P ¯θ̂ − θ¯ < ε = 1
n→+∞
(67)
Para demonstrar que um estimador é consistente através da definição é, normalmente, bastante complicado, assim, na prática, é utilizado o seguinte teorema que fornece condições suficientes para garantir que um estimador seja consistente.
Teorema 3.2.1 (Condições suficiente para que um estimador seja consistente)
⎧
³ ´
⎪
⎨ lim E θ̂ = θ
n→+∞
³ ´
⎪
⎩ lim V ar θ̂ = 0
(68)
n→+∞
Nota:
O teorema anterior apresenta apenas as condições suficientes para que um estimador
seja consistente. Isto significa que, se estas condições se verificarem, conclui-se
que o estimador é consistente, mas, caso contrário, nada se pode concluir sobre a
consistência do estimador.
Exemplo 3.2.19
Considere os estimadores para μ apresentados no exemplo 3.2.18 na página 161 e analise-os
em relação à consistência.
O que se pretende ver é quais, dos quatro estimadores apresentados, é que satisfazem
⎧
⎪
⎨ lim E (μbi ) = μ
n→+∞
, para i = 1, 2, 3, 4.
⎪
⎩ lim V ar (μbi ) = 0
n→+∞
Em relação a μb1 tem-se
⎧
⎪
⎨ lim E (μb1 ) = lim μ = μ
n→+∞
n→+∞
σ2
⎪
⎩ lim V ar (μb1 ) = lim
=0
n→+∞
n→+∞ n
165
logo o estimador μb1 é consistente para μ. Em relação a μb2 tem-se
⎧
⎪
⎨ lim E (μb2 ) = lim μ = μ
n→+∞
n→+∞
⎪
⎩ lim V ar (μb2 ) = lim 0.5σ2 = 0.5σ 2 6= 0
n→+∞
n→+∞
assim, como uma das condições não se verificou, nada se pode concluir sobre a consistência de
μb2 . Em relação a μb3 tem-se
⎧
⎪
⎨ lim E (μb3 ) = lim μ = μ
n→+∞
n→+∞
⎪
⎩ lim V ar (μb3 ) = lim 0.3σ2 = 0.3σ 2 6= 0
n→+∞
n→+∞
logo, também em relação ao estimador μb3 nada se pode concluir. Finalmente, em relação a μb4
tem-se
⎧
⎪
⎨ i) lim E (μb4 ) = lim
n
μ=μ
n→+∞
n→+∞ n − 1
n
⎪ ii) lim V ar (μb4 ) = lim
σ2 = 0
⎩
n→+∞
n→+∞ (n − 1)2
logo o estimador μb4 é consistente para μ. Note-se que este estimador não é centrado, mas é
consistente.
166
3.3
Distribuições amostrais
Ao longo do estudo da estimação pontual utilizaram-se estimadores para calcular estimativas de
parâmetros desconhecidos da população. Até agora apenas foi referido que um estimador é uma
variável aleatória, mas, se é uma variável aleatória, qual será a sua distribuição? Neste capítulo
responder-se-á a esta pergunta, sob determinadas condições, em relação aos estimadores mais
utilizados para a média da população, para a proporção de uma população e para a variância
da população.
3.3.1
Distribuição da média amostral - σ conhecido e população com distribuição
Normal
Teorema 3.3.1
Considere uma população que segue distribuição Normal com E (Xi ) = μ e V ar (Xi ) = σ 2 .
Seja X1 , X2 , · · · , Xn uma amostra aleatória desta população, então
¶
µ
σ
.
X ∼ N μ, √
n
Demonstração:
Considere-se uma população que segue uma distribuição normal com σ conhecido
[X ∼ N (μ, σ)]. Assim, tendo em conta que uma amostra aleatória (X1 , X2 , · · · , Xn )
é constituída por n variáveis aleatórias i. i. d. (independentes e identicamente
distribuidas) a X, pode-se concluir que
Xi ∼ N(μ, σ) para i = 1, · · · , n.
Finalmente, recordando que
1X
X=
Xi ,
n i=1
n
ou seja, que X é obtido por uma combinação linear de variáveis aleatórias independentes com distribuição Normal, pode-se utilizar o teorema da estabilidade da
distribuição Normal (rever teorema 2.5.6 na página 91) para concluir que X tem
167
(69)
distribuição Normal. Como E(X) = μ e V ar(X) =
σ2
tem-se
n
¶
µ
σ
.
X ∼ N μ, √
n
Exemplo 3.3.1
O tempo de produção de cada peça de cerâmica da empresas BoaLoiça é uma variável aleatória
com distribuição Normal com média 1000 segundos e desvio padrão 80 segundos.
1. Qual a probabilidade de, ao ser recolhida uma amostra aleatória, a média amostral situar-se entre 980 e 1020 segundos?
(a) Considere uma amostra aleatória de dimensão 25.
Como X ∼ N (1000, 80), ou seja μ = 1000 e σ = 80 e a amostra é constituída por
vinte e cinco observações (n = 25) tem-se
¶
µ
σ
,
X ∼ N μ, √
n
ou seja,
¶
µ
80
,
X ∼ N 1000, √
25
X ∼ N (1000, 16)
logo
¶
1020 − 1000
980 − 1000
≤Z≤
=
16
16
= P (−1.25 ≤ Z ≤ 1.25) = P (Z ≤ 1.25) − P (Z ≤ −1.25) =
¡
¢
P 980 ≤ X ≤ 1020 = P
µ
= P (Z ≤ 1.25) − [1 − P (Z ≤ 1.25)] = 2P (Z ≤ 1.25) − 1 =
= 2 × 0.8944 − 1 = 0.7888.
168
(b) Considere uma amostra aleatória de dimensão 100.
Como X ∼ N (1000, 80), onde μ = 1000 e σ = 80, e a amostra é constituída por
cem observações (n = 100) tem-se
¶
µ
σ
,
X ∼ N μ, √
n
ou seja,
¶
µ
80
X ∼ N 100, √
100
X ∼ N (100, 8)
logo
µ
¶
980 − 1000
1020 − 1000
≤Z≤
=
8
8
= P (−2.5 ≤ Z ≤ 2.5) = P (Z ≤ 2.5) − P (Z ≤ −2.5) =
¡
¢
P 980 ≤ X ≤ 1020 = P
= P (Z ≤ 2.5) − [1 − P (Z ≤ 2.5)] = 2P (Z ≤ 2.5) − 1 =
= 2 × 0.9938 − 1 = 0.9876.
2. Qual a dimensão da amostra a recolher de forma a que a média amostral seja inferior a
1020 com probabilidade superior a 0.975.
Considerando que a população tem distribuição Normal e σ é conhecido, pela fórmula (69)
na página 167 conclui-se que
¶
µ
σ
,
X ∼ N μ, √
n
ou seja,
¶
µ
80
X ∼ N 1000, √
n
169
pretendendo—se determinar o valor de n tal que
¢
¡
P X < 1020 > 0.975 ⇔
⎛
⎞
⎜
1020 − 1000 ⎟
⎟ > 0.975 ⇔
Z
<
⇔ P⎜
⎝
⎠
80
√
n
µ
¶
√
20
⇔ P Z<
n > 0.975 ⇔
80
¡
√ ¢
⇔ P Z < 0.25 n > 0.975 ⇔
√
⇔ 0.25 n > 1.96 ⇔ n > 61.4656
que, como n ∈ N, considera-se n ≥ 62.
Nota:
Na fórmula da distribuição da média amostral,
¶
µ
σ
,
X ∼ N μ, √
n
σ
verifica-se que o desvio padrão de X é igual a √ , isto é
n
σ
σX = √ ,
n
logo este depende da dimensão da amostra (n). Assim, conclui-se que quanto maior
for a dimensão da amostra (valor de n) menor será a dispersão de X em torno de
μ.
3.3.2
Distribuição da média amostral - σ conhecido e população com distribuição
não Normal (ou desconhecida)
Quando a distribuição da população não é a distribuição Normal (ou não é conhecida) tem-se
que recorrer ao teorema do limite central (teorema 2.5.9 apresentado na página 96) que é um
dos teoremas com maior importância na Estatística. Deste teorema retira-se que
X=
n
X
i=1
¡
√ ¢
•
Xi ∼ N nμ, nσ
que, como corolário, pode-se deduzir a distribuição da média amostral.
170
Corolário 3.3.1
Sejam X1 , X2 , · · · , Xn , n variáveis aleatórias independentes e identicamente distribuidas (i.i.d.)
com E(X) = μ e V ar(X) = σ 2 , então, fazendo n tender para infinito, a variável aleatória
n
1P
X=
Xi tem distribuição aproximadamente Normal, ou seja,
n i=1
¶
µ
σ
•
(70)
X ∼ N μ, √
n
Regra:
Na prática utiliza-se o teorema do limite central e, como tal, também este corolário,
quando n ≥ 30.
Demonstração:
Considerando que
1X
Xi e
n i=1
n
X=
n
X
i=1
¡
√ ¢
•
Xi ∼ N nμ, nσ
pelo teorema do limite central (as condições do teorema e do corolário são as mesmas), então, pelo teorema da estabilidade da Lei Normal (ver teorema 2.5.6 na
página 91) X também tem distribuição (aproximadamente) Normal.
Exemplo 3.3.2
O número de produtos vendidos diariamente na loja BoaVida é uma variável aleatória com
valor esperado 200 e desvio padrão igual a 30.
1. Se for recolhida uma amostra aleatória de dimensão 100 (observados cem dias), qual a
probabilidade de a média diária de vendas na amostra ser superior a 205?
Tendo em conta que numa amostra aleatória as variáveis X1 , X2 , · · · , Xn são i. i. d.,
então pode-se utilizar o teorema do limite central e respectivo corolário pois n ≥ 30.
Assim, pela fórmula (70), obtém-se
¶
µ
σ
,
X ∼ N μ, √
n
•
171
que substituindo pelos valores do problema, μ = 200, σ = 30 e n = 100, tem-se
¶
µ
30
•
,
X ∼ N 200, √
100
que simplificando obtém-se
•
X ∼ N (200, 3) ,
logo
µ
¶
205 − 200
Z>
= P (Z > 1.6667) '
3
' 1 − φ (1.67) = 1 − 0.9525 = 0.0475.
¢
¡
P X > 205 ' P
2. Se for recolhida uma amostra aleatória de dimensão 400, qual a probabilidade de a média
amostral ser superior a 205?
Utilizando a mesma fórmula que na alínea anterior tem-se
¶
µ
30
•
,
X ∼ N 200, √
400
que simplificando vem
•
X ∼ N (200, 1.5) ,
logo
µ
¶
205 − 200
Z>
= P (Z > 3.3333) '
1.5
' 1 − φ (3.33) = 1 − 0.9996 = 0.0004.
¡
¢
P X > 205 ' P
Exemplo 3.3.3
Na loja BoaVida o tempo que um cliente tem de esperar até ser atendido é uma variável
aleatória com média μ segundos e desvio padrão cinquenta (σ = 50). Qual a dimensão da
amostra a recolher de forma que a distância da média amostral à média da população seja
inferior a 10 com probabilidade superior a 0.99? (considere n ≥ 30)
Como n ≥ 30 tem-se
¶
µ
σ
,
X ∼ N μ, √
n
•
172
pela fórmula (70), onde substituindo σ pelo seu valor tem-se
¶
µ
50
•
,
X ∼ N μ, √
n
então, pretende-se determinar o valor de n tal que
¯
¡¯
¢
P ¯X − μ¯ < 10 > 0.99 ⇔
⇔ P (−10 < X − μ < 10) > 0.99 ⇔
⎞
⎛
⎜ 10
10 ⎟
⎟ > 0.99 ⇔
−
<
Z
<
⇔ P⎜
⎝ 50
50 ⎠
√
√
n
n
µ
¶
10 √
10 √
⇔ P −
n<Z<
n > 0.99 ⇔
50
50
¡
√ ¢
√
⇔ P −0.2 n < Z < 0.2 n > 0.99 ⇔
¡
¡
√ ¢
√ ¢
⇔ P Z < 0.2 n − P Z ≤ −0.2 n > 0.99 ⇔
¡
¡
√ ¢¤
√ ¢ £
⇔ P Z < 0.2 n − 1 − P Z ≤ 0.2 n > 0.99 ⇔
¡
√ ¢
⇔ 2P Z ≤ 0.2 n − 1 > 0.99
¡
√ ¢
⇔ P Z ≤ 0.2 n > 0.995 ⇔
√
⇔ 0.2 n > 2.576 ⇔ n > 165.89
que, como n ∈ N, considera-se n ≥ 166.
3.3.3
Distribuição da proporção amostral - População de Bernoulli
Um caso particular de aplicação do teorema do limite central surge para as populações de
Bernoulli (rever provas de Bernoulli presentes na página 61). Nas populações de Bernoulli as
observações só assumem dois valores, o valor um, no caso de sucesso, e o valor zero, no caso
de insucesso. Assim, nestas populações, a média não é mais do que a proporção de sucessos
(número de sucessos a dividir pelo número total de elementos). Por esta razão representa-se
por p a proporção de sucesso da população (que não é mais do que a média da população, ou
seja, o parâmetro μ) e por p̂ a proporção de sucessos na amostra (que é a média da amostra, ou
seja, o estimador X). Se recordarmos que, na distribuição de Bernoulli a variância da variável é
173
dada por p (1 − p) (ou seja, σ =
p
p (1 − p)), então pode-se utilizar estes resultados no corolário
3.3.1 da página 171 obtendo-se assim o teorema de De Moivre-Laplace.
Teorema 3.3.2 (Teorema de De Moivre - Laplace)
Sejam X1 , · · · , Xn , n variáveis i. i. d. com distribuição de Bernoulli, onde E(X) = p e
V ar(X) = p (1 − p), então, fazendo n tender para infinito, a variável aleatória p̂ tem distribuição aproximadamente Normal, ou seja,
à r
!
p (1 − p)
p̂ − p
•
•
∼ N (0, 1)
, ou seja, r
p̂ ∼ N p,
n
p (1 − p)
n
Regra:
(71)
Na prática utiliza-se o teorema de De Moivre - Laplace quando n ≥ 30.
Exemplo 3.3.4
Considere que se pretende fazer uma sondagem para saber qual a opinião dos portugueses sobre
a acção do governo.
1. Considerando que cinquenta por cento dos portugueses é favorável às políticas do governo
(p = 0.5), qual é a probabilidade de, numa amostra aleatória de dimensão 100, haver uma
proporção superior a cinquenta e um por cento de indivíduos favoráveis às políticas do
governo (p̂ > 0.51)?
Considerando que n ≥ 30, pode-se utilizar a fórmula (71), que substituído os valores
conhecidos vem
•
p̂ ∼ N
Ã
0.5,
r
0.5 (1 − 0.5)
100
!
,
ou seja,
•
p̂ ∼ N (0.5, 0.05) ,
então
µ
¶
0.51 − 0.5
P (p̂ > 0.51) ' P Z >
=
0.05
= P (Z > 0.2) = 1 − P (Z ≤ 0.2) =
= 1 − 0.5793 = 0.4207.
174
2. Qual deverá ser a dimensão da amostra aleatória a recolher de forma a que a distância
entre a proporção de indivíduos favoráveis à acção do governo na população (p) e na
amostra (p̂) seja inferior a 0.02 com probabilidade superior a 0.9?
Pretende-se determinar o valor de n tal que P (|p̂ − p| < 0.02) > 0.9, então, sob a hipótese
de n ≥ 30, pode-se utilizar o resultado da fórmula (71), ou seja
!
à r
p
(1
−
p)
•
, ou
p̂ ∼ N p,
n
Z = r
então
p̂ − p
p (1 − p)
n
•
∼ N(0, 1)
P (|p̂ − p| < 0.02) > 0.9 ⇔ P (−0.02 < p̂ − p < 0.02) > 0.9,
r
considerando que para obter a variável aleatória Z basta dividir tudo por
que
P (−0.02 < p̂ − p < 0.02) > 0.9 ⇔
⎛
p (1 − p)
, vem
n
⎞
⎜ −0.02
⎟
p̂ − p
0.02
⎟ > 0.9 ⇔
r
r
r
⇔ P⎜
<
<
⎝ p (1 − p)
p (1 − p)
p (1 − p) ⎠
n
n
⎛
⎞ n
⎜ −0.02
⎟
0.02
⎜
⎟
<Z< p
⇔ P ⎜p
⎟ > 0.9
⎝ p (1 − p)
p (1 − p) ⎠
√
√
n
n
que simplificando vem
Ã
√
√ !
0.02 n
0.02 n
P −p
<Z< p
> 0.9 ⇔
p (1 − p)
p (1 − p)
Ã
Ã
√ !
√ !
0.02 n
0.02 n
− P Z ≤ −p
> 0.9 ⇔
⇔ P Z<p
p (1 − p)
p (1 − p)
Ã
Ã
√ !#
√ ! "
0.02 n
0.02 n
− 1−P Z < p
> 0.9 ⇔
⇔ P Z<p
p (1 − p)
p (1 − p)
Ã
Ã
√ !
√ !
0.02 n
0.02 n
− 1 > 0.9 ⇔ P Z < p
> 0.95
⇔ 2P Z < p
p (1 − p)
p (1 − p)
175
que recorrendo à tabela da distribuição Normal vem
√
0.02 n
p
> 1.645 ⇔
p (1 − p)
√
1.645 p
n>
p (1 − p)
⇔
0.02
µ
¶2
1.645
⇔ n>
p (1 − p) ⇔ n > 6765.0625 × p (1 − p)
0.02
assim o valor de n depende do valor de p, no entanto, para garantir o pretendido, para
qualquer que seja o valor de p, deve-se maximizar esta função, pois assim vai-se garantir
para o “pior” valor de p e, consequentemente, para qualquer outro valor de p. Para
maximizar a função calculam-se as suas derivadas.
∂ [6765.0625 × p (1 − p)]
=0⇔
∂p
∂ [6765.0625 × (p − p2 )]
=0⇔
⇔
∂p
1
⇔ 6765.0625 (1 − 2p) = 0 ⇔ p =
2
para que o ponto encontrado seja, de facto, um máximo, a segunda derivada tem que ser
negativa, então
∂ 2 [6765.0625 × p (1 − p)]
∂ [6765.0625 × (1 − 2p)]
=
=
2
∂p
∂p
= −6765.0625 × 2 < 0
logo p =
1
2
é o valor de p que maximiza a função. Substituindo obtém-se
µ
¶
1
1
1−
⇔ n > 1691.3
n > 6765.0625 ×
2
2
que, como n ∈ N, considera-se n ≥ 1692. Assim, com uma amostra com dimensão de
pelo menos 1692 observações garante-se, com probabilidade superior a 0.9, que a distância
entre a proporção na população (p) e a proporção na amostra (p̂) seja inferior a 0.02, seja
qual for o valor de p.
176
3.3.4
Distribuição da variância amostral - População com distribuição Normal
Teorema 3.3.3
Considere uma população que segue distribuição Normal com E (Xi ) = μ e V ar (Xi ) = σ 2 .
Seja X1 , X2 , · · · , Xn uma amostra aleatória desta população, então
(n − 1) SC2
∼ χ2(n−1) .
σ2
(72)
onde SC2 representa a variância corrigida da amostra.
Demonstração:
Considere-se uma população que tem distribuição normal [X ∼ N(μ, σ)]. Assim,
tendo em conta que uma amostra aleatória (X1 , X2 , · · · , Xn ) é constituída por n
variáveis aleatórias i. i. d. a X, pode-se concluir que
Xi ∼ N(μ, σ) para i = 1, · · · , n,
logo
Zi =
Xi − μ
∼ N (0, 1)
σ
que pela relação da distribuição Normal com a Qui-quadrado (ver teorema 2.5.11
na página 102) vem que
Zi2
=
µ
Xi − μ
σ
¶2
=
(Xi − μ)2
∼ χ2(1) .
σ2
Como as variáveis aleatórias Xi são independentes, então as variáveis
Zi2 =
(Xi − μ)2
∼ χ2(1)
σ2
também o são. Assim, pelo teorema da aditividade da distribuição Qui-quadrado
(teorema 2.5.12 presente na página 104) conclui-se que
n
X
i=1
Zi =
n µ
X
i=1
Xi − μ
σ
¶2
=
177
n
X
i=1
(Xi − μ)2
σ2
∼ χ2(n) .
(73)
Note-se que, se desenvolvermos o numerador desta expressão, somando e subtraindo
X, obtém-se
n
X
i=1
2
(Xi − μ)
n
n
X
¢2 X
¢ ¡
¢¤2
¡
£¡
=
=
Xi − X + X − μ =
Xi − X + X − μ
=
i=1
n h
X
i=1
i=1
¡
¢2
¡
¢¡
¢ ¡
¢2 i
Xi − X + 2 Xi − X X − μ + X − μ
=
n
n
n
X
¢2 X
¡
¢¡
¢ X
¢2
¡
¡
=
2 Xi − X X − μ +
X −μ =
Xi − X +
=
i=1
n
X
i=1
i=1
i=1
¢2
¡
¢
¡
Xi − X + 2 X − μ
n
X
i=1
n
X
¢2
¡
¢2
¡
=
Xi − X + n X − μ
¢
¡
¢2
¡
Xi − X + n X − μ =
i=1
pois
" n
#
n
n
X
¡
¢X
¢
¡
¢ X
¡
2 X −μ
Xi −
X =
Xi − X = 2 X − μ
i=1
i=1
" i=1
#
n
X
¡
¢
= 2 X −μ
Xi − nX
i=1
que como
X
1X
Xi ⇔
Xi = nX
n i=1
i=1
n
X=
conclui-se que
n
" n
#
¡
¢ X
¡
¢¡
¢
2 X −μ
Xi − nX = 2 X − μ nX − nX = 0,
i=1
logo
n
¡
¢X
¢
¡
2 X −μ
Xi − X = 0.
i=1
Como tal, tem-se
n
X
i=1
=
n
X
¢2
¡
¢2
¡
Xi − X + n X − μ
=
n
X
¡
Xi − X
2
(Xi − μ)
σ2
i=1
i=1
σ2
178
σ2
¢2
=
¢2
¡
n X −μ
+
.
σ2
(74)
(75)
Note-se que
¡
¢2
n X −μ
∼ χ2(1)
σ2
pois, como (X1 , X2 , · · · , Xn ) é constituída por n variáveis aleatórias i. i. d. a X e
X ∼ N(μ, σ), pode-se utilizar a fórmula (69) presente na página 167,
¶
µ
σ
,
X ∼ N μ, √
n
ou seja,
Z=
como tal
⎛
X −μ
σ ∼ N (0, 1) ,
√
n
⎞2
¡
¢2
¢2
¡
n
X
−
μ
X
−
μ
X
−
μ
⎜
⎟
=
∼ χ2(1)
Z2 = ⎝ σ ⎠ =
2
2
σ
σ
√
n
n
Assim, se na expressão (74) substituir-se os resultados (73) e (76) obtém-se
χ2(n) =
logo conclui-se que
n
X
¢2
¡
Xi − X
i=1
σ2
+ χ2(1) ,
n
X
¢2
¡
Xi − X
i=1
∼ χ2(n−1)
σ2
Esta fórmula pode ser desenvolvida através de
n
X
¢2
¡
Xi − X
i=1
σ2
=
(76)
(77)
n
¢2
1 X¡
−
X
X
i
σ 2 i=1
que, multiplicando e dividindo tudo por n − 1, vem
¢2
n
n ¡
¢2 n − 1 X
Xi − X
1 X¡
.
Xi − X =
σ 2 i=1
σ 2 i=1
n−1
Recordando a fórmula da variância corrigida - SC2 (ver fórmula (65) na página 159)
vem que
¢2
n ¡
n − 1 X Xi − X
n−1 2
S
=
2
σ i=1
n−1
σ2 C
179
Assim conclui-se que
(n − 1) SC2
∼ χ2(n−1) .
σ2
Nota:
Note-se que na fórmula (73) tinha-se deduzido que
n
X
i=1
(Xi − μ)2
σ2
∼ χ2(n)
e na fórmula (77) concluiu-se que
n
X
¢2
¡
Xi − X
i=1
σ2
∼ χ2(n−1) ,
onde se verifica que se perde um grau de liberdade quando numa substitui-se um dos
parâmetros (μ - média da população) pelo seu estimador (X - média da amostra).
Isto verifica-se pelo facto que no primeiro caso tem-se a soma de n variáveis aleatórias
independentes enquanto que, no segundo caso, uma das variáveis é dependente das
restantes, pois se o valor de X e de n − 1 variáveis Xi são conhecidas, a outra
variável Xi pode ser determinada.
Exemplo 3.3.5
O Departamento de Pessoal da empresa BoaVida fez um levantamento dos salários dos seus
funcionários do sector administrativo. Considere que os salários seguem uma distribuição Normal com valor esperado 1000 euros e desvio padrão 10 euros.
1. Qual a probabilidade de a variância amostral corrigida ser inferior a 120 considerando
uma amostra aleatória de dimensão 25?
Considerando que a população tem distribuição Normal então pode-se utilizar
(n − 1) SC2
∼ χ2(n−1)
σ2
180
que como σ = 10 e n = 25 tem-se
(25 − 1) SC2
= 0.24SC2 ∼ χ2(24)
102
logo
¡
¢
¡
¢
¡
¢
P SC2 < 120 = P 0.24SC2 < 0.24 × 120 = P χ2(24) < 28.8
que recorrendo às tabelas da distribuição Qui-quadrado vem
Valores de x Valores de α
28.241
0.75
28.8
α0 =?
29.553
0.80
logo, pela interpolação linear, vem
29.553 − 28.241
29.553 − 28.8
0.80 − 0.75
⇔
0.80 − α0
⇔ α0 ' 0.7713.
=
logo
¢
¡
P χ2(24) < 28.8 ' 0.7713.
2. Qual a probabilidade de o desvio padrão amostral corrigido ser superior a 9 considerando
uma amostra aleatória de dimensão 101?
Considerando que a população tem distribuição Normal então pode-se utilizar
(n − 1) SC2
∼ χ2(n−1)
σ2
que como σ = 10 e n = 101 tem-se
(101 − 1) SC2
= SC2 ∼ χ2(100)
2
10
logo
¡
¢
¡
¢
¡
¢
P (SC > 9) = P SC2 > 81 = P χ2(100) > 81 = 1 − P χ2(100) ≤ 81
181
que recorrendo às tabelas da distribuição Qui-quadrado vem
Valores de x Valores de α
77.929
0.05
81
α0 =?
82.358
0.10
logo, pela interpolação linear, vem
82.358 − 77.929
82.358 − 81
0.10 − 0.05
⇔
0.10 − α0
⇔ α0 ' 0.08467.
=
concluindo-se que
¢
¡
1 − P χ2(100) ≤ 81 ' 1 − 0.08467 = 0.91533.
3.3.5
Distribuição da média amostral - σ desconhecido e população com distribuição Normal
Teorema 3.3.4
Considere uma população que segue distribuição Normal com E (Xi ) = μ e V ar (Xi ) = σ 2 .
Seja X1 , X2 , · · · , Xn uma amostra aleatória desta população, então
X −μ
∼ t(n−1)
SC
√
n
onde SC representa o desvio padrão corrigido da amostra.
Demonstração:
Em relação a uma população com distribuição Normal, quando foi analisada a
distribuição da média amostral, supondo σ conhecido, deduziu-se que
¶
µ
σ
,
X ∼ N μ, √
n
182
(78)
ou seja,
X −μ
σ ∼ N (0, 1) .
√
n
Na distribuição da variância amostral concluiu-se que
X0 =
Y0 =
(n − 1) SC2
∼ χ2(n−1) .
σ2
Supondo a independência entre estes dois resultados e utilizando o teorema 2.5.17
da página 110, conclui-se que
r
X0
∼ t(n−1) ,
Y0
n−1
logo
X −μ
σ
√
n
v
u (n − 1) S 2
u
C
t
σ2
n−1
que, simplificando a fórmula, vem
X −μ
σ
√
n
v
u (n − 1) S 2
u
C
t
σ2
n−1
∼ t(n−1)
X −μ
σ
√
n
X −μ
σ
√
n
= r
=s
,
SC2
(n − 1) SC2
σ2
σ 2 (n − 1)
que, como σ > 0 e SC > 0, tem-se
X −μ
X −μ
σ
σ
√
√
X −μ
X −μ
n
n
r
=
=
=
SC
SC
S
σ
SC2
√C
×√
σ
σ
n
n
σ2
logo
X −μ
∼ t(n−1)
SC
√
n
183
Exemplo 3.3.6
O lucro obtido por cada produto vendido na loja BoaVida tem distribuição Normal com média
μ e desvio padrão σ.
1. Supondo que o lucro médio é duzentos euros (μ = 200), determine a probabilidade de a
média amostral ser superior a 205 com base numa amostra aleatória de dimensão 11 onde
se obteve uma variância igual a 110.
Considerando que a população tem distribuição Normal com σ desconhecido, utiliza-se
X −μ
∼ t(n−1) .
SC
√
n
Tendo em conta que μ = 200, n = 11, s2 = 4 e que
n
S 2 , logo
n−1
√
11
=
× 110 = 121 =⇒ sC = 121 = 11
10
SC2 =
s2C
obtém-se
X − 200
X − 200
= √
∼ t(10) .
11
11
√
11
Assim,
µ
¢
¡
P X > 205 = P
X − 200
205 − 200
√
√
>
11
¡
¢ 11
= P t(10) > 1.5076 =
¢
¡
= 1 − P t(10) ≤ 1.5076
que recorrendo às tabelas da distribuição t-Student vem
Valores de x Valores de α
1.3722
0.90
1.5076
α0 =?
1.8125
0.95
184
¶
=
logo, pela interpolação linear, vem
1.8125 − 1.3722
1.8125 − 1.5076
0.95 − 0.90
⇔
0.95 − α0
⇔ α0 ' 0.91538.
=
logo
¢
¡
1 − P t(10) ≤ 1.5076 ' 1 − 0.91538 = 0.08462.
2. Com base numa amostra aleatória de dimensão 25 onde s2 = 864, qual a probabilidade de
a média do lucro obtido em cada produto numa amostra afastar-se menos de dez euros da
¯
£ ¡¯
¢ ¤
média da população? P ¯X − μ¯ < 10 =?
Considerando que a população tem distribuição Normal com σ desconhecido, vai-se uti-
lizar
X −μ
∼ t(n−1)
SC
√
n
Primeiro vai-se calcular a variância corrigida
n
S 2 , logo
n−1
√
25
× 864 = 900 =⇒ sC = 900 = 30.
=
24
SC2 =
s2C
Assim,
X −μ X −μ
∼ t(24) ,
=
30
6
√
25
logo,
¯
¡¯
¢
¡
¢
P ¯X − μ¯ < 10 = P −10 < X − μ < 10 =
¶
µ
X −μ
10
10
<
=
= P − <
6
6
6
¢
¡
= P −1.6667 < t(24) < 1.6667 =
¢
¡
¢
¡
= P t(24) < 1.6667 − P t(24) < −1.6667 =
¢
¡
¢
¡
= P t(24) < 1.6667 − P t(24) > 1.6667 =
¢ £
¡
¢¤
¡
= P t(24) < 1.6667 − 1 − P t(24) < 1.6667 =
¢
¡
= 2P t(24) < 1.6667 − 1.
185
Recorrendo às tabelas da distribuição t-Student vem
Valores de x Valores de α
1.3178
0.90
1.6667
α0 =?
1.7109
0.95
que, pela interpolação linear, conclui-se que
1.7109 − 1.3178
1.7109 − 1.6667
0.95 − 0.90
⇔
0.95 − α0
⇔ α0 ' 0.94438.
=
Substituindo o valor obtido obtém-se
¡
¢
2P t(24) < 1.6667 − 1 ' 2 × 0.94438 − 1 = 0.88876.
Nota:
Quando a dimensão da amostra é superior a trinta elementos (n > 30), os graus de
liberdade da t-Student são maiores ou iguais a 30 (n − 1 ≥ 30), logo pode-se aplicar
o teorema 2.5.18 presente na página 111 que aproxima a distribuição t-Student à
distribuição Normal. Desta forma conclui-se que:
X −μ •
∼ N (0, 1)
SC
√
n
ou
¶
µ
SC
X ∼ N μ, √
n
•
(79)
Exemplo 3.3.7
O tempo (em minutos) que uma perfuradora Perfurix do modelo SP-2000 demora a perfurar
vinte polegadas é uma variável aleatória X com distribuição Normal. Com base numa amostra
aleatória de dimensão 400 onde s2 = 39900, qual a probabilidade de a média amostral afastar-se
¯
£ ¡¯
¢ ¤
menos de vinte minutos da média da população? P ¯X − μ¯ < 20 =?
Considerando que a população tem distribuição Normal com σ desconhecido, utiliza-se
X −μ
∼ t(n−1).
S
√C
n
186
Primeiro calcula-se a variância corrigida
n
S 2 , logo
n−1
√
400
× 39900 = 40000 =⇒ sC = 40000 = 200.
=
399
SC2 =
s2C
Assim,
X −μ X −μ
=
∼ t(399) ,
200
10
√
400
mas, como os graus de liberdade da t-Student são superiores a 30, pode-se aproximar à Normal,
concluindo-se que
X −μ •
∼ N (0, 1) .
10
Aplicando este resultado ao problema obtém-se
¯
¡¯
¢
¡
¢
P ¯X − μ¯ < 20 = P −20 < X − μ < 20 =
¶
µ
20
20
X −μ
<
=
= P − <
10
10
10
= P (−2 < Z < 2) =
= P (Z < 2) − P (Z < −2) =
= φ (2) − [1 − φ (2)] =
= 0.9772 − 1 + 0.9772 = 0.9544.
Exemplo 3.3.8
Considere que, para analisar o tempo que uma máquina demora a produzir determinado produto,
foi recolhida uma amostra aleatória de dimensão 36 onde foi obtido x = 1200 segundos e
s2 = 21875. Considerando que o tempo tem distribuição Normal, determine a probabilidade de
a média da amostra afastar-se menos de sessenta segundos da média da população.
Como σ não é conhecido e a população possui distribuição Normal, vai-se recorrer à fórmula
(78). A variância corrigida é obtida através de
n
S 2 , logo
n−1
√
36
=
× 21875 = 22500 =⇒ sC = 22500 = 150.
35
SC2 =
s2C
187
A distribuição a utilizar é
X −μ
X −μ
=
∼ t(35) ,
150
25
√
36
mas, como os graus de liberdade da t-Student são superiores a 30, o cálculo da probabilidade
pretendida pode ser simplificado utilizando a aproximação à distribuição Normal. Assim, podese utilizar
X −μ •
∼ N (0, 1) .
25
Pretende-se, então, calcular
µ
¶
60
60
− <Z<
=
25
25
= P (−2.4 < z < 2.4) = P (Z < 2.4) − P (Z < −2.4) =
¯
¡¯
¢
¡
¢
P ¯X − μ¯ < 60 = P −60 < X − μ < 60 = P
= P (Z < 2.4) − [1 − P (Z < 2.4)] = 2P (Z < 2.4) − 1 =
= 2 × 0.9918 − 1 = 0.9826.
188
3.3.6
Quadro resumo das distribuições amostrais
Parâmetro Estimador
Condições
μ
X
σ conhecido e população Normal
μ
X
σ conhecido e n ≥ 30
μ
X
σ desconhecido e população Normal
μ
X
σ desconhecido, população Normal e n > 30
p
pb
População Bernoulli e n ≥ 30
σ2
SC2
População Normal
189
Distribuição
¶
µ
σ
X ∼ N μ, √
n
¶
µ
σ
•
X ∼ N μ, √
n
X −μ
∼ t(n−1)
SC
√
n
X −μ
∼ N (0, 1)
SC
√
n
!
à r
p (1 − p)
•
pb ∼ N p,
n
Z=
(n − 1) SC2
σ2
∼ χ2(n−1)
3.4
Intervalos de confiança
Na teoria da estimação pontual foram utilizados estimadores para fornecer um valor (estimativa)
para um parâmetro desconhecido θ. No entanto, não foi avaliada a precisão da estimativa.
Esta precisão pode ser avaliada utilizando a teoria da estimação por intervalos, pois, neste
caso, em vez de se indicar um valor concreto para o parâmetro desconhecido θ, constrói-se um
intervalo que, com determinada probabilidade previamente definida, contém o verdadeiro valor
do parâmetro θ. Assim, estes intervalos, ao contrário da estimação pontual, permitem definir a
precisão da estimação (pois a probabilidade é escolhida previamente). Para a construção deste
intervalo, determina-se um intervalo aleatório para o parâmetro e, depois, com base numa
amostra particular, calcula-se o intervalo de confiança.
Definição 3.4.1 (Intervalo aleatório para θ)
Sejam T1 (X1 , X2 , · · · , Xn ) e T2 (X1 , X2 , · · · , Xn ) duas estatísticas (funções da amostra), então
diz-se que ]T1 , T2 [ é um intervalo aleatório para θ com probabilidade 1 − α se
P [T1 (X1 , X2 , · · · , Xn ) < θ < T2 (X1 , X2 , · · · , Xn )] = 1 − α
(80)
ou seja, ]T1 (X1 , X2 , · · · , Xn ) , T2 (X1 , X2 , · · · , Xn ) [ é um intervalo aleatório para θ com probabilidade igual a 1 − α.
Definição 3.4.2 (Intervalo de confiança para θ)
Se num intervalo aleatório para θ, seja ]T1 (X1 , X2 , · · · , Xn ) , T2 (X1 , X2 , · · · , Xn ) [, com probabilidade 1 − α, substituir-se nas funções T1 (X1 , X2 , · · · , Xn ) e T2 (X1 , X2 , · · · , Xn ) as variáveis
aleatórias por valores de uma amostra concreta, obtém-se o intervalo
]T1 (x1 , x2 , · · · , xn ) , T2 (x1 , x2 , · · · , xn ) [
(81)
que é denominado por intervalo com (1 − α) × 100 por cento de confiança para θ.
Para a construção dos intervalos de confiança utiliza-se um estimador, com distribuição
conhecida, para o parâmetro. Assim, para construir intervalos de confiança para μ deve-se utilizar o estimador X, pois, como foi analisado no capítulo 3.3, este estimador (sob determinadas
190
condições) tem distribuição conhecida. Seguindo o mesmo raciocínio, para construir intervalos
de confiança para σ ou σ2 deve-se utilizar o estimador SC2 . Com o objectivo de facilitar a
apresentação da construção dos intervalos de confiança analisa-se cada um dos casos analisados
no capítulo 3.3 em particular. Note-se que o raciocínio inerente à construção de um intervalo
de confiança é muito semelhante de caso para caso.
3.4.1
Intervalos de confiança para a média - σ conhecido e população com distribuição Normal
Considere-se uma população com distribuição Normal com média igual a μ e desvio padrão
igual a σ, isto é, X ∼ N (μ, σ). Se for recolhida uma amostra de dimensão n, como é que se
pode construir um intervalo com (1 − α) × 100 por cento de confiança para μ?
¡ ¢
Em primeiro lugar, como estimador de μ tem-se a média da amostra X , que, como a
população tem distribuição Normal e σ é conhecido, utiliza-se
¶
µ
σ
,
X ∼ N μ, √
n
ou seja,
Z=
X −μ
σ ∼ N (0, 1) .
√
n
(82)
Definição 3.4.3 (Variável fulcral)
A variável aleatória
X −μ
σ
√
n
que vai ser utilizada como base para a construção do intervalo de confiança é denominada por
Z=
variável aleatória fulcral. Esta variável tem função de distribuição conhecida e depende unicamente de um parâmetro desconhecido (sendo este o parâmetro para o qual se vai determinar
o intervalo de confiança).
Para determinar o intervalo aleatório para μ começa-se por definir um intervalo em que
P (linf < Z < lsup ) = 1 − α,
191
ou seja, determinar um intervalo ]linf , lsup [ onde a variável Z pertença com probabilidade igual a
1−α. Com o objectivo de o intervalo final possuir a menor amplitude possível, deve-se procurar
os valores de linf e lsup que minimizem a amplitude do intervalo ]linf , lsup [, concluindo-se que linf
e lsup são simétricos devido às características da distribuição Normal. Considerando que a
probabilidade de Z estar contido no intervalo ]linf , lsup [ é igual a 1 − α, então a probabilidade
α
de não pertencer a este intervalo é α, sendo a probabilidade de ser inferior a linf igual a e a
2
α
probabilidade de ser superior a lsup também igual a .
2
Interpretação gráfica de z1− α2 .
Assim, vai-se representar o ponto limite superior deste intervalo (lsup ) por z1− α , sendo zγ o
2
ponto cuja probabilidade de a variável Z ser inferior (ou igual) é igual a γ, ou seja, zγ pode ser
definido por
P (Z ≤ zγ ) = γ.
Exemplo 3.4.1
Qual o valor de z0.95 ?
Pela definição apresentada na fórmula (83), z0.95 pode ser definido por
P (Z ≤ z0.95 ) = 0.95,
que, recorrendo à tabela da função de distribuição da Normal, vem
P (Z ≤ z0.95 ) = 0.95 ⇔ z0.95 = 1.645
192
(83)
Assim, z0.95 representa o ponto em que a probabilidade de a variável aleatória Z ser inferior
(ou igual) a esse ponto é igual a 0.95, sendo o seu valor 1.645, ou seja, z0.95 = 1.645.
Considerando que lsup é igual a z1− α então linf , como foi referido, é simétrico a lsup sendo
2
igual a −z1− α . Substituindo estes resultados no intervalo inicialmente proposto vem
2
P (linf
´
³
α
α
= 1 − α.
< Z < lsup ) = 1 − α ⇔ P −z1− < Z < z1−
2
2
Substituindo a variável Z pela sua expressão (ver fórmula (82) na página 191) obtém-se
⎛
⎞
³
´
X −μ
⎜
⎟
P −z1− α < Z < z1− α = 1 − α ⇔ P ⎝−z1− α < σ < z1− α ⎠ = 1 − α.
2
2
2
2
√
n
Resolvendo em ordem ao parâmetro μ, conclui-se que
⎛
⎞
X −μ
⎜
⎟
P ⎝−z1− α < σ < z1− α ⎠ = 1 − α ⇔
2
2
√
n
µ
¶
σ
σ
⇔ P −z1− α √ < X − μ < z1− α √
=1−α⇔
2
2
n
n
¶
µ
σ
σ
⇔ P −z1− α √ − X < −μ < z1− α √ − X = 1 − α ⇔
2
2
n
n
µ
¶
σ
σ
⇔ P X − z1− α √ < μ < X + z1− α √
=1−α
2
2
n
n
que corresponde à definição de intervalo aleatório (ver fórmula (80) na página 190), logo o
intervalo aleatório para μ com probabilidade 1 − α é
∙
¸
σ
σ
X − z1− α √ , X + z1− α √
2
2
n
n
sendo o intervalo com (1 − α) × 100 por cento de confiança para μ definido por
¸
∙
σ
σ
x − z1− α √ , x + z1− α √
2
2
n
n
que resulta em substituir no intervalo aleatório o estimador pela estimativa (por valores obtidos
através de uma amostra particular).
193
Exemplo 3.4.2
A duração dos computadores da marca WorkFast tem distribuição Normal com valor médio
igual a μ dias e desvio padrão igual a 80 dias, isto é, X ∼ N (μ, 80). Considere que foi
recolhida uma amostra de 64 computadores onde se verificou uma média de 1000 dias e uma
variância igual a 6500. Construa um intervalo, com noventa e cinco por cento de confiança,
para o tempo médio de duração de um computador WorkFast.
Em primeiro lugar, considerando que a população tem distribuição Normal e σ é conhecido,
pode-se concluir que
¶
µ
σ
X ∼ N μ, √
n
que, substituindo pelos valores conhecidos, obtém-se
¶
µ
80
, ou seja, X ∼ N (μ, 10) .
X ∼ N μ, √
64
Assim, a variável fulcral a utilizar é
Z=
X −μ
∼ N (0, 1) .
10
Para determinar o intervalo inicial, vem que 1 − α = 0.95 (pois pretende-se um intervalo com
95 por cento de confiança) então z1− α = z0.975 , que pode ser determinado através de
2
P (Z ≤ z0.975 ) = 0.975 ⇔ z0.975 = 1.96
Interpretação gráfica de z0.975 .
194
Assim, o intervalo inicial será
µ
¶
X −μ
P −1.96 <
< 1.96 = 0.95
10
que resolvendo em ordem ao parâmetro μ vem
¢
¡
P 19.6 < X − μ < 19.6 = 0.95 ⇔
¢
¡
⇔ P 19.6 − X < −μ < 19.6 − X = 0.95 ⇔
¢
¡
⇔ P X − 19.6 < μ < X + 19.6 = 0.95.
O intervalo aleatório para μ, com probabilidade 0.95, é
¤
£
X − 19.6, X + 19.6
e o intervalo com noventa e cinco por cento de confiança para μ é
]1000 − 19.6, 1000 + 19.6[ ,
ou seja,
]980.4, 1019.6[ .
Assim, o tempo médio de duração de um computador WorkFast pertence ao intervalo ]980.4, 1019.6[
com noventa e cinco por cento de confiança.
195
Nota:
Em relação ao exemplo analisado anteriormente, tem-se que
¡
¢
P X − 19.6 < μ < X + 19.6 = 0.95
¤
£
devido às características da variável aleatória X. Como tal, X − 19.6, X + 19.6 é
um intervalo aleatório para μ com probabilidade 0.95. Todavia, qual será a probabilidade de μ pertencer ao intervalo de confiança?
P (980.4 < μ < 1019.6) = ?
(84)
Saliente-se que μ representa a média da população que é desconhecida mas é fixa.
Note-se, então, que na expressão anterior não existe nenhuma variável aleatória,
consequentemente a desigualdade 980.4 < μ < 1019.6 ou é verdadeira (sendo a
sua probabilidade igual a um) ou é falsa (sendo a sua probabilidade igual a zero).
Por exemplo, se o verdadeiro valor de μ for 975, este não pertence ao intervalo de
confiança, logo a probabilidade presente em (84) é igual a zero. Se, pelo contrário, μ
assume o valor 1010, este pertence ao intervalo de confiança, logo, a probabilidade
patente em (84) é igual a um. Assim, quando se diz que μ pertence a um intervalo
com noventa e cinco por cento de confiança, significa que, para noventa e cinco por
cento das amostras aleatórias, o intervalo de confiança contém o verdadeiro valor
de μ.
3.4.2
Intervalos de confiança para a média - σ conhecido e população com distribuição não Normal (ou desconhecida)
Considere-se uma população com distribuição desconhecida (ou outra que não seja a distribuição
Normal) com média igual a μ e desvio padrão igual a σ, isto é, E (X) = μ e V ar (X) = σ 2 .
Se for recolhida uma amostra de dimensão n (com n ≥ 30), como é que se pode construir um
intervalo com (1 − α) × 100 por cento de confiança para μ?
196
Como estimador de μ tem-se X que nestas condições pode-se utilizar a fórmula (70), ou
seja,
¶
µ
σ
.
X ∼ N μ, √
n
•
Assim, a variável fulcral a utilizar neste caso é
Z=
X −μ •
σ ∼ N (0, 1) .
√
n
Para construir o intervalo aleatório para μ, determina-se um intervalo que contenha a variável
aleatória Z com probabilidade igual a 1 − α, ou seja,
P (linf < Z < lsup ) = 1 − α,
que, como a variável tem distribuição Normal Standard, utiliza-se os pontos z1− α (ver fórmula
2
(83) na página 192) que satisfazem
³
´
P −z1− α < Z < z1− α = 1 − α
2
2
e resolve-se em ordem a μ, de onde se obtém
³
´
α
α
P −z1− < Z < z1−
=1−α ⇔
2
2
⎛
⎞
X −μ
⎜
⎟
⇔ P ⎝−z1− α < σ < z1− α ⎠ = 1 − α ⇔
2
2
√
n
µ
¶
σ
σ
⇔ P −z1− α √ < X − μ < z1− α √
=1−α ⇔
2
2
n
n
µ
¶
σ
σ
⇔ P X − z1− α √ < μ < X + z1− α √
= 1 − α.
2
2
n
n
O intervalo aleatório para μ com probabilidade 1 − α é
∙
¸
σ
σ
X − z1− α √ , X + z1− α √
2
2
n
n
sendo o intervalo com (1 − α) × 100 por cento de confiança para μ definido por
¸
∙
σ
σ
x − z1− α √ , x + z1− α √ .
2
2
n
n
197
Exemplo 3.4.3
Em Alfalândia, o número de computadores vendidos diariamente tem média desconhecida e
desvio padrão igual a 30. Considere que foram observados o número de computadores vendidos
em cem dias onde se obteve um média igual a 250. Com base nesta amostra aleatória, construa
um intervalo, com noventa por cento de confiança, para a média de computadores vendidos
diariamente em Alfalândia.
Tendo em conta que não se conhece a distribuição da população e que n ≥ 30 utiliza-se
¶
µ
σ
•
,
X ∼ N μ, √
n
sendo a variável fulcral
Z=
X −μ •
σ ∼ N (0, 1) .
√
n
Substituindo σ = 30 e n = 100 na variável fulcral obtém-se
Z=
X −μ
X −μ •
=
∼ N (0, 1) .
30
3
√
100
Primeiro determina-se o intervalo para a variável aleatória Z com probabilidade 0.9 (1 − α =
0.90, pois pretende-se um intervalo com 90 por cento de confiança)
P (linf < Z < lsup ) = 0.90
como, de fora do intervalo fica 0.1, esta probabilidade será dividida, sendo 0.05 inferior a linf e
0.05 superior a lsup . Assim sendo o intervalo pretendido é
P (−z0.95 < Z < z0.95 ) = 0.90
onde z0.05 pode ser determinado através de
P (Z ≤ z0.95 ) = 0.95 ⇔ z0.95 = 1.645,
198
logo
⇔
⇔
⇔
⇔
P (−z0.95 < Z < z0.95 ) = 0.90 ⇔
¶
µ
X −μ
< 1.645 = 0.90 ⇔
P −1.645 <
3
¢
¡
P −1.645 × 3 < X − μ < 1.645 × 3 = 0.90 ⇔
¢
¡
P −4.935 < X − μ < 4.935 = 0.90 ⇔
¢
¡
P X − 4.935 < μ < X + 4.935 = 0.90
O intervalo aleatório para μ, com probabilidade 0.90, é
¤
£
X − 4.935, X + 4.935
e o intervalo com noventa por cento de confiança para μ é
]250 − 4.935, 250 + 4.935[ ,
ou seja,
]245.065, 254.935[ .
Pode-se, então, concluir que a média do número de computadores vendidos diariamente em
Alfalândia pertence ao intervalo ]245.065, 254.935[ com noventa por cento de confiança.
Exemplo 3.4.4
O número de telemóveis vendidos diariamente numa das loja da marca FalaBarato tem variância igual a 225. Com o objectivo de analisar o número médio de telemóveis vendidos diariamente
nessa loja foi recolhida amostra aleatória de dimensão 100 com média 50 telemóveis. Com base
nesta amostra, construa um intervalo, com noventa por cento de confiança, para o número
médio de telemóveis vendidos diariamente na loja.
Tendo em conta que nada é referido em relação à população (população desconhecida), sendo
σ conhecido e n ≥ 30, utiliza-se o resultado (70) presente na página 171, ou seja,
¶
µ
σ
•
.
X ∼ N μ, √
n
199
portanto
¶
µ
15
,
X ∼ N μ, √
100
•
X ∼ N (μ, 1.5) ,
•
sendo a variável fulcral
X −μ •
∼ N (0, 1) .
1.5
Z=
Começando a construir o intervalo de confiança, vem
´
³
P −z1− α < Z < z1− α = 1 − α
2
2
que, como 1 − α = 0.9,
³
´
P Z ≤ z1− α = P (Z ≤ z0.95 ) = 0.95 ⇔ z0.95 = 1.645.
2
Substituindo este valores no intervalo inicial, obtém-se
⇔
⇔
⇔
⇔
P (−z0.95 < Z < z0.95 ) = 0.90 ⇔
¶
µ
X −μ
< 1.645 = 0.90 ⇔
P −1.645 <
1.5
¢
¡
P −1.645 × 1.5 < X − μ < 1.645 × 1.5 = 0.90 ⇔
¢
¡
P −2.4675 − X < −μ < 2.4675 − X = 0.90 ⇔
¢
¡
P X − 2.4675 < μ < X + 2.4675 = 0.90.
O intervalo aleatório para μ, com probabilidade 0.90, é
¤
£
X − 2.4675, X + 2.4675
e o intervalo com noventa por cento de confiança para μ é
]50 − 2.4675, 50 + 2.4675[ ,
]47.5325, 52.4675[ .
O número médio de telemóveis vendidos diariamente na loja da marca FalaBarato pertence ao
intervalo ]47.5325, 52.4675[ com noventa por cento de confiança.
200
3.4.3
Intervalos de confiança para a proporção - População de Bernoulli
Considere-se uma população com distribuição de Bernoulli com valor esperado igual a p, isto
é, E (X) = p. Se for recolhida uma amostra de dimensão n, como é que se pode construir um
intervalo com (1 − α) × 100 por cento de confiança para p?
Como estimador de p tem-se p̂ que, se n ≥ 30, pode-se utilizar a fórmula (71) presente na
página 174, ou seja,
•
p̂ ∼ N
à r
p,
p (1 − p)
n
!
.
Assim, a variável aleatória fulcral a utilizar será
Z=r
p̂ − p
p (1 − p)
n
•
∼ N (0, 1) .
Em primeiro lugar determina-se um intervalo onde a variável aleatória Z pertença com probabilidade 1 − α, sendo este intervalo representado por
³
´
P −z1− α < Z < z1− α = 1 − α
2
2
que, resolvendo em ordem a p, obtém-se
⎛
⎞
´
³
⎜
⎟
p̂ − p
α < r
α⎟ = 1 − α
−z
<
z
P −z1− α < Z < z1− α = 1 − α ⇔ P ⎜
1− ⎠
⎝ 1− 2
2
2
2
p (1 − p)
n
cuja resolução não é muito simples. Assim, tendo em conta que a causa desta dificuldade é a
raiz que contém o parâmetro p no denominador, substitui-se o parâmetro pelo seu estimador
(p̂). Com esta substituição o parâmetro só aparece no numerador o que já não traz nenhum
problema para a resolução desta dupla inequação. Fazendo a substituição do parâmetro pelo
201
seu estimador dentro da raiz obtém-se
⎛
⎞
⎜
⎟
p̂ − p
⎟
P⎜
⎝−z1− α2 < r p̂ (1 − p̂) < z1− α2 ⎠ = 1 − α ⇔
n
Ã
!
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
⇔ P −z1− α
< p̂ − p < z1− α
=1−α ⇔
2
2
n
n
!
Ã
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
< p < p̂ + z1− α
= 1 − α.
⇔ P p̂ − z1− α
2
2
n
n
O intervalo aleatório para p, com probabilidade 1 − α, é
#
"
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
p̂ − z1− α
, p̂ + z1− α
2
2
n
n
e o intervalo com (1 − α) × 100 por cento de confiança para p é dado por
#
"
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
p̂ − z1− α
, p̂ + z1− α
.
2
2
n
n
Exemplo 3.4.5
Com o objectivo de analisar a proporção de habitantes que são favoráveis à construção de um
novo estádio municipal, foi recolhida uma amostra aleatória com n = 100 e p̂ = 0.8. Com
base nesta amostra, construa um intervalo com noventa e cinco por cento de confiança para a
proporção de habitantes favoráveis à construção em toda a população.
Considerando que estamos perante uma população de Bernoulli (pois estamos a trabalhar
com proporções) utiliza-se a equação (71) presente na página 174, ou seja,
!
à r
p (1 − p)
•
p̂ ∼ N p,
,
n
então, a variável fulcral Z pode ser descrita por
Z=r
p̂ − p
p (1 − p)
n
•
∼ N (0, 1) .
Assim, o intervalo aleatório para p pode ser determinado através de
³
´
P −z1− α < Z < z1− α = 1 − α
2
2
202
que, como
α
α
= 0.025 ⇔ 1 − = 0.975, vem
2
2
P (Z ≤ z0.975 ) = 0.975 ⇔ z0.975 = 1.96
1 − α = 0.95 ⇔
vem
⎛
⎞
⎜
⎟
p̂ − p
⎟ = 0.95.
r
−1.96
<
<
1.96
P (−z0.975 < Z < z0.975 ) = 0.95 ⇔ P ⎜
⎝
⎠
p (1 − p)
n
Após ter substituído o parâmetro p que aparece dentro da raiz do denominador pelo seu estimador p̂, vem
⎛
⎞
⎜
⎟
p̂ − p
⎟ = 0.95 ⇔
r
−1.96
<
P⎜
<
1.96
⎝
⎠
p̂ (1 − p̂)
n
Ã
!
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
⇔ P −1.96
< p̂ − p < 1.96
= 0.95 ⇔
n
n
!
Ã
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
< −p < −p̂ + 1.96
= 0.95 ⇔
⇔ P −p̂ − 1.96
n
n
!
Ã
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
< p < p̂ + 1.96
= 0.95
⇔ P p̂ − 1.96
n
n
O intervalo aleatório para p, com probabilidade igual 0.95, é
#
"
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
p̂ − 1.96
, p̂ + 1.96
n
n
e o intervalo com noventa e cinco por cento de confiança para p é
"
#
r
r
0.8 (1 − 0.8)
0.8 (1 − 0.8)
, 0.8 + 1.96
,
0.8 − 1.96
100
100
]0.8 − 0.0784, 0.8 + 0.0784[ ,
]0.7216, 0.8784[ .
Conclui-se, então, que a proporção de habitantes que são favoráveis à construção de um novo
estádio municipal pertence ao intervalo ]0.7216, 0.8784[ com noventa e cinco por cento de confiança.
203
3.4.4
Intervalos de confiança para a variância - População com distribuição Normal
Considere-se uma população com distribuição Normal com média igual a μ e desvio padrão
igual a σ. Se for recolhida uma amostra de dimensão n, como é que se pode construir um
intervalo com (1 − α) × 100 por cento de confiança para σ 2 ?
Como estimador de σ 2 tem-se SC2 e, nestas condições, pode-se utilizar a fórmula (72) presente
na página 177, ou seja,
χ2 =
(n − 1) SC2
∼ χ2(n−1) .
2
σ
Note-se que esta variável é uma variável fulcral. Para encontrar o intervalo que contém a
variável χ2 com probabilidade (1 − α), isto é
¡
¢
P linf < χ2 < lsup = 1 − α,
tem-se que definir o ponto χ2γ como sendo o ponto cuja probabilidade de uma variável aleatória
com distribuição Qui-quadrado ser menor (ou igual) é igual a γ, ou seja, χ2γ pode ser definido
por
¡
¢
P χ2 ≤ χ2γ = γ.
(85)
Note-se que a distribuição Qui-quadrado não é simétrica (esta só assume valores positivos),
como tal, serão necessários dois pontos não simétricos, o χ2α e χ21− α .
2
Interpretação gráfica de χ2α e χ2 α .
1−
2
2
204
2
Assim, o intervalo encontrado para χ2 é
µ
¶
2
2
2
P χ α < χ < χ1− α = 1 − α
2
2
que resolvendo a dupla inequação em ordem a σ 2 , obtém-se
µ
¶
2
2
2
P χ α < χ < χ1− α = 1 − α ⇔
2
2
¶
µ
2
(n − 1) SC
2
2
< χ1− α = 1 − α ⇔
⇔ P χα <
σ2
2
2
⎞
⎛
2
χ21− α
χα
1
2
2
⎠=1−α⇔
< 2 <
⇔ P⎝
2
(n − 1) SC
σ
(n − 1) SC2
⎞
⎛
2
2
(n − 1) SC
(n − 1) SC ⎠
< σ2 <
= 1 − α.
⇔ P⎝
2
χ1− α
χ2α
2
2
O intervalo aleatório para σ 2 , com probabilidade 1 − α, é igual a
⎡
⎤
2
2
⎦ (n − 1) SC , (n − 1) SC ⎣
χ21− α
χ2α
2
2
e o intervalo com (1 − α) × 100 por cento de confiança para σ 2 é definido por
⎡
⎤
2
2
⎦ (n − 1) sC , (n − 1) sC ⎣ .
χ21− α
χ2α
2
2
No caso de se pretender um intervalo de confiança para o desvio padrão (σ), o intervalo com
(1 − α) × 100 por cento de confiança é dado por
⎡
⎤v
v
u
2 u
2
(n − 1) sC u (n − 1) sC ⎣
⎦u
t
,t
.
χ21− α
χ2α
2
2
Exemplo 3.4.6
Os salários da empresa BoaVida seguem uma distribuição Normal. Com base numa amostra
aleatória de dimensão 101 com média igual a 750 euros e variância igual a 10100, construa um
intervalo de confiança para a variância dos salários da empresa BoaVida com noventa e cinco
por cento de confiança.
205
Como o parâmetro em análise é σ 2 e a população tem distribuição Normal, utiliza-se a
variável fulcral
χ2 =
(n − 1) SC2
∼ χ2(n−1) ,
σ2
que como n = 101,
χ2 =
100SC2
∼ χ2(100) .
σ2
Primeiro determina-se o intervalo aleatório para a variável aleatória χ2 com probabilidade 0.95
(1 − α = 0.95)
P (linf < Z < lsup ) = 0.95
como fora deste intervalo fica 0.05 de probabilidade, esta será dividida, sendo 0.025 inferior a
linf e 0.025 superior a lsup . Assim sendo, o intervalo pretendido é
¡
¢
P χ20.025 < χ2 < χ20.975 = 0.95
onde χ20.975 e χ20.025 podem ser determinados recorrendo às tabelas.
¢
¡
P Z ≤ χ20.025 = 0.025 ⇔ χ20.025 = 74.222
¡
¢
P Z ≤ χ20.975 = 0.975 ⇔ χ20.975 = 129.56
Interpretação gráfica de χ20.025 e de χ20.975 .
206
Assim
⇔
⇔
⇔
⇔
¡
¢
P χ20.025 < χ2 < χ20.975 = 0.95 ⇔
¶
µ
100SC2
< 129.56 = 0.95 ⇔
P 74.222 <
σ2
¶
µ
1
129.56
74.222
= 0.95 ⇔
< 2 <
P
100SC2
σ
100SC2
µ
¶
100 2
100 2
2
P
= 0.95 ⇔
S <σ <
S
129.56 C
74.222 C
¢
¡
P 0.77184SC2 < σ 2 < 1.3473SC2 = 0.95.
O intervalo aleatório para σ2 , com probabilidade 0.95, é
¤
£
0.77184SC2 , 1.3473SC2
e o intervalo, com noventa e cinco por cento de confiança, para σ 2 é
]0.77184 × 10201, 1.3473 × 10201[ ,
ou seja,
]7873.5, 13744[
pois
SC2 =
n 2 101
s =
× 10100 = 10201.
n−1
100
A variância dos salários da empresa BoaVida pertence ao intervalo ]7873.5, 13744[ com noventa
e cinco por cento de confiança.
Exemplo 3.4.7
O tempo que uma máquina, da empresa BigBaloones, demora a encher cem balões segue uma
distribuição Normal. Com base numa amostra aleatória de dimensão 25 com média igual a 500
segundos e variância igual a 216, construa um intervalo, com noventa por cento de confiança,
para o desvio padrão do tempo que a máquina demora a encher cem balões.
Como o parâmetro em análise é σ 2 e a população tem distribuição Normal, utiliza-se a
seguinte variável fulcral
χ2 =
(n − 1) SC2
∼ χ2(n−1) ,
σ2
207
como n = 25, vem
χ2 =
24 × SC2
∼ χ2(24) .
σ2
Assim, determina-se o intervalo para a variável aleatória χ2 com probabilidade 0.90, sendo o
intervalo pretendido
¡
¢
P χ20.05 < χ2 < χ20.95 = 0.90,
que recorrendo à tabela
⇔
⇔
⇔
⇔
¢
¡
P 13.848 < χ2 < 36.415 = 0.90 ⇔
µ
¶
24 × SC2
P 13.848 <
< 36.415 = 0.90 ⇔
σ2
¶
µ
24 × SC2
24 × SC2
2
<σ <
= 0.90 ⇔
P
36.415
13.848
Ãr
!
r
24 × SC2
24 × SC2
P
<σ<
= 0.90 ⇔
36.415
13.848
!
Ãr
r
24
24
SC < σ <
SC = 0.90.
P
36.415
13.848
O intervalo aleatório para σ, com probabilidade 0.90, é
#r
"
r
24
24
SC ,
SC
36.415
13.848
e como
s2C =
√
n 2 25
s =
× 216 = 225 ⇒ sC = 225 = 15
n−1
24
o intervalo com noventa por cento de confiança para σ é
#r
"
r
24
24
× 15,
× 15 ,
36.415
13.848
]12.177, 19.747[ .
O desvio padrão do tempo que a máquina demora a encher cem balões pertence ao intervalo
]12.177, 19.747[ com noventa por cento de confiança.
208
3.4.5
Intervalos de confiança para a média - σ desconhecido e população com
distribuição Normal
Considere-se uma população com distribuição Normal com média igual a μ e desvio padrão
igual a σ (desconhecido). Se for recolhida uma amostra de dimensão n, como é que se pode
construir um intervalo com (1 − α) × 100 por cento de confiança para μ?
Como estimador de μ tem-se X e, nestas condições, utiliza-se a fórmula (78) presente na
página 182, ou seja,
X −μ
∼ t(n−1)
SC
√
n
que é uma variável fulcral. Para encontrar o intervalo que contém a variável T , com probabiT =
lidade 1 − α, define-se o ponto tγ como sendo o ponto cuja probabilidade de a variável T ser
inferior (ou igual) é igual a γ, ou seja,
P (T ≤ tγ ) = γ.
(86)
Note-se que a distribuição t-Student, tal como a distribuição Normal, é simétrica, como tal
utilizam-se dois pontos simétricos, o −t1− α e t1− α .
2
2
Interpretação gráfica de t α .
1−
2
Assim, determina-se o intervalo
³
´
P −t1− α ≤ T ≤ t1− α = 1 − α
2
2
209
e resolve-se a dupla inequação em ordem a μ, obtendo-se
³
´
α
α
P −t1− ≤ T ≤ t1−
=1−α ⇔
2
2
⎛
⎞
⎜
⎟
X −μ
α <
α⎟ = 1 − α ⇔
−t
⇔ P⎜
<
t
1− ⎠
⎝ 1− 2
S
2
√C
n
¶
µ
SC
SC
=1−α ⇔
⇔ P −t1− α √ < X − μ < t1− α √
2
2
n
n
µ
¶
SC
SC
⇔ P X − t1− α √ < μ < X + t1− α √
= 1 − α.
2
2
n
n
O intervalo aleatório para μ, com probabilidade 1 − α, é
¸
∙
SC
SC
X − t1− α √ , X + t1− α √
2
2
n
n
e o intervalo com (1 − α) × 100 por cento de confiança para μ é dado por
∙
¸
SC
SC
x − t1− α √ , x + t1− α √ .
2
2
n
n
Exemplo 3.4.8
O tempo que um carro demora a passar determinada ponte tem distribuição Normal. Com base
numa amostra aleatória de dimensão 11 onde se obteve uma variância igual a 110 e uma média
igual a 80 segundos, construa um intervalo, com noventa e cinco por cento de confiança, para
o tempo médio que um carro demora a passar a ponte.
Como o parâmetro em análise é μ, a população possui distribuição Normal e σ é desconhecido, utiliza-se a variável fulcral
T =
X −μ
∼ t(n−1),
SC
√
n
que, como n = 11 e
s2C =
√
n 2 11
s =
× 110 = 121 ⇒ sC = 121 = 11,
n−1
10
vem
T =
X −μ
X −μ
∼ t(10) .
= √
11
11
√
11
210
O intervalo, com probabilidade 0.95, para a variável T é
P (−t0.975 < T < t0.975 ) = 0.95
que recorrendo às tabelas obtém-se
Interpretação gráfica de −t0.975 e de t0.975 .
P (−2.2281 < T < 2.2281) = 0.95 ⇔
µ
¶
X −μ
⇔ P −2.2281 < √
< 2.2281 = 0.95 ⇔
11
³
√
√ ´
⇔ P X − 2.2281 11 < μ < X + 2.2281 11 = 0.95 ⇔
¢
¡
⇔ P X − 7.3898 < μ < X + 7.3898 = 0.95.
O intervalo aleatório para μ, com probabilidade 0.95, é
£
¤
X − 7.3898, X + 7.3898
e o intervalo, com noventa e cinco por cento, de confiança para μ é
]80 − 7.3898, 80 + 7.3898[ ,
]72.6102, 87.3898[ .
O tempo médio que um carro demora a passar a ponte pertence ao intervalo ]72.6102, 87.3898[
com noventa e cinco por cento de confiança.
211
Exemplo 3.4.9
O tempo que um estudante demora a resolver um determinado exercício de estatística possui
distribuição normal. Com base numa amostra aleatória de dimensão 400 onde se obteve uma
variância igual a 39900 e uma média igual a 1000 segundos, construa um intervalo, com noventa
e nove por cento de confiança, para o tempo médio que um estudante demora a resolver o
exercício.
Como o parâmetro em análise é μ e a população tem distribuição Normal sendo σ desconhecido, utiliza-se a variável fulcral
T =
X −μ
∼ t(n−1) .
SC
√
n
Substituindo n = 400 e
s2C =
√
n 2 400
s =
× 39900 = 40000 ⇒ sC = 40000 = 200
n−1
399
vem
X −μ X −μ
∼ t(399) .
=
200
10
√
400
Como a distribuição tem pelo menos trinta graus de liberdade, pode-se aproximar à distribuição
T =
Normal, obtendo-se
Z=
X −μ
∼N
˙ (0, 1) .
10
O intervalo, com probabilidade 0.99, para a variável Z é
P (−z0.995 < Z < z0.995 ) = 0.99
que recorrendo às tabelas vem
P (−2.576 < Z < 2.576) = 0.99 ⇔
¶
µ
X −μ
< 2.576 = 0.99 ⇔
⇔ P −2.576 <
10
¢
¡
⇔ P X − 25.76 < μ < X + 25.76 = 0.99.
O intervalo aleatório para μ, com probabilidade 0.99, é
£
¤
X − 25.76, X + 25.76
212
e o intervalo com noventa e nove por cento de confiança para μ é
]1000 − 25.76, 1000 + 25.76[ ,
]9974.24, 1025.76[ .
O tempo médio que um estudante demora a resolver o exercício de estatística pertence ao
intervalo ]9974.24, 1025.76[ com noventa e nove por cento de confiança.
Exemplo 3.4.10
A duração dos telemóveis da marca FalaBarato possui distribuição Normal. Para analisar a
duração destes telemóveis foi recolhida uma amostra aleatória de dimensão 400 com média
igual a 1000 horas e variância 1596. Construa um intervalo, com noventa e nove por cento de
confiança, para a duração média dos telemóveis.
Como o σ é desconhecido e a população possui distribuição Normal a variável que vai ser
utilizada é
T =
X −μ
∼ t(n−1) .
SC
√
n
A variância amostral corrigida é igual a
s2C =
√
n 2 400
s =
× 1596 = 1600 ⇒ sC = 1600 = 40
n−1
399
que substituindo na variável obtém-se
T =
X −μ X −μ
=
∼ t(399) .
40
2
√
400
mas, como os graus de liberdade da t-Student são superiores a 30, para a determinação do
intervalo de o confiança pretendido utiliza-se a aproximação à distribuição Normal. Assim, a
variável fulcral a utilizar será
X −μ •
∼ N (0, 1) .
2
Z=
O intervalo aleatório para μ vai ser determinado através de
´
³
P −z1− α < Z < z1− α = 1 − α
2
2
213
que, como
1 − α = 0.99 ⇔
α
α
= 0.005 ⇔ 1 − = 0.995,
2
2
conclui-se que
P (Z ≤ z0.995 ) = 0.995 ⇔ z0.995 = 2.576.
Substituíndo estes valores no intervalo, obtém-se
⇔
⇔
⇔
⇔
P (−z0.995 < Z < z0.995 ) = 0.99 ⇔
¶
µ
X −μ
< 2.576 = 0.99 ⇔
P −2.576 <
2
¢
¡
P −2.576 × 2 < X − μ < 2.576 × 2 = 0.99 ⇔
¢
¡
P −5.152 − X < −μ < 5.152 − X = 0.99 ⇔
¢
¡
P X − 5.152 < μ < X + 5.152 = 0.99.
O intervalo aleatório para μ com probabilidade 0.99 é
£
¤
X − 5.152, X + 5.152
e o intervalo com noventa e nove por cento de confiança para μ é
]1000 − 5.152, 1000 + 5.152[ ,
]994.848, 1005.152[ ,
concluindo-se que a duração média dos telemóveis da marca FalaBarato pertence ao intervalo
]994.848, 1005.152[ com noventa e nove por cento de confiança.
214
3.4.6
Procedimento geral para a construção de um intervalo de confiança
1. Identificar o parâmetro em análise e, com base nos conhecimentos de distribuições amostrais,
definir a variável aleatória fulcral a utilizar.
2. Escolher o nível de confiança (1 − α).
3. Determinar um intervalo aleatório para a variável fulcral com probabilidade 1 − α.
4. Determinar um intervalo aleatório para o parâmetro com probabilidade 1 − α.
5. Com base numa amostra concreta, determinar o intervalo com (1 − α) × 100 por cento
de confiança para o parâmetro.
3.4.7
Quadro resumo dos intervalos de confiança
Parâmetro
μ
μ
μ
μ
p
σ2
σ
Condições
Intervalo de Confiança
¸
∙
σ
σ
σ conhecido e população Normal
x − z1− α √ , x + z1− α √
2
2
n
n
¸
∙
σ
σ
σ conhecido e n ≥ 30
x − z1− α √ , x + z1− α √
2
2
n
n
¸
∙
sC
sC
σ desconhecido e população Normal
x − t1− α √ , x + t1− α √
2
2
n
n
¸
∙
sC
sC
σ desc., população Normal e n > 30
x − z1− α √ , x + z1− α √
2
2
n
n
#
"
r
r
p̂ (1 − p̂)
p̂ (1 − p̂)
p̂ − z1− α
População Bernoulli e n ≥ 30
, p̂ + z1− α
2
2
n
n
⎤
⎡
2
2
⎦ (n − 1) sC , (n − 1) sC ⎣
População Normal
χ21− α
χ2α
2
2
⎤
⎡
v
v
u
u
⎥u (n − 1) s2C u (n − 1) s2C ⎢
População Normal
,t
⎦t
⎣
χ21− α
χ2α
2
215
2
3.5
Testes de hipótese
Neste capítulo foi analisado o problema de como estimar o valor de um parâmetro desconhecido (média, proporção, variância ou desvio padrão da população) a partir da informação contida numa amostra, quer seja através das estimativas pontuais, quer através dos intervalos de
confiança. Porém, muitas situações práticas têm objectivos diferentes, pretendendo-se tomar
decisões através da informação amostral. Assim, muitos estudos estatísticos têm como objectivo averiguar, com base na informação contida numa amostra, se determinada hipótese sobre
a população é verdadeira ou não. Para determinar se a média de determinada população é
superior a cem, será suficiente a média de uma amostra aleatória ser igual a 101? E se a média
da amostra for igual a 200, será agora suficiente? A partir de que valor da média da amostra
poder-se-á afirmar que a média da população é superior a cem com alguma certeza? É com o
objectivo de responder a este tipo de perguntas que existem os testes de hipóteses. Assim, os
testes de hipóteses consistem na formulação de uma hipótese sobre um parâmetro desconhecido
da população (testes paramétricos) ou sobre a distribuição da população (testes não paramétricos) e na definição de um critério que permita rejeitar ou não rejeitar essa hipótese. Em relação
aos testes paramétricos existem, por exemplo, testes em relação ao valor da média, em relação
ao valor da variância (ou desvio padrão), em relação ao valor de uma proporção, entre outros.
Em relação aos testes não paramétricos, existem os testes que pretendem averiguar se a população tem uma determinada distribuição (de onde se salientam os testes de Normalidade que
consistem em testar se a população tem distribuição Normal), os testes de independência entre
duas amostras, entre outros. Neste capítulo irão ser apenas abordados os testes paramétricos.
3.5.1
Noções básicas
Quando se faz um teste paramétrico a analisa-se a hipótese de um parâmetro da população assumir um determinado valor. A esta hipótese denomina-se por hipótese nula e é representada
por H0 . Esta hipótese é uma hipótese simples, ou seja, nela é especificado apenas um valor
para o parâmetro, normalmente do tipo H0 : θ = θ0 onde θ representa o parâmetro em análise
e θ0 um valor particular desse parâmetro. Este valor (θ0 ) é o valor que se pretende testar se
216
é plausível o parâmetro assumir, não tendo nenhuma relação com os valores observados numa
amostra. Para contrapor com a hipótese nula existe a hipótese alternativa que é representada por H1 . Esta hipótese é uma hipótese composta, ou seja, nela é especificado mais de
que um valor para o parâmetro. Assim, normalmente, a hipótese alternativa é representada de
uma das seguintes formas:
H1 : θ 6= θ0
−→
hipótese alternativa bilateral
H1 : θ > θ0
−→
hipótese alternativa unilateral (superior)
H1 : θ < θ0
−→
hipótese alternativa unilateral (inferior)
Exemplos 3.5.1
A empresa DelFonte comercializa garrafas de água de 1500 mililitros. As garrafas são enchidas,
através de um processo automático, com uma quantidade de água que tem distribuição Normal
com valor médio igual a μ mililitros e desvio padrão igual a 100 mililitros. Observem-se três
situações distintas para as hipóteses a testar.
1. Considere-se que a empresa pretende testar se o processo de enchimento das garrafas está
a funcionar devidamente, ou seja, se de facto o processo enche as garrafas, em média,
com 1500 mililitros. Neste caso as hipóteses a testar seriam:
H0 : μ = 1500 versos H1 : μ 6= 1500.
2. Considere-se que a empresa pretende controlar os custos do processo produtivo. Assim,
para averiguar se o processo de enchimento está a encher as garrafas com uma quantidade
superior à devida, dever-se-ía testar:
H0 : μ = 1500 versos H1 : μ > 1500.
3. Considere-se que um conjunto de consumidores afirmam que as garrafas de água DelFonte
possuem menos quantidade de água que a devida. Neste caso, as hipóteses a testar seriam:
H0 : μ = 1500 versos H1 : μ < 1500.
217
Após a definição das hipóteses a testar define-se um processo de decisão para, com base
numa amostra, rejeitar-se ou não H0 . Este procedimento que, com base na informação contida
numa amostra, conduz a uma decisão acerca das hipótese é o principal objectivo dos teste
de hipóteses. Assim, em primeiro lugar, através dos conhecimentos apreendidos no capítulo
nas distribuições amostrais, define-se qual a estatística de teste a utilizar, ou seja, através do
parâmetro que se está a analisar e através do contexto do problema, define-se qual o estimador
a usar e qual a sua distribuição. Para se poder tomar uma decisão sobre o teste que se está a
efectuar, define-se uma região na qual, se a estatística utilizada se situar nela, deve-se rejeitar
H0 . Esta região é denominada por região crítica.
Definição 3.5.1 (Região crítica e valores críticos)
A região na qual a decisão é rejeitar H0 denomina-se por região crítica, sendo os valores
limites da região crítica denominados por valores críticos.
A região crítica é definida pela hipótese alternativa. Se se pretender testar se a média de uma
população é igual a μ0 (H0 : μ = μ0 ), como o parâmetro em análise é a média da população, o
estimador que será utilizado no teste será a média da amostra. No caso de a hipótese alternativa
consistir na média da população ser diferente de μ0 (H1 : μ 6= μ0 ), deve-se rejeitar H0 se o valor
da média amostral for suficientemente distante de μ0 (quer seja inferior ou superior). No caso
de a hipótese alternativa ser a média superior a μ0 (H1 : μ > μ0 ) só se deve rejeitar H0 se o
valor da média amostral for suficientemente distante e superior a μ0 . Pelo mesmo raciocínio, se
a hipótese alternativa for a média ser inferior a μ0 (H1 : μ < μ0 ) deve-se rejeitar H0 nos casos
em que o valor da média amostral seja suficientemente inferior a μ0 .
Exemplos 3.5.2
No contexto do exemplo anterior (3.5.1), como se poderia definir um processo para decidir
por uma das hipóteses. Em primeiro lugar, como o parâmetro em análise é μ deveria-se utilizar
o estimador X.
1. No primeiro caso em que as hipótese são
H0 : μ = 1500 versos H1 : μ 6= 1500,
218
como a hipótese alternativa é bilateral, deve-se rejeitar H0 se o valor da média da amostra
for suficientemente distante de 1500 mililitros. Assim poder-se-ía definir a região crítica
por
Região crítica: X < 1500 − ε1 ou X > 1500 + ε1
2. No segundo caso as hipótese em análise são
H0 : μ = 1500 versos H1 : μ > 1500,
então, como a hipótese alternativa é unilateral superior, deve-se rejeitar H0 se a média
amostral for suficientemente superior a 1500 mililitros. Assim poder-se-ía definir a região
crítica por
Região crítica: X > 1500 + ε2
3. No terceiro caso as hipótese em análise são
H0 : μ = 1500 versos H1 : μ < 1500,
então, como a hipótese alternativa é unilateral inferior, deve-se rejeitar H0 se a média
amostral for suficientemente inferior a 1500 mililitros. Assim poder-se-ía definir a região
crítica por
Região crítica: X < 1500 − ε3 .
No entanto, apesar de se conhecer como deverá ser a região crítica, falta definir o que
significa suficientemente distante de H0 para a poder rejeitar, ou seja, quais os valores que
ε1 , ε2 e ε3 assumem. Para definir estes valores deve-se ter em conta os possíveis erros que se
pode cometer quando se efectua um teste de hipóteses. Estes erros podem ser esquematizados
através do seguinte quadro.
219
Quadro 2: Erros de um teste de hipóteses
Situação
Decisão
H0 é verdadeira
H0 é falsa
Rejeitar H0
Erro do tipo I
Decisão
P (Erro do tipo I) = α
correcta
Decisão
Erro do tipo II
correcta
P (Erro do tipo II) = β
Não Rejeitar H0
Assim, quando se toma uma decisão num teste de hipótese existem dois tipos de erros
que podem ser cometidos. O erro do tipo I comete-se quando se rejeita a hipótese nula e
esta é verdadeira, sendo a sua probabilidade representada por α e denominada por nível de
significância.
Definição 3.5.2 (Erro do tipo I)
O erro do tipo I ou erro de primeira espécie é o erro que se comete quando se rejeita
a hipótese nula (H0 ) e esta é verdadeira.
Definição 3.5.3 (Nivel de significância)
Denomina-se por nível de significância à probabilidade de se cometer um erro do tipo I
sendo representada por α, ou seja,
α = P (rejeitar H0 |H0 verdadeira) .
(87)
O segundo erro possível de se cometer é o erro do tipo II, quando não se rejeita a hipótese
nula e esta é falsa, sendo a sua probabilidade representada por β. À probabilidade de não se
cometer um erro do tipo II (1 − β) denomina-se por potência do teste.
Definição 3.5.4 (Erro do tipo II)
O erro do tipo II ou erro de segunda espécie é o erro que se comete quando não se
rejeita a hipótese nula (H0 ) e esta é falsa.
220
Definição 3.5.5 (Potência do teste)
Denomina-se por potência do teste à probabilidade de não se cometer um erro do tipo II.
Representando por β a probabilidade de se cometer um erro do tipo II, ou seja,
β = P (não rejeitar H0 |H0 falsa) ,
(88)
então a potência do teste é igual a 1 − β.
Nota:
A probabilidade de se cometer um erro, quando se faz um teste de hipóteses, não é
a soma dos dois tipos de erros indicados, pois o erro do tipo I só é cometido quando
a hipótese nula é verdadeira e o erro do tipo II só é cometido quando a hipótese nula
é falsa. Assim, consoante a hipótese nula seja verdadeira ou não, a probabilidade
de, no teste de hipótese, se cometer um erro será apenas uma destas probabilidades
e não a soma das duas. Naturalmente, quando se faz um teste de hipótese, não se
sabe se a hipótese nula é verdadeira (caso contrário não se iria efectuar o teste pois
já se saberia a verdade) então não se sabe qual será a probabilidade de se cometer
um erro, pois se H0 for verdadeira comete-se um erro com probabilidade α e se H0
for falsa comete-se um erro com probabilidade β.
Exemplos 3.5.3
Na continuação dos exemplo 3.5.1 e 3.5.2 das garrafas de água DelFonte, se ε1 = 10, ε2 = 7
e ε3 = 6, como se poderia calcular a probabilidade de cada um dos erros? Considere-se que
para efectuar este teste de hipótese foi recolhida uma amostra de dimensão 400, n = 400. Em
primeiro lugar, como a população tem distribuição Normal com σ conhecido (σ = 100) e o
parâmetro em análise é μ utiliza-se o estimador X, que, nestas condições,
¶
µ
σ
,
X ∼ N μ, √
n
ou seja,
¶
µ
100
,
X ∼ N μ, √
400
X ∼ N (μ, 5) .
221
1. Considerando o teste
H0 : μ = 1500 versos H1 : μ 6= 1500,
com região crítica
Região crítica: X < 1500 − ε1 ou
X > 1500 + ε1
onde ε1 = 10, ou seja,
Região crítica: X < 1490 ou
X > 1510,
a probabilidade de se cometer um erro de primeira espécie (nível de significância do teste)
é dada por
α = P (rejeitar H0 |H0 verdadeiro) =
¢
¡
= P X < 1490 ∨ X > 1510|μ = 1500 =
¢
¡
= 1 − P 1490 ≤ X ≤ 1510|μ = 1500 =
¶
µ
X − 1500
1510 − 1500
1490 − 1500
≤
≤
|μ = 1500
= 1−P
5
5
5
que, como nesta probabilidade H0 é verdadeira (μ = 1500), tem-se que
X ∼ N (1500, 5) , ou seja Z =
X − 1500
5
logo
µ
¶
X − 1500
1490 − 1500
1510 − 1500
α = 1−P
≤
≤
|μ = 1500 =
5
5
5
= 1 − P (−2 ≤ Z ≤ 2) = 1 − [φ (2) − φ (−2)] = 1 − φ (2) + 1 − φ (2) =
= 1 − 0.9772 + 1 − 0.9772 = 0.0456.
A probabilidade de se cometer um erro de segunda espécie é dada por
¡
¢
β = P (não rejeitar H0 |H0 falsa) = P 1490 ≤ X ≤ 1510|μ 6= 1500 .
222
Note-se que, se H0 é falsa, considera-se que a hipótese alternativa é verdadeira. Contudo,
esta hipótese é composta, ou seja, existe a possibilidade de o parâmetro assumir mais do
que um valor. Assim, não sabendo qual o verdadeiro valor do parâmetro, é impossível
determinar a sua probabilidade. Para exemplificar a dependência desta probabilidade do
verdadeiro valor do parâmetro, considerando que H1 é verdadeira, vão ser utilizados dois
valores para μ, sejam μ = 1510 e μ = 1520. Para μ = 1510 tem-se
¢
¡
β = P 1490 ≤ X ≤ 1510|μ = 1510 =
¶
µ
X − 1510
1510 − 1510
1490 − 1510
≤
≤
|μ = 1510 =
= P
5
5
5
µ
¶
1490 − 1510
1510 − 1510
= P
≤Z≤
= P (−4 ≤ Z ≤ 0) =
5
5
= φ (0) − φ (−4) = φ (0) − 1 + φ (4) = 0.5 − 1 + 1 = 0.5,
sendo a potência do teste igual a
1 − β = 1 − 0.5 = 0.5.
Para μ = 1520 tem-se
¢
¡
β = P 1490 ≤ X ≤ 1510|μ = 1520 =
¶
µ
X − 1520
1510 − 1520
1490 − 1520
≤
≤
|μ = 1520 =
= P
5
5
5
¶
µ
1510 − 1520
1490 − 1520
≤Z≤
= P (−6 ≤ Z ≤ −2) =
= P
5
5
= φ (−2) − φ (−6) = 1 − φ (2) − 1 + φ (6) = 1 − 0.9772 − 1 + 1 = 0.0228,
sendo a potência do teste igual a
1 − β = 1 − 0.0228 = 0.9772.
Note-se que, se fosse considerado μ = 1490, o valor obtido seria o mesmo que para
μ = 1510, sendo o valor obtido para μ = 1480 igual ao valor obtido para μ = 1520 pois a
distribuição é simétrica. Naturalmente, quanto mais afastado de 1500 estiver o verdadeiro
223
valor de μ, maior é a potência do teste, ou seja, menor será a probabilidade de se cometer
um erro do tipo II.
2. No segundo caso as hipótese em análise são
H0 : μ = 1500 versos H1 : μ > 1500,
sendo a região crítica
Região crítica :
X > 1500 + ε2 que, como ε2 = 7, vem
Região crítica :
X > 1507.
A probabilidade de se cometer um erro de primeira espécie (nível de significância do teste)
é dada por
α = P (rejeitar H0 |H0 verdadeiro) =
µ
¶
¢
¡
X − 1500 1507 − 1500
>
|μ = 1500 =
= P X > 1507|μ = 1500 = P
5
5
¶
µ
1507 − 1500
= 1 − φ (1.4) = 1 − 0.9192 = 0.0808.
= P Z>
5
A probabilidade de se cometer um erro da segunda espécie é dada por
¡
¢
β = P (não rejeitar H0 |H0 falsa) = P X ≤ 1507|μ > 1500
no entanto, como a hipótese alternativa é uma hipótese composta, para exemplificar,
determina-se o valor de β supondo que μ = 1525.
µ
¶
¢
¡
X − 1525
1507 − 1525
β = P X ≤ 1507|μ = 1525 = P
≤
|μ = 1525 =
5
5
¶
µ
1507 − 1525
= P (Z ≤ −3.6) = 1 − φ (3.6) =
= P Z≤
5
= 1 − 0.9998 = 0.0002,
sendo a potência do teste igual a
1 − β = 1 − 0.002 = 0.9998.
224
3. Considerando que pretende-se testar
H0 : μ = 1500 versos H1 : μ < 1500.
sendo a região crítica
Região crítica :
X < 1500 − ε3 que, como ε3 = 6, tem-se
Região crítica :
X < 1494,
a probabilidade de se cometer um erro do tipo I (nível de significância do teste) é dada
por
α = P (rejeitar H0 |H0 verdadeiro) =
¶
µ
¢
¡
X − 1500 1494 − 1500
<
|μ = 1500 =
= P X < 1494|μ = 1500 = P
5
5
¶
µ
1494 − 1500
= φ (−1.2) = 1 − φ (1.2) =
= P Z<
5
= 1 − 0.8849 = 0.1151.
A probabilidade de se cometer um erro do tipo II é dada por
¡
¢
β = P (não rejeitar H0 |H0 falsa) = P X ≥ 1494|μ < 1500
no entanto, como a hipótese alternativa é uma hipótese composta, para exemplificar,
determina-se o valor de β supondo que μ = 1480 (note-se que μ < 1500).
µ
¶
¡
¢
X − 1480
1494 − 1480
β = P X ≥ 1494|μ = 1480 = P
≥
|μ = 1480 =
5
5
¶
µ
1494 − 1480
= P (Z ≥ 2.8) = 1 − φ (2.8) =
= P Z≥
5
= 1 − 0.9974 = 0.0026,
sendo a potência do teste igual a 1 − β = 1 − 0.0026 = 0.9974.
225
Nota:
Nestes exemplos poder-se-íam mudar as probabilidades de se cometer um erro do
tipo I e do tipo II alterando a região crítica. Assim, neste último exemplo, o que é
que iria acontecer se o valor de ε3 fosse aumentado para 10?
Como as hipóteses a testar são
H0 : μ = 1500 versos H1 : μ < 1500,
sendo, neste caso, a região crítica
Região crítica :
X < 1500 − ε3 que, como ε3 = 10, tem-se
Região crítica :
X < 1490,
a probabilidade de se cometer um erro do tipo I é dada por
α = P (rejeitar H0 |H0 verdadeiro) =
µ
¶
¢
¡
X − 1500
1490 − 1500
<
|μ = 1500 =
= P X < 1490|μ = 1500 = P
5
5
¶
µ
1490 − 1500
= φ (−2) = 1 − φ (2) =
= P Z<
5
= 1 − 0.9772 = 0.0228.
A probabilidade de se cometer um erro do tipo II é dada por
¡
¢
β = P (não rejeitar H0 |H0 falsa) = P X ≥ 1490|μ < 1500
considerando que μ = 1480 (o mesmo valor utilizado anteriormente),
¶
µ
¡
¢
X − 1480
1490 − 1480
β = P X ≥ 1490|μ = 1480 = P
≥
|μ = 1480 =
5
5
µ
¶
1490 − 1480
= P Z≥
= P (Z ≥ 2) = 1 − φ (2) =
5
= 1 − 0.9772 = 0.0228,
sendo a potência do teste igual a
1 − β = 1 − 0.0228 = 0.9772.
226
Desta análise comparativa pode-se concluir que quando se diminui a região de rejeição, o nível de significância diminuiu e a potência do teste também diminuiu, ou
seja, quando se diminui a probabilidade de um tipo de erro a probabilidade do outro
tipo de erro aumenta.
Do estudo do exemplo anterior salientem-se duas ideias. A primeira é que, se a região crítica
for alterada, o nível de significância e a potência do teste também serão alterados. Se a região
crítica for diminuída, o nível de significância diminui, ou seja, a probabilidade de se cometer um
erro do tipo I diminui. No entanto, a potência do teste também diminui, ou seja, a probabilidade
de se cometer um erro do tipo II aumenta. Portanto, se num teste o nível de significância
diminui a potência do teste também diminui, ou seja, se diminuirmos a probabilidade de se
cometer um erro de um tipo estamos a aumentar a probabilidade de ocorrência de um erro
do outro tipo. Na realização de um teste de hipótese, o objectivo é tentar diminuir ambas
as probabilidades de ocorrência de erros, no entanto, como foi referido, é impossível minimizar
ambas as probabilidades em simultâneo, pois quando uma aumenta a outra diminui. A segunda
ideia a salientar é a facilidade de controlar (ou determinar) a probabilidade de ocorrência de
um erro do tipo I (α), sendo, pelo contrário, impossível controlar a probabilidade de ocorrência
de um erro do tipo II. Esta probabilidade depende do valor que o parâmetro assume e como,
neste erro, considera-se que a hipótese alternativa é verdadeira, existem então infinitos valores
para o valor do parâmetro, dependendo o valor da probabilidade de ocorrência de um erro do
tipo II do valor que for considerado para o parâmetro.
Conclusão
1. Se diminuirmos a probabilidade de um tipo de erro a probabilidade do outro tipo de erro
aumenta;
2. Pode-se controlar a probabilidade de ocorrência de um erro da primeira espécie (controlar
α - nível de significância) mas não se consegue controlar a probabilidade de ocorrência de
um erro da segunda espécie (β).
227
Por consequência destas duas conclusões, os teste de hipóteses são efectuados fixando a
priori o nível de significância, ou seja, fixando previamente a probabilidade de ocorrência de
um erro do tipo I. Assim, tem-se como objectivo controlar o erro do tipo I (pelo facto de este ser
facilmente controlado) deixando o erro do tipo II variar livremente. Como tal, a possibilidade
de se rejeitar a hipótese nula (H0 ) sendo esta verdadeira é controlada pois a sua probabilidade
é fixada, sendo a possibilidade de não se rejeitar a hipótese nula (H0 ) sendo esta falsa não
controlada. Por esta razão, a hipótese nula só é rejeitada se a informação contida na amostra
apresentar fortes indícios contra a hipótese nula. Saliente-se, então, que ao efectuar um teste
de hipótese onde a decisão for não rejeitar H0 não significa necessariamente que esta seja
verdadeira. Significa sim que não existem provas suficientes para rejeitar a hipótese nula, sendo
esta a razão que, normalmente na teoria dos testes de hipóteses utiliza-se “não rejeitar H0 ” em
vez de “aceitar H0 ” pois apenas significa que a amostra não apresenta evidência suficiente para
rejeitar H0 .
Exemplos 3.5.4
Considere-se o exemplo 3.5.1 das garrafas de água DelFonte. Com base numa amostra aleatória
de dimensão 400 com média igual a 1509 (x = 1509), efectue os três testes propostos considerando um nível de significância igual a cinco por cento (α = 0.05).
Tendo em conta que já se conhecem as hipóteses a testar e o nível de significância, deve-se
determinar qual a estatística de teste a utilizar. Nesta condições, população com distribuição
Normal e σ conhecido (σ = 100), utiliza-se
¶
µ
σ
,
X ∼ N μ, √
n
sendo a estatística de teste
Z=
X −μ
σ ∼ N (0, 1) ,
√
n
que, como σ = 100 e n = 400, vem
Z=
X −μ
X −μ
=
∼ N (0, 1) .
100
5
√
400
228
1. Pretende-se testar
H0 : μ = 1500 versos H1 : μ 6= 1500.
A hipótese alternativa é bilateral, como tal, a região crítica também deve ser bilateral.
Como o valor do nível de significância é 0.05, determina-se uma região de rejeição tal
que a probabilidade de rejeitar H0 , sendo esta verdadeira, seja igual a 0.05. Assim, como
a estatística do teste tem distribuição Normal e a região de teste é bilateral (rejeita-se
H0 para valores muito altos e para valores muito baixos), a região crítica será da forma
ilustrada nos seguintes gráficos.
Interpretação gráfica da região crítica de um teste bilateral
Como α = 0.05, recorrendo à tabela, concluem-se os valores pretendidos.
Interpretação gráfica da região crítica de um teste bilateral com α = 0.05.
Assim, representado por Zobs. o valor observado pela estatística de teste, rejeita-se H0 se:
229
Zobs. < −1.96 ∨ Zobs. > 1.96. O valor de Zobs. é obtido através da estatística de teste
considerando que H0 é verdadeira, logo μ = 1500, então
Zobs. =
X − μ0
X − 1500
=
5
5
que como x = 1509, obtém-se
zobs. =
x − 1500 1509 − 1500
=
= 1.8.
5
5
Assim, como zobs. não pertence à região crítica, não se rejeita H0 .
A região de rejeição também pode ser expressa em termos de X, pois
Zobs. < −1.96 ∨ Zobs. > 1.96 ⇔
X − 1500
X − 1500
< −1.96 ∨
> 1.96 ⇔
⇔
5
5
⇔ X < 1500 − 1.96 × 5 ∨ X > 1500 + 1.96 × 5 ⇔
⇔ X < 1490.2 ∨ X > 1509.8
Como na amostra foi obtido x = 1509 que não pertence à região de rejeição então não se
rejeita H0 . Assim, não existe evidência estatística para afirmar que a média da população
seja diferente de 1500 mililitros.
2. Pretende-se testar
H0 : μ = 1500 versos H1 : μ > 1500.
Como o teste é unilateral superior a região crítica também deve ser unilateral, devendo-se
rejeitar H0 se o valor observado na estatística for muito elevado. Como o valor do nível
de significância é 0.05 determina-se uma região de rejeição tal que a probabilidade de
rejeitar H0 , sendo esta verdadeira, seja igual a 0.05. Assim, como a estatística do teste
tem distribuição Normal e a região de teste é unilateral superior (rejeita-se H0 unicamente
para valores muito altos), a região crítica será da forma ilustrada nos seguintes gráficos.
230
Interpretação gráfica da região crítica de um teste unilateral superior
Aplicando α = 0.05 deduzem-se os valores críticos recorrendo à tabela.
Interpretação gráfica da região crítica de um teste unilateral superior com α = 0.05.
A região crítica será: rejeitar H0 se Zobs. > 1.645 ou, em termos de X, rejeitar H0 se
X > 1508.225, pois
Zobs. > 1.645 ⇔
X − 1500
> 1.645 ⇔ X > 1508.225.
5
Determinando zobs. ,
zobs. =
x − 1500 1509 − 1500
=
= 1.8,
5
5
verifica-se que zobs. > 1.645 (ou x = 1509 > 1508.225), logo rejeita-se H0 , ou seja, conclui-se que existe evidência estatística para afirmar que a média da população é superior a
1500 mililitros.
231
Figura 9: Interpretação gráfica da região crítica de um teste unilateral inferior.
3. No terceiro exemplo as hipóteses em análise são
H0 : μ = 1500 versos H1 : μ < 1500.
Como o teste é unilateral inferior a região crítica também deve ser unilateral, devendo-se
rejeitar H0 se o valor observado na estatística for muito baixo. Assim, a região crítica
será da forma apresentada no seguinte gráfico.Utilizando o nível de significância pretendido (α = 0.05), recorre-se à tabela para determinar o seu valor.
Interpretação gráfica da região crítica de um teste unilateral inferior com α = 0.05.
A região crítica deste teste é: rejeitar H0 se Zobs. < −1.645 ou, para obter em termos X,
Zobs. < −1.645 ⇔
X − 1500
< −1.645 ⇔ X < 1491.775
5
232
sendo rejeitar H0 se X < 1491.775. Determinando zobs. ,
zobs. =
x − 1500 1509 − 1500
=
= 1.8,
5
5
verifica-se que zobs. > −1.645 (ou x = 1509 > 1491.775), concluindo-se que não se deve
rejeitar H0 , ou seja, que não existe evidência estatística para afirmar que a média da
população é inferior a 1500 mililitros.
Uma outra forma de efectuar um teste de hipótese, chegando naturalmente à mesma conclusão, é calculando o seu p-value e comparando o valor obtido com o nível de significância do
teste.
Definição 3.5.6 (p-value)
O p-value é a probabilidade de observar uma amostra mais desfavorável para a hipótese
nula (H0 ) do que aquela que foi observada, considerando que a hipótese nula é verdadeira.
Nos caso em que o p-value assume um valor pequeno significa que a probabilidade de haver
uma amostra mais desfavorável que a observada, sob a hipótese de que H0 ser verdadeira, é
pequena, logo deve-se rejeitar H0 . A definição de uma probabilidade pequena para rejeitar H0
é feita pelo nível de significância. Desta forma, se o valor de p-value for inferior ao nível de
significância deve-se rejeitar H0 , portanto, conhecendo o valor do p-value torna-se fácil tomar
a decisão de rejeitar ou não H0 . O p-value tem assumido uma maior importância nos últimas
décadas com a evolução dos computadores, pois os softwares da área da estatística fazem testes
de hipóteses indicando, ao utilizador, o valor do p-value. Assim, este só tem de comparar o
valor obtido com o nível de significância que escolheu. Mas, como calcular o valor de p-value?
O cálculo do valor de p-value depende da hipótese alternativa do teste de hipóteses. Para
melhor se perceber o cálculo do p-value considere-se que a estatística de teste têm distribuição
Normal. Assim, no caso de a hipótese alternativa ser bilateral (H0 : θ = θ0 versos H1 : θ 6= θ0 )
o p-value é determinado por
p-value = 2P (Z > |zobs |) ,
233
(89)
no caso de a hipótese alternativa ser unilateral superior (H0 : θ = θ0 versos H1 : θ > θ0 ) o
p-value é determinado por
p-value = P (Z > zobs ) ,
(90)
e no caso em que a hipótese alternativa é unilateral inferior (H0 : θ = θ0 versos H1 : θ < θ0 ) o
p-value é determinado por
p-value = P (Z < zobs ) .
(91)
Exemplos 3.5.5
Vai-se efectuar os mesmos teste que no exemplo 3.5.4 utilizando o p-value.
Tal como no exemplo 3.5.4, a estatística de teste a utilizar, considerando que H0 é verdadeira, é
Z=
X − 1500
∼ N (0, 1)
5
que, como o valor da média da amostra é 1509 (x = 1509), o valor observado da estatística de
teste é
zobs. =
x − 1500
1509 − 1500
=
= 1.8.
5
5
1. No primeiro caso vai-se testar
H0 : μ = 1500 versos H1 : μ 6= 1500.
Tendo em conta que a hipótese alternativa é bilateral, vai-se utilizar a fórmula (89) .
p-value
= 2P (Z > |zobs |) = 2P (Z > |1.8|) = 2P (Z > 1.8) =
= 2 × [1 − φ (1.8)] = 2 × [1 − 0.9641] = 0.0718.
O valor do p-value é superior ao nível de significância (0.0718 > 0.05 = α), como tal, não
se rejeita H0 .
2. No segundo caso vai-se testar
H0 : μ = 1500 versos H1 : μ > 1500.
234
A hipótese alternativa é unilateral superior, portanto utiliza-se a fórmula (90) para determinar o valor do p-value.
p-value = P (Z > zobs ) = P (Z > 1.8) = 1 − φ (1.8) =
= 1 − 0.9641 = 0.0359.
Assim, como o p-value é inferior ao nível de significância (0.0359 < α = 0.05) deve-se
rejeitar H0 .
3. No terceiro caso as hipóteses em análise são
H0 : μ = 1500 versos H1 : μ < 1500.
Como o teste é unilateral inferior, a fórmula que vai ser utilizada será a (91). Assim, o
p-value é
p-value = P (Z < zobs ) = P (Z < 1.8) = φ (1.8) = 0.9641.
Considerando que o valor de p-value é superior ao nível de significância (0.9641 > α = 0.05)
não se rejeita H0 .
3.5.2
Testes de hipóteses para a média - σ conhecido e população com distribuição
Normal
Exemplo 3.5.6
A duração dos computadores da marca WorkFast tem distribuição Normal com valor médio
igual a μ dias e desvio padrão igual a 80 dias, isto é, X ∼ N (μ, 80). Considere que foi
recolhida uma amostra de 64 computadores onde se verificou uma média de 1000 dias e uma
variância igual a 6500.
1. Teste, com um nível de significância igual a cinco por cento, se os computadores WorkFast
têm uma duração, em média, superior a 980 dias.
As hipóteses a testar são
H0 : μ = 980 versos H1 : μ > 980.
235
Tendo em consideração que a população tem distribuição Normal e σ é conhecido, utiliza—
-se como estatística de teste
¶
µ
σ
X ∼ N μ, √
n
que, substituindo pelos valores conhecidos, vem
¶
µ
80
,
X ∼ N μ, √
64
ou seja, X ∼ N (μ, 10), de onde se obtém
Z=
X −μ
.
10
A região crítica do teste, tendo em conta que este teste é unilateral superior, é da forma
Zobs. > z1−α . Como o nível de significância é igual a cinco por cento (α = 0.05) tem-se
z1−α = z0.95 = 1.645, logo rejeita-se H0 se Zobs. > 1.645. O valor de zobs. é obtido através
da estatística de teste considerando que H0 é verdadeira, logo, como μ = 980, tem-se
Zobs. =
X − μ0
X − 980
=
10
10
que, como x = 200 obtém-se
zobs. =
x − 980
1000 − 980
=
= 2.
10
10
Assim, como zobs. = 2 > 1.645, rejeita-se H0 , o que significa que existe evidência estatística para afirmar que os computadores WorkFast têm uma duração média superior a 980
dias.
2. Considerando que os computadores duram, em média, 1010 dias, qual a potência do teste?
A probabilidade de ocorrência de um erro do tipo II é dada por
β = P (não rejeitar H0 |H0 falsa) =
= P (Zobs. ≤ 1.645|μ = 1010)
¶
µ
X − 980
≤ 1.645|μ = 1010
= P
10
236
Neste caso, pelo facto do verdadeiro valor para μ ser 1010, a distribuição a utilizar será
Z=
X −μ
X − 1010
=
10
10
logo
=
=
=
=
=
µ
¶
X − 980
P
≤ 1.645|μ = 1010 =
10
¢
¡
P X − 980 ≤ 16.45|μ = 1010 =
¢
¡
P X ≤ 996.45|μ = 1010 =
¢
¡
P X − 1010 ≤ −13.55|μ = 1010 =
¶
µ
X − 1010
≤ −1.355|μ = 1010 =
P
10
P (Z ≤ −1.355) =
= 1 − φ (1.355) ' 1 − φ (1.36) =
= 1 − 0.9131 = 0.0869.
Assim, a potência do teste é
1 − β = 1 − 0.0869 = 0.9131.
3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual
seria a decisão do teste no caso de o nível de significância fosse igual a um por cento.
O teste efectuado é um teste unilateral superior, como tal, o p-value é determinado através
de
p-value = P (Z > zobs ) = P (Z > 2) = 1 − φ (2) = 1 − 0.9772 = 0.0228.
Como o valor do p-value é superior ao nível de significância (α = 0.01), neste caso não
se rejeitaria H0 .
237
3.5.3
Testes de hipóteses para a média - σ conhecido e população com distribuição
não Normal (ou desconhecida)
Exemplo 3.5.7
O número de computadores vendidos diariamente em Alfalândia tem desvio padrão igual a 30.
Considere que foi observado o número de computadores vendidos em cem dias, obtendo-se um
média igual a 250.
1. Teste, com um nível de significância igual a dois por cento, se a média do número de
computadores vendidos diariamente em Alfalândia é igual a 245.
As hipóteses a testar são
H0 : μ = 245 versos H1 : μ 6= 245.
Tendo em consideração que σ é conhecido e n ≥ 30, utiliza—se a estatística
¶
µ
σ
•
X ∼ N μ, √
n
que, substituindo pelos valores conhecidos, vem
¶
µ
30
•
,
X ∼ N μ, √
100
•
que simplificando obtém-se X ∼ N (μ, 3), ou seja,
Z=
X −μ
.
3
A região crítica do teste, pelo facto de este teste ser bilateral, será rejeitar H0 se
Zobs. < −z1− α ∨ Zobs. > z1− α .
2
2
Como α = 0.02, vem
z1− α = z1− 0.02 = z0.99 = 2.326.
2
2
logo rejeita-se H0 se Zobs. < −2.326 ∨ Zobs. > 2.326.
O valor observado da estatística é igual a
Zobs. =
X − μ0
X − 245
=
3
3
238
que, como x = 250, obtém-se
zobs. =
250 − 245
x − 245
=
' 1.6667.
3
3
Assim, como o valor observado não pertence à região crítica, não se rejeita H0 , logo não
existe evidência estatística para afirmar que a média do número de computadores vendidos
diariamente em Alfalândia seja diferente de 245.
2. Considerando que os computadores duram, em média, 255 dias, qual a probabilidade de
ocorrência de um erro do tipo II?
A probabilidade de ocorrência de um erro do tipo II é dada por
β = P (não rejeitar H0 |H0 falsa) =
= P (−2.326 ≤ Zobs. ≤ 2.326|μ = 255)
¶
µ
X − 245
≤ 2.326|μ = 255 .
= P −2.326 ≤
3
Neste caso, pelo facto do verdadeiro valor para μ ser 255, a distribuição a utilizar é
Z=
assim
=
=
=
=
=
X −μ
X − 255
=
,
3
3
µ
¶
X − 245
P −2.326 ≤
≤ 2.326|μ = 255 =
3
¢
¡
P −6.978 ≤ X − 245 ≤ 6.978|μ = 255 =
¢
¡
P 238.002 ≤ X ≤ 251.978|μ = 255 =
¢
¡
P −16.978 ≤ X − 255 ≤ −3.022|μ = 255 =
¶
µ
X − 255
≤ −1.0073|μ = 255 =
P −5.6593 ≤
3
P (−5.6593 ≤ Z ≤ −1.0073) =
= P (Z ≤ −1.0073) − P (Z < −5.6593) =
= 1 − P (Z ≤ 1.0073) − [1 − P (Z ≤ 5.6593)] '
' 1 − P (Z ≤ 1.01) − 1 + P (Z ≤ 5.66) =
= 1 − 0.8438 − 1 + 1 = 0.1562.
239
A probabilidade de ocorrência de um erro do tipo II, quando μ = 255, é igual a 0.1562
(β = 0.1562).
3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual
seria a decisão do teste no caso de o nível de significância fosse igual a cinco por cento.
O teste efectuado é um teste bilateral, como tal, o p-value é determinado através de
p-value = 2P (Z > |zobs |) = 2P (Z > |1.6667|) =
= 2P (Z > 1.6667) = 2 [1 − φ (1.6667)] '
' 2 [1 − φ (1.67)] = 2 [1 − 0.9525] = 0.095.
Como o valor do p-value é superior ao nível de significância (α = 0.05) a decisão seria
no mesmo sentido, ou seja, não rejeitar H0 .
240
3.5.4
Testes de hipóteses para a proporção - População de Bernoulli
Exemplo 3.5.8
Com o objectivo de analisar a proporção de habitantes favoráveis à construção de um novo estádio municipal, foi recolhida uma amostra aleatória onde dos cem inquiridos oitenta responderam
serem favoráveis.
1. Teste, com um nível de significância igual a dez por cento, se a proporção de habitantes
favoráveis à construção de um novo estádio municipal é inferior oitenta e cinco por cento.
As hipóteses a testar são
H0 : p = 0.85 versos H1 : p < 0.85.
Pelo facto de se estar a analisar uma proporção (população de Bernoulli) sendo n ≥ 30,
utiliza—se a estatística
•
pb ∼ N
ou seja,
à r
p,
Z=r
p (1 − p)
n
!
,
pb − p
.
p (1 − p)
n
Como o teste é unilateral inferior, a região crítica do teste será rejeitar H0 se
Zobs. < −z1−α .
Como α = 0.10, vem
z1−α = z0.90 = 1.282.
logo rejeita-se H0 se Zobs. < −1.282. O valor observado da estatística é igual a
Zobs. = r
que, como pb = 0.8, obtém-se
zobs. = r
pb − p0
p0 (1 − p0 )
n
pb − 0.85
0.85 (1 − 0.85)
100
=r
=r
241
pb − 0.85
0.85 (1 − 0.85)
100
0.8 − 0.85
0.85 (1 − 0.85)
100
' −1.4003.
O valor observado pertence à região crítica, logo rejeita-se H0 . Existe evidência estatística
para afirmar que a proporção de habitantes favoráveis à construção de um novo estádio
municipal é inferior oitenta e cinco por cento.
2. Considerando que setenta e cinco por cento dos habitantes são favoráveis à construção de
um novo estádio municipal, qual a potência do teste?
A probabilidade de ocorrência de um erro do tipo II é dada por
β = P (não rejeitar H0 |H0 falsa) = P (Zobs. |p = 0.75)
⎛
⎞
⎜
⎟
pb − 0.85
⎟,
r
= P⎜
≥
−1.282|p
=
0.75
⎝ 0.85 (1 − 0.85)
⎠
100
onde, pelo facto do verdadeiro valor para p ser 0.75, a distribuição a utilizar será
logo
Z=r
pb − p
p (1 − p)
n
=r
pb − 0.75
0.75 (1 − 0.75)
100
⎛
⎞
⎜
⎟
pb − 0.85
⎟=
r
P⎜
≥
−1.282|p
=
0.75
⎝ 0.85 (1 − 0.85)
⎠
100
= P (b
p − 0.85 ≥ −0.0458|p = 0.75) =
= P (b
p ≥ 0.8042|p = 0.75) =
= P (b
p − 0.75 ≥ 0.0542|p = 0.75) =
⎛
⎞
⎟
⎜
pb − 0.75
⎟=
r
≥
1.2522|p
=
0.75
= P⎜
⎠
⎝ 0.75 (1 − 0.75)
100
= P (Z ≥ 1.2522) = 1 − φ (1.2522) '
' 1 − φ (1.25) = 1 − 0.8944 = 0.1056.
A potência do teste é dada por
1 − β = 1 − 0.1056 = 0.8944.
242
3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual
seria a decisão do teste no caso de o nível de significância fosse igual a cinco por cento.
O teste efectuado é um teste unilateral inferior, como tal, o p-value é determinado através
de
p-value = P (Z < zobs ) = P (Z < −1.4003) = 1 − φ (1.4003) '
' 1 − φ (1.40) = 1 − 0.9192 = 0.0808.
Como o valor do p-value é superior ao nível de significância (α = 0.05), neste caso não
se rejeitaria H0 .
3.5.5
Testes de hipóteses para a variância - População com distribuição Normal
Exemplo 3.5.9
Os salários da empresa BoaVida seguem uma distribuição Normal. Com base numa amostra
aleatória de dimensão 101 com média igual a 750 euros e variância igual a 10100.
1. Teste, com um nível de significância igual a cinco por cento, se os salários da empresa
BoaVida têm uma variância igual a 13000.
As hipóteses a testar são
H0 : σ 2 = 13000 versos H1 : σ 2 6= 13000.
Pelo facto de se estar a analisar a variância tendo a população distribuição Normal,
utiliza—se como estatística de teste
(n − 1) SC2
∼ χ2(n−1)
σ2
que, como n = 101, tem-se que
100SC2
∼ χ2(100) .
σ2
Como o teste é bilateral, a região crítica do teste será rejeitar H0 se
χ2obs < χ2α ∨ χ2obs > χ21− α .
2
243
2
Como α = 0.05, vem
χ2α = χ20.05 = χ20.025 = 74.222 e
2
2
χ1− α
2
=
2
2
χ 0.05
1−
2
= χ20.975 = 129.56.
Assim, rejeita-se H0 se χ2obs < 74.222 ∨ χ2obs > 129.56. O valor observado da estatística é
igual a
χ2obs. =
100SC2
100SC2
=
σ2
13000
que, como s2 = 10100 e consequentemente
s2C =
n 2 101
s =
× 10100 = 10201,
n−1
100
obtém-se
χ2obs. =
100 × 10201
100s2C
=
' 78.4692.
13000
13000
O valor observado não pertence à região crítica, logo não se rejeita H0 . Assim, não existe
evidência estatística para afirmar que a os variância dos salários da empresa BoaVida
sejam diferentes de 13000.
2. Considerando que os salários da empresa BoaVida têm uma variância igual a 10000, qual
a probabilidade de ocorrência de um erro de segunda espécie?
A probabilidade de ocorrência de um erro do tipo II é dada por
β = P (não rejeitar H0 |H0 falsa) =
¢
¡
= P 74.222 ≤ χ2obs. ≤ 129.56|σ 2 = 10000 =
¶
µ
100SC2
2
≤ 129.56|σ = 10000 .
= P 74.222 ≤
13000
Devido ao facto de o verdadeiro valor para σ 2 ser 10000, a distribuição a utilizar neste
cálculo será
100SC2
100SC2
=
∼ χ2(100)
σ2
10000
244
logo
=
=
=
=
µ
¶
100SC2
2
P 74.222 ≤
≤ 129.56|σ = 10000 =
13000
¢
¡
P 964886 ≤ 100SC2 ≤ 1684280|σ 2 = 10000 =
¶
µ
100SC2
2
≤ 168.428|σ = 10000 =
P 96.4886 ≤
10000
¢
¡
P 96.4886 ≤ χ2(100) ≤ 168.428 =
¢
¡
¢
¡
P χ2(100) ≤ 168.428 − P χ2(100) ≤ 96.4886
que recorrendo às tabelas da distribuição Qui-quadrado vem
Valores de x Valores de α
95.808
0.40
96.4886
α0 =?
99.334
0.50
que, pela interpolação linear, obtém-se
99.334 − 95.808
99.334 − 96.4886
0.50 − 0.40
⇔
0.50 − α0
⇔ α0 ' 0.4193.
=
Assim, conclui-se que
¡
¢
¡
¢
P χ2(100) ≤ 168.428 − P χ2(100) ≤ 96.4886 = 1 − 0.4193 = 0.5807.
A probabilidade de ocorrência de um erro do tipo II, quando μ = 10000, é igual a 0.5807
(β = 0.5807).
3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual
seria a decisão do teste no caso de o nível de significância fosse igual a dez por cento.
O teste efectuado é um teste bilateral, como tal, o p-value é determinado através de
© ¡
¢
¡
¢ª
p-value = 2 min P χ2 < χ2obs , P χ2 > χ2obs .
245
Para determinar este valor, começa-se por calcular as duas probabilidades.
¢
¡
¢
¡
P χ2 < χ2obs = P χ2 < 78.4692 =
que recorrendo às tabelas da distribuição Qui-quadrado vem
Valores de x Valores de α
77.929
0.05
78.4692
α0 =?
82.358
0.10
logo, pela interpolação linear, conclui-se que
82.358 − 77.929
82.358 − 78.4692
0.10 − 0.05
⇔
0.10 − α0
⇔ α0 ' 0.0561.
=
portanto
¡
¢
P χ2 < 78.4692 ' 0.0561
e
¢
¡
¢
¡
P χ2 > χ2obs = 1 − P χ2 < χ2obs = 1 − 0.0561 = 0.9439.
O valor do p-value é obtido por
p-value = 2 min {0.0561, 0.9439} = 2 × 0.0561 = 0.1122.
Como o valor do p-value é superior ao nível de significância (α = 0.10), a decisão seria
no mesmo sentido, ou seja, não rejeitar H0 .
3.5.6
Testes de hipóteses para a média - σ desconhecido e População com distribuição Normal
Exemplo 3.5.10
O tempo que um carro demora a passar determinada ponte tem distribuição Normal. Considere
246
uma amostra aleatória de dimensão 11 onde foi obtida uma variância igual a 110 e uma média
igual a 80 segundos.
1. Teste, com um nível de significância igual a dez por cento, se o tempo que um carro
demora a passar a ponte é, em média, inferior a 90 segundos.
As hipóteses a testar são
H0 : μ = 90 versos H1 : μ < 90.
Tendo em consideração que a população tem distribuição Normal e σ é desconhecido,
utiliza—se como estatística de teste
X −μ
∼ t(n−1)
SC
√
n
que, como n = 11, vem
X −μ
∼ t(10).
S
√C
10
A região crítica do teste, tendo em conta que este é unilateral inferior, é da forma
Tobs. < −t1−α .
Como o nível de significância é igual a dez por cento (α = 0.10) tem-se t1−α = t0.90 =
1.3722, logo rejeita-se H0 se Tobs. < −1.3722. O valor de tobs. é obtido através da estatística
de teste considerando que H0 é verdadeira, logo, como μ = 90 e
s2C =
n 2 11
s =
× 110 = 121
n−1
10
ou seja
sC =
√
121 = 11,
tem-se
Tobs. =
X − μ0
X − 90
sC = 11
√
√
10
10
247
que, como x = 80, obtém-se
x − 90 80 − 90
=
= −2.8748.
11
11
√
√
10
10
= −2.8748 < −1.3722, vai-se rejeitar H0 o que significa que existe
tobs. =
Assim, como tobs.
evidência estatística para afirmar que o tempo médio que um carro demora a passar a
ponte é inferior a 90 segundos.
2. Considerando que o tempo médio que um carro demora a passar a ponte é igual a 75
segundos, qual a potência do teste?
A probabilidade de ocorrência de um erro do tipo II é dada por
β = P (não rejeitar H0 |H0 falsa) =
= P (Tobs. ≥ −1.3722|μ = 75) =
⎞
⎛
⎟
⎜ X − 90
⎟
≥
−1.3722|μ
=
75
= P⎜
⎠
⎝ 11
√
10
Neste caso, pelo facto do verdadeiro valor para μ ser 75, a distribuição a utilizar será
T =
logo
X − μ X − 75
=
∼ t(10)
11
11
√
√
10
10
⎛
⎞
⎜ X − 90
⎟
⎟=
P⎜
≥
−1.3722|μ
=
75
⎝ 11
⎠
√
10
¡
¢
= P X − 90 ≥ −4.7732|μ = 75 =
¢
¡
= P X ≥ 85.2268|μ = 75 =
¢
¡
= P X − 75 ≥ 10.2268|μ = 75 =
⎛
⎞
⎜ X − 75
⎟
⎟=
= P⎜
≥
2.94|μ
=
75
⎝ 11
⎠
√
10
¡
¢
¡
¢
= P t(10) ≥ 2.94 = 1 − P t(10) < 2.94
248
que recorrendo às tabelas da distribuição t-Student vem
Valores de x Valores de α
2.7638
0.99
2.94
α0 =?
3.1693
0.995
que, pela interpolação linear, obtém-se
3.1693 − 2.7638
3.1693 − 2.94
0.995 − 0.99
⇔
0.995 − α0
⇔ α0 ' 0.9922.
=
Assim, conclui-se que
¡
¢
1 − P t(10) < 2.94 ' 1 − 0.9922 = 0.0078.
A potência do teste é igual a
1 − β = 1 − 0.0078 = 0.9922.
3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual
seria a decisão do teste no caso de o nível de significância fosse igual a cinco por cento.
O teste efectuado é um teste unilateral inferior, como tal, o p-value é determinado através
de
p-value = P (T < tobs ) = P (T < −2.8748) = 1 − P (T < 2.8748)
que recorrendo às tabelas da distribuição t-Student vem
Valores de x Valores de α
2.7638
0.99
2.8748
α0 =?
3.1693
0.995
249
Pela interpolação linear, conclui-se que
3.1693 − 2.7638
3.1693 − 2.8748
0.995 − 0.99
⇔
0.995 − α0
⇔ α0 ' 0.9914.
=
que substituindo obtem-se
1 − P (T < 2.8748) = 1 − 0.9914 = 0.0086.
Como o valor do p-value é inferior ao nível de significância (α = 0.05) a decisão seria no
mesmo sentido, ou seja, rejeitar H0 .
Exemplo 3.5.11
O número de telemóveis vendidos diariamente numa das loja da marca FalaBarato é descrito,
aproximadamente, por uma distribuição Normal. Com o objectivo de analisar o número de
telemóveis vendidos diariamente nessa loja, foi recolhida amostra aleatória de dimensão 100
com média 50 telemóveis e variância 222.75.
1. Teste, com um nível de significância igual a um por cento, se o número médio de telemóveis
vendidos diariamente na loja é superior a 45.
As hipóteses a testar são
H0 : μ = 45 versos H1 : μ > 45.
Tendo em consideração que σ é desconhecido e a população possui distribuição Normal
utiliza-se, como estatística de teste,
T =
X −μ
∼ t(n−1)
SC
√
n
que, como n = 100, vem
T =
X −μ X −μ
=
∼ t(99).
S
SC
√C
10
100
250
mas, como os graus de liberdade da t-Student são superiores a 30, a estatística de teste
pode ser aproximada à distribuição Normal, obtendo-se
Z=
X −μ
.
SC
10
A região crítica do teste, pelo facto de este ser unilateral superior, será rejeitar H0 se
Zobs. > z1−α . Como α = 0.01, vem
z1−α = z0.99 = 2.326,
logo rejeita-se H0 se Zobs. > 2.326. O valor de zobs. é obtido através da estatística utilizada
no teste considerando que H0 é verdadeira, assim, como μ = 45 e
s2C =
√
n 2 100
s =
× 222.75 = 225 ⇒ sC = 225 = 15,
n−1
99
tem-se
Zobs. =
X − μ0
X − 45
X − 45
sC = 15 = 1.5 ,
10
10
sendo o valor observado igual a
zobs. =
x − 45 50 − 45
=
' 3.3333.
1.5
1.5
O valor observado pertence à região crítica, logo deve-se rejeitar H0 . Assim, existe evidência estatística para afirmar que o número médio de telemóveis vendidos diariamente
na loja é superior a 45.
2. Considerando que o número médio de telemóveis vendidos diariamente na loja é igual a
52, qual a probabilidade de ocorrência de um erro do tipo II?
A probabilidade de ocorrência de um erro do tipo II é dada por
β = P (não rejeitar H0 |H0 falsa) =
= P (Zobs. ≤ 2.326|μ = 52)
¶
µ
X − 45
≤ 2.326|μ = 52
= P
1.5
251
Neste caso, pelo facto do verdadeiro valor para μ ser 52, a distribuição a utilizar será
Z=
X − μ X − 52
=
1.5
1.5
logo
=
=
=
=
=
µ
¶
X − 45
P
≤ 2.326|μ = 52 =
1.5
¢
¡
P X − 45 ≤ 3.489|μ = 52 =
¢
¡
P X ≤ 48.489|μ = 52 =
¢
¡
P X − 52 ≤ −3.511|μ = 52 =
¶
µ
X − 52
≤ −2.3407|μ = 52 =
P
1.5
P (Z ≤ −2.3407) = 1 − φ (−2.3407) '
' 1 − φ (−2.34) = 1 − 0.9904 = 0.0096.
Assim, a probabilidade de ocorrência de um erro do tipo II, quando μ = 52, é igual a
0.0096 (β = 0.0096).
3. Determine o p-value do teste efectuado na primeira alínea. Utilize-o para concluir qual
seria a decisão do teste no caso de o nível de significância fosse igual a 0.1 por cento.
O teste efectuado é um teste unilateral superior, como tal, o p-value é determinado através
de
p-value = P (Z > zobs ) = P (Z > 3.3333) = 1 − φ (3.3333) '
' 1 − φ (3.33) = 1 − 0.9996 = 0.0004.
Como o valor do p-value é inferior ao nível de significância (α = 0.001), neste caso também se rejeitaria H0 .
252
3.5.7
Procedimento geral para a construção de um teste de hipóteses
1. Identificar o parâmetro em análise e especificar a hipótese nula e a hipótese alternativa.
2. Escolher o nível de significância.
3. Com base no conhecimentos de distribuições amostrais, escolher uma estatística de teste
adequada.
4. Determinar a região crítica do teste.
5. Com base na informação de uma amostra determinar o valor observado da estatística e
decidir sobre a rejeição ou não da hipótese nula.
253
3.5.8
Quadro resumo dos testes de hipóteses
Parâmetro
μ
μ
μ
μ
p
H1
Região Crítica
σ conhecido
μ 6= μ0
Zobs. < −z1− α ∨ Zobs. > z1− α
2P (Z > |zobs |)
e
μ > μ0
Zobs. > z1−α
P (Z > zobs )
População Normal
μ < μ0
Zobs. < −z1−α
P (Z < zobs )
σ conhecido
μ 6= μ0
Zobs. < −z1− α ∨ Zobs. > z1− α
2P (Z > |zobs |)
e
μ > μ0
Zobs. > z1−α
P (Z > zobs )
n ≥ 30
μ < μ0
Zobs. < −z1−α
P (Z < zobs )
σ desconhecido
μ 6= μ0
Tobs. < −t1− α ∨ Tobs. > t1− α
2P (T > |tobs |)
e
μ > μ0
Tobs. > t1−α
P (T > tobs )
População Normal
μ < μ0
Tobs. < −t1−α
P (T < tobs )
σ desconhecido
μ 6= μ0
Zobs. < −z1− α ∨ Zobs. > z1− α
2P (Z > |zobs |)
População Normal e
μ > μ0
Zobs. > z1−α
P (Z > zobs )
n > 30
μ < μ0
Zobs. < −z1−α
P (Z < zobs )
População Bernoulli
p 6= p0
Zobs. < −z1− α ∨ Zobs. > z1− α
2P (Z > |zobs |)
e
p < p0
Zobs. > z1−α
P (Z > zobs )
n ≥ 30
p > p0
Zobs. < −z1−α
P (Z < zobs )
2
σ
15
2
2
2
2
2
2
2
2
σ 2 6= σ 20
2
p-value15
Condições
2
χ2obs < χ2α ∨ χ2obs > χ21− α
2
2
2 min {p1 , p2 }
p1 = P (χ2 > χ2obs )
p2 = P (χ2 < χ2obs )
População Normal
σ 2 > σ 20
χ2obs > χ21−α
P (χ2 > χ2obs )
σ 2 < σ 20
χ2obs < χ2α
P (χ2 < χ2obs )
No cálculo do p-value considera-se que a hipótese nula é verdadeira.
254
Índice
1 Probabilidades
1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 Definição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1
Definição clássica de probabilidade . . . . . . . . . . . . . . . . . . . . . 10
1.2.2
Definição frequencista de probabilidade . . . . . . . . . . . . . . . . . . . 15
1.2.3
Definição axiomática de probabilidade . . . . . . . . . . . . . . . . . . . 17
1.3 Probabilidades condicionadas e acontecimentos independentes . . . . . . . . . . 22
1.4 Teorema das probabilidades totais e teorema de Bayes . . . . . . . . . . . . . . . 32
2 Distribuições
37
2.1 Definição de variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.1
Caso unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.2
Caso bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Distribuições discretas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.1
Distribuição de Bernoulli
. . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.2
Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.3
Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.4
Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . 66
2.3.5
Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.4 Variáveis aleatórias contínuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.4.1
Função de densidade de probabilidade . . . . . . . . . . . . . . . . . . . 74
2.4.2
Função de distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.4.3
Valor esperado e variância de uma variável aleatória contínua . . . . . . 78
2.5 Distribuições Contínuas de Probabilidade . . . . . . . . . . . . . . . . . . . . . . 82
2.5.1
Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2.5.2
Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
i
2.5.3
Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.5.4
Distribuição Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.5.5
Distribuição de t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
2.5.6
Distribuição de F - Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 113
2.6 Desigualdade de Tchebycheff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.7 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
2.7.1
Função de distribuição da Poisson - P (λ) . . . . . . . . . . . . . . . . . . 123
2.7.2
Função de distribuição da Normal Standard - Z . . . . . . . . . . . . . . 126
2.7.3
Valores percentuais da t-Student com n graus de liberdade - t
2.7.4
Valores percentuais da Qui—quadrado com n graus de liberdade - χ2(n) . . 128
2.7.5
Valores percentuais da F—Snedcor com m e n graus de liberdade - F(m,n) 130
(n)
. . . . . 127
3 Inferência Estatística
134
3.1 Noções básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
3.2 Estimadores Pontuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.2.1
Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
3.2.2
Método da máxima verosimilhança . . . . . . . . . . . . . . . . . . . . . 144
3.2.3
Propriedades dos estimadores pontuais . . . . . . . . . . . . . . . . . . . 157
3.3 Distribuições amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
3.3.1
Distribuição da média amostral - σ conhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
3.3.2
Distribuição da média amostral - σ conhecido e população com distribuição não Normal (ou desconhecida) . . . . . . . . . . . . . . . . . . 170
3.3.3
Distribuição da proporção amostral - População de Bernoulli . . . . . . . 173
3.3.4
Distribuição da variância amostral - População com distribuição Normal 177
3.3.5
Distribuição da média amostral - σ desconhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.3.6
Quadro resumo das distribuições amostrais . . . . . . . . . . . . . . . . . 189
3.4 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
ii
3.4.1
Intervalos de confiança para a média - σ conhecido e população com
distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
3.4.2
Intervalos de confiança para a média - σ conhecido e população com
distribuição não Normal (ou desconhecida) . . . . . . . . . . . . . . . . . 196
3.4.3
Intervalos de confiança para a proporção - População de Bernoulli . . . . 201
3.4.4
Intervalos de confiança para a variância - População com distribuição
Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
3.4.5
Intervalos de confiança para a média - σ desconhecido e população com
distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
3.4.6
Procedimento geral para a construção de um intervalo de confiança . . . 215
3.4.7
Quadro resumo dos intervalos de confiança . . . . . . . . . . . . . . . . . 215
3.5 Testes de hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
3.5.1
Noções básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
3.5.2
Testes de hipóteses para a média - σ conhecido e população com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
3.5.3
Testes de hipóteses para a média - σ conhecido e população com distribuição não Normal (ou desconhecida) . . . . . . . . . . . . . . . . . . 238
3.5.4
Testes de hipóteses para a proporção - População de Bernoulli . . . . . . 241
3.5.5
Testes de hipóteses para a variância - População com distribuição Normal 243
3.5.6
Testes de hipóteses para a média - σ desconhecido e População com distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
3.5.7
Procedimento geral para a construção de um teste de hipóteses . . . . . . 253
3.5.8
Quadro resumo dos testes de hipóteses . . . . . . . . . . . . . . . . . . . 254
iii
Download