Distribuicao Gaussiana

Propaganda
Distribuição
Gaussiana
Modelo Probabilístico para
Variáveis Contínuas
2000
1500
1000
500
0
Frequencia
2500
3000
3500
Distribuição de Frequências do Peso, em
gramas, de 10000 recém-nascidos
1000
2000
3000
Peso ao nascer
4000
5000
frequência relativa
densidade =
tamanho da classe
8e-04
4e-04
àrea da barra =densidade x
largura da barra
2e-04
àrea da barra =probabilidade de
X estar entre os limites da barra
0e+00
Densidade
6e-04
Histograma de
Densidade
1000
2000
3000
4000
Peso ao nascer
P[2500 < X < 3500] =
5000
soma das àreas das barras
entre 2500 e 3500 g.
8e-04
4e-04
2e-04
àrea da barra =probabilidade de
X estar entre os limites da barra
0e+00
Densidade
6e-04
Histograma de
Densidade
1000
2000
3000
4000
5000
Peso ao nascer
P[X < 2125] = soma das àreas das barras entre 1000 e 2125
Muitas vezes, as barras do histograma podem
ser aproximadas por uma curva mais suave …
mais classes
Essa curva suave é chamada
função de densidade de X, ou f(x)
f(x)
Como calcular
probabilidades
usando f(x) ?
P[a < X < b ]
P[a < X < b ] é a área
abaixo da curva f(x) entre
aeb
a
b
Propriedades de f(x)
1) f(x) ≥ 0
2) A área abaixo de toda a curva f(x) é igual a 1.
Como X é uma variável aleatória contínua, então
P[X=a] = 0
P[X < b] = P[X ≤ b]
O Modelo Probabilístico Gaussiano
(ou Normal)
Frequência
Algumas variáveis contínuas exibem um comportamento
muito particular quando visualizamos a distribuição de
frequências de seus valores.
Valores
• Concentração de valores em torno de um valor central;
• Simetria em torno do valor central;
• Frequência pequena de valores muito extremos.
O Modelo Probabilístico Gaussiano
O matemático alemão Karl Gauss
popularizou um modelo proposto para a
distribuição de probabilidades de variáveis
do tipo descrito anteriormente.
A curva descrita por este modelo é
conhecida como Curva de Gauss (ou
também como Curva Normal)
O Modelo Probabilístico Gaussiano
1
f ( x) =
e
2πσ
2
x
−
µ

− σ 
1 
2 

, −∞ < x < ∞
A função de densidade de X só depende de dois valores:
a média µ e o desvio-padrão σ
π
e
e
são constantes conhecidas (π ≈ 3,14159… e
e ≈ 2.71828…)
O Modelo Probabilístico Gaussiano
A média µ de uma variável aleatória X que siga o modelo
Gaussiano pode assumir qualquer valor na reta real
−∞ < µ < ∞
O desvio-padrão σ de qualquer variável aleatória X só
pode assumir valores maiores do que zero
σ >0
µ e σ são os parâmetros do Modelo Gaussiano
Dizemos que
X ~ Normal (µ,σ)
O Modelo Probabilístico Gaussiano
A curva gaussiana (ou curva Normal) é definida pela
média µ e pelo desvio-padrão σ.
O parâmetro µ informa onde está centrada a
curva gaussiana
A forma do sino (mais “achatado” ou mais
“alongado”) é dada pelo valor do desvio-padrão σ
Para cada combinação de µ e σ, existe uma
curva gaussiana diferente
A curva gaussiana tem a forma de um sino e é
simétrica em torno da média µ;
a
a
3000 - a
3000 + a
P(X < 3000-a ) = P(X > 3000+a )
Simetria
Propriedades da Distribuição Normal
Área fixa entre intervalos simétricos
Cálculo de Probabilidade na Curva Normal
Considere
uma variável
aleatória X com distribuição
Normal (µ,σ). Ou seja, X ~ Normal(µ,σ)
Probabilidade de X estar entre x1 e x2: P( x1
< X < x2 )
P( x1 < X < x2 )
Área sob a curva
Normal entre x1 e x2.
Cálculo de Probabilidade na Curva Normal
curvas Normais diferentes áreas diferentes
P( x1 < X < x2 )
Suponha que X é o peso de bebês ao nascer e que,
Exemplo: em certa população, X tem distribuição de
probabilidade que pode ser aproximada pela
Normal com µ = 3000g e σ = 1000g.
Qual é a porcentagem de bebês que nascem com
peso abaixo de 1500g ?
A Distribuição Normal Padrão
As probabilidades na curva Normal são calculadas com o
auxílio de uma tabela.
Como existem infinitas combinações dos valores para µ
e σ, seria inviável tabelar as probabilidades de todas as
distribuições Normais possíveis.
Sendo assim, uma única variável Normal possui suas
probabilidades tabeladas: a variável Z com média igual a
0 e desvio-padrão igual a 1.
Z ~ Normal (µ=0 ; σ=1)
A variável aleatória Normal com
média µ=0 e desvio-padrão σ=1 é
chamada de
Variável Normal Padrão
a variável
aleatória Z
Z ~ N(0,1)
tem distribuição
de probabilidade
P( Z < z )
Normal com
média=0 e
d.p.=1
A Tabela Normal Padrão (Tabela Z)
Parte Negativa
Linha: Parte inteira e
primeira casa decimal de z
Coluna: Segunda
casa decimal de z
-2.9
0.0019
0.0018
0.0017
0.0017
-0.8
0.2119
0.2090
0.2061
0.2033
P( Z < -0.83 )
-0.83
A Tabela Normal Padrão (Tabela Z)
Parte Positiva
Linha: Parte inteira e
primeira casa decimal de z
Coluna: Segunda
casa decimal de z
P( Z < 1.5 )
Exemplo:
Seja Z uma v.a. normal padronizada. Calcule:
P( Z < -1.97) = ?
P( Z < -1.97 ) = 0.0244,
obtida direto da tabela.
P( Z > 1.84) = ?
P( Z >1.84) = P( Z < -1.84) = 0.0329,
obtida direto da tabela
e por simetria.
P( -1.97 < Z < 0.86 ) = P( Z < 0.86 ) = 0.8051
= 0.7807
=
P( Z < -1.97 )
0.0244
-
Cálculo de percentis na curva Normal
Percentil de ordem 2.5
Que valor de Z na tabela Normal Padrão deixa uma área de
0.0250 abaixo dele ?
Ou seja, quem é a tal que P[Z < a ]=0.0250 ?
a é o percentil 2.5 da curva Normal Padrão
0.0250
a=-1.96
Cálculo de percentis na curva Normal
Percentil de ordem 97.5
Que valor de Z na tabela Normal Padrão deixa uma área de
0.9750 abaixo dele ?
Ou seja, quem é b tal que P[Z < b ]=0.9750 ?
b é o percentil 97.5 da curva Normal Padrão
b é o simétrico de a em relação
à média da curva Normal
0.9750
0.0250
b=1.96
Cálculo de percentis na curva Normal
Percentil de ordem 95
P[Z < b ]=0.9500
b é o percentil 95 da curva
Normal Padrão
b=1.645
Na tabela Z:
z = 1.65 área abaixo = 0.9505
z = 1.64 área abaixo = 0.9495
Escolher o valor mais próximo da probabilidade desejada.
Cálculo de percentis na curva Normal
Percentil de ordem 1
P[Z < b ]=0.0100
b é o percentil 1 da curva Normal Padrão
P[-b < Z < b ]=0.9800
0.9800
0.0100
0.0100
-b=2.33
b=2.33
P[Z< -b ] =0.0100
-b = ?
Na tabela Z:
z = -2.33 área abaixo = 0.0099
z = -2.32 área abaixo = 0.0102
Usar o valor de z que
forneça a área mais próxima
do desejada (-2.33)
Como usar a tabela Normal Padrão para
calcular probabilidades em uma curva
Normal qualquer?
Distribuição de
Distribuição de
Z ~ Normal (µ=0 ; σ=1)
X ~ Normal (µ=10 ; σ=2)
Padronização de uma variável aleatória Normal
Podemos transformar uma variável aleatória
X ~ Normal ( µ , σ ) em uma variável aleatória
Z ~ Normal ( 0, 1) usando a expressão:
Z=
X −µ
σ
X ~ Normal( µ ,σ )
Z ~ Normal(0,1)
z1 =
x1 − µ
σ
z2 =
x2 − µ
σ
Calculando probabilidades de X utilizando a tabela Z
 X −µ 9−µ
 X − 10 9 − 10 
<
= P
<
P[ X < 9] = P 

σ 
2 
 σ
 2
= P[ Z < −0.5] = 0.3085
X − 10 13 − 10
>
]=
P[ X > 13] = P[
2
2
= P[ Z < −1.5] = 0.0668
P[ Z > 1.5]
Exemplo 1: Se X tem distribuição Normal com µ = 40 e
σ = 6, encontre o valor de x tal que P[X < x] =0.45.
Se P[X < x] =0.45.
então P( Z < (x-40)/6 ) = 0.45.
Mas
P( Z < -0.13 ) = 0.45 (da tabela);
Logo (x-40)/6 = -0.13
x = 40 + (-0.13)6
= 40 - 0.78
= 39.22.
Ou seja, 39.22 é o percentil 45
da distribuição de X.
Exemplo 2: Se X tem distribuição Normal com µ = 40 e
σ = 6, encontre o valor de x tal que P[X > x] =0.14.
Se P[X < x] = 0.86
então P( Z < (x-40)/6 ) = 0.86.
Mas
P( Z > 1.08) = P( Z < -1.08)
= 0.14 (da tabela);
Logo (x-40)/6 = 1.08
x = 40 + (1.08)6
= 46.48
Ou seja, 46.48 é o percentil 86 da
distribuição de X.
Cálculo do Percentil de ordem 100α
da distribuição Normal
P100α = µ + z(1−α ) ⋅ σ
onde α é a ordem do percentil (0 < α < 1) e
z(1-α) é o valor na tabela Z que deixa uma área de (1-α) acima dele.
1-α
α
z(1-α)
Cálculo do Percentil de ordem 100α da
distribuição Normal
Conferindo os dois exemplos anteriores, onde µ = 40 e σ = 6 :
α = 0.45
α = 0.86
P45 = 40 + z(1−0.4500) × 6
P86 = 40 + z(1−0.8600) × 6
= 40 + z(0.5500) × 6
= 40 + z(0.1400) × 6
= 40 − 0.13 × 6
= 40 + 1.08 × 6
Suponha que X é o peso de bebês ao nascer e
Exemplo que, em certa população, X tem distribuição
Inicial:
que pode ser aproximada pela Normal com
µ = 3000g e σ = 1000g.
Qual é a porcentagem de bebês que nascem com peso abaixo
de 1500g ?
 X − 3000 1500 − 3000 
P[ X < 1500] = P 
<

1000
1000


= P [ Z < −1.5] = 0.0068
0.68% dos bebês
têm peso inferior
a 1500g.
Qual é a porcentagem de bebês que nascem com peso acima
de 4000g ?
4000 − 3000 

P[ X > 4000] = P  Z >

1000

= P [ Z > 1.0] = P [ Z < −1.0] = 0.1587
Qual é a porcentagem de
bebês que nascem com
peso entre 2500 e 3500g ?
38.30% dos bebês
P[2500 < X < 3500] = P[ X < 3500] − P[ X < 2500]
3500 − 3000 
2500 − 3000 


= P Z <
− P Z <


1000
1000




= P [ Z < 0.5] − P [ Z < −0.5]
= 0.6915 − 0.3085 = 0.3830
Qual valor de peso dos bebês
separa os 10% mais leves?
0.10
1720 gramas
P10
α = 0.10
P10 = 3000 + z(1−0.1000) ×1000
= 3000 + z(0.9000) × 1000
= 3000 + (−1.28) ×1000
= 3000 − 1280 = 1720
3000
Qual valor de peso dos bebês
separa os 10% mais pesados?
0.10
4280 gramas
3000
α = 0.90
P10 = 3000 + z(1−0.9000) ×1000
= 3000 + z(0.1000) ×1000
= 3000 + 1.28 × 1000
= 3000 + 1280 = 4280
P90
Aplicações do Modelo Gaussiano:
Cálculo de Faixas de Referência
Faixas de Referência são formadas por dois percentis
Exemplo: uma faixa de referência de 90% é
formada pelos percentis 5 e 95
90%
5%
P5
5%
P95
Cálculo de Faixas de Referência utilizando o
modelo Gaussiano
Seja X a variável aleatória que representa a característica
para a qual queremos construir uma faixa de referência.
Exemplo: X é o peso de recém-nascidos
Se X ~ Normal (µ,σ), então uma faixa de referência
de (1-α)100% é formada pelos percentis
P(α/2)100 e P(1-α/2)100
Exemplo: uma faixa de referência de 90%
(α=0.10) é formada pelos percentis P5 e P95
Cálculo de Faixas de Referência utilizando o
modelo Gaussiano
No exemplo do peso dos recém-nascidos (X), se
pudermos supor que X ~ Normal (µ=3000 ; σ=1000),
uma faixa de referência de 80% seria dada pelos
percentis P10= 1720 e P90 = 4280 (já calculados
anteriormente)
Faixa de Referência de 80% para o peso
de recém-nascidos
1720 gramas a 4280 gramas
Cálculo de Faixas de Referência utilizando o
modelo Gaussiano
Relembrando o cálculo de percentis com o modelo
gaussiano e a definição de faixa de referência,
uma faixa de referência de (1-α)100% é dada pela expressão
[ µ + z(1−α / 2) ⋅ σ ; µ + z(α / 2) ⋅ σ ]
z(1−α / 2) = − z(α / 2) (por simetria)
[ µ − z(α / 2) ⋅ σ ; µ + z(α / 2) ⋅ σ ]
Para aprender (I)…
Para o exemplo do peso dos recém-nascidos, calcule
as seguintes faixas de referência:
90%
95%
Antes de calcular essas faixas, responda:
qual delas você espera que seja a mais larga?
Justifique.
Para aprender (II)…
Exercícios da Seção 7 (Modelo Probabilístico
Gaussiano)
Download