Distribuição Gaussiana Modelo Probabilístico para Variáveis Contínuas 2000 1500 1000 500 0 Frequencia 2500 3000 3500 Distribuição de Frequências do Peso, em gramas, de 10000 recém-nascidos 1000 2000 3000 Peso ao nascer 4000 5000 frequência relativa densidade = tamanho da classe 8e-04 4e-04 àrea da barra =densidade x largura da barra 2e-04 àrea da barra =probabilidade de X estar entre os limites da barra 0e+00 Densidade 6e-04 Histograma de Densidade 1000 2000 3000 4000 Peso ao nascer P[2500 < X < 3500] = 5000 soma das àreas das barras entre 2500 e 3500 g. 8e-04 4e-04 2e-04 àrea da barra =probabilidade de X estar entre os limites da barra 0e+00 Densidade 6e-04 Histograma de Densidade 1000 2000 3000 4000 5000 Peso ao nascer P[X < 2125] = soma das àreas das barras entre 1000 e 2125 Muitas vezes, as barras do histograma podem ser aproximadas por uma curva mais suave … mais classes Essa curva suave é chamada função de densidade de X, ou f(x) f(x) Como calcular probabilidades usando f(x) ? P[a < X < b ] P[a < X < b ] é a área abaixo da curva f(x) entre aeb a b Propriedades de f(x) 1) f(x) ≥ 0 2) A área abaixo de toda a curva f(x) é igual a 1. Como X é uma variável aleatória contínua, então P[X=a] = 0 P[X < b] = P[X ≤ b] O Modelo Probabilístico Gaussiano (ou Normal) Frequência Algumas variáveis contínuas exibem um comportamento muito particular quando visualizamos a distribuição de frequências de seus valores. Valores • Concentração de valores em torno de um valor central; • Simetria em torno do valor central; • Frequência pequena de valores muito extremos. O Modelo Probabilístico Gaussiano O matemático alemão Karl Gauss popularizou um modelo proposto para a distribuição de probabilidades de variáveis do tipo descrito anteriormente. A curva descrita por este modelo é conhecida como Curva de Gauss (ou também como Curva Normal) O Modelo Probabilístico Gaussiano 1 f ( x) = e 2πσ 2 x − µ − σ 1 2 , −∞ < x < ∞ A função de densidade de X só depende de dois valores: a média µ e o desvio-padrão σ π e e são constantes conhecidas (π ≈ 3,14159… e e ≈ 2.71828…) O Modelo Probabilístico Gaussiano A média µ de uma variável aleatória X que siga o modelo Gaussiano pode assumir qualquer valor na reta real −∞ < µ < ∞ O desvio-padrão σ de qualquer variável aleatória X só pode assumir valores maiores do que zero σ >0 µ e σ são os parâmetros do Modelo Gaussiano Dizemos que X ~ Normal (µ,σ) O Modelo Probabilístico Gaussiano A curva gaussiana (ou curva Normal) é definida pela média µ e pelo desvio-padrão σ. O parâmetro µ informa onde está centrada a curva gaussiana A forma do sino (mais “achatado” ou mais “alongado”) é dada pelo valor do desvio-padrão σ Para cada combinação de µ e σ, existe uma curva gaussiana diferente A curva gaussiana tem a forma de um sino e é simétrica em torno da média µ; a a 3000 - a 3000 + a P(X < 3000-a ) = P(X > 3000+a ) Simetria Propriedades da Distribuição Normal Área fixa entre intervalos simétricos Cálculo de Probabilidade na Curva Normal Considere uma variável aleatória X com distribuição Normal (µ,σ). Ou seja, X ~ Normal(µ,σ) Probabilidade de X estar entre x1 e x2: P( x1 < X < x2 ) P( x1 < X < x2 ) Área sob a curva Normal entre x1 e x2. Cálculo de Probabilidade na Curva Normal curvas Normais diferentes áreas diferentes P( x1 < X < x2 ) Suponha que X é o peso de bebês ao nascer e que, Exemplo: em certa população, X tem distribuição de probabilidade que pode ser aproximada pela Normal com µ = 3000g e σ = 1000g. Qual é a porcentagem de bebês que nascem com peso abaixo de 1500g ? A Distribuição Normal Padrão As probabilidades na curva Normal são calculadas com o auxílio de uma tabela. Como existem infinitas combinações dos valores para µ e σ, seria inviável tabelar as probabilidades de todas as distribuições Normais possíveis. Sendo assim, uma única variável Normal possui suas probabilidades tabeladas: a variável Z com média igual a 0 e desvio-padrão igual a 1. Z ~ Normal (µ=0 ; σ=1) A variável aleatória Normal com média µ=0 e desvio-padrão σ=1 é chamada de Variável Normal Padrão a variável aleatória Z Z ~ N(0,1) tem distribuição de probabilidade P( Z < z ) Normal com média=0 e d.p.=1 A Tabela Normal Padrão (Tabela Z) Parte Negativa Linha: Parte inteira e primeira casa decimal de z Coluna: Segunda casa decimal de z -2.9 0.0019 0.0018 0.0017 0.0017 -0.8 0.2119 0.2090 0.2061 0.2033 P( Z < -0.83 ) -0.83 A Tabela Normal Padrão (Tabela Z) Parte Positiva Linha: Parte inteira e primeira casa decimal de z Coluna: Segunda casa decimal de z P( Z < 1.5 ) Exemplo: Seja Z uma v.a. normal padronizada. Calcule: P( Z < -1.97) = ? P( Z < -1.97 ) = 0.0244, obtida direto da tabela. P( Z > 1.84) = ? P( Z >1.84) = P( Z < -1.84) = 0.0329, obtida direto da tabela e por simetria. P( -1.97 < Z < 0.86 ) = P( Z < 0.86 ) = 0.8051 = 0.7807 = P( Z < -1.97 ) 0.0244 - Cálculo de percentis na curva Normal Percentil de ordem 2.5 Que valor de Z na tabela Normal Padrão deixa uma área de 0.0250 abaixo dele ? Ou seja, quem é a tal que P[Z < a ]=0.0250 ? a é o percentil 2.5 da curva Normal Padrão 0.0250 a=-1.96 Cálculo de percentis na curva Normal Percentil de ordem 97.5 Que valor de Z na tabela Normal Padrão deixa uma área de 0.9750 abaixo dele ? Ou seja, quem é b tal que P[Z < b ]=0.9750 ? b é o percentil 97.5 da curva Normal Padrão b é o simétrico de a em relação à média da curva Normal 0.9750 0.0250 b=1.96 Cálculo de percentis na curva Normal Percentil de ordem 95 P[Z < b ]=0.9500 b é o percentil 95 da curva Normal Padrão b=1.645 Na tabela Z: z = 1.65 área abaixo = 0.9505 z = 1.64 área abaixo = 0.9495 Escolher o valor mais próximo da probabilidade desejada. Cálculo de percentis na curva Normal Percentil de ordem 1 P[Z < b ]=0.0100 b é o percentil 1 da curva Normal Padrão P[-b < Z < b ]=0.9800 0.9800 0.0100 0.0100 -b=2.33 b=2.33 P[Z< -b ] =0.0100 -b = ? Na tabela Z: z = -2.33 área abaixo = 0.0099 z = -2.32 área abaixo = 0.0102 Usar o valor de z que forneça a área mais próxima do desejada (-2.33) Como usar a tabela Normal Padrão para calcular probabilidades em uma curva Normal qualquer? Distribuição de Distribuição de Z ~ Normal (µ=0 ; σ=1) X ~ Normal (µ=10 ; σ=2) Padronização de uma variável aleatória Normal Podemos transformar uma variável aleatória X ~ Normal ( µ , σ ) em uma variável aleatória Z ~ Normal ( 0, 1) usando a expressão: Z= X −µ σ X ~ Normal( µ ,σ ) Z ~ Normal(0,1) z1 = x1 − µ σ z2 = x2 − µ σ Calculando probabilidades de X utilizando a tabela Z X −µ 9−µ X − 10 9 − 10 < = P < P[ X < 9] = P σ 2 σ 2 = P[ Z < −0.5] = 0.3085 X − 10 13 − 10 > ]= P[ X > 13] = P[ 2 2 = P[ Z < −1.5] = 0.0668 P[ Z > 1.5] Exemplo 1: Se X tem distribuição Normal com µ = 40 e σ = 6, encontre o valor de x tal que P[X < x] =0.45. Se P[X < x] =0.45. então P( Z < (x-40)/6 ) = 0.45. Mas P( Z < -0.13 ) = 0.45 (da tabela); Logo (x-40)/6 = -0.13 x = 40 + (-0.13)6 = 40 - 0.78 = 39.22. Ou seja, 39.22 é o percentil 45 da distribuição de X. Exemplo 2: Se X tem distribuição Normal com µ = 40 e σ = 6, encontre o valor de x tal que P[X > x] =0.14. Se P[X < x] = 0.86 então P( Z < (x-40)/6 ) = 0.86. Mas P( Z > 1.08) = P( Z < -1.08) = 0.14 (da tabela); Logo (x-40)/6 = 1.08 x = 40 + (1.08)6 = 46.48 Ou seja, 46.48 é o percentil 86 da distribuição de X. Cálculo do Percentil de ordem 100α da distribuição Normal P100α = µ + z(1−α ) ⋅ σ onde α é a ordem do percentil (0 < α < 1) e z(1-α) é o valor na tabela Z que deixa uma área de (1-α) acima dele. 1-α α z(1-α) Cálculo do Percentil de ordem 100α da distribuição Normal Conferindo os dois exemplos anteriores, onde µ = 40 e σ = 6 : α = 0.45 α = 0.86 P45 = 40 + z(1−0.4500) × 6 P86 = 40 + z(1−0.8600) × 6 = 40 + z(0.5500) × 6 = 40 + z(0.1400) × 6 = 40 − 0.13 × 6 = 40 + 1.08 × 6 Suponha que X é o peso de bebês ao nascer e Exemplo que, em certa população, X tem distribuição Inicial: que pode ser aproximada pela Normal com µ = 3000g e σ = 1000g. Qual é a porcentagem de bebês que nascem com peso abaixo de 1500g ? X − 3000 1500 − 3000 P[ X < 1500] = P < 1000 1000 = P [ Z < −1.5] = 0.0068 0.68% dos bebês têm peso inferior a 1500g. Qual é a porcentagem de bebês que nascem com peso acima de 4000g ? 4000 − 3000 P[ X > 4000] = P Z > 1000 = P [ Z > 1.0] = P [ Z < −1.0] = 0.1587 Qual é a porcentagem de bebês que nascem com peso entre 2500 e 3500g ? 38.30% dos bebês P[2500 < X < 3500] = P[ X < 3500] − P[ X < 2500] 3500 − 3000 2500 − 3000 = P Z < − P Z < 1000 1000 = P [ Z < 0.5] − P [ Z < −0.5] = 0.6915 − 0.3085 = 0.3830 Qual valor de peso dos bebês separa os 10% mais leves? 0.10 1720 gramas P10 α = 0.10 P10 = 3000 + z(1−0.1000) ×1000 = 3000 + z(0.9000) × 1000 = 3000 + (−1.28) ×1000 = 3000 − 1280 = 1720 3000 Qual valor de peso dos bebês separa os 10% mais pesados? 0.10 4280 gramas 3000 α = 0.90 P10 = 3000 + z(1−0.9000) ×1000 = 3000 + z(0.1000) ×1000 = 3000 + 1.28 × 1000 = 3000 + 1280 = 4280 P90 Aplicações do Modelo Gaussiano: Cálculo de Faixas de Referência Faixas de Referência são formadas por dois percentis Exemplo: uma faixa de referência de 90% é formada pelos percentis 5 e 95 90% 5% P5 5% P95 Cálculo de Faixas de Referência utilizando o modelo Gaussiano Seja X a variável aleatória que representa a característica para a qual queremos construir uma faixa de referência. Exemplo: X é o peso de recém-nascidos Se X ~ Normal (µ,σ), então uma faixa de referência de (1-α)100% é formada pelos percentis P(α/2)100 e P(1-α/2)100 Exemplo: uma faixa de referência de 90% (α=0.10) é formada pelos percentis P5 e P95 Cálculo de Faixas de Referência utilizando o modelo Gaussiano No exemplo do peso dos recém-nascidos (X), se pudermos supor que X ~ Normal (µ=3000 ; σ=1000), uma faixa de referência de 80% seria dada pelos percentis P10= 1720 e P90 = 4280 (já calculados anteriormente) Faixa de Referência de 80% para o peso de recém-nascidos 1720 gramas a 4280 gramas Cálculo de Faixas de Referência utilizando o modelo Gaussiano Relembrando o cálculo de percentis com o modelo gaussiano e a definição de faixa de referência, uma faixa de referência de (1-α)100% é dada pela expressão [ µ + z(1−α / 2) ⋅ σ ; µ + z(α / 2) ⋅ σ ] z(1−α / 2) = − z(α / 2) (por simetria) [ µ − z(α / 2) ⋅ σ ; µ + z(α / 2) ⋅ σ ] Para aprender (I)… Para o exemplo do peso dos recém-nascidos, calcule as seguintes faixas de referência: 90% 95% Antes de calcular essas faixas, responda: qual delas você espera que seja a mais larga? Justifique. Para aprender (II)… Exercícios da Seção 7 (Modelo Probabilístico Gaussiano)