VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE 2.1 INTRODUÇÃO Admita que, de um lote de 10 peças, 3 das quais são defeituosas, 2 peças são extraídas ao acaso, juntas (ou uma a uma , sem reposição). Estamos interessados no número de defeitos X nessa amostra de tamanho 2. Um espaço amostral para esse experimento aleatório é : S = {(D , D) , (D , ND) , (ND, D) , (ND , ND) } onde D = defeituosa e ND = não defeituosa . Assim, se ocorrer o evento {(D , D)} , teremos observado 2 peças defeituosas na amostra, e X = 2 . Fica, desse modo, estabelecida uma correspondência entre os elementos de S e os elementos de um conjunto numérico, como se vê no diagrama abaixo : X S Rx (D,D) 0 1 ( D , ND ) ( ND , D ) ( ND , ND ) 2 Note, então, que X é uma função real definida em S. Em símbolos : X: S s 2.2 VARIÁVEL ALEATÓRIA R X (s) 2 ESTATÍSTICA Notas de Aula _____________________________________________________________________________________ Uma variável aleatória (v.a) é uma função real definida sobre os elementos de um espaço amostral S. * A variável aleatória X é dita DISCRETA se assume valores num conjunto finito ou infinito enumerável. * A variável aleatória X é dita CONTÍNUA se assume valores num conjunto infinito não enumerável (como um intervalo por exemplo). EXEMPLOS 1) A variável aleatória X, definida na introdução é discreta, pois pode assumir os valores 0, 1, 2. 2) Uma lâmpada é fabricada e, em seguida, ensaiada quanto a sua duração de vida. Um espaço amostral para esse experimento é S = ( t ∈ R / t ≥ 0 ). Se T é o tempo de vida da lâmpada, então T é a função (v.a.) Identidade, pois T(t) = t, para todo t ∈ S. T é uma v.a. contínua, pois assume valores no conjunto { t ∈ R / t ≥ 0 }. 3) Uma moeda é lançada até que a primeira cara ocorra. Um espaço amostral para esse experimento é: S = { H, TH, TTH, TTTH, ... }. Se X é a v.a. igual ao número de lançamentos necessários para obter a primeira cara, então X é discreta e assume valores no conjunto {1, 2, 3, 4,...}. 4) No exemplo 2 acima, se X é definida como sendo 0 se T < 100 e 1 se T ≥ 100, então X é discreta pois assume valores no conjunto { 0 , 1 }. 2.3 FUNÇÃO DE PROBABILIDADE A função p(x) é uma função de probabilidade da v.a. X discreta se, para cada resultado possível x, temos: ( 1 ) p(x) ≥ 0 (2) ∑ p(x) = 1 x (3) p(x) = P(X=x) OBSERVAÇÃO : Aos pares (x PROBABILIDADE. , p(x)) chamaremos de DISTRIBUIÇÃO DE _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR ESTATÍSTICA 3 Notas de Aula ______________________________________________________________________________________ EXEMPLO Para o mesmo exemplo visto na introdução, seja a v.a. X = número de peças defeituosas. Os valores possíveis para X são : 0, 1, 2. A função de probabilidade de X será então : p( 0 ) = P( X = 0 ) = P{(ND , ND)} = (7/10).(6/9) = 7/15. p( 1 ) = P( X = 1 ) = P{(D,ND) ou (ND,D)} = (3/10).(7/9) + (7/10)(3/9) = 7/15 p( 2 ) = P( X = 2 ) = P{(D,D)} = (3/10).(2/9) = 1/15. Em forma de tabela podemos escrever : x 0 1 2 p(x) 7/15 7/15 1/15 Observe que esta função possui as propriedades (1), (2) e (3) vistas acima. Podemos representar graficamente uma função de probabilidade simplesmente por pontos no plano cartesiano ou através do que se chama HISTOGRAMA DE PROBABILIDADE, que é um gráfico de barras. Cada barra tem o centro no ponto x e altura igual a probabilidade de x, ou seja, p(x). Desta forma, cada retângulo tem área igual a p(x) e a área total abaixo dos retângulos é igual a 1. Por exemplo : p(x) p(x) 7/15 7/15 1/15 1/15 0 1 2 x 0 1 2 x _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR 4 ESTATÍSTICA Notas de Aula _____________________________________________________________________________________ 2.4 FUNÇÃO DENSIDADE DE PROBABILIDADE A função f(x) é uma função densidade de probabilidade para a v.a. X contínua, definida sobre o conjunto dos números reais R, se: ( 1 ) f(x) ≥ 0 (2) ∫ +∞ -∞ f(x) dx = 1 ( 3 ) P(a < X < b) = ∫ f(x) dx . b a OBSERVAÇÕES : 1) f(x) ≥ 0 para todo x ∈ R , significa que o gráfico da função f está todo acima do eixo x. 2) ∫ 3) P(a < X < b) = ∫af(x) dx significa que probabilidades, agora, são iguais a áreas abaixo da curva f(x). 4) Note que P ( X = a ) = af(x) dx = 0 , ou seja, probabilidades pontuais são nulas. 5) Segue da observação 4 que: +∞ -∞ , significa que a área total abaixo da curva f(x) é igual a 1. f(x) dx = 1 b ∫ a P(a < X < b) = P(a ≤ X< b) = P(a < X ≤ b) = P(a ≤ X ≤ b) . EXEMPLO Seja a v.a. X contínua com função densidade de probabilidade dada por: ⎧ kx 2 , - 1 < x < 2 f(x) = ⎨ ⎩ 0 , caso contrá rio a) Calcule o valor da constante k , que faz com que f(x) seja uma função densidade de probabilidade: Observe, inicialmente, que k > 0 , pois f(x) deve ser 0 para todo x real. Além disso, devemos ter que: +∞ -1 2 +∞ 2 ∫ f(x) dx = ∫ f(x) dx + ∫ f(x) dx + ∫ f(x) dx = ∫ kx -∞ -∞ -1 2 2 2 dx = (1/ 3)kx 3 -1 = 3k = 1. -1 _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR ESTATÍSTICA 5 Notas de Aula ______________________________________________________________________________________ Daí, k = 1/3 e a função densidade de probabilidade poderá ser escrita como : ⎧ (1/ 3) x 2 , - 1 < x < 2 f(x) = ⎨ ⎩ 0 , caso contrá rio Graficamente : f(x) 4/3 1/3 -1 1 0 2 x b) Calcule P( 0 < X < 1 ) : 1 P(0< X < 1) = ∫ (1 / 3) x 2 dx = 1 / 9 0 2. 5 FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA A função de distribuição acumulada de uma v.a. X contínua com função densidade de probabilidade f(x) é dada por : x F( x) = P( X ≤ x) = ∫ f(s) ds −∞ Segue imediatamente que : a) P( a < X ≤ b ) = F( b ) - F( a ) b) P( X > a) = 1 - P(X ≤ a) = 1 - F( a ) c) f( x ) = F’( x ) , se a derivada existir. d) F(“∞”) = 1 e F(“-∞”) = 0 e) F(x) é não decrescente. _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR 6 ESTATÍSTICA Notas de Aula _____________________________________________________________________________________ EXEMPLO Para uma função densidade de probabilidade definida no exemplo anterior, a função de distribuição acumulada F(x) é encontrada da seguinte forma: 1º ) Para valores de x ≤ -1: x F(x) = P(X ≤ x) = ∫ f(s) ds = 0 -∞ 2º ) Para valores de -1 < x < 2: x F(x) = P(X ≤ x ) = ∫ f(s) ds -1 = -∞ x x ∫ f(s) ds + ∫ f (s) ds = ∫ (1 / 3) s ds 2 -∞ -1 -1 -1 2 x = (1 / 9) (x 3 + 1) 3º ) Para valores de x ≥ 2: x F(x) = P(X ≤ x ) = ∫ f(s) ds -∞ = 2 ∫ f(s) ds + ∫ f (s) ds + ∫ f (s) ds = ∫ (1 / 3) s ds 2 -∞ -1 2 = 1 -1 Assim, a função de distribuição acumulada da v.a. X é escrita como: 0 , para x ≤ -1 F(x) = P( X ≤ x) = (1/9) (x3 + 1) , para -1 < x < 2 1 , para x ≥ 2 Neste exemplo, podemos ainda calcular probabilidades para X usando a F(x) encontrada: P(X ≤ 0,5) = F(0,5) = (1/9) (0,53 + 1) = 0.1250 P(0 < X ≤ 1) = F(1) - F(0) = (1/9) (13 + 1)- (1/9) (03 + 1) = 0.1111 P(X > 1,3) = 1 - P(X ≤ 1,3) = 1 - F(1,3) = 1 - (1/9) (1,33 + 1) = 0.6447 _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR ESTATÍSTICA 7 Notas de Aula ______________________________________________________________________________________ 2.6 EXPECTÂNCIA E VARIANCIA DE UMA V.A. 2.6.1 EXPECTÂNCIA (Esperança Matemática ou Média) DE UMA V.A.: A expectância de uma v.a. X é uma medida que posiciona o centro de uma distribuição de probabilidade e é definida por: µ = E(X) = ∑ x p(x) se a v.a. X for discreta x ∞ µ = E( X) = ∫ x f ( x) dx se a v.a. X for contínua −∞ Observações: 1) Note que no caso da v.a. discreta a expectância pode ser vista como uma média “ponderada”, onde os “pesos” são as probabilidades de cada ponto. 2) No caso da v.a. contínua, a expectância coincide com o cálculo do valor da abcissa do centro de gravidade da área que fica definida pela função f(x). É um ponto de equilíbrio que é calculado a partir da função densidade de probabilidade. 3) Podemos interpretar a expectância, também, como sendo uma média dos valores que a v.a. assume se imaginarmos o experimento aleatório sendo repetido indefinidamente, e os valores de X sendo observados nas repetições. A função de probabilidade no caso discreto, ou a função densidade de probabilidade no caso contínuo refletem as freqüências relativas de ocorrência dos valores de X. 2. 6.1.1 PROPRIEDADES DA EXPECTÂNCIA: As propriedades operatórias apresentadas a seguir são válidas para v.a.’s discretas e v.a.’s contínuas. 1ª ) Se a é uma constante, então: E(a) = a 2ª ) Se a e b são constantes, então: E( aX + b) = a E(X) + b _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR 8 ESTATÍSTICA Notas de Aula _____________________________________________________________________________________ 3ª ) E(X ± Y) = E(X) ± E(Y) 4ª ) Se X e Y são duas v.a.’s independentes, então E(XY) = E(X). E(Y) (Obs.: A definição de independência de duas v.a.’s não foi apresentada. Entretanto, podemos pensar nesta independência de modo análogo à independência de dois eventos A e B.) EXEMPLO 1: Se uma moeda honesta for lançada duas vezes, qual a expectância do número de “caras” ? (ou, em média, quantas caras teremos?) Seja X a v.a. igual ao número de vezes em que aparece “cara”. X assume os valores 0, 1 e 2 e sua distribuição de probabilidade é dada por: x 0 1 2 p(x) ¼ ½ ¼ µ = E(X) = ∑ x p(x) = (0) 1 / 4 + (1) 1 / 2 + (2) 1 / 4 = 1 x Assim, podemos dizer que ao lançarmos uma moeda duas vezes, em média obteremos 1 “cara”. EXEMPLO 2 : Seja X uma v.a. contínua como função densidade de probabilidade dada por: f(x) = 2x, se 0 < x < 1 0, para outros valores de x µ = E ( X) = ∞ 1 −∞ 0 ∫ x f ( x) dx = ∫ x . 2x dx = 2 / 3 _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR ESTATÍSTICA 9 Notas de Aula ______________________________________________________________________________________ f(x) 2 µ=2/3 x 2.6.1.2 EXPECTÂNCIA DE UMA FUNÇÃO DE V.A.: Seja X uma v.a. e g(X) uma função qualquer de X. Então a expectância de g(X) é dada por: ∑ g( x) p( x) , se X for discreta x E [ g(X) ] = ∞ ∫ g( x) f ( x) dx , se X for contínua −∞ 2.6.2 VARIANCIA DE UMA V.A.: A variancia de uma v.a. é uma medida de sua dispersão ou variabilidade em torno de sua média. O gráfico abaixo apresenta um exemplo das distribuições de probabilidade de duas v.a.’s X1 e X2 que possuem a mesma forma da distribuição e a mesma expectância. Observamos, então, que a diferença entre elas é a variabilidade que elas apresentam em torno de sua média. σ1 σ2 > σ1 σ2 µ 1= µ 2 Note que a v.a. X2 se apresenta mais dispersa (mais “espalhada”) em torno da média do que a v.a. X1. _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR 10 ESTATÍSTICA Notas de Aula _____________________________________________________________________________________ A variancia de uma v.a. é definida por: σ2 = V(X) = E [(X - µ)2] = ∑ (x− µ) 2 p(x) se X for discreta x σ2 = V(X) = E [(X - µ)2] = ∞ ∫ ( x −µ) 2 f ( x) dx , se X for contínua −∞ Note que a variancia é a média dos desvios que a v.a. X apresenta em relação à sua média µ, elevados ao quadrado. Sendo assim, a variancia será sempre positiva e quanto maior a variabilidade da v.a., maior será a sua variancia. A raiz quadrada positiva da variancia é uma medida de dispersão chamada de DESVIO PADRÃO. Uma alternativa para o cálculo da variancia é dada pelo seguinte resultado: Teorema: σ2 = V(X) = E (X2) - µ2 De fato: σ2 = V(X) = E [(X - µ)2] = E ( X2 - 2µ X + µ2) = = E (X2) - 2 µ E(X) + E(µ2) = = E(X2) - µ2 2.6.2.1. PROPRIEDADES DA VARIANCIA: 1ª ) Se b é uma constante, então: V(b) = 0 2ª ) Se X é uma v.a. e b é uma constante, então: V(X + b) = V(X) _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR ESTATÍSTICA 11 Notas de Aula ______________________________________________________________________________________ 3ª ) Se X é uma v.a. e a é uma constante, então: V(aX) = a2 V(X) 4ª ) Se X e Y são v.a.’s independentes e a e b são constantes, então: V(aX + bY) = a2 V(X) + b2 V(Y) e V(aX - bY) = a2 V(X) + b2 V(Y) EXEMPLO 1 Considere o exemplo 1 da definição de expectância ( o lançamento de 2 moedas). Sabemos que: σ2 = V(X) = E (X2) - µ2 Devemos calcular, inicialmente, E(X2): E(X2) = (0)2 p(0) + (1)2 p(1) + (2)2 p(2) = 3/2 Daí, V(X) = 3/2 - 12 = 1/2 EXEMPLO 2 Considere o exemplo 2 da definição de expectância. Da mesma forma que no exemplo anterior, vamos calcular inicialmente E(X2): ∞ ∞ −∞ −∞ E( X 2 ) = ∫ x 2 f ( x) dx = ∫ x 2 2 x dx = 1 / 2 Daí σ2 = V(X) = E (X2) - µ2 = 1 /2 - (2/3)2 = 1/18 2.6.3 DESIGUALDADE DE CHEBYSHEV O matemático russo Chebyshev observou que a probabilidade de que qualquer v.a. X caia dentro de k desvios padrões em torno da média é pelo menos (1 - 1/k2). Isto é: P(µ - k σ < X < µ + k σ) ≥ 1 - 1/k2 _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR 12 ESTATÍSTICA Notas de Aula _____________________________________________________________________________________ Note que para k = 2 a desigualdade afirma que a v.a. X tem uma probabilidade de no mínimo 1 - (1/2)2 = ¾ de cair entre dois desvios padrões da média, ou seja, ¾ ou mais observações de qualquer distribuição caem no intervalo µ ± 2σ. Por ser uma desigualdade que se aplica para qualquer distribuição, é um resultado fraco. Sabemos, por exemplo, que temos pelo menos ¾ de probabilidade de uma observação cair no intervalo µ ± 2σ , mas não sabemos exatamente quanto seria esta probabilidade realmente. Isto só pode ser calculado se soubermos qual a distribuição de probabilidade da v.a. 2.7 DISTRIBUIÇÕES EMPÍRICAS Geralmente, em um experimento aleatório envolvendo uma v.a. continua, a sua função densidade de probabilidade f(x) é desconhecida. Para que a escolha de f(x) seja razoável, deve-se fazer um julgamento prévio baseado em informações disponíveis. Dados estatísticos , gerados em grande escala, podem ser muito úteis ao estudar o comportamento da distribuição, se apresentados na forma de uma distribuição de freqüência relativa . Tal arranjo é obtido agrupando-se os dados em classes e determinando a proporção das medidas em cada uma das classes. EXEMPLO A vida de 40 baterias de carro foram medidas em anos e são dadas a seguir : 2,2 3,1 2,9 1,9 4,1 3,3 3,3 3,4 3,5 3,8 3,9 4,7 4,5 3,1 3,1 3,8 3,2 4,7 3,3 3,2 3,7 3,7 3,1 2,6 3,0 2,5 3,7 3,9 2,6 4,3 4,4 3,0 3,4 3,4 3,2 4,2 1,6 3,6 4,1 3,5 Devemos decidir, primeiro, sobre o número de classes nas quais os dados serão agrupados. Isto é arbitrário e geralmente entre 5 e 20 classes, dependendo do número de observações obtidas. Vamos escolher 7 classes para o exemplo. O intervalo de classe deve ser tal que 7 intervalos acomodem todos os dados. Assim, sendo 4,7 - 1,6 a amplitude total, então, o tamanho de intervalo será : ( 4,7 - 1,6 ) / 7 = 0,443. Vamos aproximar para 0,5 e fazer todos os 7 intervalos do mesmo tamanho. Se começarmos com 1,5 para o limite inferior do primeiro intervalo, então a distribuição de freqüência será dada por : _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR ESTATÍSTICA 13 Notas de Aula ______________________________________________________________________________________ Classes Pto. Médio de Classe Freqüência (f) Freqüência Relativa 1,5 1,9 1,7 2 0,050 2,0 2,4 2,2 1 0,025 2,5 2,9 2,7 4 0,100 3,0 3,4 3,2 15 0,375 3,4 3,9 3,7 10 0,250 4,0 4,4 4,2 5 0,125 4,4 4,9 4,7 3 0,075 40 1,000 TOTAL Podemos, a partir daí, construir um histograma de freqüência relativa : 0,375 0,250 0,125 1,7 2,2 2,7 3,2 3,7 4,2 4,7 Embora tenhamos estimado uma curva para f(x) não conhecem os ainda a sua equação. Entretanto é possível ajustar uma curva sobre estes dados e verificar se este ajuste é razoável e determinar até que ponto é aceitável. _____________________________________________________________________________________ Marcia Olandoski Erbano Depto. de Informática CEFET-PR