Probabilidade: como medir e gerenciar a incerteza? Introdução Os jornais informaram que há uma chance de 60% de chover no próximo fim de semana no Rio. Talvez seja melhor programar um cinema em vez de programar uma ida à praia. O noticiário da TV informou que a partir do inı́cio de setembro haverá uma mudança no trânsito do Rio devido às obras do novo acesso ao centro. Como eu passo pelo local da obra diariamente, talvez seja melhor sair de casa um pouco mais cedo para evitar grandes engarrafamentos decorrentes da nova mudança. 1 A nossa vida é cercada de incerteza: uma pequena chance disso, uma grande chance daquilo, etc. Os conceitos de probabilidade, esperança (valor esperado), retorno e possibilidade não são apenas para jogadores, são ferramentas práticas que podemos usar para avaliar riscos, determinar opções preferidas e avaliar potenciais impactos de certas decisões. 2 PROBABILIDADE Já vimos como analisar um conjunto de dados por meio de técnicas gráficas e numéricas. O resultado da análise nos permite ter uma boa ideia da distribuição desse conjunto de dados, em outras palavras, de como esses dados são gerados. Em particular, a distribuição de frequências é um instrumento importante para avaliar a variabilidade das observações de um fenômeno aleatório. As frequências relativas observadas podem ser olhadas como estimativas de probabilidades de ocorrência de certos eventos de interesse. 3 Com suposições adequadas, e sem observarmos diretamente o fenômeno aleatório de interesse, podemos propor um modelo teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno é observado diretamente. Modelos Probabilı́sticos Tais modelos devem, de alguma forma, 1. identificar o conjunto de resultados possı́veis do fenômeno aleatório, que costumamos chamar de espaço amostral, em geral denotado por S e 2. designar chances (probabilidades) aos resultados ou conjuntos de resultados possı́veis. 4 O conceito de probabilidade nos auxilia na quantificação da incerteza associada aos fenômenos aleatórios, ou seja aos fenômenos cujos resultados não são conhecidos previamente a sua realização/observação. Na aula de hoje discutiremos conceitos relacionados à incerteza e veremos • como calcular probabilidades de eventos compostos tais como a probabilidade de chover hoje ou amanhã e a probabilidade de chover hoje e amanhã; • uma ferramenta simples, mas poderosa, a árvore de probabilidade, muito útil para resolver problemas de cálculo de probabilidades; 5 Também veremos • uma formalização de modo a propor modelos probabilı́sticos usando o conceito de variável aleatória; • como calcular o valor esperado e a variância de uma variável aleatória discreta; • o modelo binomial; • o modelo normal. 6 Chamamos evento a qualquer subconjunto do espaço amostral (S). Os eventos são geralmente denotados por letras maiúsculas A, B, etc. Em particular chamamos o conjunto vazio (∅) de evento impossı́vel, pois ele nunca ocorrerá e, o espaço amostral (S), de evento certo, pois sempre ocorrerá um dos resultados possı́veis. Para o evento impossı́vel designamos uma probabilidade nula e para o evento certo designamos uma probabilidade igual a 1 (ou 100%). Vamos começar a discussão com um exemplo clássico: o lançamento de uma moeda. Temse dois resultados possı́veis: cara ou coroa. Mas, não sabemos qual deles irá ocorrer. 7 A chance, ou probabilidade, de obter cara pode ser pensada como a mesma de obter coroa, se a moeda for balanceada e, desse modo podemos atribuir 50% de chance a cada resultado possı́vel. (Interpretação clássica da probabilidade) Por outro lado podemos desconfiar da honestidade da moeda. Uma maneira de designar a probabilidade de cara é, por exemplo, realizar um grande número de repetições do lançamento da moeda e ir atualizando a frequência relativa de ocorrência do número de caras. Depois de muitas realizações, podemos atribuir a chance de “ocorrer cara” à frequência relativa final. (Interpretação frequentista da probabilidade.) Veja nos gráficos a seguir simulações desse experimento com 100 lançamentos e 10000 lançamentos. 8 9 10 Interpretações da probabilidade 1) Clássica. Baseia-se em espaços amostrais finitos e equiprováveis. Problemas com esta interpretação: Nem todos os espaços amostrais são finitos. Há espaços amostrais finitos que não são equiprováveis. Baseia-se na ideia de probabilidade (equiprovável) para definir probabilidade. Essa interpretação no entanto é muito útil em determinados experimentos aleatórios tais como o lançamento de uma moeda, o lançamento de cinco dados, o sorteio de uma carta de baralho, etc. 11 Exemplo: Você está pensando em apostar no número 13 no próximo giro de roleta. Qual é a probabilidade de que você perca? Uma roleta tem 38 fendas, das quais somente uma tem o número 13. A roleta é construı́da de tal modo que as 38 fendas sejam igualmente prováveis. Dentre as 38 fendas, há 37 que resultam em uma perda. Logo, a probabilidade de perder nesse caso é, sendo A o evento “perder” 37 P (A) = 38 12 2) Frequentista Para avaliar a probabilidade de um determinado evento de interesse, o experimento é realizado um grande número de vezes, sob as mesmas condições. A cada realização vamos calculando a frequência relativa de ocorrência do evento A, como fizemos no exemplo anterior “Cara ou Coroa?”. Associamos como a probabilidade do evento A, a frequência relativa de ocorrência do evento A após muitas repetições. No exemplo “Cara ou Coroa?”, o gráfico com as frequências relativas ao longo das repetições indica que tendemos para o valor 0,5 como probabilidade de ocorrer cara. Problemas com esta interpretação: Não define com clareza o que é um grande número de vezes, nem o que significa “sob as mesmas condições”. 13 Nem todo fenômeno aleatório pode ser observado mais de uma vez. Essa interpretação de probabilidade é usada na Inferência Clássica. Exemplo: Calcule a probabilidade de que uma pessoa adulta escolhida ao acaso tenha voado em um avião comercial. O espaço amostral, considerando a observação de cada adulto, pode ser olhado como binário com os resultados “sucesso” e “fracasso” em que sucesso representa que a pessoa voou em avião comercial e fracasso que não voou. Observe que esses eventos não são necessariamente igualmente prováveis. Aqui podemos usar a interpretação frequentista baseando-nos em alguma pesquisa. 14 Suponha que uma pesquisa observou que entre 900 adultos escolhidos ao acaso, 750 confirmaram ter voado em avião comercial. Nesse caso, nossa resposta, baseada na frequência relativa, para o evento A: “ter voado em avião comercial” é 750 P (A) = ' 0, 833. 900 15 3) Subjetiva. O indivı́duo, baseado em informações anteriores e na sua opinião pessoal a respeito do evento em questão, pode ter uma resposta para a probabilidade desse evento. O ingrediente básico quando se associam probabilidades é coerência. Se um indivı́duo julgar que um evento A é mais provável que o seu complementar, então ele deverá associar a esse evento uma probabilidade maior do que 50% ao evento A. Problemas com essa interpretação: Pesquisadores diferentes podem associar probabilidades diferentes para um mesmo evento! 16 A Inferência Bayesiana toma como uma de suas bases o fato de que todas as probabilidades são subjetivas. Exemplo: Qual é a probabilidade de que seu carro seja atingido por um meteorito em 2013? Na ausência de dados históricos sobre meteoritos colidindo com carros, não podemos usar a interpretação frequentista. Observe que há dois resultados possı́veis nesse problema: {colidir, não colidir}, mas eles não são igualmente prováveis de modo que não podemos usar a interpretação clássica de probabilidade. 17 Observe que nesse exemplo podemos fazer uso da interpretação subjetiva. Todos nós sabemos que a probabilidade em questão é muito pequena. Vamos então estimá-la em 1 = 10−12 1000000000000 equivalente a 1 em um trihão. Esta estimativa subjetiva, baseada em nosso conhecimento geral, é bem provável que esteja perto da verdadeira probabilidade. 18 19 Definição Axiomática da Probabilidade A Axiomatização da Probabilidade é devida ao matemático russo Kolmogorov e ocorreu no inı́cio do Século XX. Independentemente da interpretação de probabilidade adotada, a probabilidade é uma função P (.) que mede chances de eventos. A função probabilidade está definida na coleção de eventos e assume valores entre 0 e 1, satisfazendo os seguintes axiomas: A1 : P (A) ≥ 0 para todo evento A na coleção de eventos. A probabilidade de um evento qualquer é sempre um número não-negativo. A2 : P (S) = 1. A probabilidade do evento certo é igual a 1. A3 : Se A ∩ B = ∅, então P (A ∪ B) = P (A) + P (B). Se os eventos A e B são disjuntos, então a probabilidade da união dos dois (de pelo menos um deles ocorrer) é a soma de suas probabilidades. 20 Propriedades da probabilidade A partir dos axiomas, diversas propriedades da probabilidade podem ser deduzidas. P 1 : P (∅) = 0 P 2 : Se A ⊂ B, então P (A) ≤ P (B). P 3 : 0 ≤ P (A) ≤ 1, para todo evento A. P 4 : Propriedade do evento complementar de A: Ac Ac = S \ A = {s ∈ S|s 6∈ A} P (Ac) = 1 − P (A) 21 Eventos União e Interseção de dois eventos Considere um experimento aleatório e sejam A e B dois eventos associados a esse experimento. O evento união de A e B, denotado por A ∪ B, corresponde ao evento “ocorrência de pelo menos um dos dois A ou B” O evento interseção de A e B, denotado por A ∩ B, corresponde ao evento “ocorrência simultânea de A e B”. 22 Esses dois eventos, chamados de eventos compostos, pois são obtidos por meio de operações entre dois ou mais eventos, são diferentes. Enquanto o evento união de A e B representa a ocorrência de pelo menos um, o que significa que poderá ter ocorrido somente A, somente B ou os dois simultaneamente; o evento interseção corresponde a ocorrência dos dois simultaneamente. Observe que como A ∩ B ⊂ A ∪ B segue que P (A ∩ B) ≤ P (A ∪ B). A igualdade é possı́vel? Sob que condição? 23 Veremos a seguir uma propriedade útil para calcular a probabilidade da união de dois eventos. P 5 : P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Um caso particular ocorre quando A ∩ B = ∅, pois nesse caso P (A ∩ B) = 0 e P (A ∪ B) = P (A) + P (B). Mas lembre-se que essa última equação só vale se a interseção entre os eventos A e B for vazia. 24 Probabilidades Condicionais Suponha que num dado problema de modelagem probabilı́stica, embora você não conheça o resultado do fenômeno sob estudo, seja possı́vel ter informações acerca do resultado. Por exemplo, ao lançar um dado, embora o valor da face obtida seja desconhecido, você receba a informação de que esse valor é um número ı́mpar. Como ficam as probabilidades associadas a um evento de interesse nesse caso? Suponha por exemplo que o evento de interesse seja obter face “6”. Dado que nós temos informações sobre o resultado faz sentido atualizarmos as nossas incertezas a cerca do evento de interesse. 25 Probabilidade Condicional: Definição A probabilidade condicional de ocorrer um evento A, dado que sabemos que ocorreu um evento B, P (B) > 0 é definida por P (A|B) = P (A ∩ B) . P (B) Probabilidades condicionais têm um espaço amostral reduzido, pois só nos preocupamos com os resultados baseados no que já aconteceu. Essa definição é útil para designar uma forma de obter probabilidades de eventos interseção de dois eventos, a saber, P (A ∩ B) = P (A|B) × P (B) → regra da multiplicação ← 26 Exemplo: Numa turma de 20 alunos da disciplina Estatı́stica em um curso de Graduação, 15 são mulheres e 5 são homens. Dois alunos dessa turma serão sorteados ao acaso, e sem reposição, de modo a formar uma comissão de representantes da turma. Pede-se calcular a probabilidade de que ambos sejam do mesmo gênero. Solução: Vamos chamar de evento Ai o evento “a i-ésima pessoa sorteada é do gênero feminino”, i = 1, 2, pois são apenas dois sorteios. O evento desejado, vamos chamar de evento E, ambos do mesmo gênero, é um evento composto: E= (A ∩ A ) | 1 {z 2 } ambas mulheres ∪ (Ac1 ∩ Ac2) | {z } ambos homens Como A1 ∩ A2 e Ac1 ∩ Ac2 são disjuntos, segue que P (E) = P (A1 ∩ A2) + P (Ac1 ∩ Ac2). 27 Usando a regra da multiplicação temos P (A1 ∩ A2) = prob. do seg. ser mulher se prim. é mulher = × P (A ) | {z 1 } z }| { P (A2|A1) prob. do prim. ser mulher 15 14 21 = × = 20 19 38 P (Ac1∩Ac2) = P (Ac1)×P (Ac2|Ac1) = 4 2 5 × = 20 19 38 Logo, 2 23 21 P (E) = + = ' 0, 605 38 38 38 28 Árvore de Probabilidades 29 Observe que no exemplo anterior os sorteios foram realizados sem reposição de tal modo que ao sortearmos a segunda pessoa o universo passou a ser de 19 alunos, pois a primeira pessoa sorteada não estava entre as possibilidades do segundo sorteio. Como fica a solução do mesmo problema se agora o sorteio é feito com reposição? Suponha agora que existem dois prêmios a serem distribuı́dos ao acaso e sem restrições de tal maneira que o primeiro sorteado também possa receber o segundo prêmio. Calcule a probabilidade de que os prêmios tenham sido recebidos por pessoas do mesmo gênero: apenas mulheres foram premiadas ou apenas homens foram premiados. 30 Árvore de Probabilidades 15 = 3 e 5 = 1 . 20 4 20 4 P (E) = 2 3 4 + 2 1 4 5 = = 0, 625 8 Podemos ver que as respostas são ligeiramente diferentes. Um resultado útil é que quando o tamanho da população amostrada tende a ser muito maior que o tamanho da amostra, as diferenças passam a ser desprezı́veis tal que o esquema de sorteio sem reposição poderia ser tratado como o esquema mais simples de sorteio com reposição. 31 Eventos independentes Dizemos que os eventos A e B são independentes, se a ocorrência de um deles, por exemplo de B, não interfere no nosso conhecimento sobre a incerteza do outro A. A e B são eventos independentes se P (A|B) = P (A). Nesse caso, observe que vale a seguinte propriedade P (A ∩ B) = P (A) × P (B), para A e B eventos independentes. Cuidado: essa última expressão não é uma regra geral. É uma propriedade que vale para eventos independentes. 32 Voltando ao exemplo anterior observe que os eventos A1 e A2 não são independentes no caso do sorteio sem reposição, pois P (A1 ∩ A2) 6= P (A1)P (A2) (verifique). No entanto, no caso do sorteio com reposição, podemos verificar que os eventos A1 e A2 são independentes, pois vale P (A1 ∩ A2) = P (A1)P (A2). Um propriedade interessante é a seguinte. Se A e B são eventos independentes, então, 1. A e B c são eventos independentes; 2. Ac e B são eventos independentes; 3. Ac e B c são eventos independentes. 33 Eventos independentes versus Eventos disjuntos Cuidado: É comum ocorrer confusão com o que chamamos em probabilidade de eventos independentes com eventos disjuntos. São situações bem diferentes. Se dois eventos A e B são disjuntos com P (A) > 0 e P (B) > 0, então A e B NÃO podem ser independentes! Por que? Lembre: dois eventos são independentes em probabilidade se a ocorrência de um não interfere na probabilidade de ocorrência do outro. 34 Lei dos Grandes Números (Bernoulli-século XVIII) À medida que um experimento é repetido muitas vezes, a probabilidade dada pela frequência relativa de um evento tende a se aproximar da verdadeira probabilidade desse evento. A lei dos grandes números nos diz que as estimativas de probabilidades dadas pelas frequências relativas tendem a ficar melhores com mais observações: uma estimativa de probabilidade baseada em poucas tentativas pode estar bem afastada do verdadeiro valor da probabilidade, mas com um número maior de tentativas, a estimativa tende a ser mais precisa. Uma pesquisa de opinião sobre a preferência pela marca X de sabão em pó com apenas 12 donas de casa escolhidas ao acaso pode facilmente resultar em estimativas muito afastadas da verdadeira proporção de donas de casa que preferem a marca X. No entanto, se entrevistarmos 1200 donas de casa, nossa estimativa estará próxima da verdadeira proporção. 35 Variáveis Aleatórias Considere um experimento cujo espaço amostral é S. O conjunto S contém todos os resultados possı́veis. Em muitas situações ele será um conjunto cujos elementos não são números. Por exemplo, considere o lançamento de uma moeda duas vezes consecutivas. Nesse caso, um espaço amostral para esse experimento é S = {(ca, ca), (ca, co), (co, ca), (co, co)} cujos elementos são pares contendo as entradas ca para cara e co para coroa. De modo bastante informal, uma variável aleatória é uma caracterı́stica numérica do resultado de um experimento. No caso desse último exemplo, podemos definir a variável alaetória X como o número de caras obtidas. 36 Observe que nesse caso, X= 0, 1, 2, se ocorrer {(co, co)} se ocorrer {(ca, co), (co, ca)} se ocorrer {(ca, ca)} Dizemos que o campo de definição da variável aleatória X é o conjunto {0, 1, 2} que representa os valores que X pode assumir. Suponha agora que estejamos interessados em observar o tempo de vida de uma lâmpada. Observe que antes de realizar o experimento não é possı́vel dizer qual será a resposta. É fácil ver que um espaço amostral para esse experimento é S = {s ∈ R|s ≥ 0}. Nesse caso o espaço amostral já é numérico de tal forma que podemos definir a variável aleatória como o tempo de vida da lâmpada. 37 Dizemos que uma variável aleatória é discreta se seu campo de definição for um conjunto finito ou enumerável (resultante de uma contagem, mas pode ser infinito). No caso dos exemplos anteriores a variável número de caras é discreta e a variável tempo de vida da lâmpada não é discreta. A seguir apresentaremos modelos Probabilı́sticos para variáveis aleatórias discretas: função de probabilidade, função de distribuição e suas caracterizações. 38 Função de probabilidade: associa a cada valor possı́vel da v.a. discreta sua respectiva probabilidade. Se RX é o campo de definição da v.a. discreta X podemos representar sua função de probabilidade da seguinte forma ( p(x) = P (X = x), x ∈ RX 0, caso contrário Observe que P (X = x) = 0 quando x 6∈ RX , ou seja quando x é um valor fora do campo de definição de X a respectiva probabilidade é nula. Quando x ∈ RX , p(x) > 0 tal que a função de probabilidade assume sempre valores não-negativos, isto é, p(x) ≥ 0, para todo x. Além disso, decorre dos axiomas da probaX bilidade que p(x) = 1. x∈RX 39 Observação: qualquer função p(x) satistazendo essas duas propriedades: P1: p(x) ≥ 0 para todo x e P2: X p(x) = 1 x∈RX é função de probabilidade para alguma v.a. discreta X com campo de definição RX . Função de distribuição (ou função de distribuição acumulada) É definida da seguinte forma F (x) = P (X ≤ x), x ∈ R No caso das variáveis aleatórias discretas o gráfico da função de distribuição é uma função do tipo escada, não decrescente. Veja um exemplo a seguir. 40 É possı́vel deduzir a partir desse gráfico que RX = {0, 1} e que P (X = 0) = 0, 8 e P (X = 1) = 0, 2. Por que? 41 A função de probabilidade pode ser interpretada como um modelo teórico para uma determinada variável em estudo. Como no caso de distribuições de frequências empı́ricas (amostras) também podemos querer caracterizar as distribuições de probabilidade por meio de medidas-resumo. O valor esperado de uma variável aleatória discreta com função de probabilidade p(x) é defiX nido por E[X] = x × p(x). x∈RX Assim como no caso de dados amostrais, o valor esperado representa o centro de massa da função de probabilidade. Considere o exemplo de lançar uma moeda duas vezes consecutivas. Vimos que o campo de definição da variável definida como número de caras obtidas é {0, 1, 2}. 42 Usando o diagrama de árvore é fácil obter a função de probabilidade. x 0 1 2 soma p(x) 1/4 1/2 1/4 1 43 Assim, nesse exemplo, o valor esperado do número de caras é 1 1 1 E[X] = 0 × + 1 × + 2 × = 1 4 2 4 Que interpretação deve ser dada a esse resultado? Podemos dizer que vamos observar uma cara ao realizarmos esse experimento? Na verdade o valor esperado representa uma medida a longo prazo: se repetirmos este experimento “lançar a moeda duas vezes seguidas” muitas vezes e irmos registrando o número de caras em cada repetição, a média do número de caras obtidas ao longo das repetições, se aproximará de 1, quanto maior for o número de repetições. (Lei dos Grandes Números). 44 Vimos que além de caracterizar uma distribuição de frequências usando medidas de tendência central, também usamos medidas de dispersão. Para uma variável aleatória discreta com função de probabilidade p(x), também faz sentido usar a variância para caracterizar a dispersão de seus valores possı́veis em torno do seu valor esperado. V ar(X) = X x∈RX 2 (x − E[X]) ×p(x) = X x2 ×p(x)−(E[X])2 x∈Rx A variância é uma medida não-negativa e quando ela é zero isso significa que não há variabilidade e no caso de uma variável aleatória discreta significa que P (X = E[X]) = 1. No exemplo do número de caras ao lançar uma moeda duas vezes, tem-se V ar(X) = 1 2. 45 Existem infinitos modelos para representar a geração de variáveis aleatórias discretas. Alguns aparecem mais frequentemente e por isso são tratados de forma especial, tais como os modelos binomial, geométrico, Poisson, etc. Vamos tratar em particular do modelo binomial, um dos mais comuns. Um Ensaio de Bernoulli é um experimento para o qual há apenas dois resultados possı́veis que convencionamos chamar de sucesso ou fracasso. Aqui sucesso não precisa significar algo bom, pode representar por exemplo, peça com defeito. O modelo binomial ocorre quando repetimos independentemente um número fixado de vezes, digamos n vezes, um Ensaio de Bernoulli, cuja probabilidade de sucesso é p, 0 < p < 1. 46 Nesse contexto definimos a variável aleatória binomial como sendo o número de sucessos em n ensaios de Bernoulli cuja probabilidade de sucesso é p, 0 < p < 1. Exemplos de situações que levam ao modelo binomial (n, p): • número de caras obtidas ao lançar uma moeda 10 vezes consecutivas; • número de faces “6” ao lançar cinco dados balanceados; • número de peças defeituosas ao observar uma amostra aleatória de 25 peças produzidas pela mesma máquina; • número de alunos que fazem aniversário no primeiro trimestre ao observar uma amostra aleatória de 10 alunos de uma turma. 47 Modelo Binomial Notação: X ∼ binomial(n, p) Campo de definição: RX = {0, 1, 2, ..., n} Função de Probabilidade: p(x) = n x ! px(1 − p)n−x, x ∈ RX 0, caso contrário n x ! n! = x!(n − x)! n! = n(n − 1)...3.2.1, 0! = 1 Valor esperado: E[X] = np Variância: V ar(X) = np(1 − p) 48 Exemplo: Das variáveis descritas a seguir, assinale quais são binomiais, e para essas apresente os respectivos campo de definição, valor esperado e variância. Quando julgar que a variável não é binomial, aponte as razões de sua conclusão. 1. De uma urna com 10 bolas brancas e 20 pretas, vamos extrair, com reposição, cinco bolas. X é o número de bolas brancas nas cinco extrações. 2. Refaça o problema anterior, mas dessa vez as extrações são sem reposição. 3. Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada urna. X é o número de bolas brancas obtidas no final. 4. Vamos realizar uma pesquisa em 10 cidades brasileiras, escolhendo ao acaso um habitante de cada uma delas e classificando-o como pró ou contra um certo projeto do governo federal. X é o número de pessoas contra o projeto. 5. Numa Indústria existem 100 máquinas que fabricam uma peça. Cada peça é classificada como boa ou defeituosa. Escolhemos ao acaso um instante de tempo e verificamos uma peça de cada uma das máquinas. X é o número de peças defeituosas ao final da verificação. 49 Variáveis aleatórias contı́nuas: de modo informal as variáveis aleatórias são contı́nuas quando resultam de algum tipo de medição tal que seu campo de definição é um intervalo limitado da reta, uma semi-reta ou a reta. Por exemplo: o tempo de vida de uma lâmpada, a altura de uma pessoa, o peso de uma pessoa, o tempo de cura após iniciar um tratamento, etc. O modelo probabilı́stico usual para descrever o comportamento de variáveis aleatórias contı́nuas é a função de densidade de probabilidade ou simplesmente densidade de probabilidade. A função de distribuição F (x) = P (X ≤ x) também pode ser usada para descrever o comportamento de uma variável aleatória contı́nua. 50 Uma densidade de probabilidade é uma função real, não-negativa e tal que a área delimitada sob o gráfico da densidade é igual a 1. O histograma costuma ser usado para através da distribuição empı́rica dos dados amostrais, tentar identificar um modelo teórico que descreva razoavelmente a geração deles. 51 No caso de variáveis aleatórias contı́nuas o cálculo de probabilidades para valores da variável em intervalos do campo de definição é mais sofisticado e o cálculo direto muitas vezes demanda conhecimentos de Cálculo Integral, que não é um pré-requisito de Estatı́stica Aplicada II. No entanto, isto não impede prosseguir no estudo dos modelos probabilı́sticos para variáveis aleatórias contı́nuas, pois na maioria das situações que iremos estudar, poderemos facilmente obter as probabilidades solicitadas usando tabelas e programas estatı́sticos. 52 Se X é uma variável aleatória contı́nua com densidade f (x), então a probabilidade de X cair num intervalo entre a e b será dada pela área delimitada pela densidade f (x) entre a e b como mostra a figura seguir. 53 Se X é uma variável aleatória com densidade f (x) também é possı́vel calcular o valor esperado de X e sua respectiva variância, com as mesmas interpretações apresentadas anteriormente: o valor esperado representa um centro de massa em relação à medida de probabilidade e a variância representa a dispersão dos valores no campo de definição em relação à média. A seguir vamos apresentar o modelo normal, fundamental em probabilidade e inferência estatı́stica. Suas origens remontam a Gauss em seus trabalhos sobre erros de observações astronômicas, por volta de 1810, daı́ o nome que muitas vezes aparece de distribuição gaussiana para tal modelo. 54 Gauss levou a fama, pois foi ele o primeiro a publicar sobre resultados práticos envolvendo a distribuição normal. No entanto, o primeiro a se referir a distribuição normal foi o Matemático Francês De Moivre em 1733. De Moivre usou a distribuição normal para aproximar probabilidades relacionadas a lançamentos de moedas, chamou-a de curva exponencial em forma de sino. Sua utilidade, porém, só foi tornar-se aparente em 1809, quando o famoso matemático alemão Gauss usou-a em aplicações sobre a observação de fenômenos astronômicos. 55 Do meio ao final do século XIX, boa parte dos estatı́sticos começou a acreditar que a maioria dos conjuntos de dados teriam histogramas cuja forma se adequava à forma de sino. De fato, tornou-se aceito que era “normal” para qualquer conjunto de dados “bem-comportados” seguir esse modelo. Ao longo do século XX no entanto existem vários registros do mau uso de técnicas estatı́sticas, pois saiu-se usando indiscrimidamente técnicas que pressupunham a normalidade dos dados, quando eram claramente não normais. Cuidado: Sempre verifique se o método de análise estatı́stica que você irá usar é adequado aos seus dados. Uma explicação parcial de porque tantos conjuntos de dados conformam-se com a curva normal é fornecida pelo teorema central do limite que enunciaremos adiante. 56 A Curva Normal (Gaussiana, Forma de Sino) A curva normal é totalmente caracterizada por dois parâmetros: seu valor esperado (ou sua média), denotada pela letra grega µ e a sua variância, denotada por σ 2 ou, equivalentemente pelo seu desvio-padrão σ. 57 Modelo Normal Notação X ∼ N (µ, σ 2) Campo de definição: R Densidade: x−µ 2 1 −2 σ 1 f (x) = √ e σ 2π Valor esperado: E[X] = µ Variância: V ar(X) = σ 2. Assimetria: zero Curtose: 3 58 Como os parâmetros µ e σ 2 influenciam na curva normal? A seguir apresentamos o gráficos de duas curvas normais com a mesma variância, mas com médias diferentes, µ1 < µ2. Observe que a média µ caracteriza o centro do gráfico e, dessa forma, distribuições normais com médias diferentes, mas mesma variância apresentam gráficos congruentes centrados em posições diferentes. 59 Como os parâmetros µ e σ 2 influenciam na curva normal? A seguir apresentamos o gráficos de três curvas normais com a mesma média, mas com variâncias diferentes, σ12 < σ22 < σ32. Observe que a variância σ 2 caracteriza o nı́vel de abertura do gráfico em relação ao centros e, dessa forma, distribuições normais com variâncias diferentes, mas mesma média apresentam gráficos centrados na mesma posição, mas com aberturas diferentes conforme o valor da variância. 60 Na curva normal os pontos x = µ ± σ são os pontos de inflexão, isto é, os pontos nos quais a concavidade da curva normal se modfica. Entre µ − σ e µ + σ a concavidade está voltada para baixo e, fora desse intervalo a concavidade está voltada para cima. Na curva normal a reta x = µ representa um eixo de simetria tal que f (µ − δ) = f (µ + δ), para todo δ ∈ R. 61 Distribuição Normal Padrão Quando µ = 0 e σ 2 = 1 a distribuição é chamada normal padrão ou normal reduzida. Z ∼ N (0, 1) Vamos usar a letra Z para denotar uma variável aleatória normal com distribuição normal padrão. Nesse caso, a densidade é dada por 1 − z2 fZ (z) = √ e 2 , 2π z∈R E[Z] = 0 e V ar(Z) = 1. Outra notação que será adotada aqui é φ(z) = P (Z ≤ z), para a função de distribuição da normal padrão. 62 Como calcular probabilidades usando o modelo normal? Vamos começar com a situação em que Z ∼ N (0, 1), ou seja, em que a distribuição considerada é uma normal padrão. De fato, não é possı́vel calcular de forma exata probabilidades do tipo P (a < Z < b), mas podemos obter aproximações desses valores usando métodos numéricos. No caso da distribuição normal padrão, valores de probabilidades especı́ficas são tabulados. Em quase todos os livros de estatı́stica estão disponı́veis tabelas da distribuição normal padrão. 63 64 A tabela anterior pode parecer incompleta, mas ela é útil para calcular probabilidades de diversos intervalos, inclusive incluindo valores negativos em seus extremos. Isso se deve a propriedade de simetria da curva normal padrão em torno de zero. Cuidado: Sempre leia o cabeçalho da tabela que você estiver usando, pois não existe uma norma universal de apresentação de tabelas da normal padrão. Às vezes as tabelas fornecem probabilidades acumuladas como a que acabamos de ver, outras vezes elas trazem probabilidades da cauda inferior ou superior e outras vezes elas fornecem probabilidades entre 0 e um número positivo. Usando a tabela que fornece probabilidades acumuladas da normal padrão, φ(z) = P (Z ≤ z), vamos ver exemplos de como obter probabilidades referentes a outros intervalos. 65 Pela tabela disponı́vel vemos diretamente que, por exemplo, φ(1) = P (Z ≤ 1) = 0, 8413 φ(1, 64) = P (Z ≤ 1, 64) = 0, 9495 φ(2, 33) = P (Z ≤ 2, 33) = 0, 9901 Lembre que a área total sob a curva é 1 e, portanto, é fácil deduzir que P (Z > 1) = 1 − φ(1) = 1 − 0, 8413 = 0, 1587 P (Z > 1, 64) = 1 − φ(1, 64) = 1 − 0, 9495 = 0, 0505 P (Z > 2, 33) = 1 − φ(2, 33) = 1 − 0, 9901 = 0, 0099 66 Observe que como a curva normal padrão é simétrica em torno de zero, segue que φ(−z) = 1 − φ(z), ∀z. Logo, φ(−1) = 1 − P (Z ≤ 1) = 0, 1587 φ(−1, 64) = 1 − P (Z ≤ 1, 64) = 0, 0505 φ(−2, 33) = 1 − P (Z ≤ 2, 33) = 0, 0099 67 Observe que P (1 < Z < 2) = P (Z < 2) − P (Z < 1) = φ(2) − φ(1) = 0, 9773 − 0, 8413 = 0, 1360 De modo similar P (−2 < Z < −1) = P (1 < Z < 2) = 0, 136 68 Observe que P (−1 < Z < 2) = P (Z < 2) − P (Z < −1) e P (Z < −1) = P (Z > 1) = 1 − P (Z ≤ 1) = 1 − φ(1) Logo, P (−1 < Z < 2) = φ(2) + φ(1) − 1 = 0, 9773 + 0, 8413 − 1 = 0, 8186 No caso da normal padrão observe que para intervalos simétricos em torno de zero vale P (−c < Z < c) = 2φ(c) − 1 e, a probabilidade das caudas, P (|Z| > c) = 2 (1 − φ(c)). 69 Logo, apesar da tabela parecer ser limitada, vimos que é possı́vel calcular, via aproximações, probabilidades associadas a uma variável aleatória com distribuição normal padrão para quaisquer intervalos fixados. No entanto, na prática, as variáveis em questão, apesar de serem consideradas normais, certamente não terão média zero e variância um. Como calcular probabilidades no caso de uma distribuição normal qualquer? Uma propriedade importante das curvas normais, independentemente de sua média e seu desvio-padrão, está ilustrada na figura a seguir. 70 71 Trasnformação de Padronização Um resultado importante que vale para a distribuição normal é que ao efetuarmos transformações afins numa variável aleatória normal, a variável transformada continua sendo uma variável normal, isto é se X é normal e definimos Y = aX + b, com a 6= 0, então Y também é normal. 72 Para relacionar uma normal qualquer à normal padrão temos o seguinte resultado 1. se X ∼ N (µ, σ 2), então Z= X −µ σ } | {z ∼ N (0, 1) transf. de padronização Essa relação torna possı́vel calcular probabilidades associadas a uma variável normal qualquer, transformando-a numa normal padrão. 2. se Z ∼ N (0, 1), então X = σZ+µ ∼ N (µ, σ 2). Podemos usar qualquer uma das relações. 73 Discussão Técnica sobre QI Fonte: http://www.mensa.com.br/pag.php?p=23. Origem da ideia do Quociente de Inteligência (QI) O psicólogo francês Alfred Binet foi um dos precursores do estudo da inteligência humana e idealizou testes para medi-la e, com isso, tentar melhorar o desempenho escolar das crianças. A inteligência humana, como outras caracterı́sticas fı́sicas e psicológicas, tem grande variação dentro dos indivı́duos. É natural, portanto, que existam pessoas mais, e menos, inteligentes. Conhecendo-se esta caracterı́stica pode-se acompanhar melhor cada criança em sua vida acadêmica. A idéia original do teste de QI de Binet seria comparar a idade cronológica com a idade intelectual. Por comodidade definiu-se que o QI médio sempre vale 100 pontos. Uma criança, digamos com 5 anos de idade, que apresentasse um QI de 120 teria, portanto, uma idade intelectual 20% acima da inteligência média das crianças com 5 anos de idade, ou seja, esta criança teria uma idade intelectual média equivalente à de uma criança de 6 anos de idade. No caso de adultos, entretanto, faz muito pouco sentido dizer que uma pessoa com idade de 40 anos tem a idade intelectual de um adulto de 48 anos. 74 O valor do QI, para adultos, passa a ser pouco significativo e, em geral, é melhor classificar a inteligência em termos de porcentagem. É mais informativo dizer que uma pessoa tem uma inteligência maior do que, por exemplo, 98% da população (ou seja, a inteligência desta pessoa está entre os 2% mais inteligentes da população) do que dizer que o QI é, por exemplo, 148. A seguir discussão sobre o QI refere-se ao QI adulto. Acredita-se que a distribuição de QI na população tenha uma função densidade de probabilidade normal. Vimos que para especificar completamente uma distribuição normal é necessário fixar o valor dos parâmetros: média e desvio padrão. Por convenção, como já comentado, a média é sempre fixada como 100. Para “converter” um QI em uma porcentagem (ou vice-versa) é sempre necessário que se conheça o desvio padrão. Não tem sentido falar em QI (numérico) sem citar, também, qual desvio padrão está sendo utilizado. 75 Há diversos testes de QI e cada um deles foi calibrado (empiricamente) para um valor de desvio padrão. Há, por exemplo, testes famosos com desvios de 15, 16 e 24. Note que há muita diferença entre estes desvios e, consequentemente, a conversão entre QI e porcentagem é bastante diferente em cada caso. O QI informado pela Mensa, no resultado de seus testes, tem desvio padrão 24. Uma pessoa com QI topo 2% pode ter um QI numérico maior ou igual a 130(131) se d.p.=15, 132(133) se d.p.=16 ou 148(149) se d.p. 24. Observe que isso equivale a dizer dois desvios padrão acima da média (2,05 desvios a cima da média). As figuras a seguir ilustram a distribuição de QI com os três desvios citados. 76 77 Exemplo: Supondo uma distribuição N (100, 242) para o QI, responda aos itens a seguir. Determine a probabilidade de que uma pessoa submetida ao teste apresnte QI 1. maior ou igual a 148; 2. menor que 76; 3. entre 80 e 120; 4. entre 120 e 148. 5. Calcule os quartis da distribuição do QI. 6. Encontre um intervalo simétrico em torno da média 100, que compreenda 95% dos resultados desse teste. 78 Solução do item (1) Temos que X ∼ N (100, 242) e queremos calcular (X ≥ 148). Observe que P (X ≥ 148) = 1 − P (X < 148) P (X < 148) = P 0, 9773 X−100 24 < 148−100 24 = P (Z < 2) = φ(2) = Logo, P (Z ≥ 1148) = 1 − 0, 9773 = 0, 0227 ou, equivalentemente, 2,27%. Observe não é possı́vel encontrar um valor de QI inteiro n tal que P (X ≥ n) = 0, 02. Vamos tentar resolver esse problema n =? tal que P (X ≥ 2) = 0, 02 n−100 Nesse caso, φ 24 = 0, 98. 79 Não há na tabela um valor exatamente igual a 0,98 e devemos usar o valor mais próximo. Podemos ver que na tabela disponı́vel o valor que associa a probabilidade acumulada mais próxima de 98% é 2,05. Logo, n−100 = 2, 05 tal que n = 149, 2. 24 De fato, a resposta maior ou igual a 149 para QI topo seria mais apropriada. No entanto, costuma-se adotar certas aproximações para distribuições normais: a cauda superior, dois desvios padrão acima da média corresponde a aproximadamente 2% da distribuição. Vimos, usando a tabela, que é cerca de 2,27%, mas para facilitar é hábito arredondar para 2%. 80 Referências bibliográficas: (1) Busssab e Morettin - Estatı́stica Básica. Editora Saraiva (2) Triola, M. - Introdução à Estatı́stica - LTC (3) Thurman - Estatı́stica - Saraiva (4) Pinheiro e outros - Estatı́stica Básica - a arte de trabalhar com dados - Elsevier (5) Ross, S. - A First Course in Probability Prentice-Hall (6) Dancey e Reidy - Estatı́stica sem Matemática para Psicologia - Penso (7) http://www.mensa.com.br/pag.php?p=23. Em 28/08/2013 81