Distribuição de probabilidades Luiz Carlos Terra Para que você possa compreender a parte da estatística que trata de estimação de valores, é necessário que tenha uma boa noção sobre o conceito de distribuição de probabilidades e curva normal. (Luiz Carlos Terra) Distribuição de probabilidades 1 Objetivos Para que você possa compreender a parte da estatística que trata de estimação de valores, é necessário que tenha uma boa noção sobre o conceito de distribuição de probabilidades e curva normal. Tópicos 1- Variável aleatória discreta e contínua. 2- Distribuição discreta de probabilidades. 3- Distribuição contínua de probabilidades. 4- Curva normal – gráfico. 5- Saiba mais. 6- Bibliografia. 1 - Variável aleatória discreta e contínua No trecho sobre Fundamentos da Estatística, você teve conhecimento do conceito de variável aleatória, que podemos recordar como uma variável cujo valor depende do acaso. As variáveis aleatórias são discretas ou contínuas? Uma variável aleatória é considerada discreta se seus valores podem ser contados. Ex.: número de vendedores de uma empresa, número de sapatos vendidos, número de livros numa estante etc.. Exemplo: O espaço amostral representado pelo lançamento de uma moeda é S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}. Se a variável aleatória X representa “o número de caras” que aparecem a cada ponto amostral, um número X pode ser associado de acordo com a tabela abaixo: PONTO AMOSTRAL 2 X (variável aleatória = número de caras) (Ca, Ca), 2 (Ca, Co), 1 (Co, Ca), 1 (Co, Co), 0 Distribuição de probabilidades Uma variável aleatória é considerada contínua quando seu valor não é um número inteiro e existe entre um número inteiro e outro uma indeterminada quantidade de valores. Por exemplo, a altura das pessoas é uma variável contínua assim como outras unidades de medição. A distinção entre variáveis aleatórias discretas e contínuas se faz necessária porque a utilização de diferentes modelos (distribuições) de probabilidade depende do tipo de variável aleatória considerada. 2 - Distribuição discreta de probabilidades Uma distribuição de probabilidades é uma distribuição de freqüências relativas para os resultados de um espaço amostral e indica a proporção de vezes em que a variável aleatória assume cada um dos diversos valores. Por exemplo, vamos analisar a tabela abaixo, em que está registrada a demanda diária de locação de vans para turismo durante o período de 50 dias. Número de dias em que o mesmo Probabilidade – nº de vans foram alugadas. P(X)(ou freqüência relativa). 3 3 0,06 – 3/50 4 7 0,14 - 7/50 5 12 0,24 - 12/50 6 14 0,28 – 14/50 7 4 0,20 – 10/50 8 50 0,08 – 4/50 X- número de vans alugadas em um dia. 1,00 A variável – x – número de vans alugadas por dia assume os valores 3, 4, 5, 6, 7, 8. Para cada valor de xi há pontos do espaço amostral correspondentes (número de dias em que o mesmo número de vans foi alugado), ou seja, 3, 7, 12, 14, 10, 4,. Associamos, então, a cada valor xi, a probabilidade Pi de ocorrência de tais pontos no espaço amostral. Assim, temos que a soma de todas as probabilidades (freqüências relativas) é igual a 100% ou 1. ∑ Pi = 100% = (6% + 14% + 24% + 28% + 20% + 8%) Os valores de xi e seus correspondentes Pi definem uma distribuição de probabilidade. Distribuição de probabilidades 3 As freqüências relativas observadas foram convertidas, na última coluna da tabela, em probabilidades para um período de 50 dias. Podemos, então, observar que a probabilidade de serem solicitadas, exatamente, sete vans em um dia, aleatoriamente escolhidas no período, é de 20% e a probabilidade de serem solicitadas seis ou mais é de 56% ( 28% + 20% + 8%). Todos esses valores determinam a distribuição de probabilidade da variável aleatória X. 3 - Distribuição contínua de probabilidades Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição normal. Nas observações diárias, notamos que alguns eventos ocorrem com mais freqüência que outros. Uma pessoa muito alta ou muito baixa se destaca, porque a maioria das pessoas está na faixa de 1,60 a 1,80 m. O mesmo acontece com o peso das pessoas, quociente de inteligência e muitos outros fenômenos. Ao colocarmos a distribuição de probabilidades dessas variáveis em um gráfico, observaremos que ela gerará uma curva em que a maioria dos valores se concentrará próximo à média e poucos valores cairão muito acima ou muito abaixo dela. Essa curva tem o nome de curva normal e é também conhecida como CURVA DE GAUSS, estudioso do assunto do século XIX. Ela é caracterizada por dois parâmetros - a média e o desvio padrão - e tem as seguintes propriedades: • O ponto máximo da distribuição ocorre no valor médio, situado no centro da curva. • A curva é simétrica em torno da média, ou seja, a probabilidade de valores abaixo ou acima do valor médio é de 50%. • A forma da curva depende da magnitude do desvio padrão dos dados. Se o valor do desvio padrão for pequeno, indicando pouca dispersão, a curva se apresenta mais alta e estreita, o que indicará maior concentração de valores próximos à média. • A área total sob a curva normal é igual à unidade e representa probabilidade integral de 100%. • A área sob a curva normal, que mede a probabilidade, também é definida em função do número de desvios padrão dos valores em torno da média. • A probabilidade de valores entre a média com um desvio padrão para cima e a média com um desvio padrão para baixo é de aproximadamente 68,3 %. • A probabilidade de valores entre a média com dois desvios padrão para cima e a média com dois desvios padrão para baixo é de aproximadamente 95,5%. • A probabilidade de valores entre a média com três desvios padrão para cima e a média com três desvios padrão para baixo é de aproximadamente 99,7%. 4 Distribuição de probabilidades 4 - Curva normal- gráfico 4 A área sob a curva representa a probabilidade de obtenção de determinados valores, que se distribuem normalmente. Observe, na coluna vertical do gráfico, que a maioria dos valores da variável observada, aproximadamente 25, encontra-se com valores iguais à média e que poucos valores (abaixo de 5) estão muito distantes da média (m), tanto para cima como para baixo. Quando se trabalha com distâncias contadas a partir da média, que são números inteiros de desvios padrão (ou seja, 1, 2 ou 3), desvios acima ou abaixo da média, a probabilidade, como já vimos acima, é de respectivamente 68,3 %; 95,5 % e 99,7 %. Como se calcularia a probabilidade de valores que estão situados em intervalos não expressos em números inteiros de desvios padrão? Exemplo: se estabelecermos um valor para a probabilidade que gere 1,30 de desvio padrão da média, saberíamos que esse é superior à probabilidade de 34,13 % (correspondente à distância de um desvio padrão) e menor que 47,72% (correspondente à distância de dois desvios padrão). O cálculo dessa probabilidade é difícil, pois envolve um cálculo matemático bastante complexo. Entretanto, esse problema desaparece ao utilizarmos uma tabela estatística em que todas as probabilidades já estão calculadas. Para isso, basta fazer uma transformação de valores, em que se calcula a distância do valor desejado em relação à média da distribuição em número de desvios padrão. Distribuição de probabilidades 5 Esse processo produz um valor chamado escore Z – distribuição normal reduzida ou, ainda, escore padronizado, que indica, em unidades de desvios padrão, o sentido e o grau com que um dado valor bruto afasta-se da média da distribuição à qual pertence. O cálculo seria assim realizado – Z=X-m s onde x = qualquer valor da variável x m = média da distribuição s = desvio padrão da população Z = escore padronizado, ou seja, número de desvios padrão entre o valor de probabilidade que se quer calcular e a média da distribuição. Em SAIBA MAIS, você aprenderá a usar a tabela com a variável Z padronizada. O mais importante para que você entenda com mais facilidade o assunto de estimação de valores, é que deixe registrado que, em distribuições normais de probabilidades de variáveis aleatórias contínuas, os valores são distribuídos em torno da média e as probabilidades são calculadas em função da distância representada em números de desvios padrão do valor desejado até a média. Simplificando, se as alturas de um grupo de 100 pessoas forem levantadas e se, ao calcularmos média e desvio padrão, obtivermos 1,70 para o valor de média e 10 cm para desvio padrão, podemos afirmar o seguinte: - a probabilidade de uma pessoa, escolhida aleatoriamente, medir em 1,60 m e 1,80 m é de aproximadamente 68 %– calculado da seguinte forma: média = 1,70 + 1 desvio padrão = 10 cm = 1,80m . média = 1,60 – 1 desvio padrão = 10 cm = 1,60 m - a probabilidade de uma pessoa, escolhida aleatoriamente, medir entre 1,50 e 1,90 m é de aproximadamente 95,5% - calculado da seguinte forma: Média + 2 desvios padrão = 1,70 + 2(0,10) = 1,90 m - 2 desvios padrão = 1,70 – 2(0,10) = 1,70 m média - a probabilidade de uma pessoa escolhida aleatoriamente medir entre 1,40 e 2.00 m é de aproximadamente 99,7% (não é exatamente 100%, pois a curva vai de menos infinito à mais infinito) - calculado da seguinte forma: 1,70 + 3(0,10) = 2,00 m 1,70 – 3(0,10) = 1,40 m 6 Distribuição de probabilidades Na aula de Estimação de Valores, o entendimento da determinação de probabilidade pela curva normal é necessário, pois o conceito de intervalo de confiança deriva dessa situação de normalidade e, como 68,3% , 95,5% e 99,7% é a probabilidade de se encontrar valores que estejam respectivamente entre 1, 2 ou 3 desvios padrão distantes da média (para mais e para menos), quando se quer estimar um intervalo de valores em torno da média de 95%, o número de desvios padrão em torno da média fica bem próximo de 2, ou seja, 1,96 desvios padrão. Para ilustrar a utilidade da tabela de valores padronizados em cálculo de probabilidade sob a curva normal, analisemos o seguinte exemplo: Exemplo Consideremos X a variável aleatória que representa os diâmetros de parafusos produzidos por certa máquina. Vamos supor que essa variável tenha distribuição normal com média m= 2 cm e desvio padrão s = 0,04 cm. Pode haver interesse em conhecer a probabilidade de um parafuso ter diâmetro com valor entre 2 e 2,05 cm. saiba mais É fácil notar que essa probabilidade, indicada por P(2 < X < 2,05), corresponde à área da figura, exposta abaixo, entre 2,0 e 2,5 cm. Se X é uma variável aleatória com distribuição normal, cuja média é m e o desvio padrão é s, temos a variável Z, que corresponde à variável padronizada e indica o número de desvios padrão em torno da média assim calculada: z= X −µ σ Distribuição de probabilidades 7 Onde: z = número de desvios padrão a contar da média; X = valor arbitrário; m = a média da distribuição normal; s = o desvio padrão. Notemos que Z tem sinal negativo para valores de x que forem inferiores à média e sinal positivo para valores superiores à média. Queremos calcular P(2 < X < 2,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o valor de Z: Z = = = = 1,25 Donde: P (2 < X < 2,05) = P (0 < Z < 1,25) Procuremos na tabela de distribuições normal Z = 1,25: Na primeira coluna, encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes, encontramos o valor 0,3944, o que nos permite escrever: saiba mais P(0 < Z < 1,25) = 0,3944 8 Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média m = 2 e o valor x = 2,05 é 0,3944 = 39,44%. A tabela sempre registra a porcentagem da área que vai de m até um dado z (e nunca a % associada a um Z particular ou à área situada além dele). Se subtrairmos 39,44% de 50%, verificamos que pouco mais de 10% (10,56%) correspondem a 2,05 cm ou além desse valor, ou seja, 10% de parafusos possuem diâmetros igual ou maior que 2,05 cm. Distribuição de probabilidades saiba mais Distribuição de probabilidades 9 Anotações: bibliografia _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ Básica _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ SPIEGEL, Murray R. Estatística – McGraw_________________________________________________________________________________________________________________________________________________ Hill. _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ Stevenson, William – _________________________________________________________________________________________________________________________________________________ Estatística Aplicada â _________________________________________________________________________________________________________________________________________________ Administração – Ed. Harbra. _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ Complementar _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ Kasmier, Leonard J. – Estatística Aplicada à _________________________________________________________________________________________________________________________________________________ Economia e _________________________________________________________________________________________________________________________________________________ Administração – ed. _________________________________________________________________________________________________________________________________________________ Makron Books. _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________ ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 10 Distribuição de probabilidades