VICE-REITORIA DE ENSINO DE GRADUAÇÃO E CORPO DISCENTE COORDENAÇÃO DE EDUCAÇÃO A DISTÂNCIA PROBABILIDADE E ESTATÍSTICA II Rio de Janeiro / 2008 TODOS OS DIREITOS RESERVADOS À UNIVERSIDADE CASTELO BRANCO UNIVERSIDADE CASTELO BRANCO Todos os direitos reservados à Universidade Castelo Branco - UCB Nenhuma parte deste material poderá ser reproduzida, armazenada ou transmitida de qualquer forma ou por quaisquer meios - eletrônico, mecânico, fotocópia ou gravação, sem autorização da Universidade Castelo Branco - UCB. Un3p Universidade Castelo Branco Probabilidade e Estatística II / Universidade Castelo Branco. – Rio de Janeiro: UCB, 2008. - 40 p.: il. ISBN 978-85-86912-75-7 1. Ensino a Distância. 2. Título. CDD – 371.39 Universidade Castelo Branco - UCB Avenida Santa Cruz, 1.631 Rio de Janeiro - RJ 21710-250 Tel. (21) 2406-7700 Fax (21) 2401-9696 www.castelobranco.br Responsáveis Pela Produção do Material Instrucional Coordenadora de Educação a Distância Prof.ª Ziléa Baptista Nespoli Coordenadora do Curso de Graduação Sônia Albuquerque - Matemática Conteudistas Débora Cristina Alves Rego Supervisor do Centro Editorial – CEDI Joselmo Botelho Apresentação Prezado(a) Aluno(a): É com grande satisfação que o(a) recebemos como integrante do corpo discente de nossos cursos de graduação, na certeza de estarmos contribuindo para sua formação acadêmica e, conseqüentemente, propiciando oportunidade para melhoria de seu desempenho profissional. Nossos funcionários e nosso corpo docente esperam retribuir a sua escolha, reafirmando o compromisso desta Instituição com a qualidade, por meio de uma estrutura aberta e criativa, centrada nos princípios de melhoria contínua. Esperamos que este instrucional seja-lhe de grande ajuda e contribua para ampliar o horizonte do seu conhecimento teórico e para o aperfeiçoamento da sua prática pedagógica. Seja bem-vindo(a)! Paulo Alcantara Gomes Reitor Orientações para o Auto-Estudo O presente instrucional está dividido em cinco unidades programáticas, cada uma com objetivos definidos e conteúdos selecionados criteriosamente pelos Professores Conteudistas para que os referidos objetivos sejam atingidos com êxito. Os conteúdos programáticos das unidades são apresentados sob a forma de leituras, tarefas e atividades complementares. As Unidades 1, 2 e 3 correspondem aos conteúdos que serão avaliados em A1. Na A2 poderão ser objeto de avaliação os conteúdos das cinco unidades. Havendo a necessidade de uma avaliação extra (A3 ou A4), esta obrigatoriamente será composta por todo o conteúdo de todas as Unidades Programáticas. A carga horária do material instrucional para o auto-estudo que você está recebendo agora, juntamente com os horários destinados aos encontros com o Professor Orientador da disciplina, equivale a 60 horas-aula, que você administrará de acordo com a sua disponibilidade, respeitando-se, naturalmente, as datas dos encontros presenciais programados pelo Professor Orientador e as datas das avaliações do seu curso. Bons Estudos! Dicas para o Auto-Estudo 1 - Você terá total autonomia para escolher a melhor hora para estudar. Porém, seja disciplinado. Procure reservar sempre os mesmos horários para o estudo. 2 - Organize seu ambiente de estudo. Reserve todo o material necessário. Evite interrupções. 3 - Não deixe para estudar na última hora. 4 - Não acumule dúvidas. Anote-as e entre em contato com seu monitor. 5 - Não pule etapas. 6 - Faça todas as tarefas propostas. 7 - Não falte aos encontros presenciais. Eles são importantes para o melhor aproveitamento da disciplina. 8 - Não relegue a um segundo plano as atividades complementares e a auto-avaliação. 9 - Não hesite em começar de novo. SUMÁRIO Quadro-síntese do conteúdo programático ...................................................................................................11 Contextualização da disciplina .....................................................................................................................13 UNIDADE I DISTRIBUIÇÃO DE PROBABILIDADE E DISTRIBUIÇÃO BINOMIAL 1.1 - Introdução ............................................................................................................................................15 1.2 - Distribuição binomial ..........................................................................................................................16 UNIDADE II DISTRIBUIÇÃO DE POISSON 2.1 - Distribuição de Poisson .......................................................................................................................18 UNIDADE III DISTRIBUIÇÃO NORMAL E CURVA NORMAL 3.1 - A distribuição normal e a curva normal ...............................................................................................20 UNIDADE IV CORRELAÇÃO LINEAR E REGRESSÃO LINEAR 4.1 - Correlação linear ..................................................................................................................................25 4.2 - O coeficiente da correlação linear ........................................................................................................26 4.3 - Regressão linear ...................................................................................................................................27 UNIDADE V INFERÊNCIA ESTATÍSTICA E TESTE DE HIPÓTESES – ASPECTOS GERAIS 5.1 - Inferência estatística ...........................................................................................................................30 5.2 - Testes de hipóteses ...............................................................................................................................32 Glossário .......................................................................................................................................................34 Gabarito.........................................................................................................................................................36 Referências bibliográficas .............................................................................................................................37 Quadro-síntese do conteúdo programático UNIDADES DO PROGRAMA OBJETIVOS I - DISTRIBUIÇÃO DE PROBABILIDADE E DISTRIBUIÇÃO BINOMIAL • Identificar uma distribuição de probabilidade binomial; • Calcular a probabilidade binomial. 1.1 - Introdução 1.2 - Distribuição binomial II - DISTRIBUIÇÃO DE POISSON 2.1 - Distribuição de Poisson III - DISTRIBUIÇÃO NORMAL E CURVA NORMAL • Identificar uma distribuição de probabilidade de Poisson; • Calcular a probabilidade de Poisson. • Identificar uma distribuição de probabilidade normal; • Calcular a probabilidade normal. 3.1 - A distribuição normal e a curva normal IV - CORRELAÇÃO LINEAR E REGRESSÃO LINEAR 4.1 - Correlação linear 4.2 - O coeficiente da correlação linear 4.3 - Regressão linear V - INFERÊNCIA ESTATÍSTICA E TESTE DE HIPÓTESES – ASPECTOS GERAIS 5.1 - Inferência estatística 5.2 - Testes de hipóteses • Identificar grandezas correlacionadas ou não; • Calcular o coeficiente de correlação; • Descrever, através de um modelo matemático, a relação entre duas variáveis, partindo de n observações das mesmas. • Abordar sucintamente os aspectos gerais da inferência estatística e do teste de hipóteses. 11 Contextualização da Disciplina Ao elaborarmos este instrucional, procuramos apresentar a teoria de modo resumido, evitando as receitas prontas e o formalismo excessivo, os assuntos foram apresentados de tal forma que podem ser utilizados também para o estudo daqueles que queiram rever ou reciclar seus conhecimentos da disciplina. O objetivo é fazer com que você compreenda as idéias básicas da disciplina de Probabilidade e Estatística II e, quando necessário, saiba transferir as estruturas adquiridas as outras áreas de conhecimento. Esperamos que este material seja útil no desenvolvimento de seus trabalhos e no seu aprendizado. 13 UNIDADE I DISTRIBUIÇÃO DE PROBABILIDADE E DISTRIBUIÇÃO BINOMIAL 1.1 - Introdução Variável Aleatória e Distribuição de Probabilidade Seja x uma variável aleatória que pode assumir os valores x1, x2, x3, ..., xn. A cada valor xi, correspondem pontos do espaço amostral. Associamos, então, a cada valor xi, a probabilidade pi de ocorrência de tais pontos no espaço amostral. Assim, temos: ∑ pi = 1 Os valores x1, x2, x3, ..., xn e seus correspondentes p1, p2, p3, ..., pn definem uma distribuição de probabilidade. Exemplo: Seja o espaço amostral relativo ao “lançamento simultâneo de duas moedas” r = {(k , k ), (k , c ), (c, k ), (c, c )}, onde k representa a face cara e c representa a face coroa. A variável x representa o “número de caras” que aparece. Logo, x assume os seguintes valores {0,1,2} de acordo com a tabela abaixo: Logo, podemos escrever: Ao definir a distribuição de probabilidade, estabelecemos uma correspondência biunívoca entre os valores da variável x e os valores da variável P. Esta correspondência define uma função; os valores xi = { i = 1,2,...n}, o conjunto imagem. Essa função, assim definida, é denominada função probabilidade e é representada por: f(x) = P(x = xi) A função P(x = xi) determina a distribuição de probabilidade de variável aleatória x. 15 16 1.2 - Distribuição Binomial Consideremos os experimentos que satisfaçam as seguintes condições: • O experimento deve ser repetido, nas mesmas condições, um número finito de vezes (n); • As provas repetidas devem ser independentes, isto é, o resultado de uma não deve afetar os resultados das sucessivas; • Em cada prova, deve aparecer um dos dois possíveis resultados: sucesso e insucesso; • No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1 – p) do insucesso manter-se-ão constantes. Resolveremos problemas tais como determinar a probabilidade de se obter k sucessos em n tentativas. O experimento de “obtenção de caras em cinco lançamentos sucessivos e independentes de uma moeda” satisfaz essas condições. ⎛n⎞ P(X = k ) = ⎜⎜ ⎟⎟ p k q n − k , indica-se b (k: n, p) ⎝k ⎠ Onde: • P(X = k ) é a probabilidade de que o evento se realize k vezes em n provas. ⎛n⎞ • ⎜⎜ ⎟⎟ é o coeficiente binomial de n sobre k, igual a ⎝k ⎠ . • p é a probabilidade de que o evento se realize em uma só prova – sucesso. • q é a probabilidade de que o evento não se realize no decorrer dessa prova – insucesso. Essa função define a distribuição binomial. Vale observar que se a probabilidade de realização de um evento (sucesso) é p, a probabilidade de não realização desse evento (insucesso) é 1 – p = q. Exemplo: Uma moeda é lançada cinco vezes seguidas e independentes. Calcule a probabilidade de serem obtidas três caras nessas cinco provas. SOLUÇÃO: Temos n = 5 e k = 3. ⎛ 5⎞ ⎛ 5⎞ Pela lei binomial, podemos escrever: P(X = 3) = ⎜⎜ ⎟⎟ p 3 q 5−3 = ⎜⎜ ⎟⎟ p 3 q 2 ⎝ 3⎠ ⎝ 3⎠ Se a probabilidade de obtermos “cara” numa só prova (sucesso) é p = “cara” numa só prova (insucesso) é q = 1 − Logo: 1 1 = , então: 2 2 1 , a probabilidade de não obtermos 2 Exercícios de Auto-avaliação 1 - Calcule: a) 5! b) 6! 2!4! c) ⎛⎜ 8 ⎞⎟ ⎜ ⎟ ⎝ 3⎠ d) ⎛⎜ 7 ⎞⎟ ⎜ ⎟ ⎝5⎠ e) ⎛⎜ 4 ⎞⎟ ⎜ ⎟ ⎝ 4⎠ f) ⎛⎜ 4 ⎞⎟ ⎜ ⎟ ⎝0⎠ 2 - Determine a probabilidade de, ao lançar três vezes uma moeda honesta, aparecerem: a) 3 caras b) 2 caras e 1 coroa c) 2 coroas e 1 cara d) 3 coroas 3 - Determine a probabilidade de, em cinco lances de um dado honesto, aparecer um 3. a) Nenhuma vez b) Uma vez c) Duas vezes d) Três vezes e) Quatro vezes f) Cinco vezes 4 - Determine a probabilidade de, em uma família de quatro crianças, haver: a) Pelo menos um menino. b) Pelo menos um menino e uma menina. Admitir que a probabilidade do nascimento de um menino é de ½. 5 - Se 20% dos parafusos produzidos por uma máquina são defeituosos, determine a probabilidade de entre quatro parafusos escolhidos ao acaso: a) Um ser defeituoso. b) Nenhum ser defeituoso. c) No máximo dois parafusos serem defeituosos. 17 18 UNIDADE II DISTRIBUIÇÃO DE POISSON 2.1 - Distribuição de Poisson Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da ocorrência de um evento for próxima de zero, o evento será denominado raro. Na prática, considera-se um evento como raro quando o número de tentativas é, pelo menos, igual a 50 (n≥50), ao passo que np é menor que 7. Nesses casos, a distribuição binomial é muito aproximada da de Poisson, com λ = np. Logo, para n grande e p pequeno, podemos aproximar as probabilidades b (k: n, p) (seqüências de k sucesso, n ensaios de Bernoulli, p probabilidade do sucesso) por: np A distribuição de Poisson é largamente empregada quando se deseja contar o número de eventos de um certo tipo que ocorre em um intervalo de tempo, ou superfície, ou volume. Por exemplo: • Número de chamadas telefônicas recebidas por um PABX durante um intervalo pequeno de tempo; • Número de falhas de um computador em um dia de operação; • Número de relatórios de acidentes enviados a uma companhia de seguros em uma semana. De modo geral, dizemos que a variável aleatória X tem uma distribuição de Poisson com parâmetro λ > 0, se: Exemplo: Um PABX recebe uma média de cinco chamadas por minuto. Supondo que as chamadas que chegam constituam uma distribuição de Poisson, obtenha a probabilidade de que o PABX não receba chamadas durante um intervalo de um minuto. Segue-se que λ = 5 chamadas por minuto e P(X = 0 ) = e −5 .5 0 = e −5 = 0,0067 . 0! Por outro lado, se quisermos a probabilidade de se obter no máximo duas chamadas em quatro minutos, temos que λ = 20 chamadas em quatro minutos, logo, P(X ≤ 2 ) = P(X = 0 )+ P(X = 1)+ P(X = 2 ) = 0 0 0 e − 220 .20 0 e − 220 .20 1 e − 220 ..20 20 2 .20 .20 + + = 0! 1! 2! 0 20 0 = e − 220 + 20 20 .e − 20 + 200.e − 220 = e − 2020 (1 + 20 20 + 200 ) = = 0 = 221.e − 220 ≈ 0. Exercícios de Auto-avaliação 1- Seja x uma variável aleatória que representa o número de vezes que a palavra “PLATYPLUS” é pronunciada em um determinado dia. Supondo que x tenha distribuição de Poisson com parâmetro λ = 1 , quanto é 2 P( x > 1) ? 2 - Se x é uma variável aleatória de Poisson com parâmetro λ = 10. Quanto é P(1 ≤ x ≤ 3) ? 3 - O número de petroleiros que chegam a uma refinaria em cada dia ocorre segundo a distribuição de Piosson, com 1=2. As atuais instalações, podem atender, no máximo, a três petroleiros por dia. Se mais de três aportarem num dia, o excesso é enviado a outro porto. Em um dia, qual a probabilidade de ser enviar petroleiros para outro porto? Sugestão: calcule P( x ≥ 4) = 1 − P( x = 0) − P( x = 1) − P( x = 2) − P( x = 3) 19 20 UNIDADE III DISTRIBUIÇÃO NORMAL E CURVA NORMAL 3.1 - A Distribuição Normal e a Curva Normal Dentre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição normal. Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela se aproximam. O aspecto gráfico de uma distribuição normal é o da figura abaixo: Observações: 1ª) A variável aleatória X pode assumir todo e qualquer valor real; 2ª) A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média ( x ), que recebe o nome de curva normal ou de Gauss; 3ª) A área total é limitada pela curva; 4ª) A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcançá-lo. 5ª) Como a curva é simétrica em torno de x , a probabilidade de ocorrer valor maior do que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Escrevemos: P (X > x ) = P (X < x ) = 0,5. Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto. Exemplo: seja X a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos supor que essa variável tenha distribuição normal com média x =2 cm e desvio padrão s = 0,04 cm. Pode-se haver o interesse em conhecer a probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05 cm. É fácil notar que essa probabilidade, indicada por: P (2 < x < 2,05), corresponde à área hachurada na figura abaixo: Obs.: O cálculo dessa probabilidade exige recursos matemáticos mais sofisticados. Esse problema é contornado através da x−x variável z = que tem distribuição normal reduzida, isto é, tem distribuição normal de média 0 e desvio padrão 1. s As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo necessidade de serem calculadas. A tabela dá página seguinte é uma distribuição normal reduzida, que nos dá a probabilidade de Z tomar qualquer valor entre a média 0 e um valor z, isto é: P(0<Z<z). Se X é uma variável aleatória normal de média e o desvio padrão s, podemos escrever: P( x < X < x) = P(0 < Z < z ), com z = x−x s . Voltemos então para nosso problema. Queremos calcular: P(2<X<2,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 2,05 ( x = 2 ⇒ z = 0, pois x = 2). Temos, então: z= x − x = 22,05 ,05 − 2 = 00,05 ,05 = 11,25 ,25 , onde: s 00,04 ,04 00,04 ,04 P(2< X < 2,05) = P ( 0< Z < 1,25). Procuremos agora na tabela o valor de z = 1,25. Na primeira coluna encontramos o valor de 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes, encontramos o valor 0,3944, o que nos permite escrever: P ( 0< X < 1,25) = 0,3944. Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média o valor x = 2,05 é 0,3944 . Escrevemos então: P(2< X < 2,05) = P ( 0< Z < 1,25) = 0,3944 ou 39,44%. ÁREA SOB A CURVA NORMAL Padronizada de 0 a Z x =2e 21 22 Exercícios Resolvidos Determine as probabilidades: Exemplo 1: P (-1,25 < z < 0) A probabilidade procurada corresponde à parte hachurada da figura: Pela simetria da curva P (-1,25 < z < 0) = P (0 < z < 1,25) = 0,3944 Exemplo 2: P (-0,5 < z < 1,48) Área hachurada: Cálculo: P (-0,5 < z < 1,48) = P (-0,5 < z < 0) + P (0 < z < 1,48) P (-0,5 < z < 1,48) = P (0 < z < 0,5) P (-0,5 < z < 1,48) = P (0 < z < 0,5) + P (0 < z < 1,48) = 0,1915 + 0,4306 = 0,6221 Exemplo 3: P (0,8 < Z < 1,23) Área hachurada Cálculo: P (0,8 < Z < 1,23) = P (0 < Z < 1,23) - P (0 < Z < 8) = 0,3907 – 0,2881 = 0,1026 Exemplo 4: P(Z > 0,6) Área hachurada Cálculo: P(Z < 0,6) = P (Z > 0) – P(0 < Z < 0,6) = 0,5 – 0,2258 = 0,2742 Exemplo 5: P( Z < 0,92) Área hachurada. Cálculo: P(Z < 0,92) = P(Z < 0) + P(0 < Z < 0,92) = 0,5 + 0,3212 = 0,8212 Exercícios de Auto-avaliação 1 - Sendo Z uma variável aleatória com distribuição normal reduzida, calcule: a) P (0 < z < 1,44) b) P (-0,85 < z < 0) c) P (-1,48 < z < 2,05) d) P (0,72 < z < 1,89) e) P (z > -2,03) f) P (z < -0,66) 23 24 2 - Os salários semanais dos operários industriais são distribuídos, normalmente, em torno da média de R$500,00, com desvio padrão de R$40,00. Calcule a probabilidade de um operário ter salário semanal situado entre R$490,00 e R$520,00. 3 - Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão 10. Determine a probabilidade de um indivíduo submetido ao teste ter nota: a) Maior que 120. b) Maior que 80. c) Entre 85 e 115. d) Maior que 100. 4 - Os pesos de 600 estudantes são normalmente distribuídos com média de 65,3 Kg e desvio padrão de 5,5 kg. Determine o número de estudantes que pesam: a) Entre 60 e 70 kg b) Mais que 63,2 Kg c) Menos que 68 kg UNIDADE IV CORRELAÇÃO LINEAR E REGRESSÃO LINEAR 4.1 - Correlação Linear Consideremos uma amostra aleatória, formada por dez dos 98 alunos de uma classe da faculdade A e pelas notas obtidas por eles em Matemática e Estatística. TABELA 1 GRÁFICO 1 Representando, em um sistema coordenado cartesiano ortogonal, os pares ordenados (xi , yi), obtemos uma nuvem de pontos que denominamos diagrama de dispersão. Esse diagrama nos fornece uma idéia da correlação existente. No gráfico 1, os pontos obtidos, vistos em conjunto, formam uma elipse em diagonal. Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Dizemos, então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear. 25 26 Assim, uma correlação é: a) linear positiva: se os pontos têm como “imagem” uma reta ascendente (como no gráfico 1); b) linear negativa: se os pontos têm como “imagem” uma reta descendente; c) não-linear: se os pontos têm como “imagem” uma curva; d) Se os pontos apresentam-se dispersos, não oferecendo uma “imagem” definida, concluímos que não há relação alguma entre as variáveis em estudo. 4.2 - O Coeficiente da Correlação Linear O instrumento empregado para a medida da correlação linear é o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e ainda o sentido dessa correlação (positivo ou negativo). Faremos uso do coeficiente de correlação, que é dado por: Coeficiente de Correlação ( r ) Interpretação do Coeficiente de Correlação ( r ) Os limites de r são -1 e +1, isto é, o valor de r pertence ao intervalo [-1, 1]. r=+1 O valor de r =1 mostra uma relação linear positiva perfeita. r=-1 O valor de r = -1 mostra uma relação linear negativa perfeita. r=0 O valor de r = 0 mostra que X e Y são não correlacionadas linearmente, embora possam ter outro tipo de relacionamento. 0 < | r | < 0,3 Um valor de r próximo a 0 (zero) indica fraco relacionamento linear entre as variáveis e nada podemos concluir sobre a relação entre as variáveis. 0,3 ≤ | r | < 0,6 Há uma correlação fraca entre as variáveis. 0,6 ≤ | r | ≤ 1 Há uma correlação significativa entre as variáveis. Exemplo: Vejamos o cálculo do coeficiente de correlação para o exemplo da tabela 1 no início deste capítulo. Vamos construir a tabela 2: TABELA 2 Logo: r = 10 x 473 − 65 x65 (10 × 481 − 65²)(10 × 475 − 65²) r= 4735 − 4225 (4810 − 4225)(4750 − 4225) r= 505 505 = = 0,911 554,18 585 × 525 r = 0,911 Este resultado indica uma correlação linear positiva altamente significativa entre as duas variáveis. 4.3 - Regressão Linear Ajustamento da Reta Podemos dizer que a análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação entre duas variáveis, partindo de n observações das mesmas. A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente y e a outra recebe o nome de variável independente X: A partir do exemplo da seção anterior, vamos procurar determinar o ajustamento de uma reta para obter uma função definida por: y = ax + b Onde a e b são parâmetros. 27 28 Utilizando os valores obtidos na tabela 2, podemos calcular os valores dos parâmetros a e b com a ajuda das fórmulas: nΣxiyi − ΣxiΣyi nΣxi 2 − (Σxi ) 2 a= b = y − ax e Onde: n = o nº de observações; x = é a média dos valores x Σxi ⎞ ⎛ ⎜x = ⎟; n ⎠ ⎝ y = é a média dos valores y Σyi ⎞ ⎛ ⎜y = ⎟. n ⎠ ⎝ Temos, então, os seguintes cálculos: a= 10 x 473 − 65 x65 = 0,8632 10 x 481 − (65) 2 Como x = 65 65 = 6,5 = 6,5 e b = 10 10 Vem: b = 6,5 − 0,8632 x6,5 = 6,5 − 5, 6108 = 0,8892 Segue que: a = 0,86 e b = 0,89 Logo: y = 0,86x + 0,89 Observação: O resultado na realidade é uma estimativa da verdadeira equação de regressão. Por exemplo: - O valor estimado para x = 0 é y = 0,89 - O valor estimado para x =5 é y = 0,86 (5) + 0,89 = 5,19 Exercícios de Auto-avaliação 29 1 - Determine o coeficiente de correlação para os valores das variáveis xi e yi abaixo: xi 4 6 8 10 12 yi 12 10 8 12 14 2 - A partir da tabela: xi 1 2 3 4 5 6 yi 70 50 40 30 20 10 a) Calcule o coeficiente de correlação; b) Determine a reta ajustada; c) Estime o valor de y para x = 0. 3 - Pretendendo-se estudar a relação entre as variáveis “consumo de energia elétrica” (xi) e o “volume de produção nas empresas industriais” (yi), fez-se uma amostragem que inclui 20 empresas, completando-se os seguintes valores: Σxxi = 11,34 Σxyi = 20,72 Σxxi2 = 12,16 Determine: a) O cálculo do coeficiente de correlação; b) A equação de regressão de y para x; c) A equação de regressão de x para y. Σxyi2 = 84,96 Σxxiyi = 22,13 30 UNIDADE V INFERÊNCIA ESTATÍSTICA E TESTE DE HIPÓTESES – ASPECTOS GERAIS 5.1 - Inferência Estatística Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informações de uma amostra. Você pode estar familiarizado com o termo população num sentido biológico/geológico. Em estatística, o termo não se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia também se referir, por exemplo, a fósseis, rochas e sedimentos num determinado local, etc. A população se refere a todos os casos ou situações as quais o pesquisador quer fazer inferências ou estimativas. Diferentes pesquisadores podem fazer inferências acerca da concentração de poluentes num determinado lençol freático; predizer a quantidade de petróleo num poço a ser perfurado e assim por diante. Note que o investigador pode não estar interessado em todos os aspectos da população. O pesquisador pode não querer estudar a concentração de todos os tipos de poluentes, mas somente a de alguns poluentes mais importantes para seu estudo. Uma amostra é um subconjunto da população usado para obter informação acerca do todo. Mas exatamente por que tomamos uma amostra? Por que não usamos a população toda? Respostas possíveis: - Custo alto para obter informação da população toda. - Tempo muito longo para obter informação da população toda. - Algumas vezes, isso é impossível, como no estudo da poluição atmosférica. - Algumas vezes, isso é logicamente impossível, como em ensaios destrutivos. Características de uma população que diferem de um indíviduo para outro e das quais tem-se interesse em estudar são chamadas variáveis. Exemplos: comprimento, massa, idade, temperatura, número de ocorrências, etc. de cada unidade (membro) da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados observações. Princípios de Estimação Utilizaremos estimativas de uma amostra como nosso melhor “chute” para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão e a mediana da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados parâmetros. Note que estatísticas são usualmente representadas por letras romanas, por exemplo, para a média amostral, enquanto parâmetros são usualmente representados por letras gregas, por exemplo, para a média populacional e para o desvio padrão populacional. É claro que, à medida que a amostra aumenta, mais informações nós teremos acerca da população de interesse. Obtendo uma Amostra Obtemos uma amostra para fazer interferências válidas somente se a amostra é representativa da população. Na prática, não existe forma de garantir isso sem ter informação da população inteira para comparar a amostra. E, em tais circunstâncias, não haveria necessidade de amostragem! Em vez disso, podemos assegurar que não existe vício sistemático em nossa amostra através de uma seleção aleatória dos membros da população. Uma amostra aleatória independente é uma amostra selecionada de tal forma que: 1 - Todos os membros da população têm a mesma chance de serem selecionados. 2 - Cada combinação possível de um número de membros tem a mesma chance de ser selecionada. Em princípio, a melhor forma de obter uma amostra aleatória de tamanho n é ter uma lista de todos os membros da população, dar a todos um número, digamos de 1 a N, e então escolher aleatoriamente N para definir a amostra. É claro que na prática isso não é exeqüível, especialmente quando a população é infinita. Na maioria dos casos, é difícil obter amostras aleatórias. Considere o seguinte diagrama que mostra à população de círculos. Pense neles como se fossem grânulos de tamanhos diferentes. O diâmetro médio destes círculos é mm. Suponha que selecionemos uma amostra de cinco desses círculos jogando um lápis sobre o papel repetidamente até que tenhamos atingido cinco círculos. Qual é o diâmetro médio de nossos cinco círculos? O valor está perto de mm? No exemplo acima, o esquema amostral causou um vício. Um vício similar seria obtido, por exemplo, na amostragem de um particular tipo de animal – pode ser que os animais que se consegue capturar e medir são aqueles que não podem correr tão rápido, ou, ao usar uma amardilha, você pode amostrar somente os animais mais famintos, etc. Sempre que uma amostra é obtida o processo de amostragem, deve estar bem documentada, de tal forma que as inferências retiradas acerca da população podem ser avaliadas à luz da estratégia amostral. A Idéia Básica de Intervalos de Confiança Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido). Podemos estimar o parâmetro usando θ informação de nossa amostra. Chamamos o único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais. Um intervalo de confiança de 95% para um parâmetro populacional fornece um intervalo no qual estaríamos 95% confiantes de cobertura do verdadeiro valor do parâmetro. Tecnicamente, 95% de todos os intervalos de confiança que construímos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então, se obtivermos um intervalo de confiança para o parâmetro θ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média, desses intervalos de confiança não conterão θ. 31 32 Podemos obter intervalos de confiança de 95% para: médias, diferenças de médias, proporções, diferenças em proporções, etc. Podemos também criar intervalos de confiança de 90%, 99%, 99,9% etc., mas os intervalos de confiança de 95% são os mais utilizados. 5.2 - Testes de Hipóteses Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados principais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o parâmetro tem um valor em particular ou não). Testes de hipóteses fornece-nos a estrutura para que façamos isso. Intervalos de confiança e testes de hipóteses estão intimamente relacionados. Mas esses estudos fogem ao escopo do nosso curso, tais conceitos poderão ser úteis em futuros cursos de pós-graduação que aluno venha estudar. 33 Se você: 1) 2) 3) 4) concluiu o estudo deste guia; participou dos encontros; fez contato com seu tutor; realizou as atividades previstas; Então, você está preparado para as avaliações. Parabéns! 34 Glossário Correlação É o estudo da existência e do grau de relacionamento entre variáveis. Correlação Linear Simples Mede a relação entre as variáveis X e Y através da disposição dos pontos em torno de uma reta. Distribuição Binomial Problemas do tipo determinar a probabilidade de se obterem k sucessos em n tentativas. ⎛n⎞ P(X = k ) = ⎜⎜ ⎟⎟ p k q n − k , indica-se b (k: n, p) ⎝k ⎠ Onde: • P(X = k ) é a probabilidade de que o evento se realize k vezes em n provas. ⎛n⎞ • ⎜⎜ ⎟⎟ é o coeficiente binomial de n sobre k, igual a . ⎝k ⎠ • p é a probabilidade de que o evento se realize em uma só prova - sucesso. • q é a probabilidade de que o evento não se realize no decorrer dessa prova - insucesso. Essa função define a distribuição binomial. Distribuição de Poisson Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da ocorrência de um evento for próxima de zero, o evento será denominado raro. Na prática, considera-se um evento como raro quando o número de tentativas é, pelo menos, igual a 50 (n ≥ 50), ao passo que np é menor que 7. Nesses casos, a distribuição binomial é muito aproximada da de Poisson, com λ = np. Logo, para n grande e p pequeno, podemos aproximar as probabilidades b (k: n, p) (seqüências de k sucesso, n ensaios de Bernoulli, p probabilidade do sucesso) por: Distribuição de Probabilidade Seja x uma variável aleatória que pode assumir os valores x1, x2, x3, ..., xn. A cada valor xi, correspondem pontos do espaço amostral. Associamos, então, a cada valor xi, a probabilidade pi de ocorrência de tais pontos no espaço amostral. Assim, temos: ∑ pi = 1 Os valores x1, x2, x3, ..., xn e seus correspondentes p1, p2, p3, ..., pn definem uma distribuição de probabilidade. Distribuição Normal e Curva Normal Dentre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição normal. Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela se aproximam. O aspecto gráfico de uma distribuição normal é o da figura abaixo: Inferência Estatística Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informações de uma amostra. Regressão Descreve através de um modelo matemático a relação existente entre duas variáveis. Supondo X a variável explicativa e Y a variável explicada, Y = f(X) +, Y é função da variável X e são as influências sobre Y não devidas a X. Um modelo de regressão linear de Y sobre X consiste em obter uma reta que melhor represente a relação verdadeira entre as variáveis. A determinação dos parâmetros desta reta é denominada ajustamento. Através de um diagrama de dispersão, determina-se a função através da qual os valores de X explicarão os de Y. Testes de Hipóteses Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados principais de um estudo. 35 36 Gabarito UNIDADE I 1 - a) 120 b) 15 c) 56 2 - a) 1/8 b) 3/8 c) 3/8 3 - a) 3125 7776 b) 3125 7776 4 - a) 15/16 b) 7/8 5 - a) 0,4096 b) 0,4096 d) 21 e) 1 f) 1 d) 1/8 d) 125 3888 c) 625 3888 25 e) 125 7776 f) 1 7776 c) 0,9728 UNIDADE II 1 - 0,09020 2 - 0,010290 3 - 0,14287 UNIDADE III 1 - a)0,4251 b)0,3023 c)0,9104 d)0,2064 3 - a)0,0228 b)0,9772 c)0,8664 d)0,5 4 - a) 0,6338 b) 0,6480 2 - 29,02% c)0,6879 UNIDADE IV 1 - r = 0,42 2 - a) - 0,99 3 - a) 0,54 b) y = - 11,4x+76,6 b) y = 1,81x+0,01 c) y = 76,6 c) x = 0,16y+0,40 e) 0,9788 f)0,2546 Referências Bibliográficas BUSSAB, Wilton de Oliveira & MORETIN, P. Estatística Básica. São Paulo: Atual, 1998. CRESPO, Antônio Arnot. Estatística Fácil. 17 ed. São Paulo: Saraiva, 2002. DOWING, Douglas e CLARK, Jeffrey. Estatística Aplicada. 2 ed. São Paulo: Saraiva, 2005. HAZZAN, Samuel. Fundamentos da Matemática Elementar n.º5: Combinatória, Probabilidade. 7 ed. São Paulo: Atual, 2004. LIPSCHUTZ, Seymour. Probabilidade. São Paulo: Makron Books do Brasil, 1994. MEYER, Paul L. Probabilidade: Aplicação a Estatística. São Paulo: LTC, 1984. TRIOLA, Mário F. Introdução à Estatística. Rio de Janeiro: LTC, 1999. 37