Probabilidade e Estatística Probabilidade e Estatística i Probabilidade e Estatística Sumário 1 Estatística Descritiva 1 1.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Definições importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Tabelas Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1 Série Cronológica ou Temporal . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.2 Série Geográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.3 Série Específica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Distribuição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3.1 Construção de uma distribuição de frequência . . . . . . . . . . . . . . . . . 4 Gráficos Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.2 Polígono de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.3 Gráfico de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.4 Gráfico de Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.5 Gráfico em Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4.6 Gráfico de Setores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.5.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.6.2 Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.6.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.6.5 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2 1.3 1.4 1.5 1.6 1.7 ii Probabilidade e Estatística 2 Teoria dos Conjuntos e Contagem 23 2.1 Teoria dos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1.1 Comparação entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.2 União de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1.3 Interseção de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.4 Diferença entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.5 Complementar de um conjunto . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.6 Propriedades entre as relações entre conjuntos . . . . . . . . . . . . . . . . . 27 Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.1 Regra da multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.2 Regra da adição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.3 Permutação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.4 Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2.5 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2.6 Binômio de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2 2.3 3 4 Definições Básicas 34 3.1 Fundamentos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Noções de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3 Espaços Amostrais Finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4 Resultados Equiprováveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.1 Teorema da Multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.5.2 Teorema da Probabilidade Total . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.6 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Variáveis Aleatórias e Suas Distribuições 47 4.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.3 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.4 Variáveis Aleatórias Mistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.5 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.6 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 iii Probabilidade e Estatística 5 6 Esperança de uma Variável Aleatória 61 5.1 Variáveis aleatórias independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.2 Esperança matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.3 Esperança de uma Função de Variável Aleatória . . . . . . . . . . . . . . . . . . . . 63 5.4 Propriedades da Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.5 Variância de uma variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.6 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Principais Distribuições Discretas 72 6.1 A Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.2 A Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 6.3 A Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.3.1 Perda de Memória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 A Distribuição Pascal (ou Binomial Negativa) . . . . . . . . . . . . . . . . . . . . . 79 6.4.1 Generalização do Binômio de Newton . . . . . . . . . . . . . . . . . . . . . 79 6.4.2 Distribuição Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.5 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.6 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.6.1 Aproximação da distribuição binomial pela Poisson . . . . . . . . . . . . . . 87 6.6.2 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.4 6.7 7 Principais Distribuições Contínuas 93 7.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.2 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.2.1 Padronização e Tabulação da Distribuição Normal . . . . . . . . . . . . . . 95 7.2.2 Aproximação da Distribuição Binomial pela Normal . . . . . . . . . . . . . 97 A Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.3 7.3.1 7.4 7.5 Perda de Memória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 A Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.4.1 A Função Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.4.2 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 iv Probabilidade e Estatística 8 Introdução à Inferência Estatística 105 8.1 Definições Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 8.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 8.3 8.4 8.2.1 Tipos de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 8.2.2 Distribuição Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.2.2.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . 108 8.2.2.2 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . 109 8.2.2.3 Distribuição Amostral da Proporção . . . . . . . . . . . . . . . . 110 8.2.2.4 Distribuição Amostral da Diferença entre Médias . . . . . . . . . 111 8.2.2.5 Distribuição Amostral da Diferença entre Proporções . . . . . . . 111 Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 8.3.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 8.3.2 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 112 8.3.3 Alguns Estimadores Pontuais Importantes . . . . . . . . . . . . . . . . . . . 113 8.3.3.1 Estimador para a Média . . . . . . . . . . . . . . . . . . . . . . . 113 8.3.3.2 Estimador para a Variância . . . . . . . . . . . . . . . . . . . . . 114 8.3.3.3 Estimador para a Proporção . . . . . . . . . . . . . . . . . . . . . 114 8.3.4 Estimação Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 8.3.5 Intervalo de Confiança para a Média . . . . . . . . . . . . . . . . . . . . . . 115 8.3.6 Intervalo de Confiança para a Proporção . . . . . . . . . . . . . . . . . . . . 116 8.3.7 Intervalo de Confiança para a Diferença de Médias . . . . . . . . . . . . . . 116 Regressão e Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.4.1 8.4.2 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.4.1.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . 118 8.4.1.2 Coeficiente de Correlação de Pearson . . . . . . . . . . . . . . . . 120 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 8.4.2.1 8.5 O Poder Explicativo do Modelo . . . . . . . . . . . . . . . . . . . 124 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 A Apêndice - Tabela da Distribuição Normal 130 9 132 Índice Remissivo v Probabilidade e Estatística Prefácio BAIXANDO A VERSÃO MAIS NOVA DESTE LIVRO Acesse https://github.com/edusantana/estatistica-livro/releases para verificar se há uma versão mais o Histórico de revisões, na início do livro, para verificar o que mudou entre uma versão e outra. Este livro foi desenvolvido para a introdução do tema Probabilidade e Estatística, não tendo a ambição de englobar toda esta vasta área do conhecimento humano. Probabilidade e Estatística são as áreas do conhecimento humano que lidam com a incerteza. Ambas lidam com experimentos em que existe alguma variável (ou variáveis) que não temos controle, e portanto, mesmo mantendo as mesmas condições, um experimento pode fornecer vários resultados diferentes. Probabilidade e Estatística podem ser vistas como ciências inversas. Quando se estuda probabilidade, conhecemos o modelo em estudo completamente, e estamos interessados em saber como os resultados do experimento se comportam (por exemplo, saber qual a probabilidade de sair um resultado específico). Já na estatística, temos um conjunto de dados, mas não sabemos qual o modelo probabilístico que gerou estes dados, e portanto, tenta-se descobrir, a partir destes dados, qual o modelo probabilístico que gerou estes dados. Fenômenos aleatórios estão cada vez mais presentes em nossas vidas, e cada vez mais estamos interessados em tentar entender estes fenômenos. Gráficos estatísticos estão cada vez mais presentes em notícias, e é importante saber interpretar esses gráficos corretamente. Quando vemos os resultados de uma pesquisa eleitoral, é bom sabermos interpretar o seu significado, etc.. Vale a pena citar também que ferramentas estatísticas são utilizadas pelos bancos, para definir o rendimento em fundos de investimento ou poupança, também são utilizadas pelas seguradoras para definir qual o valor do seguro que você tem que pagar (na prática eles calculam o seu risco), etc.. Para um aluno, probabilidade e estatística podem ser úteis da seguinte forma: i) são úteis para realizar pesquisa científica; ii) são úteis caso o aluno queira trabalhar em banco, seguradora, montadoras, instituições financeiras em geral, controle de qualidade da produção de algum item, etc..; iii) são úteis no dia-a-dia. Finalizamos essa primeira parte do prefácio mostrando um exemplo de como a probabilidade pode mostrar como a nossa intuição nos engana. Suponha que temos uma sala com 50 pessoas. Qual a probabilidade de que pelo menos duas delas façam aniversário no mesmo dia do ano? Quando falamos dia do ano, estamos falando dia e mês, não apenas dia. Temos 365 dias (vamos desconsiderar o ano bissexto) e 50 pessoas. A intuição nos diz que essa probabilidade não deve ser muito grande. Entretanto, esta probabilidade é de 97%! vi Probabilidade e Estatística Público alvo O público alvo desse livro são os alunos de Licenciatura em Computação, na modalidade à distância 1 . Ele foi concebido para ser utilizado numa disciplina de Probabilidade e Estatística. Como você deve estudar cada capítulo • Leia a visão geral do capítulo • Estude os conteúdos das seções • Realize as atividades no final do capítulo • Verifique se você atingiu os objetivos do capítulo NA SALA DE AULA DO CURSO • Tire dúvidas e discuta sobre as atividades do livro com outros integrantes do curso • Leia materiais complementares eventualmente disponibilizados • Realize as atividades propostas pelo professor da disciplina Caixas de diálogo Nesta seção apresentamos as caixas de diálogo que poderão ser utilizadas durante o texto. Confira os significados delas. Nota Esta caixa é utilizada para realizar alguma reflexão. Dica Esta caixa é utilizada quando desejamos remeter a materiais complementares. Importante Esta caixa é utilizada para chamar atenção sobre algo importante. 1 Embora ele tenha sido feito para atender aos alunos da Universidade Federal da Paraíba, o seu uso não se restringe a esta universidade, podendo ser adotado por outras universidades do sistema UAB. vii Probabilidade e Estatística Cuidado Esta caixa é utilizada para alertar sobre algo que exige cautela. Atenção Esta caixa é utilizada para alertar sobre algo potencialmente perigoso. Os significados das caixas são apenas uma referência, podendo ser adaptados conforme as intenções dos autores. Vídeos Os vídeos são apresentados da seguinte forma: Figura 1: Como baixar os códigos fontes: http://youtu.be/Od90rVXJV78 Nota Na versão impressa irá aparecer uma imagem quadriculada. Isto é o qrcode (http://pt.wikipedia.org/wiki/C%C3%B3digo_QR) contendo o link do vídeo. Caso você tenha um celular com acesso a internet poderá acionar um programa de leitura de qrcode para acessar o vídeo. Na versão digital você poderá assistir o vídeo clicando diretamente sobre o link. Compreendendo as referências As referências são apresentadas conforme o elemento que está sendo referenciado: Referências a capítulos Prefácio [vi] viii Probabilidade e Estatística Referências a seções “Como você deve estudar cada capítulo” [vii], “Caixas de diálogo” [vii]. Referências a imagens Figura 2 [ix] Nota Na versão impressa, o número que aparece entre chaves “[ ]” corresponde ao número da página onde está o conteúdo referenciado. Na versão digital do livro você poderá clicar no link da referência. Feedback Você pode contribuir com a atualização e correção deste livro. Ao final de cada capítulo você será convidado a fazê-lo, enviando um feedback como a seguir: Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. Nota A seção sobre o feedback, no guia do curso, pode ser acessado em: https://github.com/edusantana/guia-geral-ead-computacao-ufpb/blob/master/livro/capitulos/livroscontribuicao.adoc. Figura 2: Exemplo de contribuição ix Probabilidade e Estatística Capítulo 1 Estatística Descritiva O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Conhecer os conceitos básicos da estatística e, principalmente, a diferença entre população e amostra • Construir uma tabela estatística • Conhecer os tipos de variáveis estatísticas • Construir um histograma • Identificar e entender o significado dos gráficos estatísticos • Conhecer e saber calcular as principais medidas de posição • Conhecer e saber calcular as principais medidas de dispersão 1.1 Conceitos Básicos A Estatística é a ciência voltada para a construção de técnicas e métodos que permitem tomar decisões nos mais deferentes setores do conhecimento. O que hoje se conhece por Estatística, é justamente esse conjunto de ferramentas de pesquisa que envolve, entre outros, o planejamento do experimento a ser realizado, a coleta qualificada dos dados, os processos de inferência estatística, bem como a análise e o processamento das informações coletadas. 1.1.1 Definições importantes Na estatística temos algumas definições importantes: • População: Qualquer conjunto de informação que tenha entre si uma característica comum que delimite os elementos pertencentes a ela. • Amostra: É um subconjunto de elementos pertencentes a uma população. • Variável: Dados referêntes a uma característica de interesse, coletados a partir de uma amostra. • Censo: Exame de todos os elementos da população. 1 / 135 Probabilidade e Estatística Amostra População Figura 1.1: População e Amostra Variável Figura 1.2: Exemplo de variável Temos dois tipos de variáveis: Qualitativa Nominal : sexo, cor dos olhos. Ordinal : classe social, grau de instrução. Quantitativa Discreta : número de filhos. Continua : altura, peso, salário. 2 / 135 Probabilidade e Estatística 1.2 Tabelas Estatísticas Na estatística é fundamental aprendermos a representar os dados que serão analisados por meio de tabelas. Uma tabela deve apresentar a seguinte estrutura: • Cabeçalho; • Corpo; • Rodapé. O cabeçalho deve conter o suficiente para que sejam respondidas as questões: • O que está representado? • Onde ocorreu? • Quando ocorreu? Além disso, a tabela é um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. 1.2.1 Série Cronológica ou Temporal Um exemplo muito comum e muito útil de tabela é dado pelas séries temporais. Uma série temporal consiste em uma sequência numérica cujos valores variam com o tempo. Abaixo vemos como inserir os dados de uma série temporal em uma tabela: Vendas da Companhia Alfa: 2007-2009 Anos 2007 2008 2009 Vendas em R$ 1.000,00 11.425 18.258 15.798 Fonte: Departamento de Marketing. 1.2.2 Série Geográfica Muitas vezes o dado de interesse pode depender a posição geográfica de onde foram coletados. Assim, uma série geográfica consiste em uma sequência numérica obtidas em diferentes regiões em um determinado instante do tempo. Empresas Fiscalizadas em 2008 Regiões Norte Nordeste Sudeste Sul Centro-Oeste Número de Empresas 11.425 18.258 28.157 15.798 9.236 Fonte: Mensário Estatístico. 3 / 135 Probabilidade e Estatística 1.2.3 Série Específica Uma série importante é formada por dados agrupados por alguma espécie ou característica comum. Assim, uma série específica é uma série numérica agrupada por tipo. Temos o exemplo abaixo: Matrículas na Pós-graduação da UFPB - 2008 Áreas de Ensino Ciências Biológicas Ciências Exatas e Tecnologia Ciências Humanas Matrículas 125 158 128 Fonte: Serviço de Educação e Cultura. 1.3 Distribuição de Frequência Uma distribuição de frequência é uma tabela que contém um resumo dos dados obtido em uma amostra. A distribuição é organizada em formato de tabela, e cada entrada da tabela contém a frequência dos dados em um determinado intervalo, ou em um grupo. Abaixo vemos um exemplo simplificado de tabela de distribuição de frequência: Altura dos Alunos da UFPB - 2008 Alturas em metros 1,50 |− 1,60 1,60 |− 1,70 1,70 |− 1,80 1,80 |− 1,90 Número dos Alunos 5 15 17 3 Fonte: Serviço de Saúde. Na próxima subseção aprenderemos a construir uma distribuição de frequência completa. 1.3.1 Construção de uma distribuição de frequência Para ilustrar como se constrói uma distribuição de frequência, nós vamos considerar um exemplo específico. Assim, suponha que uma pesquisa foi feita, e o seguinte conjunto de dados foi obtido: • Dados Brutos: 24-23-22-28-35-21-23-33-34-24-21-25-36-26-22-30-32-25-26-33-34-21-31-25-31-26-25-35-33-31. A primeira coisa que fazemos é ordenar os dados do menor para o maior, formando o rol de dados: • Rol de dados: 21-21-21-22-22-23-23-24-25-25-25-25-26-26-26-28-30-31-31-31-32-33-33-33-34-34-34-35-35-36. Em seguida, calculamos a amplitude total, ou seja, o maior valor obtido na amostra subtraído do menor valor obtido na amostra: 4 / 135 Probabilidade e Estatística • Amplitude Total R: R = 36 − 21 = 15. Vamos agora definir as variáveis de interesse, ou seja, para cada valor distinto obtido na amostra, atribuiremos uma variável diferente: • Variável Xi : X1 = 21, X2 = 22, X3 = 23, X4 = 24, etc. O próximo passo é calcular a frequência absoluta das variáveis, ou seja, vamos calcular quantas vezes cada valor aparece na sequência. Por exemplo, o valor 21 aparece 3 vezes, o valor 22 aparece 2 vezes, etc.. Assim, obtemos: • Frequência Absoluta Fi F1 = 3, F2 = 2, F3 = 2, F4 = 1, etc. Vamos calcular, agora, o tamanho amostral, ou seja, o número de observações obtidas na amostra. Desta forma, temos: • Tamanho Amostral n: n = 30. Queremos, agora, dividir a amostra em uma quantidade de grupos que formarão os intervalos. Cada grupo é chamado de classe, assim, queremos definir o número de classes a ser considerado na tabela de distribuição de frequência: • Número de Classes K: – K = 5 para n ≤ 25 e K ≈ √ n, para n > 25. – Fórmula de Sturges K ≈ 1 + 3, 22 log n. √ Logo, pela primeira regra temos K = 30 ≈ 5, 48 ≈ 6, e pela segunda regra K ≈ 1 + 3, 22 log 30 ≈ 5, 75 ≈ 6. Desta forma, em ambos os casos temos K = 6, que será o valor considerado. O próximo passo é saber o comprimento de cada intervalo a ser considerado, ou seja, calcular a amplitude de cada classe. Queremos que todas as classes tenham a mesma amplitude e portanto, temos: • Amplitude das Classes h: h= Daí, para o nosso caso, h = 15 6 R . K = 2, 5 ≈ 3. Vamos agora definir os limites das classes. Ou seja, definir os intervalos propriamente ditos. Para tanto, começamos com o menor valor obtido da amostra, ou equivalentemente, o primeiro valor do rol de dados, e vamos somando a amplitude para definir cada limite de intervalo: 5 / 135 Probabilidade e Estatística • Limites das Classes: 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Em seguida, calculamos os pontos médios das classes, que nada mais é que a média aritmética entre os limites das classes: • Pontos Médios das Classes pmi : pm1 = 21 + 24 = 22, 5, 2 pm2 = 24 + 27 = 25, 5, 2 , etc. Agora, calculamos as frequências dos dados em cada intervalo e, chamada de frequência absoluta, e também a frequência acumulada, chamada de frequência absoluta acumulada, que considera a soma das frequências dos intervalos anteriores até o intervalo considerado: • Frequência Absoluta Acumulada Fac : Classes 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Total pmi 22,5 25,5 28,5 31,5 34,5 37,5 - Fi 7 8 2 4 8 1 30 Fac 7 15 17 21 29 30 - Em seguida, inclui-se as frequências relativas dos dados, ou seja, para cada intervalo calcula-se fi = Fi /n. A frequência relativa, nos informa a proporção dos dados que pertencem a um determinado intervalo. • Frequência Relativa fi : Classes 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Total pmi 22,5 25,5 28,5 31,5 34,5 37,5 - Fi 7 8 2 4 8 1 30 Fac 7 15 17 21 29 30 - fi 0,23 0,27 0,07 0,13 0,27 0,03 1,00 Para finalizar, calculamos a frequência acumulada relativa, ou seja, calculamos para cada intervalo fac = Fac /n: 6 / 135 Probabilidade e Estatística • Frequência Relativa Acumulada fac : Classes 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Total 1.4 1.4.1 pmi 22,5 25,5 28,5 31,5 34,5 37,5 - Fi 7 8 2 4 8 1 30 Fac 7 15 17 21 29 30 - fi 0,23 0,27 0,07 0,13 0,27 0,03 1,00 fac 0,23 0,50 0,57 0,70 0,97 1,00 - Gráficos Estatísticos Histograma O histograma é uma representação gráfica da distribuição de frequência. O histograma é formado por uma justaposição de retângulos de bases com mesmo comprimento. O comprimento da base é justamente a amplitude do intervalo e a altura do retângulo é dada pela frequência absoluta do intervalo. Assim, uma vez feita a distribuição de frequência, a construção do histograma é uma tarefa muito simples. 2 0 1 Fi 3 4 Abaixo vemos um exemplo de histograma: 0 5 10 15 20 25 30 35 Classes Figura 1.3: Histograma 1.4.2 Polígono de Frequência O polígono de frequência é uma representação gráfica obtida após ligar os pontos médios de cada classe entre si. Se já tivermos um histograma, basta ligar os pontos médios das bases superiores dos retângulos. 7 / 135 Probabilidade e Estatística 4 0 2 Fi 6 8 Abaixo vemos um exemplo de polígono de frequência obtido a partir de um histograma: 5 10 15 20 Classes Figura 1.4: Polígono de Frequência Obtido a Partir de um Histograma 4 0 2 Fi 6 8 Abaixo vemos um exemplo contendo apenas o polígono de frequência: 6 8 10 12 14 16 18 Classes Figura 1.5: Polígono de Frequência Obtido a Partir de um Histograma 1.4.3 Gráfico de Linhas Suponha que temos duas variáveis, por exemplo, podemos ter os dados de uma série temporal, donde uma variável seria o valor obtido, e a outra variável seria a data em que o valor foi obtido. Outra 8 / 135 Probabilidade e Estatística possibilidade seria colocar dados de uma série geográfica, onde uma variável seria formada pelos dados e a outra seria a localização geográfica. O gráfico de linhas então é formado construindo pontos no plano (a partir das duas variáveis) e, em seguida, estes pontos são ligados por segmentos de retas. 60 0 20 −40 Rendimento 100 Abaixo vemos um exemplo de gráfico de linhas de uma série temporal 2006 2008 2010 2012 2014 Período Figura 1.6: Gráfico de linhas 1.4.4 Gráfico de Colunas Um gráfico de colunas é formado por uma coleção de colunas, com bases de mesmo comprimento, e igualmente espaçados. O eixo horizontal do gráfico consiste das diferentes categorias consideradas, e o eixo vertical é proporcional ao valor do dado. Abaixo vemos um exemplo de gráfico de colunas: 9 / 135 Probabilidade e Estatística 0 2 4 6 8 10 14 Pessoas por categoria 3 4 5 Categorias Figura 1.7: Gráfico de colunas 1.4.5 Gráfico em Barras O gráfico em barras pode ser entendido como uma variação do gráfico de colunas. De fato, o gráfico em barras é formado por uma coleção de barras, de mesma altura e igualmente espaçadas. Entretanto, neste caso o eixo vertical representa as diferentes categorias consideradas e o eixo horizontal é proporcional ao valor dado. Abaixo vemos um exemplo de gráfico em barras: Baixa Média Alta Pessoas por classe 0 2 4 6 8 10 Figura 1.8: Gráfico em barras 10 / 135 12 14 Probabilidade e Estatística 1.4.6 Gráfico de Setores O gráfico de setores, que também é popularmente conhecido como gráfico pizza, é um gráfico em que um círculo é dividido em setores (que podem ser pensados como as fatias da pizza), onde cada setor representa uma categoria considerada pelo conjunto de dados, e os ângulos dos setores são proporcionais aos valores dos dados em cada categoria. Assim, quanto maior o valor obtido, maior será o ângulo do setor (e assim, maior será a fatia da pizza). Abaixo vemos um exemplo de gráfico de setores: Sudeste Centro−Oeste Sul Nordeste Norte Figura 1.9: Gráfico de setores 1.5 Medidas de Posição As medidas de posição são valores que representam a tendência de concentração dos dados observados. As mais importantes são as medidas de tendência central. As três medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. 1.5.1 Média Aritmética É um valor que representa uma característica do conjunto de dados. Essa característica é tal que a soma dos dados é preservada. A média é obtida a partir de todos os elementos da distribuição e do tamanho da amostra n. Notação: representamos a média de um conjunto de dados por X (lê-se x barra). Cálculo da Média Aritmética + • Dados não agrupados (brutos) - média aritmética simples. 11 / 135 Probabilidade e Estatística No caso de uma lista de dados não-agrupados, calculamos a média aritmética pela fórmula: n Xi . i=1 n X=∑ Exemplo 1.1 Exemplo de cálculo de média aritmética com dados brutos Considere os dados 2, 3, 7 e 8. Então, n = 4 e X= 2 + 3 + 7 + 8 20 = = 5. 4 4 • Dados agrupados - média aritmética ponderada. No caso em que temos os dados agrupados, ou seja, sabemos a frequência de cada observação, o cálculo da média aritmética pode ser simplificado. Assim, a média aritmética pode ser cálculada pela fórmula: n Xi · Fi X=∑ . i=1 n Exemplo 1.2 Exemplo de cálculo de média aritmética ponderada Considere a seguinte tabela: Tempo de Serviço (Xi ) 4 6 8 Total Assim, X = 122 18 Fi 3 5 10 18 Xi · Fi 12 30 80 122 = 6, 78. • Dados agrupados em intervalos - média aritmética ponderada No caso em que temos os dados agrupados em intervalos, utilizamos a média aritmética ponderada, onde os pesos são dados pelo ponto médio do intervalo. Assim, a média aritmética é calculada pela fórmula: n Xi · pmi X=∑ , n i=1 Exemplo 1.3 Exemplo de cálculo de médias com dados agrupados em intervalos Considere a seguinte tabela: Anos (Xi ) Fi pmi Xi · pmi 0`4 4 2 8 10 6 60 4`8 8 ` 12 7 10 70 Total 21 138 Assim, X = 138 21 = 6, 57. 12 / 135 Probabilidade e Estatística 1.5.2 Moda Definimos a moda de um conjunto de dados como o valor mais frequente deste conjunto. Notação: representamos a moda de um conjunto de dados por Mo. Exemplo 1.4 Exemplo de modas • 1, 2, 4, 5 e 8 - não existe valor mais frequente - não existe moda (Amodal). • 2, 2, 3, 7 e 8 - Mo = 2 (Unimodal). • 1, 1, 10, 5, 5, 8, 7, 2 - Mo = 1 e 5 (Bimodal). • Dados agrupados - Neste caso, a moda é definida como “classe modal”, isto é, a classe com a maior frequencia. Exemplo 1.5 Exemplo de cálculo de classe modal Considere a seguinte tabela: Tempo de Serviço (Xi ) 4 6 8 Total Fi 3 5 10 18 Assim, Mo = 8 (F3 ). • Dados agrupados em intervalos: Neste caso, utiliza-se a fórmula de Czuber: h(FMo − Fant ) Mo = lMo + , 2FMo − (Fant + FPos ) onde: • h é a amplitude intervalar, • FMo é a frequência da classe modal, • lMo é o limite inferior da classe modal, • Fant é a frequência da classe anterior à classe modal, • FPos é a frequência da classe posterior à classe modal. 13 / 135 Probabilidade e Estatística Exemplo 1.6 Exemplo de cálculo de moda pela fórmula de Czuber Considere a seguinte tabela: Anos (Xi ) Fi 0`4 4 4`8 10 7 8 ` 12 Total 21 Assim, h = 4, FMo = 10, lMo = 4, Fant = 4 e Fpos = 7. Daí 4 · (10 − 4) = 6, 67. Mo = 4 + 2 · 10 − (4 + 7) 1.5.3 Mediana Definimos a mediana de um conjunto de dados como o valor que divide um conjunto de dados (ordenados) em duas partes com a mesma quantidade de dados. Notação: representamos a mediana de um conjunto de dados por Md. O elemento mediano (EMd ) aponta o local (nos dados) onde a mediana está localizada. A mediana será o valor assumido na posição EMd . • Dados não agrupados (brutos) – No caso de dados brutos, se o tamanho amostral (n) é ímpar, temos que EMd = (n + 1)/2. – Note que no caso tamanho amostral é par, teremos dois valores possíveis para o elemento mediano: n/2 e n/2 + 1. Neste caso a mediana será a média dos valores assumidos nestas posições. Exemplo 1.7 Exemplo de cálculo de mediana para dados brutos • 1, 2, 4, 5 e 8. Como n é ímpar, temos EMd = 3, e Md = 4. • 2, 2, 3, 7, 8 e 10. Aqui n é par, assim EMd,1 = 6/2 = 3 e EMd,2 = 6/2 + 1 = 4. Daí Md = (3 + 7)/2 = 5. • Dados agrupados Neste caso, olhar a frequência acumulada ajuda a encontrar a médiana. • Caso 1: n ímpar. 14 / 135 Probabilidade e Estatística Exemplo 1.8 Exemplo de cálculo de mediana com dados agrupados para n ímpar Considere a seguinte tabela:\vfill Faltas (Xi ) Fi Fac 2 1 1 3 7 8 3 11 4 Total 11 Como n = 11, temos que EMd = (11 + 1)/2 = 6. Daí Md = 3. Note que a frequência acumulada indica que nas posições de 2 até 8 temos o valor 3. • Caso 2: n par. Exemplo 1.9 Exemplo de cálculo de mediana com dados agrupados para n par Considere a seguinte tabela: Tempo de Serviço (Xi ) 4 6 8 Total Fi 3 5 10 18 Fac 3 8 18 Neste caso n = 18, daí temos EMd,1 = 18/2 = 9 e EMd,2 = 18/2 + 1 = 10. Portanto Md = (8 + 8)/2 = 8. Note, novamente, que a frequência acumulada indica que nas posições de 9 até 18 temos o valor 8. • Dados agrupados em intervalos Neste caso, utilizamos EMd = n/2 independentemente de n ser par ou ímpar. A classe mediana é a primeira classe tal que Fac ≥ EMd . Portanto, definimos a mediana pela fórmula EMd − Fac,ant Md = lMd + h · , FMd onde, • lMd é o limite inferior da classe mediana, • h é a amplitude do intervalo, • Fac,ant é a frequência acumulada da classe anterior à classe mediana, • FMd é a frequência da classe mediana. 15 / 135 Probabilidade e Estatística Exemplo 1.10 Exemplo do cálculo da mediana para dados agrupados em intervalos Considere a seguinte tabela: Anos (Xi ) Fi Fac 0`4 4 4 4`8 10 14 7 21 8 ` 12 Total 21 Assim, EMd = 21/2 = 10, 5, e desta forma temos que a segunda classe é a classe mediana. Daí lMd = 4, h = 4, Fac,ant = 4 e FMd = 10. Portanto, 10, 5 − 4 = 6, 6. Md = 4 + 4 · 10 1.6 Medidas de Dispersão • As medidas de dispersão medem o grau de variabilidade dos elementos de uma distribuição; • O valor zero indica ausência de dispersão; • A dispersão aumenta à medida que aumenta o valor da medida de dispersão. Exemplo 1.11 Exemplo de motivação para as medidas de dispersão Notas de alunos em cinco avaliações, UFPB, 2009. Alunos Antônio João José Pedro 5 6 10 10 5 4 5 10 Notas 5 5 5 5 4 6 5 5 0 5 0 0 Média 5 5 5 5 Observa-se que: * As notas de Antônio não variaram; • As notas de João variaram menos do que as notas de José; • As notas de Pedro variaram mais do que as notas de todos os outros alunos. Principais Medidas de Dispersão: • Amplitude, • Desvio Médio, • Variância, • Desvio Padrão, • Coeficiente de Variação. 16 / 135 Probabilidade e Estatística 1.6.1 Amplitude A amplitude nos fornece uma idéia do campo de variação dos elementos. Mais precisamente, ela fornece a maior variação possível dos dados. A amplitude é dada pela fórmula A = Xmax − Xmin . Exemplo 1.12 Exemplo de cálculo de amplitude No exemplo anterior: AAntônio = 0; AJoão = 2; AJosé = 10; APedro = 10. Nota A amplitude não mede bem a dispersão dos dados porque, usam-se apenas os valores extremos, ao invés de utilizar todos os elementos da distribuição. 1.6.2 Desvio Médio Desejando-se medir a dispersão dos dados em relação a média, parece interessante a análise dos desvios em torno da média. Isto é, análise dos desvios: di = (Xi − X). Mas a soma de todos os desvios é igual a zero. Isto é: n n ∑ di = ∑ (Xi − X) = 0. i=1 i=1 Logo, será preciso encontrar uma maneira de se trabalhar com os desvios sem que a soma dê zero. Dessa forma, define-se o desvio médio. • Dados não agrupados (brutos): Neste caso, calculamos o desvio médio como: n |di | |Xi − X| =∑ . n i=1 n i=1 n DM = ∑ Nota Veja que os desvios foram considerados em módulo, evitando-se assim que a soma fosse nula. • Dados agrupados: 17 / 135 Probabilidade e Estatística n |Xi − X| · Fi |di | · Fi =∑ . n n i=1 i=1 n DM = ∑ Nota Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes. Importante • O desvio médio é mais vantajoso que a amplitude, visto que leva em consideração todos os valores da distribuição. • No entanto, não é tão frequentemente empregado, pois não apresenta propriedades matemáticas interessantes. 1.6.3 Variância A variância é a medida de dispersão mais utilizada. É o quociente entre a soma dos quadrados dos desvios e o número de elementos. Assim, temos a seguinte definição de variância populacional: • Dados não agrupados - (brutos): Neste caso, a variância é dada pela fórmula: N di2 (Xi − X)2 =∑ . N N i=1 i=1 N σ2 = ∑ • Dados agrupados: Aqui, podemos utilizar a frequência para simplificar a fórmula: N N di2 · Fi (Xi − X)2 · Fi σ =∑ =∑ . N i=1 N i=1 2 Nota σ 2 indica a variância populacional e lê-se sigma ao quadrado ou sigma dois. Neste caso, X e N da formúla representam a média populacional e o tamanho populacional, respectivamente. Temos ainda a seguinte definição de variância amostral: • Dados não agrupados - (brutos): Neste caso, a fórmula é dada por n n di2 (Xi − X)2 =∑ i=1 n − 1 i=1 n − 1 S2 = ∑ 18 / 135 Probabilidade e Estatística • Dados agrupados: Podemos, novamente, utilizar as frequências para simplificar a fórmula: n n di2 · Fi (Xi − X)2 · Fi =∑ . n−1 i=1 n − 1 i=1 S2 = ∑ Nota Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes. Importante Fórmulas práticas para os cálculos das variâncias são dadas a seguir: 2i (∑N 1h N 2 i=1 Xi · Fi ) σ = ∑ Xi · Fi − N i=1 N 2 ou (∑ni=1 Xi · Fi )2 i 1 h n 2 S = ∑ Xi · Fi − n − 1 i=1 n 2 que foram obtidas por transformações nas respecitivas fórmulas originais. 1.6.4 Desvio Padrão Temos também outra medida de dispersão, que é a raiz quadrada da variância, chamada de desvio padrão. Assim, √ σ = σ 2 é o desvio desvio padrão populacional e S= √ S2 é o desvio desvio padrão amostral. Nota Para o cálculo do desvio padrão deve-se primeiramente determinar o valor da variância e, em seguida, extrair a raiz quadrada desse resultado. Exemplo 1.13 Exemplo de cálculo das medidas de dispersão Calcular a amplitude, o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 19 / 135 Probabilidade e Estatística • Cálculo da amplitude: A = Xmax − Xmin = 11 − 5 = 6. • Cálculo do desvio médio: Primeiramente é preciso do valor da média. Assim, Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 Xi · Fi 10 21 40 36 22 129 n Xi · Fi 129 = = 8, 06. 16 i=1 n X=∑ Para o cálculo do DM são abertas novas colunas: Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 Xi · Fi 10 21 40 36 22 129 Portanto, |Xi − X| = |di | |5 − 8, 06| = 3, 06 |7 − 8, 06| = 1, 06 |8 − 8, 06| = 0, 06 |9 − 8, 06| = 0, 94 |11 − 8, 06| = 2, 94 - |di | · Fi 6,12 3,18 0,30 3,76 5,88 19,24 n |di | 19, 24 = = 1, 20. 16 i=1 n DM = ∑ • Cálculo do variância amostral: Observe que o cálculo será facilitado, pois sabe-se que: n = 16; ∑ Xi · Fi = 129. Resta encontrar ∑ Xi2 · Fi . Para tanto, uma nova coluna é considerada na tabela. Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 Xi · Fi 10 21 40 36 22 129 Portanto, Xi2 · Fi 50 147 320 324 242 1083 (∑ni=1 Xi · Fi )2 i 1 h n 2 = ∑ Xi · Fi − n − 1 i=1 n h i 2 1 (129) 1h 16641 i = 1083 − = 1083 − 16 h− 1 16i 15 16 1 17328 − 16641 687 = = 2, 86. = 15 16 15 · 16 Logo, a variância amostral S2 = 2, 86. S2 20 / 135 Probabilidade e Estatística • Cálculo do desvio padrão amostral: √ √ Como S = S2 , logo S = 2, 86 = 1, 69. Dessa forma, podemos observar que a distribuição possui média 8, 06. Isto é, seus valores estão em torno de 8, 06 e seu grau de concentração é de 1, 2, medido pelo desvio médio e de 1, 69, medido pelo desvio padrão. 1.6.5 Coeficiente de Variação Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. É dado por CV = S × 100. X onde, S é o desvio padrão amostral e X é a média amostral. O coeficiente de variação é expresso em porcentagens. Exemplo 1.14 Exemplo de cálculo do coeficiente de variação Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Então: • Para os homens: CV = 1.500 × 100 = 37, 5%. 4.000 • Para as mulheres: 1.200 × 100 = 40%. 3.000 Logo, podemos concluir que os salários da mulheres apresenta maior dispersão relativa do que o dos homens. CV = Diz-se que a distribuição possui pequena variabilidade, ou dispersão, quando o coeficiente der até 10%; média dispersão quando estiver acima de 10% até 20%; e grande dispersão quando superar 20%. Alguns analistas consideram: • Baixa dispersão: CV ≤ 15%; • Média dispersão: 15% < CV < 30%; 1.7 Atividades 1. Em um estado, foram pedidos para 35 empresas os números de empregados demitidos no ano de 2013. Os resultados informados pelas empresas estão dados abaixo: 35-30-30-45-41-48-64-41-47-56-43-36-45-40-33-49-37-34-56 40-41-37-45-48-34-52-25-53-41-38-41-37-45-35-41. a) Construa uma tabela de distribuição de frequência para estes dados. 21 / 135 Probabilidade e Estatística b) Construa um histograma para estes dados. 2. Construa uma tabela de distribuição de frequência e histograma para o seguinte conjunto de dados: 26-9-7-5-9-6-3-4-19-25-5-20-21-9-30-8-18-3-22-14-25-1-18-14-24. 3. Calule a média aritmética dos dados da questão 1. 4. Calcule a média aritmética dos dados da questão 2. 5. Calcule a moda dos dados da questão 1. 6. Calcule a moda dos dados da questão 2. 7. Calcule a mediana dos dados da questão 1. 8. Calcule a mediana dos dados da questão 2. 9. Calcule o desvio médio dos dados da questão 1. 10. Calcule o desvio médio dos dados da questão 2. 11. Calcule a variância amostral e populacional dos dados da questão 1. 12. Calcule a variância amostral e populacional dos dados da questão 2. 13. Calcule o coeficiente de variação dos dados da questão 1. 14. Calcule o coeficiente de variação dos dados da questão 2. R ESPOSTAS 3. 41,8 4. 13,8 5. 41 6. 9 7. 41 8. 14 9. 6,33 10. 5,52 11. Variância amostral = 67,75. Variância populacional = 65,81. 12. Variância amostral = 76,83. Variância populacional = 73,76. 13. 19,69%. 14. 63,52%. Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 22 / 135 Probabilidade e Estatística Capítulo 2 Teoria dos Conjuntos e Contagem O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Entender o que é um conjunto, um elemento de um conjunto • Entender as relações entre conjuntos • Conhecer os principais métodos de contagem • Saber a diferença entre combinação e arranjo e como aplicar essas definições em problemas práticos • Conhecer o binômio de Newton O objetivo deste capítulo é apresentar os pré-requisitos necessários para estudar probabilidade. 2.1 Teoria dos Conjuntos Conjunto é uma coleção de objetos. A natureza desses objetos é arbitrária, ou seja, podemos ter conjunto de qualquer coisa. Por exemplo, podemos ter conjuntos de pessoas; conjuntos de números; conjuntos de letras; podemos ter até conjuntos de conjuntos! Nós representaremos conjuntos por letras maiúsculas A, B,C, . . .. Chamamos os objetos que formam o conjunto de elementos. Assim, para descrever um conjunto, basta listar seus elementos. Existem três maneiras de descrever os elementos de um conjunto A: • Listando os elementos. Por exemplo, A = {1, 2, 3, 4, . . .}; • Descrevendo os elementos. Por exemplo, A é o conjunto de todos os números inteiros; • Colocando condições. A = {x; x é número real e 0 ≤ x ≤ 1}. Nota É importante observar a notação. Sempre escreveremos os elementos que formam um conjunto entre chaves. O ponto-e-vírgula, quando estiver entre chaves deve ser lido como “tal que”. Por exemplo, no conjunto A = {x; x é número real e 0 ≤ x ≤ 1}, lemos, A é o conjunto dos números reais tais que 0 ≤ x ≤ 1. 23 / 135 Probabilidade e Estatística Quando o objeto x é elemento do conjunto A, dizemos que x pertence a A, e escrevemos x ∈ A. Analogamente, se x não é elemento do conjunto A, dizemos que x não pertence a A, e escrevemos x∈ / A. Existe um conjunto que não possui nenhum elemento. Esse conjunto especial é chamado de conjunto vazio e é denotado por 0. / Importante É muito importante notar que o conjunto vazio 0/ não possui nenhum elemento, portanto não há chaves na sua notação. O conjunto {0} / NÃO é o conjunto vazio, e sim um conjunto com um elemento, e esse elemento é o conjunto vazio. 2.1.1 Comparação entre conjuntos Sejam A e B dois conjuntos. Dizemos que A é subconjunto de B, e escrevemos, A ⊂ B se todo elemento de A é elemento de B. Ou seja, se sempre que x ∈ A, temos que x ∈ B. Se existe x ∈ A tal que x ∈ / B, dizemos que A não é subconjunto de B, e escrevemos A 6⊂ B. Exemplo 2.1 Exemplo de comparação entre conjuntos Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}. Então, temos que B ⊂ A, mas C 6⊂ A, A 6⊂ C, A 6⊂ B, C 6⊂ B e B 6⊂ C. Exercício Mostre que para todo conjunto A, o conjunto vazio é subconjunto de A, ou seja, que 0/ ⊂ A. Solução Suponha que 0/ 6⊂ A, então por definição, isso significa que existe x ∈ 0/ tal que x 6∈ A. Como 0/ não possui nenhum elemento, é impossível encontrar o tal elemento x. Portanto, a afirmação 0/ 6⊂ A é falsa. Isso mostra que 0/ ⊂ A. Definição: Igualdade de conjuntos Dizemos que os conjuntos A e B são iguais, e escrevemos A = B, se todo elemento de A é elemento de B e todo elemento de B é elemento de A. Equivalentemente, temos que A = B se, e somente se, A ⊂ B e B ⊂ A. 2.1.2 União de conjuntos Suponha que temos dois conjuntos A e B. Podemos definir um terceiro conjunto, chamado de conjunto união de A e B, formado pelos elementos de A e pelos elementos de B. Matematicamente, escrevemos A ∪ B = {x; x ∈ A ou x ∈ B}. 24 / 135 Probabilidade e Estatística Exemplo 2.2 Exemplo de união de conjuntos Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}. Então, A ∪ B = {1, 2, 3, 4, 5}, Nota Se A ⊂ B, então todo elemento de A já é elemento de B, e portanto A ∪ B = B. De maneira geral, dados conjuntos A1 , A2 , A3 , . . ., definimos o conjunto formado pela união dos conjuntos A1 , A2 , . . ., como o conjunto que contém todos os elementos de A1 , de A2 , etc.. Matematicamente, temos: ∞ [ Ai = {x; existe i tal que x ∈ Ai }. i=1 Exercício Forneça a definição da união de n conjuntos A1 , A2 , . . . , An . Solução Definimos a união de n conjuntos A1 , . . . , An , como o conjunto formado pelos elementos de A1 , . . . , An , ou seja, é o conjunto n [ Ai = {x; x ∈ A1 ou x ∈ A2 , . . . , ou x ∈ An }. i=1 2.1.3 Interseção de conjuntos Suponha que temos dois conjuntos A e B. Considere agora o conjunto formado pelos objetos que são elementos de A e também são elementos de B. Este conjunto é chamado de conjunto interseção de A e B. Escrevemos este conjunto, matematicamente, como A ∩ B = {x; x ∈ A e x ∈ B}. Exemplo 2.3 Exemplo de interseção de conjuntos Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}. Então, A ∩ B = {2, 4}, A ∩C = {3, 5} e B ∩C = 0. / Nota Se A ⊂ B, então todo elemento de A é elemento de B, assim os elementos que estão em A e B, são os elementos de A. Ou seja, A ∩ B = A. 25 / 135 Probabilidade e Estatística De maneira geral, dados conjuntos A1 , A2 , A3 , . . ., definimos a interseção entre os conjuntos A1 , A2 , A3 , . . . como o conjunto formado pelos elementos que estão simultaneamente em todos os conjuntos. Escrevemos esse conjunto matematicamente como ∞ \ Ai = {x; x ∈ A1 , x ∈ A2 , . . .}. i=1 Exercício Forneça a definição da interseção de n conjuntos A1 , A2 , . . . , An . Solução Definimos a interseção de n conjuntos A1 , . . . , An , como o conjunto formado pelos elementos que estão simultaneamente A1 , . . . , An , ou seja, é o conjunto n \ Ai = {x; x ∈ A1 e x ∈ A2 , . . . , e x ∈ An }. i=1 2.1.4 Diferença entre conjuntos Suponha que temos dois conjuntos A e B. Considere agora o conjunto formado por objetos que são elementos de B, mas não são elementos de A. Esse conjunto é chamado de B menos A, e é denotado por B \ A. Matematicamente, temos B \ A = {x; x ∈ B e x ∈ / A}. Exemplo 2.4 Exemplo de diferença de conjuntos Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}. Então, A \ B = {1, 3, 5}, A \C = {1, 2, 4}, B \C = {2, 4}, B \ A = 0, / C \ A = {7} e C \ B = {3, 5, 7}. 2.1.5 Complementar de um conjunto Um caso particular e importante de diferenças de conjunto é o complementar. Esta definição é particularmente útil no curso de probabilidade. Suponha que temos um conjunto de referência, digamos M. Dado qualquer conjunto A ⊂ M, definimos o complementar de A (em M), como o conjunto Ac = M \ A. Atenção Quando está claro no contexto quem é o conjunto de referência, o conjunto Ac é referido apenas como complementar de A. O complementar de A é descrito como o conjunto dos elementos que não pertencem a A. Fica claro que é o conjunto dos elementos que não pertencem a A, mas pertencem ao conjunto de referência M. 26 / 135 Probabilidade e Estatística 2.1.6 Propriedades entre as relações entre conjuntos Valem as seguintes identidades entre união, interseção e complementação entre conjuntos:\\ • A ∪ (B ∩C) = (A ∪ B) ∩ (A ∪C); • A ∩ (B ∪C) = (A ∩ B) ∪ (A ∩C); • A ∩ 0/ = 0; / • A ∪ 0/ = A; • (A ∩ B)c = Ac ∪ Bc ; • (A ∪ B)c = Ac ∩ Bc ; • (Ac )c = A. 2.2 Contagem Vamos agora introduzir técnicas de contagem. 2.2.1 Regra da multiplicação A primeira técnica é conhecida como regra da multiplicação. Para ilustrar a técnica, considere o seguinte exemplo: Exemplo 2.5 Exemplo para ilustrar a regra da multiplicação Fernando possui 10 pares de meias e 3 pares de sapatos. Sabendo que Fernando pode utilizar qualquer par de meia com qualquer sapato, de quantas formas diferentes, ele pode combinar pares de meias com sapatos? Vamos começar colocando rótulos nos sapatos: sapato 1, sapato 2 e sapato 3. O sapato 1 pode ser usado com 10 pares de meias; o sapato 2 também pode ser usado com 10 pares de meias; e o sapato 3 também pode ser usado com 10 pares de meias. Portanto, como Fernando pode utilizar o sapato 1, o sapato 2 e o sapato 3, ele poderá fazer 10+10+10 = 30 combinações diferentes entre pares de meias e sapatos. Resumindo, cada sapato pode ser associado a 10 pares de meias, e como temos 3 sapatos, o total de combinações é 30 = 3 · 10. Por isso o nome regra da multiplicação. Pois multiplicamos o número de sapatos pelo número de pares de meias. A regra geral é dada por: Regra da multiplicação Suponha que temos 2 tipos de objetos: tipo 1 e tipo 2. Suponha que cada objeto do tipo 1 pode ser combinado com todos os objetos do tipo 2. Assim, se temos n objetos de tipo 1 e m objetos de tipo 2, teremos n · m combinações possíveis entre objetos de tipo 1 e objetos de tipo 2. 27 / 135 Probabilidade e Estatística 2.2.2 Regra da adição Vamos agora ilustrar outra técnica de contagem, que é conhecida como a regra da adição. Para motivar, considere o seguinte exemplo: Exemplo 2.6 Exemplo para ilustrar a regra da adição Paulo tem 15 blusas de manga comprida e 10 blusas de manga curta e apenas uma calça. Sabendo que Paulo não usa duas blusas ao mesmo tempo, de quantas formas ele pode se vestir? Como Paulo só possui uma calça, o que determina a quantidade de formas de se vestir é a quantidade de blusas. Como Paulo possui 25 = 10+15 blusas, segue que Paulo pode se vestir de 25 formas diferentes. Assim, como Paulo não pode usar uma blusa de manga comprida e outra de manga curta ao mesmo tempo, segue que temos que escolher uma única blusa entre o total de blusas que é dada pela soma entre a quantidades de blusas de manga comprida e blusas de manga curta. A regra geral é dada por: Regra da adição Suponha que temos objetos de dois tipos, digamos tipo 1 e tipo 2. Suponha que temos n objetos do tipo 1 e m objetos do tipo 2. Temos então n + m formas de escolher um objeto (de qualquer tipo) entre os objetos disponíveis. Outra forma de escrever essa regra é a seguinte: suponha que temos n formas de executar uma tarefa usando o procedimento 1, e m formas de executar essa mesma tarefa usando o procedimento 2. Sabendo que não podemos usar os dois procedimentos conjuntamente, esta tarefa pode ser realizada de n + m formas diferentes. 2.2.3 Permutação Suponha que temos k objetos organizados em uma determinada ordem. Se mudarmos a ordem em que estes objetos estão colocados, dizemos que fizemos uma permutação entre esses objetos. Uma pergunta importante é saber qual o número de permutações possíveis entre estes k objetos. Para ilustrarmos a ideia considere o seguinte exemplo: Exemplo 2.7 Exemplo de permutações Quantas filas diferentes podemos formar com Pedro, Paulo, Carlos e João? Também poderíamos escrever a pergunta como: Qual o número de permutações possíveis entre quatro pessoas? Vamos enumerar as posições: primeira, segunda, terceira e quarta. Para a primeira posição temos 4 escolhas possíveis. Agora, supondo que já escolhemos a primeira posição, qualquer que seja a primeira pessoa escolhida, temos possibilidades para a segunda posição. Analogamente, temos 2 possibilidades para a terceira posição e apenas uma para a quarta. Pela regra da multiplicação, temos 4 · 3 · 2 · 1 = 24 possibilidades. 28 / 135 Probabilidade e Estatística Notação O número n! é chamado de fatorial de n e é dado por n! = n · (n − 1) · (n − 2) · · · 3 · 2 · 1. Por exemplo, 6! = 6 · 5 · 4 · 3 · 2 · 1. No exemplo anterior, o número de possibilidades é 4! = 24. Finalmente, temos a regra da permutação: Permutações Suponha que temos n objetos, então o número de permutações desses n objetos é n!. 2.2.4 Arranjos Suponha que temos n objetos, de quantas formas podemos escolher k objetos entre esses n objetos, sabendo que a ordem em que esses objetos são escolhidos importa? O número de formas é chamado de número de arranjos. Considere o seguinte exemplo: Exemplo 2.8 Exemplo de arranjos Suponha que uma corrida de rua tem 1000 atletas inscritos. Quantos pódios podemos formar com esses 1000 atletas? Um pódio consiste de três pessoas, ordenadas pelo campeão, vice-campeão e terceiro lugar. Assim, temos 1000 formas de escolher o campeão, 999 formas de escolher o vice-campeão e 998 formas de escolher o terceiro lugar. Portanto, temos 1000 · 999 · 998 pódios possíveis. Note que 1000 · 999 · 998 = 1000! 997! . Assim, a regra dos arranjos é: Arranjo Suponha que temos n objetos disponíveis. Então, o número de formas de escolher k objetos, onde a ordem em que os objetos foram escolhidos importa, é dada por An,k = n! . (n − k)! No exemplo anterior, podemos pensar nas pessoas como 1000 objetos, e queríamos escolher 3 objetos, onde a ordem importa (a ordem determina o campeão, vice-campeão e terceiro lugar), e portanto o número de formas é A1000,3 = 1000! 997! . 2.2.5 Combinações Suponha que estamos no mesmo cenário dos arranjos, ou seja, temos n objetos e queremos escolher k objetos. Entretanto, suponha que a ordem não importa mais. Assim, só estamos interessados no número de formas de escolher os k objetos, mas a ordem em particular pela qual os objetos foram escolhidos não importa. O número de tais formas é dado pelo número de combinações possíveis. Considere o seguinte exemplo: 29 / 135 Probabilidade e Estatística Exemplo 2.9 Exemplo de combinações Suponha que uma empresa possui 1000 funcionários, e que o presidente da empresa gostaria de saber o número de equipes de 3 pessoas que podem ser formadas com esses 1000 funcionários. Qual o número que o presidente procura? Note que este exemplo é muito parecido com o dos arranjos, inclusive temos 1000 “objetos” e queremos escolher 3. Entretanto o fato da ordem não importar muda tudo. Como em uma equipe a ordem das pessoas não importa, devemos levar essa informação em consideração. Vamos então fingir que a ordem importa, então a quantidade de formas seria A1000,3 = 1000! 997! . Observe agora que para cada equipe de formada por 3 pessoas, temos 3! pódios possíveis a se formar. Desta forma, se C é o número de equipes de 3 pessoas que podemos formar com 1000 funcionários, então 3! · C é o número de pódios que podemos formar com 1000 pessoas, pois cada equipe fornece 3! pódios (aqui utilizamos a regra da multiplicação). Como sabemos que o número de pódios possíveis é A1000,3 = 1000! 997! , segue que C = A1000,3 3! = 1000! 3!997! . Assim, temos a regra geral das combinações: Combinação Suponha que temos n objetos e queremos escolher k objetos, onde a ordem em que os objetos n! formas de escolher esses k objetos. foram escolhidos não importa. Então temos Cn,k = k!(n−k)! Cn,k é chamado o número de combinações de n, k-a-k. Nota n! Este número de combinações possui uma notação especial, a saber, nk = k!(n−k)! , e são chamados de coeficientes binomiais. Cuidado Observe que em geral o número de arranjos é bem maior que o número de combinações. De fato, temos que An,k = k!Cn,k . Portanto, é importante não confundir arranjos com combinações porque os resultados podem ser muito diferentes. 2.2.6 Binômio de Newton Sejam a, b números reais, e seja n um número natural. Então, temos que (a + b)n = (a + b)(a + b) · · · (a + b) . | {z } n termos 30 / 135 Probabilidade e Estatística É fácil saber, pela distributividade, que o resultado da multiplicação será uma soma da forma: (a + b)n = (a + b) · · · (a + b) = C0 an +C1 an−1 b + · · ·Cn bn . Assim, queremos determinar quais são os valores de Ci , para i = 0, . . . , n. Observe que Ci é o número de termos da forma an−i bi que aparecem após a expansão do termo (a + b)n . Este número é dado pelo número de formas em que podemos escolher (n − i) parcelas da multiplicação iguais a a (automaticamente as i parcelas restantes serão de termos iguais a b). Como a ordem das parcelas não importa, o número de formas é justamente o número de combinações de n, (n − i)-a-(n − i), e é dado n n! por Ci = Cn,(n−i) = (n−i)!i! = Cn,i = i . Portanto, temos a fórmula do binômio de Newton: n n n n n−i i n n n n−i i n (a + b) = a +···+ a b +···+ b =∑ a b. 0 i n i=0 i 2.3 Atividades 1. Verdadeiro ou Falso? a. {a, a, b, c} = {a, b, c}; b. {a, {a}} = {a}; c. {a} ∈ {a, {a}}; d. {a} ⊂ {a, {a}}; e. {{a}} ⊂ {a, {a}}; f. {a, b} ⊂ {a, {a, b}}; g. {a, b} ∈ {a, {a, b}}; h. b ∈ {a, {a, b}}; i. 0/ ∈ {0}; / j. 0/ = {0}; / k. 0/ ⊂ {0}; / l. {0} / ⊂ {{0}}; / m. {0} / ∈ {{0}}; / n. {0} / = {{0}}. / 2. Sejam A = {1, 2, 3, 4, {5}, {6, 7}}, B = {4, {5}, 6, 7} e C = {5, 6, 7}. Determine os seguintes conjuntos: a. A \ 0; / b. A \ A; 31 / 135 Probabilidade e Estatística c. A \C; d. C \ A; e. A \ B; f. B \ A; g. B \C. 3. Seja M = {1, 2, 3, 4, {1}, {2}, {3}, {4}}. Sejam A = {1, {2}, 3, {4}} e B = {{1}, 2, {3}, 4}. a. Mostre que A e B são subconjuntos de M, e conclua que podemos falar sobre o complementar de A e sobre o complementar de B (ambos com relação a M); b. Determine os conjuntos: Ac , Bc , A ∪ Bc , Ac ∪ B, Ac ∪ Bc , A ∪ B, A ∪ Ac e B ∪ Bc . c. Determine os conjuntos: A ∩ B, Ac ∩ B, Ac ∩ Bc , A ∩ Bc , A ∩ Ac e B ∩ Bc . 4. Quantas palavras contendo 3 letras diferentes podem ser formadas com um alfabeto de 26 letras? 5. Para fazer uma viagem João Pessoa-Salvador-João Pessoa, posso ir de carro, ônibus ou avião. De quantos modos posso escolher os transportes se não desejo usar na volta o mesmo meio de transporte da ída? 6. Quantos são os gabaritos possíveis de um teste de 10 questões de múltipla escolha, com cinco alternativas por questão? 7. De quantos modos 3 pessoas podem sentar-se em 5 cadeiras em fila? 8. O departamento de computação científica de uma universidade possui 20 professores. De quantos modos podem ser escolhidos um chefe de departamento, um coordenador da gradução e um coordenador de pós-graduação? 9. Quantos são os anagramas da palavra CAPÍTULO? 10. Quantos são os anagramas da palavra CAPÍTULO que têm a letra C no primeiro lugar E a letra A no segundo lugar E a letra P no terceiro lugar? 11. João tem 10 frutas diferentes e deseja fazer vários tipos de saladas de frutas, onde cada salada contém exatamente 4 frutas. Quantos tipos de saladas de frutas ele pode fazer? 12. Em uma prova, o estudante deve escolher exatamente 7 questões entre 10 disponíveis. Quantas escolhas ele tem? 13. De quantos modos podemos escolher 6 pessoas, incluindo pelo menos duas mulheres, em um grupo de 7 homens e 4 mulheres? R ESPOSTAS 1. a) V; b) F; c) V; d) V; e) V; f) F; g) V; h) F; i) V; j) F; k) V; l) F; m) V; n) F. 2. a) {1, 2, 3, 4, {5}, {6, 7}}; b) 0; / {1, 2, 3, {6, 7}}; f) {6, 7}; g) {{5}}. c) {1, 2, 3, 4, {5}, {6, 7}}; 3. Seja M = {1, 2, 3, 4, {1}, {2}, {3}, {4}}. {{1}, 2, {3}, 4}. 32 / 135 d) {5, 6, 7}; e) Sejam A = {1, {2}, 3, {4}} e B = Probabilidade e Estatística a. Justifique!; b. Ac = B, Bc = A, A ∪ Bc = A, Ac ∪ B = B, Ac ∪ Bc = M, A ∪ B = M, A ∪ Ac = M, B ∪ Bc = M. c. A ∩ B = 0, / Ac ∩ Bc = 0, / A ∩ Ac = 0/ e B ∩ Bc = 0. / 4. 26 · 25 · 24 = 15600. 5. 6. 6. 51 0 = 9765625. 7. 60. 8. 6840. 9. 8! = 40320. 10. 5! = 120. 11. 210. 12. 120. 13. 371. Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 33 / 135 Probabilidade e Estatística Capítulo 3 Definições Básicas O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • As principais definições da probabilidade • Reconhecer um modelo com resultados equiprováveis e modelos com resultados que não são equiprováveis • Entender e saber aplicar o conceito de probabilidade condicional • Saber enunciar e aplicar o teorema da probabilidade total e o teorema de Bayes • Saber a definição e intuição de eventos independentes Modelos Matemáticos • Modelo Determinístico: Um modelo no qual as condições impostas ao modelo determinam o resultado do experimento. • Modelo Probabilístico: Modelos nos quais, mesmo mantendo as mesmas condições, o resultado do experimento pode variar. Isso se deve a um fator aleatório o qual não podemos controlar. Experimento aleatório Consiste em um experimento em que, mesmo mantendo as mesmas condições, o resultado do experimento pode variar. Exemplo 3.1 Exemplos de experimentos aleatórios 1. Lançar um dado e observar o resultado. 2. Jogar três moedas e contar o número de vezes que o resultado foi cara. 3. Medir o número de nascimentos na cidade de João Pessoa na última hora. 34 / 135 Probabilidade e Estatística 3.1 Fundamentos de Probabilidade Definição: Espaço amostral Espaço amostral é o conjunto de todos os resultados possíveis de um experimento. Denotamos o conjunto de todos os resultados por Ω. Exemplo 3.2 Espaços amostrais associados aos exemplos anteriores 1. Ω = {1, 2, 3, 4, 5, 6}; 2. Ω = {0, 1, 2, 3}; 3. Ω = {0, 1, 2, 3, . . .}, Ω = {0, 1, 2, ..., 7000000000}, . . .. Nota Observe que no último exemplo tivemos mais de uma opção de espaço amostral. Isto não contradiz a definição de espaço amostral. De fato, podemos ter mais de uma opção de espaços amostrais, o importante é que cada uma dessas opções contenha todos os resultados possíveis. Definição: Evento Seja Ω o espaço amostral de um experimento. Todo conjunto A ⊂ Ω tal que podemos calcular a probabilidade de A é chamado de evento. Destacamos dois eventos importantes: 1. Ω é chamado de evento certo; 2. 0/ é chamado de evento impossível. Nota O conjunto de todos os eventos possui uma estrutura chamada de σ -álgebra. Apesar da definição de σ -álgebra ser muito simples, não há necessidade de estudarmos σ -álgebras, pois todos os conjuntos que utilizaremos ao longo do livro serão eventos. Além disso, as aplicações onde é realmente necessário o uso de σ -álgebras fogem do escopo deste livro. Como cada evento é um conjunto, vale a pena descrever os eventos obtidos após realizarmos as operações clássicas de conjuntos entre eventos. 35 / 135 Probabilidade e Estatística Exemplo 3.3 Eventos • A ∪ B: é o evento “A ou B”; • A ∩ B: é o evento “A e B”; • Ac : é o evento “não ocorrência de A”; • A ⊂ B: significa que se o evento A ocorre, então o evento B ocorre. • A ∩ B = 0: / significa que A e B são eventos mutuamente excludentes, ou seja, a ocorrência de A implica que B não ocorre, e a ocorrência de B implica que A não ocorre. Definição: Partição Dado um espaço amostral Ω, uma partição P = {Aα , α ∈ I} de Ω é uma coleção de eventos, Aα , indexados por α, tais que: • Para todo α 6= β , Aα ∩ Aβ = 0; / • S α∈I Aα = Ω. Portanto, temos que os eventos de uma partição são dois-a-dois mutuamente excludentes e sua união é todo o espaço amostral. Exemplo 3.4 Exemplo de partição Se Ω = {1, 2, 3, 4}, então {A1 , A2 }, onde A1 = {1, 2, 3} e A2 = {4}, é uma partição de Ω. 3.2 Noções de Probabilidade Definição: Medida de Probabilidade Seja E um experimento. Seja Ω um espaço amostral, e seja E um evento de Ω. Dizemos que P é uma medida probabilidade em Ω se para todo evento A, temos que P(A) é um número não-negativo, chamado de probabilidade de A, tal que • 0 ≤ P(A) ≤ 1; • P(Ω) = 1; • (Aditividade finita) Se A e B forem eventos mutuamente excludentes, temos que P(A ∪ B) = P(A) + P(B); • (Aditividade contável) Se Ai , i = 1, 2, 3, . . . forem eventos dois-a-dois mutuamente excludentes, então, ∞ [ ∞ P Ai = ∑ P(Ai ). i=1 i=1 Provaremos agora algumas consequências desta definição. Teorema Seja 0/ o conjunto vazio, então P(0) / = 0. 36 / 135 Probabilidade e Estatística Demonstração Para qualquer evento A, podemos escrever A = A ∪ 0. / Como A e 0/ são mutuamente excludentes, decorre da aditividade finita que P(A) = P(A ∪ 0) / = P(A) + P(0). / Desta forma, P(0) / = 0. Teorema Seja Ac o evento complementar de A. Então P(Ac ) = 1 − P(A). Demonstração Podemos escrever Ω = A ∪ Ac . Além disso, A e Ac são mutuamente excludentes. Portanto, pela aditividade finita, temos que 1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ). Desta forma, segue que P(Ac ) = 1 − P(A). Teorema Sejam A e B dois eventos quaisquer. Então P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Demonstração Temos que A ∪ B = A ∪ (B ∩ Ac ) (faça um desenho) e B = (A ∩ B) ∪ (B ∩ Ac ). Desta forma, temos que como A e B ∩ Ac são mutuamente excludentes, vale P(A ∪ B) = P(A) + P(B ∩ Ac ). Por outro lado, temos que A ∩ B e B ∩ Ac também são mutuamente excludentes. Portanto, segue que P(B) = P(A ∩ B) + P(B ∩ Ac ) ⇒ P(B ∩ Ac ) = P(B) − P(A ∩ B). Juntando as duas equações, obtemos que P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Mais geralmente temos o Teorema (Princípio da inclusão e exclusão) Sejam A1 , A2 , . . . , An n eventos quaisquer. Então, n P(A1 ∪ A2 ∪ · · · ∪ An ) = ∑ P(Ai) − ∑ P(Ai ∩ A j ) i=1 + ∑ i< j P(Ai ∩ A j ∩ Ak ) + · · · + (−1)n−1 P(A1 ∩ · · · ∩ An ). i< j<k Teorema Sejam A e B dois eventos. Suponha que A ⊂ B, então P(A) ≤ P(B). Demonstração Temos que B = A ∪ (B ∩ Ac ), com A e B ∩ Ac sendo mutuamente excludentes. Desta forma,P(B) = P(A) + P(B ∩ Ac ). Por outro lado, P(B ∩ Ac ) ≥ 0. Portanto, temos que P(B) ≥ P(A). Exercício Mostre que a coleção de intervalos {(n, n + 1] : n ∈ R} é uma partição do conjunto dos números reais R. Solução Denote por [x] a parte inteira do número real x. Temos que para todo x real, vale x ∈ ([x] − 1, [x]] ∪ ([x], [x] + 1]. 37 / 135 Probabilidade e Estatística Portanto, vale x ∈ [ (n, n + 1], ou seja, R ⊂ n∈Z [ (n, n + 1]. n∈Z [ Por outro lado, ∀n ∈ Z, (n, n + 1] ⊂ R. Daí (n, n + 1] ⊂ R. Portanto, concluímos que n∈Z [ R= (n, n + 1]. n∈Z 3.3 Espaços Amostrais Finitos Seja Ω um espaço amostral associado a um experimento aleatório E com um número finito de resultados possíveis. Então Ω pode ser escrito da seguinte forma: Ω = {ω1 , . . . , ωn }, para algum número natural n. A cada evento simples {ωi }, i = 1, . . . , n, associamos um número pi , i = 1, . . . , n de tal forma que duas condições sejam satisfeitas: 1. pi ≥ 0 para todo i = 1, . . . , n; 2. p1 + · · · + pn = 1. Assim, definimos a probabilidade da ocorrência do resultado ωi , i = 1, . . . , n como sendo P({ωi }) = pi . Suponha que tenhamos um evento A consistindo de k resultados possíveis, ou seja, A = {ω j1 , . . . , ω jk }, onde j1 , . . . , jk assumem valores entre 1 e n. Pela propriedade da aditividade contável, a probabilidade do evento A é dada por P(A) = P({ω j1 }) + · · · + P({ω jk }) = p j1 + · · · + p jk . Exercício Suponha que somente três resultados sejam possíveis em um experimento, a saber, a1 , a2 e a3 . Além disso, suponha que a1 seja duas vezes mais provável de ocorrer do que a2 , o qual, por sua vez, é duas vezes mais provável de ocorrer do que a3 . Determine as probabilidades de ocorrência de a1 , a2 e a3 . Solução Sejam p1 , p2 e p3 as probabilidades de ocorrências de a1 , a2 e a3 , respectivamente. Então, temos do enunciado que p1 = 2p2 e que p2 = 2p3 . Como sabemos que p1 + p2 + p + 3 = 1, temos que 4p3 + 2p3 + p3 = 1, ou seja, p3 = 1/7. Isto fornece p1 = 4/7, p2 = 2/7 e p3 = 1/7. 3.4 Resultados Equiprováveis Suponha que temos um experimento com n resultados possíveis e que todos esses resultados sejam equiprováveis, isto é, todos os resultados possuem a mesma probabilidade de ocorrência. Neste caso, dizemos que o experimento possui resultados equiprováveis. Digamos que os resultados possíveis do experimento são a1 , . . . , an . 38 / 135 Probabilidade e Estatística Sejam p1 , p2 , . . . , pn as probabilidades de ocorrências dos eventos a1 , a2 , . . . , an , respectivamente. Então, como todos os resultados possuem a mesma probabilidade de ocorrência, temos que p1 = p2 = · · · = pn = p. Além disso, sabemos que p1 + · · · + pn = 1, ou seja, np = 1, o que por sua vez implica que p = 1/n. Utilizando a propriedade de aditividade contável da probabilidade podemos concluir o seguinte resultado: Seja A um evento que contém k resultados possíveis, então P(A) = k/n. Este método de avaliar a probabilidade do evento A normalmente é enunciado da seguinte maneira: P(A) = número de resultados favoráveis a A . número de resultados possíveis Exercício Um dado é lançado e todos os resultados são igualmente prováveis. O evento A ocorrerá se, e somente se, um número maior do que 4 aparecer, isto é, A = {5, 6}. Calcule P(A). Solução Como temos 6 resultados possíveis e 2 resultados favoráveis, temos que P(A) = 2/6 = 1/3. 3.5 Probabilidade Condicional Suponha que temos a seguinte situação: Um lote é formado por 100 monitores de computador. Foi verificado que neste lote, temos 80 monitores em perfeito estado e 20 monitores defeituosos. Suponha que dois monitores são retirados do lote ao acaso. Considere então os eventos: A = O primeiro monitor é defeituoso e B = O segundo monitor é defeituoso. Suponha que a retirada dos monitores seja com reposição. Isto é, o primeiro monitor é retirado, verifica-se se é defeituoso ou não, e é colocado de volta ao lote. Neste cenário, temos 20 casos favoráveis ao evento A, entre 100 casos possíveis, e 20 casos favoráveis ao evento B, também entre 100 casos possíveis. Desta forma, no cenário com reposição, temos que P(A) = P(B) = 1/5. Entretanto temos um segundo cenário possível: que a retirada dos monitores seja feita sem reposição, isto é, o primeiro monitor é retirado, verifica-se se este é defeituoso, e em seguida um segundo monitor é retirado (sem que o primeiro seja devolvido ao lote), donde após a retirada, verifica-se se o segundo monitor é defeituoso ou não. Neste cenário, ainda temos 20 casos favoráveis ao evento A e 100 casos possíveis. No entanto, para o evento B o problema não se torna fácil, pois não sabemos se no momento da retirada do segundo monitor teremos 19 casos favoráveis ou 20 casos favoráveis. Isto dependerá se o evento A ocorreu ou não. A única coisa certa é que temos 99 casos possíveis para o evento B. A fim de resolver este problema vamos introduzir um novo conceito, o de probabilidade condicional. Assim que tivermos desenvolvido a teoria o suficiente para resolver o problema acima, terminaremos a solução dele. Definição: Probabilidade condicional Sejam agora, A e B dois eventos associados a um experimento E. Suponha que P(A) > 0, então denotamos por P(B|A) a probabilidade do evento B ocorrer condicionada à ocorrência do evento A. Esta probabilidade condicional é definida como P(B|A) = P(A ∩ B) . P(A) 39 / 135 Probabilidade e Estatística Cuidado Vale a pena relembrar que na probabilidade condicional P(B|A) estamos supondo que P(A) > 0. Importante Sempre que calculamos a probabilidade condicional P(B|A), o que estamos fazendo na prática é reduzir o espaço amostral original Ω para um espaço amostral de eventos favoráveis à ocorrência do evento A. Esse espaço amostral é chamado de espaço amostral reduzido. Exercício Dois dados equilibrados (onde todos os resultados são equiprováveis) são lançados. Os resultados são registrados como o par ordenado (x1 , x2 ), onde x1 representa o resultado obtido no lançamento do primeiro dado, e x2 representa o resultado do lançamento do segundo dado. Consideremos os eventos: A = {(x1 , x2 ); x1 + x2 = 10} e B = {(x1 , x2 ); x1 > x2 }. Calcule P(A|B) e P(B|A). Solução Escrevendo os eventos A, B e A ∩ B explicitamente, temos que A = {(5, 5), (4, 6), (6, 4)}, B = {(2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (3, 2), (4, 2), (5, 2), (6, 2), (4, 3), (5, 3), (6, 3), (5, 4), (6, 4), (6, 5)} e A ∩ B = {(6, 4)}. O número de casos totais é 36, pois temos 6 casos possíveis para o primeiro lançamento e 6 casos possíveis para o segundo lançamento. Assim, como os resultados são todos equiprováveis, temos que P(A) = 3 36 = 1 15 12 , P(B) = 36 = 5 12 1 15 e P(B|A) = e P(A ∩ B) = 1 36 . Assim, segue que P(A|B) = 3.5.1 P(A∩B) P(B) = 1/36 5/12 = P(A∩B) P(A) = 1/36 1/12 = 31 . Teorema da Multiplicação A mais importante consequência da definição da probabilidade condicional é obtida ao escrevermos: P(A ∩ B) = P(A|B)P(B) ou equivalentemente, P(A ∩ B) = P(B|A)P(A). Estas igualdades são chamadas de Teorema da multiplicação ou Teorema do produto. Existe uma generalização para mais de dois eventos e ela é a seguinte: Dados eventos A1 , A2 , . . . , An , temos que P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An |A1 ∩ · · · ∩ An−1 ). 40 / 135 Probabilidade e Estatística Exercício Uma caixa contém 4 lâmpadas boas e 2 queimadas. Retira-se ao acaso 3 lâmpadas sem reposição. Calcule a probabilidade dessas 3 lâmpadas serem boas. Solução Sejam os eventos Ai = {A i-ésima lâmpada é boa}, para i = 1, 2, 3. Queremos calcular a probabilidade do evento A1 ∩ A2 ∩ A3 . Sabemos, pelo teorema da multiplicação, que P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ). Vamos então calcular cada uma dessas probabilidades separadamente. Inicialmente, temos 4 resultados favoráveis ao evento A1 , entre 6 resultados possíveis, logo P(A1 ) = 46 = 23 . Agora, vamos considerar o espaço amostral reduzido para calcular P(A2 |A1 ). Dado que A1 ocorreu, e como estamos sem reposição, para a retirada da segunda lâmpada teremos 3 lâmpadas boas, e um total de 5 lâmpadas. Logo, P(A2 |A1 ) = 35 . Analogamente, para calcular P(A3 |A1 ∩ A2 ), observe que se $A_1$ e $A_2$ ocorreram, então para a retirada da terceira lâmpada, teremos 2 lâmpadas boas e um total de 4 lâmpadas. Desta forma, P(A3 |A1 ∩ A2 ) = 2 4 = 12 . Finalmente, juntando estas probabilidades obtemos que P(A1 ∩ A2 ∩ A3 ) = 3.5.2 231 352 = 15 . Teorema da Probabilidade Total Seja Ω o espaço amostral de um experimento E, e seja B1 , B2 , . . . , Bk uma partição de Ω. Assim, dado um evento A qualquer, temos que A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ · · · ∪ (A ∩ Bk ). Observe que como os eventos A ∩ B1 , A ∩ B2 , . . . , A ∩ Bk são dois-a-dois mutuamente excludentes, podemos aplicar a aditividade contável da probabilidade, que é válida para eventos mutuamente excludentes, e escrever P(A) = P(A ∩ B1 ) + · · · + P(A ∩ Bk ). Essa forma acima é chamada a primeira forma do Teorema da probabilidade total. Vamos agora para a segunda forma. Escrevendo cada termo P(A ∩ Bi ) = P(A|Bi )P(Bi ) e, daí, obtemos a segunda forma do teorema da probabilidade total: P(A) = P(A|B1 )P(B1 ) + · · · + P(A|Bk )P(Bk ). Agora já temos teoria suficiente para resolver o problema dos monitores apresentado no início da seção: Exercício Consideremos o exemplo do lote com 20 monitores defeituosos e 80 monitores em perfeito estado, no qual extraímos duas peças sem reposição, e queremos calcular a probabilidade do evento B = {O segundo monitor é defeituoso}. 41 / 135 Probabilidade e Estatística Solução Relembre a definição do evento A: A ={O primeiro monitor é defeituoso}. Pelo teorema da probabilidade total, segue que P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ). Já sabemos que P(A) = 15 . Isto fornece também, pela propriedade do complementar P(Ac ) = 1 − P(A) = 45 . Vamos calcular agora P(B|A) e P(B|Ac ) separadamente. Dado que o evento A ocorreu, e sabendo que estamos sem reposição, para o segundo monitor, teremos 99 monitores disponíveis e entre eles, apenas 19 são defeituosos. Assim, P(B|A) = 19 99 . Analogamente, temos que se Ac ocorreu, então o primeiro monitor escolhido estava em perfeito estado. Assim, neste cenário, para a escolha do segundo monitor, teremos 20 monitores defeituosos disponíveis entre o total de 99 monitores. Assim P(B|Ac ) = 20 99 . Juntando todas as informações, temos que 19 1 20 4 80 + 19 1 + = = . 99 5 99 5 99 · 5 5 Então, curiosamente, apesar das contas serem completamente diferentes, e de estarmos sem reposição, neste caso, as probabilidades também são iguais. Note que isso é uma coincidência e não ocorre em geral. P(B) = Cuidado Note que embora no exemplo acima as probabilidades com reposição e sem reposição coincidiram, isto não ocorre sempre! 3.5.3 Teorema de Bayes Assim como no teorema da probabilidade total, seja Ω um espaço amostral associado a um experimento E, e seja B1 , B2 , . . . , Bk uma partição de Ω. Temos então, pela definição da probabilidade condicional que P(Bi |A) = P(A ∩ Bi ) , i = 1, 2, . . . , k. P(A) Usando o teorema da multiplicação, temos que P(A ∩ Bi ) = P(A|Bi )P(Bi ). Além disso, pelo teorema da probabilidade total, temos que P(A) = ∑kj=1 P(A|B j )P(B j ). Portanto, juntando essas fórmulas com a definição da probabilidade condicional, obtemos: P(Bi |A) = P(A|Bi )P(Bi ) , i = 1, . . . , k. ∑ j=1 P(A|B j )P(B j ) Esta fórmula é conhecida como Teorema de Bayes. Exercício Numa turma de ciências da computação da UFPB, 1% dos homens e 4% das mulheres possuem menos de 1,60m de altura. Além disso, 60% dos estudantes são homens. Se um estudante é selecionado ao acaso e é verificado que tem menos de 1,60m de altura. Qual é a probabilidade desse estudante ser homem? 42 / 135 Probabilidade e Estatística Solução Defina os eventos A = {Estudantes com menos de 1,60m}, M = {Estudantes do sexo feminino} e H = {Estudantes do sexo masculino}. Pelo enunciado, sabemos que P(A|H) = 0, 01, P(A|M) = 0, 04, P(H) = 0, 6 e P(M) = 1 − P(H) = 0, 4. Além disso, pelo teorema de Bayes, segue que P(H|A) = 3.6 0, 01 · 0, 6 3 P(A|H)P(H) = = . P(A|H)P(H) + P(A|M)P(M) 0, 01 · 0, 6 + 0, 04 · 0, 4 11 Eventos Independentes Considere dois eventos A e B quaisquer de um mesmo espaço amostral Ω. Dois eventos A e B são independentes quando a probabilidade de ocorrer um dos eventos não é modificada pela ocorrência do outro. Ou seja, dizemos que A e B são independentes quando P(A|B) = P(A) ou P(B|A) = P(B). Assim, se A e B são eventos independentes, então P(A ∩ B) = P(A)P(B). Nota Observe que se vale a recíproca dessa última afirmação, ou seja, se vale a identidade acima, então os eventos são independentes. Exercício Suponha que um dado equilibrado seja jogado duas vezes. Sejam os eventos: A = {o primeiro dado mostra um número par} e B = {o segundo dado mostra o número 5 ou 6}. Calcule P(A), P(B), P(A ∩ B), P(A|B) e P(B|A). Solução Escrevendo explicitamente, temos que Ω = {(1, 1), (1, 2), (1, 3), . . . , (6, 6)}, onde Ω possui 36 elementos, A = {(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}, onde A possui 18 elementos, B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5), (1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)}, onde B possui 12 elementos, e A ∩ B = {(2, 5), (2, 6), (4, 5), (4, 6), (6, 5), (6, 6)}, onde A ∩ B possui 6 elementos. Portanto, temos que P(A) = 18 36 = 12 , P(B) = 12 36 = 1 3 1 6 e P(A ∩ B) = 6 36 = 16 . Observemos que P(A ∩ B) = = 12 13 = P(A)P(B). Logo, pelo que vimos acima, os eventos são independentes e desta forma, P(A|B) = P(A) = 12 , e P(B|A) = P(B) = 13 . Podemos também verificar diretamente: P(A|B) = P(A∩B) P(B) = 1/6 1/3 = 1 2 e P(B|A) = P(A∩B) P(A) = 43 / 135 1/6 1/2 = 13 . Probabilidade e Estatística Podemos generalizar este resultado para n eventos. Isto fornece a seguinte definição: Definição: n eventos independentes Sejam A1 , A2 , . . . , An eventos em um mesmo espaço amostral Ω. Dizemos que A1 , . . . , An são eventos independentes se, e somente se, para k = 2, 3, . . . , n, e todas as escolhas possíveis de índices i1 , . . . , ik , onde cada i j é um número entre 1 e n, e eles são diferentes, vale a igualdade P(Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P(Ai1 ) · · · P(Aik ). Nota Neste caso, temos 2n − n − 1 relações a serem verificadas. Exercício Suponha que um par de moedas honestas sejam lançadas. Considere os eventos: A = {cara na primeira moeda}, B = {cara na segunda moeda} e C = {cara em exatamente uma moeda}. Mostre que os eventos A, B e C são dois-a-dois independentes, mas não são independentes. Solução Observe que Ω = {(cara,cara),(cara,coroa),(coroa,cara),(coroa,coroa)}. Note que Ω possui 4 elementos. Temos que A = {(cara,cara),(cara,coroa)}, B = {(cara,cara), (coroa,cara)}, C = {(cara,coroa),(coroa,cara)}. Além disso, segue que A ∩ B = {(cara,cara)}, A ∩ C = {(cara,coroa)}, B ∩C = {(coroa,cara)}. Portanto, temos que P(A) = 42 = 21 , P(B) = 24 = 12 , P(C) = 24 = 12 . Por outro lado, temos que latexmath:[P(A ∩ B) = 41 = 12 · 12 = P(A)P(B), P(A ∩C) = 14 = 12 · 21 = P(A)P(C) e P(B ∩C) = 1 1 1 4 = 2 · 2 = P(B)P(C). Isso mostra que os eventos A, B e C são dois-a-dois independentes. Entretanto, temos que A ∩ B ∩C = 0, / e desta forma, P(A ∩ B ∩C) = 0 6= 1 8 = P(A)P(B)P(C). Logo, os eventos A, B e C não são independentes. 3.7 Atividades 1. Sejam A, B e C três eventos em um espaço de probabilidade. Expresse os seguintes eventos em termos de A, B e C: a. Apenas A ocorre; b. A e B ocorrem, mas C não ocorre; c. Os três eventos ocorrem; d. Pelo menos um dos três ocorrem; e. Nenhum dos três ocorrem; 44 / 135 Probabilidade e Estatística f. Exatamente um dos três ocorre; 2. Extraem-se 4 cartas de um baralho com 52 cartas. Qual é a probabilidade de que duas sejam vermelhas e duas sejam pretas? 3. Qual a probabilidade de que os aniversários de 12 pessoas sejam em meses diferentes? 4. Quatro números são sorteados ao acaso, sem reposição, do conjunto {0, 1, 2, . . . , 9}. Calcule a probabilidade de que: a. Os quatro números sorteados podem ser ordenados de forma consecutiva, por exemplo, {1, 2, 3, 4}. b. Todos sejam maiores do que 5. c. O número 0 seja escolhido. d. Pelo menos um seja maior do que 7. e. Todos sejam ímpares. 5. Sejam A e B dois eventos em um espaço de probabilidade tais que P(A) = 1/2, P(B) = 1/4 e P(A ∩ B) = 1/5. Calcule as probabilidades dos seguintes eventos: a. A não ocorre; b. B não ocorre; c. Pelo menos um entre A e B ocorrem; d. A não ocorre e B sim; e. B não ocorre e A sim; f. Ocorre exatamente um de A e B; g. Não ocorre nenhum de A e B; h. Pelo menos um de A e B não ocorre. 6. Escolhe-se ao acaso um número entre 1 e 50. Sabendo que o número é primo, qual é a probabilidade de que seja ímpar? 7. Em um programa de auditório o participante lança um dado honesto 6 vezes. Ele ganha um prêmio de participação se obtiver o mesmo número pelo menos duas vezes, e ganha um prêmio milionário se a face 6 aparecer pelo menos quatro vezes. Qual a probabilidade de que o participante: a) Ganhe o prêmio de participação? b) Ganhe o prêmio milionário? c) Tenha ganho o prêmio milionário dado que ganhou o prêmio de participação? 8. Em um curso preparatório para o vestibular, 1/3 dos estudantes são do sexo masculino e 2/3 são do sexo feminino. A proporção dos rapazes que estudam matemática é 20% e apenas 10% das moças estudam matemática. Obtenha as probabilidades de que: a) Um estudante escolhido ao acaso estude matemática. 45 / 135 Probabilidade e Estatística b) Um estudante de matemática escolhido ao acaso seja do sexo feminino. 9. Lança-se um dado duas vezes. Considere os eventos: A = {Foi obtido 2 ou 5 no primeiro lançamento} e B = {A soma das faces obtidas nos dois primeiros lançamentos é pelo menos 7}. A e B são independentes? 10. Dois estudantes, Pedro e Paulo, estão matriculados na turma de Probabilidade e Estatística. Pedro comparece a 80% das aulas e Paulo comparece a 60%. Suas presenças nas aulas são independentes. Calcule a probabilidade de que, em determinado dia: a) pelo menos um dos estudantes compareça a aula. b) apenas um deles esteja presente. R ESPOSTAS 1. a) A ∩ Bc ∩ Cc b) A ∩ B ∩ Cc c) A ∩ B ∩ C (A ∩ Bc ∩Cc ) ∪ (Ac ∩ B ∩Cc ) ∪ (Ac ∩ Bc ∩C) d) A ∪ B ∪ C e) (A ∪ B ∪ C)c f) (262)(262) 12! 7 . 3. 12 b) 1/210 c) 2/5 d) 2/3 e) 1/42 12 . 4. a) 10 (4) (524) 5. a) 1/2 b) 3/4 c) 11/20 d) 1/20 e) 3/10 f) 7/20 g) 9/20 h) 4/5 2. 6. 14/15 7. a) 319/324 b) 203/23328 c) 7/792 8. a) 2/15 b) 1/2 9. Sim 10. a) 0,92 b) 0,44 Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 46 / 135 Probabilidade e Estatística Capítulo 4 Variáveis Aleatórias e Suas Distribuições O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Saber a definição de variável aleatória • Saber identificar variáveis aleatórias discretas • Entender o que é e como calcular a função de probabilidade de uma variável aleatória discreta • Saber identificar variáveis aleatórias contínuas • Entender o que é e como calcular a função de densidade de uma variável aleatória contínua • Saber a definição e como calcular a função de distribuição acumulada • Saber a relação entre a função de distribuição acumulada e função de probabilidade (no caso de variáveis aleatórias discretas) • Saber a relação entre a função de distribuição acumulada e função de densidade (no caso de variáveis aleatórias contínuas) • Saber a definição e exemplos de variáveis aleatórias mistas • Entender o que são e como trabalhar com funções de variáveis aleatórias Imaginemos que existe a definição de que a temperatura de João Pessoa é considerada quente se é maior do que 27 graus Celsius, é considerada confortável se está entre 20 e 27 graus Celsius, e é considerada fria se é menor do que 20 graus Celsius. Suponha que nosso espaço amostral para o experimento medir a temperatura de João Pessoa pela manhã. Suponha que nosso espaço amostral, que contém todos os resultados possíveis para a temperatura, é Ω = R. Se queremos determinar se a temperatura é fria, confortável ou quente, a melhor ferramenta para isso é definir uma função X : Ω → {fria,confortável,quente}. Ou seja, uma função que associa a cada valor de temperatura, a quantidade fria, confortável ou quente. Por exemplo, X(10) = frio; X(34) = quente, e X(22) = confortável. Neste exemplo, foram medidas temperaturas, 10, 34 e 22, respectivamente. Essa função X que utilizamos é o que chamamos de uma variável aleatória. Ou seja, é um rótulo que damos para os valores possíveis no espaço amostral. Na prática, o mais comum é utilizar variáveis aleatórias, onde associamos cada valor do espaço amostral a um número real, ao invés de um conjunto arbitŕario. Isso se deve ao fato, de que existem muitas 47 / 135 Probabilidade e Estatística distribuições de probabilidade conhecidas tomando como valores números reais. Portanto, ao considerar uma variável aleatória que toma valores reais, estamos pegando um problema de probabilidade genérico, e transformando num problema de probabilidade de números reais, e assim podemos utilizar toda a teoria de distribuições discretas e contínuas para resolver o problema. Desta forma, mais precisamente, temos a Definição: Variável Aleatória Seja Ω um espaço amostral e seja X : Ω → R uma função X que associa a cada elemento ω ∈ Ω um número real X(ω) ∈ R. Exemplo 4.1 Exemplo de variável aleatória Suponha que sorteamos 3 pessoas em João Pessoa e observamos se é homem ou mulher. Suponha que queremos saber o número de mulheres sorteadas. Para isso, defina a variável aleatória X : Ω → R, onde X pode assumir os valores, 0,1,2 e 3. Se denotamos homem por H e mulher por M, temos que Ω = {MMM, MMH, MHM, HMM, MHH, HMH, HHM, HHH}, e portanto X(MMM) = 3, X(MMH) = X(MHM) = X(HMM) = 2, X(MHH) = X(HMH) = X(HHM) = 1, X(HHH) = 0. Definição: Imagem Inversa Seja Ω um espaço amostral e seja X : Ω → R uma variável aleatória. Dado qualquer subconjunto B ⊂ R, definimos a imagem inversa de B pela variável aleatória X como o conjunto X −1 (B) = {ω ∈ Ω; X(ω) ∈ B}. Ou seja, X −1 (B) consiste dos elementos de Ω que são levados no conjunto B pela variável aleatória X. A partir da imagem inversa de X −1 (B) podemos construir uma nova medida de probabilidade induzida pela variável aleatória X. Definição: Probabilidade induzida pela variável aleatória X Definimos a probabilidade P(X ∈ B) como sendo P(X −1 (B)), ou seja, como a probabilidade do evento X −1 (B). Da mesma forma, definimos P(X = a) como sendo P(X −1 ({a})), ou seja, a probabilidade da variável aleatória assumir o valor a. Exercício Escreva o que significa P(X ≤ b) para algum número real b. Solução Seguindo a mesma ideia da definição, temos que P(X ≤ b) deve ser definido como a probabilidade de X ser menor ou igual a b, assim, é a probabilidade de X pertencer ao intervalo da reta (−∞, b]. Portanto, P(X ≤ b) = P(X −1 ((−∞, b])). Exercício Suponha que na cidade de João Pessoa, temos a mesma quantidade de homens e de mulheres, e que cada sorteio de pessoas é feito com reposição e independentemente do(s) sorteio(s) anterior(es). Seja X a variável aleatória que indica o número de mulheres sorteadas. Calcule: P(X = 0), P(X = 1), P(X = 2) e P(X ≤ 2). Solução Temos que P(X = 0) = P(HHH) = 18 ; P(X = 1) = P({HHM, HMH, MHH}) = P(HHM) + P(HMH) + P(MHH) = 83 ; P(X = 2) = P(HMM, MHM, MMH) = P(HMM) + P(MHM) + P(MMH) = 38 . Finalmente, P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = 48 / 135 1 3 3 7 + + = . 8 8 8 8 Probabilidade e Estatística Poderíamos também ter resolvido utilizando a técnica de tomar complementares. Como X só pode assumir valores 0, 1, 2 e 3, temos que, P(X ≤ 2) = 1 − P(X > 2) = 1 − P(X = 3) = 1 − P(MMM) = 1 − 4.1 1 7 = . 8 8 Variáveis Aleatórias Discretas Como falamos anteriormente, nosso objetivo em considerar variáveis aleatórias tomando como valores números reais, se deve ao fato de haver uma teoria bem completa em torno dessas variáveis aleatórias. Dentre as variáveis aleatórias reais, existem dois grandes grupos: as variáveis aleatórias discretas e as variáveis aleatórias contínuas. Nosso objetivo nesta seção consiste em definir, e apresentar vários exemplos de variáveis aleatórias discretas. Definição: Variável aleatória discreta Seja Ω um espaço amostral e seja X : Ω → R uma variável aleatória. Se existe uma sequência números a1 , a2 , a3 , . . ., tais que X só pode assumir um dos valores dessa sequência. Então dizemos que X é uma variável aleatória discreta. Nota Note que apesar da sequência a1 , a2 , a3 , . . . ser uma sequência infinita, o conjunto de valores possíveis para a variável aleatória X pode ser finito ou infinito enumerável. Por infinito enumerável, nós queremos dizer um conjunto infinito que pode ser indexado pelo conjunto dos números naturais, ou seja, pelo qual podemos escrever uma sequência numérica cobrindo todos os números. No caso de variáveis aleatórias discretas, sabemos que vale a seguinte identidade: P(X ∈ {a1 , a2 , a3 , . . .}) = 1, pois X necessariamente só assume valores nesse conjunto {a1 , a2 , a3 , . . .}. Portanto, utilizando a aditividade contável da medida de probabilidade, obtemos ∞ 1 = P(X ∈ {a1 , a2 , a3 , . . .}) = ∑ P(X = ai ), i=1 e portanto temos que ∑∞ i=1 P(X = ai ) = 1, e além disso, sabemos que para cada i, vale P(X = ai ) ≥ 0. Estes fatos motivam a seguinte definição: Definição: Função de probabilidade Seja Ω um espaço amostral e seja X : Ω → R uma variável aleatória discreta, e seja a1 , a2 , a3 , . . . , o conjunto de valores possíveis de X. Definimos a função de probabilidade da variável aleatória X como uma função p(ai ), que associa a cada ai a probabilidade da variável aleatória X assumir o valor ai , isto é, definimos p(ai ) = P(X = ai ). Nota Pelo que já vimos, uma função de probabilidade satisfaz as seguintes propriedades: . para todo i, p(xi ) ≥ 0; . ∑∞ i=1 p(xi ) = 1. 49 / 135 Probabilidade e Estatística Exercício Suponha que uma urna contém 6 bolas azuis e 4 bolas vermelhas. Quatro bolas são tiradas aleatoriamente da urna, com reposição, e é observada a cor da bola, antes da bola ser devolvida à urna. Seja X a variável aleatória que indica o número de bolas vermelhas que foram retiradas da urna. Obtenha a função de probabilidade de X. Solução Denote por V a bola vermelha e por A, a bola azul. Pelas informações do problema, temos que 6 4 e a de se retirar uma bola azul é 10 . a probabilidade de se retirar uma bola vermelha é 10 Assim, P(V ) = 4 10 = 0, 4 e P(A) = 6 10 = 0, 6. O espaço amostral do problema é dado por Ω = {VVVV,VVVA,VVAV,VAVV, AVVV,VVAA,VAVA, VAAV, AVAV, AAVV, AVVA,VAAA, AVAA, AAVA, AAAV, AAAA}. É fácil ver que o conjunto de valores possíveis para a variável aleatória X é {0, 1, 2, 3, 4}. Assim: p(0) = P(X = 0) = P(AAAA) = (0, 6)4 ; p(1) = P(X = 1) = P(AAAV, AAVA, AVAA,VAAA) = P(AAAV ) + P(AAVA) + P(AVAA) + P(VAAA) = (0, 6)3 0, 4 + (0, 6)3 0, 4 + (0, 6)3 0, 4 + (0, 6)3 0, 4 = 4(0, 6)3 0, 4; p(2) = = = + = P(X = 2) = P(VVAA,VAVA,VAAV, AVAV, AAVV, AVVA) P(VVAA) + P(VAVA) + P(VAAV ) + P(AVAV ) + P(AAVV ) + P(AVVA) (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2 (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2 6(0, 6)2 (0, 4)2 ; p(3) = = = = P(X = 3) = P(VVVA,VVAV,VAVV, AVVV ) P(VVVA) + P(VVAV ) + P(VAVV ) + P(AVVV ) (0, 4)3 0, 6 + (0, 4)3 0, 6 + (0, 4)3 0, 6 + (0, 4)3 0, 6 4(0, 4)3 0, 6; finalmente, p(4) = P(X = 4) = P(VVVV ) = (0, 4)4 . 4.2 Variáveis Aleatórias Contínuas As variáveis contínuas são aquelas na qual a variável aleatória pode assumir uma quantidade nãoenumerável de valores. Isto faz com que a probabilidade de assumir um valor específico seja 0. Ou seja, se X é uma variável aleatória contínua, para todo número real a, temos que P(X = a) = 0. A intuição para este fato inusitado, é que temos tantos valores possíveis para X, que faz com que a probabilidade de assumir um valor em particular seja 0. Neste caso, a probabilidade de X assumir um valor é trocada pela probabilidade de X pertencer a um intervalo da reta. Além disso, no cálculo da probabilidade, a soma é “trocada” por uma integral, conforme veremos na próxima definição. Definição: Variável Aleatória Contínua Dizemos que X é uma variável aleatória contínua se existe uma função real f : R → R, a qual chamamos de função de densidade de X, que satisfaz as seguintes condições: 50 / 135 Probabilidade e Estatística • Para todo x real, f (x) ≥ 0; Z ∞ f (x)dx = 1; • −∞ • Se f (x) satisfaz as duas primeiras condições, então temos que para quaisquer a e b, −∞ < a < b < ∞, vale P(a ≤ X ≤ b) = Z b f (x)dx. a Nota Note portanto, que pela definição, para checar se uma função f (x) é uma função de densidade é suficiente verificar duas coisas: 1. se para todo x real, temos f (x) ≥ 0; Z ∞ 2. se f (x)dx = 1. −∞ Importante Como mencionamos anteriormente, a definição de variável aleatória contínua implica que para todo a real, P(X = a) = 0. De fato, como X possui uma função de densidade f , temos que Z a P(X = a) = f (x)dx = 0. a Uma consequência deste fato é que P(a ≤ X ≤ b) = P(a < x < b) = P(a < x ≤ b) = P(a ≤ X < b). Exercício Suponha que X seja uma variável aleatória contínua com a função de densidade ( 2x, 0 < x < 1; . f (x) = 0, caso contrário. a. Mostre que f (x) é uma função de densidade; b. Calcule P(X ≤ 1/2); c. Calcule P(X ≤ 1/2|1/3 ≤ X ≤ 2/3) (probabilidade condicional). Solução a. Temos da definição de f (x) que para todo x real, f (x) ≥ 0. Basta verificar agora que R∞ −∞ f (x)dx = 1. Note que f (x) = 0 fora do intervalo [0, 1], e portanto Z 1 Z ∞ f (x)dx = −∞ 0 1 2xdx = x2 0 = 1. Assim, f (x) é função de densidade b. P(X ≤ 1/2) = Z 1/2 0 1/2 1 2xdx = x2 = . 4 0 51 / 135 Probabilidade e Estatística c. P(X ≤ 1/2|1/3 ≤ X ≤ 2/3) = = P(1/3≤X≤1/2) P(1/3≤X≤1/2) R 1/2 2xdx 1/3 R 2/3 2xdx 1/3 1/2 x2 1/3 = = 2/3 2 x 5/36 3/9 1/3 = 4.3 5 12 . Função de Distribuição Acumulada Na teoria matemática da probabilidade é possível mostrar que, dada uma variável aleatória X, a probabilidade de qualquer evento pode ser obtida a partir das probabilidades P(X ≤ a), onde a é número real. Ou seja, conhecendo P(X ≤ a) para todo a real, significa dizer que conhecemos P(X ∈ A) para qualquer evento A. Este resultado é um importante resultado de Teoria da Medida, e mostra o quão rica é a função F(a) = P(X ≤ a). Por conta disso, ela recebe um nome: Definição: Função de Distribuição Acumulada Seja Ω um espaço amostral, e seja X : Ω → R uma variável aleatória discreta ou contínua. Defina a função FX : R → R dada por FX (a) = P(X ≤ a), onde a é número real. FX é denominada a função de distribuição acumulada da variável aleatória X, ou simplesmente função de distribuição. • Se X for uma variável aleatória discreta, então FX (a) = p(a j ), ∑ j;a j ≤a onde a soma é feita sobre os indíces j, tais que a j ≤ a. • Se X for uma variável aleatória contínua, então Z a FX (a) = f (x)dx. −∞ Exercício Seja X uma variável aleatória discreta tomando valores 0,1 e 2. Suponha que sua função de probabilidade é dada por p(0) = 1/2, p(1) = 1/3 e p(2) = 1/6. Obtenha FX . Solução Se a < 0, então FX (a) = P(X < a) ≤ P(X < 0) = 0. Como FX (a) = P(X ≤ a) ≥ 0, segue que para todo a < 0, FX (a) = 0. Suponha agora, 0 ≤ a < 1, então FX (a) = P(X ≤ a) = P(X = 0) = p(0) = 1/2. Seja agora, 1 ≤ a < 2. Então, FX (a) = P(X ≤ a) = P(X = 0) + P(X = 1) = p(0) + p(1) = 1/2 + 1/3 = 5/6. Finalmente, se a ≥ 2, então FX (a) = P(X ≤ a) = P(X ≤ 2) = 1. 52 / 135 Probabilidade e Estatística Assim, 0, 1/2, FX (a) = 5/6, 1, a<0 0 ≤ a < 1, . 1 ≤ a < 2, a ≥ 2. Exercício Seja X uma variável aleatória contínua com função de densidade ( 2x, 0 < x < 1; f (x) = . 0, caso contrário. Já sabemos que f é função de densidade por um exercício anterior. Obtenha sua função de distribuição FX . Solução Temos que se a < 0, então P(X ≤ a) ≤ P(X < 0) = 0. Assim, para a < 0, temos FX (a) = 0. Para 0 ≤ a ≤ 1, temos P(X ≤ a) = Z a 0 Assim, para 0 ≤ a ≤ 1, vale FX a 2xdx = x2 0 = a2 . (a) = a2 . Finalmente, se a > 1, então P(X ≤ a) = P(X ≤ 1) = 1. Portanto, para a > 1, segue FX (a) = 1. Desta forma, 0, 0 ≤ a < 0, FX (a) = a2 , 0 ≤ a ≤ 1, . 1, a ≥ 1. Nota Observe que se a ≤ b, então sempre que X(ω) ≤ a, teremos X(ω) ≤ a ≤ b, o que implica, X(ω) ≤ b. Assim, vale a inclusão de conjuntos {ω ∈ Ω; X(ω) ≤ a} ⊂ {ω ∈ Ω; X(ω) ≤ b}. Logo, P(X ≤ a) ≤ P(X ≤ b). Portanto, temos que se a ≤ b, então FX (a) ≤ FX (b), ou seja, FX é uma função nãodecrescente. Nota É possível mostrar que para qualquer variável aleatória X , vale lima→−∞ FX (a) = 0 e lima→∞ FX (a) = 1. Importante Note ainda que se X é uma variável aleatória discreta com conjunto de valores possíveis dado por {a1 , a2 , a3 , . . .}, ordenados de tal forma que a1 < a2 < a3 < a4 < . . ., então temos que p(ai ) = P(X = ai ) = P(X ≤ ai ) − P(X ≤ ai−1 ) = FX (ai ) − FX (ai−1 ). Ou seja, podemos obter a função de probabilidade de X a partir da função de distribuição de X desta forma. 53 / 135 Probabilidade e Estatística Nota Note que esta última observação nos diz que se temos uma função de distribuição de uma variável aleatória discreta, então o conjunto de valores que a variável aleatória X pode assumir é exatamente o conjunto dos pontos de descontinuidade da função de distribuição FX . Assim, se a1 é o menor ponto de descontinuidade de X , então P(X = a1 ) = FX (a1 ), e depois disso, se FX é descontínua no ponto ai , então teremos que P(X = ai ) = FX (ai ) − FX (ai−1 ). Exercício Suponha que X é uma variável aleatória discreta com função de distribuição FX dada por 0, a < 0, 1/4, 0 ≤ a < 1, FX (a) = 1/2, 1 ≤ a < 2, 1, a ≥ 2. Obtenha a função de probabilidade p(ai ). Solução Os pontos de descontinuidade da função de distribuição FX são 0, 1 e 2. Portanto, pelo que vimos, temos que p(0) = FX (0) = 1/4, p(1) = FX (1) − FX (0) = 1/2 − 1/4 = 1/4, e finalmente, p(2) = FX (2) − FX (1) = 1 − 1/2 = 1/2. Temos um resultado análogo para variáveis aleatórias contínuas. Importante Seja agora X uma variável aleatória contínua. Então, vale que Z x FX (x) = f (t)dt. −∞ Ou seja, estamos dizendo que FX é uma primitiva para a função de densidade f . Desta forma, podemos “recuperar” a função de densidade, a partir da função de distribuição, por simples derivação em todos os pontos em que FX for derivável: f (a) = dFX (a) = FX0 (a). da Exercício Suponha que X é uma variável aleatória contínua com função de distribuição FX dada por ( 0, a < 0, FX (a) = . −a 1 − e , a ≥ 0. Obtenha a função de densidade f (x). 54 / 135 Probabilidade e Estatística Solução Sabemos que a função de densidade f (x) é dada pela derivada da função de distribuição em todos os pontos em que esta for derivável. Assim, se x < 0, temos que f (x) = FX0 (x) = 0. Se x > 0, então f (x) = FX0 (x) = e−x . Em x = 0, FX não é derivável, então podemos supor f (x) = 0, já que o valor de uma função em um único ponto não altera o valor da integral. Portanto, a função de densidade f da variável aleatória X é dada por ( 0, 0 ≤ x ≤ 0, f (x) = −x . e , x > 0. 4.4 Variáveis Aleatórias Mistas Podemos ter também um terceiro tipo de variável aleatória: a variável aleatória mista. Ela consiste em uma variável aleatória cuja probabilidade é uma mistura entre as variáveis aleatórias contínuas e discretas. Assim, se X é uma variável aleatória mista, então existem números reais a1 , a2 , a3 , . . . , tais que para algum i, P(X = ai ) > 0, e tais que ∞ ∑ P(X = ai) = p < 1, i=1 ou seja, isso garante que ela tem esse comportamento da variável aleatória discreta, mas não é uma variável aleatória discreta, pois a soma não é igual a 1. Assim, seja FX a função de distribuição da variável aleatória X. Definimos a parte discreta da função de distribuição de X como FXd (x) = ∑i;ai ≤x P(X = ai ). Defina p(ai ) = P(X = ai ), então dizemos que a função p é a função de probabilidade da parte discreta da variável aleatória X. Nota Note que se X fosse uma variável aleatória discreta, teríamos FX = FXd . Agora, defina FXc (x) = FX (x) − FXd (x), a parte contínua da função de distribuição da variável Z aleatória X. Assim, se X é uma variável aleatória mista, existe uma função f (t) ≥ 0, tal que FXc (x) = Z ∞ e x f (t)dt, −∞ f (t)dt = 1 − p. Dizemos que a função f é a função de densidade da parte contínua de X. −∞ Nota Observe então que se X é uma variável aleatória discreta, então FXc (x) = 0, para todo x; e se X é uma variável aleatória contínua, então FXd (x) = 0, donde temos FX (x) = FXc (x). Portanto, podemos concluir que FX (x) = FXc (x) + FXd (x), ou seja, vale: FX (x) = P(X ≤ x) = Z x f (t)dt + −∞ 55 / 135 ∑ i;ai ≤x P(X = ai ). Probabilidade e Estatística Assim, suponha que é dada uma função de distribuição FX de uma variável aleatória mista X, e que queremos encontrar a função de probabilidade da parte discreta de X, e a função de densidade da parte contínua de X. Para tanto, começamos procurando por pontos de descontinuidade de FX . Suponha que temos os pontos a1 , a2 , . . ., então, para encontrar a função de probabilidade da parte discreta de X, basta calcular para cada i, o número p(ai ) = P(X = ai ) = P(X ≤ ai ) − P(X < ai ). Uma vez, encontrada a função de probabilidade da parte discreta de X, definimos FXc (x) = FX (x) − FXd (x), e obtemos a função de densidade da parte contínua de X por derivação: f (x) = FXc 0 (x), ou seja, derivamos a parte contínua da função de distribuição FX . Exercício Seja X uma variável aleatória mista com função de distribuição x ≤ 0, 0, FX (x) = x, 0 < x < 1/2, 1, x ≥ 1/2. Obtenha a função de probabilidade da parte discreta de X e a função de densidade da parte contínua de X. Solução Observe que FX só possui apenas um ponto de descontinuidade no ponto x = 1/2. Assim, temos que a função de probabilidade da parte discreta é dada por p(1/2) = P(X ≤ 1/2) − P(X < 1/2) = FX (1/2) − P(X < 1/2) = 1 − 1/2 = 1/2. Pois, como para x < 1/2, vale, P(X < x) = x, temos, P(X < 1/2) = 1/2. Portanto, temos que se x < 1/2, então FXd (x) = 0, e se x ≥ 1/2, então FXd (x) = 1/2. Daí, se x < 1/2, FXc (x) = FX (x) − FXd (x) = x, e se x ≥ 1/2, temos FXc (x) = FX (x) − FXd (x) = 1 − 1/2 = 1/2. Desta forma, temos que x ≤ 0, 0, c FX (x) = x, 0 < x < 1/2, . 1/2, x ≥ 1/2. Assim, derivando, obtemos que a função de densidade da parte contínua de X é dada por ( 0, x ≤ 0 ou x ≥ 1/2, f (x) = . 1, 0 < x < 1/2. 4.5 Funções de Variáveis Aleatórias Definição: Função de uma Variável Aleatória Seja X uma variável aleatória tomando valores reais. Seja Im(X) = X(Ω) = {X(ω); ω ∈ Ω} a imagem de X, ou seja, o conjunto dos valores que a variável aleatória X pode assumir. Seja g : Im(X) → R uma função real. Então, a função Y = g(X) é uma nova variável aleatória, e dizemos que Y é uma função da variável aleatória X. 56 / 135 Probabilidade e Estatística Relembre a definição de imagem inversa: para um subconjunto dos reais A ⊂ R a imagem inversa de A pela função g é o conjunto g−1 (A) = {x ∈ Im(X); g(x) ∈ A}. Assim, temos que para todo evento A ⊂ R, vale P(Y ∈ A) = P(g(X) ∈ A) = P(X ∈ g−1 (A)). Portanto, podemos calcular probabilidades com relação à variável aleatória Y a partir diretamente de probabilidades envolvendo apenas a variável aleatória X. Exemplo 4.2 Exemplo de função de variável aleatória discreta Seja X uma variável aleatória discreta tomando valores no conjunto 1, 2, 3, . . .. Suponha que P(X = n) = (1/2)n . Defina a função g : {1, 2, 3, . . .} → R dada por f (2k) = 1, k = 1, 2, 3, . . ., e f (2k − 1) = −1, para k = 1, 2, 3, . . .. Ou seja, g(x) é igual a 1 se x é par, e é igual a -1 se x é ímpar. Desta forma, definindo Y = g(X), temos que ( 1, se X for par, Y= −1, se X for ímpar. Assim, temos que P(Y = 1) = P(g(X) = 1) = P(X ∈ g−1 ({1})). Note que g(x) = 1 se, e somente se, x é par, ou seja, g−1 ({1}) = {2, 4, 6, . . .}. Assim, P(Y = 1) = P(X ∈ {2, 4, 6, . . .}) = (1/2)2 + (1/2)4 + (1/2)6 + · · · = 1/4 + (1/4)2 + (1/4)3 + · · · 1/4 = 1−1/4 = 1/3. Por outro lado, P(Y = −1) = 1 − P(Y = 1) = 1 − 1/3 = 2/3. Observe que outra forma equivalente de calcular P(Y = 1), seria observar que Y = 1 se, e somente se, X é par, e portanto {Y = 1} = {X ∈ {2, 4, 6, . . .}}. E portanto, P(Y = 1) = P(X ∈ {2, 4, 6, . . .}). Exemplo 4.3 Exemplo de função de variável aleatória contínua Seja X uma variável aleatória contínua com função de densidade dada por f (x) = 2x, se x ∈ (0, 1), e 0 caso contrário. Seja Y = 3X + 1. Vamos encontrar a função de densidade de Y , que denotaremos por fY (y). Primeiramente, note que como Im(X) = (0, 1), e assim Im(Y ) = (1, 4). Observe, agora, que P(Y ≤ y) = P(3X + 1 ≤ y). Sabemos que 3X + 1 ≤ y se, e somente se, X ≤ (y − 1)/3. Portanto, vale FY (y) = P(3X + 1 ≤ y) = P(X ≤ (y − 1)/3) = FX ((y − 1)/3). Finalmente, se y ≤ 0, então FY (y) = P(Y ≤ y) = 0, e se y ≥ 4, temos FY (y) = P(Y ≤ y) = 1. Portanto, se y < 0, então fY (y) = FY0 (y) = 0, e se y > 4, então fY (y) = FY0 (y) = 0. Agora, se y ∈ (1, 4), temos que FY (y) = FX ((y − 1)/3), e portanto, pela regra da cadeia fY (y) = FY0 (y) = FX0 ((y − 1)/3) · 1/3 = f ((y − 1)/3) · 1/3 = 2((y − 1)/3) 2(y − 1) = . 3 9 Exercício Considere X variável aleatória contínua com a densidade do exemplo anterior. Seja g(x) = e−x . Obtenha a função de densidade de Y = g(X) = e−X , fY (y). Solução Como Im(X) = (0, 1), temos que Im(Y ) = (1/e, 1). Assim, se y < 1/e, então FY (y) = P(Y ≤ y) = 0, e se y > 1, então FY (y) = P(Y ≤ y) = 1. Isto implica que se y < 1/e, fY (y) = FY0 (y) = 0, e se y > 1, temos fY (y) = FY0 (y) = 0. Falta considerarmos y ∈ (1/e, 1). Assim, temos que Y ≤ y se, e somente se, e−X ≤ y, que por sua vez, vale se, e somente se, X ≥ − ln(y). Portanto, FY (y) = P(Y ≤ y) = P(X ≥ − ln(y)) = 1 − FX (− ln(y)). Onde temos que P(X ≥ − ln(y)) = 1 − P(X < − ln(y)) = 1 − P(X ≤ − ln(y)) = 1 − FX (− ln(y)), 57 / 135 Probabilidade e Estatística pois P(X = − ln(y)) = 0, já que X é uma variável aleatória contínua. Desta forma, obtemos, usando a regra da cadeia, que para y ∈ (1/e, 1), fY (y) = FY0 (y) = (1 − FX (− ln(y))0 = − fX (− ln(y)) · −1 −2 ln(y) = . y y Exercício Seja X uma variável aleatória contínua com função de densidade f . Seja Y = X 2 . Encontre a função de densidade da variável aleatória Y , fY . Solução Observe que X 2 ≥ 0. Daí, se y < 0, segue que FY (y) = P(Y ≤ y) = 0, e portanto, para y < 0, vale fY (y) = 0. Suponha agora que y ≥ 0, e note que Y ≤ y se, e somente se, X 2 ≤ y. Esta última desigualdade vale se, e somente se, X 2 − y ≤ 0. Resolvendo essa inequação, obtemos que X 2 − y ≤ 0 se, √ √ e somente se, X ≥ − y e X ≤ y. Assim, vale a igualdade entre os conjuntos {Y ≤ y} = √ √ {− y ≤ X ≤ y}. Portanto, como X é variável aleatória contínua, segue que, √ √ √ √ √ √ FY (y) = P(Y ≤ y) = P(− y ≤ X ≤ y) = P(X ≤ y) − P(X < − y) = FX ( y) − FX (− y). Daí, pela regra da cadeia, vale que 1 −1 1 √ √ √ √ FY0 (y) = f ( y) · √ − f (− y) · √ = √ ( f ( y) + f (− y)) . 2 y 2 y 2 y Portanto, fY (y) = 4.6 1 √ 2 y √ √ f ( y) + f (− y) . Atividades 1. Seja X uma variável aleatória discreta com função de probabilidade dada por p(x) = cx, x = 1, . . . , 6. Encontre: a) o valor de c; b) a probabilidade de X ser um número ímpar. 2. Seja X uma variável aleatória discreta com função de probabilidade dada por p(x) = c , 4x x = 0, 1, . . . . Obtenha: a) o valor de x. b) a probabilidade de X ser um número par. 58 / 135 Probabilidade e Estatística 3. Seja X uma variável aleatória discreta com função de distribuição dada por 0, se x < 0, 1/2, se 0 ≤ x < 1, 3/5, se 1 ≤ x < 2, F(x) = 4/5, se 2 ≤ x < 3, 9/10, se 3 ≤ x < 4, 1, se x ≥ 4. Calcule: a) a função de probabilidade de X. b) P(X = 0|X é par). 4. Uma urna contém cinco bolas numeradas de 1 a 5. Duas bolas são retiradas simultaneamente. Obtenha a função de probabilidade das seguintes variáveis aleatórias: a) o maior número sorteado; b) a soma dos números retirados. 5. Verifique que as seguintes funções são densidades: a) 1/8, se 0 ≤ x ≤ 2, f (x) = 3/4, se 4 ≤ x ≤ 5, 0, caso contrário. b) f (x) = 3(1 − x)2 , 0 ≤ x ≤ 1. c) f (x) = 4xe−2x , x ≥ 0. 6. Seja X uma variável aleatória contínua com densidade dada por c f (x) = 3 , x ≥ 1. x Calcule: a) o valor de c; b) a probabilidade de X ser maior do que 2; c) a função de distribuição de X. 7. Encontre a densidade de Y = e−2X , onde X é uma variável aleatória contínua com densidade dada por f (x) = e−x , x > 0. 8. Encontre a densidade de |X|, se X é uma variável aleatória contínua com densidade dada por 2 1 f (x) = √ e−x /2 , 2π x ∈ R. 9. Seja X uma variável aleatória com densidade dada por se − 1 < x < 0, 1/2, f (x) = e−x /2, se x ≥ 0, 0, caso contrário. Obtenha a densidade de Y = X 2 . 59 / 135 Probabilidade e Estatística R ESPOSTAS 1. a) 1/21 2. a) 3/4 b) 3/7 b) 4/5 3. a) P(X = 0) = 1/2, P(X = 1) = P(X = 3) = P(X = 4) = 1/10, P(X = 2) = 1/5. 5/8 4. a) p(2) = 1/10, p(3) = 1/5, p(4) = 3/10, p(5) = 2/5. {3, 4, 8, 9} e p(x) = 1/5 se x ∈ {5, 6, 7}. ( 1 − x2 , se x ≥ 1, 6. a) 2 b) 1/4 c) F(x) = 0, se x < 1. 7. fY (y) = 1 √ 2 y, b) p(x) = 1/10 se x ∈ 0 < y < 1. 8. fY (y) = (2/π)1/2 exp{−y2 /2}, 9. b) y > 0. √ 1 √ + e− y , se 0 ≤ y < 1, 4 y 1√ 1 − y fY (y) = 4√ , se y ≥ 1, ye 0, caso contrário. Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 60 / 135 Probabilidade e Estatística Capítulo 5 Esperança de uma Variável Aleatória O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Entender o que é a esperança de variáveis aleatórias • Conhecer as propriedades da esperança • Saber calcular a esperança • Entender o que é a variância de variáveis aleatórias • Conhecer as propriedades da variância • Saber calcular a variância Vamos começar introduzindo uma notação que será útil ao estudar o conceito de esperança matemática: variáveis aleatórias independentes. 5.1 Variáveis aleatórias independentes Relembre a definição de eventos independentes: sejam Ω um espaço amostral, A e B eventos de Ω. Então, dizemos que os eventos A e B são independentes se P(A ∩ B) = P(A)P(B). Esta definição motiva a definição de independência entre variáveis aleatórias: Definição: Variáveis Aleatórias Independentes Sejam X : Ω → R e Y : Ω → R duas variáveis aleatórias. Dizemos que X e Y são independentes se para todos os eventos A, B ∈ R, vale a fórmula: P(X ∈ A e Y ∈ B) = P(X ∈ A)P(Y ∈ B). Nota Sejam X e Y são duas variáveis aleatórias discretas. Suponha que X toma valores no conjunto {a1 , a2 , a3 , . . .} e que Y toma valores no conjunto {b1 , b2 , b3 , . . .}. Então, é possível mostrar que X e Y são independentes se, e somente se, para cada ai e b j , temos P(X = ai ,Y = b j ) = P(X = ai )P(Y = b j ). 61 / 135 Probabilidade e Estatística 5.2 Esperança matemática Vamos começar motivando a definição de esperança. A esperança pode ser pensada como uma generalização da média. De fato, suponha que temos 10 pesos. O primeiro possui 1 quilo, o segundo 2 quilos, . . . , o décimo 10 quilos. Suponha que uma pessoa escolhe um peso aleatoriamente, onde todos os pesos possuem a mesma probabilidade de serem escolhidos. Qual o peso médio? Temos 1 quilo com probabilidade 1/10, 2 quilos com probabilidade 1/10, . . . , 10 quilos com probabilidade 1/10. Assim, o peso médio é m = 1/10 + 2/10 + · · · + 10/10 = 5, 5. Mais geralmente temos a Definição: Esperança de Variáveis Aleatórias Discretas Seja X uma variável aleatória discreta tomando valores no conjunto {a1 , a2 , a3 , . . .}. Seja p(ai ) = P(X = ai ) sua função de probabilidade. Então, definimos a esperança, ou valor esperado, de X como: ∞ E(X) = ∑ ai p(ai ), i=1 ∑∞ i=1 |ai |p(ai ) se a série convergir, ou seja, se a série ∑∞ i=1 ai p(ai ) convergir absolutamente. Caso a série em questão não convirja absolutamente, dizemos que a esperança de X não existe. É claro que se X toma apenas uma quantidade finita de valores, digamos a1 , . . . , an , então a esperança de X é dada por n E(X) = ∑ ai p(ai ). i=1 Nota Observe que como a soma p(a1 ) + · · · + p(an ) = 1, podemos pensar nesta esperança como uma média ponderada, entre os valores a1 , . . . , an , com os pesos p(a1 ), . . . , p(an ). Note ainda que se todos os valores forem igualmente possíveis, ou seja, se para cada i, p(ai ) = 1/n, então a esperança será dada simplesmente pela média aritmética entre os valores possíveis: E(X) = 1 n ∑ ai. n i=1 Exemplo 5.1 Exemplo de esperança de variável aleatória discreta Seja X uma variável aleatória que toma valor 1 com probabilidade p, e valor 0 com probabilidade 1 − p. Temos então que E(X) = 0p(0) + 1p(1) = p(1) = P(X = 1) = p. Vamos agora definir esperança para variáveis aleatórias contínuas. Definição: Esperança de Variáveis Aleatórias Contínuas Seja X uma variável aleatória contínua com função de densidade f . Definimos a esperança de X como Z ∞ E(X) = f (x)dx, −∞ 62 / 135 Probabilidade e Estatística se Z ∞ −∞ |x| f (x)dx < ∞. No caso da integral imprópria acima divergir, dizemos que a esperança de X não existe. Exemplo 5.2 Exemplo de esperança de variável aleatória contínua Seja X uma variável aleatória contínua com função de densidade dada por ( 1 , a < x < b, f (x) = b−a 0, caso contrário. Portanto, x 1 x2 b dx = · b−a 2 a a b−a (b+a)(b−a) b2 −a2 = 2(b−a) = 2(b−a) = a+b 2 . Z b E(X) = 5.3 Esperança de uma Função de Variável Aleatória Definição: Esperança de função de variável aleatória Seja X uma variável aleatória e seja Y = H(X), para uma função real H. Temos então dois casos: • Se X for uma variável aleatória discreta tomando valores em {a1 , a2 , . . .}, e se p é a função de probabilidade de X, temos que ∞ ∞ E(Y ) = E(H(X)) = ∑ H(ai )P(X = ai ) = ∑ H(ai )p(ai ). i=1 i=1 • Se X for uma variável aleatória contínua com função de densidade f , então temos que Z ∞ E(Y ) = E(H(X)) = H(x) f (x)dx. −∞ Exemplo 5.3 Exemplo de esperança de função de uma variável aleatória discreta Vamos relembrar um exemplo estudando quando introduzimos funções de variáveis aleatórias: seja X uma variável aleatória discreta tomando valores no conjunto 1, 2, 3, . . .. Suponha que P(X = n) = (1/2)n . Defina a função g : {1, 2, 3, . . .} → R dada por f (2k) = 1, k = 1, 2, 3, . . ., e f (2k − 1) = −1, para k = 1, 2, 3, . . .. Ou seja, g(x) é igual a 1 se x é par, e é igual a -1 se x é ímpar. Desta forma, 63 / 135 Probabilidade e Estatística definindo Y = g(X), temos que ∞ E(Y ) = E(g(X)) = ∑ g(i)P(X = i) i=1 ∞ = ∞ ∑ g(2i)P(X = 2i) + ∑ g(2i − 1)P(X = 2i − 1) i=1 ∞ = ∞ ∑ P(X = 2i) + ∑ (−1)P(X = 2i − 1) i=1 ∞ = 2i ∑ (1/2) i=1 ∞ = ∞ i=1 − ∑ (1/2)2i−1 i=1 ∞ ∑ (1/2)2i − ∑ 2 · (1/2)2i i=1 ∞ = i=1 i=1 ∞ ∑ (1/2)2i − 2 ∑ (1/2)2i i=1 i=1 ∞ = − ∑ (1/2)2i i=1 ∞ = − ∑ (1/4)i i=1 1/4 = − 1−1/4 = −1/3. Portanto, E(Y ) = −1/3. Note que, quando apresentamos o exemplo no Capítulo 4, vimos que Y só assume os valores −1 e 1. Além disso, calculamos sua função de probabilidade: P(Y = −1) = 2/3 e P(Y = 1) = 1/3. Desta forma, usando diretamente a definição de esperança de variáveis aleatórias discretas, temos: E(Y ) = (−1) · 2/3 + 1 · 1/3 = −2/3 + 1/3 = −1/3. Logo, vemos que não há contradição entre as definições, e as esperanças sempre vão coincidir. Importante Como vimos no exemplo anterior, na hora de calcular a esperança de funções de variáveis aleatórias discretas, temos duas opções: • Calcular diretamente, usando a função de probabilidade de X , através da fórmula ∞ E(Y ) = E(H(X)) = ∑ H(ai )P(X = ai ); i=1 • Obter a função de probabilidade de Y e depois calcular a esperança de Y diretamente: ∞ E(Y ) = ∑ b j P(Y = b j ), j=1 onde Y toma valores em {b1 , b2 , . . .}. 64 / 135 Probabilidade e Estatística Exemplo 5.4 Exemplo de esperança de função de uma variável aleatória contínua Suponha que X é uma variável aleatória contínua com função de densidade ( x e , x ≤ 0, f (x) = e2−x 2 , x > 0. Tome Y = |X|, então E(Y ) é dada por Z ∞ E(Y ) = E(|X|) = |x| f (x)dx −∞ Z ∞ ex e−x dx. 2 2 −∞ 0 Observe que integrando por partes, obtemos que F(x) = −xex + ex é uma primitiva para −xex e que G(x) = −xe−x − e−x é uma primitiva para xe−x . Daí, Z 0 Z ∞ −x 0 ∞ 1 1 ex 1 e 1 x x −x dx = (−xe + e ) = e x dx = (−xe−x − e−x ) = . 2 2 2 2 2 2 −∞ 0 −∞ 0 Finalmente, juntando todas as informações, obtemos Z 0 = −x dx + x ∞ e−x ex 1 1 E(Y ) = −x dx + x dx = + = 1. 2 2 2 2 −∞ 0 Assim como no caso de variáveis discretas, podemos calcular a esperança de Y diretamente. Para isto, vamos obter a função de densidade de Y . Observe que como X é variável aleatória contínua, P(X = y) = 0 para todo y real. Assim, como Y ≥ 0, segue que para todo y ≥ 0: Z 0 Z FY (y) = P(Y ≤ y) = P(|X| ≤ y) = P(−y ≤ X ≤ y) = P(−y < X ≤ y) = FX (y) − FX (−y). Desta forma, por derivação, obtemos que a função de densidade de Y , fY (y) é dada por fY (y) = f (y) + f (−y) = e f (y) = 0, se y < 0. Portanto, Z ∞ E(Y ) = Z ∞ y fY (y)dy = −∞ −y H(y) = ye − ey e−y e−y + = e−y , 2 2 −y −y ye dy = (ye 0 ∞ − e ) = 1, y 0 ye−y . donde usamos que é primitiva de Assim como no caso de funções de variáveis aleatórias discretas, as duas formas de calcular a esperança fornecem o mesmo resultado. Importante Como vimos no exemplo anterior, e no caso de funções de variáveis aleatórias discretas, na hora de calcular a esperança de funções de variáveis aleatórias contínuas, temos duas opções: • Calcular diretamente, usando a função de densidade de X , através da fórmula Z ∞ E(Y ) = E(H(X)) = H(x) f (x)dx; −∞ • Obter a função de densidade de Y , fY (y), e depois calcular a esperança de Y diretamente: Z ∞ E(Y ) = −∞ 65 / 135 y fY (y)dy. Probabilidade e Estatística 5.4 Propriedades da Esperança Nessa seção vamos apresentar várias propriedades da esperança matemática e demonstrar algumas delas. Propriedades da esperança • (Esperança da constante): Seja c ∈ R um número real, e seja X a variável aleatória constante igual a c, ou seja, P(X = c) = 1. Então E(X) = c.. • (Sinal da esperança): Se X ≥ 0, então E(X) ≥ 0, e se X ≤ 0, então E(X) ≤ 0. • (Multiplicação por constante): Seja c ∈ R um número real, e seja X uma variável aleatória. Então E(cX) = cE(X). • (Soma de variáveis aleatórias): Sejam X e Y variáveis aleatórias quaisquer, então E(X +Y ) = E(X) + E(Y ). • (Combinação linear de variáveis aleatórias): Sejam X1 , X2 , . . . , Xn variáveis aleatórias, e c1 , c2 , . . . , cn números reais. Então n n E ∑ ci Xi = ∑ ci E(Xi ). i=1 i=1 • (Produto de variáveis aleatórias independentes): Sejam X e Y variáveis aleatórias independentes, então E(XY ) = E(X)E(Y ). Demonstração • (Esperança da constante): Note que X é uma variável aleatória discreta que toma apenas o valor c, e portanto E(X) = cP(X = c) = c. • (Sinal da esperança): Vamos demonstrar o caso X ≥ 0 para variáveis aleatórias discretas e para variáveis aleatórias contínuas. Os casos de variáveis aleatórias mistas e X ≤ 0 ficam como exercícios para o leitor. Seja X variável aleatória discreta, X ≥ 0, tomando valores no conjunto {a1 , a2 , . . .}. Como X ≥ 0, segue que para todo i, temos ai ≥ 0. Além disso, P(X = ai ) ≥ 0. Logo, n E(X) = ∑ ai P(X = ai ) ≥ 0. i=1 Seja, agora, X variável aleatória contínua, X ≥ 0, com função de densidade f (x). Então, como X ≥ 0, vale f (x) = 0 se x < 0. Daí Z ∞ E(X) = Z ∞ x f (x)dx = −∞ x f (x)dx ≥ 0. 0 • (Multiplicação por contante): Vamos demonstrar para variáveis aleatórias discretas e para variáveis aleatórias contínuas. O caso de variáveis aleatórias mistas fica como exercício para o leitor. 66 / 135 Probabilidade e Estatística Seja, então, X variável aleatória discreta, e suponha que X toma valores no conjunto {a1 , a2 , . . .}. Então, cX é função da variável aleatória discreta, daí ∞ ∞ E(cX) = ∑ cai P(X = ai ) = c ∑ ai P(X = ai ) = cE(X). i=1 i=1 Suponha agora que X é variável aleatória contínua com função de densidade f (x). Então, cX é função de uma variável aleatória contínua, e segue que Z ∞ E(X) = Z ∞ cx f (x)dx = c −∞ f (x)dx = cE(X). −∞ • (Soma de variáveis aleatórias): A demonstração foge do escopo do livro. • (Combinação linear de variáveis aleatórias): Usando a propriedade da soma de variáveis aleatórias n vezes, temos que n n E ∑ ci Xi = ∑ E(ci Xi ). i=1 i=1 Usando a propriedade da multiplicação por constante, obtemos o resultado desejado: E n n n c X = E(c X ) = ∑ i i ∑ i i ∑ ciE(Xi). i=1 i=1 i=1 • (Produto de variáveis aleatórias independentes): Foge do escopo do livro. 5.5 Variância de uma variável aleatória Vamos agora utilizar a esperança para definir uma noção de variabilidade da variável aleatória: a variância. A variância de uma variável aleatória mede o quanto a variável aleatória flutua em torno da esperança. Ou seja, mede quanto os valores da variável aleatória X podem se afastar da esperança. Vale observar também que se a variância de X for igual a zero, então X não varia nada, com relação à esperança, e portanto a variável aleatória X é constante igual à esperança de X. Definição: Variância de uma variável aleatória Seja X uma variável aleatória. Definimos a variância de X como Var(X) = E (X − E(X))2 . Nota Observe que como (X − E(X))2 ≥ 0, temos pela propriedade do sinal da esperança que E (X − E(X))2 ≥ 0, e portanto Var(X) ≥ 0. Uma noção muito útil em estatística é dada pela raiz quadrada da variância (pois a variância p é maior ou igual a zero). Mais precisamente, seja X uma variável aleatória, então o número Var(X) é chamado de desvio padrão de X, e é denotado por σX . O seguinte resultado fornece uma simplificação do cálculo da variância: 67 / 135 Probabilidade e Estatística Proposição Seja X uma variável aleatória, então Var(X) = E(X 2 ) − (E(X))2 . Demonstração Temos que como E(X) é um número real constante, podemos utilizar as propriedades: esperança da multiplicação por constante; esperança da constante; e esperança da soma, para obter: i Var(X) = E (X − E(X))2 i = E X 2 − 2XE(X) + E(X)2 = E(X 2 ) − 2E(XE(X)) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 = E(X 2 ) − (E(X))2 . Importante É possível mostrar que se Var(X) = 0, então P(X = E(X)) = 1. Ou seja, X é uma variável aleatória constante. Quanto maior o valor da variância, mais a variável aleatória pode se afastar da esperança, ou seja, maior a oscilação da variável aleatória em torno da esperança. Exemplo 5.5 Exemplo de variância de uma variável aleatória discreta Seja X a variável aleatória discreta que toma valor 1 com probabilidade p e toma valor 0 com probabilidade 1 − p. Então, temos que E(X) = 0 · (1 − p) + 1 · p = p. Daí, Var(X) = E(X 2 ) − E(X)2 = E(X 2 ) − p2 = 02 · (1 − p) + 1 · p − p2 = p(1 − p). Exemplo 5.6 Exemplo de variância de uma variável aleatória contínua Seja X variável aleatória contínua com função de densidade 1 + x, −1 ≤ x ≤ 0, f (x) = 1 − x, 0 ≤ x ≤ 1, 0, caso contrário. Comece notando que Z 0 E(X) = Z 1 x(1 + x)dx + Z−1 0 x(1 − x)dx Z 10 x + x2 dx + x − x2 dx 0 1 0 2 −12 x3 x x3 x + + − = 2 3 2 3 = −1 = −1/2 + 1/3 + 1/2 − 1/3 = 0. 68 / 135 0 Probabilidade e Estatística Além disso, E(X 2 ) Z 0 = Z 1 2 x (1 + x)dx + Z−1 0 2 3 Z 1 = x + x dx + = −13 0 0 3 x x4 x 3 + 4 −1 + 3 x2 (1 − x)dx 0 x2 − x3 dx 4 1 − x4 = 1/3 − 1/4 + 1/3 − 1/4 = 1/6. 0 Logo, Var(X) = E(X 2 ) = 1/6. 5.6 Propriedades da variância Nesta seção vamos apresentar algumas propriedades da variância e provar algumas delas. Propriedades da variância • (Variância da constante): Seja c ∈ R um número real, e seja X a variável aleatória constante igual a c, ou seja, P(X = c) = 1. Então, Var(X) = 0. • (Soma por constante): Seja X uma variável aleatória e seja c ∈ R uma constante. Então, Var(X + c) = Var(X). • (Variância da soma de variáveis independentes): Sejam X e Y variáveis aleatórias independentes. Então, Var(X +Y ) = Var(X) +Var(Y ). • (Variância da multiplicação por constante): Seja X variável aleatória, e seja c ∈ R uma constante. Então, Var(cX) = c2Var(x). • (Variância de uma função afim de X): Sejam a, b ∈ R, e seja X variável aleatória. Então, Var(aX + b) = a2Var(X). Demonstração • (Variância da constante): Observe que se X é constante igual a c, temos pela propriedade da esperança que E(X) = c. Daí h i Var(X) = E (X − E(X))2 = E[(c − c)2 ] = 0. • (Soma por constante): Usando as propriedades da esperança, temos diretamente que h i h i h i 2 2 2 Var(X +c) = E (X +c−E(X +c)) = E (X +c−E(X)−c) = E (X −E(X)) = Var(X). • (Variância da soma de variáveis independentes): Foge do escopo do livro. • (Variância da multiplicação por constante): Usando as propriedades da esperança, temos que h i h i Var(cX) = E (cX − E(cX))2 = E (cX − cE(X))2 h i h i = E c2 (X − E(X))2 = c2 E (X − E(X))2 = c2Var(X). 69 / 135 Probabilidade e Estatística • (Variância de uma função afim de X): Usando a variância da soma por constante, temos que Var(aX + b) = Var(aX), e usando a variância da multiplicação por constante obtemos Var(aX) = a2Var(X). Combinando as duas igualdades obtemos Var(aX + b) = a2Var(X). Exercício Seja X uma variável aleatória contínua com função de densidade ( 1 , a < x < b, f (x) = b−a 0, caso contrário. Encontre Var(X). Solução Já vimos no exemplo de esperança de variável aleatória contínua que E(X) = a+b 2 . Temos agora que Z b 1 b 2 1 2 E(X ) = x dx = b−a b−a a a 1 b3 a3 = − b−a 3 3 b3 − a3 . = 3(b − a) Mas observe agora que temos o produto notável: (b − a)(a2 + ab + b2 ) = a2 b + ab2 + b3 − a3 − a2 b − ab2 = b3 − a3 . Portanto, segue que E(X 2 ) = b3 − a3 (b − a)(a2 + ab + b2 ) a2 + ab + b2 = = . 3(b − a) 3(b − a) 3 Finalmente, temos Var(X) = E(X 2 ) − (E(X))2 = a2 + ab + b2 (a + b)2 a2 − 2ab + b2 (b − a)2 − = = . 3 4 12 12 Resumindo, Var(X) = (b − a)2 /12. 5.7 Atividades 1. Duas bolas são escolhidas aleatoriamente de uma urna contendo 4 bolas azuis, 3 vermelhas e 2 laranjas. Suponha que ganhamos 10 reais para cada bola azul selecionada, ganhamos 1 real para cada bola laranja, porém perdemos 8 reais para cada bola vermelha. Seja X o nosso lucro. a. Determine a função de probabilidade de X; b. Calcule a esperança e variância de X. 2. Exatamente uma entre 6 chaves parecidas abre uma determinada porta. Tenta-se uma chave após a outra. Qual o número médio de tentativas necessárias para se conseguir abrir a porta? 3. Cinquenta pessoas lançam uma moeda honesta dez vezes. Obtenha a média e a variância do número de pessoas que obtêm exatamente 5 caras. 70 / 135 Probabilidade e Estatística 4. Seja X uma variável aleatória contínua com densidade f (x) = 1 , x2 x ≥ 1. a. Mostre que f é, de fato, uma densidade; b. A esperança de X existe? Se sim, quanto vale? 5. Seja X uma variável aleatória com distribuição de Laplace (também conhecida como exponencial dupla), ou seja, X tem densidade 1 f (x) = e|x| , x ∈ R. 2 Obtenha: a. E(X); b. E(|X|); c. Var(X); R ESPOSTAS 1. a) p(−16) = 1/12, p(−7) = 1/6, p(2) = 13/36, p(11) = 2/9, p(20) = 1/6. E(X) = 4,Var(X) = 108, 5. 2. 7/2. b) 3. média = 12,3; variância = 9,3. 4. b) E(X) = ∞ 5. a) E(X) = 0; b) E(|X|) = 1. c) Var(X) = 2. Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 71 / 135 Probabilidade e Estatística Capítulo 6 Principais Distribuições Discretas O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Conhecer as principais distribuições discretas • Saber a diferença entre a distribuição binomial e hipergeométrica • Saber a diferença entre a distribuição geométrica e binomial negativa • Entender a definição da distribuição Poisson e como utilizar a distribuição Poisson para aproximar a distribuição binomial Aqui apresentaremos as principais distribuições de variáveis aleatórias discretas, ou seja, apresentaremos a função de probabilidade de algumas variáveis aleatórias importantes. Além disso, apresentaremos algumas propriedades dessas variáveis aleatóriais, tais como esperança e variância. O objetivo dessa seção é que o estudante saiba reconhecer qual distribuição utilizar em cada situação. 6.1 A Distribuição Bernoulli A primeira e mais simples distribuição é a distribuição Bernoulli. É a distribuição de uma variável aleatória que só pode assumir dois valores: 0 e 1. Esta distribuição é bastante útil, pois normalmente usa-se a interpretação do resultado 1 como sucesso e 0 como fracasso. Mais precisamente, temos a Definição: Variável Aleatória Seguindo Distribuição Bernoulli Seja X uma variável aleatória discreta tomando os valores 0, 1. Seja p, a probabilidade de X assumir o valor 1, isto é, seja P(X = 1) = p. Então, pela probabilidade do complementar, segue que P(X = 0) = 1 − p. Podemos escrever de forma compacta a função de probabilidade de X como P(X = i) = pi (1 − p)1−i , i = 0, 1. Se X satisfaz a definição acima dizemos que X segue distribuição de Bernoulli com parâmetro p, e denotamos X ∼ Ber(p). 72 / 135 Probabilidade e Estatística Esperança Seja X ∼ Ber(p), então E(X) = 0 · P(X = 0) + 1 · P(X = 1) = p. Dica Observe que como X só assume valor 0 ou 1, temos que X = X 2 , e portanto, E(X) = E(X 2 ). Variância Seja X ∼ Ber(p), então Var(X) = E(X 2 ) − (E(X))2 = E(X) − (E(X))2 = p − p2 = p(1 − p). Exemplo 6.1 Onde surge o uso da distribuição Bernoulli A distribuição Bernoulli aparece naturalmente em várias situações. Alguns exemplos incluem: • Lançamento de moedas; • Encontrar produtos perfeitos ou defeituosos; • Ganhar ou perder um sorteio. 6.2 A Distribuição Binomial A melhor maneira de ilustrar a distribuição binomial é com o seguinte exemplo: Exemplo 6.2 Exemplo de distribuição binomial Suponha que temos uma urna com um certo número de bolas, donde com probabilidade p retiramos bolas azuis e com probabilidade 1 − p retiramos bolas vermelhas, se a retirada for ao acaso. Suponha que então que n bolas são retiradas com reposição (ou seja, a probabilidade de tirar uma bola azul, não muda após as retiradas). Se X é a variável aleatória dada pelo número de bolas azuis que foram retiradas entre as n bolas, dizemos que X segue distribuição binomial com parâmetros n e p. Importante Olhando para o exemplo anterior é possível observar que podemos pensar numa distribuição binomial como uma distribuição que surge de n distribuições de Bernoulli. De fato, se Xi é a variável aleatória que é igual a 1 se a i-ésima bola retirada foi azul, e zero caso contrário, temos que Xi ∼ Ber(p). Observe que como as retiradas das bolas são independentes, as variáveis aleatórias Xi são independentes. n Desta forma, é fácil ver que o valor de X é dado pela soma ∑ Xi. Pois teremos retirado k i=1 bolas azuis se, e somente se, tiver k variáveis aleatórias Xi sendo iguais a 1. Desta forma, podemos (e devemos) interpretar uma variável aleatória seguindo distribuição binomial como soma de n variáveis aleatórias independentes seguindo distribuição Bernoulli. 73 / 135 Probabilidade e Estatística Vamos agora calcular a probabilidade em questão. Note que para termos k bolas azuis entre n bolas retiradas, devemos ter exatamente n − k bolas vermelhas. Como as retiradas de bolas são independentes, e a probabilidade de se obter uma bola azul é p, segue que a probabilidade de termos k bolas azuis e n − k bolas vermelhas é pk (1 − p)n−k . Para concluirmos o cálculo da probabilidade, devemos calcular de quantas formas podemos retirar k bolas azuis e n − k bolas vermelhas, se retiramos um total de n bolas. Esta quantidade é dada pelo número de subconjuntos de k elementos em um conjunto com n elementos. Para entender esta conta, podemos pensar que temos um conjunto com n bolas brancas. Tomando um subconjunto com k elementos, é a mesma coisa que retirar k bolas. Então pintamos essas k bolas retiradas de azul, e as bolas restantes pintamos de vermelho. Desta forma, temos uma maneira de retirar k bolas azuis entre um total de n bolas retiradas. Assim, vemos que quando olhamos para todos os subconjunto de k elementos, estamos olhando para todas as formas de retirarmos k bolas azuis entre n bolas disponíveis. Finalmente, o número de subconjuntos de k elementos de um conjunto com n elementos é dado por n . Portanto, temos que se X é a variável aleatória dada pelo número de bolas azuis retiradas após k retirarmos n bolas, temos que n k P(X = k) = p (1 − p)n−k , k = 0, . . . , n. k Esta é a função de probabilidade de uma distribuição binomial. Portanto, podemos fornecer a seguinte Definição: Variável Aleatória Seguindo Distribuição Binomial Seja X uma variável aleatória dada pelo número de sucessos em n ensaios de Bernoulli, ou seja, o número de sucessos obtidos em n variáveis aleatórias de Bernoulli independentes. Então, dizemos que X segue distribuição binomial, denotamos por X ∼ Bin(n, p), e sua função de probabilidade é dada por n k p (1 − p)n−k , k = 0, . . . , n. P(X = k) = k É importante verificar que a nossa conta está correta, e que, de fato, a função de probabilidade dada acima tem soma total igual a 1. Isto segue diretamente do binômio de Newton: n n n ∑ P(X = k) = ∑ k pk (1 − p)n−k = (p + 1 − p)n = 1. k=0 k=0 Esperança n n k E(X) = ∑ k p (1 − p)n−k k k=0 n n! pk (1 − p)n−k = ∑k k=1 k!(n − k)! n n! = ∑ pk (1 − p)n−k . k=1 (k − 1)!(n − k)! 74 / 135 Probabilidade e Estatística Faça agora a mudança de variável m = k − 1. Isto implica k = m + 1, e portanto, continuando, n E(X) = n! ∑ (k − 1)!(n − k)! pk (1 − p)n−k k=1 n−1 = = = = = n! pm+1 (1 − p)n−m−1 m=0 m!(n − m − 1)! n−1 n · (n − 1)! ∑ m!((n − 1) − m)! p · pm(1 − p)(n−1)−m m=0 n−1 (n − 1)! np ∑ pm (1 − p)(n−1)−m m=0 m!(n − 1 − m)! np(p + 1 − p)n−1 np. ∑ Assim, E(X) = np. Importante Temos outra forma de calcular a esperança usando ensaios de Bernoulli. Como mencionamos, se Xi ∼ Ber(p) são independentes para i = 1, . . . , n, então, n n ∑ Xi ∼ Bin(n, p). Fazendo X = i=1 ∑ Xi, temos que X ∼ Bin(n, p), e usando a pro- i=1 priedade de soma de esperança, segue que E(X) = E n n n X = E(X ) = ∑ i ∑ i ∑ p = np, i=1 i=1 i=1 pois, como vimos na distribuição Bernoulli, E(Xi ) = p. Variância Vamos começar calculando E(X 2 ): n 2 n 2 E(X ) = ∑ k pk (1 − p)n−k k k=0 n n k = ∑ k(k − 1 + 1) p (1 − p)n−k k k=1 n n n k n k n−k = ∑ k(k − 1) p (1 − p) + ∑ k p (1 − p)n−k k k k=2 k=1 n n k = ∑ k(k − 1) p (1 − p)n−k + E(X) k k=2 n n k = ∑ k(k − 1) p (1 − p)n−k + np. k k=2 Vamos então calcular o último somatório do lado direito: n n n k n! n−k k(k − 1) p (1 − p) = k(k − 1) pk (1 − p)n−k ∑ ∑ k k!(n − k)! k=2 k=2 n n! = ∑ pk (1 − p)n−k . (k − 2)!(n − k)! k=2 75 / 135 Probabilidade e Estatística Façamos agora a mudança de variável m = k − 2, daí k = m + 2. Portanto, n n ∑ k(k − 1) k pk (1 − p)n−k = k=2 = = = = n−2 n! pm+2 (1 − p)n−2−m m=0 m!(n − 2 − m)! n−2 (n − 2)! ∑ n(n − 1) m!(n − 2 − m)! p2 · pm(1 − p)n−2−m m=0 n−2 (n − 2)! 2 n(n − 1)p ∑ pm (1 − p)n−2−m m=0 m!(n − 2 − m)! 2 n(n − 1)p (p + 1 − p)n−2 n(n − 1)p2 . ∑ Assim, juntando as contas, temos que E(X 2 ) = n(n − 1)p2 + np = (np)2 + np − np2 = (np)2 + np(1 − p). Finalmente, obtemos Var(X) = E(X 2 ) − (E(X))2 = (np)2 + np(1 − p) − (np)2 = np(1 − p). Exercício Um servidor de um jogo online possui 20 slots disponíveis, ou seja, aceita até 20 jogadores simultaneamente. A probabilidade, em qualquer hora do dia, de que um desses slots esteja disponível é de 40%, e que a disponibilidade dos slots são independentes. Qual a probabilidade de um par de amigos encontrarem dois slots disponíveis? Solução Seja X o número de slots disponíveis no jogo. Sabemos, pela definição do problema que X ∼ Bin(20, 0.4). Queremos calcular P(X ≥ 2). Note que P(X ≥ 2) = 1 − P(X = 1) − P(X = 0). Daí, 20 P(X = 0) = (0.4)0 (0.6)20 = (0.6)20 ; 0 e 20 P(X = 1) = 0.4(0.6)19 = 20 · 0.4(0.6)19 = 8 · (0.6)19 . 1 Desta forma, P(X ≥ 2) = 1 − (0.6)20 − 8(0.6)19 . Nota Observe que a hipótese de independência no exemplo acima não é realista, porém é necessária para ser possível trabalhar matematicamente. Caso contrário seria muito complicado. Suposições desta natureza para facilitar a resolução prática de problemas são muito comuns. 76 / 135 Probabilidade e Estatística 6.3 A Distribuição Geométrica Suponha que uma pessoa tem uma moeda que pode ser desonesta, ou seja, assume cara com probabilidade p, e coroa com probabilidade 1 − p. Vamos agora considerar o experimento aleatório: lançar esta moeda sucessivamente até obter cara. Qual a probabilidade da cara ser obtida no lançamento número k? Ou colocando numa forma mais matemática, se X é a variável aleatória dada pelo número do lançamento no qual a cara foi obtida, qual é a probabilidade P(X = k)? A resposta é simples. Para obtermos cara no lançamento número k, esta pessoa terá que ter obtido coroa em todos os k − 1 lançamentos anteriores e ter obtido cara exatamente no k-ésimo lançamento. Como os lançamentos das moedas são independentes, temos que esta probabilidade é P(X = k) = p(1 − p)k−1 , k = 1, 2, . . . . Essa variável aleatória X é uma variável aleatória que segue distribuição geométrica. Mais precisamente, Definição: Variável Aleatória Seguindo Distribuição Geométrica Sejam X1 , X2 , X3 , . . . variáveis aleatórias independentes seguindo distribuição Bernoulli com parâmetro p. Seja X a variável aleatória dada pela ocorrência do primeiro sucesso, ou seja, o menor índice i, tal que Xi teve sucesso. Então, dizemos que X segue distribuição geométrica com parâmetro p, e denotamos X ∼ G(p). A função de probabilidade de X é dada por P(X = k) = p(1 − p)k−1 , k = 1, 2, . . . . Primeiro vamos observar que a nossa conta está correta e, de fato, a função descrita acima é uma função de probabilidade. Temos claramente que p(1 − p)k−1 ≥ 0, e pela soma dos termos de uma progressão geométrica, temos ∞ ∞ k=1 k=1 1 p ∑ p(1 − p)k−1 = p ∑ (1 − p)k−1 = p 1 − (1 − p) = p = 1. Antes de calcularmos a esperança e variância da distribuição geométrica utilizaremos os seguintes resultados sobre séries geométricas e suas derivadas: k • Definindo a função f (r) = ∑∞ k=0 r , temos que ela converge para 0 ≤ r < 1, e vale a igualdade ∞ 1 ∑ rk = 1 − r ; f (r) = k=0 • Temos que para todo 0 ≤ r < 1, f é infinitamente diferenciável, e sua derivada, para 0 ≤ r < 1 é dada por f 0 (r) = ∞ 1 ∑ krk−1 = (1 − r)2 ; k=1 • Para 0 ≤ r < 1 a segunda derivada de f é dada por 77 / 135 Probabilidade e Estatística f 00 (r) = ∞ 2 ∑ k(k − 1)rk−2 = (1 − r)3 . k=2 Esperança Temos que ∞ E(X) = ∑ kp(1 − p)k−1 k=1 ∞ = p ∑ k(1 − p)k−1 k=1 1 (1 − (1 − p))2 1 = p 2 p 1 . = p = p Variância Para encontrar E(X 2 ) vamos calcular primeiro E[X(X − 1)], usando a fórmula da segunda derivada da série geométrica: ∞ E[X(X − 1)] = ∑ k(k − 1)p(1 − p)k−1 k=2 ∞ = p(1 − p) ∑ k(k − 1)(1 − p)k−2 k=2 2 (1 − (1 − p))3 2 = p(1 − p) 3 p 2(1 − p) = . p2 = p(1 − p) Assim, segue que: 1 E[X(X − 1)] = E(X 2 − X) = E(X 2 ) − E(X) = E(X 2 ) − . p Ou seja, E(X 2 ) = E(X 2 ) + 1 2(1 − p) 1 2 − 2p p 2− p = + = + 2= 2 . 2 2 p p p p p p Finalmente, Var(X) = E(X 2 ) − (E(X))2 = 6.3.1 2− p 1 1− p − = . p2 p2 p2 Perda de Memória Exemplo 6.3 Ilustração da perda de memória da distribuição geométrica Suponha que João está lançando moedas até o resultado sair cara. Suponha que esta João já lançou a moeda 12 vezes, e ainda não saiu cara, isto significa que a probabilidade do resultado sair cara no próximo lançamento será maior do que era 12 jogadas atrás? 78 / 135 Probabilidade e Estatística A resposta é não. Não importa o quanto tempo João tenha esperado, a probabilidade do próximo lançamento sempre será 1/2. Esta propriedade da distribuição geométrica é chamada de perda de memória. Mais precisamente, seja X uma variável aleatória seguindo distribuição Geométrica com parâmetro p. Então, temos que para todo par de inteiros positivos, m, n, vale P(X > m + n|X > m) = P(X > n). De fato, temos que P(X > m + n|X > m) = P(X > m + n, X > m) P(X > m + n) = , P(X > m) P(X > m) no entanto, usando a fórmula da soma dos termos de uma progressão geométrica infinita, temos ∞ P(X > m + n) = ∑ p(1 − p)k−1 = k=m+n+1 p(1 − p)m+n = (1 − p)m+n . 1 − (1 − p) Analogamente, P(X > m) = (1 − p)m . Logo, P(X > m + n|X > m) = P(X > m + n) (1 − p)m+n = = (1 − p)n = P(X > n). P(X > m) (1 − p)m Isto prova a perda de memória. Observe que aqui, na realidade, mostra mais do que falamos. Não só diz que a próxima probabilidade não muda, mas essencialmente diz o seguinte: se João já esperou um certo tempo m para sair cara, e a cara ainda não saiu, as probabilidades de sair cara dali para frente são as mesmas de como se ele tivesse começado a lançar naquele momento. Ou seja, a distribuiçã geométrica “esquece” todo o passado que já foi executado. 6.4 6.4.1 A Distribuição Pascal (ou Binomial Negativa) Generalização do Binômio de Newton Antes de definirmos esta distribuição, vamos rever rapidamente um pouco de teoria matemática presente em cursos de cálculo. Existe uma classe de funções reais, tais que a seguinte fórmula, conhecida como expansão em série de Taylor, é verdade ∞ f (k) (a) f 00 (a) 2 (x − a) + · · · = ∑ (x − a)k , f (x) = f (a) + f (a)(x − a) + 2 k! k=0 0 onde f (k) (a) denota a k-ésima derivada de f no ponto a, e f : I → R, onde I ⊂ R é um intervalo aberto. As funções tais que essa expansão é válida são conhecidas como funções analíticas. Importante Conhecemos várias funções analíticas: a função exponencial; seno; co-seno; logaritmo; poliônimos e frações de polinômios. 79 / 135 Probabilidade e Estatística 1 Um caso particular importante é dado pelas funções do tipo f (x) = (1 − x)−r−1 = (1−x) r+1 , onde r é um número natural. Como f é fração de polinômios, temos que f é analítica. Assim, considerando o ponto a = 0, temos f (x) = (1 − x)−r−1 ; f 0 (x) = −(−r − 1)(1 − x)−r−2 ; f 00 (x) = −(−r − 2)(−r − 1)(1 − x)−r−3 , . . . , e em geral, temos f (k) (x) = −(−r − k)(−r − (k − 1)) · · · (−r − 1)(1 − x)−r−k−1 . Definindo o coeficiente binomial generalizado como −r (−r)(−r − 1) . . . (−r − k + 1) = , k k! k = 0, 1, 2, . . . , podemos escrever f (k) −r − 1 (x) = (−1) k! (1 − x)−r−k−1 . k k Aplicando no ponto a = 0, temos f (k) −r − 1 (0) = (−1) k! , k k por sua vez, usando na série de Taylor, obtemos, −r−1 (1 − x) ∞ = f (x) = ∑ k=0 ∞ ∞ −r − 1 f (k) (0) k k k −r − 1 (−x)k . x =∑ x = ∑ (−1) k k k! k=0 k=0 Assim, temos o binômio de Newton generalizado: −r−1 (1 − x) −r − 1 =∑ (−x)k . k k=0 ∞ Observe que vale também a igualdade: r+k (r + k)(r + k − 1) · · · (r + 1)r = k k! (−r − k)(−r − (k − 1)) · · · (−r − 1)(−r) k k −r − 1 = (−1) = (−1) . k! k Daí, vale também a fórmula do binômio de Newton generalizado: ∞ r+k k −r−1 (1 − x) =∑ x. k k=0 6.4.2 Distribuição Pascal A distribuição de Pascal (ou Binomial Negativa) é uma generalização natural da distribuição geométrica. Para entendermos melhor esta distribuição, voltemos ao exemplo do lançamento de moedas. 80 / 135 Probabilidade e Estatística Se uma pessoa tem uma moeda que pode ser desonesta, ou seja, assume cara com probabilidade p, e coroa com probabilidade 1 − p. Suponha que temos o seguinte experimento aleatório: lançar uma moeda sucessivamente até obter r caras. Qual a probabilidade da r-ésima cara ser obtida no lançamento k? Ou, escrevendo de uma maneira matematicamente mais precisa, se X denota a variável aleatória dada pelo número do lançamento pelo qual a r-ésima cara foi obtida, qual é a probabilidade P(X = k)? Vamos calcular essa probabilidade por partes. Comece notando que X = k, se e somente se, no késimo lançamento o resultado foi cara e nos k − 1 lançamentos anteriores, obtemos r − 1 caras. O número de formas de isso acontecer é simples: escolher r − 1 resultados para sair cara, entre k − 1 k−1 resultados possíveis, ou seja, temos r−1 possibilidades. Finalmente, como em um total de k lançamentos, saíram r caras e k − r coroas, e temos k−1 r−1 possibilidades, a probabilidade é dada por k−1 r P(X = k) = p (1 − p)k−r , k = r, r + 1, . . . , r−1 onde k ≥ r, pois para obter r caras, temos que no mínimo ter k lançamentos. Importante Observe que se r = 1, temos que X segue uma distribuição geométrica com parâmetro p. Mais precisamente, Definição: Variável Aleatória Seguindo Distribuição Pascal Sejam X1 , X2 , . . . variáveis aleatórias independentes seguindo distribuição Bernoulli com parâmetro p. Seja X a variável aleatória dada pela ocorrência do r-ésimo sucesso, ou seja, o índice i, tal que Xi é o r-ésimo sucesso. Então, dizemos que X segue distribuição Pascal (ou binomial negativa) com parâmetros r e p, e denotamos X ∼ Pas(r, p). A função de probabilidade de X é k−1 r P(X = k) = p (1 − p)k−r , k = r, r + 1, . . . , r−1 Vamos começar mostrando que a função acima é, de fato, uma função de probabilidade. Claramente, k−1 r p (1 − p)k−r ≥ 0, e, temos ainda que usando a mudança de variável j = k − r, r−1 ∞ ∞ k−1 r j+r−1 r k−r ∑ r − 1 p (1 − p) = ∑ r − 1 p (1 − p) j j=0 k=r ∞ j + r − 1 = pr ∑ (1 − p) j j j=0 1 = pr (1 − (1 − p))r 1 = pr r p = 1, onde usamos o binômio de Newton generalizado e usamos que j+r−1 ( j + r − 1)! j+r−1 = = . (r − 1)! j! j r−1 81 / 135 Probabilidade e Estatística Nota A distribuição de Pascal, ou Binomial Negativa, recebe o nome de binomial negativa, por utilizar o binômio de Newton generalizado (com expoente negativo) para calcular sua esperança e variância, assim como para mostrar que a soma das probabilidades é igual a 1. Importante Existe uma caracterização da distribuição Pascal em termos de soma de variáveis aleatórias seguindo distribuição geométrica: sejam X1 , X2 , . . . , Xr variáveis aleatórias independentes seguindo distribuição Geométrica com parâmetro p. Assim, definindo X = ∑rk=1 Xk , temos que X segue distribuição Pascal com parâmetros r e p. A intuição é que para termos a “posição” do r-ésimo sucesso, contabilizamos a posição do primeiro sucesso com a variável X1 , adicionamos a variável X2 para obter a posição do segundo sucesso, . . . ,, adicionamos a variável Xr para obter a posição do r-ésimo sucesso. Ou seja, cada variável geométrica Xi representa o tempo que temos que esperar entre os sucessos, até a obtenção de um sucesso. Esperança Temos que, fazendo a mudança j = k − r, ∞ k−1 r E(X) = ∑ k p (1 − p)k−r r − 1 k=r ∞ j+r−1 r = ∑ ( j + r) p (1 − p) j r − 1 j=0 ∞ ( j + r − 1)! (1 − p) j = pr ∑ ( j + r) (r − 1)! j! j=0 ∞ ( j + r)! = pr ∑ (1 − p) j j=0 (r − 1)! j! ∞ ( j + r)! = pr ∑ r (1 − p) j r! j! j=0 ∞ j+r r = p ∑r (1 − p) j j j=0 ∞ j+r r = rp ∑ (1 − p) j j j=0 1 = rpr (1 − (1 − p))r+1 r = . p 82 / 135 Probabilidade e Estatística Importante Vale a pena notar que utilizando a caracterização de X como soma de variáveis aleatórias independentes seguindo distribuição geométrica, temos que r X = ∑ Xi , i=1 onde Xi ∼ G(p). Daí, E(X) = E r r r r 1 X = E(X ) = ∑ i ∑ i ∑ p = p. i=1 i=1 i=1 Variância Vamos começar calculando E[X(X + 1)]: k−1 r ∑ k(k + 1) r − 1 p (1 − p)k−r k=r ∞ j+r−1 r ∑ ( j + r + 1)( j + r) r − 1 p (1 − p) j j=0 ∞ ( j + r − 1)! r (1 − p) j p ∑ ( j + r + 1)( j + r) (r − 1)! j! j=0 ∞ ( j + r + 1)! pr ∑ (1 − p) j (r − 1)! j! j=0 ∞ ( j + r + 1)! pr ∑ r(r + 1) (1 − p) j (r + 1)! j! j=0 ∞ j+r+1 r p ∑ r(r + 1) (1 − p) j j j=0 ∞ j+r+1 r (1 − p) j r(r + 1)p ∑ j j=0 1 r(r + 1)pr (1 − (1 − p))r+2 r(r + 1) . p2 ∞ E[X(X + 1)] = = = = = = = = = Portanto, temos que E[X(X + 1)] = E(X 2 + X) = E(X 2 ) + E(X). Como E(X) = r/p e E[X(X + 1)] = r(r + 1)/p2 , temos que E(X 2 ) = r(r + 1) r r2 + r − rp − = . p2 p p2 Finalmente, a variância é dada por Var(X) = E(X 2 ) − (E(X))2 = 6.5 r2 + r − rp r2 r − rp r(1 − p) − 2= = . 2 p p p2 p2 Distribuição Hipergeométrica Assim como na distribuição binomial, vamos ilustrar a distribuição hipergeométrica com um exemplo: 83 / 135 Probabilidade e Estatística Exemplo 6.4 Exemplo de distribuição hipergeométrica Suponha que temos uma urna com N bolas, das quais n bolas são azuis, e N − n bolas são vermelhas. Suponha que m bolas foram retiradas aleatoriamente da urna sem reposição. Se X é a variável aleatória dada pelo número de bolas azuis que foram retiradas entre as m bolas, dizemos que X segue distribuição hipergeométrica com parâmetros N, n, m. Vamos agora calcular a probabilidade em questão. Queremos calcular a probabilidade de termos k bolas azuis. Note que temos m retiradas de bolas, entre as quais queremos k bolas azuis e m − k bolas vermelhas. O total de bolas azuis é n, então temos n N−n formas de selecionar estas bolas azuis e como temos N − n bolas vermelhas, temos formas k m−k de selecionar as bolas vermelhas. Como temos N bolas no total, e queremos selecionar m bolas, temos N m formas de selecionar m bolas. Portanto, a probabilidade é dada por P(X = k) = n N−n k m−k . N m Temos então a Definição: Variável Aleatória Seguindo Distribuição Hipergeométrica Suponha que temos N objetos para selecionarmos. Suponha que temos n formas de obter uma seleção “boa”, e N − n formas de obter uma seleção “ruim”. Suponha que tomemos uma amostra de tamanho m, sem reposição, e seja Xi a variável aleatória que assume valor 1, se a i-ésima seleção foi boa e assume valor 0, se a i-ésima seleção foi ruim. Então se X denota o número de seleções boas, ou seja, se m X = ∑ Xi , i=1 dizemos que X segue distribuição hipergeométrica com parâmetros N, n, m, denotamos por X ∼ HG(N, n, m), e sua função de probabilidade é dada por n N−n P(X = k) = k m−k N m , k = 0, . . . , m. (nk)(N−m m−k ) ≥ 0. Para N (m ) mostrar que a soma sobre todos os valores de k é igual a 1, vamos obter uma identidade de coeficientes binomiais. Vamos mostrar que a função acima é uma função de probabilidade. Claramente, Considere ocoeficiente de xm na expansão de (1 + x)N em binômio de Newton. Este coeficiente é dado por Nm . Por outro lado, sabemos que (1 + x)N = (1 + x)n (1 + x)N−n . Vamos olhar então o coeficiente de xm na expansão de (1 + x)n (1 + x)N−n , que é igual a Nm . Mas, observe que n N−n (1 + x) (1 + x) N−n n i N − n j = ∑ x ∑ j x i=0 i j=0 N i n N −n i = ∑ ∑ x. i− j i=0 j=0 j n 84 / 135 Probabilidade e Estatística Assim, o coeficiente de xm na expansão de (1 + x)n (1 + x)N−n é dado por m n N −n . ∑ m−k k=0 k Portanto, notando que o coeficiente de xm na expansão de (1 + x)n (1 + x)N−n é igual ao coeficiente de xm na expansão de (1 + x)N , pois (1 + x)N = (1 + x)n (1 + x)N−n , chegamos à identidade de ChuVandermonte: m N n N −n =∑ . m m−k k=0 k Dividindo ambos os lados por Nm , temos n N−n k m−k N k=0 m m ∑ Isto é o que queríamos provar, pois P(X = k) = = 1. (nk)(N−n m−k ) . (Nm) Esperança Temos que n N−n k k Nm−k k=0 m n N−n m k k Nm−k k=1 m m N−n n m−k k N k k=1 m N−n m n! m−k k N k=1 k!(n − k)! m N−n m n! m−k N (k − 1)!(n − k)! k=1 m N−n m (n − 1)! m−k n N (k − 1)!(n − k)! k=1 N−n m m n − 1 m−k n N k=1 k −1 m m n−1 N−n k−1 m−k n N k=1 m m n−1 N−n k−1 m−k n N−1 k=1 N/m m−1 n−1 N−n nm m k−1 m−k N−1 N k=1 m−1 m E(X) = = = = = = = = = = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ nm , N onde na última igualdade utilizamos a identidade de Chu-Vandermonte com a terna (N − 1, n − 1, m − 1). = 85 / 135 Probabilidade e Estatística Nota Podemos também utilizar a caracterização de X como a soma m X = ∑ Xi , i=1 onde Xi denota a variável aleatória que assume valor 1 se a i-ésima seleção foi boa, e assume valor 0 se a i-ésima seleção foi ruim. Observe que temos n seleções boas, entre um total de N possibilidades, ou seja, para cada i, as variáveis Xi possuem a mesma função de probabilidade: P(Xi = 1) = n , N daí, E(Xi ) = n/N , e portanto, E(X) = E m ∑ Xi i=1 m m n nm = . N i=1 N = ∑ E(Xi ) = ∑ i=1 Variância Utilizando a mesma técnica da esperança é possível mostrar que Var(X) = 6.6 mn(N − n)(N − m) . N 2 (N − 1) Distribuição Poisson Vamos começar motivando a definição da distribuição de Poisson por meio da aproximação conhecida como lei dos eventos raros. Também é conhecida como aproximação da distribuição binomial pela distribuição Poisson. Para tanto, considere o seguinte exemplo: Exemplo 6.5 Motivação para a distribuição de Poisson Suponha que uma empresa tem uma linha telefônica dedicada exclusivamente a reclamações. Num período fixado de 4 horas (por exemplo 08:00 às 12:00) essa linha recebe em média 500 ligações. Entretanto, essas ligações ocorrem aleatoriamente ao longo dessas 4 horas. Assim, sabemos que ao longo dos dias, teremos uma quantidade média de 500 ligações ao final das 4 horas, mas não sabemos em que momentos essas ligações são recebidas, nem o número exato de ligações recebidas em cada dia. A pergunta que surge é: Qual a probabilidade de termos k ligações no período de 4 horas no dia de hoje? Responder a pergunta acima não é uma tarefa trivial, e essa resposta envolve o uso da distribuição de Poisson. Para resolver este problema, divida o intervalo de 4 horas em n subintervalos, de mesmo tamanho, dado por 4/n horas, onde n > 500. Como 500 é o número médio de ligações recebidas durante todo o período, é esperado que tenhamos no máximo uma ligação em cada intervalo (observe que se n é muito grande, o intervalo fica muito pequeno, e a probabilidade de termos duas ligações no mesmo intervalo é próxima de zero, assim essa aproximação faz sentido). 86 / 135 Probabilidade e Estatística Assim, temos aproximadamente uma probabilidade 500/n de termos uma ligação em cada intervalo. Como temos n intervalos, a probabilidade de termos k ligações no total é dada pela probabilidade n de escolhermos k intervalos entre os n intervalos disponíveis: temos k formas de escolher esses k k n−k 500 intervalos, e cada escolha dessas tem probabilidade 500 1 − . Resumindo, se X denota n n a variável aleatória cujo valor é o número de ligações recebidas hoje durante as 4 horas, temos que P(X = k), ou seja, a probabilidade de termos k ligações é aproximadamente 500 n−k n 500 k 1− P(X = k) ≈ . k n n Em outras palavras, X segue aproximadamente distribuição binomial (n, 500/n). Observe que o valor esperado dessa aproximação binomial é dado por 500, o que mostra que a aproximação está consistente com o problema em questão. Finalmente, para sabermos a probabilidade exata, temos que calcular o limite do lado direito quando n tende a infinito. Faremos isso na próxima subseção. Nota Vale a pena observar que calcular a probabilidade do exemplo anterior usando a aproximação acima sem calcular o limite é uma tarefa computacionalmente complicada, pois envolve cálculo de fatoriais de números muito grandes. Por este motivo também, é muito comum usar uma aproximação inversa: se temos uma variável aleatória X seguindo distribuição binomial com parâmetros n e p, onde n é muito grande, é mais fácil calcular uma aproximação desta probabilidade usando a distribuição Poisson. 6.6.1 Aproximação da distribuição binomial pela Poisson Baseado no exemplo da seção anterior, suponha que temos uma taxa média λ > 0, e considere a sequência de variáveis aleatórias X1 , X2 , . . . , onde cada Xn segue distribuição Bin(n, λ /n). Observe que precisamos que n seja grande para que λ /n < 1 e portanto seja uma probabilidade. Nosso objetivo nesta seção é calcular o limite λ n−k n λ k 1− . lim P(Xn = k) = lim n→∞ n→∞ k n n 87 / 135 Probabilidade e Estatística Nota Para calcular o limite em questão, precisaremos relembrar alguns fatos básicos de cálculo em uma variável. Relembre que o número de Euler, e, é definido como 1 n e = lim 1 + . n→∞ n Utilizando a regra de L’Hopital, podemos mostrar que para todo x ∈ R x n ex = lim 1 + . n→∞ n Desta forma, se tomarmos x = −λ na expressão acima, obtemos, −λ e λ n . = lim 1 − n→∞ n Finalmente, para cada k natural fixado (constante, não muda com n), temos que limn→∞ 1− λ n k = 1, e portanto n λ 1− n λ n−k −λ = lim lim 1 − k = e . n→∞ n→∞ n 1 − λn Para começarmos a calcular o limite, observe que para cada k, temos n(n − 1) · · · (n − k + 1) n n! = . = k!(n − k)! k! k Desta forma, temos n λ k λ n−k P(Xn = k) = 1− k n n n(n − 1) · · · (n − k + 1) λ k λ n−k = 1− k! n n 1 λk λ n−k = n(n − 1) · · · (n − k + 1) k 1 − k! n n k λ n(n − 1) · · · (n − k + 1) λ n−k = 1− k! n nk λk n n − 1 n − k + 1 λ n−k = ··· 1− k! n n n n λk 1 (k − 1) λ n−k = 1− ··· 1− 1− . k! n n n Temos que valem os seguintes limites: 1 (k − 1) λ n−k lim 1 − ··· 1− = 1, e lim 1 − = e−λ . n→∞ n→∞ n n n Portanto, obtemos λk 1 (k − 1) λ n−k lim P(Xn = k) = lim 1− ··· 1− 1− n→∞ n→∞ k! n n n λ k −λ = e . k! 88 / 135 Probabilidade e Estatística Este é o valor do limite procurado no final do exemplo, e assim, voltando ao exemplo: .Motivação para a definição da distribuição Poisson Relembremos que se X denota a variável aleatória cujo valor é o número de ligações recebidas hoje durante as 4 horas, temos que P(X = k), ou seja, a probabilidade de termos k ligações é aproximadamente 500 n−k n 500 k 1− . P(X = k) ≈ n n k Em outras palavras, X segue aproximadamente distribuição binomial (n, 500/n). O valor exato da probabilidade é então dado por 500 n−k 500k −500 n 500 k 1− e . P(X = k) = lim = n→∞ k n n k! Importante Este resultado de aproximação também pode ser usado para calcular aproximações de probabilidades de distribuições binomiais quando n é muito grande. Mais precisamente, se temos uma variável aleatória X seguindo distribuição binomial com parâmetros n e p, e n é muito grande, podemos aproximar esta probabilidade por P(X = k) ≈ 6.6.2 (np)k −np e . k! Distribuição Poisson Definição: Variável Aleatória Seguindo Distribuição Poisson Suponha que temos ocorrências de eventos em um intervalo (de tempo ou espaço) I. Suponha que temos um número médio de ocorrências em I é dado por λ > 0, e que a ocorrência de cada evento subsequente é independente da ocorrência dos eventos anteriores. Então se X denota o número de ocorrências do evento no intervalo I, dizemos que X segue distribuição Poisson com parâmetro λ , denotamos por X ∼ P(λ ), e sua função de probabilidade é dada por P(X = k) = λ k −λ e , k! k = 0, 1, . . . . Para verificar que a função definida acima é realmente uma função de probabilidade, como temos, claramente, que λ k /k!e−λ > 0, basta verificar que a soma sobre todos os valores de k é igual a 1. Para tanto, relembre a definição de função analítica. É um fato conhecido que a função exponencial f (x) = ex é analítica. Como temos que f (x) = ex , f 0 (x) = ex , f 00 (x) = ex , f 000 (x) = ex , e, em geral, vale f (k) (x) = ex . Portanto, aplicando em a = 0, temos que f (k) (0) = 1. Assim, obtemos a série de Taylor da função exponencial, ∞ ∞ f (k) (0) k 1 ex = f (x) = ∑ x = ∑ xk . k! k=0 k=0 k! 89 / 135 Probabilidade e Estatística Em particular, obtemos ∞ 1 ∑ k! λ k . eλ = k=0 Vamos então mostrar que as probabilidades da Poisson formam, de fato, uma função de probabilidade: λ k −λ ∑ e k=0 k! ∞ ∞ ∑ P(X = k) = k=0 k λ = e−λ ∑∞ k=0 k! = e−λ eλ = 1. Esperança Temos que ∑∞ k=0 kP(X = k) λ k −λ ∑∞ k=0 k k! e λ k −λ ∑∞ k=1 k k! e λ k−1 −λ ∑∞ k=1 λ (k−1)! e E(X) = = = = k−1 λ −λ . = λ ∑∞ k=1 (k−1)! e Fazendo j = k − 1, temos que λ k−1 −λ e ∑ k=1 (k − 1)! ∞ λj = λ ∑ e−λ j=0 j! ∞ E(X) = λ = λ eλ e−λ = λ. Variância Vamos começar calculando E[X(X − 1)]. Daí, ∞ E[X(X − 1)] = ∑ k(k − 1)P(X = k) k=0 ∞ λ k −λ e k! k=0 ∞ λ k −λ = ∑ k(k − 1) e k! k=2 ∞ k λ = ∑ e−λ k=2 (k − 2)! ∞ λ k−2 −λ = ∑ λ2 e . (k − 2)! k=2 = ∑ k(k − 1) Fazendo a mudança de variável j = k − 2, temos que λ k−2 −λ E[X(X − 1)] = ∑ λ e (k − 2)! k=2 ∞ λ j −λ 2 = λ ∑ e j=0 j! ∞ 2 = λ 2 eλ e−λ = λ 2. 90 / 135 Probabilidade e Estatística Porém, como temos que E[X(X − 1)] = E(X 2 ) − E(X), e portanto E(X 2 ) = E[X(X − 1)] + E(X) = λ 2 + λ . Portanto, temos que Var(X) = E(X 2 ) − (EX)2 = λ 2 + λ − λ 2 = λ . Desta forma, uma variável aleatória com distribuição Poisson com parâmetro λ possui esperança e variância iguais a λ . 6.7 Atividades 1. Quinze pessoas portadoras de determinada doença são selecionadas para se submeter a um tratamento. Sabe-se que este tratamento é eficaz na cura da doença em 80% dos casos. Suponha que os indivíduos submetidos ao tratamento curam-se (ou não) independentemente uns dos outros. Seja X o número de pessoas curadas dentre os 15 pacientes submetidos ao tratamento. a) Qual a distribuição de X? b) Qual a probabilidade de que os 15 pacientes sejam curados? c) Qual a probabilidade de que pelo menos dois não sejam curados? 2. Um aluno estuda 12 exercícios, dos quais o professor vai escolher 6 aleatoriamente para uma prova. O estudante sabe resolver 9 dos 12 problemas. Seja X o número de exercícios resolvidos por ele na prova. a) Qual a distribuição de X? b) Qual a probabilidade do aluno resolver pelo menos 5 exercícios da prova. 3. Um estudante preenche ao acaso um exame de múltipla escolha com 5 respostas possíveis (uma das quais é a correta) para cada uma de 10 questões. a) Qual a distribuição do número de respostas certas? b) Qual a probabilidade de que o estudante obtenha 9 ou mais respostas certas? c) Qual a probabilidade de que acerte pelo menos duas questões? 4. Em uma pizzaria com entrega a domicílio, 30% dos pedidos por telefone são de mais de uma pizza. Certo dia, o dono decide mandar um brinde ao cliente que fizer o primeiro pedido com mais de uma pizza. Seja X o número de pedidos recebidos até o ganhador ganhar o brinde. a) Qual a distribuição de X? b) Determine o menor número de pedidos necessários para garantir que o brinde saia com probabilidade maior do que 0,9. 5. Um vendedor que vai de porta em porta, consegue concretizar uma venda em 40% das visitas que faz. Este vendedor pretende efetuar no mínimo duas vendas por dia. Seja X o número de visitas feitas até que a segunda venda seja efetivada. a) Qual a distribuição de X? b) Calcule a probabilidade de que o vendedor faça no máximo seis visitas para concluir as duas vendas. 6. O número X de acidentes de trabalho que ocorrem em uma fábrica por semana segue distribuição Poisson. Sabendo que a porcentagem de semanas em que ocorre um acidente é um terço da porcentagem de semanas em que não acontece nenhum, calcule: 91 / 135 Probabilidade e Estatística a) o parâmetro da distribuição; b) a probabilidade de que ocorra um acidente em uma semana e também um na semana seguinte, sabendo que acidentes em semanas diferentes são independentes; 7. Se uma variável aleatória tem distribuição Poisson e P(X = 0) = 1/2, quanto vale a variância de X? 8. Suponha que 1% das lâmpadas de enfeite de natal de certa marca apresentem defeito. Estime a probabilidade de que uma caixa com 30 lâmpadas contenha no máximo uma lâmpada com defeito. (Dica: Aproxime essa probabilidade pela distribuição Poisson) 9. Sabe-se que 0,6% dos parafusos produzidos em uma fábrica são defeituosos. Usando a aproximação da Binomial pela Poisson, estime a probabilidade de que, em um pacote com 1000 parafusos: a) tenhamos exatamente 4 parafusos defeituosos; b) não tenhamos mais do que 4 parafusos defeituosos; c) encontrem-se pelo menos 3 parafusos defeituosos. R ESPOSTAS 1. a) Binomial com n = 15, p = 0, 8 b) 0,035 c) 0,83 2. a) Hipergeométrica com parâmetros 6, 9 e 12 b) 1/2 3. a) Binomial com n = 10 e p = 1/5 b) 4, 2 · 10−6 c) 0, 62 4. a) Geométrica com p = 0, 3 b) 7 5. a) Binomial negativa n = 2 e p = 2/5 b) 0,7667 6. a) 1/3 b) 0,057 7. log(2) 8. 0,9631 9. a) 0,1339 b) 0,2851 c) 0,9380 Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 92 / 135 Probabilidade e Estatística Capítulo 7 Principais Distribuições Contínuas O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Conhecer as principais distribuições contínuas • Saber utilizar a tabela da distribuição normal • Conhecer a distribuição Exponencial e Gama • Saber utilizar a distribuição normal para aproximar a distribuição binomial Aqui apresentaremos algumas das principais distribuições contínuas. Para tanto, apresentaremos suas funções de densidade. Além disso, apresentaremos algumas propriedades destas distribuições, tais como esperança e variância. 7.1 Distribuição Uniforme Definição: Variável Aleatória Seguindo Distribuição Uniforme Suponha que X seja uma variável aleatória contínua que assuma valores no intervalo [a, b], no qual a e b sejam ambos finitos. Se a função de densidade de X for dada por ( 1 , a ≤ x ≤ b, f (x) = b−a 0, caso contrário, dizemos que X é uniformemente distribuída sobre o intervalo [a, b], e denotamos X ∼ U[a, b]. Uma variável aleatória uniformemente distribuída representa o análogo contínuo dos resultados equiprováveis no seguinte sentido: Para qualquer subintervalo [c, d], onde a ≤ c < d ≤ b, P(c ≤ X ≤ d) é a mesma para todos os subintervalos que tenham o mesmo comprimento. Ou seja, P(c ≤ X ≤ d) = Z d f (x)dx = c e, por isso, depende unicamente do comprimento do intervalo. 93 / 135 d −c , b−a Probabilidade e Estatística Esperança Temos que E(X) = b2 − a2 x2 b a+b x x= = . = d 2(b − a) a 2(b − a) 2 Z b b−a a Variância Temos que 2 E(X ) = Z b 2 x a b−a dx = b3 − a3 x3 b a2 + ab + b2 = . = 3(b − a) a 3(b − a) 3 Portanto, obtemos que a2 + ab + b2 (a + b)2 (b − a)2 Var(X) = E(X ) − (E(X)) = − = . 3 4 12 2 2 Exemplo 7.1 Exemplo de aplicação da distribuição uniforme Um ponto é escolhido ao acaso no segmento de reta [0, 2]. Qual será a probabilidade de que o ponto escolhido esteja entre 1 e 3/2? Seja X a variável aleatória que representa a coordenada do ponto escolhido. Temos que X ∼ U[0, 2], daí ( 1/2, 0 ≤ x ≤ 2, f (x) = 0, caso contrário, e P(1 ≤ X ≤ 3/2) = Z 3/2 1 1 7.2 2 dx = 1 13 −1 = . 2 2 4 A Distribuição Normal Definição: Variável Aleatória Seguindo Distribuição Normal A variável aleatória X, que assume valores na reta, −∞ < x < ∞, tem distribuição normal se sua função de densidade é da forma (x−µ)2 1 − f (x) = √ e 2σ 2 , 2πσ −∞ < x < ∞, onde −∞ < µ < ∞ e σ > 0, e denotamos X ∼ N(µ, σ 2 ). Na figura abaixo apresentamos gráficos das funções de densidade da distribuição normal para alguns valores de µ e σ 2 : 94 / 135 0.8 Probabilidade e Estatística 0.4 (−2;0.5) (0;1) 0.2 f(x) 0.6 (0;0.2) 0.0 (0;5) −4 −2 0 2 4 x Figura 7.1: Exemplo de funções de densidade da distribuição normal para valores de µ e σ 2 descritos no par ordenado (µ; σ 2 ) Esperança e Variância Temos que se X ∼ N(µ, σ 2 ), então e Var(X) = σ 2 . E(X) = µ 7.2.1 Padronização e Tabulação da Distribuição Normal Temos que se X ∼ N(µ, σ 2 ), então a variável padronizada Z= X −µ σ terá distribuição normal padrão, ou seja, Z ∼ N(0, 1), e sua função de densidade é dada por z2 1 f (z) = √ e− 2 , 2π −∞ < z < ∞. Logo, temos que Z b z2 1 √ e− 2 dz. a 2π Desta forma, dada uma variável aleatória X ∼ N(µ, σ 2 ), podemos padronizá-la na variável Z, e obter as probabilidades a partir da tabela de valores da função de distribuição da normal padrão P(a ≤ Z ≤ b) = Φ(z) = P(Z ≤ z) = Z z z2 1 √ e− 2 dz. −∞ 2π Nota Observe que na padronização dividimos por σ , que é o desvio padrão da variável aleatória normal. Não dividimos pela variância. 95 / 135 Probabilidade e Estatística A distribuição normal padrão satisfaz a seguinte propriedade se simetria: Φ(−x) = 1 − Φ(x). Importante A identidade de simetria acima nos diz que podermos calcular as probabilidades P(Z ≤ −x) a partir das probabilidades P(Z ≤ x). Assim, como a tabela da normal apresentada no apêndice não contém valores negativos de x, para calcularmos estas probabilidades, utilizamos a fórmula acima. Exemplo 7.2 Exemplo de cálculo de probabilidades utilizando a tabela da normal Seja Z ∼ N(0, 1). Vamos calcular as probabilidades P(0 ≤ Z ≤ 1), P(Z ≥ 1, 93), P(−2, 55 ≤ Z ≤ 1, 2) e P(Z ≤ 1, 93). Observe inicialmente que P(0 ≤ Z ≤ 1) = Φ(1) − Φ(0). Olhando para a tabela da normal (que pode ser encontrada no Apêndice deste livro), obtemos que Φ(1) = 0, 8413 e Φ(0) = 0, 5. Portanto P(0 ≤ Z ≤ 1) = Φ(1) − Φ(0) = 0, 8413 − 0, 5 = 0, 3413. Para a próxima probabilidade, temos que P(Z ≥ 1, 93) = 1 − P(Z ≤ 1, 93) = 1 − Φ(1, 93). Olhando para a tabela no apêndice, obtemos P(Z ≥ 1, 93) = 1 − Φ(1, 93) = 1 − 0, 9732 = 0, 0268. A próxima probabilidade deve ser observada com cuidado, pois temos um valor negativo, e se olharmos na tabela, não há valores negativos, e portanto, teremos que usar a simetria da distribuição normal. Assim, P(−2, 55 ≤ Z ≤ 1, 2) = Φ(1, 2) − Φ(−2, 55) = Φ(1, 2) − (1 − Φ(2, 55)) = Φ(1, 2) + Φ(2, 55) − 1 = 0, 8849 + 0, 9946 − 1 = 0, 8795. Finalmente, P(Z ≤ 1, 93) = Φ(1, 93) = 0, 0268. Veremos agora mais alguns exemplos de aplicações da distribuição normal. Exemplo 7.3 Exemplo de aplicação da distribuição normal Suponha que as alturas dos alunos de ciências da computação da UFPB seguem distribuição normal com média 1,60m e desvio padrão 0,30m. Seja X a variável aleatória que indica a altura de um aluno de ciências da computação da UFPB escolhido ao acaso. Encontre a probabilidade de um aluno medir: a) Entre 1,50m e 1,80m; Queremos calcular P(1, 50 ≤ X ≤ 1, 80). Observe que Z= X − 1, 60 ∼ N(0, 1). 0, 30 Temos então que: P(1, 50 ≤ X ≤ 1, 80) = = = = = = = P(1, 50 − 1, 60 ≤ X − 1, 60 ≤ 1, 80 − 1, 60) = P(−0, 1 ≤ X − 1, 60 ≤ 0, 2) P(−0, 1/0, 3 ≤ (X − 1, 60)/0, 30 ≤ 0, 2/0, 3) = P(−1/3 ≤ Z ≤ 2/3) Φ(0, 67) − Φ(−0, 33) Φ(0, 67) − (1 − Φ(0, 33)) Φ(0, 67) + Φ(0, 33) − 1 0, 7486 + 0, 6293 − 1 0, 3779. 96 / 135 Probabilidade e Estatística b) Mais de 1,75m; Queremos calcular P(X ≥ 1, 75). Temos então que: P(X ≥ 1, 75) = = = = = = P(X − 1, 60 ≥ 1, 75 − 1, 60) = P(X − 1, 60 ≥ 0, 15) P((X − 1, 60)/0, 30 ≥ 0, 15/0, 3) = P(Z ≥ 1/2) 1 − P(Z ≤ 1/2) 1 − Φ(0, 5) 1 − 0, 6915 0, 3085. c) Menos de 1,48m; Queremos calcular P(X ≤ 1, 48). Temos então que: P(X ≤ 1, 48) = = = = = P(X − 1, 60 ≤ 1, 48 − 1, 60) = P(X − 1, 60 ≤ −0, 12) P((X − 1, 60)/0, 30 ≤ −0, 12/0, 3) = P(Z ≤ −4/10) Φ(−0, 4) 1 − Φ(0, 4) 0, 3446. d) Qual deve ser a altura mínima para escolhermos 10% dos alunos mais altos? Queremos encontrar um valor c, tal que P(X > c) = 0, 10. Assim, temos que P(X > c) = P(X − 1, 60 > c − 1, 60) = P((X − 1, 60)/0, 30 > (c − 1, 60)/0, 3) = P(Z > (c − 1, 60)/0, 3) = 1 − Φ((c − 1, 60)/0, 3). Assim, queremos encontrar c, tal que 0, 1 = 1−Φ((c−1, 60)/0, 3), ou seja, Φ((c−1, 60)/0, 3) = 0, 9. Seja z = (c − 1, 60)/0, 3, temos que Φ(z) = 0, 9. Olhando para a tabela, vemos que z = 1,28. Logo, (c − 1, 60)/0, 3 = 1, 28, o que implica que c = 1, 6 + 0, 384 = 1, 984. Desta forma, a altura em questão é 1,98m. 7.2.2 Aproximação da Distribuição Binomial pela Normal Vimos no capítulo de variáveis aleatórias discretas que podemos aproximar a distribuição binomial pela distribuição Poisson. A aproximação da distribuição binomial pela Poisson é boa quando o parâmetro p da distribuição binomial é pequeno. Se este valor for grande, a aproximação pela distribuição Poisson é pobre. Neste caso, devemos aproximar pela distribuição normal. Proposição: Aproximação da distribuição binomial pela normal Suponha que Xn é uma sequência de variáveis aleatórias tais que Xn ∼ Bin(n, p). Então, vale o seguinte resultado: X − np n lim P p ≤ z = Φ(z), n→∞ np(1 − p) onde Φ(z) é a função de distribuição da normal padrão. Desta forma, vale a aproximação para n grande: x − np P(Xn ≤ x) ≈ Φ p . np(1 − p) 97 / 135 Probabilidade e Estatística Exemplo 7.4 Exemplo de aplicação da aproximação da binomial pela normal Suponha que lançamos uma moeda honesta 200 vezes. Obtenha a probabilidade do número de caras estar entre 45% e 55% dos lançamentos (incluindo os extremos). Ou seja, se Xn denota o número de caras obtidas após os 200 lançamentos, temos que Xn ∼ Bin(200, 1/2), e queremos calcular P(90 ≤ Xn ≤ 110) = P(Xn ≤ 110) − P(Xn ≤ 89). Como o parâmetro p da binomial não é pequeno, ou seja, não está próximo de zero, a aproximação ideal é dada pela p normal. Assim, como np(1 − p) = 7, 07 e np = 100, pela proposição anterior, temos que 90−100 P(90 ≤ Xn ≤ 110) ≈ Φ 110−100 − Φ 7,07 7,07 = Φ(1, 41) − Φ(−1, 27) = Φ(1, 41) − (1 − Φ(1, 27)) = Φ(1, 41) + Φ(1, 27) − 1 = 0, 9207 + 0, 8980 − 1 = 0, 8187. Logo, a probabilidade é de aproximadamente 0,8187. Nota No exemplo anterior: • A probabilidade exata é dada por 0,8626. • A probabilidade obtida pela aproximação de Poisson é dada por 0,7065. Vemos que a aproximação é, de fato, muito pobre neste caso. O motivo da aproximação ser ruim é que a aproximação da binomial pela Poisson supõe que a probabilidade p da binomial tende a zero quando n tende a infinito, o que não acontece no exemplo anterior. 7.3 A Distribuição Exponencial A distribuição exponencial é uma distribuição muito utilizada na prática para modelar tempo de falha de objetos. Por exemplo, pode ser usada para modelar o tempo que demora até uma lâmpada falhar. Ela possui um parâmetro, λ , que pode ser interpretado da seguinte forma: 1/λ é o tempo de vida médio do objeto. Mais precisamente, temos a Definição: Variável Aleatória Seguindo Distribuição Exponencial Uma variável aleatória contínua X assumindo valores não-negativos é dita seguir distribuição exponencial com parâmetro λ > 0, se sua função de densidade é dada por ( λ e−λ x , x ≥ 0, f (x) = 0, x < 0. Denotamos X ∼ Exp(λ ). 98 / 135 Probabilidade e Estatística Observe que f (x) é, de fato, uma função de densidade, pois f (x) ≥ 0 para todo x, e, além disso, Z ∞ Z ∞ λ e−λ x dx 1 e−λ x ∞ = λ =λ −λ 0 λ = 1. f (x)dx = −∞ 0 1.0 1.5 Na figura abaixo apresentamos gráficos das funções de densidade da distribuição exponencial para alguns valores de λ : 0.5 f(x) (1.5) 0.0 (0.5) 0 1 2 3 4 5 x Figura 7.2: Exemplo de funções de densidade da distribuição exponencial para valores de λ descritos no parêntese (λ ) Podemos também calcular a função de distribuição de uma variável aleatória seguindo distribuição exponencial explicitamente: x R x −λ x e−λ x F(x) = P(X ≤ x) = 0 λ e dx = λ −λ 0 h −λ x i = λ −eλ − λ1 = 1 − e−λ x , para x ≥ 0, e F(x) = 0, se x < 0. Em particular, obtemos P(X > x) = e−λ x . Esperança Temos que Z ∞ E(X) = xλ e−λ x dx. 0 Integrando por partes com dv = λ e−λ x dx e u = x, temos que v = −e−λ x e du = dx, e portanto, ∞ Z ∞ −λ x E(X) = −xe − −e−λ x dx 0∞ 0 e−λ x = 0 + −λ = 1 λ. 99 / 135 0 Probabilidade e Estatística Variância Integrando por partes duas vezes, obtemos que E(X 2 ) = 2 . λ2 Portanto, Var(X) = E(X 2 ) − (E(X))2 = 2 1 1 − 2 = 2. 2 λ λ λ Exemplo 7.5 Exemplo de cálculo envolvendo a distribuição exponencial Suponha que X ∼ Exp(λ ). Vamos encontrar a probabilidade de que X seja maior que seu valor esperado. De fato, como E(X) = 1/λ , queremos calcular: P(X > 1/λ ) = 1 − F(1/λ ) = 1 − (1 − e−λ ·1/λ ) = e−1 ≈ 0, 37. Exercício O tempo médio de falha das lâmpadas produzidas em uma certa fábrica é de 17500 horas. Sabendo que o tempo de falha destas lâmpadas segue distribuição exponencial, qual é a probabilidade de uma lâmpada falhar no primeiro ano de uso? Solução Primeiro, observe que como o tempo médio de falha é de 17500 horas, o parâmetro da exponencial é dado por λ 1 . = 17500 Como um ano tem 365 dias (em geral não considera-se anos bissextos), temos 24 · 365 = 8760 horas em um ano. Assim, queremos calcular 1 P(X ≤ 8760) = 1 − e− 17500 ·8760 ≈ 1 − e−0,5 ≈ 0, 39. Assim, temos uma probabilidade de aproximadamente 39% de que a lâmpada venha a falhar no primeiro ano de uso. 7.3.1 Perda de Memória Assim como a distribuição Geométrica é a única distribuição discreta que possui perda de memória, a distribuição exponencial é a única distribuição contínua que possui perda de memória. Mais precisamente, considere o seguinte exemplo: Exemplo 7.6 Ilustração da perda de memória da distribuição exponencial Suponha que Pedro é funcionário da fábrica de lâmpadas e sua função é esperar até que uma lâmpada falhe. Suponha que Pedro já esperou 6 meses e a lâmpada ainda não falhou, isto significa que a probabilidade da lâmpada falhar nos próximos 30 dias será maior do que a probabilidade de falhar nos primeiros 30 dias de uso da lâmpada? A resposta é não. Não importa o quanto tempo Pedro tenha esperado, a probabilidade de falha nos próximos 30 dias sempre será a mesma. Assim como para a distribuição geométrica, esta propriedade da distribuição exponencial é chamada de perda de memória. 100 / 135 Probabilidade e Estatística Mais precisamente, seja X uma variável aleatória seguindo distribuição exponencial com parâmetro λ . Então, temos que para todo par de números reais positivos, t, s, vale P(X > t + s|X > t) = P(X > s). De fato, temos que P(X > t + s|X > t) = P(X > t + s, X > t) P(X > t + s) = , P(X > t) P(X > t) no entanto, já vimos que, para todo x > 0, P(X > x) = e−λ x . Daí, P(X > t + s|X > t) = P(X > t + s) e−λ (t+s) = −λt = e−λ s = P(X > s). P(X > t) e Isto prova a perda de memória. Observe que aqui, assim como na geométrica, na realidade, mostra mais do que falamos. Não só diz que a próxima probabilidade não muda, mas essencialmente diz o seguinte: se Pedro já esperou um certo tempo t para a lâmpada falhar, e ela ainda não falhou, as probabilidades de falhas dali para frente são as mesmas de como se ele tivesse começado a esperar naquele momento. Ou seja, a distribuiçã exponencial “esquece” todo o passado que já foi esperado. 7.4 7.4.1 A Distribuição Gama A Função Gama Definição: Função Gama A função gama, denotada por Γ(·), é dada por Z ∞ Γ(p) = x p−1 e−x dx, p > 0. 0 Realizando a integral por partes na função gama, fazendo u = x p−1 e dv = e−x dx, temos que ∞ Z ∞ −x p−1 Γ(p) = −e x − − e−x (p − 1)x p−2 dx 0Z ∞ 0 −x p−2 = 0 + (p − 1) e x dx 0 = (p − 1)Γ(p − 1). Se p = n um número natural, então teremos que Γ(n) = (n − 1)Γ(n − 1) = · · · = (n − 1)(n − 2) · · · 1 · Γ(1). Porém, temos que Z ∞ Γ(1) = e−x dx = 1. 0 Assim, temos que se n é um número natural, Γ(n) = (n − 1)!, e portanto a função gama generaliza o fatorial, e pode ser pensada como o fatorial de números reais positivos. 101 / 135 Probabilidade e Estatística 7.4.2 Distribuição Gama Definição: Variável Aleatória Seguindo Distribuição Gama Seja X uma variável aleatória contínua tomando valores não-negativos. Dizemos que X segue distribuição gama com parâmetros r > 0 e α > 0, se sua função de densidade for dada por f (x) = α (αx)r−1 e−αx , Γ(r) x ≥ 0. Denotamos X ∼ Gama(r, α). A distribuição gama é mais flexível que a distribuição exponencial, isto é, as densidades podem assumir as mesmas formas das densidades da distribuição exponencial, mas também podem assumir formas diferentes. Isso se deve à inclusão do segundo parâmetro. 0.0 0.1 0.2 0.3 0.4 0.5 f(x) Na figura abaixo apresentamos gráficos das funções de densidade da distribuição gama para alguns valores de r e α: (1;0,5) (2;0,5) (9;2) (3;0,5) 0 5 10 15 20 x Figura 7.3: Exemplo de funções de densidade da distribuição gama para valores de r e α descritos no par ordenado (r, α) Nota Observe que se X ∼ Gama(1, α), então na realidade X ∼ Exp(α). Assim, a distribuição exponencial é caso particular da distribuição gama. Além disso, por este fato, o parâmetro α da distribuição gama é chamado de taxa, e o parâmetro r é chamado de parâmetro de forma. Esperança e Variância É possível mostrar que se X ∼ Gama(r, α), então E(X) = r r e Var(X) = 2 . α α 102 / 135 Probabilidade e Estatística Exercício Suponha que o tempo de vida útil, em anos, de uma máquina de lavar é uma variável aleatória X com função de densidade dada por f (x) = xe−x/2 , 4 x ≥ 0. Determine a distribuição de X. Além disso, se o fabricante fornece seis meses de garantia para o produto, qual a proporção de aparelhos que devemos esperar que usem essa garantia? Solução Olhando a função de densidade, observamos que não se trata de uma distribuição exponencial, mas que se parece com uma distribuição gama. Comparando a densidade acima com a densidade geral da distribuição gama, vemos que X segue distribuição gama com parâmetros r = 2 e α = 1/2. Como o tempo de vida está sendo dado em anos, queremos calcular a probabilidade P(X ≤ 1/2) = Z 1/2 −x/2 xe 0 4 1 dx = 4 Z 1/2 xe−x/2 dx. 0 Para calcular a probabilidade acima, vamos integrar por partes. Fazendo u = x e dv = e−x/2 dx, obtemos que du = dx e v = −2e−x/2 . Desta forma, P(X ≤ 1/2) = = = 1/2 R 1/2 1 −x/2 − 2 xe − 14 0 (−2e−x/2 )dx 0R −1/4 1/2 − e 2 + 12 0 e−x/2 dx 1/2 e−1/4 −x/2 − 2 −e 0 −1/4 − e 2 − (e−1/4 − 1) = ≈ 0, 0265. Desta forma, é esperado que aproximadamente 2,65% das máquinas de lavar utilizarão o serviço de garantia. 7.5 Atividades 1. Se Y tem distribuição uniforme em (0, 5), qual é a probabilidade de que as raízes da equação 4x2 + 4xY +Y + 2 = 0 sejam ambas reais? 2. Numa população, o nível sérico de colesterol em adultos (medido em mg/dl) é uma variável aleatória com distribuição normal com parâmetros µ = 225 e σ = 75. Calcule: a) a proporção de pessoas com nível de colesterol entre 200 e 350. b) o valor acima do qual se encontra o colesterol da parcela de 10% da população que tem os níveis mais elevados. 3. Seja X ∼ N(5, 16). Obtenha: a) P(X ≤ 13); b) P(X ≥ 1); 103 / 135 Probabilidade e Estatística c) P(4 ≤ X ≤ 9); d) o valor de a tal que P(X ≤ a) = 0, 04; e) o valor de b tal que P(X ≥ b) = 0, 01; f) o intervalo que contém 95% dos valores centrais (intervalo simétrico em torno de µ) de X. 4. Em uma fábrica de refrigerante, uma máquina é usada para encher garrafas de 600ml. O conteúdo líquido (em ml) por garrafa varia segundo a distribuição normal com parâmetros µ = 600 e σ = 4. Calcule: a) a porcentagem de garrafas produzidas com conteúdo inferior a 592ml ou superior a 612ml; b) o conteúdo mínimo encontrado em 96% das garrafas fabricadas. 5. O peso em gramas de recém-nascidos em uma maternidade tem distribuição normal com parâmetro µ = 3000g. Sabe-se que 98% dos bebês nascem com um peso compreendido entre 2,5kg e 3,5kg. Determine: a) o parâmetro σ ; b) o peso abaixo do qual nascem 0,4% dos bebês dessa maternidade. 6. Se 55% da população de uma cidade é a favor de um projeto proposto pelo prefeito, estime (usando a aproximação da binomial pela normal) de que, em uma amostra aleatória de 176 pessoas, no máximo 93 sejam favoráveis ao projeto. 7. Seja U uma variável aleatória uniforme no intervalo (a, b). Calcule, para todo n ≥ 1, E(U n ). 8. Seja X uma variável aleatória seguindo distribuição Exponencial com parâmetro λ . Calcule E(X n ). 9. Obtenha a esperança da área de um triângulo retângulo isósceles cuja hipotenusa tem comprimento uniformemente distribuído no intervalo (2, 8). 10. Um computador foi usado para gerar sete números aleatórios independentes uniformemente distribuídos no intervalo (0, 1). Calcule a probabilidade de que: a) exatamente de três números estejam entre 1/2 e 1; b) menos do que três sejam maiores que 3/4. 11. (Distribuição Log-Normal): Seja Y = eX , onde X ∼ N(0, 1). Encontre a densidade de Y . 12. Seja X ∼ N(0, 1). Seja Y = X 2 . Obtenha a densidade √ de Y , mostre que Y segue distribuição Gama e determine os parâmetros. (Dica: Use que Γ(1/2) = π.) R ESPOSTAS 1. 3/5 2. a) 58,2% b) 321 3. a) 0,9772 b) 0,8413 c) 0,44 d) -2 e) 14,32 f) bn+1 −an+1 [−2, 84, 12, 84] 4. a) 2,41% b) 593ml 5. a) 214,6 b) 2431g 6. 0,281 7. (n+1)(b−a) 8. n!/λ n 9. 7 10. a) 35/128 b) 12393/16384 11. fY (y) = y−1 (2π)−1/2 exp{−(log(y))2 /2}, y>0 12. Y segue distribuição Gama (1/2, 1/2) Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 104 / 135 Probabilidade e Estatística Capítulo 8 Introdução à Inferência Estatística O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Conhecer os principais tipos de amostragem • Saber o que são estimadores e a diferença entre estimador e estimativa • Conhecer a distribuição amostral da média, proporção, diferença de médias e diferença de proporções • Saber construir diversos intervalos de confiança • Saber realizar uma regressão linear de Y em X e calcular seu coeficiente de determinação 8.1 Definições Básicas Vamos começar relembrando dois conceitos básicos importantes de estatística, a saber, população e amostra. De uma maneira mais precisa, temos a seguinte definição: Definição: População O conjunto de todos os elementos, ou resultados, sob investigação é chamado de população. Quando estamos lidando com uma população é interessante observar: • Características mensuráveis (expressas por variáveis numéricas); • Características qualitativas (expressas por variáveis nominais ou categóricas). Definição: Parâmetros Populacionais Damos o nome de parâmetros da população ou parâmetros populacionais aos valores numéricos que caracterizam globalmente uma população. Relacionadas à população temos as seguintes definições: 105 / 135 Probabilidade e Estatística Definição: Amostra e Tamanho Amostral Um subconjunto da população é chamado de amostra. Chamamos o número de elementos da amostra de de tamanho amostral. Importante O objetivo da inferência estatística é produzir afirmações sobre dada característica da população na qual estamos interessados, a partir de informações colhidas de uma parte dessa população. Esta característica na população pode ser representada por uma variável aleatória. A relação entre inferência e amostragem é ilustrada na figura abaixo: Figura 8.1: Amostragem e Inferência Nota • Se tivermos informações completas sobre a distribuição, não haverá necessidade de obter amostras. • Podemos supor que as variáveis vêm de uma família de distribuições de probabilidade, mas não podemos supor qual o valor do parâmetro. Por exemplo, podemos supor que os dados seguem distribuição normal, mas não podemos informar os valores das médias e variâncias. • Existem casos onde a amostragem é necessária. Por exemplo, se quisermos saber o número de glóbulos brancos. • É importante que a amostra seja representativa da população, ou seja, que o comportamento da amostra seja próximo do comportamento da população. Para garantir isso, é preciso saber escolher bem o tamanho amostral, e que a amostra seja obtida aleatoriamente. 8.2 8.2.1 Amostragem Tipos de Amostragem Temos dois grandes grupos de amostragem: 106 / 135 Probabilidade e Estatística • Amostragem Probabilística: O mecanismo de escolha dos elementos da amostra é tal que existe uma probabilidade conhecida de cada elemento da população vir a participar da amostra. • Amostragem Não-Probabilística: Não existe nenhum mecanismo probabilístico na seleção da amostra. Tipos de Amostragem Probabilística • Amostragem Aleatória Simples (AAS): a. Supomos que a população é homogênea, ou seja, a característica que estamos procurando pode aparecer em qualquer elemento da população com a mesma probabilidade; b. Procedimento: Rotular os elementos da população e sortear os indivíduos que farão parte da amostra. • Amostragem Sistemática: a. Supomos que a população é homogênea; b. Procedimento: Os elementos da população são ordenados, a retirada do primeiro elemento é aleatória, e a partir do segundo elemento a retirada é feita periodicamente (com período determinístico). Por exemplo, o primeiro elemento é retirado aleatoriamente, e em seguida, retiramos o décimo elemento depois do primeiro retirado, depois o décimo elemento após o segundo retirado, e assim por diante. • Amostragem Estratificada: a. Supomos que a população é heterogênea, ou seja, a característica que estamos procurando pode variar dependendo de onde os dados são retirados. Entretanto, supomos que podemos dividir a população em grupos (estratos) homogêneos; b. Procedimento: A seleção dos elementos de cada estrato é realizada de forma aleatória, ou seja, realizamos uma amostragem aleatória simples em cada estrato. • Amostragem por Conglomerado: a. Supomos que a população pode ser dividida em subgrupos (conglomerados) heterogêneos; b. Procedimento: A amostragem é realizada sobre os conglomerados, e não mais sobre os indivíduos da população, ou seja, realiza-se uma amostragem aleatória simples, onde os elementos escolhidos são os conglomerados a serem utilizados, ao invés de já se sortear os elementos da amostra. 107 / 135 Probabilidade e Estatística 8.2.2 Distribuição Amostral Interesse Uma medida que descreva certa característica da população. Normalmente temos interesse em um parâmetro desconhecido da população, seja média, variância, ou outro parâmetro. Solução A partir da amostra, podemos construir uma função, utilizando apenas os valores obtidos nesta amostra, para descrever tal característica. Esta função é chamada de estatística. Nota Como os valores da amostra são aleatórios, qualquer quantidade calculada em função dos elementos da amostra também será uma variável aleatória. Assim, as estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade. Formalização do Problema Seja X1 , . . . , Xn uma amostra aleatória simples (AAS) de uma população de tamanho n. Para realizarmos uma afirmação sobre algum parâmetro θ da população (média, variância, etc.), utilizaremos uma estatística T que, como sabemos, é uma função da amostra, isto é, T = f (X1 , . . . , Xn ), para alguma função f . Nota Quando conhecemos melhor o comportamento da estatística T , ou seja, se conhecemos sua distribuição amostral, que nada mais é que a distribuição de probabilidade da variável aleatória T , poderemos realizar afirmações sobre o parâmetro θ . A distribuição amostral relata o comportamento da estatística T , caso retirássemos todas as possíveis amostras de tamanho n. 8.2.2.1 Distribuição Amostral da Média Consideremos uma população identificada pela variável aleatória X, cujos parâmetros média populacional µ = E(X) e variância populacional σ 2 = Var(X) são supostos conhecidos. Vamos tirar todas as possíveis amostras de tamanho n dessa população e, para ccada uma, calcular a média amostral X dada por 1 n X = ∑ Xi , n i=1 e em seguida vamos obter algumas propriedades de X. Considere a população {1, 3, 5, 7}. Sabemos que a média populacional é µ = 4, 2 e a variância populacional é σ 2 = 4, 16. Se retiramos uma amostra de tamanho n = 2, segundo amostragem aleatória simples (então todos os elementos possuem a mesma probabilidade de serem retirados), a distribuição amostral de X1 + X2 X= 2 será dada por 108 / 135 Probabilidade e Estatística x P(X = x) 1 1/25 2 2/25 3 5/25 4 6/25 5 6/25 6 4/25 7 1/25 Total 1 Assim, 7 E(X) = ∑ xi P(X = xi ) = 4, 2, i=1 e Var(X) = 2, 08. Temos então a seguinte proposição: Proposição Seja X uma variável aleatória com média µ e variância σ 2 , e seja (X1 , . . . , Xn ) uma AAS de X. Então, σ2 . E(X) = µ e Var(X) = n Demonstração Temos que E(X) = E 1 n ∑ Xi n i=1 E(Xi ) ∑ n i=1 1 n ∑µ n i=1 nµ n µ. n = = = = e, usando que a variância de soma de variáveis independentes é dada pela soma das variâncias, e as propriedades da variância, temos: Var(X) = Var 1 n ∑ Xi n i=1 X i Var ∑ n i=1 1 n 2 ∑σ n2 i=1 nσ 2 n2 σ2 . n n = = = = 8.2.2.2 Teorema Central do Limite Vamos agora enunciar um dos principais resultados da probabilidade moderna: o teorema central do limite. A demonstração deste teorema pode ser encontrada em livros mais avançados de probabilidade. 109 / 135 Probabilidade e Estatística Teorema Central do Limite Sejam X1 , . . . , Xn uma AAS da variável aleatória X, com distribuição comum satisfazendo E(Xi ) = µ e Var(Xi ) = σ 2 . Como a amostragem foi AAS, temos que as variáveis são independentes. Assim, se n é grande, temos que, P(X ≤ x) ≈ Φµ,σ 2 /n (x), onde Φµ,σ 2 é a função de distribuição de uma variável aleatória N ∼ N(µ, σ 2 /n). Assim, dizemos que X segue aproximadamente distribuição normal com média µ e variância σ 2 /n. Podemos fazer a mudança de variáveis: Z= X −µ √ . σ/ n Desta forma, o teorema central do limite nos diz que se n é suficientemente grande, temos que Z segue aproximadamente distribuição normal com média 0 e variância 1. Nota No caso em que a distribuição de X é normal, a distribuição de X será normal, mesmo para valores pequenos de n. 8.2.2.3 Distribuição Amostral da Proporção Seja X uma variável aleatória com distribuição Bernoulli com parâmetro p, isto é, P(X = 1) = p e P(X = 0) = 1 − p. Temos que E(X) = p e Var(X) = p(1 − p). Considere uma AAS de tamanho n dessa população. Seja n Sn = ∑ Xi , i=1 o número de indivíduos com a característica de interesse da amostra. Sabemos que Sn ∼ Bin(n, p). Pelo teorema central do limite temos que X tem distribuição aproximadamente normal, para n suficientemente grande. Seja pb = X, a proporção amostral. Então, temos que p(1 − p) aprox. pb ∼ N p, , n ou equivalentemente, pb − p aprox. Z=p ∼ N(0, 1), p(1 − p)/n pois, temos que S 1 p n E( pb) = E = E(Sn ) = n = p, n n n e S 1 np(1 − p) p(1 − p) n Var( pb) = Var = 2 Var(Sn ) = = . n n n2 n É possível mostrar, na realidade, que vale o seguinte resultado: p pb − p aprox. ∼ N(0, 1), pb(1 − pb)/n ou seja, se trocarmos p(1 − p)/n por pb(1 − pb)/n, o resultado ainda vale. Este resultado será útil na construção de intervalos de confiança. 110 / 135 Probabilidade e Estatística 8.2.2.4 Distribuição Amostral da Diferença entre Médias Em vários problemas práticos, deseja-se comparar duas populações de interesse. Por exemplo, podemos estar interessados em avaliar a diferença de desempenho entre duas linhas de produção. Suponha que duas populações de interesse, X1 e X2 , com médias µ1 e µ2 , e variâncias σ12 e σ22 , respectivamente. Considere duas AAS independentes de tamanhos n1 e n2 das duas populações. Pelo teorema central do limite, a distribuição amostral da diferença (X 1 − X 2 ), para n1 e n2 suficientemente grandes, será dada por σ2 σ2 aprox. (X 1 − X 2 ) ∼ N µ1 − µ2 , 1 + 2 , n1 n2 ou equivalentemente, (X 1 − X 2 ) − (µ1 − µ2 ) aprox. Z= q ∼ N(0, 1), 2 2 σ1 /n1 + σ2 /n2 pois, E(X 1 − X 2 ) = E(X 1 ) − E(X 2 ) = µ1 − µ2 , e Var(X 1 − X 2 ) = Var(X 1 ) +Var(X 2 ) = 8.2.2.5 σ12 σ22 + . n1 n2 Distribuição Amostral da Diferença entre Proporções Neste caso, supomos que as duas populações de interesse apresentam distribuição binomial com proporções p1 e p2 . Considere que são feitas duas AAS independentes de tamanhos n1 e n2 . A distribuição amostral da diferença entre proporções ( pb1 − pb2 ), para n1 e n2 suficientemente grandes, pelo teorema central do limite temos p1 (1 − p1 ) p2 (1 − p2 ) aprox. ( pb1 − pb2 ) ∼ N p1 − p2 , + , n1 n2 ou equivalentemente, Z=p 8.3 ( pb1 − pb2 ) − (p1 − p2 ) aprox. ∼ N(0, 1). p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2 Inferência Estatística Suponha que alguma característica da população possa ser representada por uma variável aleatória X, com função de distribuição FX (x; θ ). Suponha que os valores x1 , . . . , xn de uma AAS X1 , . . . , Xn de FX (x; θ ) possam ser observados. Com base nos valores amostrais, desejamos estimar o parâmetro desconhecido θ , ou alguma função deste parâmetro. Neste caso, a estimação poderá ser feita de duas maneiras: • Estimação Pontual: Estimamos o parâmetro θ por meio de uma estatística T = t(X1 , . . . , Xn ), chamada de estimador. • Estimação Intervalar: É definida por duas estatísticas T1 = t1 (X1 , . . . , Xn ) e T2 = t2 (X1 , . . . , Xn ), tais que T1 < T2 , onde o intervalo [T1 , T2 ] terá uma probabilidade conhecida de conter o parâmetro desconhecido θ . 111 / 135 Probabilidade e Estatística 8.3.1 Estimação Pontual Vamos começar entendendo a diferença entre estimador e estimativa. Definição: Estimador Um estimador é uma estatística, isto é, é uma função da amostra, que é usada para representar um valor plausível para o parâmetro desconhecido de interesse. Definição: Estimativa É valor numérico particular assumido por um estimador. Ou seja, é o valor do estimador aplicado em uma realização da amostra. 8.3.2 Propriedades dos Estimadores Importante É importante frisar que podem existir vários estimadores para um mesmo parâmetro populacional. Logo, a escolha do melhor estimador será feita com base em alguns critérios. • Não-Tendencioso (Também chamados de não-viesados ou não-viciados): Dizemos que um estimador T é não-viesado para o parâmetro θ se o seu valor esperado for igual ao próprio parâmetro, isto é, se E(T ) = θ . • Consistência: Dizemos que um estimador T para o parâmetro θ é consistente se, além de ser não-viesado, sua variância tende a zero quando o tamanho amostral tende a infinito: lim Var(T ) = 0. n→∞ • Eficiência: Sejam T1 e T2 dois estimadores não-viesados para o parâmetro θ , com Var(T1 ) < Var(T2 ), então, dizemos que T1 é mais eficiente que T2 . 112 / 135 Probabilidade e Estatística Exemplo 8.1 Exemplo de estimador viesado Seja X1 , . . . , Xn uma AAS da seguindo distribuição uniforme no intervalo [0, θ ]. Um estimador natural para θ é dado pelo maior valor encontrado na amostra, já que sabemos que a distribuição uniforme não fornece valores maiores do que θ . Assim, seja M = max(X1 , . . . , Xn ), ou seja, o maior valor da amostra. Vamos mostrar que M é um estimador viesado para θ . Seja X ∼ U(0, θ ), então a função de densidade de X é dada por fX (x) = 1 , θ 0 < x < θ, e fX (x) = 0 caso contrário. Assim, se FM é a função de distribuição de M, então, como as variáveis X1 , . . . , Xn são independentes, temos que FM (m) = P(M ≤ m) = P(max(X1 , . . . , Xn ) ≤ m) = P(X1 ≤ m, . . . , Xn ≤ m) = P(X1 ≤ m) · · · P(Xn ≤ m) = [P(X ≤ m)]n = [FX (m)]n , e portanto, fM (m) = FM0 (m) = n[FX (m)]n−1 fX (m). Além disso, temos que FX (x) = Z x 1 0 θ dt = x , θ 0 < x < θ. Logo, temos que fM (m) = n h m in−1 1 θ θ = nmn−1 , θn 0 < m < θ. nmn−1 n θ n m m dm dm = θn θn 0 0 n mn+1 θ = θn n+1 0 n θ n+1 = θn n+1 n = θ. n+1 Assim, temos que M é um estimador viesado. Podemos obter um outro estimador, a partir de M, que seja não-viesado, dado por e = n + 1 M. M n Z θ Z E(M) = 8.3.3 Alguns Estimadores Pontuais Importantes 8.3.3.1 Estimador para a Média O estimador mais utilizado para a média populacional µ é a média amostral: b=X = µ 1 n ∑ Xi. n i=1 113 / 135 Probabilidade e Estatística 8.3.3.2 Estimador para a Variância Quando a média populacional µ é conhecida, um estimador para a variância populacional é dado por b2 = σ 1 n ∑ (Xi − µ)2. n i=1 Caso a média populacional µ seja desconhecida, que é a situação mais comum na prática, a variância populacional pode ser estimada por S2 = 8.3.3.3 1 n ∑ (Xi − X)2. n − 1 i=1 Estimador para a Proporção Um estimador para a proporção populacional é dado pela proporção amostral: Sn , n onde Sn é o número de elementos que apresentam uma determinada característica de interesse entre os n elementos da amostra. pb = 8.3.4 Estimação Intervalar Suponha que temos um estimador para um certo parâmetro θ dado por θb. Além disso, suponha que temos a seguinte aproximação: θb − θ aprox. ∼ N(0, 1). σ Queremos então utilizar θb e a aproximação acima para construir um intervalo de confiança para θ , ou seja, queremos utilizar θb para construir um intervalo aleatório, do tipo [T1 , T2 ], onde T1 e T2 dependem de θb tal que P(T1 < θ ≤ T2 )) ≈ 1 − α, onde α é um nível de significância determinado previamente. Normalmente costuma-se escolher α = 0, 01, α = 0, 05 ou α = 0, 10, isto é, estamos afirmando que em apenas em 1%, ou 5%, ou 10%, das amostras possíveis (de mesmo tamanho) da população, o intervalo de confiança não contém o parâmetro θ . Nestes casos, dizemos que estamos construindo intervalos de confiança de níveis de confiança de 99%, 95% ou 90%, respectivamente. Observe que a aproximação acima obtida para θb nos fornece: b θb−θ θb−θ ≤ C = P ≤ C − P ≤ −C P −C < θ −θ σ σ σ ≈ Φ(C) − Φ(−C) = Φ(C) − 1 + Φ(C) = 2Φ(C) − 1. Por outro lado, P −C < θb−θ σ ≤C = P −Cσ < θb − θ ≤ Cσ b b = P −Cσ − θ < −θ ≤ Cσ − θ = P −Cσ + θb ≤ θ < Cσ + θb . 114 / 135 Probabilidade e Estatística Juntando as duas equações, obtemos que: b b P −Cσ + θ ≤ θ < Cσ + θ ≈ 2Φ(C) − 1. Se quisermos um nível 1 − α, temos que resolver 2Φ(C) − 1 = 1 − α o que fornece α −1 C=Φ 1− , 2 onde Φ−1 (1 − α/2) é o valor encontrado na tabela da normal, tal que a probabilidade de ser menor ou igual a este valor é de 1 − α/2. Finalmente, obtemos que um intervalo de confiança de nível α para θ é dado por −Cσ + θb;Cσ + θb , onde C é dado por C = Φ−1 1 − α2 . 8.3.5 Intervalo de Confiança para a Média Seja X1 , . . . , Xn uma AAS de uma variável aleatória comum X satisfazendo E(Xi ) = µ e Var(Xi ) = σ 2 . Então, seja X a média dessa AAS: 1 n X = ∑ Xi . n i=1 Vimos que a distribuição amostral da média é, pelo Teorema Central do Limite, aproximadamente: X −µ √ ≈ N(0, 1). σ/ n Pelo que vimos na subseção anterior, isto nos diz que um intervalo de confiança de nível 1 − α para a média é dado por h i σ σ −C √ + X;C √ + X , n n onde C é dado por C = Φ−1 1 − α2 . Exemplo 8.2 Exemplo de cálculo de intervalo de confiança para a média Suponha que as alturas dos alunos da UFPB tenham distribuição normal com σ = 15cm. Foi retirada uma amostra aleatória de 100 alunos obtendo-se X = 175cm. Vamos construir um intervalo de 95\% de confiança para a verdadeira altura média dos alunos. Primeiramente, note que estamos querendo 1 − α = 0, 95, o que nos fornece α = 0, 05 e desta forma, 1 − α/2 = 0, 975. Olhando para a tabela da normal, vemos que C = Φ−1 (1 − α/2) é dado por 1,96. Desta forma, o intervalo de confiança é dado por h i 15 15 − 1, 96 · √ + 175; 1, 96 · √ + 175 . 100 100 Realizando a conta, obtemos que o intervalo, ao nível de 95% de confiança para o verdadeiro valor da altura média dos alunos da UFPB é h i − 1, 72; 1, 78 . 115 / 135 Probabilidade e Estatística 8.3.6 Intervalo de Confiança para a Proporção Seja X1 , . . . , Xn uma AAS de uma variável aleatória Bernoulli X com parâmetro p, isto é, as variáveis Xi assumem o valor 1 com probabilidade p, e 0 com probabilidade 1 − p. Seja pb a proporção da amostra que assume valor 1 (ou em exemplos práticos a proporção da amostra que satisfaz uma determinada condição), então, temos que pb é dado por pb = X = 1 n ∑ Xi. n i=1 Vimos que a distribuição amostral da proporção satisfaz p pb − p aprox. ∼ N(0, 1). pb(1 − pb)/n Desta forma, utilizando o que vimos na construção de intervalos de confiança, um intervalo de confiança de nível 1 − α para a proporção é dado por p p h i pb(1 − pb) pb(1 − pb) √ √ −C + pb;C + pb , n n onde C é dado por C = Φ−1 1 − α2 . Exemplo 8.3 Exemplo de cálculo de intervalo de confiança para a proporção Uma amostra de 300 habitantes de uma cidade mostrou que 180 desejavam a água fluorada. Vamos encontrar o intervalo de confiança de 95% para a população favorável a fluoração. Primeiramente, note que estamos querendo 1 − α = 0, 95, o que nos fornece α = 0, 05 e desta forma, 1 − α/2 = 0, 975. Olhando para a tabela da normal, vemos que C = Φ−1 (1 − α/2) é dado por 1,96. Por outro lado, como a proporção estimada dos habitantes favoráveis a fluoração é pb = 180 = 0, 6. 300 Desta forma, o intervalo de confiança é dado por √ √ h i 0, 6 · 0, 4 0, 6 · 0, 4 − 1, 96 · √ + 0, 6; 1, 96 · √ + 0, 6 . 300 300 Realizando a conta, obtemos que o intervalo, ao nível de 95% de confiança para o verdadeiro valor da proporção da população favorável a fluoração é h i 0, 54; 0, 65 . 8.3.7 Intervalo de Confiança para a Diferença de Médias Considere duas AAS independentes de tamanhos n1 e n2 das duas populações. Vimos que a distribuição amostral da diferença (X 1 − X 2 ), para n1 e n2 suficientemente grandes, satisfaz (X 1 − X 2 ) − (µ1 − µ2 ) aprox. q ∼ N(0, 1). σ12 /n1 + σ22 /n2 116 / 135 Probabilidade e Estatística Desta forma, utilizando o que vimos na construção de intervalos de confiança, um intervalo de confiança de nível 1 − α para a diferença de médias é dado por q q i h 2 2 −C σ1 /n1 + σ2 /n2 + X 1 − X 2 ;C σ12 /n1 + σ22 /n2 + X 1 − X 2 , α −1 1− 2 . onde C é dado por C = Φ Exemplo 8.4 Exemplo de cálculo de intervalo de confiança para a diferença de médias Um teste psicológico destinado a medir a precisão com que uma pessoa julga outras pessoas, foi realizado. As notas possíveis do teste variam de 0 a 41. Durante sua elaboração o teste foi aplicado a vários grupos com diferentes de pessoas. De acordo com os resultados observados, vamos construir um intervalo de confiança para a diferença entre as médias dos grupos de homens e de mulheres, com $95\%$ de confiança. Homens: n = 133, X = 25, 34 e σ = 5, 05. Mulheres: n = 162, X = 24, 94 e σ = 5, 44. Primeiramente, note que estamos querendo 1 − α = 0, 95, o que nos fornece α = 0, 05 e desta forma, 1 − α/2 = 0, 975. Olhando para a tabela da normal, vemos que C = Φ−1 (1 − α/2) é dado por 1,96. Pelos dados do problema, temos que o intervalo de confiança é dado por r r i h (5, 05)2 (5, 44)2 (5, 05)2 (5, 44)2 + + 25, 34 − 24, 94; 1, 96 · + + 25, 34 − 24, 94 . − 1, 96 · 133 162 133 162 Realizando a conta, obtemos que o intervalo, ao nível de 95% de confiança para o verdadeiro valor da diferença entre as médias dos grupos de homens e de mulheres é h i − 0, 80; 1, 60 . 8.4 8.4.1 Regressão e Correlação Correlação Relação Funcional e Relação Estatística Como sabemos, o perímetro e o lado de um quadrado estão relacionados. A relação que os liga é perfeitamente definida e pode ser expressa matematicamente por perímetro = 4l, onde l é o lado do quadrado. Atribuindo-se, então, um valor qualquer a l, é possível determinar exatamente o valor do perímetro. Consideremos agora a relação entre o peso e a altura de um grupo de pessoas. É evidente que esta relação não é do mesmo tipo da anterior. Assim, podemos ter duas pessoas com a mesma altura e pesos diferentes, assim como pessoas com mesmo peso e alturas diferentes. Porém, existe uma tendência clara de que, quanto maior a altura, maior o peso. As relações do tipo perímetro-lado são chamadas de relações funcionais e as relações do tipo pesoaltura são chamadas de relações estatística. Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. 117 / 135 Probabilidade e Estatística 8.4.1.1 Diagrama de Dispersão 0 −2 −1 y 1 2 O diagrama de dispersão apresenta os pares ordenados (xi , yi ) de uma amostra aleatória bidimensional em um plano cartesiano. Esse diagrama nos fornece uma ideia grosseira, porém útil, da correlação existente. −2 −1 0 1 2 x Figura 8.2: Exemplo de diagrama de dispersão Correlação Linear 0 5 10 y 20 30 • Se os pontos do diagrama apresentam uma tendência linear ascendente, temos correlação linear positiva: 0 5 10 15 20 25 30 x Figura 8.3: Exemplo de diagrama de dispersão com correlação linear positiva 118 / 135 Probabilidade e Estatística −30 −20 y −10 0 • Se os pontos apresentam uma tendência linear descendente, temos correlação linear negativa 0 5 10 15 20 25 30 x Figura 8.4: Exemplo de diagrama de dispersão com correlação linear negativa 0.0 0.4 y 0.8 1.2 • Se os pontos apresentam uma tendência curvilínea, temos correlação não-linear 0 5 10 15 20 25 30 x Figura 8.5: Exemplo de diagrama de dispersão com correlação não-linear • Se os pontos apresentam-se dispersos, não oferecendo uma tendência definida, concluímos que não há correlação entre as variáveis em estudo 119 / 135 −2 −1 y 0 1 Probabilidade e Estatística −2 −1 0 1 2 x Figura 8.6: Exemplo de diagrama de dispersão sem correlação 8.4.1.2 Coeficiente de Correlação de Pearson É usado para indicar o grau de intensidade da correlação linear entre duas variáveis e, ainda, o sentido dessa correlação: se positivo ou negativo. O coeficiente de correlação de Pearson entre duas amostras (x1 , . . . , xn ) e (y1 , . . . , yn ) é dado por n ∑ni=1 xi yi − ∑ni=1 xi ∑ni=1 yi , r = rh 2 ih n 2 2 i n n n 2 n ∑i=1 xi − ∑i=1 xi n ∑i=1 yi − ∑i=1 yi onde n é o número de observações. Observe que r ∈ [−1, 1]. Temos que • Se r = 1, há uma correlação perfeita e positiva entre as variáveis. • Se r = −1 há uma correlação perfeita e negativa entre as variáveis. • Se r = 0 não há correlação entre as variáveis. Exemplo 8.5 Exemplo de cálculo do coeficiente de correlação de Pearson Considere uma amostra aleatória das variáveis (X,Y ), dada por (xi , yi ) na tabela abaixo: xi 4 6 8 10 12 yi 12 10 8 12 14 xi2 16 36 64 100 144 xi yi 48 60 64 120 168 120 / 135 y2i 144 100 64 144 196 Probabilidade e Estatística ∑ xi 40 ∑ yi 56 ∑ xi2 360 ∑ xi yi 460 ∑ y2i 648 Assim, temos n = 5, e portanto 5 × 460 − 40 × 56 r= p = 0, 4160. (5 × 360 − (40)2 )(5 × 648 − (56)2 ) Logo, a correlação linear entre as variáveis X e Y é positiva, porém fraca. 8.4.2 Regressão Podemos dizer que a análise de regressão tem como objetivo descrever, através de um modelo matemático, a relação entre duas variáveis. A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente e a outra variável recebe o nome de variável independente. Assim, supondo que X é a variável independente e Y é a variável dependente, procuramos determinar através de ajuste de uma reta a relação entre essas variáveis, ou seja, vamos obter a função definida por Y = a + bX, onde a e b são os parâmetros da regressão. Entretanto, sabemos que essa fórmula não é exata, assim, existe a presença de um erro aleatório: Yi = a + bXi + ei , i = 1, . . . , n, onde ei é um erro aleatório que possui valor esperado igual a zero. A maneira que vamos utilizar para determinar valores adequados para a e b é a de minimizar a soma de quadrado dos erros. Ou seja, queremos escolher os valores a e b de tal forma que o nosso modelo “erre” pouco. Este método é chamado de método de mínimos quadrados. Assim, dadas as observações (Xi ,Yi ), i = 1, . . . , n, desejamos minimizar n n ∑ e2i = ∑ (Yi − a − bXi)2. i=1 i=1 Desta forma, para encontrarmos o ponto de mínimo, precisamos calcular as derivadas parciais: n ∂ ∑ni=1 e2i = −2 ∑ (Yi − a − bXi ), ∂a i=1 e n ∂ ∑ni=1 e2i = −2 ∑ (Yi − a − bXi )Xi . ∂b i=1 Assim, como os nossos estimadores ab e b b são os valores que minimizam a soma de quadrados dos b erros, temos que ab e b são tais que as derivadas parciais calculadas acima se anulam. Logo, temos que: n n n −2 ∑ (Yi − ab − b bXi ) = 0 ⇒ ∑ Yi − nb a−b b ∑ Xi = 0 ⇒ i=1 i=1 i=1 121 / 135 1 n 1 n b b Y = a + b ∑ i ∑ Xi, n i=1 n i=1 Probabilidade e Estatística e portanto bX. ab = Y − b Por outro lado, temos também que n n n n −2 ∑ (Yi − ab − b bXi )Xi = 0 ⇒ ∑ Yi Xi − ab ∑ Xi − b b ∑ Xi2 = 0, i=1 i=1 daí, n i=1 n i=1 n ∑ YiXi = ab ∑ Xi + bb ∑ Xi2. i=1 i=1 i=1 Substituindo o valor de ab na equação acima, obtemos n n n ∑ YiXi = (Y − bbX) ∑ Xi + bb ∑ Xi2. i=1 i=1 i=1 Isolando b b, obtemos 2 n n n n n X Y X ∑ ∑ ∑ i i i i=1 i=1 i=1 2 b . = ∑ Yi Xi − b ∑ Xi − n n i=1 i=1 Isto nos fornece ∑ni=1 Yi Xi − ∑ni=1 Yi ∑ni=1 Xi /n b b= 2 ∑ni=1 Xi2 − ∑ni=1 Xi /n Costuma-se usar as seguintes notações para o numerador e denominador da expressão que define b b: n ∑ni=1 Yi ∑ni=1 Xi , SY X = ∑ Yi Xi − n i=1 e ∑ni=1 Xi = ∑ Xi2 − n i=1 n SXX 2 . Assim, temos as fórmulas para b b e ab em notação simplificada: SY X b b= SXX e ab = Y − b bX. Importante Como estamos fazendo uso de uma amostra para obtermos os valores dos parâmetros, o resultado, na realidade, é um estimador para a verdadeira equação de regressão, e portanto, temos Ybi = ab + b bXi , bi é um estimador para Yi . onde Y Exemplo 8.6 Exemplo de cálculo das estimativas dos parâmetros em um modelo de regressão Abaixo apresentamos os valores de uma amostra de 10 observações de duas variáveis aleatórias X e Y: 122 / 135 Probabilidade e Estatística yi 6 9 8 10 5 7 8 4 6 2 xi 5 8 7 10 6 7 9 3 8 2 yi xi 30 72 56 100 30 49 72 12 48 4 xi2 25 64 49 100 36 49 81 9 64 4 ∑ xi 65 ∑ yi 65 ∑ xi yi 473 ∑ xi2 481 Daí, SY X = 473 − 652 = 473 − 422, 5 = 50, 5, 10 SXX = 481 − 652 = 481 − 422, 5 = 58, 5, 10 e assim 50, 5 b b= = 0, 86 58, 5 e ab = 65 65 − 0, 86 · = 0, 91. 10 10 Logo, temos a equação Ybi = 0, 91 + 0, 86Xi . 6 4 2 y 8 10 Na figura abaixo apresentamos o diagrama de dispersão juntamente com a reta de regressão estimada no exemplo anterior: 2 4 6 8 x Figura 8.7: Exemplo de ajuste de regressão 123 / 135 10 Probabilidade e Estatística 8.4.2.1 O Poder Explicativo do Modelo Existe uma medida utilizada para avaliar a “qualidade” do ajuste. Esta medida é conhecida como coeficiente de determinação ou poder explicativo da regressão. Seu valor fornece a proporção da variação total da variável Y explicada pela variável X através da função ajustada. O coeficiente de determinação é denotado por R2 e pode ser expresso por R2 = b b2 SXX SYY onde ou R2 = b bSY X , SYY 2 ∑ni=1 Xi =∑ , n i=1 2 n n Y ∑ i i=1 = ∑ Yi2 − , n i=1 n SXX SYY e Xi2 − n SY X = ∑ Yi Xi − ∑ni=1 Yi ∑ni=1 Xi n i=1 . O coeficiente de determinação pode assumir valores no intervalo [0, 1], isto é, 0 ≤ R2 ≤ 1. Quando R2 = 0, a variação explicada de Y é zero, ou seja, a reta ajustada é paralela ao eixo da variável X. Se R2 = 1, a reta ajustada explicará toda a variação de Y . Assim, quanto mais próximo de 1 estiver o valor de R2 , melhor será a “qualidade” do ajuste da regressão aos pontos do diagrama de dispersão e quanto mais próximo de zero, pior será a “qualidade” do ajuste. Se o poder explicativo for, por exemplo, 98%, isto significa que 98% das variações de Y são explicadas por X através da função escolhida para relacionar as duas variáveis e 2% são atribuídas a causas aleatórias. −1 0 y 1 2 Na figura abaixo vemos um exemplo no qual R2 = 1: −1 0 1 2 x Figura 8.8: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 1 124 / 135 Probabilidade e Estatística −1 0 y 1 2 Nesta figura vemos um exemplo no qual R2 < 1, mas é próximo de 1, R2 = 0, 93: −1 0 1 2 x Figura 8.9: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 0, 93 −1 0 y 1 2 Nesta figura vemos um exemplo no qual 0 < R2 , mas é próximo de 0, R2 = 0, 32: −2 −1 0 1 2 x Figura 8.10: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 0, 32 Na figura abaixo vemos um exemplo com R2 = 0: 125 / 135 −1 0 y 1 2 Probabilidade e Estatística −2 −1 0 1 2 x Figura 8.11: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 0 Exemplo 8.7 Exemplo de cálculo do R2 Vamos calcular o coeficiente de determinação, R2 , para o exemplo considerado na última seção. A saber, temos os valores de uma amostra de 10 observações de duas variáveis aleatórias X e Y : yi 6 9 8 10 5 7 8 4 6 2 xi 5 8 7 10 6 7 9 3 8 2 yi xi 30 72 56 100 30 49 72 12 48 4 xi2 25 64 49 100 36 49 81 9 64 4 y2i 36 81 64 100 25 49 64 16 36 4 ∑ xi 65 ∑ yi 65 ∑ xi yi 473 ∑ xi2 481 ∑ y2i 475 Daí, SYY = 475 − 652 = 475 − 422, 5 = 52, 5, 10 e 652 = 481 − 422, 5 = 58, 5. 10 Como calculado anteriormente, temos que b b = 0, 86 e, portanto, SXX = 481 − R2 = (0, 86)2 58, 5 ≈ 0, 83. 52, 5 126 / 135 Probabilidade e Estatística Logo, 83% da variação total está sendo explicada pela regressão. 8.5 Atividades 1. Suponha que as alturas dos alunos da UFPB tenham distribuição normal com σ = 15cm. Foi retirada uma amostra aleatória de 100 alunos obtendo-se X = 175cm. Construa um intervalo de 90% de confiança para a verdadeira altura média dos alunos, e outro de nível 99%. 2. Foram retiradas 25 peças da produção diária de uma máquina, encontrando-se para uma medida uma média de 5,2mm. Sabendo-se que as medidas têm distribuição normal com desvio-padrão populacional de 1,2mm, construa intervalos de confiança para a média com confianças de 90%, 95% e 99%. 3. Suponha uma população com σ 2 = 9 e considere uma amostra aleatória de tamanho n = 36 dessa população, com X = 110. Determine os intervalos de confiança para µ, com confiança de 90% e 95%. 4. Uma amostra de 300 habitantes de uma cidade mostrou que 180 desejavam a água fluorada. Encontre os intervalos de confiança de 90% e 99% para a população favorável a fluoração. 5. Em 50 lances de uma moeda foram obtidas 30 caras. A partir de um intervalo de confiança de 96%, pode-se dizer que a moeda é honesta? 6. Numa amostra de 400 casas, 100 dessas casas são alugadas. Construa um intervalo de confiança para a proporção de casas alugadas, com uma confiança de 96% e, supondo a mesma confiança, construa também um intervalo de confiança para o número de casas alugadas na cidade, uma vez que a cidade possui 20.000 casas. 7. Um teste psicológico destinado a medir a precisão com que uma pessoa julga outras pessoas, foi realizado. As notas possíveis do teste variam de 0 a 41. Durante sua elaboração o teste foi aplicado a vários grupos com diferentes de pessoas. De acordo com os resultados observados, construa um intervalo de confiança para a diferença entre as médias dos grupos de homens e de mulheres, com 90% de confiança. Homens: n = 133, X = 25, 34 e σ = 5, 05. Mulheres: n = 162, X = 24, 94 e σ = 5, 44. 8. Suponha duas populações normalmente distribuídas de forma que a população I corresponde a variável aleatória X ∼ N(µ1 , 25) e a população II corresponde a variável aleatória Y ∼ N(µ2 , 40). Com base nas amostras obtidas abaixo construa um intervalo de confiança para µ1 − µ2 com 95% de confiança. Amostra da População I - 12, 14, 15, 14, 13, 17, 14, 13. Amostra da População II - 13, 17, 14, 13, 16, 17, 18, 16. 9. Uma pesquisa revelou que das 500 donas de casa consultadas, 300 preferiram o detergente A. Um funcionário da companhia afirmou que 50% das donas de casa preferem o detergente A. A companhia, tem evidência, ao nível de 95% para confiar no funcionário? 10. Sabe-se por experiência que 5% da produção de um determinado artigo é defeituosa. Um novo empregado é contratado. Ele produz 600 peças do artigo com 82 defeituosas. Podemos afirmar, ao nível de 90% de confiança, que o novo empregado produz peças com maior índice de defeitos que o existente? 127 / 135 Probabilidade e Estatística 11. A partir da tabela: Xi Yi 2 30 4 25 6 22 8 18 10 12 14 15 11 10 a) Calcule o coeficiente de correlação; b) Determine a reta ajustada; c) Estime o valor de Y para X = 0. 12. Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela: Preço (Xi ) Demanda (Yi ) 38 350 42 325 50 297 56 270 59 256 63 246 70 238 80 223 95 215 110 208 a) Estabeleça a equação da reta ajustada; b) Estime o valor de Y para X = 60 e X = 120. c) Calcule o coeficiente de determinação da regressão. 13. Pretendendo-se estudar a relação entre as variáveis consumo de energia elétrica (Xi ) e volume de produção nas empresas industriais (Yi ), fez-se uma amostragem que inclui vinte empresas, computando-se os seguintes valores: ∑ Xi = 11.34, ∑ Yi = 20.72, ∑ Xi2 = 12.16, ∑ Yi2 = 84.96, e ∑ XiYi = 22.13 Determine: a) A equação de regressão de Y para X; b) O coeficiente de determinação da regressão acima; c) A equação de regressão de X para Y ; d) O coeficiente de determinação da regressão acima. R ESPOSTAS 1. Intervalo de 90% [1, 73; 1, 77]. Intervalo de 99% [1, 71; 1, 79]. 2. Intervalo de 90% [4, 80; 5, 59]. Intervalo de 95% [4, 73; 5, 67]. Intervalo de 99% [4, 58; 5, 82]. 3. Intervalo de 90% [109, 18; 110, 82]. Intervalo de 95% [109, 02; 110, 98]. 4. Intervalo de 90% [0, 55; 0, 65]. Intervalo de 99% [0, 53; 0, 67]. 5. Intervalo de 96% [0, 46; 0, 74]. Como o valor p = 0, 5 pertence ao intervalo de confiança de 96%, podemos afirmar, com 96% de confiança que, sim, a moeda é honesta. 6. Intervalo de 96% [0, 20; 0, 29]. Baseado no intervalo de confiança, temos que se Xi é uma variável aleatória indicando que a i-ésima casa é alugada, então, Xi segue distribuição Bernoulli com o parâmetro p pertencente a este intervalo. O número de casas alugadas então é dado por 20.000 N= ∑ Xi . i=1 Portanto, N ∼ Bin(n, p), onde p pertence a este intervalo. Como o número esperado de casas alugadas é dado por E(N) = 20.000p. 128 / 135 Probabilidade e Estatística Temos que o número esperado de casas alugadas pertence ao intervalo [4000, 5800]. 7. Intervalo de 90% [−0, 61; 1, 41]. 8. Intervalo de 95% [−7, 09; 4, 09]. 9. Intervalo de 95% [0, 56; 0, 64]. Como 0,5 = 50% não pertence ao intervalo, e o intervalo contém, com 95% de confiança, a média verdadeira. Temos que com 95% de confiança a média verdadeira, isto é, a proporção de donas de casa que preferem o detergente A, é maior do que 50%. Desta forma, a companhia tem evidência suficiente para NÃO confiar no funcionário. 10. Intervalo de 90% [0, 11; 0, 16]. Como 0,05 = 5% não pertence ao intervalo, e o intervalo contém, com 90% de confiança, a média verdadeira. Temos que com 90% de confiança a média verdadeira, isto é, o percentual de artigos defeituosos produzidos pelo novo empregado, é maior do que 5%. Desta forma, podemos sim afirmar que o novo empregado produz peças com índice de defeitos maior do que o existente. 11. a) -0,9921 b) Yb = 32, 28 − 1, 7X c) Temos que para X = 0, Yb = 32, 28. 12. a) Yb = 386, 84 − 1, 87X b) Temos que para X = 60, Yb = 274, 64. Para X = 120, temos Yb = 162, 44 c) R2 ≈ 0, 79. 13. a) Yb = 1, 81X b) R2 ≈ 0, 30 c) Xb = 0, 4 + 0, 16X d) R2 ≈ 0, 30. Feedback sobre o capítulo Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de submeter uma sugestão ou crítica? Para compreender melhor como feedbacks funcionam consulte o guia do curso. 129 / 135 Probabilidade e Estatística Apêndice A Apêndice - Tabela da Distribuição Normal P(X ≤ x) = Φ(x) = Z x 2 1 √ e−y /2 dy −∞ 2π Φ(−x) = 1 − Φ(x). x 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 FUNÇÃO DE DISTRIBUIÇÃO DA NORMAL N(0,1) 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 130 / 135 Probabilidade e Estatística x 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 FUNÇÃO DE DISTRIBUIÇÃO DA NORMAL N(0,1) 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 131 / 135 Probabilidade e Estatística Capítulo 9 Índice Remissivo A AAS, 108 Absoluta Acumulada, 6 Acumulada, 6 Aditividade Contável, 36 Finita, 36 Aleatória Simples, 107 Amostra, 1, 105 Tamanho, 105 Amostragem, 106 Aleatória Simples, 107 Estratificada, 107 Não-Probabilística, 106 por Conglomerado, 107 Probabilística, 106 Sistemática, 107 Amostral, 18, 35 Amplitude, 17 Amplitude Total, 4 Analítica, 79 Aproximação da Binomial, 87 Arranjos, 29 B Bayes, 42 Bernoulli, 72 Binômio de Newton, 30 Generalizado, 80 Binomial, 73 Binomial Negativa, 79 C Censo, 1 Central do Limite, 109 Certo, 35 Coeficiente de Determinação, 124 Coeficiente Binomial Generalizado, 80 Coeficiente de Variação, 21 Coeficientes Binomiais, 30 Combinações, 29 Complementar, 26, 37 Condicional, 39 Conjunto, 23 Complementar, 26 Diferença, 26 Elemento, 24 Igualdade, 24 Interseção, 25 Subconjunto, 24 União, 24 Vazio, 24 Consistência, 112 Consistente, 112 Contável, 36 Contínua, 2, 50 Contagem Regra da adição, 28 Regra da multiplicação, 27 Correlação, 117 de Pearson, 120 Correlação Linear Negativa, 118 Positiva, 118 Correlação Não-Linear, 118 Cronológica, 3 D de Colunas, 9 de Determinação, 124 de Dispersão, 16 de Linhas, 8 de Pearson, 120 de Setores, 11 132 / 135 Probabilidade e Estatística de Tendência Central, 11 Densidade Parte contínua, 55 densidade, 50 Dependente, 121 Desvio Médio, 17 Padrão, 19 Desvio padrão, 67 Diferença, 26 Discreta, 2 Discretas, 49 Distribuição, 52, 72 Bernoulli, 72 Binomial, 73 Binomial Negativa, 79 Exponencial, 98 Perda de Memória, 100 Gama, 101 Geométrica, 77 Perda de memória, 78 Hipergeométrica, 84 Normal, 94 Padronização, 95 Tabulação, 95 Parte contínua, 55 Parte discreta, 55 Pascal, 79 Poisson, 86 Aproximação da Binomial, 87 Uniforme, 93 Distribuição acumulada, 52 Distribuição Amostral, 108 Distribuição de Frequência, 4 E Eficiência, 112 Eficiente, 112 Elemento, 24 Elemento Mediano, 14 em Barras, 10 Equiprováveis, 38 Espaço Amostral, 35 Espaço Amostral Partição, 36 Reduzido, 40 Específica, 4 Esperança Variável Aleatória, 62 Função de, 63 Variável Aleatória Contínua, 62 Variável Aleatória Discreta, 62 Estatística, 108, 117 Estimação Intervalar, 111 Pontual, 111 Estimador, 111 Consistente, 112 Eficiente, 112 Não-tendencioso, 112 Não-viciado, 112 Não-viesado, 112 Estimativa, 112 Estratificada, 107 Evento, 35 Certo, 35 Complementar, 37 Impossível, 35 Eventos Independentes, 43 Mutuamente excludentes, 35 Experimento Aleatório, 34 Exponencial, 98 Perda de Memória, 100 F Fórmula da Mediana, 15 Fórmula de Czuber, 13 Finita, 36 Frequência Absoluta Acumulada, 6 Relativa, 6 Acumulada, 6 Frequência Absoluta, 5 Função, 56 Analítica, 79 Densidade Parte contínua, 55 densidade, 50 Distribuição, 52 Parte contínua, 55 Parte discreta, 55 Distribuição acumulada, 52 Gama, 101 Probabilidade Parte discreta, 55 Função de, 49, 63 Funcional, 117 133 / 135 Probabilidade e Estatística G Gama, 101 Generalizado, 80 Geográfica, 3 Geométrica, 77 Perda de memória, 78 Gráfico de Colunas, 9 de Linhas, 8 de Setores, 11 em Barras, 10 Pizza, 11 H Hipergeométrica, 84 Histograma, 7 I Identidade de Chu-Vandermonte, 85 Igualdade, 24 Imagem inversa, 48 Impossível, 35 Inclusão e Exclusão, 37 Independente, 121 Independentes, 43, 61 Induzida por uma variável aleatória, 48 Interseção, 25 Intervalar, 111 Intervalo de Confiança, 114 para a Diferença de Médias, 116 para a Média, 115 para a Proporção, 116 L Lei dos eventos raros, 86 M Média, 11 Média Amostral, 108 Média Aritmética, 11 Ponderada, 12 Médio, 17 Método Mínimos Quadrados, 121 Mínimos Quadrados, 121 Mediana, 11, 14 Medida Probabilidade, 36 Medidas de Dispersão, 16 de Tendência Central, 11 Mista, 55 Moda, 11, 13 Modelos Matemáticos, 34 Multiplicação, 40 Mutuamente excludentes, 35 N Não-Probabilística, 106 Não-tendencioso, 112 Não-viciado, 112 Não-viesado, 112 Negativa, 118 Nominal, 2 Normal, 94 Padronização, 95 Tabulação, 95 O Ordinal, 2 P Padrão, 19 Padronização, 95 Parâmetros Populacionais, 105 para a Diferença de Médias, 116 para a Média, 115 para a Proporção, 116 Parte contínua, 55 Parte discreta, 55 Partição, 36 Pascal, 79 Perda de Memória, 100 Perda de memória, 78 Permutação, 28 Pizza, 11 Poisson, 86 Aproximação da Binomial, 87 Polígono de Frequência, 7 Ponderada, 12 Pontual, 111 População, 1, 105 Populacional, 18 por Conglomerado, 107 Positiva, 118 Princípio Inclusão e Exclusão, 37 Probabilística, 106 Probabilidade, 36 Condicional, 39 Função de, 49 Induzida por uma variável aleatória, 48 134 / 135 Probabilidade e Estatística Parte discreta, 55 Probabilidade total, 41 Q Qualitativa Nominal, 2 Ordinal, 2 Quantitativa Contínua, 2 Discreta, 2 R Reduzido, 40 Regra da adição, 28 Regra da multiplicação, 27 Relação Estatística, 117 Funcional, 117 Relativa, 6 Acumulada, 6 Resultados Equiprováveis, 38 Rol de dados, 4 S Série Cronológica, 3 Específica, 4 Geográfica, 3 Temporal, 3 Série de Taylor, 79 Sistemática, 107 Subconjunto, 24 Independentes, 61 Variável, 1 Dependente, 121 Independente, 121 Qualitativa Nominal, 2 Ordinal, 2 Quantitativa Contínua, 2 Discreta, 2 Variável Aleatória, 47, 62, 67 Contínua, 50 Desvio padrão, 67 Discretas, 49 Função, 56 Função de, 63 Imagem inversa, 48 Mista, 55 Variância, 67 Variável Aleatória Contínua, 62 Variável Aleatória Discreta, 62 Variância, 67 Amostral, 18 Populacional, 18 Variável Aleatória, 67 Vazio, 24 T Tabelas, 3 Tabulação, 95 Tamanho, 105 Tamanho Amostral, 5 Temporal, 3 Teorema Bayes, 42 Central do Limite, 109 Multiplicação, 40 Probabilidade total, 41 U União, 24 Uniforme, 93 V Variáveis Aleatórias 135 / 135