INTRODUÇÃO À ANÁLISE ESTATÍSTICA VOLUME I Patrícia Pinto EDIÇÃO, DISTRIBUIÇÃO E VENDAS SÍLABAS & DESAFIOS - UNIPESSOAL LDA. NIF: 510212891 www.silabas-e-desafios.pt [email protected] Sede: Rua Dorilia Carmona, nº 4, 4 Dt 8000-316 Faro Telefone: 289805399 Fax: 289805399 Encomendas: [email protected] TÍTULO INTRODUÇÃO À ANÁLISE ESTATÍSTICA — Volume I AUTORA PATRÍCIA PINTO 1ª edição Setembro 2015 Sílabas & Desafios, Unipessoal Lda. ISBN: 978-989-99114-9-9 Depósito legal: Pré-edição, edição, composição gráfica e revisão: Sílabas & Desafios Unipessoal, Lda. Pré-impressão, impressão e acabamentos: Gráfica Comercial, Loulé Capa: Joana Guita Pinto; http://www.ladybug-ctrlc.com/ Reservados todos os direitos. Reprodução proibida. A utilização de todo, ou partes, do texto, figuras, quadros, ilustrações e gráficos, deverá ter a autorização expressa do autor. 2 Aos meus filhos, Filipa e João Maria 3 4 AGRADECIMENTOS Estou imensamente grata a todos os colegas que partilharam comigo a lecionação das unidades curriculares de Estatística I (licenciatura em Economia), Estatística (licenciatura em Gestão de Empresas) e de Análise de Dados II (licenciatura em Sociologia) da Faculdade de Economia da Universidade do Algarve pelo interesse e comentários em torno destes textos que permitiram a sua melhoria. O meu agradecimento estende-se aos estudantes, pela motivação que sempre me transmitem e que conduziria à concretização desta publicação. Agradeço também à Fundação para a Ciência e Tecnologia (FCT) que apoia o meu trabalho de investigação no âmbito do Centro de Investigação sobre Espaços e Organizações (CIEO), ao abrigo do projeto UID/SOC/04020/2013. Patrícia Pinto 5 6 ÍNDICE NOTA INTRODUTÓRIA 13 CAPÍTULO 1. TEORIA DAS PROBABILIDADES 15 1.1. EXPERIÊNCIA ESTATÍSTICA, ESPAÇO AMOSTRA E DIAGRAMAS EM ÁRVORE 15 1.2. ACONTECIMENTOS ELEMENTARES E ACONTECIMENTOS COMPOSTOS 18 1.3. O CONCEITO DE PROBABILIDADE. PROPRIEDADES 19 1.4. PROBABILIDADES MARGINAIS 26 1.5. PROBABILIDADES CONJUNTAS 29 1.6. PROBABILIDADES CONDICIONADAS 32 1.7. ACONTECIMENTOS INDEPENDENTES VERSUS ACONTECIMENTOS DEPENDENTES 36 1.8. PROBABILIDADE DA REUNIÃO DE ACONTECIMENTOS 39 1.9 TEOREMA DE BAYES 48 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS. CONCEITOS GERAIS. 55 2.1. CONCEITO DE VARIÁVEL ALEATÓRIA. VARIÁVEIS ALEATÓRIAS DISCRETAS E VARIÁVEIS ALEATÓRIAS CONTÍNUAS 55 2.2. DISTRIBUIÇÃO DE PROBABILIDADE DE UMA VARIÁVEL ALEATÓRIA DISCRETA 58 2.3. MÉDIA DE UMA VARIÁVEL ALEATÓRIA DISCRETA 63 2.4. VARIÂNCIA E DESVIO PADRÃO DE UMA VARIÁVEL ALEATÓRIA DISCRETA 66 2.5. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 71 2.6. DISTRIBUIÇÕES DE PROBABILIDADE DE DUAS VARIÁVEIS ALEATÓRIAS 74 2.7. COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO SIMPLES 80 CAPÍTULO 3. DISTRIBUIÇÃO BINOMIAL E DE POISSON 87 3.1. A DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL 87 3.2. A DISTRIBUIÇÃO DE PROBABILIDADE DE POISSON 100 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS. CONCEITOS GERAIS. 111 4.1. FUNÇÃO DE DENSIDADE DE PROBABILIDADE 111 4.2. MÉDIA, VARIÂNCIA E DESVIO PADRÃO DE UMA VARIÁVEL ALEATÓRIA CONTÍNUA 117 CAPÍTULO 5. DISTRIBUIÇÃO NORMAL 119 5.1. CARACTERÍSTICAS E PARÂMETROS DA DISTRIBUIÇÃO NORMAL 119 5.2. A DISTRIBUIÇÃO NORMAL ESTANDARDIZADA 123 5.3. APROXIMAÇÃO DAS DISTRIBUIÇÕES BINOMIAL E DE POISSON PELA DISTRIBUIÇÃO NORMAL 140 BIBLIOGRAFIA 147 7 8 ÍNDICE DE FIGURAS Figura 1.1. Diagrama em árvore para a experiência “realização de três exames na época de recurso”.......................................................................................................17 Figura 1.2. Diagrama em árvore para a experiência “seleção de um licenciado” ......35 Figura 1.3. Diagrama em árvore para a situação “escolha ou não de um mestrado por parte de três recém-licenciados”. ...............................................................................38 Figura 1.4. Diagrama de Venn para dois acontecimentos mutuamente exclusivos. ..39 Figura 1.5. Diagrama em árvore para a experiência “seleção de três estudantes para efetuarem um estágio” ...............................................................................................42 Figura 1.6. Diagrama de Venn para dois acontecimentos não mutuamente exclusivos ....................................................................................................................................43 Figura 1.7. Representação de P(A) no Diagrama de Venn ..........................................45 Figura 1.8. Representação de P(B) no Diagrama de Venn ..........................................45 Figura 1.9. Representação de P(C) no Diagrama de Venn ..........................................45 Figura 1.10. Representação de 𝑃𝐴 ∪ 𝐵 no diagrama de Venn ...................................47 Figura 1.11. Representação de 𝑃(𝐴 ∩ 𝐵) no diagrama de Venn................................ 47 Figura 1.12. Representação de 𝑃(𝐴 ∩ 𝐵) no diagrama de Venn................................ 47 Figura 1.13. Representação de 𝑃(𝐴 ∩ 𝐵) no diagrama de Venn................................ 48 Figura 1.14. Diagrama em árvore para a experiência “seleção de um cliente” ..........50 Figura 1.15. Árvore invertida para a experiência “seleção de um cliente”. ...............53 Figura 2.1. Gráfico da distribuição de probabilidade da variável aleatória X e respetiva função de distribuição de probabilidade ....................................................61 Figura 3.1. Diagrama em árvore para a experiência “observação das preferências de férias de três clientes” ................................................................................................ 90 Figura 3.2. Gráfico da distribuição de probabilidade da variável X com n = 3 e p = 0.2 ....................................................................................................................................94 Figura 3.3. Gráfico da distribuição de probabilidade da variável X com n = 3 e p = 0.5 ....................................................................................................................................96 Figura 3.4. Gráfico da distribuição de probabilidade da variável X com n = 3 e p = 0.8 ....................................................................................................................................96 Figura 3.5. Gráfico da distribuição de probabilidade da variável X ..........................105 Figura 3.6. Gráfico da distribuição de probabilidade da variável X ..........................106 Figura 4.1. Histograma e polígono de frequências relativas do quadro 4.1 .............112 Figura 4.2. Histograma e polígono de densidades de frequências relativas .............113 Figura 4.3. Gráfico da função de densidade de probabilidade de uma variável aleatória contínua .....................................................................................................114 Figura 4.4. A área abaixo da curva como uma probabilidade ..................................115 Figura 4.5. Área abaixo da curva como uma probabilidade .....................................116 Figura 4.6. A área total abaixo da curva de densidade de probabilidade .................117 9 Figura 5.1. Distribuição normal com média e desvio padrão .............................119 Figura 5.2. A área total abaixo da curva normal .......................................................120 Figura 5.3. A curva normal é simétrica em relação à média .....................................120 Figura 5.4. As abas da curva normal nunca tocam o eixo horizontal .......................121 Figura 5.5. A função de densidade de probabilidade normal ...................................122 Figura 5.6. Três curvas normais com a mesma média e desvio padrão diferente ....122 Figura 5.7. Três curvas normais com o mesmo desvio padrão e médias diferentes 123 Figura 5.8. Relação entre a curva normal e a curva da distribuição normal estandardizada .........................................................................................................125 Figura 5.9. Área entre 10 e 14.6 ...............................................................................126 Figura 5.10. Equivalência da área entre 𝑥 = 10 e 𝑥 = 14.6 e à área entre 𝑧 = 0 e 𝑧 = 1.15 ...........................................................................................................................127 Figura 5.11. Igualdade das área entre 𝑧 = 0 e 𝑧 = 1.15 e 𝑧 = - 0.15 e 𝑧 = 0 ...............128 Figura 5.12. Equivalência da área à direita de 𝑥 = 15.5 e a área à direita de 𝑧 = 1.375 ..................................................................................................................................129 Figura 5.13. A área à direita de z = 1.375 .................................................................130 Figura 5.14. Igualdade das áreas à direita de 𝑧 = 1.375 e à esquerda de 𝑧 = - 1.375131 Figura 5.15. Equivalência da área entre 𝑥 = 14 e 𝑥 = 16 da área entre 𝑧 = 1 e 𝑧 = 1.5 ..................................................................................................................................132 Figura 5.16. Equivalência da área entre 𝑥 = 14 e 𝑥 = 16 da área entre 𝑧 = 1 e 𝑧 = 1.5 ..................................................................................................................................133 Figura 5.17. Equivalência entre a área à direita de 𝑥 = 9.5 e a área à direita de 𝑧 = 0.125 .........................................................................................................................134 Figura 5.18. Equivalência entre a área à esquerda de 𝑥 = 12 e a área à esquerda de 𝑧 = 0.5 ..........................................................................................................................135 Figura 5.19. Determinação do valor 𝑧 ......................................................................136 Figura 5.20. Determinação do valor 𝑧 ......................................................................137 Figura 5.21. Determinação do valor 𝑥 ......................................................................139 Figura 5.22. Distribuição binomial com n = 20 e p = 0.5 e distribuição normal com média e desvio padrão idênticos ao da distribuição binomial ..................................141 Figura 5.23. Aproximação da distribuição de probabilidade de uma variável aleatória discreta à distribuição de probabilidade de uma variável aleatória contínua ..........143 10 ÍNDICE DE QUADROS Quadro 1.1. Quadro de frequências absolutas e relativas. ........................................24 Quadro 1.2. Classificação dupla das respostas de 1000 licenciados. .........................27 Quadro 1.3. Probabilidades marginais e probabilidades conjuntas. ..........................30 Quadro 1.4. Probabilidades condicionadas. ...............................................................34 Quadro 2.1. Frequências absolutas do nº de utilizações dos serviços de Multibanco ....................................................................................................................................56 Quadro 2.2. Frequências absolutas e relativas do nº de utilizações dos serviços de multibanco ..................................................................................................................58 Quadro 2.3. Distribuição de probabilidade da variável aleatória X = número de vezes que um cliente utiliza os serviços de multibanco .......................................................59 Quadro 2.4. Distribuição de probabilidade da variável aleatória X = número de recém-licenciados que se inscrevem num mestrado ..................................................62 Quadro 2.5. Distribuição de probabilidade da variável aleatória X = cotação obtida em cada resposta por um aluno que responda ao acaso ...........................................65 Quadro 2.6. Distribuição de probabilidade das vendas do vendedor A .....................66 Quadro 2.7. Distribuição de probabilidade das vendas do vendedor B .....................66 Quadro 2.8. Cálculos necessários à determinação de Var(X) .....................................69 Quadro 2.9. Cálculos necessários à determinação de Var(Y) .....................................69 Quadro 2.10. Distribuição de probabilidade de X ......................................................72 Quadro 2.11. Distribuição de probabilidade de L .......................................................73 Quadro 2.12. Classificação dupla de 120 estudantes. ................................................75 Quadro 2.13. Probabilidades Marginais e Probabilidades Conjuntas. .......................75 Quadro 2.14. Distribuição de probabilidade marginal da v.a. X .................................76 Quadro 2.15. Distribuição de probabilidade marginal da v.a. Y .................................76 Quadro 2.16. Distribuição de probabilidade conjunta das v.a. X e Y ..........................76 Quadro 2.17. Distribuição de probabilidade condicionada de X ................................ 79 Quadro 2.18. Distribuição de probabilidade condicionada de Y ................................ 80 Quadro 2.19. Cálculo da covariância ..........................................................................82 Quadro 3.1. Distribuição de probabilidade de X ........................................................93 Quadro 3.2. Parte da tabela da distribuição binomial para n = 3 e p = 0.2 ................95 Quadro 3.3. Distribuição binomial para n = 3 e p = 0.5 ..............................................95 Quadro 3.4. Distribuição binomial para n = 3 e p = 0.8 ..............................................96 Quadro 3.5. Parte da tabela da Distribuição de Poisson para λ = 1 ..........................104 Quadro 4.1. Frequências absolutas e frequências relativas da altura de 1000 portugueses ..............................................................................................................111 Quadro 5.1. Parte da tabela da distribuição normal estandardizada .......................127 Quadro 5.2. Parte da tabela da distribuição normal estandardizada .......................136 11 12 NOTA INTRODUTÓRIA O manual que aqui se apresenta resulta da já longa experiencia pedagógica da autora na lecionação de unidades curriculares de Estatística e de Análise de Dados em cursos de licenciatura em Economia, Gestão de Empresas e Sociologia na Faculdade de Economia da Universidade do Algarve. Trata-se de um conjunto de textos introdutórios preparados para apoiar os estudantes nas referidas unidades curriculares e que visam dar a conhecer conceitos fundamentais no âmbito do cálculo de probabilidades, bem como evidenciar algumas variáveis particularmente importantes na análise estatística e a sua distribuição. O presente manual tem essencialmente um cariz didático, procurando apresentar os diferentes conceitos teóricos enquadrados em exemplos práticos de aplicação às Ciências Sociais e, deste modo, facilitar o seu entendimento. Assim, o capítulo 1 é dedicado à teoria das probabilidades e introduz algumas noções e regras básicas que permitem o seu cálculo. O capítulo 2 apresenta os principais conceitos que envolvem as chamadas variáveis aleatórias discretas, designadamente a sua distribuição de probabilidade e parâmetros mais relevantes. O capítulo 3 explora duas distribuições de probabilidade discretas com especial interesse na análise estatística, a distribuição binomial e a distribuição de Poisson. O capítulo 4 faz uma abordagem semelhante ao capítulo 2 mas, desta vez, no contexto das chamadas variáveis aleatórias contínuas. Por último, o capítulo 5 aborda uma das distribuições contínuas mais importantes na análise estatística, a distribuição normal. 13 14 CAPÍTULO 1. TEORIA DAS PROBABILIDADES A Inferência Estatística está sempre associada a alguma incerteza. Com efeito, a generalização dos resultados obtidos com base numa amostra a toda a população é um processo complexo que envolve sempre um certo grau de erro. Por exemplo, quando uma empresa de sondagens prevê que um determinado partido político sairá vencedor nas próximas eleições, fá-lo baseando-se numa série de premissas, algumas das quais poderão revelarse falsas. Nomeadamente, a referida empresa espera que a amostra obtida seja representativa da população, isto é, que contenha em proporção tudo o que a população possui, qualitativa e quantitativamente. A empresa espera ainda que as intenções de voto manifestadas durante o processo de amostragem se mantenham no dia do ato eleitoral. A teoria das probabilidades permite precisamente avaliar o grau de (in)certeza que acompanha a Inferência Estatística e daí a importância de proceder ao seu estudo. Neste capítulo apresentaremos os conceitos básicos bem como algumas regras que permitem calcular probabilidades. 1.1. Experiência Estatística, Espaço Amostra e Diagramas em Árvore Considere-se os seguintes exemplos: Exemplo 1.1. O gestor de produção de uma fábrica de embalagens seleciona ao acaso uma embalagem recentemente saída da linha de produção. Essa embalagem pode estar em boas condições ou ser defeituosa. {teoria das probabilidades} Exemplo 1.2. Um jogador lança uma vez um dado vulgar. Os resultados possíveis são 1,2,3,4,5 ou 6. Os exemplos apresentados permitem introduzir o conceito de experiência estatística. EXPERIÊNCIA ESTATÍSTICA – processo que, uma vez realizado, produz um e um só resultado incerto entre vários resultados possíveis. No exemplo 1.1, a experiência estatística é a inspeção aleatória de uma embalagem. Na verdade, deste ato resultará um só resultado (a embalagem ou está em boas condições ou é defeituosa) entre dois resultados possíveis. No exemplo 1.2, a experiência estatística consiste no lançamento do dado. Também nesta situação apenas é possível obter um resultado (desconhecese qual) entre seis resultados possíveis. Defina-se agora espaço amostra ou espaço amostral. ESPAÇO AMOSTRA OU ESPAÇO AMOSTRAL – conjunto formado por todos os resultados de uma experiência estatística. O espaço amostra representa-se por S. Assim, no exemplo 1.1, 𝑆 = {𝑏𝑜𝑚, 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑜} . No exemplo 1.2, 𝑆 = {1, 2, 3, 4, 5, 6}. Naturalmente, nem todas as experiências estatísticas são assim tão simples. Algumas possibilitam muito mais resultados possíveis e, por isso, dão origem a espaços amostra bem mais complexos. Nestes casos, é frequente o recurso a diagramas em árvore que permitem visualizar facilmente todos os resultados possíveis da experiência. 16 {teoria das probabilidades} DIAGRAMA EM ÁRVORE – diagrama que permite visualizar todos os resultados possíveis de uma experiência estatística. Exemplo 1.3. Um estudante vai ser submetido a três exames na época de recurso. Ele pode passar ou reprovar em cada uma das provas. Pretende-se determinar o espaço amostra. Resolução: Para determinar o espaço amostra, desenhe-se o diagrama em árvore correspondente em que “R” significa que o estudante reprova e “P” que o estudante passa em cada exame: Figura 1.1. Diagrama em árvore para a experiência “realização de três exames na época de recurso” P P R P R R 1º Exame 2º Exame P PPP R P PPR PRP R PRR P RPP R P RPR RRP R 3º Exame RRR Espaço Amostra (Resultados Possíveis) Neste caso, a experiência estatística consiste na realização dos três exames por parte do estudante. De facto, também neste caso, um só resultado poderá ocorrer entre os oito resultados possíveis. O espaço amostra é, então, 𝑆 = {𝑃𝑃𝑃, 𝑃𝑃𝑅, 𝑃𝑅𝑃, 𝑃𝑅𝑅, 𝑅𝑃𝑃, 𝑅𝑃𝑅, 𝑅𝑅𝑃, 𝑅𝑅𝑅}. 17 {teoria das probabilidades} 1.2. Acontecimentos Elementares e Acontecimentos Compostos Comecemos por definir acontecimento. ACONTECIMENTO – qualquer subconjunto do espaço amostra. Portanto, um acontecimento pode ser constituído por um ou por mais resultados de uma experiência estatística. No primeiro caso, fala-se em acontecimento elementar ou acontecimento simples e, no segundo caso, em acontecimento composto. ACONTECIMENTO ELEMENTAR OU ACONTECIMENTO SIMPLES – acontecimento que inclui um e um só dos resultados (finais) da experiência estatística. Exemplo 1.4. No exemplo anterior, há oito acontecimentos elementares que correspondem aos oito ramos da árvore. Definam-se esses acontecimentos da seguinte forma: A1 = o estudante é aprovado nos três exames A2 = o estudante é aprovado nos dois primeiros exames e reprova no terceiro A3 = o estudante é aprovado no primeiro e no terceiro exames e reprova no segundo A4 = o estudante é aprovado no primeiro exame e reprova nos restantes A5 = o estudante é reprovado no primeiro exame e aprovado nos restantes A6 = o estudante é reprovado no primeiro e no terceiro exames e aprovado no segundo A7 = o estudante é reprovado nos dois primeiros exames e aprovado no terceiro A8 = o estudante é reprovado nos três exames 18 {teoria das probabilidades} ou, de forma mais simples: 𝐴1 = (𝑃𝑃𝑃), 𝐴2 = (𝑃𝑃𝑅), 𝐴3 = (𝑃𝑅𝑃), 𝐴4 = (𝑃𝑅𝑅), 𝐴5 = (𝑅𝑃𝑃), 𝐴6 = (𝑅𝑃𝑅), 𝐴7 = (𝑅𝑅𝑃), 𝐴8 = (𝑅𝑅𝑅). ACONTECIMENTO COMPOSTO – acontecimento que inclui dois ou mais resultados de uma experiência estatística. Por outras palavras, um acontecimento diz-se composto se inclui dois ou mais acontecimentos elementares. Exemplo 1.5. Ainda no âmbito do exemplo 1.3, considere-se agora o seguinte acontecimento: A = o estudante é aprovado em pelo menos dois dos exames a que é submetido Este acontecimento ocorrerá se o estudante obtiver aprovação em dois ou em três exames, isto é, se se verificarem os acontecimentos A1, A2, A3 ou A5. Assim, o acontecimento A diz-se um acontecimento composto visto ser formado por quatro acontecimentos elementares: 𝐴 = {𝑃𝑃𝑃, 𝑃𝑃𝑅, 𝑃𝑅𝑃, 𝑅𝑃𝑃}. 1.3. O Conceito de Probabilidade. Propriedades Uma possível definição de probabilidade é a seguinte: PROBABILIDADE – valor numérico que reflete as hipóteses de ocorrência de um determinado acontecimento. A probabilidade de ocorrência do acontecimento A representa-se por P(A). 19 {teoria das probabilidades} Qualquer probabilidade goza das de duas propriedades importantes: 1) A probabilidade de qualquer acontecimento varia entre 0 e 1. Mais formalmente, pode escrever-se: 0 ≤ 𝑃(𝐴) ≤ 1. Naturalmente, uma probabilidade igual a 1 significa que o acontecimento ocorrerá com certeza. Trata-se de um acontecimento certo. Pelo contrário, uma probabilidade igual a 0 significa que o acontecimento nunca ocorrerá. Neste caso, fala-se em acontecimento impossível. Finalmente, uma probabilidade próxima de 1 indica um acontecimento altamente provável e uma probabilidade próxima de 0, um acontecimento pouco provável. Observe-se também que as probabilidades podem ser igualmente apresentadas sob a forma de percentagens. 2) A soma das probabilidades de todos os acontecimentos elementares de uma experiência estatística é igual a 1. Assim, sejam 𝐴1 , 𝐴2 ,…, 𝐴𝑛 , n acontecimentos elementares. Então, pode escrever-se: 𝑛 𝑃(𝐴1 ) + 𝑃(𝐴2 )+. . . +𝑃(𝐴𝑛 ) = ∑ 𝑃(𝐴𝑖 ) = 1. 𝑖=1 Já vimos como interpretar probabilidades. Analisemos agora alguns métodos que tornam possível o seu cálculo. Basicamente, três métodos são utilizados com frequência por forma a atribuir uma probabilidade a um determinado acontecimento. São eles: 1) o método clássico 2) o método da frequência relativa 3) o método subjetivo O MÉTODO CLÁSSICO O método clássico pode ser usado se todos os resultados da experiência 20