INTRODUÇÃO À ANÁLISE ESTATÍSTICA VOLUME II Patrícia Pinto EDIÇÃO, DISTRIBUIÇÃO E VENDAS SÍLABAS & DESAFIOS - UNIPESSOAL LDA. NIF: 510212891 www.silabas-e-desafios.pt [email protected] Sede: Rua Dorilia Carmona, nº 4, 4 Dt 8000-316 Faro Telefone: 289805399 Fax: 289805399 Encomendas: [email protected] TÍTULO INTRODUÇÃO À ANÁLISE ESTATÍSTICA — Volume II AUTORA PATRÍCIA PINTO 1ª edição Setembro 2015 Sílabas & Desafios, Unipessoal Lda. ISBN: 978-989-98122-4-6 Depósito legal: Pré-edição, edição, composição gráfica e revisão: Sílabas & Desafios Unipessoal, Lda. Pré-impressão, impressão e acabamentos: Gráfica Comercial, Loulé Capa: Joana Guita Pinto; http://www.ladybug-ctrlc.com/ Reservados todos os direitos. Reprodução proibida. A utilização de todo, ou partes, do texto, figuras, quadros, ilustrações e gráficos, deverá ter a autorização expressa do autor. 2 Aos meus filhos, Filipa e João Maria 3 4 AGRADECIMENTOS Estou imensamente grata ao Prof. Doutor Pedro Pintassilgo pelo seu interesse e análise crítica relativamente a estes textos. As suas pertinentes sugestões muito têm contribuído para uma melhoria sucessiva deste trabalho. Agradeço também à Fundação para a Ciência e Tecnologia (FCT) que apoia o meu trabalho de investigação no âmbito do Centro de Investigação sobre Espaços e Organizações (CIEO), ao abrigo do projeto UID/SOC/04020/2013. Patrícia Pinto 5 6 Índice NOTA INTRODUTÓRIA 13 CAPÍTULO 1. 15 1.1. 1.2. 1.3. 1.4. 1.5. AMOSTRAGEM POPULAÇÃO E AMOSTRA. AMOSTRAS ALEATÓRIAS E AMOSTRAS NÃO ALEATÓRIAS. DISTRIBUIÇÃO DE PROBABILIDADE DA POPULAÇÃO E DISTRIBUIÇÕES AMOSTRAIS MÉDIA E DESVIO PADRÃO DA DISTRIBUIÇÃO AMOSTRAL DE 𝐗 FORMA DA DISTRIBUIÇÃO AMOSTRAL DE 𝐗 PROPORÇÃO DA POPULAÇÃO, PROPORÇÃO DA AMOSTRA E DISTRIBUIÇÃO AMOSTRAL DE 15 18 26 30 UMA PROPORÇÃO 1.6. 1.7. 38 42 43 MÉDIA E DESVIO PADRÃO DA PROPORÇÃO AMOSTRAL FORMA DA DISTRIBUIÇÃO DE PROBABILIDADE DE UMA PROPORÇÃO AMOSTRAL CAPÍTULO 2. ESTIMAÇÃO PONTUAL 48 2.1. ESTIMAÇÃO PONTUAL E ESTIMAÇÃO POR INTERVALOS. PARÂMETRO, ESTIMADOR E ESTIMATIVA. 2.2. PROPRIEDADES DESEJÁVEIS NUM ESTIMADOR: NÃO ENVIESAMENTO, EFICIÊNCIA E CONSISTÊNCIA. 2.2.1. NÃO ENVIESAMENTO 2.2.2. EFICIÊNCIA 2.2.3. CONSISTÊNCIA 2.3. O MÉTODO DE ESTIMAÇÃO DA MÁXIMA VEROSIMILHANÇA CAPÍTULO 3. 48 52 52 57 61 68 INTERVALOS DE CONFIANÇA 80 3.1. O CONCEITO DE INTERVALO DE CONFIANÇA 80 3.2. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO QUANDO O DESVIO PADRÃO É CONHECIDO. 81 3.3. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO QUANDO O DESVIO PADRÃO É DESCONHECIDO. 92 3.4. INTERVALOS DE CONFIANÇA PARA A DIFERENÇA ENTRE DUAS MÉDIAS 97 3.4.1. AMOSTRAS INDEPENDENTES 97 3.4.2. AMOSTRAS EMPARELHADAS 105 3.5. INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO 110 3.6. INTERVALO DE CONFIANÇA PARA A DIFERENÇA ENTRE DUAS PROPORÇÕES 113 CAPÍTULO 4. TESTES DE HIPÓTESES 4.1. GENERALIDADES SOBRE TESTES DE HIPÓTESES 4.1.1. CONCEITO E OBJETIVOS DE UM TESTE DE HIPÓTESES 4.1.2. A HIPÓTESE NULA E A HIPÓTESE ALTERNATIVA 4.1.3. REGIÃO DE REJEIÇÃO E REGIÃO DE NÃO-REJEIÇÃO 116 116 116 117 119 7 4.1.4. 4.1.5. 4.2. 4.3. 4.4. 4.5. 4.6. 4.6.1. 4.6.2. 4.7. 4.8. 4.8.1. 4.8.2. TIPOS DE ERROS TIPOS DE TESTES DE HIPÓTESES TESTES DE HIPÓTESES SOBRE A MÉDIA DA POPULAÇÃO CÁLCULO DA PROBABILIDADE DE UM ERRO DO TIPO II TESTES DE HIPÓTESES ATRAVÉS DO P-VALUE TESTES DE HIPÓTESES SOBRE A PROPORÇÃO DA POPULAÇÃO TESTES DE HIPÓTESES SOBRE A DIFERENÇA ENTRE DUAS MÉDIAS AMOSTRAS INDEPENDENTES AMOSTRAS EMPARELHADAS TESTES DE HIPÓTESES SOBRE A DIFERENÇA ENTRE DUAS PROPORÇÕES ANÁLISE DO PRESSUPOSTO DE NORMALIDADE TESTE DE KOLMOGOROV-SMIRNOV O GRÁFICO Q-Q CAPÍTULO 5. 5.1. 5.2. 5.2.1. 5.2.2. 5.2.3. 5.2.4. 5.3. 5.4. CAPÍTULO 6. 6.1. 6.2. 6.3. TESTES DO QUI-QUADRADO A DISTRIBUIÇÃO DO QUI-QUADRADO TESTES DE AJUSTAMENTO TESTES DE INDEPENDÊNCIA BIBLIOGRAFIA 8 ANÁLISE DE VARIÂNCIA A DISTRIBUIÇÃO F ANÁLISE DE VARIÂNCIA COM CLASSIFICAÇÃO SIMPLES OS OBJETIVOS DA ANÁLISE DE VARIÂNCIA COM CLASSIFICAÇÃO SIMPLES OS PRESSUPOSTOS DE APLICAÇÃO DA ANOVA COM CLASSIFICAÇÃO SIMPLES A ESTATÍSTICA DO TESTE (CASO EM QUE AS AMOSTRAS TÊM A MESMA DIMENSÃO) A ESTATÍSTICA DO TESTE (CASO EM QUE AS AMOSTRAS NÃO TÊM A MESMA DIMENSÃO) ANÁLISE DE VARIÂNCIA COM CLASSIFICAÇÃO DUPLA TESTES À IGUALDADE DE VARIÂNCIAS DE 𝒌 POPULAÇÕES INDEPENDENTES 121 123 129 141 146 152 156 157 162 167 171 172 177 180 180 182 182 188 188 199 204 212 218 218 221 230 238 ÍNDICE DE FIGURAS Figura 1.1. Distribuição de probabilidade da população e distribuição amostral de 𝑋 .............. 31 Figura 1.2. Distribuição de probabilidade da população e distribuição amostral de 𝑋 .............. 35 Figura 2.1. Função de densidade de probabilidade de um estimador 𝑢 não enviesado ............ 53 Figura 2.2. Função de densidade de probabilidade de um estimador v enviesado.................... 53 Figura 2.3. Estimador eficiente e estimador não eficiente ......................................................... 58 Figura 2.4. Distribuição amostral de 𝑋 e distribuição amostral de 𝑋𝑚𝑒𝑑 ................................ 60 Figura 2.5. Evolução da distribuição amostral de S à medida que n aumenta ........................... 63 Figura 2.6. Escolha entre estimadores não enviesados .............................................................. 64 Figura 2.7. Escolha entre um estimador enviesado e outro não enviesado ............................... 64 Figura 2.8. Probabilidade de 𝑋 = 2 para valores distintos de p assumindo que 𝑛 = 8 ............. 70 Figura 2.9. A função de verosimilhança e o logaritmo da função de .......................................... 72 Figura 3.1. Intervalo de confiança para μ................................................................................... 81 Figura 3.2. Intervalo de confiança para μ................................................................................... 83 Figura 3.3. 10 intervalos de confiança μ .................................................................................... 87 Figura 3.4. Relação entre a curva da distribuição t e a curva da distribuição Z .......................... 95 Figura 3.5. Distribuição amostral de Z.......................................................................................100 Figura 4.1. Região de rejeição e região de não rejeição no caso de um julgamento em tribunal ..................................................................................................................................................120 Figura 4.2. Teste bilateral .........................................................................................................125 Figura 4.3. Teste unilateral à direita .........................................................................................127 Figura 4.4. Teste unilateral à esquerda .....................................................................................128 Figura 4.5. Teste bilateral .........................................................................................................132 Figura 4.6. Teste bilateral .........................................................................................................134 Figura 4.7. Teste unilateral à direita .........................................................................................135 Figura 4.8. Teste unilateral à direita .........................................................................................137 Figura 4.9. Teste unilateral à esquerda .....................................................................................139 Figura 4.10. Teste unilateral à esquerda ...................................................................................139 Figura 4.11. Teste bilateral .......................................................................................................143 Figura 4.12. Teste bilateral .......................................................................................................144 Figura 4.13. O p-value num teste unilateral à esquerda ...........................................................147 Figura 4.14. O p-value num teste unilateral à esquerda ...........................................................148 Figura 4.15. O p-value num teste bilateral ................................................................................148 Figura 4.16. O p-value num teste unilateral à direita ................................................................150 Figura 4.17. O p-value num teste bilateral ................................................................................151 Figura 4.18. Teste bilateral .......................................................................................................155 Figura 4.19. Teste bilateral .......................................................................................................156 Figura 4.20. Teste unilateral à esquerda ...................................................................................161 Figura 4.21. Teste unilateral à esquerda ...................................................................................162 9 Figura 4.22. Teste unilateral à direita .......................................................................................166 Figura 4.23. Teste unilateral à direita .......................................................................................166 Figura 4.24. Teste unilateral à direita .......................................................................................170 Figura 4.25. Teste unilateral à direita .......................................................................................170 Figura 4.26. Interpretação gráfica da estatística D....................................................................173 Figura 4.27. Gráfico Q-Q ...........................................................................................................179 Figura 5.1. Curva da distribuição F ............................................................................................181 Figura 5.2. Distribuição F ..........................................................................................................182 Figura 5.3. Dados do quadro 5.5 ...............................................................................................191 Figura 5.4. Dados do quadro 5.2 ...............................................................................................192 Figura 5.5. Distribuição F ..........................................................................................................197 Figura 5.6. Distribuição F ..........................................................................................................199 Figura 5.7. Distribuição F ..........................................................................................................201 Figura 5.8. Distribuição F ..........................................................................................................203 Figura 5.9. Distribuição F ..........................................................................................................210 Figura 5.10. Distribuição F ........................................................................................................211 Figura 5.11. Distribuição F ........................................................................................................212 Figura 5.12. Distribuição F ........................................................................................................212 Figura 5.13. Distribuição F ........................................................................................................215 Figura 5.14. Distribuição F ........................................................................................................217 Figura 6.1. Curvas relativas a três distribuições do Qui-quadrado ............................................219 Figura 6.2. Curvas da distribuição do Qui-quadrado .................................................................220 Figura 6.3. Curva da distribuição do Qui-quadrado ..................................................................225 Figura 6.4. Curva da distribuição do Qui-quadrado ..................................................................227 Figura 6.5. Curvas da distribuição do Qui-quadrado .................................................................229 Figura 6.6. Curva da distribuição do Qui-quadrado ..................................................................230 Figura 6.7. Curva da distribuição do Qui-quadrado ..................................................................235 Figura 6.8. Curva de distribuição do Qui-quadrado ..................................................................236 10 ÍNDICE DE QUADROS Quadro 1.1. Parte da tabela de números aleatórios .................................................................. 18 Quadro 1.2. Quadro de frequências absolutas .......................................................................... 19 Quadro 1.3. Distribuição de probabilidade da população.......................................................... 19 Quadro 1.4. Todas as amostras de dimensão 3 e respetivas médias ......................................... 21 Quadro 1.5. Quadro de frequências absolutas de 𝑿 quando cada amostra tem dimensão 3 .... 21 Quadro 1.6. Distribuição amostral de 𝑿 quando cada amostra tem dimensão 3 ...................... 22 Quadro 1.7. Distribuição de probabilidade de uma observação individual................................ 25 Quadro 1.8. Opinião de 5 funcionários relativamente à política de progressão na carreira ...... 40 Quadro 1.9. Todas as amostras de dimensão 2 e respetivas proporções amostrais .................. 41 Quadro 1.10. Quadro das frequências absolutas de 𝑝 quando a dimensão das amostras é igual a 2 ................................................................................................................................................. 41 Quadro 1.11. Distribuição amostral de 𝑝 quando a dimensão das amostras é 2 ....................... 42 11 12 NOTA INTRODUTÓRIA Tal como o volume I, o presente manual de Introdução à Análise Estatística II decorre da prática pedagógica da autora na lecionação de unidades curriculares de Estatística e de Análise de Dados em cursos de licenciatura em Economia, Gestão de Empresas e Sociologia na Faculdade de Economia da Universidade do Algarve. Os textos que agora se apresentam visam introduzir o leitor na chamada análise estatística inferencial, um ramo da estatística que procura fazer extrapolações para uma população alvo tendo por base uma amostra representativa dessa população. Neste contexto, são abordados conceitos fundamentais no âmbito da teoria da amostragem e são apresentados alguns instrumentos que permitem fazer essa inferência. À semelhança da abordagem didática que orientou o volume I, o atual volume procura articular a necessária formalização matemática com exemplos práticos de aplicação às Ciências Sociais que permitam a sua fácil compreensão. O capítulo 1 é dedicado à amostragem e estuda duas distribuições muito importantes na análise estatística: a da média e a da proporção amostrais. O capítulo 2 foca uma das formas de fazer inferência estatística, a chamada estimação pontual, explicando, nomeadamente, as características desejáveis num estimador. O capítulo 3 explora a forma mais comum de inferência que consiste na determinação de intervalos de confiança. Em estreita articulação com este capítulo, o capítulo 4 introduz o conceito de teste de hipóteses e aborda os testes paramétricos mais usados na análise estatística que envolvam uma ou duas variáveis aleatórias. O capítulo 5 dá continuidade aos testes estudados no capítulo anterior, focando o caso particular do teste ANOVA. Por último, o capítulo 6 apresenta dois testes de hipóteses não paramétricos de particular interesse: o teste de ajustamento e o teste de independência. 13 14 CAPÍTULO 1. AMOSTRAGEM A Estatística Indutiva ou Inferência Estatística constitui, talvez, o ramo mais interessante da Estatística. Em termos gerais, o seu objetivo é generalizar as conclusões que se obtêm a partir de um pequeno conjunto de elementos (designado por amostra) a um conjunto mais numeroso (designado por população). Numa primeira análise, o sucesso da Inferência Estatística depende da forma como a amostra é selecionada. Na verdade, de nada adianta aplicar corretamente as técnicas de Inferência a uma amostra mal escolhida, não representativa da população que se pretende conhecer. Assim, apresentaremos neste capítulo as principais características de uma “boa” amostra, bem como alguns métodos que permitem a sua correta seleção. Outro aspeto importante é que certas características de uma amostra (tais como a sua média, a sua variância, etc.) são também variáveis aleatórias e, como tal, têm uma distribuição de probabilidade. Estas distribuições de probabilidade designam-se por distribuições amostrais. Neste capítulo estudaremos os casos particulares das distribuições da média e da proporção amostrais. 1.1. População e Amostra. Amostras Aleatórias e Amostras Não Aleatórias. Em Estatística, o termo população não se refere apenas a pessoas mas, também, a objetos e a acontecimentos. A população pode ser finita ou infinita. Por exemplo, o número de eleitores, 15 {amostragem} o número de estudantes de uma escola são populações finitas. Já a temperatura em diversos pontos de um país num dado momento e a idade dos edifícios constituem exemplos de populações infinitas. POPULAÇÃO – conjunto de entidades (pessoas, objetos ou acontecimentos) com qualquer característica em comum e com interesse para o estudo. Para tirar conclusões acerca da população, a Inferência Estatística utiliza uma amostra. AMOSTRA – subconjunto da população que se supõe representativo desta. São vários os motivos que podem explicar o uso de uma amostra ao invés da população num estudo estatístico. Apontemos alguns: (a) A população pode ser muito numerosa ou até infinita; (b) É mais rápido, mais cómodo e mais económico analisar apenas um número restrito de elementos; (c) Muitas vezes é necessário fazer testes nocivos e até destrutivos (testes à resistência de objetos, testes de resistência face a certos medicamentos, etc.). Num estudo estatístico, a forma como a amostra é escolhida é de extrema importância. Uma amostra mal selecionada conduz invariavelmente a resultados errados, ou seja, invalida a Inferência Estatística que se pretenda fazer. De um modo geral, a constituição de uma amostra deve atender aos seguintes princípios: (1) Imparcialidade: todos os elementos da população devem ter a mesma oportunidade de fazer parte da amostra; (2) Representatividade: a amostra deve conter, em proporção, todas as características da população (qualitativas e quantitativas); 16 {amostragem} (3) Dimensão: a amostra deve ser tão grande possível, de modo que as características da amostra se aproximem das características da população. Existem técnicas para a escolha correta de uma amostra. Uma das mais utilizadas é a amostragem aleatória. Defina-se, então, amostra aleatória e amostra não aleatória. AMOSTRA ALEATÓRIA e AMOSTRA NÃO ALEATÓRIA – a amostra é aleatória se todos os elementos da população tiveram oportunidade dela fazerem parte. Caso contrário, ou seja, se alguns elementos da população não tiverem tido qualquer hipótese de serem escolhidos, a amostra diz-se não aleatória. Exemplo 1.1. Suponhamos uma população de estudantes universitários da qual se pretende selecionar uma amostra de dimensão 20. Se escrevermos o nome de cada estudante num pedaço de papel, colocarmos todos os papéis num saco escuro, misturarmos e, seguidamente, tirarmos 20 papéis, obtemos uma amostra aleatória de 20 estudantes. Mas, se em vez disso, ordenarmos os nomes dos estudantes por ordem alfabética e escolhermos os 20 primeiros, a amostra resultante será não aleatória uma vez que os estudantes que não se encontrarem entre os 20 primeiros não terão qualquer hipótese de serem escolhidos. Uma amostra aleatória é, em geral, representativa da população. No exemplo 1.1, vimos uma forma de escolher uma amostra aleatória. O uso de uma tabela de números aleatórios constitui outra forma de atingir este objetivo. Vejamos um exemplo. Exemplo 1.2. Considere-se um grupo de 200 pessoas do qual se pretende escolher uma amostra aleatória de 20. Para tal, ordenavam-se alfabeticamente os nomes das 200 pessoas e atribuía-se um número de três dígitos a cada uma delas (de 001 a 200). Seguidamente, usávamos a tabela 17 {amostragem} de números aleatórios para selecionar as 20 pessoas. Assim, escolhemos um número qualquer da tabela (quadro 1.1) e, a partir desse número, seguimos em qualquer direção (por exemplo, para a direita). Quadro 1.1. Parte da tabela de números aleatórios 13054 85132 32747 17728 96544 92603 74990 98288 67295 00694 97456 38430 53637 28861 59063 72453 Suponhamos que começávamos com o primeiro número do quadro 1.1 (parte da tabela de números aleatórios). Esse número é o 13049. Uma vez que estamos interessados em números de três dígitos, vamos considerar apenas os três primeiros dígitos do número 13054: 130. Assim, a pessoa identificada com o número 130 seria a primeira a fazer parte da amostra. O número aleatório imediatamente à direita é o número 85132 do qual nos interessa apenas os três primeiros dígitos: 852. Este número não seria considerado visto apenas nos interessar números entre 001 e 200. O mesmo se passa com o número imediatamente à direita, 32747. Passávamos, então, para o número seguinte, 17728. Os três primeiros dígitos são 177 e, consequentemente, a pessoa identificada com o número 177 seria a segunda a fazer parte da amostra. Este processo seria repetido até termos selecionado as 20 pessoas. 1.2. Distribuição de Probabilidade da População e Distribuições Amostrais Nesta secção vamos abordar os conceitos de distribuição de probabilidade da população e distribuição de probabilidade de uma amostra. Para que seja clara a distinção entre as duas distribuições, considere-se o seguinte exemplo: Exemplo 1.3. Suponhamos uma empresa com 5 funcionários com 7, 8, 12, 7 18 {amostragem} e 5 anos de experiência profissional, respetivamente. Seja X a variável aleatória “número de anos de experiência profissional de um funcionário da empresa”. O quadro 1.2. mostra as frequências absolutas do número de anos de experiência profissional dos 5 funcionários. Quadro 1.2. Quadro de frequências absolutas X Frequência absoluta 5 1 7 2 8 1 12 1 N=5 Observe-se que, neste caso, a população é constituída pelos números 7, 8, 12, 7 e 5 que correspondem ao número de anos de experiência profissional dos funcionários da empresa. Dividindo as frequências absolutas do quadro 1.2 pelo número total de funcionários, obtemos as frequências relativas, que podem ser usadas como probabilidades. O quadro 1.3 lista todos os valores que a variável aleatória X pode assumir e as respetivas probabilidades. Dito de outra forma, o quadro 1.3 apresenta a distribuição de probabilidade da população. Quadro 1.3. Distribuição de probabilidade da população X P(X) 5 1/5 = 0.2 7 2/5 = 0.4 8 1/5 = 0.2 12 1/5 = 0.2 ∑=𝟏 19 {amostragem} DISTRIBUIÇÃO DE PROBABILIDADE DA POPULAÇÃO – lista de valores que a população pode assumir e respetivas probabilidades. Com base na distribuição de probabilidade da população, podemos calcular os seus parâmetros, 𝜇 e 𝜎. Assim, vem: 𝜇 = 5 × 0.2 + 7 × 0.4 + … + 12 × 0.2 = 7.8; 𝜎 = √(5 − 7.8)2 × 0.2 + (7 − 7.8)2 × 04 + … + (12 − 7.8)2 × 0.2 = = 2.32. Existe uma diferença muito importante entre a média da população, 𝜇, e a média de uma amostra, 𝑋̅. A média da população é sempre a mesma, isto é, nunca varia. Pelo contrário, o valor da média da amostra depende dos elementos que a constituem. De facto, se tivermos várias amostras de igual dimensão de uma mesma população e calcularmos a média de cada uma dessas amostras, obtemos diferentes valores para 𝑋̅. Portanto, a média amostral, 𝑋̅, é uma variável aleatória uma vez que depende da amostra que é aleatoriamente selecionada. Como qualquer variável aleatória, 𝑋̅ tem uma distribuição de probabilidade, designada por distribuição amostral de 𝑋̅. O desvio padrão da amostra, a mediana e outras estatísticas amostrais têm também uma distribuição de probabilidade. Voltemos ao exemplo para ilustrar a distribuição de probabilidade de 𝑋̅. Assim, admita-se que pretendemos formar todas as possíveis amostras de dimensão 3 (sem reposição) a partir do número de anos de experiência profissional dos 5 funcionários da empresa. O cálculo combinatório indica quantas amostras de dimensão 3 é possível formar a partir de 5 elementos. 5 5! 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑠 = ( ) = = 10 3 3! (5 − 3)! 20