Análise de Dados Introdução às técnicas de Amostragem Introdução à Estimação Introdução aos testes Métodos não paramétricos Maria Eugénia Graça Martins Faculdade de Ciências da Universidade de Lisboa Março 2009 ÍNDICE Capítulo 1 – Introdução às técnicas de Amostragem 1.1 Introdução – A Estatística estuda a variabilidade apresentada pelos dados.......................1 1.2 Probabilidade e Estatística .................................................................................................2 1.3 Aquisição de Dados .................................................................................................6 1.3.1 Introdução .................................................................................................6 1.3.2 Técnicas de amostragem aleatória ....................................................................9 1.3.2.1 Amostra aleatória simples.....................................................................9 1.3.2.2 Amostra aleatória sistemática...............................................................12 1.3.2.3 Amostra estratificada ............................................................................13 1.3.2.4 Amostragem por clusters ou grupos .....................................................14 1.3.3 Amostragem não aleatória .................................................................................14 1.3.4 Outros tipos de erros num processo de aquisição de dados.............................14 1.4 Estimador centrado e não centrado. Precisão ......................................................................15 1.5 Qual a dimensão que se deve considerar para a amostra....................................................17 1.6 Estimação do valor médio utilizando amostras aleatórias simples .......................................18 1.6.1 Distribuição de amostragem da média ..............................................................19 1.6.1.1 Distribuição de amostragem exacta......................................................19 1.6.1.2 Distribuição de amostragem aproximada .............................................27 1.6.2 Distribuição aproximada da média, como estimador do valor médio de uma população finita, mas de dimensão suficientemente grande.............................27 1.7 Distribuição de amostragem da média em amostragem com reposição ..............................28 1.8 Forma da distribuição de amostragem da média em populações infinitas ou amostragem com reposição .................................................................................................32 1.8.1 Valor médio e desvio padrão da média .............................................................35 1.8.2 Distribuição da média, para populações normais ..............................................35 1.8.2.1 Desvio padrão σ conhecido ..................................................................35 1.8.2.2 Desvio padrão σ desconhecido ............................................................36 1.8.3 Distribuição da média para populações não normais. Teorema Limite Central .................................................................................................37 1.9 Distribuição de amostragem da proporção............................................................................38 1.9.1 Distribuição de amostragem da proporção para populações finitas..................38 1.9.2 Distribuição de amostragem da proporção para populações infinitas ou com reposição .................................................................................................40 Capítulo 2 – Introdução à estimação 2.1 Introdução .................................................................................................41 2.2 Estimação da proporção. Intervalo de confiança para a proporção......................................43 2.3 Estimação do valor médio. Intervalo de confiança para o valor médio.................................49 2.3.1 Intervalo de confiança para o valor médio – σ conhecido .................................49 2.3.2 Intervalo de confiança para o valor médio – σ desconhecido ...........................53 Capítulo 3 – Introdução aos testes de hipóteses 3.1 Introdução .................................................................................................59 3.2 Outros exemplos .................................................................................................62 3.3 Hipótese nula e Hipótese alternativa; erros de tipo 1 e tipo 2; estatística de teste; região de rejeição .................................................................................................63 3.4 Testes de hipóteses para a proporção p ...............................................................................65 3.4.1 Determinação dos pontos críticos......................................................................68 3.4.2 P-Value .................................................................................................69 3.5 Vamos conversar acerca de testes .......................................................................................70 3.6 Testes de hipóteses sobre o valor médio..............................................................................74 3.6.1 P-value .................................................................................................78 Capítulo 4 – Testes à igualdade de duas populações 4.1 Inferência sobre a diferença entre as proporções de duas populações ..............................83 4.1.1 Testes de hipóteses sobre a diferença de proporções......................................84 4.1.2 Intervalo de confiança para a diferença de proporções.....................................85 4.2 Inferência sobre a diferença entre os valores médios de duas populações .........................85 4.2.1 Inferência sobre a diferença entre valores médios de populações independentes .................................................................................................86 4.2.1.1 As populações são normais e as variâncias conhecidas .....................87 4.2.1.2 As populações são normais e as variâncias são iguais e desconhecidas – teste t para amostras independentes .......................88 4.2.1.3 As populações são normais e as variâncias são diferentes e desconhecidas ......................................................................................89 4.2.1.4 As populações não são normais e as amostras são de grande dimensão...............................................................................................90 4.2.2 Amostras emparelhadas ....................................................................................90 4.2.2.1 Populações normais, pequenas amostras – teste t emparelhado........91 4.2.2.2 Grandes amostras.................................................................................92 4.2.3 Que tipo de planeamento fazer..........................................................................93 4.3 Teste para a igualdade de variâncias em populações normais ............................................94 Capítulo 5 – Métodos não paramétricos 5.1 Introdução .................................................................................................97 5.2 Testes de ajustamento .................................................................................................99 5.2.1 Introdução .................................................................................................99 5.2.2 Generalização do modelo Binomial – o modelo Multinomial .............................99 5.2.3 Teste de ajustamento do Qui-quadrado ............................................................103 5.2.3.1 Análise de dados qualitativos ...............................................................103 5.2.3.2 Análise de dados discretos ...................................................................107 5.2.3.3 Análise de dados contínuos ..................................................................111 5.2.4 Teste de Kolmogorov-Smirnov...........................................................................117 5.2.5 Comparação entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov....120 5.3 Problema da localização e da localização e simetria – teste dos sinais e teste de Wilcoxon .................................................................................................122 5.3.1 Introdução .................................................................................................122 5.3.2 5.3.3 Teste dos Sinais.................................................................................................123 5.3.2.1 Teste dos Sinais para amostras emparelhadas ...................................126 Teste de Wilcoxon..............................................................................................127 5.3.3.1 Distribuição de amostragem de Tn+ .......................................................130 5.3.3.2 Teste de Wilcoxon para amostras emparelhadas ................................134 5.3.3.3 O teste de Wilcoxon e o teste-t.............................................................135 5.4 Testes de hipóteses em modelos não paramétricos para testar a homogeneidade de várias populações independentes .........................................................................................135 5.4.1 Comparação de duas populações independentes ............................................135 5.4.1.1 Teste de Mann-Whitney-Wilcoxon ........................................................135 5.4.1.1.1 Distribuição de amostragem de W m,n ................................136 5.4.1.1.2 O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras ...................................................................139 5.4.1.1.3 Forma alternativa para a estatística de Mann-WhitneyWilcoxon ............................................................................141 5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras ............................143 5.4.2 Comparação de mais de duas populações independentes...............................146 5.4.2.1 Teste de Kruskal-Wallis ........................................................................146 5.4.2.1.1 Comparações múltiplas .....................................................152 5.4.2.2 Teste do Qui-quadrado em tabelas de contingência para testar a homogeneidade ....................................................................................153 5.5 Testes de hipóteses em modelos não paramétricos para testar a independência ...............156 5.5.1 Teste do Qui-quadrado em tabelas de contingência para testar a independência de duas populações ..................................................................156 5.5.2 Coeficiente de correlação ordinal de Spearman................................................158 5.5.3 Índice de Friedman ............................................................................................162 Bibliografia Conover, W.J. (1980) – Practical Nonparametric Statistics, John Wiley & Sons De Veaux, R. Et al. (2004) – Intro Stats, Pearson, Addison Wesley Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de Excel, SPE Graça Martins, M. E. et al. (1999) – Probabilidades e Combinatória, Ministério da Educação, Departamento do Ensino SEcundário Mendenhall, W., et al. (1987) – Statistics: a Tool for the Social Sciences, PWSKent Montgomery, D. et al. (1999) – Applied Statistics and Probability for Engineers, John Wiley & Sons, Inc. New York Murteira, B. et al. (2002) – Introdução à Estatística, McGraw-Hill de Portugal Sprent, P. (1989) – Applied Nonparametric Statistical Methods, Chapman and Hal Tannenbaum. P. et al. (1998) – Excursions in Modern Mathematics, Prentice Hall Análise de Dados 1 Introdução às técnicas de amostragem 1 Introdução às técnicas de amostragem. Distribuição de amostragem de algumas estatísticas baseadas em amostras aleatórias simples e em amostragem com reposição. Estudo dos estimadores Média e Proporção amostral. 1.1 ► Introdução – A Estatística estuda a variabilidade apresentada pelos dados Da experiência que temos no dia a dia com os dados já concluímos, com certeza, que estes apresentam variabilidade. Por exemplo é comum que um pacote de açúcar que na embalagem tenha escrito um quilograma, não pese exactamente um quilograma. Por outro lado ao pesar duas vezes o mesmo pacote possivelmente não obteremos o mesmo valor. Assim, ao dizermos que o peso do pacote é um determinado valor, não podemos ter a certeza que esse valor seja correcto. Esta variabilidade está presente em todas as situações do mundo que nos rodeia, pelo que as conclusões que tiramos a partir dos dados que se nos apresentam, têm inerente um certo grau de incerteza. A Estatística trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a partir dos dados retirar conclusões, mas também exprimir o grau de confiança que devemos ter nessas conclusões. É precisamente nesta particularidade que se manifesta toda a potencialidade da Estatística. Podemos então, e tal como refere David Moore em Perspectives on Contemporary Statistics, considerar três grandes áreas nesta ciência dos dados: • Aquisição de dados • Análise dos dados • Inferência a partir dos dados Maria Eugénia Graça Martins Análise de Dados 2 Vamos, numa das secções seguintes, abordar o primeiro tema considerado, ou seja o que diz respeito à Aquisição de Dados, numa perspectiva de que pretendemos obter dados, para respondermos a determinadas questões, isto é, para posteriormente retirarmos conclusões para as Populações a partir das quais esses dados são adquiridos – contexto em que tem sentido fazer inferência estatística. Vamos assim, preocupar-nos em obter amostras representativas de Populações que se pretendem estudar. 1.2 ► Probabilidade e Estatística A Probabilidade é o instrumento que permite ao estatístico utilizar a informação recolhida da amostra para descrever ou fazer inferências sobre a População de onde a amostra foi recolhida. Podemos ainda dizer que os objectivos da Probabilidade e da Estatística são, de certo modo, inversos. Alguns exemplos ajudar-nos-ão a compreender melhor esta ideia. EXEMPLO 1.1 (Graça Martins, M.E. et al, 1999) Suponha que tem uma moeda equilibrada e que lança a moeda uma série de vezes, registando em cada lançamento a face que fica voltada para cima. O resultado dos registos é uma sucessão de F e de C, onde utilizamos a letra F para designar cara (face) e a letra C para designar coroa. Como admitimos que a moeda é equilibrada, isto é, estamos a adoptar um determinado modelo probabilístico, esperamos que o número de F’s seja aproximadamente metade do número de lançamentos efectuados. Se, por outro lado, considerarmos uma amostra de dimensão 1, isto é, fizermos unicamente um lançamento, dizemos que a probabilidade de obter F é 1/2, já que existe igual possibilidade de obter F ou C (ao dizer que a moeda é equilibrada estamos a atribuir igual probabilidade à saída de cara ou de coroa num lançamento). Suponha agora que a sua moeda não era equilibrada. Neste caso quando procedemos a vários lançamentos já não sabemos qual a proporção de caras que esperamos obter, uma vez que a População não é perfeitamente conhecida – conhecemos os resultados possíveis em cada lançamento – cara ou coroa, mas o modelo não está completamente especificado, uma vez que as probabilidades associadas a esses resultados não são conhecidas (estamos a assumir que a moeda não é equilibrada). Então um modo possível de obter mais alguma informação sobre o modelo probabilístico é proceder a um certo número de lançamentos e calcular a frequência relativa da saída de cara, nos lançamentos efectuados. Este valor vai-nos servir para estimar a probabilidade da saída de cara. Por exemplo, se em 1000 lançamentos se obtiveram 324 caras, dizemos que um valor aproximado para a probabilidade de se Maria Eugénia Graça Martins Análise de Dados 3 verificar cara é 0.324 (ao fim de 1000 lançamentos verificou-se uma certa estabilidade à volta deste valor) e o valor aproximado para a probabilidade de sair coroa será 0.676. Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da Estatística: Enquanto que ao assumirmos um determinado modelo de probabilidade – População conhecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a raciocinar do geral para o particular, isto é, da População para a Amostra, quando a População não é conhecida utilizamos a Estatística para fazer raciocínios no sentido inverso, isto é, inferir para a População resultados observados na Amostra. Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos: EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de pessoas, por exemplo os alunos matriculados na FCUL no ano lectivo de 2005/2006. Relativamente a esta população, existe uma percentagem p, de alunos que praticam desporto. Escolhem-se (sem reposição) ao acaso 10 alunos. Se p fosse conhecido, por exemplo 0.3, podíamos calcular a probabilidade de encontrar x praticantes de desporto, com 0≤x≤10, nesse grupo de 10 alunos, probabilidade que se sabe ser determinada pela expressão ⎛ 10 ⎞ ⎜⎜ ⎟⎟ 0.3x 0.710-x ⎝x⎠ Como a população era numerosa, podemos admitir que o número de estudantes que praticam desporto, em 10 estudantes retirados aleatoriamente da população, é bem modelado pelo modelo Binomial, de parâmetros 10 e 0.3 (a composição da população praticamente não se altera, quando retiramos alguns elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, aliás, a situação mais corrente. Então, neste caso, vamos utilizar a informação sobre o número de praticantes de desporto na amostra de 10, nomeadamente a proporção x/n, para tirar conclusões sobre a proporção de praticantes de desporto da população. Trata-se de um problema de inferência estatística. EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrónicas tem um tempo de vida que não depende da idade, isto é, a falha pode ocorrer em qualquer instante e não depende de há quanto tempo as componentes já estão em funcionamento. Sabe-se ainda que estas componentes podem falhar em qualquer altura, não tendo, portanto, um tempo de garantia. Se se souber que o tempo médio θ até à falha é 100 horas, então o tempo de vida T, deste tipo de componentes, pode ser bem Maria Eugénia Graça Martins Análise de Dados 4 modelado por uma exponencial, com função densidade de probabilidade e função distribuição, respectivamente f (t) = 1 t exp(), 100 100 t>0 e F(t) = 1 – exp(- t ) 100 Então, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas componentes não falhar antes de 200 horas: P(T>200) = 1 – F(200) = exp(-2) = 0.135 Na realidade, a situação corrente é que aquele valor médio θ é desconhecido e o modelo probabilístico para o tempo de vida das componentes é conhecido a menos de um parâmetro, sendo a sua função densidade f(t) = 1 t exp(- ), θ θ θ>0, t>0 Como estimar θ? Um estimador natural é considerar uma amostra de n componentes que se colocam em teste, observar os tempos até à falha e tomar a média desses tempos, como estimativa do tempo médio até à falha, já que, no modelo exponencial tal como foi apresentado anteriormente, o parâmetro θ é o valor médio de T. EXEMPLO 1.4 Numa Universidade os inquéritos pedagógicos são lidos através de leitura óptica. Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a qualidade da leitura é seleccionar aleatoriamente uns tantos inquéritos e verificar quantos erros foram cometidos pela leitura óptica, em cada um dos inquéritos. Admitindo que o número de erros, Z, por inquérito, pode ser bem modelado por uma Poisson, temos para função massa de probabilidade da v.a. Z P(Z=k) = exp-λ λk , k=0, 1, 2, ... k! Se soubermos que, em média, se detectam 0,2 erros por página, podemos calcular, por exemplo, a probabilidade de não encontrarmos nenhum erro num inquérito escolhido aleatoriamente. Efectivamente, neste caso, λ=0.2, pelo que a probabilidade pretendida será P(Z=0) = exp(-0.2) (0.2)0/0!= 0,82. No entanto, numa situação em que, à partida, não se conheça o desempenho dos leitores ópticos, terá de se estimar o parâmetro λ. Uma estimativa para este parâmetro obtém-se seleccionando alguns inquéritos já lidos, e depois de contar o número de erros cometidos em cada um, calcular a média dos valores obtidos. EXEMPLO 1.5 Uma equipa móvel de colheita de sangue, estacionada no Saldanha, interpela as pessoas que passam, no sentido de as sensibilizar a darem sangue, investigando nomeadamente o seu Maria Eugénia Graça Martins Análise de Dados 5 grupo sanguíneo. Qual a probabilidade de, em certo dia, só encontrarem um indivíduo de grupo O RH-, ao 10 indivíduo que abordam? Estamos numa situação em que temos uma população constituída por indivíduos pertencentes a uma de 2 categorias – ter sangue O RH-, ou não ter este tipo de sangue. Pretendemos fazer um raciocínio probabilístico sobre a variável aleatória X, que representa o número de indivíduos inquiridos (insucessos) até se encontrar um com sangue O RH- (sucesso). Para obter um modelo probabilístico para esta variável aleatória, vamos começar por admitir que desta experiência aleatória, que consiste em perguntar a cada indivíduo o seu grupo sanguíneo, resultam provas de Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as provas independentes, com probabilidade de sucesso constante, uma vez que, embora a população seja finita, as provas ainda podem ser consideradas independentes, pois a dimensão da amostra seleccionada é muito pequena, quando comparada com a dimensão da população. Então, se representarmos por p a proporção de indivíduos da população com sangue O RH-, um modelo para X (modelo geométrico) será P(X=k) = (1-p)k-1p, k=1, 2, ... Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida: P(X=10) = (1-0.06)9 0.06 = 0.034 E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em consideração que o valor médio de X é 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que cada elemento é o número de indivíduos abordados até se obter sucesso, calcular a média dessa amostra e considerar como estimativa de p, o inverso da média obtida. EXEMPLO 1.6 O sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas a serem vendidas em Portugal. Precisava de ter alguma informação sobre os moldes que devia utilizar, nomeadamente sobre o comprimento R, adequado para as mangas. Um estatístico, a quem pediu ajuda, passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns estudos, embora poucos, de Estatística e uma das coisas que se lembrava era de que o suporte do modelo Normal era R. Ora nós sabemos que o comprimento do braço é necessariamente positivo! Na verdade, o que acontece é que se tentassemos encontar um modelo com suporte positivo, teríamos grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os parâmetros valor médio (μ) e desvio padrão (σ), podemos verificar, que a probabilidade de obtermos valores para R inferiores a determinado valor é praticamente nula. Estes valores convenientes são estimados a partir de uma amostra de comprimentos de braços de homem, para a qual se calculam a média e o desvio padrão, que são utilizados como estimativas dos parâmetros desconhecidos. Maria Eugénia Graça Martins Análise de Dados 6 Os exemplos apresentados anteriormente mostram a importância de encontrarmos modelos probabilísticos para as situações reais descritas. Em algumas das situações tivémos de propor modelos que não descrevem perfeitamente a situação real, mas que consideramos úteis, pois nos permitem tomar decisões. Nesta reflexão sobre qual o modelo a adoptar para traduzir um fenómeno aleatório, vem a propósito lembrar o que diz Box: Todos os modelos são maus, alguns são úteis Na secção seguinte abordamos o problema da aquisição de dados e a sua importância e cuidados necessários para, numa fase seguinte, procedermos a inferências sobre as populações de onde os dados foram retirados. 1.3 ► Aquisição de dados 1.3.1 ► Introdução Abordaremos de seguida (Graça Martins, M. E., 2005) algumas das técnicas de aquisição de dados, em que se distinguem as Sondagens e Experimentações (aleatoriezadas) Gostaríamos desde já de realçar que o objectivo desta secção é o de explorar, de uma forma simples, algumas das técnicas de amostragem, com vista à realização de sondagens, situações que se encontram de um modo geral nas Ciências Sociais, ao contrário das Ciências experimentais, tais como Física ou Química, em que a recolha de dados se faz fundamentalmente recorrendo a experiências. Por exemplo, a população constituída pelos eleitores, a população constituída pela contas sedeadas num banco, etc, só contêm um número finito de elementos, ao contrário da População conceptual de respostas geradas por um processo químico. Não é demais realçar a importância desta fase, a que chamamos de Produção ou Aquisição de Dados. Como é referido em Tannenbaum (1998), página 426: “Behind every statistical statement there is a story, and like a story it has a beginning, a middle, an end, and a moral. In this first statistics chapter we begin with the beginning, which in statistics typically means the process of gathering or collecting data. Data are the raw Maria Eugénia Graça Martins Análise de Dados 7 material of which statistical information is made, and in order to get good statistical information one needs good data”. Sondagem, População, Amostra População, unidade, amostra População é o conjunto de objectos, indivíduos ou resultados experimentais acerca do qual se pretende estudar alguma característica comum. As Populações podem ser finitas ou infinitas, existentes ou conceptuais. Aos elementos da população chamamos unidades estatísticas. Amostra é uma parte da população que é observada com o objectivo de obter informação para estudar a característica pretendida. O objectivo de uma sondagem é o de recolher informação acerca de uma população, seleccionando e observando um conjunto de elementos dessa população. Sondagem – Estudo estatístico de uma população, feito através de uma amostra, destinado a estudar uma ou mais características tais como elas se apresentam nessa população. Se se observarem todos os elementos da população tem-se um recenseamento Geralmente, há algumas quantidades numéricas acerca da população que se pretendem conhecer. A essas quantidades chamamos parâmetros. Os parâmetros são estimados por estatísticas, que são números calculados a partir da amostra. Estas quantidades são conceptualmente distintas, pois enquanto a característica populacional pode ser considerada um valor exacto, embora desconhecido, a característica amostral é conhecida, embora contendo um certo erro, inerente à amostra seleccionada, mas que todavia pode ser considerada uma estimativa útil da característica populacional respectiva. Maria Eugénia Graça Martins Análise de Dados 8 População Amostra Parâmetro Estatística No entanto, para se poder utilizar as estatísticas – estimadores, para estimar parâmetros é necessário que as amostras sejam representativas das populações de onde foram retiradas. Amostra enviesada. Amostra aleatória e amostra não aleatória. Uma amostra que não seja representativa da População diz-se enviesada e a sua utilização pode dar origem a interpretações erradas Um processo de amostragem diz-se enviesado quando tende sistematicamente a seleccionar elementos de alguns segmentos da População, e a não seleccionar sistematicamente elementos de outros segmentos da População. Surge assim, a necessidade de fazer um planeamento da amostragem, onde se decide quais e como devem ser seleccionados os elementos da População, com o fim de serem observados, relativamente à característica de interesse. Amostra aleatória e amostra não aleatória – Dada uma população, uma amostra aleatória é uma amostra tal que qualquer elemento da população tem alguma probabilidade de ser seleccionado para a amostra. Numa amostra não aleatória, alguns elementos da população podem não poder ser seleccionados para a amostra. Normalmente obtêm-se amostras enviesadas quando existe a intervenção do factor humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da amostra deve ter-se presente o princípio da aleatoriedade de forma a obter uma amostra aleatória. Maria Eugénia Graça Martins Análise de Dados 9 Quando se pretende recolher uma amostra de dimensão n, de uma População de dimensão N, podemos recorrer a vários processos de amostragem. Como o nosso objectivo é, a partir das propriedades estudadas na amostra, inferir propriedades para a População, gostaríamos de obter processos de amostragem que dêem origem a “bons” estimadores e consequentemente “boas” estimativas. Acontece que as propriedades dos estimadores, como veremos a seguir, só podem ser estudadas se conseguirmos estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma determinada probabilidade, e esta atribuição só pode ser feita com planos de amostragem aleatórios. Assim, é importante termos sempre presente o princípio da aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a População as propriedades estudadas na amostra. 1.3.2 ► Técnicas de amostragem aleatória Seguidamente apresentaremos algumas dos planeamentos mais utilizados para seleccionar amostras aleatórias. Dos vários tipos de planeamento utilizados, destacamse os que conduzem a amostras aleatórias simples, amostras sistemáticas e amostras estratificadas. 1.3.2.1 ► Amostra aleatória simples O plano de amostragem aleatória mais básico é o que permite obter a amostra aleatória simples: Amostra aleatória simples - Dada uma população, uma amostra aleatória simples de dimensão n é um conjunto de n unidades da população, tal que qualquer outro conjunto de n unidades teria igual probabilidade de ser seleccionado. Se uma população tem dimensão N e se pretende uma amostra aleatória simples de ⎛ N⎞ dimensão n, esta amostra é recolhida aleatoriamente de entre todas as ⎜ ⎟ amostras ⎝ n⎠ distintas que se podem recolher da população. Isto implica que cada amostra tenha a Maria Eugénia Graça Martins Análise de Dados mesma probabilidade 10 ⎛ N⎞ ⎜ ⎟ ⎝ n⎠ −1 de ser seleccionada. Uma amostra destas pode ser escolhida sequencialmente da população, escolhendo um elemento de cada vez, sem reposição, pelo que em cada selecção cada elemento tem a mesma probabilidade de ser seleccionado. Um esquema de amostragem aleatória simples, conduz a que cada elemento da População tenha a mesma probabilidade de ser seleccionado para a amostra, podendo-se demonstrar que é igual a n1 . No entanto existem outros N esquemas de amostragem em que cada elemento tem igual probabilidade de ser seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de ser seleccionado. É o que se passa com a amostragem aleatória sistemática, em determinadas situações particulares. Como seleccionar uma amostra aleatória simples? 1. Para seleccionar uma amostra aleatória simples, teoricamente o processo mais simples consiste em colocar objectos identificadores (bolas, bocados de papel de igual dimensão, etc) de todos os elementos da população numa caixa, e retirar um a um, sequencialmente, sem reposição. Os elementos seleccionados serão observados relativamente à característica de interesse. 2. O processo anterior é pouco prático, pelo que é normalmente substituído por uma selecção feita utilizando uma tabela de dígitos aleatórios: Dígitos aleatórios (ou números aleatórios) - Uma tabela de dígitos aleatórios é uma listagem dos dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que: - qualquer um dos dígitos considerados tem igual possibilidade de figurar em qualquer posição da lista; - a posição em que figura cada dígito é independente das posições dos outros dígitos. ⎛ N − 1⎞ ⎟⎟ . A probabilidade de qualquer elemento não ser O nº de amostras de n elementos que não contêm um dado elemento é ⎜⎜ ⎝ n ⎠ ⎛ N − 1⎞ ⎛ N ⎞ ⎟⎟ / ⎜⎜ ⎟⎟ , ou seja (N-n)/N. Assim, a probabilidade de um determinado elemento ser seleccionado é incluído é portanto igual a ⎜⎜ ⎝ n ⎠ ⎝n⎠ 1 1-(N-n)/N, ou seja n/N. Maria Eugénia Graça Martins Análise de Dados 11 Apresenta-se a seguir um extracto de uma tabela de números aleatórios (Moore, 1997). O facto de os dígitos se apresentarem agrupados 5 a 5 é só para facilidade de leitura. Linha 101 19223 95034 05756 28713 96409 12531 42544 82853 102 73676 47150 99400 01927 27754 42648 82425 36290 103 45467 71709 77558 00095 32863 29485 82226 90056 104 52711 38889 93074 60227 40011 85848 48767 52573 105 95592 94007 69971 91481 60779 53791 17297 59335 106 68417 35013 15529 72765 85089 57067 50211 47487 107 82739 57890 20807 47511 81676 55300 94383 14893 108 60940 72024 17868 24943 61790 90656 87964 18883 109 36009 19365 15412 39638 85453 46816 83485 41979 A partir da tabela de dígitos aleatórios podem-se obter números aleatórios de 2 dígitos qualquer par dos 100 pares possíveis 00, 01, …98, 99, tem igual probabilidade de ser seleccionado, de 3 dígitos - qualquer triplo dos 1000 triplos possíveis 000, 001, …998, 999, tem igual probabilidade de ser seleccionado, etc, tomando os dígitos da tabela 2 a 2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita. Para seleccionar uma amostra de uma população utilizando a tabela procede-se em duas etapas: 1. atribui-se um número a cada elemento da população. Esta atribuição terá de ser feita com as devidas precauções, de forma a que cada número tenha o mesmo número de dígitos, para ter igual probabilidade de ser seleccionado; 2. a partir da tabela escolhe-se uma linha ao acaso e começa-se a percorrê-la da esquerda para a direita, tomando de cada vez os dígitos necessários. EXEMPLO 1.7 Considerando a população constituída por 18 alunos de uma turma, vamos numerálos com os números 01, 02, 03, …, 17, 18 (podia ser utilizado qualquer outro conjunto de 18 números de 2 dígitos). Para seleccionar uma amostra de dimensão 4 fixamo-nos numa linha qualquer da tabela, por exemplo a linha 107 e começamos a seleccionar os números de dois dígitos, tendo-se obtido: 82 73 95 78 90 20 80 74 75 11 81 67 65 53 00 94 38 31 48 93 60 94 07 20 24 17 86 82 49 43 61 79 09 Maria Eugénia Graça Martins Análise de Dados 12 Tivemos de ler 33 números, dos quais só aproveitámos 4, pois os outros não correspondiam a elementos da população. Como obter uma tabela de números aleatórios? Um processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e fazer várias extracções de uma bola, tantas quantas os dígitos que se pretendem para constituir a tabela. De cada vez que se faz uma extracção, lê-se o número da bola, aponta-se e repõe-se a bola na caixa - extracção com reposição. Com este processo qualquer dígito tem igual probabilidade de ser seleccionado. Além disso a saída de qualquer um dos dígitos em qualquer momento, é independente dos dígitos que já saíram anteriormente. Além das tabelas de números aleatórios também existe a possibilidade de utilizar o computador para os gerar ou uma simples máquina de calcular. Este é o processo mais utilizado hoje em dia, mas convém ter presente que os números que se obtêm são pseudo-aleatórios, já que é um mecanismo determinista que lhes dá origem, embora se comportem como números aleatórios (passam numa bateria de testes destinados a confirmar a sua aleatoriedade). Sugere-se a utilização do Excel para seleccionar amostras aleatórias simples2. 1.3.2.2 ► Amostra aleatória sistemática Na prática o processo de seleccionar uma amostra aleatória simples de uma população com grande dimensão, não é tão simples como o descrito anteriormente. Se a dimensão da população for grande o processo torna-se muito trabalhoso. Então uma alternativa é considerar uma amostra aleatória sistemática. Por exemplo, se pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000 alunos, considera-se um ficheiro com o nome dos 6000 alunos ordenados por ordem alfabética. Considera-se o quociente 6000/150=40 e dos primeiros 40 elementos da lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o elemento seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros 2 Consultar, por exemplo, Graça Martins, M. E. – Introdução à Probabilidade e à Estatística, Com complementos de Excel, 2005 Maria Eugénia Graça Martins Análise de Dados 13 elementos a serem seleccionados são 67, 107, 147, etc. Obviamente que o quociente entre a dimensão da população e a da amostra não é necessariamente inteiro, como anteriormente, mas não há problema pois considera-se a parte inteira desse quociente. Amostra aleatória sistemática – Dada uma população de dimensão N, ordenada por algum critério, se se pretende uma amostra de dimensão n, escolhe-se aleatoriamente um elemento de entre os k primeiros, onde k é a parte inteira do quociente N/n. A partir desse elemento escolhido, escolhem-se todos os k-ésimos elementos da população para pertencerem à amostra. A amostra aleatória sistemática não é uma amostra aleatória simples, já que nem todas as amostras possíveis de dimensão n, têm a mesma probabilidade de serem seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a probabilidade de qualquer elemento ser seleccionado é igual a n/N3. 1.3.2.3 ► Amostra estratificada Pode acontecer que a população possa ser subdividida em várias subpopulações, mais ou menos homogéneas relativamente à característica a estudar. Por exemplo, se se pretende estudar o salário médio auferido pelas famílias lisboetas, é possível dividir a região de Lisboa segundo zonas mais ou menos homogéneas, estratos, quanto à característica em estudo – salário médio, e posteriormente extrair de cada um destes estratos uma percentagem de elementos que irão constituir a amostra, sendo esta percentagem, de um modo geral, proporcional à dimensão dos estratos. Amostra estratificada – Divide-se a população em várias subpopulações – estratos, e de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de todas estas amostras constitui a amostra pretendida. EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestação de serviços, das empresas de construção civil. Podemos à partida considerar a População das empresas 3 Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posição inicial j. A probabilidade de um elemento A ser seleccionado é igual a Maria Eugénia Graça Martins N N j=1 j=1 ∑ P( A ε amostra/ posição inicial é j) P(posição inicial ser j) = ∑ Nn × N1 = Nn . Análise de Dados 14 divididas em 3 estratos, quanto ao número de trabalhadores que emprega: pequenas - 10 ou menos trabalhadores, médias - entre 11 e 40 e grandes - mais de 41 trabalhadores. Uma vez identificados os estratos, procede-se numa segunda etapa à recolha de uma amostra aleatória simples dentro de cada estrato. Admitindo que a População em estudo é constituída por 500 empresas, das quais 55% são pequenas, 35% são médias e 10% são grandes e que a dimensão da amostra pretendida é de 85, seleccionaríamos amostras de dimensão 47 (85x0.55=46.75), 30 (85x0.35=29.75) e 8 (85x0.10=8.5), respectivamente do conjunto das pequenas, das médias ou das grandes empresas. Existe um tipo de amostragem não aleatória, muito semelhante à amostragem estratificada, que é a amostragem por quotas. Neste tipo de amostragem, consideram-se os estratos, mas depois em vez de se recolher uma amostra aleatória de dentro de cada estrato, extrai-se uma amostra não aleatória, de dimensão proporcional à do estrato na população. 1.3.2.4 ► Amostragem por “clusters” ou grupos Por exemplo, suponha que se pretende estudar o nível de satisfação dos trabalhadores têxteis, das empresas do Norte do País. Não dispondo de uma lista com todos os trabalhadores, considera-se uma lista de todas as empresas têxteis – “clusters”, admitindo-se que o conjunto de trabalhadores de cada empresa caracteriza convenientemente a população que se pretende estudar. A partir dessa lista seleccionam-se aleatoriamente algumas empresas e considera-se a amostra constituída por todos os trabalhadores das empresas seleccionadas. Amostra por clusters – A população é dividida em clusters, onde cada cluster é representativo da população. Selecciona-se aleatoriamente um conjunto de clusters e a amostra é constituída por todos os elementos dos clusters seleccionados. 1.3.3 ► Amostragem não aleatória Amostragem por conveniência e amostragem por resposta voluntária são exemplos de amostragem não aleatória. Maria Eugénia Graça Martins Análise de Dados 15 1.3.4 ► Outros tipos de erro num processo de aquisição de dados, sem serem erros de amostragem 1 - A população inquirida diferente da população alvo ou população objectivo 2 – Informação recolhida não é verdadeira 3 – Problema da não resposta 4 – Erros de processamento 1.4 ► Estimador centrado e não centrado. Precisão Uma vez escolhido um plano de amostragem aleatório, ao pretendermos estimar um parâmetro, pode ser possível utilizar várias estatísticas (estimadores) diferentes. Por exemplo, quando pretendemos estudar a variabilidade presente numa População, que pode ser medida pela variância populacional σ2, sabemos que podemos a partir de uma amostra, obter duas estimativas diferentes para essa variância, a partir das expressões n 2 s = ∑ (x i =1 n 2 i − x) n −1 ou 2 s’ = ∑ (x i − x) 2 i =1 n Quais as razões que nos podem levar a preferir uma das estatísticas relativamente à outra? Um critério que costuma ser aplicado é o de escolher um “bom” estimador como sendo aquele que é centrado e que tem uma boa precisão. Escolhido um plano de amostragem, define-se: Estimador centrado – Um estimador diz-se centrado quando a média das estimativas obtidas para todas as amostras possíveis que se podem extrair da População, segundo o esquema considerado, coincide com o parâmetro a estimar. Quando se tem um estimador centrado, também se diz que é não enviesado. No capítulo seguinte abordaremos com mais detalhe este assunto do não enviesamento dos estimadores. Veremos assim, que uma das razões que nos levam a preferir o estimador S2 para a variância, relativamente a S’2, é o facto de praticamente não apresentar enviesamento (Mostra-se mais à frente que E(S2)= Maria Eugénia Graça Martins N σ2). N −1 Análise de Dados 16 Para se evitar o enviesamento, é necessário estarmos atentos, primeiro na escolha do plano de amostragem e depois na escolha do estimador utilizado para estimar o parâmetro desconhecido. O facto de utilizarmos um estimador centrado, não nos previne contra a obtenção de más estimativas, se o plano de amostragem utilizado, sistematicamente favorecer uma parte da População (isto é, fornecer amostras enviesadas). Precisão - Ao utilizar o valor de uma estatística para estimar um parâmetro, vimos que cada amostra fornece um valor para a estatística que se utiliza como estimativa desse parâmetro. Estas estimativas não são iguais devido à variabilidade presente na amostra. Se, no entanto, os diferentes valores obtidos para a estatística forem próximos, e o estimador for centrado, podemos ter confiança de que o valor calculado a partir da amostra recolhida (na prática recolhe-se uma única amostra) está próximo do valor do parâmetro (desconhecido). A falta de precisão juntamente com o problema do enviesamento da amostra são dois tipos de erros com que nos defrontamos num processo de amostragem (mesmo que tenhamos escolhido um “bom” estimador). Não se devem, contudo, confundir. Enquanto o enviesamento se manifesta por um desvio nos valores da estatística, relativamente ao valor do parâmetro a estimar, sempre no mesmo sentido, a falta de precisão manifesta-se por uma grande variabilidade nos valores da estatística, uns relativamente aos outros. Por outro lado, enquanto o enviesamento se reduz com o recurso a amostras aleatórias, a precisão aumenta-se aumentando a dimensão da amostra. Como veremos a seguir o estudo de um estimador é feito através da sua distribuição de amostragem, ou seja, da distribuição dos valores obtidos pelo estimador, quando se consideram todas as amostras possíveis. Distribuição de amostragem – Distribuição de amostragem de uma estatística é a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população. Maria Eugénia Graça Martins Análise de Dados 17 A maior parte das vezes não se consegue obter a distribuição de amostragem exacta, mas tem-se uma distribuição aproximada, considerando um número suficientemente grande de amostras da mesma dimensão e calculando para cada uma delas uma estimativa do parâmetro em estudo (problema a estudar posteriormente). 1.5 ► Qual a dimensão que se deve considerar para a amostra? Outro problema que se levanta com a recolha da amostra é o de saber qual a dimensão desejada para a amostra a recolher. Este é um problema para o qual, nesta fase, não é possível avançar nenhuma teoria, mas sobre o qual se podem tecer algumas considerações gerais. Pode-se começar por dizer que, para se obter uma amostra que permita calcular estimativas suficientemente precisas dos parâmetros a estudar, a sua dimensão depende muito da variabilidade da população subjacente. Por exemplo, se relativamente à população constituída pelos alunos do 10º ano de uma escola secundária, estivermos interessados em estudar a sua idade média, a dimensão da amostra a recolher não necessita de ser muito grande já que a variável idade apresenta valores muito semelhantes, numa classe etária muito restrita. No entanto se a característica a estudar for o tempo médio que os alunos levam a chegar de casa à escola, já a amostra terá de ter uma dimensão maior, uma vez que a variabilidade da população é muito maior. Cada aluno pode apresentar um valor diferente para esse tempo. Num caso extremo, se numa população a variável a estudar tiver o mesmo valor para todos os elementos, então bastaria recolher uma amostra de dimensão 1 para se ter informação completa sobre a população; se, no entanto, a variável assumir valores diferentes para todos os elementos, para se ter o mesmo tipo de informação seria necessário investigar todos os elementos. Chama-se a atenção para a existência de técnicas que permitem obter valores mínimos para as dimensões das amostras a recolher e que garantem estimativas com uma determinada precisão exigida à partida. Uma vez garantida essa precisão, a opção por escolher uma amostra de maior dimensão, é uma questão a ponderar entre os custos envolvidos e o ganho com o acréscimo de precisão. Vem a propósito a seguinte frase (Statistics: a Tool for the Social Sciences, Mendenhall et al., 1987, pag. 226): Maria Eugénia Graça Martins Análise de Dados 18 "Se a dimensão da amostra é demasiado grande, desperdiça-se tempo e talento; se a dimensão da amostra é demasiado pequena, desperdiça-se tempo e talento". Convém ainda observar que a dimensão da amostra a recolher não é directamente proporcional à dimensão da população a estudar, isto é, se por exemplo para uma população de dimensão 1000 uma amostra de dimensão 100 for suficiente para o estudo de determinada característica, não se exige necessariamente uma amostra de dimensão 200 para estudar a mesma característica de uma população análoga, mas de dimensão 2000, quando se pretende obter a mesma precisão. Como explicava George Gallup, um dos pais da consulta da opinião pública (Tannenbaum, 1998),: Whether you poll the United States or New York State or Baton Rouge (Louisiana) … you need … the same number of interviews or samples. It´s no mystery really – if a cook has two pots of soup on the stove, one far larger than the other, and thoroughly stirs them both, he doesn´t have to take more spoonfuls from one than the other to sample the taste accurately”. Finalmente chama-se a atenção para o facto de que se o processo de amostragem originar uma amostra enviesada, aumentar a dimensão não resolve nada, antes pelo contrário! 1.6 ► Estimação do valor médio utilizando amostras aleatórias simples Quando se pretende estimar um parâmetro, uma vez definido o esquema de amostragem, considera-se uma estatística conveniente, isto é, uma função adequada das observações, função esta que para cada amostra observada dará uma estimativa do parâmetro que se pretende estimar. Quando o parâmetro a estimar é o valor médio ou média populacional, então é natural considerar como estimador a função média, que para cada amostra observada dará uma estimativa do parâmetro. Maria Eugénia Graça Martins Análise de Dados 19 Como é que podemos saber se a média é um “bom” estimador para o valor médio? Será que para as diferentes amostras que podemos obter da população, as diferentes estimativas são próximas umas das outras e do parâmetro valor médio? É que se isso acontecer, temos uma certa garantia que a amostra que seleccionámos, já que na prática só se selecciona uma amostra, nos fornece uma estimativa razoável. A resposta à questão anterior á dada construindo a distribuição de amostragem da média, em que, como vimos anteriormente, se define distribuição de amostragem de uma estatística como sendo a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população. São as distribuições de amostragem das estatísticas que nos vão permitir fazer inferências sobre os parâmetros populacionais correspondentes. A aleatoriedade presente no processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportamento dessa estatística, quando se utiliza para estimar um determinado parâmetro. Podemos dizer que é através da distribuição de amostragem que introduzimos a probabilidade num procedimento estatístico, em que a partir das propriedades estudadas na amostra, procuramos tirar conclusões para a população. 1.6.1 ► Distribuição de amostragem da média, como estimador do valor médio de uma População finita 1.6.1.1 ► Distribuição de amostragem exacta Seguidamente vamos exemplificar o processo de obtenção da distribuição de amostragem da Média, e consequente estudo das suas propriedades como estimador do valor médio de uma População finita. Vamos considerar uma População de dimensão suficientemente pequena, para que o problema possa ser tratado dentro dos limites do razoável. Consideremos a seguinte população constituída pelos 9 alunos de uma classe infantil Maria Eugénia Graça Martins Análise de Dados 20 Nº 1 2 3 4 5 6 7 8 9 Aluno Maria Teresa Tiago David Rita Ana Joana Bernardo Leonor Peso (kg) 12.5 11.6 13.4 14.1 12.0 10.8 11.9 12.7 9.6 Altura (cm) 65 68 61 64 59 69 58 61 63 Nº irmãos 0 1 0 1 2 1 0 1 1 Algumas características desta população são: Peso Altura Nº irmãos Val. médio 12.07 63.11 0.78 Desvio padrão 1.34 3.57 0.67 Mín. 9.6 58 0 Máx. 14.1 69 2 Mediana 12 63 1 Esta população é tão pequena, que para a estudar não tivemos necessidade de recorrer a amostras para estimar alguns parâmetros desconhecidos, tais como altura média, peso médio, etc. Vamos, no entanto utilizá-la para exemplificar como se pode estimar a altura média a partir da média de amostras de dimensão 3. Como a nossa População tem dimensão 9, vamos utilizar a porção de tabela de dígitos aleatórios considerada na página 7, seleccionando números de 1 dígito. Considerando ao acaso uma das linhas, por exemplo a linha 104, os elementos seleccionados são o 5, o 2 e o 7, sobre os quais vamos recolher a informação relevante ou seja a altura: Nº Nome Altura 5 Rita 59 2 Teresa 68 7 Joana 58 A média das alturas observadas é 61.7, que é uma estimativa da altura média da População. Como neste caso conhecemos o valor do parâmetro, podemos dizer que a estimativa está razoavelmente próxima do parâmetro a estimar. Obviamente que se recolhermos outras amostras, obteremos outras estimativas. Então vamos seleccionar mais 9 amostras de dimensão 3, com o auxílio da tabela: Maria Eugénia Graça Martins Análise de Dados Amostra 21 1 2 3 4 5 6 7 5 59 1 65 8 2 68 3 61 7 58 8 61 8 9 61 7 58 2 68 1 65 8 9 63 4 64 7 58 8 61 3 61 6 69 4 64 5 59 10 61 6 69 3 61 5 59 4 64 7 58 9 63 9 63 7 58 5 59 5 59 2 68 Na obtenção das amostras anteriores tivemos o cuidado de fazer a selecção sem reposição, o que significa que ao obter cada amostra, um elemento seleccionado não poderia voltar a ser seleccionado. Também tivemos o cuidado de verificar se as amostras eram todas distintas (constituídas por elementos diferentes). Os valores obtidos para as médias das 10 amostras foram: Amostra 1 2 3 4 5 6 7 8 9 10 61.7 62.3 61.7 63.7 63.3 61.7 61.0 62.0 61.0 61.5 Obtivemos vários valores diferentes como estimativas, sendo esta variabilidade resultado da variabilidade presente na amostra. Os valores apresentados pelas médias das 10 amostras, não diferem muito entre si, nem do valor do parâmetro. Mas como é que podemos ter a garantia que se recolhermos outra amostra, não vamos obter como estimativa do valor médio da altura, um valor muito diferente do verdadeiro valor do parâmetro? Por outras palavras, gostaríamos de poder responder à seguinte questão: Para este processo de amostragem, como é que podemos concluir que a média (amostral) é um “bom” estimador do valor médio (média populacional)? Teremos de estudar a distribuição de amostragem da média, que neste caso consiste ⎛ 9⎞ ⎝ 3⎠ em estudar como se comporta a distribuição das médias obtidas para as ⎜ ⎟ = 84 amostras diferentes, de dimensão 3, que se podem extrair da População. Considerando então todas as amostras aleatórias simples, diferentes, de dimensão 3, obtemos Am. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 68 68 68 68 68 68 68 61 61 61 61 61 61 64 64 64 64 64 59 59 59 61 64 59 69 58 61 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61 média 64.7 65.7 64.0 67.3 63.7 64.7 Maria Eugénia Graça Martins 65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7 Análise de Dados Am. 22 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 65 65 65 65 65 65 65 68 68 68 68 68 68 68 68 68 68 68 68 68 68 59 69 69 69 58 58 61 61 61 61 61 61 61 64 64 64 64 64 59 59 59 63 58 61 63 61 63 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61 média 62.3 64.0 65.0 65.7 61.3 62.0 63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7 Am. 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 68 68 68 68 68 68 68 61 61 61 61 61 61 61 61 61 61 61 61 61 61 59 69 69 69 58 58 61 64 64 64 64 64 59 59 59 59 69 69 69 58 58 63 58 61 63 61 63 63 59 69 58 61 63 69 58 61 63 58 61 63 61 63 média 63.3 65.0 66.0 66.7 62.3 63.0 64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7 Am. 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 61 64 64 64 64 64 64 64 64 64 64 59 59 59 59 59 59 69 69 69 58 61 59 59 59 59 69 69 69 58 58 61 69 69 69 58 58 61 58 58 61 61 63 69 58 61 63 58 61 63 61 63 63 58 61 63 61 63 63 61 63 63 63 média 61.7 64.0 60.3 61.3 62.0 63.7 64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7 Uma vez que o plano de amostragem considerado, foi a amostragem aleatória simples, cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos considerar os diferentes valores obtidos para a variável Média, assim como as respectivas probabilidades – ou seja, estamos em condições de considerar a seguinte função massa de probabilidade para a variável Média, que vamos designar por Média3, para realçar o facto de as amostras a partir das quais se obtiveram os seus valores, terem dimensão 3: Média3 59.3 60.0 60.3 60.7 61.0 61.3 61.7 62.0 62.3 62.7 63.0 63.3 Prob. 2/84 2/84 2/84 3/84 4/84 4/84 5/84 4/84 5/84 7/84 5/84 6/84 Média3 63.7 64.0 64.3 64.7 65.0 65.3 65.7 66.0 66.7 67.0 67.3 Prob. 5/84 6/84 5/84 4/84 4/84 3/84 2/84 3/84 1/84 1/84 1/84 Maria Eugénia Graça Martins Análise de Dados 23 Algumas características da variável Média3 são: Média3 Valor médio Desvio padrão Mínimo Máximo Mediana 63.11 1.79 59.3 67.3 62.83 Repare-se que: • o valor médio da variável Média3 coincide com o valor médio da População – Altura, de onde se recolheram as amostras; • o desvio padrão da variável Média3 é bastante menor que o da variável Altura. As observações anteriores permitem-nos concluir que a Média3, como estimador do parâmetro - valor médio da Altura, é um estimador centrado, já que o seu valor médio coincide com parâmetro a estimar. A partir da distribuição de probabilidade da Média3, podemos ainda concluir que a probabilidade de obtermos estimativas no intervalo [61.3, 65.3] é de 0.75, assim como a probabilidade de obtermos essas estimativas no intervalo [59.5, 66.7] é superior a 95%. Este resultado significa que, ao recolhermos uma amostra de dimensão 3 e ao calcularmos a partir dela uma estimativa para o valor médio, estamos confiantes, com uma confiança superior a 95%, de que essa estimativa não se afasta do parâmetro a estimar de uma distância superior a 3.6, aproximadamente (63.1–59.5=3.61; 66.7–63.1=3.6). Chamamos a atenção para que a confiança anterior, não nos dá a garantia de que a estimativa que nós calculamos, para a amostra seleccionada, esteja naquele intervalo. Temos “fé” que sim! E se as amostras tiverem maior dimensão? O que é que ganhamos com isso? Repetindo o processo anterior, mas agora para amostras de dimensão 5, será que a variabilidade apresentada pelo estimador diminui? Já que temos mais informação, é de esperar algum “ganho” na precisão do estimador! Vamos então considerar a distribuição de amostragem da média para amostras de dimensão 5. O processo é em tudo idêntico ao considerado anteriormente, mas agora será um pouco mais trabalhoso já que o número de amostras distintas, de dimensão 5, ⎛ 9⎞ ⎝ ⎠ que podemos extrair da População de dimensão 9 é ⎜ ⎟ = 126. 5 Maria Eugénia Graça Martins Análise de Dados 24 Os resultados obtidos para a distribuição de amostragem da média, para amostras de dimensão 5, foi: Média5 60.4 60.6 60.8 61.0 61.2 61.4 61.6 61.8 62.0 62.2 62.4 62.6 62.8 63.0 0.079 Probab 0.008 0.008 0.008 0.016 0.016 0.032 0.024 0.040 0.040 0.056 0.063 0.048 0.063 Média5 63.2 63.4 63.6 63.8 64.0 64.2 64.4 64.6 64.8 65.0 65.2 65.4 65.8 Probab 0.063 0.071 0.056 0.056 0.048 0.048 0.048 0.024 0.024 0.024 0.016 0.016 0.008 Algumas características da variável Média5 são: Média5 Valor médio Desvio padrão Mínimo Máximo Mediana 63.11 1.13 60.4 65.8 63.1 Repare-se que: • o valor médio da variável Média5 coincide com o valor médio da População – variável Altura, de onde se recolheram as amostras; • o desvio padrão da variável Média3 é bastante menor que o da População – variável Altura e é ainda inferior ao da variável Média3. Na figura seguinte apresentamos as distribuições de amostragem da Média3 e da Média5: Maria Eugénia Graça Martins Análise de Dados 25 Conclusão: a precisão do estimador aumenta, à medida que se aumenta a dimensão da amostra. Recordamos que quanto menor for a variabilidade apresentada pelo estimador, maior é a precisão. Resultado teórico: Dada uma População de dimensão N, de valor médio μ e variância σ2, quando se considera um plano de amostragem aleatória simples, e como estimador de μ a Média, calculada a partir de amostras de dimensão n, então: • O valor médio da Média é μ, isto é, a Média como estimador do valor médio é um estimador centrado; • • A variância da Média é igual a σ 2 N -n n ( N -1 ) N - n S2 ( ) é um estimador não enviesado da variância da Média N n Nota: A demonstração destes resultados é apresentada a seguir, depois de algumas considerações sobre as expressões apresentadas. A expressão obtida para a variância é muito interessante pela informação que contém. Nomeadamente: • Confirma o que já havíamos esperado, no sentido de que ao aumentar a dimensão da amostra, aumentamos a precisão do estimador (na medida em que diminui a sua variabilidade). Maria Eugénia Graça Martins Análise de Dados • 26 Permite-nos ainda concluir que, para obter a mesma precisão, quando estimamos o valor médio de Populações da mesma dimensão, a dimensão da amostra terá de ser tanto maior, quanto maior for a variabilidade presente na População. • Mas mais interessante, embora menos intuitivo, permite-nos concluir que se a dimensão da População for substancialmente maior que a da amostra, então a precisão do estimador não depende da dimensão dessa População, mas unicamente da variabilidade aí presente (pois (N-n)/(N-1) ≈1). Demonstração: Seja Y1, Y2, ...,Yn uma amostra aleatória simples de uma população de valores {u1, u2, ..., uN}. N Considerando um Yi, tem-se E(Yi)= ∑ i=1 Yi por Y, tem-se E( Y )= 1 n ui 1 =μ N N e V(Yi)= ∑ (u - μ) i=1 ∑ N(N − 1) − i≠ j 1 N2 N ( ∑ ui )2 = i =1 i N ∑ N(N − 1) uiu j ⎡ N ⎤ N uiu j 1 ⎢ 1 2⎥ ( u ) − i ⎥= N⎢ ( N − 1) N i =1 ⎣⎢ i ≠ j ⎦⎥ ∑ ∑ ∑ =- 1 N( N − 1) - ∑ ( u − μ) i Var( Y ) = ∑ ∑ ⎛ n 1 ⎜ σ2 + 2 ⎜ n2 ⎜ i< j ⎝ i =1 ∑ 2 ⎞⎟ ∑∑ N− σ− 1 ⎟⎟ = ⎠ N2 ∑ 2 =- i =1 ∑∑ 1 N ( ∑u ) i 2 = i =1 N ⎡ N ⎤ ⎢( ⎥ u i )2 − u i2 N ⎢ ⎥ 1 ⎢ i =1 1 i =1 − ( u i )2 ⎥ ⎥ N⎢ N −1 N ⎢ ⎥ i =1 ⎢ ⎥ ⎣⎢ ⎦⎥ N ⎡ n n ⎞ 1 1 ⎢ ⎟ Yi ⎟ = σ2 + 2 ⎢ ⎜n ⎟ n2 ⎢ i< j ⎝ i =1 ⎠ ⎣ i =1 ⎛ Como Var( Y ) = Var ⎜⎜ . Representando a média dos i =1 2 ⎡ N ⎛ N ⎞ ⎤⎥ 1 1 ⎢ 1 ⎜ ⎟ 2 ui ⎟ ⎥ ui − ⎢ N( N − 1) ⎜⎜ N ⎢ N −1 ⎟ ⎥ i = 1 i = 1 ⎝ ⎠ ⎥⎦ ⎣⎢ ∑ = σ2 n i≠ j uiu j N ∑E(Y ) =μ. Por outro lado, Cov(Yi, Yj) = E[(Yi -μ)(Yj-μ)]= E(YiYj) – μ2= N 2 1 i ∑ 1 N −1 ⎤ ⎥ Cov(Yi , Yj )⎥ ⎥⎦ 1 ⎧⎪ 2 2σ 2 n (n − 1) ⎫⎪ ⎨nσ − ⎬ N −1 2 ⎪ n 2 ⎪⎩ ⎭ ∑ =- σ2. então pois há n(n-1)/2 pares (i,j) seleccionados de entre os inteiros 1,2, ..., n tais que i<j. Portanto Var( Y )= Pode-se ainda mostrar que 1 N − n S2 , com S2= N −1 N n Var( Y ). Efectivamente E(S2) = Maria Eugénia Graça Martins σ2 N - n n N-1 n ∑ (Y − Y ) 2 i i=1 2 , é um estimador não enviesado de N−n S N 2 σ , donde E( ) = Var( Y ). N N -1 n Análise de Dados 27 1.6.1.2 ► Distribuição de amostragem aproximada Quando a população é finita, e a amostragem se faz sem reposição, existem algumas condições necessárias e suficientes para que se possa considerar a distribuição da média aproximada pela distribuição Normal. Não vamos apresentar essas condições, embora admitamos que elas estão satisfeitas e enunciamos o seguinte resultado: Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão N, em que a variável em estudo tem valor médio μ e variância σ2. Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ 2 N -n n ( N -1 ). A aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População. O resultado anterior permite concluir que quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pelo estimador. 1.6.2 ► Distribuição de amostragem aproximada da média, como estimador do valor médio de uma População finita, mas de dimensão suficientemente grande Na maior parte dos casos em que é necessário recolher uma amostra para estudar uma característica de uma População, não se conhece a dimensão desta. Então costuma-se assumir que é suficientemente grande de modo que se diz que se tem uma População de dimensão infinita. Em termos práticos costuma-se considerar que se tem uma população de dimensão infinita quando n≤N/20. Nestas condições o factor (N-n)/(N-1) que aparece na expressão da variância da Média toma um valor aproximadamente igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite Central (TLC), de que o resultado anterior é uma versão para Populações finitas: Maria Eugénia Graça Martins Análise de Dados 28 Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão grande, em que a variável em estudo tem valor médio μ e variância σ2. Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ2 n . A aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População subjacente às amostras. Mais uma vez chamamos a atenção para a seguinte propriedade, já anteriormente referida: quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pelo estimador. Além disso, também concluímos que, para Populações de dimensão suficientemente grande, esta não tem influência sobre a variabilidade do estimador. Em conclusão, a precisão de um estimador, para Populações de grande dimensão, não depende do tamanho da População, mas sim da variabilidade aí presente. Quando pretendemos estimar um parâmetro da População, para obter uma determinada precisão, a dimensão da amostra terá de ser tanto maior, quanto maior for a variabilidade existente na População. No entanto, se a dimensão da População já não for suficientemente grande, essa dimensão terá interferência na precisão do estimador. 1.7 ► Distribuição de amostragem da média, em amostragem com reposição Será interessante estudarmos a distribuição de amostragem da Média, quando se faz amostragem com reposição, de uma População com dimensão N e comparar com o que se obtém em amostragem sem reposição. Agora, cada elemento da População tem uma probabilidade constante e igual a 1/N de ser seleccionado para pertencer à amostra, já que quando um elemento é seleccionado, uma vez a informação recolhida, ele é novamente reposto na População. Maria Eugénia Graça Martins Análise de Dados 29 Este processo é equivalente a seleccionarmos uma amostra aleatória de dimensão n de uma população uniforme discreta no conjunto dos valores da característica a estudar da População, que podemos representar por y1, y2, …, yN. Então cada vez que se selecciona um elemento da População é como se obtivéssemos um valor da variável Y que assume os valores yi considerados anteriormente, com probabilidade 1/N. Seleccionar uma amostra de dimensão n significa seleccionar n variáveis Y1, Y2, …, Yn, independentes e com distribuição idêntica à de Y. Então a Média será uma variável cujo valor médio é o valor médio μ da População (ou da distribuição uniforme) e cuja variância é σ2/n, onde σ2 é a variância da População (ou da distribuição uniforme subjacente). A amostragem sem reposição é mais eficiente do que a amostragem com reposição σ2 , para a variância da Média, com o resultado apresentado Comparando o resultado n quando se faz amostragem sem reposição, nomeadamente σ 2 N -n n ( N -1 ) , conclui-se que a amostragem sem reposição é mais eficiente, quando se pretende estimar o valor médio da População, uma vez que produz um estimador com uma variância mais pequena, isto é, que apresenta menor variabilidade. EXEMPLO 1.9 Considere uma população constituída pelos elementos 1, 2, 3, 4 e 5. Pretende estimar o valor médio desta população, pelo que decide recolher uma amostra de dimensão 2, com reposição. e calcular a sua média. Obtenha a distribuição de amostragem do estimador utilizado para estimar o valor médio da população. Resolução: A População anterior é constituída pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra: População X Probabilidade Propriedades da População: Valor médio = 3 Desvio padrão = √2. Maria Eugénia Graça Martins 1 1/5 2 1/5 3 1/5 4 1/5 5 1/5 Análise de Dados 30 A metodologia seguida para obter a distribuição de amostragem consiste em obter todas as amostras de dimensão 2, com reposição, calcular o valor da estatística média para cada uma delas e depois representar a distribuição dos valores obtidos: Amostras (1,1) (1,2) (1,3) (1,4) (1,5) (2,5) (3,5) (4,5) (2,1) (2,2) (2,3) (2,4) (3,4) (4,4) (5,4) (3,1) (3,2) (3,3) (4,3) (5,3) (4,1) (4,2) (5,2) (5,5) (5,1) média 1 1.5 2 2.5 3 3.5 4 4.5 5 De acordo com a tabela anterior obtemos a seguinte distribuição de amostragem para o estimador Média2 (assim representado por se obter a partir de amostras de dimensão 2) Média2 Probabilidade 1 1.5 2 2.5 3 3.5 4 4.5 5 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25 1 1.5 2 2.5 3 3.5 4 4.5 5 Características da distribuição de amostragem da Média para amostras de dimensão 2: Valor médio = 3 Desvio padrão = 1 Algumas observações: • O centro da distribuição de amostragem do estimador Média utilizado para estimar o valor médio da população (igual a 3), coincide com o parâmetro a estimar . • O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da média, calculada a partir de amostras de dimensão 2 é 1 ( 2 / 2 =1 – resultado considerado anteriormente). Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de dimensão 3, o problema torna-se mais trabalhoso, já que o número de amostras possíveis é 53=125. Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuição de amostragem da Média3: Maria Eugénia Graça Martins Análise de Dados 31 Média3 1 1.33 1.67 2 2.33 2.67 3 3.33 3.67 4 4.33 4.67 5 Proba. .008 .024 .048 .080 .120 .144 .152 .144 .120 .080 .048 .024 .008 1 2 3 4 5 Características da distribuição de amostragem: Valor médio = 3 Desvio padrão = 0.816 Algumas observações: • O centro da distribuição de amostragem do estimador Média3 utilizado para estimar o valor médio da população (igual a 3), coincide com o parâmetro a estimar . • O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da Média3, calculada a partir de amostras de dimensão 3 é 0.816 ( 2 / 3 =0.816 – o que condiz com o resultado apresentado anteriormente, de que a variância da Média é σ2/n). • A variabilidade apresentada pela distribuição de amostragem é inferior à obtida quando se consideram amostras de dimensão 2. Este resultado indicia que quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pela distribuição de amostragem. Se a dimensão da População for muito grande, a probabilidade de extrairmos o mesmo elemento duas vezes é extremamente pequena. Assim, os dois processos de amostragem, com reposição e sem reposição, são praticamente equivalentes, quando estamos a estimar a média populacional. A conclusão anterior vai de encontro com a que se pode obter também se tomarmos atenção às variâncias das Médias de amostras de dimensão n, quando se faz extracção com e sem reposição. Efectivamente o factor N n N−n = × (1− ) N-1 N N−1 que aparece na expressão da variância num processo de amostragem aleatória simples (sem reposição) assume um valor próximo de 1, quando N é razoavelmente grande e n Maria Eugénia Graça Martins Análise de Dados 32 é razoavelmente pequeno, quando comparado com N. Ao quociente n costuma-se N chamar fracção de amostragem. Já apontamos anteriormente que se considera uma População “grande” se a sua dimensão for cerca de 20 vezes superior à dimensão da amostra, ou seja, quando a fracção de amostragem for menor que 0.05. 1.8 ► A forma da distribuição de amostragem da Média em populações infinitas ou amostragem com reposição Vimos anteriormente que o estimador Média é um estimador centrado do valor médio da população, quer a população seja finita ou infinita e a amostragem com reposição ou sem reposição. Vimos também a expressão para a variância, em qualquer das situações consideradas. Vamos agora admitir que estamos a realizar uma amostragem com reposição, ou que a população a estudar, X, é infinita, situação em que a selecção de um elemento para a amostra, pode ser considerada independente da selecção dos outros elementos. Assim, consideremos a amostra aleatória (X1, X2, ..., Xn) onde as variáveis aleatórias X1, X2, ..., Xn são indepententes e identicamente distribuídas a X, como se apresenta no seguinte esquema: Se tivermos k amostras de dimensão n, recolhidas da População X: População X x 1ª amostra x x ... x x x 2ª amostra x x ... x x k-ésima amostra x ... x x x Relativamente às amostras anteriores, podemos considerar o seguinte: Maria Eugénia Graça Martins x Análise de Dados 33 x11, x21, ...,xk1 são os valores observados de uma v.a. com distribuição idêntica à de X, mas que representamos por X1, para significar que foi o 1º elemento recolhido nas diferentes amostras; são os valores observados de uma v.a. com distribuição idêntica à x12, x22, ...,xk2 de X, independente de X1 (numa amostra aleatória, os valores não podem depender uns dos outros), mas que representamos por X2, para significar que corresponde ao 2º elemento recolhido; são os valores observados de uma v.a. com distribuição idêntica à de X, independente de X1, X2,... que representamos por Xn, para x1n, x2n, ...,xkn significar que foi o enésimo elemento a ser recolhido. Com esta notação, as amostras (x11, x12, x13,..., x1n ), ( x21, x22, x23,..., x2n ) ..., ( xk1, xk2, xk3,..., xkn ) são amostras observadas da amostra aleatória (X1, X2, …, Xn) Admitindo que a população X, que estávamos a estudar, era constituída pelas alturas (em cm) dos alunos inscritos na FCUL, no ano lectivo de 2005/2006, era tal que X∩N(165,10), podemos obter várias amostras observadas, de dimensão 10: (158, 163, 171, 150, 149, 167, 158, 172, 149, 150) (167, 149, 168, 153, 162, 160, 170, 161, 160, 149) … … … … … … … … (170, 160, 158, 168, 165, 159, 163, 159, 172, 150) da amostra aleatória (X1, X2, …, X10), em que todas as v.a. Xi, i=1,…,10, são independentes e têm distribuição Normal de valor médio 165 e desvio padrão 10. Tendo em consideração o que foi dito anteriormente, podemos afirmar que x1 , x 2 , … , x k , são valores observados da variável aleatória n X= ∑X i =1 i n onde X1, X2, … , Xn são variáveis aleatórias independentes e com a mesma distribuição que uma variável aleatória X ( população em estudo). Sendo a estatística uma variável aleatória tem uma distribuição de probabilidades, a que damos o nome de distribuição de amostragem, como já vimos nas secções consideradas anteriormente. Maria Eugénia Graça Martins Análise de Dados 34 São as distribuições de amostragem das estatísticas que nos vão permitir fazer inferências sobre os parâmetros populacionais correspondentes. Ao aleatoriezarmos o processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportamento dessa estatística, quando se utiliza para estimar um determinado parâmetro. Por outro lado, para podermos utilizar os resultados da Teoria das Probabilidades, o processo de amostragem que se considera é o de amostragem com reposição. Esta observação é relevante, sobretudo para populações de dimensão pequena, em que a composição da população, relativamente à característica de interesse, se altera quando se retiram alguns elementos; esta situação não se verifica com populações de grande dimensão, que é normalmente a situação de interesse em Estatística. Assim, se uma população tiver N elementos, para obter as distribuições de amostragem de estatísticas, a partir de amostras de dimensão n, teríamos de seleccionar Nn amostras distintas. Então, para calcular a distribuição de amostragem da média, será necessário considerar todas as amostras possíveis e calcular as respectivas médias? Felizmente não é necessário estar com tanto trabalho, graças a um dos resultados mais importantes da Teoria das Probabilidades, conhecido como Teorema Limite Central, que nos fornece um modelo matemático para a distribuição de amostragem da média, como veremos a seguir. Algumas questões que se podem levantar acerca da distribuição de amostragem da estatística média, são as seguintes: • A distribuição da média, depende da distribuição da população X, subjacente às amostras? • Será sempre possível conhecer essa distribuição? No que se segue procuraremos responder a estas questões, adiantando desde já que, na verdade, a distribuição de amostragem da média depende da distribuição da população subjacente às amostras. Veremos também, que nem sempre é possível obter a distribuição exacta da média, mas sim uma distribuição aproximada. Maria Eugénia Graça Martins Análise de Dados 35 1.8.1 ► Valor médio e desvio padrão da média Dada uma população X de valor médio μ e desvio padrão σ, então, tendo em consideração as propriedades do valor médio e da variância, pode-se mostrar facilmente que E( X ) = μ e Var( X ) = σ2 n Obs: Não esquecer que X é uma combinação linear de variáveis aleatórias independentes e com a mesma distribuição. Chamamos a atenção para o facto do valor médio da v.a estimador X , coincidir com o parâmetro que estamos a estimar, o valor médio, µ, da população. Dizemos que o estimador é centrado ou não enviesado. Além disso, a variância do estimador decresce com a dimensão da amostra, o que permite concluir que, à medida que aumentamos a dimensão da amostra a variabilidade do estimador, em torno do parâmetro, diminui. Diz-se então que o estimador é consistente. Estas propriedades de não enviesamento e de consistência fazem com que a média seja um “bom” estimador do valor médio. 1.8.2 ► Distribuição da média, para populações Normais Para obter a distribuição de X , vamos distinguir o caso de a população X ser Normal e não Normal, distinguindo ainda se o desvio padrão σ é conhecido ou não. 1.8.2.1 ► Desvio padrão σ conhecido Já dissemos quando estudamos a distribuição Normal, que qualquer combinação linear de variáveis aleatórias independentes, com distribuição Normal, ainda tem distribuição Normal. Como a média é uma combinação linear de variáveis aleatórias Xi, independentes, com distribuição idêntica à de X, que por hipótese é Normal(μ,σ), vem imediatamente que X tem distribuição Normal, com valor médio μ e desvio padrão pelo que procedendo à standardização, se obtém o seguinte resultado Maria Eugénia Graça Martins σ n , Análise de Dados 36 Populações Normais, σ conhecido Z= X - μ σ/ n ∩ N(0,1) 1.8.2.2 ► Desvio padrão σ desconhecido Quando o parâmetro σ é desconhecido, situação que ocorre com frequência, já o resultado anterior não é válido. Assim, estima-se o desvio padrão desconhecido pelo desvio padrão empírico, S, em que n S2 = ∑ (X i =1 i − X)2 n −1 e tem-se o seguinte resultado Populações Normais, σ desconhecido T= X−μ S ∩ t(n -1) n o que significa que se conhece a distribuição exacta da variável aleatória T, que é a chamada distribuição t-Student (t de Student), com (n-1) graus de liberdade e que se representa por t(n-1). Este modelo tem uma função densidade semelhante à da Normal, mas com as caudas mais altas, isto é, não é tão concentrada. No entanto, à medida que o número de graus de liberdade aumenta (isto é, à medida que n aumenta), a t-Student confunde-se com a Normal. Do mesmo modo que a Normal, também a distribuição t-Student se encontra tabelada. Maria Eugénia Graça Martins Análise de Dados 37 1.8.3 ► Distribuição da média, para populações não normais. Teorema Limite Central Quando a distribuição da população X já não é Normal, a distribuição de amostragem da média dependerá da distribuição de X, não sendo em geral conhecida. No entanto, um dos teoremas fundamentais das probabilidades, dá-nos uma indicação do comportamento da distribuição da média de um número suficientemente grande de variáveis aleatórias independentes e identicamente distribuídas: Teorema limite central Se X1, X2, …, Xn são variáveis aleatórias independentes e identicamente distribuídas a 2 uma variável aleatória X com valor médio µ e variância σ , finita, então a distribuição da soma Sn = X1+ X2+ …+ Xn, ou da média X = Sn tende a aproximar-se da distribuição n Normal, para n suficientemente grande P( S n − nμ ≤ z ) ≈ Φ(z) σ n e P( X−μ ≤ z ) ≈ Φ(z) σ n O teorema limite central dá-nos uma justificação teórica para a grande utilização da distribuição Normal, como modelo de fenómenos aleatórios. Quantidades tais como alturas e pesos de uma população relativamente homogénea, podem ser consideradas como somas de um grande número de causas genéticas e efeitos devido ao meio ambiente, mais ou menos independentes entre si, cada um contribuindo com uma pequena quantidade para a soma. O que é que se entende por um valor de n suficientemente grande? Uma questão que se pode pôr é a seguinte: quando queremos aplicar o teorema do limite central: qual o valor de n, para que se possa considerar que temos uma boa aproximação para a distribuição Normal? Este valor de n depende da distribuição subjacente à amostra e será tanto maior quanto mais enviesada for a distribuição da população (o termo enviesado aplica-se como contrário a simétrico). Maria Eugénia Graça Martins Análise de Dados 38 1.9 ► Distribuição de amostragem da proporção Anteriormente estudámos a estimação do valor médio e vamos, neste capítulo, ver como os resultados que se obtiveram podem ser traduzidos para o estudo da estimação do parâmetro proporção de elementos da População que satisfazem determinada propriedade ou verificam determinada característica. 1.9.1 ► Distribuição de amostragem da proporção para populações finitas Consideremos então uma população de dimensão N e seja p a proporção (desconhecida) de elementos de uma população que verificam determinada característica. Na metodologia que vamos utilizar, no estudo da estimação da proporção, começamos por verificar que uma proporção é uma média de 0’s e 1’s em que atribuímos o valor 1 a um elemento da população que verifique a característica em estudo e o valor 0 a um elemento que não verifique essa característica. Assim, a proporção p não é mais do que o valor médio desta população cujos elementos são 0’s e 1’s, pelo que o estudo feito para a estimação do valor médio será facilmente adaptado para a estimação da proporção. Para esta população tão particular, constituída por 0’s e 1’s, em que a média populacional é a proporção populacional, a média amostral também será a proporção amostral, que será assim, o estimador intuitivo para a proporção populacional. Como no capítulo anterior estudámos a distribuição de amostragem da média, tendo concluído que a média é um “bom” estimador para o valor médio, imediatamente concluímos que a proporção amostral é um “bom” estimador para a proporção populacional. A fim de utilizar os resultados enunciados para a distribuição de amostragem da média, vejamos a que é igual a variância de uma população constituída por 0’s e 1’s em que a percentagem de 1’s é p. Maria Eugénia Graça Martins Análise de Dados 39 Variância σ2 da população em estudo: A partir da expressão da variância, temos que σ2 = (1 - p)2 Np + (0 - p)2 N(1- p) N σ2 = p (1- p) A variância de uma população constituída por 0’s e 1’s, em que a percentagem de 1’s é p, é igual a p(1- p). As conclusões a que chegámos no capítulo anterior, permitem-nos agora enunciar os seguintes resultados: Dada uma população de dimensão N, em que p é a percentagem de elementos da população que verificam determinada característica, quando se considera um esquema de amostragem aleatória simples, e como estimador de p, a proporção amostral pˆ , isto é a proporção de elementos com a característica em estudo, existente em amostras de dimensão n, então: • ˆ de p é um estimador centrado, já que o seu valor médio coincide O estimador p com p; • ˆ é igual a A variância de p p(1-p) N -n ( ). n N -1 O resultado teórico conhecido como Teorema Limite Central toma agora a seguinte expressão: Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão grande, em que a característica em estudo está presente numa proporção p (desconhecida) Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de ˆ pode ser aproximada pela distribuição Normal amostragem da proporção amostral p com valor médio p e variância Maria Eugénia Graça Martins p(1- p) n . Análise de Dados 40 1.9.2 ► Distribuição de amostragem da proporção para populações infinitas ou com reposição Neste caso, em que a população é infinita ou a amostragem se faz com reposição, as n variáveis aleatórias X1, X2, ..., Xn (n provas) que consistem em seleccionar outros tantos elementos da população e verificar se sim ou não têm a característica em estudo (sucesso ou insucesso), que existe na população com uma proporção p, são variáveis de Bernoulli. Assim, a v.a. X que representa o nº de sucessos nas n provas tem distribuição Binomial de parâmetros n e p, Bin(n,p). Um estimador da proporção p é a ˆ= proporção amostral p X , cujas propriedades podem ser deduzidas a partir do facto da n distribuição de X ser conhecida. Efectivamente ˆ)= E( p E( X) np = =p n n e ˆ)= Var( p Var ( X) np(1 − p) p(1 − p) = = n n2 n2 Por outro lado, se a dimensão da amostra for suficientemente grande, a distribuição Bin(n,p) pode ser aproximada por uma distribuição Normal(np, np(1 − p) ), pelo que a ˆ pode ser aproximada por uma distribuição Normal (p, distribuição de p como já havíamos concluído anteriormente. Maria Eugénia Graça Martins p(1 − p) ), n Análise de Dados 41 Introdução à estimação 2 Introdução à estimação. Estimação pontual e intervalar. Intervalo de confiança com uma confiança de 100(1-α)%. Dimensão da amostra necessária para obter um intervalo de confiança com uma determinada precisão e uma determinada confiança. Margem de erro. 2.1 ► Introdução Dada uma amostra, vimos que é possível fazer a sua redução, através do cálculo de certas estatísticas. No entanto, a importância destas características amostrais não se fica por aqui, pois o nosso objectivo vai ser utilizá-las para inferir algo sobre a população subjacente à amostra. Foi nesta perspectiva que falámos em utilizar: i) a média x como estimativa do valor médio µ; ii) a proporção pˆ =x/n, onde x representa o nº de sucessos obtidos numa certa amostra de dimensão n, como estimativa da probabilidade p de sucesso, na distribuição Binomial, etc. Quer dizer que as estatísticas referidas permitem-nos obter determinados valores que servem como estimativas dos parâmetros (desconhecidos) ou características das distribuições populacionais - a estes valores chamamos estimativas pontuais. Por vezes interessa-nos obter, não um valor que estime o parâmetro em causa, mas um intervalo que contenha, com determinada probabilidade, esse parâmetro - neste caso pretendemos uma estimativa intervalar ou um intervalo de confiança. Um estimador é uma variável aleatória, função da amostra aleatória, que para valores observados da amostra fornece estimativas pontuais ou estimativas intervalares do parâmetro populacional desconhecido. Então, a v.a. X é um estimador do valor médio, Maria Eugénia Graça Martins Análise de Dados 42 X assim como pˆ = é um estimador da probabilidade p. De um modo geral quando nos n referimos ao estimador utilizamos letra maiúscula, enquanto que a estimativa se representa com letra minúscula. Esta metodologia por vezes não é seguida, como é por exemplo, no caso anteriormente considerado da proporção. O que é um "bom" estimador? O facto de termos escolhido a média como estimador do valor médio, não se deve unicamente à analogia existente, entre parâmetros populacionais e parâmetros amostrais. Comom vimos no capítulo 1, existem alguns critérios que definem à partida, se um estimador é "bom" ou "mau". Assim, o critério mais utilizado exige que o estimador seja não enviesado ou centrado, isto é, que o seu valor médio coincida com o parâmetro populacional a estimar, e de entre os que satisfazem esta condição deve ter variância mínima. Estas duas propriedades são, de certo modo intuitivas, pois ao considerar um estimador esperamos que as estimativas que ele fornece coincidam, em média, com o parâmetro a estimar, e além disso a variabilidade dessas estimativas, em torno do parâmetro, deve ser pequena. Por exemplo, no caso concreto de populações simétricas, podem existir vários estimadores centrados para o valor médio, nomeadamente a média e a mediana. No entanto, escolhe-se o que tem variância mínima, que é a média. No que diz respeito à variância populacional σ2, alguns estimadores possíveis são Σ (Xi − X) S2= n −1 2 ou S'2= Σ (Xi − X) 2 n Ao considerar estas duas estatísticas, costuma-se dizer que por razões que se prendem com a inferência estatística, a estatística mais utilizada é S2. Neste momento já podemos dar a razão que nos leva a escolher ao contrário de Σ (Xi − X) 2 , n Σ (Xi − X) 2 n −1 - é o facto de este estimador, 2 ser centrado, pois pode-se mostrar que E [S ]=σ 2 com Xi , i=1,...,n variáveis aleatórias independentes e identicamente distribuídas a X, enquanto Maria Eugénia Graça Martins Análise de Dados 2 que E [S’ ]= 43 n −1 n 2 σ . Assim, quando a dimensão da amostra é suficientemente grande, 2 S’ é assintóticamente centrado, pois n −1 n → 1, sendo indiferente utilizar um ou outro estimador. 2.2 ► Estimação da proporção. Intervalo de confiança para a proporção Já vimos no capítulo 1 que se tivermos uma população constituída por indivíduos que pertencem a uma de duas categorias, que representamos por A e Ac em que p é a proporção (desconhecida) de indivíduos que pertencem à categoria A, um estimador desta proporção é pˆ . Vimos que pˆ é um estimador centrado ou não enviesado e tem uma variabilidade que tende para 0, à medida que a dimensão da amostra recolhida aumenta. Podemos dizer que temos um bom estimador, pelo menos relativamente ao critério considerado anteriormente! Então, quando pretendemos fazer inferência sobre p, recolhemos uma amostra de dimensão n e calculamos pˆ . O valor obtido é uma estimativa pontual de p. Se recolhermos várias amostras da mesma dimensão e calcularmos outras tantas estimativas para p, não temos possibilidade de saber qual o erro associado com cada uma dessas estimativas. O verdadeiro valor da percentagem p é desconhecido, pelo que não sabemos se as estimativas que obtivemos são boas ou más, portanto não sabemos qual a confiança com que devem ser encaradas, e não temos assim possibilidade de saber qual a que devemos utilizar. Por exemplo, se dois jornais distintos apresentarem, no mesmo dia, as percentagens de 45% e 52% de pessoas que votarão “Sim” à Constituição Europeia, não sabemos qual a que nos merece mais confiança. Perante esta incapacidade de medir o erro cometido ao tomar uma estimativa pontual, abordamos o problema de outra forma e vamos procurar uma estimativa intervalar, isto é, um intervalo da forma [a,b], que contenha o verdadeiro valor da percentagem (desconhecida), com uma determinada confiança, que definimos à priori, isto é, Prob( [a,b] conter p ) = 1-α Maria Eugénia Graça Martins Análise de Dados 44 De um modo geral a confiança exprime-se na forma 100(1-α)%, com α pequeno. Como determinar os limites a e b do intervalo de confiança? Já que, como vimos na secção anterior, a distribuição de amostragem de pˆ pode ser aproximada pela distribuição Normal, quando a dimensão n da amostra utilizada for suficientemente grande, então é possível, dada uma probabilidade P, por exemplo .95, obter o valor de z tal que se tenha P( Se P( | p̂ − p | p(1 − p) n | p̂ − p | p(1 − p) n ≤ z ) = .95. | p̂ − p | ≤ z ) = .95 então z=1.96, ou seja P( p(1 − p) n ≤ 1.96 ) = .95. Trabalhando a expressão anterior obtemos P( p̂ -1.96 p(1− p) n ≤ p ≤ pˆ +1.96 p(1− p) n ) = .95 Se n é suficientemente grande pˆ está suficientemente próximo de p, pelo que na expressão anterior vamos substituir p por pˆ em P( pˆ -1.96 p̂(1 − p̂) n Dizemos que o intervalo [ pˆ -1.96 p(1 − p) , obtendo-se n ≤ p ≤ pˆ +1.96 p̂(1 − p̂) n , pˆ +1.96 p̂(1 − p̂) n p̂(1 − p̂) n ) ≈ .95 ] é um intervalo aproximado de confiança para p, com uma confiança de 95%. De um modo geral se considerarmos uma confiança de 100(1-α)% (representamos por α uma probabilidade pequena, que associamos à desconfiança ou ao erro cometido na obtenção do intervalo de confiança), o intervalo de confiança para p assume o aspecto [ pˆ -z1-α/2 p̂(1 − p̂) n p̂(1 − p̂) , pˆ +z1-α/2 ] n onde representamos por z1-α/2 o quantil de probabilidade (1-α/2) da N(0,1) e pˆ é a proporção de elementos da amostra pertencentes à categoria em estudo. Maria Eugénia Graça Martins Análise de Dados 45 EXEMPLO 2.1 (Adaptado de De Veaux and al, 2004) Os corais estão em declínio, em todo o mundo, possívelmente devido à poluição ou mudança da temperatura da água do mar. A morte dos recifes de corais pode ser um aviso das mudanças climáticas e poderá ter um impacto económico ainda não calculado. Uma espécie muito bonita de coral, conhecida como Leque do Mar, é particularmente afectada pela poluição e pela doença aspergillosis. Em Junho de 2000, uma equipa de investigadores recolheu uma amostra de corais desta espécie, a uma profundidade de 40 pés, em Las Redes Reef, Akumal, México. Verificaram que 54 dos 104 corais que recolheram, estavam infectados com aquela doença. O que é que se pode dizer sobre a prevalência desta doença, sobre aquele tipo de corais? Para já, temos uma proporção de corais doentes de 51.9%, mas ninguém nos garante que os investigadores obteriam a mesma proporção se recolhessem outra amostra de 104 corais.O que é que podemos dizer efectivamente sobre a proporção p de corais infectados? Apresentamos a seguir uma lista de coisas que poderíamos dizer, ou que por vezes se dizem, e a razão pela qual não são correctas a maior parte delas: 1. “51.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estão infectados” – Não temos informação suficiente para fazer esta afirmação. Só poderíamos fazer esta afirmação se tivéssemos investigado o que se passava com todos os corais. Assim, se recolhessemos outra amostra, obteríamos outra percentagem. 2. “Provavelmente é verdade que 51.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estejam infectados” – Não podemos fazer esta afirmação. Podemos ter quase a certeza de que, qualquer que seja a verdadeira proporção de corais infertados, ela não será exactamente igual a 51.900%. 3. “Não sabemos exactamente qual a proporção de corais infectados, da espécie Leque do Mar, em Las Redes Ref, mas sabemos que essa proporção está no intervalo 51.9% ±1.96 0.519 × (1 − 0.519) , ou seja 51.9%±9.6%, ou seja ainda entre 42.3% e 61.5%”. Ainda não podemos 104 fazer esta afirmação, pois não podemos ter a certeza que a verdadeira proporção esteja neste intervalo, ou noutro qualquer. Maria Eugénia Graça Martins Análise de Dados 46 4. “Não sabemos exactamente qual a proporção de corais infectados da espécie Leque do Mar, em Las Redes Ref, mas o intervalo de 42.3% a 61.5% provavelmente contém a verdadeira proporção”. Agora sim, podemos fazer esta afirmação. Começámos por dar o intervalo e em seguida admitir que pensamos que esse intervalo provavelmente contém o verdadeiro valor da proporção. Esta última afirmação está correcta, mas podemos quantificar o que é que entendemos por provavelmente. Podemos dizer que 95% das vezes que construirmos intervalos do tipo considerado anteriormente, conseguimos cobrir o valor de p, pelo que podemos estar 95% confiantes de que aquele intervalo seja um dos que contém p. 5. Temos uma confiança de 95% de que o intervalo entre 42.3% e 61.5% contenha a percentagem de corais infectados, da espécie Leque do Mar, em Las Redes Reef. A este intervalo chamamos um intervalo de confiança. Confiança e precisão Qual a dimensão da amostra necessária para obter um intervalo de 100(1-α)% de confiança, cuja amplitude não exceda d? Repare-se que a amplitude do intervalo nos dá a precisão – quanto menor for a amplitude, maior será a precisão. Efectivamente não estamos interessados em obter um intervalo com uma grande amplitude, pois numa situação extrema dizemos que o intervalo [0, 1] contém a probabilidade p, que pretendemos estimar, com uma confiança de 100%! Da forma do intervalo de confiança para p, verificamos que existem duas maneiras de diminuir a sua amplitude, que é igual a 2 z1-α/2 ˆp(1− ˆp) . Assim: n i) Ou diminuímos a confiança (1-α), o que implica obter um valor mais pequeno para o quantil z1-α/2, ou ii) aumentamos a dimensão da amostra. A solução apresentada em i) não é aconselhável - num caso extremo obteríamos um intervalo de amplitude nula (estimativa pontual!), mas com uma confiança de 0%! Então vejamos como proceder adoptando a solução preconizada em ii). Pretendemos que Maria Eugénia Graça Martins Análise de Dados 47 2 z1-α/2 ˆp(1− ˆp) ≤d n de onde n≥( 2z1− α/2 2 ) pˆ (1− pˆ ) d Se não tivermos uma estimativa de p, então devemos considerar o valor máximo do 2º membro da desigualdade anterior, que se obtém quando ˆp= 1 , donde um limite 2 superior para n será n≈( z 1−α / 2 2 ) d Chamamos a atenção para que este valor de n, de um modo geral, peca por excesso, já que foi obtido para a pior situação do valor do parâmetro a estimar estar próximo de 0.5. Assim, é aconselhável proceder a um estudo prévio, ou recolher informação eventualmente existente, para ter uma ideia do valor do parâmetro, se os custos com a recolha da amostra forem elevados. Chama-se margem de erro, a metade da amplitude do intervalo de confiança. Representando a margem de erro por ME, temos na expressão anterior que dá o valor adequado para a dimensão da amostra: n≈( z 1− α / 2 2ME )2 Repare que, fixando a dimensão da amostra, quanto maior for a confiança, maior será a margem de erro. Podemos aumentar a confiança até 100%. Mas, na verdade, qual a utilidade de um intervalo, com essa confiança? EXEMPLO 2.2 Numa cidade com 25000 habitantes considerou-se uma amostra de 1600 pessoas para estimar a percentagem de eleitores que votavam num certo candidato. Dos 1600 inquiridos, 917 declararam ter a intenção de votar no dito candidato. Determine um intervalo de 95% de confiança para a proporção de eleitores da cidade que pensam votar no candidato. Resolução: Uma estimativa de p é ˆp =917/1600=.57. O intervalo de confiança pretendido será [.57 - 1.96 .57 × .43 1600 , .57 + 1.96 Maria Eugénia Graça Martins .57 × .43 1600 ], ou seja [.55, .59], pelo que o intervalo tem amplitude .04. Análise de Dados 48 Qual a dimensão da amostra necessária para reduzir a metade a amplitude anterior? Como consideramos o mesmo nível de significância, vem n ≈ 1.962 ≈ 9604. Repare-se que neste caso já não .022 estão satisfeitas as condições para podermos aplicar o modelo Binomial, pois a dimensão da amostra é muito grande, quando comparada com a dimensão da população. Interpretação do intervalo de confiança Ao interpretar o intervalo de confiança deve-se ter em atenção que o que é aleatório é o intervalo e não a percentagem p desconhecida - a variabilidade existe no processo de amostragem e não no parâmetro. Quando se recolhem várias amostras, o valor de pˆ é diferente de amostra para amostra, pelo que os limites do intervalo variam. Ao calcular um intervalo com 95% de confiança (a partir de uma amostra entretanto recolhida), não significa que a probabilidade do intervalo conter o parâmetro é .95, já que o intervalo contém ou não contém o parâmetro. Como deve ser interpretado o intervalo de confiança é da seguinte forma: ao recolher 100 amostras da mesma dimensão e ao calcular os intervalos correspondentes, aproximadamente 95 destes intervalos contêm o parâmetro p, enquanto que 5 não o contêm, Maria Eugénia Graça Martins Análise de Dados com ai= p̂i (1 − p̂i ) n 49 . Na figura anterior representámos 3 intervalos, dos quais 2 contêm p, enquanto um terceiro não contém o valor de p. Chamamos a atenção para que quando calculamos um intervalo de confiança para a proporção, nunca sabemos se ele contém ou não o verdadeiro valor da proporção. Estamos confiantes que sim, já que em 95% das vezes que calculamos esses intervalos, eles contêm o valor de p. Já seria muito azar, o nosso intervalo ser um dos 5% de intervalos que não contêm o valor de p! 2.3 ► Estimação do valor médio. Intervalo de confiança para o valor médio Dada uma população X, com valor médio µ, desconhecido, e desvio padrão , suponhamos que se pretende estimar o parâmetro µ. Já vimos que um bom estimador para o valor médio é a média, pelo que a maneira de proceder é a seguinte: recolhe-se uma amostra de dimensão n da população a estudar, x1, x2,…, xn, e calcula-se a média x =∑xi/n. Este valor é considerado como estimativa pontual de µ. No entanto, se tivesse sido outra a amostra recolhida, nomeadamente x'1,x'2,…,x'n, seria natural que a estimativa obtida para µ através desta amostra, diferisse da inicialmente obtida. Qual a confiança que devemos atribuir a uma ou a outra? Surge assim, intuitivamente, a necessidade de um outro processo, que não só nos forneça o método de estimar, mas permita simultaneamente saber qual a confiança que devemos atribuir ao resultado obtido, tal como no caso da proporção. 2.3.1 ► Intervalo de confiança para o valor médio - σ conhecido Consideremos a população X com distribuição Normal de parâmetros μ e σ, em que o parâmetro σ é conhecido. Então, como vimos no capítulo 1, para a distribuição da média, tem-se, X ∩ N(µ,σ/ n ) pelo que é possível obter o valor de z tal que Maria Eugénia Graça Martins Análise de Dados 50 P[ |X −μ | σ/ n ≤ z] = .95 ⇒ z=1.96 A probabilidade anterior pode-se escrever P[ X - 1.96 σ/ n ≤ µ ≤ X + 1.96 σ/ n ] = .95 ou seja, [ X -1.96 σ/ n , X + 1.96 σ/ n ] é um intervalo aleatório, que contém o valor médio µ, com uma probabilidade ou confiança igual a .95, ou por outras palavras, se recolhermos um grande número de amostras (de igual dimensão), esperamos que cerca de 95% dos intervalos [ x -1.96σ/ n , x + 1.96σ/ n ] obtidos, contenham µ, enquanto 5% dos intervalos não o conterão. Para considerar um exemplo concreto, admitamos por exemplo, que o peso dos indivíduos do sexo masculino, de 1.65 m de altura, tem distribuição normal com valor médio 60 e desvio padrão 4. Nas cidades de Lisboa, Porto, Coimbra, Braga e Évora recolheram-se amostras de pesos de 10 indivíduos escolhidos ao acaso (com 1.65 m de altura), tendo-se obtido os seguintes resultados: Média L 55.9 56.3 56.8 57.2 61.2 61.9 62.5 63.8 64.4 68.2 60.82 P 55.7 55.8 57.0 57.4 59.0 59.5 59.9 60.4 64.2 67.7 59.66 C 53.0 54.6 54.7 54.8 57.6 58.6 62.4 63.5 65.5 66.6 59.13 B 57.3 58.1 58.6 58.7 59.0 61.9 62.6 64.4 64.9 66.7 61.22 E 49.5 50.4 52.8 54.3 55.3 57.0 61.2 62.6 63.2 64.1 57.04 Qualquer uma das médias obtidas pode ser considerada como estimativa pontual do valor médio 60. Pensemos ainda na mediana amostral, como estimador de µ (nas distribuições simétricas o valor médio coincide com a mediana). As estimativas obtidas para as diferentes amostras seriam: L 61.55 P 59.25 C 58.10 B 60.45 E 56.15 Maria Eugénia Graça Martins Análise de Dados 51 Dispondo os valores obtidos para as médias e as medianas, num segmento de recta, verificamos que a mediana apresenta maior variabilidade do que a média, em relação ao valor médio (embora uma amostra de dimensão 5 não seja significativa!). Vejamos agora o que se passa com a estimação intervalar. Considerando o intervalo aleatório [ X - 1.96 × 4 10 , X + 1.96 × 4 10 ], com confiança de 95%, para as amostras consideradas anteriormente, chegámos aos seguintes resultados: Cidade x [ x - 2.48 , x + 2.48] L 60.82 [58.34 , 63.30] P 59.66 [57.18 , 62.14] C 59.13 [56.65 , 61.61] B 61.22 [58.74 , 63.70] E 57.04 [54.56 , 59.52] *** Dos intervalos obtidos, concluímos que 4 contêm o valor médio enquanto que um não o contém (assinalado com ***). Uma questão que se levanta neste momento é a seguinte: o que acontece se exigirmos um intervalo de confiança com uma probabilidade de 99% em vez de 95%? Facilmente se conclui, que quanto maior for o nível de confiança exigido, maior será a amplitude do intervalo obtido. Para um nível de confiança de 99% o intervalo de confiança será [ X 2.58σ/ n , X + 2.58σ/ n ] e na realidade a amplitude pode ser tão grande que deixe de ter significado o cálculo do intervalo. No limite temos um intervalo de amplitude infinita, mais precisamente R, com uma confiança de 100%! De um modo geral, dada uma população N(µ,σ), um intervalo de confiança para o valor médio, com um nível de confiança de 100(1-α)%, obtém-se considerando P[ -z1-α/2 ≤ X−μ ≤ z1-α/2 ] = 1σ/ n onde representamos por z1-α/2 o quantil de probabilidade 1-α/2, da normal (0,1). Maria Eugénia Graça Martins Análise de Dados 52 A partir da probabilidade anterior conclui-se imediatamente, que o intervalo de confiança para o valor médio tem a forma [ X - z 1-α/2 σ/ n , X + z 1-α/2 σ/ n ] para uma confiança de 100(1-α)%, e qualquer que seja a dimensão da amostra considerada. Admitamos agora, que a distribuição da população de que se pretende estimar o valor médio já não é normal. Neste caso, as conclusões anteriormente obtidas continuam a ser válidas, mas exige-se que a dimensão da amostra seja suficientemente grande (n>30), para ser possível aplicar o teorema do limite central - os resultados agora não serão exactos, mas sim aproximados. Resumindo Dada uma população N(µ,σ) e uma amostra de dimensão qualquer, ou uma amostra de dimensão suficientemente grande (n>30), no caso de a população já não ser normal, conhecido, um intervalo de confiança para o valor médio, com um nível de confiança de 100(1-α%, tem a forma [ X - z 1-α/2 σ/ n , X + z 1-α/2 σ/ n ] onde representamos por z1-α/2 o quantil de probabilidade 1-α/2, da N(0,1). Suponhamos ainda que a população X tem distribuição normal de valor médio µ desconhecido e desvio padrão σ conhecido, ou que a dimensão da amostra é suficientemente grande. Pretende-se determinar para o valor médio, um intervalo de confiança com um nível de confiança de 100(1-α)% e cuja amplitude não exceda d. Qual a dimensão exigida para a amostra? Tendo em conta a forma para o intervalo de confiança, concluímos ainda, que um processo para diminuir a amplitude do intervalo de confiança, será aumentar a dimensão da amostra e essa dimensão terá de ser tal que: 2 z1-α/2 σ/ n ≤ d ou n ≥ ( 2 z1-α/2 σ/d)2 Repare-se que da expressão anterior podemos concluir, para já, que a dimensão da amostra que deve ser recolhida, depende da variabilidade existente na população. Maria Eugénia Graça Martins Análise de Dados 53 2.3.2 ► Intervalo de confiança para o valor médio - σ desconhecido. Em todas as conclusões obtidas até aqui, no que respeita à estimação do valor médio, admitimos que o parâmetro σ era conhecido. No entanto na situação mais vulgar, tanto µ como σ são desconhecidos. Para resolver o problema, vamos distinguir dois casos: a) Se a dimensão da amostra for suficientemente grande (n>30), utiliza-se a estatística S como estimador de σ e o intervalo de confiança, para um nível de confiança de 100 (1-α)% tem a forma [ X - z1-α/2 S/ n , X + z1-α/2 S/ n ] onde representamos por z1-α/2 o quantil de probabilidade 1-α/2, da normal (0,1), pois para n grande, n (X−μ) /S continua a ter distribuição aproximadamente normal. b) Se a dimensão da amostra for pequena, mas a população tem distribuição normal, então n (X−μ) /S já não tem distribuição normal, mas sim a chamada distribuição t de Student com (n-1) graus de liberdade, como já vimos no capítulo 9, no estudo da distribuição de amostragem da média. Nestas condições o intervalo de confiança para a média, para um nível de confiança de 100(1-α)% é [ X - t1-α/2(n-1) S/ n , X + t1-α/2(n-1) S/ n ] onde representamos por t1-α/2(n-1) o quantil de probabilidade 1-α/2, da distribuição t de Student, com n-1 graus de liberdade. Esta distribuição, assim como a normal, encontra-se tabelada. Convém ainda observar que a distribuição t-Student se aproxima da distribuição normal reduzida, à medida que o número de graus de liberdade aumenta. Assim, tem toda a propriedade utilizar a aproximação feita em a), para grandes amostras. Observação – Para usar o modelo de Student, é necessário que a população seja Normal. Na prática, é suficiente que os dados sejam provenientes de uma população unimodal e simétrica, se a dimensão da amostra for superior a 15 (De Veaux and al, 2004). Maria Eugénia Graça Martins Análise de Dados 54 Qual a dimensão da amostra necessária para que o intervalo de confiança tenha alguma utilidade? Já anteriormente definimos margem de erro (ME), como sendo metade da amplitude do intervalo de confiança e dissemos que quanto menor for a margem de erro, maior será a precisão, mas menor será a confiança, para uma mesma dimensão da amostra. Qualquer intervalo de confiança é uma solução de compromisso entre confiança e precisão. Então o que se faz é fixar a confiança em determinados valores, tais como 90%, 95% ou 99% e recolher uma amostra de dimensão tal que mantenha a margem de erro dentro de certo limite. Considerando então determinados valores para a margem de erro e para a confiança, vejamos qual a dimensão da amostra necessária: ME = t1-α/2(n-1) s/ n de onde n= (t1-α/2(n-1) s/ME)2 Na expressão anterior podemos fixar um determinado valor para a margem de erro ME, mas estamos perante algumas situações problemáticas. Não conhecemos s, antes de termos recolhido a amostra e precisamente queríamos conhecer n para recolher a amostra! Normalmente o que se faz nestes casos é fazer um estudo piloto que nos dá uma ideia do valor de s. Aliás esta situação è idêntica à que já nos deparámos quando do estudo do intervalo de confiança para a proporção ou probabilidade p, em que era necessário conhecer umaa estimativa de p. E no que diz respeito ao valor de t1-α/2(n1)? Novamente precisamos de conhecer n para calcular o valor do quantil de probabilidade (1-α/2) de uma t-Student com (n-1) graus de liberdade! Neste caso o que se pode fazer é substituir o quantil da t-Student pelo quantil z1-α/2 da N(0,1) e ver qual o valor que vem para n. Se este valor for suficientemente grande, podemos utilizá-lo como dimensão da amostra a recolher, já que os quantis da t-Student e da Normal(0,1) são idênticos. Caso contrário, utilizamo-lo para obter o quantil da t-Student e posteriormente recalcular o valor (de n) a partir da fórmula respectiva. Maria Eugénia Graça Martins Análise de Dados 55 EXEMPLO 2.3 Uma máquina está afinada para produzir peças de um certo comprimento. Todavia, observa-se uma certa variação de comprimento de uma peça para outra, podendo tal comprimento ser considerado uma variável aleatória normal. a) Suponha que foi extraída uma amostra de 16 peças, tendo sido medido o comprimento de cada uma. Os resultados obtidos foram os seguintes: ∑ x = 80 cm ∑ x i 2 i 2 = 535 cm Determine um intervalo de 95% de confiança para o valor médio do comprimento das peças. b) Admita que o verdadeiro valor da variância é igual à estimativa obtida naquela amostra. Determine novo intervalo de confiança, com esta informação adicional. Que conclusões tira? c) Repita a alínea b) admitindo que a amostra recolhida tinha dimensão 25. Resolução: n=16 x= 80 =5 16 2 s= 535 16× 25 =9 15 15 t.975(15) = 2.131 a) Intervalo de confiança [5 - 2.131 × b) Intervalo de confiança [5 - 1.96 × 3 3 , 5 + 2.131 × ] = [3.40, 6.60] 4 4 3 3 , 5 + 1.96 × ] 4 4 = [3.53,6.47] O intervalo de confiança agora calculado tem uma amplitude inferior à do calculado na alínea a), o que seria de esperar pois dispomos de mais informação. c) Intervalo de confiança [5 - 1.96 × 3 3 , 5 + 1.96 × ] = [ 3.82, 6.18] 5 5 A amplitude do intervalo é inferior à do intervalo calculado na alínea b) pois considerámos ainda mais informação ao dispormos de uma amostra de maior dimensão. EXEMPLO 2.4 Numa rua que passa à frente de uma escola, chamada Rua Nova, existe uma passadeira para os peões e um sinal a limitar a velocidade a 50 km por hora. No entanto, a maior parte das vezes, os carros nem sequer abrandam! A polícia, frequentemente, coloca um radar para controlar a velocidade e motivar ao cumprimento daquela regra de trânsito. Os pais das crianças é que não acreditam que esta medida seja suficiente e pretendem que seja colocado um semáforo, que passa a encarnado com velocidade superior aos 50 Km/h. Para poderem ter argumentos perante as instâncias camarárias, resolvem fazer um controlo de velocidades e num certo dia útil, pensam recolher as velocidades médias de alguns dos carros que passarem. Quantos carros devem observar, para obterem um intervalo de confiança de 95%, cuja margem de erro não ultrapasse 2 Km? Maria Eugénia Graça Martins Análise de Dados 56 Resolução: Para determinar a dimensão da amostra a recolher, é necessário ter uma ideia de como é que se distribuem as velocidades, nomeadamente se a distribuição dos dados é unimodal e simétrica. Além disso é necessário ter um valor aproximado para a variabilidade. Suponhamos então que se recolheu uma amostra piloto, para recolher a informação necessária: 50 48 57 57 43 50 48 63 52 42 57 53 52 45 62 48 43 40 57 60 52 57 60 35 O histograma que fizémos dos dados mostra que a distribuição é unimodal e aproximadamente simétrica. Não temos razões que nos levem a duvidar da independência dos dados (estamos a admitir que a recolha dos dados não se fez em hora de ponta...). Para a variância amostral obtivémos o valor de s=7.33. Consideranto o quantil de probabilidade 0.975 da normal, que é igual a 1.96, temos n= ( 1.96 × 7.33 2 ) = 2 51.5 donde necessitamos de uma amostra de dimensão 52. Refazendo os cálculos para a determinação da dimensão da amostra, considerando agora o quantil da t-Student com 51 graus de liberdade, que é igual a 2.008, obtivémos para n o valor de 54. Facilmente se verifica que a margem de erro do intervalo de 95% de confiança, construído com os dados recolhidos para a amostra piloto, é de 3 Km. Exercícios 1. Uma fábrica produz peças, havendo uma certa percentagem de defeituosas. O departamento de controlo de qualidade recolheu uma amostra de 30 peças, encontrando 4 defeituosas. Determine um intervalo de 95% de confiança para a percentagem de peças defeituosas produzidas pela dita máquina. Qual a dimensão da amostra necessária para obter um intervalo com 95% de confiança, cuja amplitude não exceda .1? 2. Perguntou-se a cada um dos 80 estudantes de um determinado curso, qual o seu grau de satisfação relativamente ao curso que frequenta. Obtiveram-se os seguintes resultados: NS MB B S NS NS SP SP NS B NS NS SP B B MB SP NS NS MB SP B NS B Maria Eugénia Graça Martins Análise de Dados 57 SP S SP SP NS NS SP MB S B MB NS S S S S SP S B NS S S SP B B B MB NS B S NS NS B S MB S MB NS MB SP S S NS B MB NS MB NS B MB SP MB S SP SP MB NS-"Não Satisfaz"; SP-"Satisfaz Pouco; S-"Satisfaz"; B- "Bom"; MB- "Muito Bom". a) Faça uma representação gráfica adequada para os dados e indique uma característica amostral. b) Admitindo que as opiniões destes estudantes são representativas das opiniões dos estudantes dos outros cursos, construa um intervalo de 95% de confiança para a probabilidade de um estudante, escolhido ao acaso, ter uma opinião positiva (Satisfaz, Bom ou Muito Bom) sobre o curso em que está inscrito. 3 . Um inquérito realizado a 100 potenciais compradores de um carro novo para o próximo ano, revelou que estão dispostos a pagar em média 14750 euros, com um desvio padrão de 4250 euros. a) Calcule um intervalo de 95% de confiança para a quantia média que os compradores estão dispostos a pagar. b) Foi posto à venda um novo tipo de carro, ao preço de 22500 euros. Será que este valor excede significativamente o que os compradores pretendem gastar em média? 4. Ao Instituto para a defesa do consumidor têm sido apresentadas queixas, dizendo que as embalagens de determinado produto congelado têm menos peso do que o indicado nas embalagens. Uma recolha preliminar de 40 destas embalagens indicou um peso médio de 975 gramas, com um desvio padrão de 85 gramas. Quantas embalagens devem ser examinadas, de forma a obter uma estimativa do peso médio com erro inferior a 25 gramas, com uma confiança de 95%? 5. Os seguintes dados representam o tempo de reacção (em segundos), de 42 indivíduos, a um estímulo luminoso : 13.8 28.8 37.1 46.5 19.1 30.2 38.1 48.1 20.4 31.2 40.3 49.9 21.8 31.7 40.4 50.0 22.3 31.7 41.8 50.2 24.0 33.6 42.2 56.4 24.6 34.6 42.4 25.2 34.8 43.7 26.1 35.4 43.8 26.5 36.0 44.0 a) Determine as seguintes características amostrais : média, variância, mediana, Q 26.6 36.3 44.4 3/5 eQ 5/14 28.7 36.8 44.6 . b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente aos dados. c) Construa um intervalo de 99% de confiança para o tempo médio de reacção. 6. Os seguintes dados representam o tempo de CPU (em segundos), gastos por um programa que utiliza um determinado software de estatística : 6.2 8.1 6.1 Maria Eugénia Graça Martins 5.8 3.2 5.6 4.6 3.4 5.5 4.9 4.4 3.1 7.1 8.0 6.8 5.2 7.9 4.6 4.4 3.1 7.8 Análise de Dados 58 3.8 4.1 2.6 6.1 4.5 4.1 4.6 4.4 7.7 5.2 3.8 1.5 2.9 5.6 a) Determine as seguintes características amostrais : média, variância, mediana , Q 2/5 eQ 3/4 . b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente aos dados. c) Admitindo a normalidade dos dados, construa um intervalo de 95% de confiança para o valor médio dos tempos de CPU gastos pelo programa. 7 . Recolheu-se uma amostra de 40 alunos a frequentarem o tronco comum de Matemática Aplicada no ano lectivo de 98/99, tendo-se verificado que 10 destes alunos frequentam o curso em 1ª opção. • Com base nos resultados determine um intervalo de 95% de confiança para a verdadeira percentagem de estudantes do 1º ano que efectivamente escolheram o curso em 1º opção. • Se pretendesse reduzir a metade a amplitude do intervalo obtido anteriormente, com uma amostra da mesma dimensão, qual o maior nível de confiança com que devia trabalhar? • Se recolhesse 200 amostras de dimensão 40, a partir das quais construísse outros tantos intervalos de confiança, quantos destes intervalos esperaria que contivessem o verdadeiro valor da percentagem de estudantes que frequentam o curso em 1ª opção? 8. Verifique que o intervalo de 90% de confiança para os dados do exemplo 4 é [47.9km; 54.1km]. Explique, porque é que não é correcto dizer o seguinte (Adaptado de De Veaux and al, 2004): a) 90% de todos os veículos que passam na Rua Nova, vão a uma velocidade entre 47.9km e 54.1km. (Res: O intervalo de confiança diz respeito à velocidade média dos veículos e não à velocidade de cada um dos veículos). b) Temos uma confiança de 90% de que um veículo seleccionado aleatoriamente, vá a uma velocidade entre 47.9km e 54.1km. (Res: Como no caso anterior, estamos a referir-nos a um único veículo, quando, na verdade, estamos 90% confiantes que o intervalo [47.9km; 54.1km] contenha a velocidade média de todos os veículos que passam na Rua Nova). c) A velocidade média dos veículos, é 51km, 90% do tempo. (Res: esta afirmação dá a ideia que a verdadeira velocidade média varia, quando o que varia é o intervalo, que será diferente, sempre que recolhermos uma amostra diferente). d) 90% de todas as amostras têm velocidades médias entre 47.9km e 54.1km. (Res: Esta afirmação dá a ideia de que este intervalo goza de algum privilégio, relativamente a outros. De facto, este intervalo é tão bom ou tão mau, como qualquer dos outos. O que deveremos dizer é que 90% de todas as possíveis amostras permitem construir intervalos que contêm a velocidade média. Nunca saberemos se o nosso intervalo é um dos que contêm ou não). Maria Eugénia Graça Martins Análise de Dados 59 Introdução aos testes de hipóteses 3 Introdução aos testes de hipóteses. Hipótese nula e hipótese alternativa. Estatística de teste. Região de rejeição e de não rejeição. Nível de significância de um teste. P-value. Testes de hipóteses sobre a proporção e sobre o valor médio e sobre. 3.1 ► Introdução Já vimos um processo de fazer inferência estatística - a estimação, em que utilizámos o modelo Binomial e o modelo Normal. Vamos ainda utilizar o modelo Binomial num outro tipo de inferência estatística a que chamamos testes de hipóteses. O objectivo dos testes de hipóteses, é determinar se uma dada conjectura ou hipótese que fazemos acerca de uma população, é plausível, isto é, tem razão de ser. Precisamente esta plausibilidade é calculada com base na informação obtida a partir de uma amostra da população. EXEMPLO 3.1 (Teaching Statistics, vol 15, nº1, 1993) Um professor chega um dia à aula e resolve pôr a seguinte questão: - Há aqui algum aluno que consiga distinguir, pelo sabor, a Coca-Cola da Pepsi-Cola? Um estudante diz que sim, que consegue distinguir, embora o professor pense que ele efectivamente não o consegue, e se acertar, é por acaso. Depois de alguma discussão em que o aluno afirma que consegue distinguir e o professor diz que ele está a fazer "bluf", resolvem fazer uma aposta, em que apostam uma certa quantia. Algumas questões que se levantam, relativamente a este problema, são: 1 - Com que probabilidade consegue o estudante distinguir entre a Coca e a Pepsi? 2 - Qual o critério que se utiliza para ver quem é o vencedor? 3 - Usando o critério, a definir em 2: a) Qual a probabilidade do estudante perder, mesmo que tenha razão? ( o estudante pode ter acordado mal disposto, estar nervoso, pouco concentrado, …) Maria Eugénia Graça Martins Análise de Dados 60 b) Qual a probabilidade do estudante ganhar a aposta, se de facto adivinhou, mas efectivamente não consegue distinguir entre a Coca e a Pepsi e responde ao acaso (foi uma questão de sorte…)? 4 - Quão pequenas devem ser as probabilidades em 3, para que cada um dos apostadores não esteja a correr um risco muito grande? A perspectiva de levar a cabo a experiência na turma, em frente de toda a gente, é deveras intimidante, pelo que não é de esperar que o voluntário consiga distinguir as duas bebidas 100% das vezes. De modo geral o estudante estabelecerá essa probabilidade entre 0.7 e 0.8 como realística. Para o prosseguimento da nossa experiência, vamos admitir que é de 0.7. Temos agora de delinear a experiência e determinar o critério de sucesso para o estudante. Depois de algumas discussões na aula, o voluntário concorda em provar 15 copos de bebida e dizer se cada uma é Coca ou Pepsi. De acordo com a probabilidade estabelecida anteriormente, para cada prova ele terá uma probabilidade de 70% de dar a resposta correcta. Qual o critério justo, que se deve considerar, para admitir que o estudante tem razão? Ou antes, qual o critério justo, que se deve considerar, para que as duas pessoas que apostaram não estejam a correr um risco demasiado grande? Idealmente, gostaríamos que o risco que correm os dois apostadores fosse aproximadamente igual, isto é, as probabilidades consideradas em 3. deveriam ser aproximadamente iguais. Com o objectivo de estabelecer um critério, o voluntário sugere que pelo menos 10 respostas certas significa que tem razão. Então, P(estudante ganhar a aposta, sabendo distinguir as bebidas) = = P(nº respostas certas em 15 ser ≥ 10, sabendo que a probabilidade de sucesso é .7) = 15 = ∑ ( i ).7 .3 15 i 15 −i = .722 i=10 de onde P(estudante perder a aposta, sabendo distinguir as bebidas) = 1 - .722 = .278 Esta probabilidade de .278 é o risco que o estudante corre. Qual o risco que o professor corre? O professor está interessado em calcular a probabilidade de perder o seu dinheiro, se o estudante se limitou a adivinhar e efectivamente não consegue distinguir a Coca da Pepsi. Esta probabilidade é: P(professor perder a aposta, se o estudante não sabe distinguir as bebidas) = Maria Eugénia Graça Martins Análise de Dados 61 P(nº respostas certas em 15 ser ≥ 10, sabendo que a probabilidade de sucesso é .5) = 15 = ∑ ( i ).5 .5 15 i 15 −i = .151 i=10 Esta probabilidade de .151 é o risco que o professor corre. Nestas circunstâncias estarão eles dispostos a apostar? E se se aumentar o nº de respostas correctas como critério de ganho ou perca? 1 - Se se aumentar o nº de respostas correctas necessárias, a probabilidade do estudante perder, embora estando convencido que consegue distinguir, aumenta. Obs: Se o nº de respostas correctas necessárias fosse k (>10), então o risco que o estudante corria seria P(nº de respostas certas < k) > P(nº de respostas certas < 10)(= .278) 2 - Por outro lado, aumentando o nº de respostas correctas necessárias, a probabilidade do professor perder, se o estudante se limita a adivinhar, diminui. Obs: Se o nº de respostas correctas necessárias fosse k>10, então o risco que o professor corria seria P(nº de respostas certas ≥ k) < P(nº de respostas certas ≥ 10)(= .151) Assim, modificando o critério, estamos a aumentar a probabilidade de um dos tipos de erro e a diminuir a probabilidade do outro tipo de erro. 3 - Sob a hipótese de que a capacidade de decisão (gustativa…) do estudante continua em forma, aumentando a dimensão da amostra, talvez se consigam diminuir estas probabilidades dos dois tipos de erros. Por exemplo, se o nº de provas for 20 e o critério para ganhar for de 12 respostas correctas pelo menos, recalculando as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os dois tipos de risco são 0.113 e 0.252, respectivamente, para o estudante e o professor. Se o professor for um "bom desportista" este critério é razoável, se a quantidade de dinheiro posta em jogo não for grande. Este exemplo servirá para introduzir os conceitos formais de testes de hipóteses, erros de tipo 1 e tipo 2 e as notações associadas com os procedimentos estatísticos. No entanto vamos antes disso, dar outros exemplos de aplicação de testes de hipóteses. Maria Eugénia Graça Martins Análise de Dados 62 3.2 ► Outros exemplos EXEMPLO 3.2 Numa fábrica de determinadas peças, um lote destas peças é considerado aceitável se tem menos de 8% de peças defeituosas. Já que os lotes têm um grande número de peças, sairia muito caro inspeccionar todas essas peças. A decisão a favor de não rejeitar o lote será tomada no caso de uma amostra a retirar do lote, dar indicação nesse sentido. EXEMPLO 3.3 Supõe-se que os estudantes são a favor da avaliação contínua, isto é, mais de 50% dos estudantes preferem a avaliação contínua. Para verificar se existem indícios de que esta hipótese não seja verdadeira, recolhe-se uma amostra de estudantes, registando-se o nº de respostas a favor. EXEMPLO 3.4 - Um fabricante afirma na garantia que acompanha as lâmpadas que fabrica, que o tempo médio de vida é superior a 450 horas. Ultimamente alguns clientes têm-se queixado das referidas lâmpadas. Para testar se os clientes têm razão, recolheu-se uma amostra de algumas lâmpadas, registando-se o tempo de vida (utilizando os chamados testes de vida acelerados, que provocam a falha mais rapidamente). Todos estes exemplos que acabamos de referir, têm algumas características comuns: • Consideram-se duas hipóteses complementares acerca de uma quantidade desconhecida da população. • a informação disponível é dada pela amostra que se recolheu da população em estudo. • pretende-se verificar se uma das hipóteses a que damos mais importância, é sustentada ou rejeitada pela informação recolhida da amostra. No caso 3.2, por exemplo, as hipóteses a testar são de que o lote é aceitável - p≤.08, ou não - p>.08. O que se pretende é verificar que não temos razões para rejeitar a hipótese de que p≤.08. No caso 3.3, temos as hipóteses p≥.5 e p<.5. O que se pretende testar é se há alguma razão para rejeitar p≥.5. Maria Eugénia Graça Martins Análise de Dados 63 3.3 ► Hipótese nula e Hipótese alternativa; erros de tipo 1 e tipo 2; estatística de teste; região de rejeição Num teste estatístico temos duas hipóteses em alternativa, a que chamamos hipótese nula (H0) e hipótese alternativa (H1), sobre um parâmetro desconhecido da população. A hipótese nula é a hipótese que reflecte a situação em que não há mudança, sendo pois uma hipótese conservadora e é aquela em que temos mais confiança (resultado de uma experiência passada). O objectivo de um teste de hipóteses é o de tomar uma decisão, no sentido de verificar se existem razões para rejeitar ou não a hipótese nula. Esta decisão é baseada na informação disponível, obtida a partir de uma amostra, que se recolhe da população. No caso em estudo vamos considerar as hipóteses H0: O estudante consegue distinguir contra(versus) H1: O estudante não Coca da Pepsi consegue distinguir Estas hipóteses podem-se exprimir em termos da probabilidade de o estudante dar uma resposta correcta H0: p= .7 contra H1: p=.5 A amostra recolhida tem dimensão 15 e vamos utilizar como informação relevante, o nº de respostas correctas, nas 15 provas. Seja X a variável aleatória que representa esse número. É esta v.a. que vai permitir tomar uma decisão, recebendo o nome de estatística de teste. Ao tomar uma decisão podemos cometer dois tipos de erros: • Decidir que o estudante não consegue distinguir, quando efectivamente ele consegue, isto é, Rejeitar H0, quando H0 é verdadeiro; • Decidir que o estudante consegue distinguir, quando efectivamente ele não consegue e responde ao acaso, isto é, Não rejeitar H0, quando H1 é verdadeiro . Ao primeiro erro chamamos erro de tipo 1 e ao segundo, erro de tipo 2. Estes erros são contabilizados em termos de probabilidade. Maria Eugénia Graça Martins Análise de Dados 64 O nível de significância do teste representa-se por α e é o valor máximo para a probabilidade de cometer o erro de tipo 1: P(Rejeitar H0 | H0 é verdadeiro) ≤ α A probabilidade de cometer o erro de tipo 2 representa-se por β P(Não rejeitar H0 | H1 é verdadeiro) = β O risco que o estudante corre é α, enquanto que o risco que o professor corre é β. O seguinte quadro reflecte a situação verificada quando se realiza um teste de hipóteses: Na escolha do teste, o nosso objectivo é controlar o erro de tipo 1, ou seja α. No caso do exemplo o nosso critério de decisão baseou-se na seguinte regra de decisão: Rejeitar H0 se X<10 Considerando a regra anterior vimos que α = .2784. Poderíamos considerar o problema de outra forma, isto é, partir de um determinado nível de significância, e determinar os valores de X que levavam à rejeição de H0. Suponhamos que pretendíamos realizar o teste para o nível de significância de 10%. Os valores possíveis para X – v.a. que representa o nº de respostas correctas, são Maria Eugénia Graça Martins Análise de Dados 65 todos os inteiros entre 0 e 15. Destes, pretendemos saber quais os que levam a rejeitar H0, de modo que o que pretendemos é saber qual o valor de c, tal que P(X ≤ c | X ∩ B(15, .7)) ≤ 0.10 Obs: Atendendo às hipóteses consideradas somos levados a rejeitar a hipótese nula quando o nº de respostas correctas do estudante for pequeno (X ≤ c). Consultando uma tabela da Binomial com parâmetros 15 e 0.7, verificamos que P(X ≤ 8) = .1311 P(X ≤ 7) = .0500 Então rejeitamos H0 quando o nº de respostas correctas for ≤ 7. Mas para esta região de rejeição a probabilidade de cometer o erro de tipo 2 é P(X≥ 8 | X ∩ B(15, .5)) = .5, o qual é muito grande! 3.4 ► Testes de hipóteses para a proporção p O exemplo apresentado anteriormente é um caso particular de testes de hipóteses para a proporção p, que vamos formalizar seguidamente. Suponhamos que temos uma população constituída por indivíduos que pertencem a uma de duas categorias, que representamos por A e AC. Representemos por p a proporção (desconhecida) de indivíduos que pertencem à categoria A. Pretendemos fazer inferência sobre o parâmetro p, pelo que se recolhe da população uma amostra de dimensão n. A estatística de teste que vamos utilizar, para tomar uma decisão, é X v.a. que representa o nº de indivíduos da amostra que pertencem à categoria A. Na formalização dos testes representamos por p0 o valor da proporção, que se pretende testar. Os testes que vamos realizar são os seguintes: Maria Eugénia Graça Martins Análise de Dados 66 1. contra H0: p = p0 H1: p > p0 Rejeitamos H0 quando for elevado o nº de indivíduos da amostra pertencentes à categoria A, ou seja quando X≥xα. (Se H1 verdadeiro, ou seja, p > p0, caso em que devemos rejeitar H0, então esperamos encontrar na amostra "muitos" indivíduos pertencentes à categoria A. Entendemos por "muitos", um número de indivíduos à volta de np, que é superior aos que esperaríamos encontrar caso fosse H0 verdadeiro, ou seja np0). A determinação do ponto crítico xα deve fazer-se tendo em atenção o nível de significância α, ou seja, vamos calcular o menor inteiro xα tal que P[ X ≥ xα| X ∩ B(n, p0)] ≤ α isto é, a região de rejeição R é constituída pelos pontos: n R = { x ≥ xα| [ n ∑ ( i )p (1 − p ) i = xα i 0 n− i 0 ]≤ α e [ n ( )p i0 (1 − p 0 )n − i ]>α} i = x α −1 i n ∑ Obs: A hipótese nula pode-se exprimir na forma p≤p0, já que se obtém um teste equivalente. 2. H0: p = p0 contra H1: p < p0 Rejeitamos H0 quando for pequeno o nº de indivíduos da amostra pertencentes à categoria A, ou seja quando X≤x'α. R 0 x'α n A determinação do ponto crítico x'α deve fazer-se tendo em atenção o nível de significância α, ou seja, vamos calcular o maior inteiro x'α tal que Maria Eugénia Graça Martins Análise de Dados 67 P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α isto é, a região de rejeição R é constituída pelos pontos: x' α n R = { x ≤ x'α| [ ∑ ( )p i0 (1 − p 0 )n − i ]≤ α e [ i=0 i x' α +1 n ∑ ( i )p i =0 i 0 (1 − p 0 )n −i ]>α} Obs: A hipótese nula pode-se exprimir na forma p≥p0, já que se obtém um teste equivalente. 3. H0: p = p0 contra H1: p ≠ p0 Rejeitamos H0 quando for pequeno ou elevado o nº de indivíduos da amostra pertencentes à categoria A, ou seja quando X≤x'α ou X≥xα. R 0 R x'α xα n A determinação dos pontos críticos x'α e xα deve fazer-se tendo em atenção o nível de significância α. Além disso vamos considerar o chamado teste equilibrado, isto é, atribuir a cada uma das partes da região de rejeição, uma probabilidade igual a metade do nível de significância: P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α/2 e P[ X ≥ xα| X ∩ B(n, p0)] ≤ α/2 isto é, a região de rejeição R é constituída pelos pontos: x' α n n n n− i i R = { x ≤ x'α ou x ≥ xα | [ ∑ ( )p i0 (1 − p 0 )n − i ]≤ α/2 e [ ∑ ( )p0 (1 − p0 ) ]≤α/2} i i i = xα i=0 Dos três tipos de testes considerados anteriormente, os dois primeiros dizem-se unilaterais, enquanto que o último se chama bilateral. EXEMPLO 3.5 Uma fábrica produz determinado tipo de peças, e sabe-se que a percentagem de defeituosas é de 20%. O director da linha de montagem procedeu a algumas alterações no equipamento, Maria Eugénia Graça Martins Análise de Dados 68 com o objectivo de melhorar a produção, diminuindo nomeadamente a percentagem de peças defeituosas. Tendo-se recolhido uma amostra de 20 peças, verificou-se que 2 eram defeituosas. Será que há evidência de mudança na percentagem de peças defeituosas? Resolução: H0: p≥ .20 contra H1:p < .20 Pretende-se determinar o valor de x'α tal que P[ X ≤ x'α| X ∩ B(20, .20)] ≤ α Consultando uma tabela da Binomial, verificamos que P(X≤ 0) = .0115 P(X≤ 1) = .0692 P(X≤ 2) = .2061 donde concluímos que: Se α= 5% R={0} Se α= 10% R={0,1} Decisão: Para os níveis usuais de significância, não se deve rejeitar H0, isto é não há evidência de ter havido alteração (para melhor) no processo de fabrico. 3.4.1 ► Determinação dos pontos críticos x'α e xα para grandes amostras A determinação dos pontos críticos x'α e xα dos testes anteriores, pode fazer-se consultando as tabelas com a distribuição Binomial. Pode no entanto acontecer que o valor de n seja demasiado grande, e já não conste nessas tabelas. Então faz-se uma aproximação à Normal, como se descreve a seguir. Tendo em consideração o teorema do limite central, sabe-se que a distribuição Binomial pode ser aproximada pela distribuição Normal, isto é, se X ∩ B(n,p), então P(X ≤ x)≈ Φ( x − np ) np(1 − p) Considera-se a estatística de teste Z= Maria Eugénia Graça Martins X − np0 np0 (1 − p0 ) Análise de Dados 69 cuja distribuição pode ser aproximada por uma Normal(0,1) e a determinação dos pontos críticos, para os três tipos de testes considerados anteriormente, faz-se da seguinte forma: 1. P[ X ≥ xα| X ∩ B(n, p0)] ≤ α sendo xα o menor inteiro tal que xα ≥ 1+np0+z1-α np 0 (1− p 0 ) 2. P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α x'α ≤ np0+zα np 0 (1− p 0 ) sendo x'α o maior inteiro tal que ou x'α ≤ np0 - z1-α np 0 (1− p 0 ) 3. P[ X ≤ x'α| X ∩ B(n, p0)] ≤ α/2 e P[ X ≥ xα| X ∩ B(n, p0)] ≤ α/2 x'α ≤ np0 - z1-α/2 np 0 (1− p 0 ) e xα ≥ 1 + np0 + z1-α/2 np 0 (1− p 0 ) (x'α maior inteiro e xα menor inteiro satisfazendo respectivamente cada uma das desigualdades anteriores). Observação – Uma alternativa, equivalente, à estatística de teste X, com distribuição aproximadamente Normal(np0, np 0 (1− p 0 ) ), sob H0, é a estatística distribuição aproximadamente N(p0, p 0 (1− p 0 ) n ) X p= , n com ). 3.4.2 ► P-value (valor-p) Ao realizar um teste de hipóteses, podemos à partida não ter especificado um nível de significância. Então, um processo alternativo para a realização dos testes anteriores é, face ao valor observado x0 da estatística de teste X, calcular a seguinte probabilidade: Caso 1 : P = P[X ≥ x0 |X ∩ B(n, p0)] Caso 2 : P = P[X ≤ x0 |X ∩ B(n, p0)] Caso 3 : P = 2 min {P[X≥ x0 |X ∩ B(n, p0)],P[X ≤ x0 |X ∩ B(n, p0)]} Esta probabilidade P é o menor valor para o nível de significância que levaria à rejeição da hipótese nula, para a amostra recolhida. A P chamamos P-value. Assim, para Maria Eugénia Graça Martins Análise de Dados 70 tomarmos uma decisão, calcula-se o P-value e para um dado nível de significância α, rejeita-se a hipótese nula se P≤α A metodologia seguida neste caso é diferente da seguida anteriormente, em que para tomarmos uma decisão era necessário especificar à partida o nível de significância com que pretendíamos realizar o teste, de forma a calcular a região de rejeição. Se o valor observado da estatística de teste pertencesse a essa região então rejeitaríamos a hipótese nula. Agora calculamos o P-value e não é necessário calcular explicitamente a região de rejeição, pois se para um determinado nível de significância se verifica que P≤α, isto significa necessariamente que o valor observado da estatística de teste pertence à região de rejeição. 3.5 ► Vamos conversar acerca de testes Ao longo deste texto já temos referido várias vezes que é objectivo da Estatística arranjar modelos probabilísticos que sirvam para modelar situações do mundo real. Ao formular uma hipótese (hipótese nula), como as que formulámos anteriormente, não estamos mais que a propor um modelo para uma situação real. Uma vez o modelo proposto, vamos recolher informação - os dados, para averiguar da consistência do modelo. Então, defrontamo-nos com duas situações: ¾ ou os dados são consistentes com o modelo, e nesse caso não vemos razão para o rejeitar, ¾ ou os dados contradizem fortemente o modelo, e neste caso pensamos que há evidência para o rejeitar. Repare-se que na primeira situação, não dissemos que os dados mostravam que a hipótese é verdadeira! Só dissémos que não víamos razão para a rejeitar. Esta situação é análoga à que se passa nos tribunais – tem que se começar por admitir a presunção de inocência e cabe ao juiz, mostrar que os factos contradizem esta presunção, para admitir a culpabilidade. Na segunda situação, dissémos que pensamos que há evidência para rejeitar o modelo. Mas fica-nos sempre a dúvida se deveremos tomar Maria Eugénia Graça Martins Análise de Dados 71 essa opção, já que rejeitar o modelo proposto, se ele fosse efectivamente verdadeiro, pode acarretar grandes prejuízos. Então precisamos de quantificar essa decisão e essa quantificação é feita probabilisticamente. Assim, calculamos a probabilidade de obter dados como os recolhidos, baseando-nos em que o modelo é verdadeiro. Se esta probabilidade for muito pequena, pensamos que não foi só o acaso, isto é a aleatoriedade presente na recolha da informação, que nos levou a obter aqueles dados, mas naturalmente é o próprio modelo que não é o correcto, pois “essa probabilidade é demasiado pequena, para ser verdade”, e rejeitamos esse modelo. Esta tal probabilidade – p-value, dá-nos uma medida do erro que cometemos ao rejeitar o modelo proposto, e quanto menor for, maior será a evidência contra o modelo. Assim, quando não rejeitamos a hipótese nula, ficamos sempre na dúvida, sobre se terá sido o teste que não teve capacidade para a rejeitar, mesmo sendo ela falsa. Justificase, assim, que se procure calcular a probabilidade de se rejeitar a hipótese nula, quando ela é falsa, isto é, P(RejeitarH0׀H1verdadeira). A esta probabilidade chama-se potência do teste. Repare-se que para um determinado valor do parâmetro especificado na hipótese alternativa: Potência do teste = 1 – P(erro de tipo 2) Então, de um modo geral, podemos dizer que pretendemos um teste com nível de significância pequeno e potência grande. Para visualizar melhor a relação entre estes conceitos, vamos colocar-nos na situação de estarmos a realizar o seguinte teste: H0: p=p0 contra H1: p>p0 Rejeitamos H0 para valores grandes de X ou de forma equivalente, para valores ) X ) ) ) x grandes de p = , nomeadamente para valores de p ≥ p α , onde p α = α , utilizando n n notação já introduzida anteriormente. Se n for grande, a distribuição da estatística de teste é aproximada pela Normal, pelo que temos: Maria Eugénia Graça Martins Análise de Dados 72 Na figura anterior apresentamos a distribuição da estatística de teste, para o caso de H0 ser verdadeira (Normal superior) e para um valor específico do parâmetro (p’), no caso ) de ser H1 verdadeira (Normal inferior). A região de rejeição é dada pelo intervalo [ p α , 1]. Algumas conclusões são evidentes da figura anterior: ) ¾ Quanto mais p α estiver para a direita, isto é, menor for o nível de significância do teste, ou a probabilidade de cometer o erro de tipo 1, maior será a probabilidade de cometer o erro de tipo 2. Assim, não é possível minimizar os dois erros ao mesmo tempo, a não ser aumentando a dimensão da amostra. Efectivamente, se se aumentar a dimensão da amostra recolhida, as normais ficam mais “magras”, já que a variância diminui; ¾ Quanto menor for o erro de tipo 2, maior será a potência do teste; ¾ No caso de H0 ser falsa, a potência do teste será tanto maior, quanto mais afastado de p0, estiver o verdadeiro valor da proporção p (a Normal de baixo afasta-se para a direita). Maria Eugénia Graça Martins Análise de Dados 73 Formalizando um pouco o que dissémos anteriormente, para realizar um teste de hipóteses, em que as hipótese são quase sempre sobre parâmetros de modelos, é necessário: ¾ Formular uma hipótese nula H0, que é aquela que reflecte a situação em que não há mudança e em que assumimos um valor para o parâmetro no modelo proposto, e uma hipótese alternativa H1, que reflecte a situação que pensamos ser verdadeira, no caso de não o ser a hipótese nula; ¾ Arranjar uma estatística de teste, que sirva para medir a discrepância entre o que se observa nos dados e o que se espera quando se considera a hipótese nula (isto é, uma estatística cuja distribuição de amostragem seja conhecida no caso da hipótese nula ser verdadeira, pois a discrepância é medida em termos de probabilidade); ¾ Face à amostra que entretanto se recolheu, calcular o p-value; ¾ Tomar uma decisão, que se exprimirá na seguinte forma: Rejeitar H0, para o nível de significância α ou Não rejeitar H0 para o nível de significância α. ¾ Se tivermos possibilidade de escolher entre vários testes, então para o mesmo nível de significância, deve-se escolher o de potência máxima; ¾ Se tivermos possibilidade de recolher amostras de dimensão maior, melhor será, pois reduzimos as probabilidades de cometer erros, ao tomar uma decisão, aumentando também a potência do teste. Maria Eugénia Graça Martins Análise de Dados 74 3.6 ► Testes de hipóteses sobre o valor médio Da mesma forma que realizámos testes de hipóteses sobre o parâmetro p, também se podem realizar sobre o valor médio μ, desconhecido, de uma população. A metodologia a seguir é a mesma, mas agora temos de considerar outra estatística de teste, sendo natural considerar a média ou uma função da média para fazer inferência estatística sobre o valor médio. Consideremos, por exemplo, um industrial de componentes electrónicas, que afirma que o tempo médio de vida das componentes que fabrica é de 560 horas. Um cliente acha este tempo exagerado, pois tem tido mau resultado com este tipo de material. Então o industrial está interessado em testar que o valor médio da distribuição do tempo de vida das componentes é igual a 560 horas, ou seja de que tem razão. Temos assim uma conjectura ou hipótese sobre a população e que em testes de hipóteses se refere como Hipótese nula e se representa por H0. No entanto a hipótese anterior vai ser testada contra uma Hipótese alternativa que se representa por H1, que reflicta a situação que será verdadeira, no caso de não o ser a hipótese nula. Concretamente, no exemplo anteriormente considerado temos as seguintes hipóteses a serem testadas (representando por µ o valor médio da população): H0 : µ=560 horas contra H1: µ<560 horas Escolhemos a hipótese alternativa anterior, pois ela reflecte a situação real, no caso de não se provar que H0 é verdadeira (estamos a pensar nas queixas dos clientes). Vamos exemplificar a realização de um teste de hipóteses sobre o valor médio através do exemplo dos pesos, referido quando abordámos o problema da estimação. Suponhamos que estamos interessados em realizar um teste sobre o peso médio da população, constituída pelos indivíduos de 1.65 m de altura, tendo sido levantadas algumas dúvidas sobre se o peso seria de 60 kg. Então H0: µ = 60 kg contra Maria Eugénia Graça Martins H1: µ ≠ 60 kg Análise de Dados 75 Formulamos a hipótese alternativa deste modo já que à partida não tínhamos qualquer informação que nos levasse a considerar quer um valor médio superior, quer um valor médio inferior a 60 kg. Pensemos na seguinte estatística de teste T= X−μ σ/ n cuja distribuição é conhecida se H0 verdadeira. É fundamental conhecer a distribuição de T, no caso de H0 ser verdadeira, pois esse facto vai-nos permitir determinar a região de rejeição R a partir do nível de significância α, definido à priori, P[Tε R | H0 verdadeira]= α ou seja P[|T0|> z1-α/2] = α onde T0 se obtém de T substituindo µ por µ0, sendo µ0 o valor de µ considerado na hipótese nula (no caso do exemplo µ0=60). Então a zona de rejeição é dada pelo seguinte intervalo R = ]-∞ , -z1-α/2[ ∪ ] z1-α/2 , +∞[ pelo que se rejeita a hipótese H0, sempre que t0 ε R, sendo t0 o valor observado da estatística de teste. Considerando, no exemplo, a amostra correspondente à cidade de Lisboa, temos: t0= 10 (60.82 − 60) /4=.65 pelo que trabalhando com um nível de significância de 5%, se tem a seguinte região de rejeição: R = ]-∞ , -1.96[ ∪ ] 1.96 , +∞[ Como 0.65 não pertence à região de rejeição, não vemos razão para rejeitar a hipótese nula. Ainda no exemplo que temos vindo a considerar, suponhamos que tínhamos começado por recolher a amostra referente à cidade de Évora. Mediante o resultado obtido, uma Maria Eugénia Graça Martins Análise de Dados 76 pessoa mais céptica teria razões para suspeitar que o peso médio seria inferior a 60 kg. Nestas circunstâncias deveríamos proceder ao seguinte teste: H0: µ =60 contra H1: µ < 60 Agora a hipótese alternativa especifica que o valor médio é inferior a 60 e se a hipótese H1 fosse verdadeira esperaríamos obter amostras que levassem a um valor negativo para t0 (porquê?). Quer dizer que vamos rejeitar a hipótese nula se t0 < zα , pois P [ T < zα | H0 verdadeira] = α Para o nível de significância de 5% o quantil z.05 = -1.6449, pelo que a região de rejeição é R = ]-∞ , -1.6449[ Considerando então a amostra observada em Évora, obtemos t0= 10(57.04 − 60) /4 = -2.34 valor que pertence à região de rejeição, donde concluímos que devemos rejeitar a hipótese nula. Pensemos agora na cidade de Braga, em que temos razões para suspeitar que os pesos são mais altos (come-se muito bem no Norte..., o que não quer dizer que se coma mal em Évora...), pelo que consideramos o seguinte teste: H0 : µ=60 contra H1 : µ>60 Neste momento a hipótese alternativa indica-nos que a zona de rejeição corresponderá a valores de t0 demasiado grandes, ou seja t0>z1-α. Como t0= 10(61.22 − 60) /4=.96 e z.95=1.6449 não vemos razão para rejeitar a hipótese nula. Repare-se que dos 3 testes considerados anteriormente, o 1º é de índole diferente dos outros dois, no que diz respeito à hipótese alternativa - no 1º caso estamos perante um teste bilateral enquanto que os outros 2 se referem a testes unilaterais. O exemplo anterior pode-se inserir num processo mais geral de testar hipóteses sobre o valor médio, que podemos resumir do modo seguinte: Maria Eugénia Graça Martins Análise de Dados 77 1º caso Dados: É dada uma amostra (x1,x2…,xn), valor observado da amostra aleatória (X1,X2,…,Xn) em que n≥30. Se a população tem distribuição aproximadamente normal e variância conhecida, então a dimensão da amostra pode ser inferior a 30. Hipótese nula: H0: µ = µ0 (Esta hipótese nula é equivalente a µ≤µ0 ou µ≥µ0 conforme se utilizem as hipóteses alternativas b) e c) especificadas a seguir) n(X −μ0 ) /σ Estatística de teste: T0= Obs. Para n≥30, quando σ é desconhecido, pode ser estimado por s. Hipótese alternativa Decisão a tomar para um nível de significância α a) H1: µ ≠ µ0 Rejeita-se H0 se |t0| > z1-α/2 b) H1: µ > µ0 Rejeita-se H0 se t0 > z1-α c) H1: µ < µ0 Rejeita-se H0 se t0 < zα 2º caso Dados: É dada uma amostra (x1,x2…,xn), valor observado da amostra aleatória (X1,X2,…,Xn) de uma população com distribuição Normal e parâmetro σ desconhecido. Hipótese nula - H0: µ = µ0 (Esta hipótese nula é equivalente a µ≤µ0 ou µ≥µ0 conforme se utilizem as hipóteses alternativas b) e c) especificadas a seguir) Estatística de teste : T1 = n(X −μ0 ) /S Hipótese alternativa Decisão a tomar para um nível de significância α a) H1: µ ≠ µ0 Rejeita-se H0 se |t1| > t1-α/2(n-1) b) H1: µ > µ0 Rejeita-se H0 se t1 > t1-α(n-1) c) H1: µ < µ0 Rejeita-se H0 se t1 < tα(n-1) onde representamos por tα(n-1) o quantil de probabilidade α da distribuição t de Student com (n-1) graus de liberdade. Maria Eugénia Graça Martins Análise de Dados 78 Obs. Quando a dimensão da amostra for suficientemente grande, a distribuição da estatística T1 é aproximadamente normal, pelo que podemos tratar o segundo caso de modo análogo ao 1º caso. Na realidade, à medida que a dimensão da amostra aumenta e consequentemente o número de graus de liberdade, a distribuição t de Student aproxima-se da distribuição Normal. 3.6.1 ► P-value Um processo alternativo de realizar os testes de hipóteses anteriores é calcular o Pvalue. Mais concretamente, para cada uma das situações consideradas anteriormente, face ao valor observado t0 ou t1 das estatísticas de teste T0 ou T1, calcula-se: 1º caso: a) P = 2 min {P[T0≤t0], P[T0≥t0]} b) P = P[T0≥t0] c) P = P[T0≤t0] 2º caso: a) P = 2 min {P[T1≤t1], P[T1≥t1]} b) P = P[T1≥t1] c) P = P[T1≤t1] Decisão: Para um determinado nível de significância α, rejeita-se a hipótese nula quando P≤α. Exercícios 1. Admita que a mediana da nota da PE, dos alunos que entraram no ano lectivo 91/92 foi de 35. Com base na amostra anterior, verifique se existem razões para suspeitar de que os alunos que entraram no ano lectivo de 92/93, têm tendência para terem notas mais fracas. Obs. Considere que a população a estudar está dividida em duas categorias: a dos alunos com nota superior a 35 e dos alunos com nota inferior ou igual a 35. 2. Supõe-se que numa população existem três vezes mais indivíduos não fumadores do que fumadores. a) Tendo-se recolhido uma amostra de 20 indivíduos, verificou-se que 7 eram fumadores. Teste, ao nível de significância de 5% se a suposição tem razão de ser. Maria Eugénia Graça Martins Análise de Dados b) Na 79 população anterior pretende-se estudar a incidência de doença pulmonar. Sabe-se que a percentagem de doentes entre os fumadores e não fumadores é respectivamente de 60% e 20%. (i) Determine a probabilidade de um indivíduo ter doença pulmonar. (ii) Determine a probabilidade de um doente pulmonar ser fumador. (iii) Qual a probabilidade de numa amostra de 10 doentes, pelo menos três serem fumadores? (iv) Qual a probabilidade de numa amostra de 225 doentes, mais de metade serem fumadores? 3. O sr. X não consegue chegar a horas ao emprego. Todos os dias marca o ponto depois da hora estipulada para a sua entrada. No final do mês, juntamente com uma repreensão escrita, recebeu uma folha com um registo dos seus atrasos (em minutos): 0.01 2.66 3.30 3.77 4.47 5.13 7.56 8.79 10.26 14.36 15.29 19.64 21.45 28.41 a) Investigue a existência de possíveis outliers na amostra. b) O sr. X acha injusta a repreensão, já que segundo diz, desde que trabalha naquela empresa, mais de 50% das vezes o atraso é inferior a 5 minutos. Com base nos dados anteriores verifique se existe evidência suficiente para dar razão ao sr. X. 4. Suponha que uma amostra recolhida de rendimentos de famílias de determinada cidade revelou que 55% dos rendimentos da população se situam entre os 60 e os 120 contos. O presidente da câmara considera-a "ideal" ! Desconfia-se que o bairro X não segue a distribuição "ideal" da cidade. Recolheu-se uma amostra de valores de rendimentos familiares nesse bairro, tendo-se obtido os seguintes resultados: 15 24 36 55 58 62 65 67 70 71 73 76 89 90 92 97 105 112 118 160 Verifique se esta suspeita tem razão de ser. 5. Um grupo de 20 indivíduos hipertensos, foi submetido durante 30 dias a um regime de dieta sem sal. Apresentam-se a seguir os valores da pressão sistólica para esses indivíduos: sexo M M M F F M F M M F F F M M F M Maria Eugénia Graça Martins Antes da dieta 17.0 17.7 17.9 18.1 18.1 18.2 18.3 18.4 18.4 18.5 18.5 18.6 18.7 18.8 18.9 19.2 Depois da dieta 15.6 16.6 16.9 15.6 16.0 15.5 16.5 17.2 15.0 17.5 15.9 16.2 17.5 15.8 17.2 17.3 Análise de Dados M F F F 80 19.3 19.5 19.8 20.1 17.8 16.0 16.9 17.5 a) Um especialista afirma que após um mês em regime de dieta sem sal, pelo menos 80% dos indivíduos apresenta uma diminuição da pressão sistólica superior a 10%. Averigúe se existem razões para duvidar da afirmação do especialista. 6. Recolheu-se a opinião de 20 executivos acerca de máquinas fotocopiadoras, verificando-se que 15 preferiam a marca Kodac relativamente à marca Xerox. Pensa-se, no entanto, que na realidade não existem diferenças significativas entre as máquinas, pelo que a probabilidade de cada uma ser escolhida é de 50%. Poderíamos assim considerar as seguintes hipóteses a testar: H0: p=.5 contra H1: p≠.5 em que representamos por p a probabilidade de ser escolhida a máquina Kodac. Se para 20 executivos consultados, representar por X o número dos que preferem Kodac, considere a seguinte regra de decisão: rejeito H0 se X<6 ou se X>14 a) Qual o nível de significância associado ao teste anterior? b) Qual a decisão a tomar relativamente á amostra considerada? c) Para as hipóteses H0 e H1 especificadas, qual a regra de teste se efectivamente o número de executivos que constituem a amostra fosse de 50, considerando o nível de significância de 5%? 7. Admite-se que a quantidade de nicotina (medida em mg.) existente numa dada marca de cigarros, tem distribuição normal. Observaram-se 5 cigarros da referida marca tendo-se obtido: 16 16.5 19 15.4 15.6 O fabricante afirma que a quantidade média de nicotina , por cigarro, é de 13.5 mg. a) Teste, ao nível de significância α= 0.10 a hipótese: H0 : µ = 13.5 contra H1 : µ > 13.5 b) Determine um intervalo de 95% de confiança para a quantidade média de nicotina existente em cada cigarro. 8. O departamento de controlo de qualidade de uma fábrica de conservas, está na disposição de mandar reajustar todo o equipamento, caso se verifique que o peso médio de cada lata é inferior ao especificado na embalagem. Nomeadamente no caso das latas de sardinha, especifica-se que este peso seja de 150 gramas. Com o objectivo de tomar uma decisão, procedeu-se à recolha de algumas latas de sardinha, que se pesaram, usando-se a média X, como estatística de teste. a) Formule as hipóteses nula e alternativa, em termos do valor especificado para o peso médio. Maria Eugénia Graça Martins Análise de Dados 81 b) Tendo em consideração as consequências que advêm de cometer um erro de tipo I, deverá escolher um nível de significância grande ou pequeno? Justifique convenientemente a sua resposta. Qual ou quais os valores que escolheria? c) Admitindo que o peso das latas de sardinha se distribui de acordo com uma Normal e que os valores observados para os pesos de uma amostra de 10 latas foram ( em gramas): 147 152 145 130 155 148 150 149 146 149 qual a decisão que o gerente da fábrica deve tomar, no que diz respeito ao reajustamento do equipamento? 9. Um médico receita aos seus doentes um medicamento para diminuir o número de pulsações por minuto. Recolheu o nº de pulsações a doentes medicados, que já tomam o medicamento há um mês, tendo obtido o seguinte output, obtido através de um software de Estatística, em que seleccionou como opção, utilizar a distribuição t-Student: Com 95% de confiança: 70.887604 < μ <74.497011 a) Quais as hipóteses que o investigador teve de admitir para tomar a opção de seleccionar a distribuição t-Student? b) Explique o que significa o output anterior. c) Qual a margem de erro do intervalo? d) Se o intervalo fosse calculado com uma confiança de 99%, a margem de erro aumentaria ou diminuiria? 10. Durante um cateterismo para detectar a a extenção da doença cardíaca, verificando o estado das artérias, é introduzido um pequeno tubo, o catéter, através de uma artéria da perna. É importante que catéter tenha um diâmetro de 2.00mm, em média, com um desvio padrão muito pequeno. O processo de fabrico dos cateteres é submetido a um rigoroso controlo de qualidade, de modo que todos os dias são recolhidas algumas medidas, para testar a hipótese nula H0: m = 2.00mm, contra a hipótese alternativa m≠2.00mm, com um nível de significância de 5%, para parar o processo de fabrico, no caso de haver alterações. a) Estamos perante um teste unilateral ou bilateral? Porque é que isto é importante, no contexto do problema? b) Explicar o que é que acontece se o departamento de controlo de qualidade cometer um erro de tipo 1? c) E se cometer um erro de tipo 2? 11. Uma fábrica de bolachas com pedacinhos de chocolate, ao anunciar as suas bolachas diz que cada pacote de meio quilo contém, pelo menos, 1000 pedacinhos de chocolate. Os estudantes do Departamento de Estatística de determinada Universidade, decidiram comprar alguns destes pacotes e contar o número de pedacinhos de chocolate, tendo obtido os seguintes resultados: 1219 1214 1087 Maria Eugénia Graça Martins 1200 1419 1121 1325 1345 1244 1258 1356 1132 Análise de Dados 1191 1270 82 1295 1135 a) Verifique se estão cumpridas as condições para poder fazer infereência. b) Obtenha um intervalo de 95% de confiança para o número médio de pedacinhos de chocolate, em cada pacote. c) O que é que pode concluir sobre o que diz a empresa que vende as bolachas? Utilize o intervalo anterior para testar uma hipótese apropriada para tirar conclusões. Sugestão: Verifique que o intervalo de confiança é (1187.9, 1288.4) e de seguida calcule P(X<1000) tendo em consideração que a v.a.X, que representa o nº de pedacinhos de chocolate em cada pacote, tem distribuição Normal N(1188, 94) ou N(1288, 94). Maria Eugénia Graça Martins Análise de Dados 83 Testes à igualdade de duas populações 4 Teste sobre a diferença de proporções de duas populações independentes. Testes de hipóteses sobre a diferença de valores médios de duas populações independentes Normais – variâncias conhecidas, variâncias desconhecidas e iguais ou variâncias desconhecidas e diferentes. Caso de populações não Normais, mas grandes amostras. Caso de amostras emparelhadas. 4.1 ► Inferência sobre a diferença entre as proporções de duas populações Uma situação que por vezes tem interesse estudar, é a diferença entre proporções correspondentes a duas populações. Suponhamos, por exemplo, a situação de um candidato a Presidente da República, que está interessado em saber se a percentegem de potenciais eleitores que votarão nele é igual para Lisboa e Porto. Outro exemplo é o de duas máquinas que produzem o mesmo tipo de artigo e estamos interessados em estudar se a percentagem de defeituosos é igual, para as duas máquinas. Temos ainda o caso em que se pretende conhecer se o sucesso no exame nacional de Matemática, é o mesmo para os alunos de duas escolas distintas. Sejam então duas populações W1 e W2 e p1 e p2 as percentagens ou proporções que se pretendem comparar: p1 → percentagem de elementos da população W1 pertencentes a determinada categoria; p2 → percentagem de elementos da população W2 pertencentes a determinada categoria Maria Eugénia Graça Martins Análise de Dados 84 Sejam n1 e n2 as dimensões de 2 amostras recolhidas respectivamente das populações ) ) ) R W1 e W2. Então uma estimativa pontual de p1 – p2 será dada por p1 − p 2 , onde p1 = 1 n1 ) R e p 2 = 2 , sendo R1 e R2, respectivamente o número de elementos das amostras que n2 pertencem à categoria em estudo. Admitindo que temos populações infinitas ou que a amostragem se faz com reposição, já vimos no Capítulo 1 que as variáveis aleatórias R1 e R2 têm, respectivamente, distribuição Binomial de parâmetros (n1, p1) e (n2, p2). ) ) Não é conhecida a distribuição de amostragem exacta de p1 − p 2 , mas admitindo que as dimensões das amostras são suficientemente grandes, a distribuição de ) ) p1 − p 2 − (p1 − p 2 ) pode ser aproximada pela N(0,1) p1 (1 − p1 ) p 2 (1 − p 2 ) + n1 n2 Este resultado vai-nos servir para construir os testes de hipóteses sobre a diferença de proporções p1-p2. 4.1.1. ► Testes de hipóteses sobre a diferença de proporções Consideremos os seguintes testes, realizados para o nível de significância α: a) H0: p1-p2 ≤ p0 contra H1: p1-p2 > p0 Se H0 verdadeiro, podemos considerar para estatística de teste Z= ) ) p1 − p 2 − p 0 ~ N(0,1) ) ) ) ) p1 (1 − p1 ) p 2 (1 − p 2 ) + n1 n2 Região de rejeição: Valores grandes da estatística de teste ou ) ) Z ≥ z1-α ou p1 − p 2 ≥ p0 + z1-α b) H0: p1-p2 ≥ p0 contra ) ) ) ) p1 (1 − p1 ) p 2 (1 − p 2 ) + n1 n2 p1-p2 < p0 Região de rejeição: Valores pequenos da estatística de teste ou Maria Eugénia Graça Martins Análise de Dados 85 ) ) ) ) ) ) p1 (1 − p1 ) p 2 (1 − p 2 ) Z ≤ zα ou p1 − p 2 ≤ p0 + zα + n1 n2 c) H0: p1-p2 = p0 contra p1-p2 ≠ p0 Região de rejeição: Valores pequenos ou grandes da estatística de teste ou ) ) ) ) ) ) p1 (1 − p1 ) p 2 (1 − p 2 ) |Z| ≥ z1-α/2 ou | p1 − p 2 |≥ p0 + z1-α/2 + n1 n2 Podemos em alternativa calcular o P-value (valor-p), que se obtém, calculando para o valor observado da estatística de teste, zobs, as seguintes probabilidades: a) P(Z≥ zobs | H0) b) P(Z≤ zobs | H0) c) 2P(Z≥ |zobs|| H0) 4.1.2. ► Intervalo de confiança para a diferença de proporções Um intervalo de confiança, com uma confiança de 100(1-α)% vem imediatamente a partir da distribuição de amostragem para a diferença de proporções amostrais: ) ) ) ) ) ) p1 (1 − p1 ) p 2 (1 − p 2 ) p1 − p 2 ± p0 + z1-α/2 + n1 n2 4.2 ► Inferência sobre a diferença entre os valores médios de duas populações De um modo geral, quando se está a fazer um estudo comparativo, utiliza-se o termo estatístico tratamento para referir as características que estão a ser comparadas. Por exemplo, num estudo para investigar se um novo tipo de semente de trigo produz maior quantidade de cereal, semearam-se várias porções de terreno, umas com a semente normal e as outras com a nova semente. As porções de terreno semeadas com cada tipo de semente foram escolhidas aleatoriamente. Quando o trigo amadureceu, pesaram-se as quantidades produzidas por cada porção de terreno. Nesta Maria Eugénia Graça Martins Análise de Dados 86 experiência os dois tipos de semente representam os dois tratamentos. A atribuição de cada tipo de semente a cada porção de terreno, constitui o que se chama o planeamento da experiência. Esta fase é crucial para o tratamento futuro dos dados, já que este planeamento pode, de uma maneira geral, produzir: • Amostras independentes ou • Amostras emparelhadas (pares de dados) O primeiro caso, das amostras independentes, verifica-se quando os indivíduos ou unidades que vão ser expostas a cada tratamento, são escolhidas aleatoriamente em dois grupos, atribuindo-se a um dos grupos o tratamento 1 e ao outro grupo o tratamento 2. Os resultados que se obtêm de cada tratamento constituem uma amostra de uma dada população, pelo que podemos falar em comparação de populações. Num planeamento de experiências por pares, os indivíduos ou unidades que vão ser expostas ao tratamento são escolhidas aos pares, de modo que os membros de cada par são semelhantes, e um elememto de cada par recebe o tratamento 1, enquanto que o outro recebe o tratamento 2. assim, ao contrário do que se passa no caso anterior, esperamos que os resultados de cada par sejam dependentes, já que houve, à partida, condições marcantes para que isso acontecesse, na escolha de elementos semelhantes. Vamos começar por abordar o primeiro caso de amostras independentes de duas populações. 4.2.1. ► Inferência sobre a diferença entre valores médios de populações independentes Consideremos duas populações X1 e X2, independentes, de valores médios e desvios padrões, respectivamente, μ1 e μ2 e σ1 e σ2. Sejam X11, X12, ..., X1n1 e X21, X22, ..., X2n2, duas amostras aleatórias de X1 e X2, respectivamente. O nosso objectivo, ao pretender comparar os dois tratamentos ou populações, vai ser o de comparar os seus valores médios. Assim, pretende-se fazer inferência sobre μ1-μ2. Maria Eugénia Graça Martins Análise de Dados 87 O estimador pontual para a diferença entre os valores médios é, obviamente, X1 − X 2 . No que diz respeito à distribuição de amostragem deste estimador, tem-se E( X1 − X 2 ) = μ1-μ2 σ12 σ 22 Var( X1 − X 2 ) = + n1 n 2 e no que diz respeito à forma da distribuição, podemos considerar os seguintes casos: 4.2.1.1 ► As populações são Normais e as variâncias são conhecidas Neste caso, tendo em consideração que a combinação linear de variáveis aleatórias, independentes, com distribuição Normal, ainda tem distribuição Normal, vem imediatamente X 1 − X 2 − (μ 1 − μ 2 ) σ12 σ 22 + n1 n 2 I N(0,1) Testes de hipóteses sobre μ1-μ2 H0: μ1-μ2 = δ0 Estatística de teste sob H0: Z = Hipótese alternativa H1 X1 − X 2 − δ 0 σ12 σ 22 + n1 n 2 Região de Rejeição P-value μ1-μ2 > δ0 z ≥ z1-α P(Z≥Zobs|H0) μ1-μ2 < δ0 z ≤ zα P(Z≤Zobs|H0) μ1-μ2 ≠ δ0 |z| ≥ z1-α/2 2P(Z≥|Zobs||H0) Intervalo de confiança, com uma confiança de 100(1-α)%, para μ1-μ2 X1 − X 2 ± z1-α/2 Maria Eugénia Graça Martins σ12 σ 22 + n1 n2 Análise de Dados 88 4.2.1.2 ► As populações são Normais e as variâncias são iguais e desconhecidas – teste t, para amostras independentes Se a variância comum σ2 fosse conhecida, então estaríamos no caso anterior. No entanto, de um modo geral a variância é desconhecida e será estimada a partir das duas amostras. O estimador utilizado é o chamado pooled variance, que se obtém da seguinte forma: S2 = (n1 − 1) S12 + (n 2 − 1) S 22 n1 + n 2 − 2 X1 − X 2 − (μ 1 − μ 2 ) e com este estimador 1 1 S + n1 n 2 I t(n1+n2-2) tem como distribuição (exacta) uma t-Student com (n1+n2-2) graus de liberdade. Testes de hipóteses sobre μ1-μ2, para um nível de significância α H0: μ1-μ2 = δ0 Estatística de teste sob H0: T = X1 − X 2 − δ 0 S Hipótese alternativa H1 1 1 + n1 n 2 Região de Rejeição P-value μ1-μ2 > δ0 t ≥ t1-α(1) P(T≥Tobs|H0) μ1-μ2 < δ0 t ≤ tα P(T≤Tobs|H0) μ1-μ2 ≠ δ0 |t| ≥ t1-α/2 2P(T≥|Tobs||H0) (1) Quantil de probabilidade (1-α) da t-Student com (n1+n2-2) graus de liberdade. Intervalo de confiança, com uma confiança de 100(1-α)%, para μ1-μ2 X1 − X 2 ± t1-α/2 S Maria Eugénia Graça Martins 1 1 + n1 n 2 Análise de Dados 89 4.2.1.3 ► As populações são Normais e as variâncias são diferentes e desconhecidas No caso anterior exigimos que as variâncias fossem iguais, para termos uma distribuição exacta e posteriormente podermos utilizar o teste t. Em termos práticos verifica-se se S12 1 S12 ≤ ≤ 4, não é muito diferente de 1. Como regra empírica, se 4 S 22 S 22 assume-se a igualdade de variâncias e utiliza-se o processo descrito. Se S12 for muito S 22 diferente de 1, deve-se suspeitar da igualdade de variâncias e utiliza-se, por exemplo, um método não paramétrico. A regra que apresentámos é empírica, pelo que em situações de maior rigor deve-se utilizar um teste de igualdade de variâncias para populações normais (por exemplo o teste F). No entanto, ainda para o caso de populações normais, pequenas amostras e variâncias diferentes, existe um processo aproximado sugerido por Satterthwaite e daí o nome de aproximação de Satterthwaite, que sugeriu ainda a distribuição aproximada de uma tStudent para a estatística de teste X1 − X 2 − (μ 1 − μ 2 ) S12 S 22 + n1 n 2 mas com o número de graus de liberdade dado pela equação s12 s 22 2 + ) n1 n 2 f= s2 s2 ( 1 )2 ( 2 )2 n n1 + 2 n1 − 1 n 2 − 1 ( Os testes sobre μ1-μ2 são idênticos ao caso anterior. Maria Eugénia Graça Martins Análise de Dados 90 4.2.1.4 ► As populações não são Normais e as amostras têm dimensão grande No caso em que as amostras têm dimensão suficientemente grande a distribuição de amostragem de X1 − X 2 − (μ 1 − μ 2 ) S12 S 22 + n1 n 2 pode ser aproximada pela N(0,1) A inferência estatística sobre μ1-μ2 é idêntica à realizada no caso 4.2.1.1 com as variâncias substituídas pelos estimadores. 4.2.2 ► Amostras emparelhadas Ao comparar dois tratamentos, seria desejável que os indivíduos ou unidades experimentais sujeitas a esses tratamentos, fossem tão semelhantes quanto possível, de modo que as diferenças entre os resultados dos dois grupos pudessem ser atribuídas às diferenças de tratamento. Na realidade, se algumas condições variarem de forma incontrolada nos indivíduos sujeitos a tratamento, essas condições podem introduzir nos resultados uma grande variabilidade. Por outro lado, a imposição de que todos os indivíduos sejam semelhantes é demasiado restritiva, podendo, inclusivamente, impedir a recolha de amostras de dimensão suficiente para determinadas análises estatísticas. Por exemplo, para a comparação de dois analgésicos, seria impraticável obter um número suficiente de doentes nas mesmas condições da doença, mesmo sexo, mesma idade, etc. Além disso seria mais razoável aplicar os analgésicos a indivíduos com características diferentes. Estamos numa situação de conflito, em que por um lado exigimos indivíduos com características semelhantes, mas que também tenham características diferentes! Para resolver esta questão, entramos com o conceito de “matching” ou “blocking”, que consiste em escolher os indivíduos por pares ou blocos, de modo que dentro de cada bloco tenham características semelhantes e sejam diferentes, para blocos diferentes. Maria Eugénia Graça Martins Análise de Dados 91 Num planeamento de experiências deste tipo, depois de seleccionados os pares (ou blocos), deve-se aplicar a cada elemento do par o tratamento 1 ou 2 de forma aleatória. Representando por X1 e X2, respectivamente, as respostas ou resultados ao tratamento 1 ou 2, os dados apresentam-se com a seguinte estrutura: Par Tratamento 1 Tratamento 2 Diferença D 1 X11 X21 D1 2 X12 X22 D2 3 X13 X23 D3 … … … … N X1n X2n Dn As diferenças D1, D2, D3, ..., Dn, constituem a amostra aleatória. Observe-se que, embora os pares (X1i, X2i) sejam independentes uns dos outros, dentro do mesmo par não existe independência, tendo em consideração a forma como foi planeada a experiência. Algumas das estatísticas de interesse são D= 1 n ∑ Di n i=1 e S D2 = 1 n (D i − D ) 2 ∑ n − 1 i=1 A inferência estatística sobre as diferenças entre os valores médios dos resultados devidos aos dois tratamentops, resume-se a fazer inferência sobre δ = μ1-μ2, e os processos resumem-se ao que já foi dito atrás sobre a inferência sobre o valor médio de uma população. 4.2.2.1 – Populações Normais, pequenas amostras – teste t emparelhado No caso em que temos pequenas amostras, é necessário assumir que a amostra Di = X1i – X2i, é proveniente de uma população Normal (δ, σD). Então, a estatística de teste que vamos utilizar tem uma distribuição t-Student, com (n-1) graus de liberdade e a este tipo de teste chamamos o teste t emparelhado (t-paired test). Testes de hipóteses sobre μ1-μ2 Maria Eugénia Graça Martins Análise de Dados 92 H0: μ1-μ2 = δ0 Estatística de teste sob H0: T = Hipótese alternativa H1 D − δ0 SD / n Região de Rejeição P-value μ1-μ2 > δ0 t ≥ t1-α(1) P(T≥Tobs|H0) μ1-μ2 < δ0 t ≤ tα P(T≤Tobs|H0) μ1-μ2 ≠ δ0 |t| ≥ t1-α/2 2P(T≥|Tobs||H0) (1) Quantil de probabilidade (1-α) da t-Student com (n-1) graus de liberdade Observação – Para testar que os dois tratamentos tiveram o mesmo efeito, faz-se δ0=0. Intervalo de confiança, com uma confiança de 100(1-α)%, para μ1-μ2 D ± t1-α/2 SD n 4.2.2.2. – Grandes amostras Neste caso a distribuição da estatística de teste pode ser aproximada pela distribuição Normal(0,1), pelo que temos o seguinte: H0: μ1-μ2 = δ0 Estatística de teste sob H0: Z = Hipótese alternativa H1 D − δ0 SD / n Região de Rejeição P-value μ1-μ2 > δ0 z ≥ z1-α P(Z≥Zobs|H0) μ1-μ2 < δ0 z ≤ zα P(Z≤Zobs|H0) μ1-μ2 ≠ δ0 |z| ≥ z1-α/2 2P(Z≥|Zobs||H0) Intervalo de confiança, com uma confiança de 100(1-α)%, para μ1-μ2 D ± z1-α/2 Maria Eugénia Graça Martins SD n Análise de Dados 93 4.2.3 ► Que tipo de planeamento fazer Ao planear uma experiência para comparar dois tratamentos, muitas vezes temos a opção de escolher emparelhadas. entre Vejamos considerar algumas amostras considerações independentes sobre estes ou dois amostras tipos de planeamento. Se considerarmos n pares de observações, obtemos 2n valores, o que corresponde no caso de amostras independentes a duas amostras de dimensão igual a n. Para o cálculo da média, é indiferente se as amostras estão emparelhadas ou não, já que D= 1 n ∑ ( X1i − X 2i ) = X1 − X 2 n i=1 Centrando a nossa atençaõ no caso de termos pequenas amostras, no que diz respeito aos intervalos de confiança para μ1-μ2, temos X1 − X 2 ± t1-α/2 * estimador do erro padrão (desvio padrão da diferença das médias) Amostras independentes Amostras emparelhadas (n1=n2=n) n pares Estimativa do erro padrão s Graus de liberdade (n − 1)s12 + (n − 1)s 22 = Obs: s= 2(n − 1) 1 1 + n1 n 2 SD 2(n-1) n-1 n s12 + s 22 2 Do quadro apresentado anteriormente verifica-se que, se considerarmos amostras emparelhadas, o nº de graus de liberdade diminui, o que implica que para o mesmo valor de α, o quantil de probabilidade 1-α/2 será maior. Por exemplo com n=10, t.95(9)=1.833, enquanto que t.95(18)=1.734. Assim, se o valor estimado para o erro padrão fosse igual nos dois casos, uma diminuição do número de graus de liberdade, verificada para o caso das amostras emparelhadas, implicaria um intervalo de confiança maior. Analogamente, nos testes de Maria Eugénia Graça Martins Análise de Dados 94 hipóteses, este facto resultaria numa perda de potência para detectar diferenças reais nos valores médios de duas populações. Na verdade, o grande mérito das amostras emparelhadas, se efectivamentev a escolha dos pares for feita de modo a cumprir os objectivos deste tipo de planeamento, está em que os resultados obtidos para os pares são altamente correlacionados, obtendo-se uma redução na variância das diferenças Di. Esta redução na variância e consequentemente no valor estimado para o erro padrão, compensa a perca de graus de liberdade (ex pag 345, Bhattacharya) 4.3 Teste para a igualdade de variâncias em populações Normais São dadas duas amostras aleatórias X11, X12, ..., X1n1 e X21, X22, ..., X2n2, de populacões Normais, X1 e X2, independentes, em que os valores médio μ1 e μ2 e as variâncias σ12 e σ 22 , são desconhecidos. Representando as variâncias amostrais por S12 e S 22 , sabe-se S12 / σ12 que F= 2 2 tem uma distribuição F com (n1-1) graus de liberdade no numerador e S2 / σ2 (n2-1) graus de liberdade no denominador, que se representa por F(n1-1; n2-1)4. Este facto vai-nos servir para testar a igualdade de variâncias, condiderando F como S12 estatística de teste, uma vez que sob H0: σ = σ , F0= 2 tem distribuição F(n1-1; n2-1). S2 2 1 2 2 Temos então os seguintes testes: H0: σ12 = σ 22 Estatística de teste sob H0: F0= Hipótese alternativa H1 σ12 ≠ σ 22 S12 S 22 Região de Rejeição P-value f0≥ F1-α/2(n1-1; n2-1) ou 2min{P(F≥Fobs|H0), f0≤ Fα/2(n1-1; n2-1) 4 A distribuição F goza da propriedade de Fα(m;n)=1/F1-α(n;m) Maria Eugénia Graça Martins P(F≤Fobs|H0)} Análise de Dados 95 σ12 > σ 22 f0≥ F1-α(n1-1; n2-1) P(F≥Fobs|H0) σ12 < σ 22 f0 ≤ Fα(n1-1; n2-1) P(F≤Fobs|H0) Intervalo de confiança, com uma confiança de 100(1-α)%, para σ12 / σ 22 : σ12 s12 s12 Fα/2(n2-1; n1-1)≤ 2 ≤ 2 F1-α/2(n2-1; n1-1) s 22 σ2 s2 Exemplo 4.1 (Adaptado de Murteira, B. et al, 2002) Para confrontar dois tipos de máquinas de ceifar, um trigal foi dividido em secções longitudinais, e cada duas secções adjacentes, tratadas por cada uma das máquinas. As produtividades alcançadas foram as seguintes: Máquina A: 8.0 8.4 8.0 6.4 8.6 7.7 7.7 5.6 5.6 6.2 Máquina B: 5.6 7.4 7.3 6.4 7.5 6.1 6.6 6.0 5.5 5.5 Pretendendo averiguar se a produtividade das duas máquinas é idêntica, utilizando o teste t, averigúe da igualdade das variâncias. H0: σ A = σ B 2 2 contra Estatística de teste sob H0: F0= H1: σ 2A ≠ σ B2 S 2A com distribuição F(9;9) S B2 Decisão: Não rejeitar a igualdade de variâncias. Observação: O teste F, para a igualdade de variâncias pode ser realizado directamente no Excel. Para isso basta seleccionar Tools Data Analysis F-Test Two Samples for Variances Maria Eugénia Graça Martins Análise de Dados Maria Eugénia Graça Martins 96 Análise de Dados 97 Métodos não paramétricos 5 Métodos não paramétricos como alternativa aos métodos paramétricos. Testes de ajustamento – teste do Qui-quadrado e de Kolmogorov-Smirnov. Problema da localização e da localização e simetria – Teste dos Sinais e teste de Wilcoxon. Testes de hipóteses em modelos não paramétricos para testar a homogeneidade de populações independentes – Teste de Mann-Whitney e de Kruskal-Wallis. Teste do Quiquadrado em tabelas de contingência para testar a homogeneidade e a independência. Outros testes para testar a independência. 5.1.► Introdução Vimos nos capítulos anteriores alguns processos de inferência estatística, nomeadamente os que envolvem pequenas amostras, em que é necessário fazer hipóteses sobre a forma da distribuição da população subjacente à amostra. De um modo geral a inferência estatística clássica admite o modelo Normal e temos assim o teste-t, quando pretendemos fazer testes de hipóteses acerca do valor médio de uma população ou pretendemos comparar populações, ou o teste F quando comparamos variâncias. Felizmente alguns destes processos são razoavelmente robustos para os desvios da normalidade e basta assumir a simetria, para que ainda se possam utilizar. É exemplo desta situação o teste-t, que é bastante robusto, podendo ainda continuar a aplicar-se quando a população não é Normal, mas simétrica. No entanto, nem sempre é apropriado considerar como hipótese, que a população subjacente a determinada amostra, segue uma família específica de distribuições. Pode ainda acontecer, por exemplo, que os dados nos sejam dados através de uma ordenação e não tenhamos acesso aos verdadeiros valores – é o que acontece quando temos as classificações de um conjunto de candidatos a um lugar, em que esses Maria Eugénia Graça Martins Análise de Dados 98 candidatos foram ordenados, não dispondo de classificações individuais. Nestes casos têm de se utilizar os chamados métodos não paramétricos, que são métodos com uma grande generalidade de aplição, já que as hipóteses subjacentes a essa aplicação são pouco restritivas, o que não significa que não tenham de se fazer algumas hipóteses. Os métodos não paramétricos baseiam-se essencialmente em contagens, ordens e sinais de diferenças. Como são métodos que funcionam bem para várias distribuições, dizem-se robustos e as estatísticas utilizadas recebem o nome de estatísticas firmes. EXEMPLO 5.1 Para testar o efeito de um novo medicamento, considerou-se um grupo de 9 doentes, tendo-se dado o medicamento a 4 dos doentes escolhidos aleatoriamente. Passadas 3 semanas, os 9 doentes foram examinados por um médico que, com base num conjunto de observações clínicas, ordenou os doentes, numa escala de 1 a 9, sendo o 1 atribuído ao doente que se apresentava em melhores condições e o 9 o que se apresentava em piores condioções. Pretende-se testar, com base nesta informação, o seguinte: H0: O novo medicamento contra H1: não tem efeito O novo medicamento tem efeito (bom ou mau) Uma estatística de teste possível será considerar a soma das ordens dos doentes que tomaram o medicamento. Se o novo medicamento não tem efeito, as ordens dos doentes que o tomaram podem ser quaisquer, pelo que o resultado final pode ser qualquer das 126 combinações possíveis das 9 ordens 4 a 4. No entanto, se o medicamento teve efeito benéfico deveremos ter, por exemplo, (1,2,3,4), enquanto que se fôr prejudicial teríamos (6,7,8,9). Os valores possíveis para a estatística de teste T, que representa a soma das ordens dos 4 doentes que tomaram o medicamneto são T 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Nº de vezes 1 1 2 3 5 6 8 9 11 11 12 11 11 9 8 6 5 3 2 1 1 A região de rejeição será constituída pelos valores grandes ou pequenos da estatística de teste. Se rejeitarmos para T= 10, 11, 29 e 30, então o nível de significância do teste será = 4/126 ≈ 0.0318. Na secção seguinte vamos abordar os testes de ajustamento, que se podem inserir na categoria dos métodos não paramétricos Maria Eugénia Graça Martins Análise de Dados 99 5.2 ► Testes de ajustamento 5.2.1 ► Introdução1 Será que existe alguma razão para dizer que os nascimentos são influenciados pelas fases da Lua? Será que o signo influencia o futuro, mais ou menos brilhante, de cada indivíduo? Será que é verdade o que a empresa das drageias M&M afirma, sobre as percentagens de cores das drageias em cada embalagem? A revista Fortune (De Veaux and al, 2004) recolheu os signos de 256 presidentes de 400 das maiores empresas, tendo obtido a seguinte informação: Carneiro Touro Gémeos Caranguejo Leão Virgem 23 20 18 23 20 19 Balança Escorpião Sagitário Capricórnio Aquário Peixes 18 21 19 22 24 29 Na tabela anterior verifica-se que o signo dos Peixes sobressai com maior número de nascimentos, mas será esta diferença suficiente para dizer que os indivíduos que nascem sob este signo têm maior probabilidade de sucesso? Se os nascimentos se distribuissem uniformemente, esperaríamos aproximadamente 21.3 (256/12) nascimentos em cada signo. De que modo é que os valores observados se “ajustam” à hipótese (nula) de que os nascimentos se distribuem uniformemente ao longo do ano? Neste caso já não temos, como no capítulo anterior, um teste sobre uma proporção, mas sim sobre 12 proporções, uma para cada signo, pelo que precisamos de arranjar um teste que nos dê uma ideia global sobre se as proporções observadas diferem muito das conjecturadas (consideradas na hipótese nula). 5.2.2 ► Generalização do modelo Binomial – o modelo Multinomial Consideremos uma População W dividida em k ≥ 2 categorias disjuntas e exaustivas A1, A2, S , Ak, pelo que cada indivíduo da população pertence a uma e só a uma das categorias. Para i=1, S , k, seja pi a proporção de indivíduos da População pertencentes à categoria i, tendo-se 1 Nesta secção seguimos integralmente Graça Martins, M. E. (2005) Maria Eugénia Graça Martins Análise de Dados 100 k ∑p i =1 i=1 Fazer inferência estatística acerca desta População resume-se a estudar os parâmetros pi , i=1, S , k. Recolha-se da População em estudo uma amostra de dimensão n, (x1, x2, S , xn) e comece-se por construir a tabela de frequências associadas às categorias Classes Frequência A1 o1 A2 o2 S S Ak ok Da tabela de frequências anterior obtêm-se as estimativas (da máxima verosimilhança) dos parâmetros pi, ) o pi = i , n i=1, S , k. Temos agora uma generalização dum caso tratado anteriormente, pois ao contrário do que se passava aí, em que podíamos considerar que estávamos perante n provas de Bernoulli (cada indivíduo pertencia a uma de 2 categorias, A ou AC, sendo constante a probabilidade de pertencer à categoria A, e daí termos considerado o modelo Binomial), temos neste momento n provas multinomiais - uma prova multinomial, com parâmetros pi , i=1, S , k, é uma prova cujo resultado pode ser um de k possíveis, chamados classes ou categorias. A probabilidade da ocorrência da k-ésima classe é pi, com k 0≤pi≤1 e ∑p i = 1. i=1 Mais formalmente, temos que a generalização do modelo Binomial é o chamado modelo Multinomial que consiste no seguinte: 1 – Consideram-se n provas idênticas; 2 – O resultado de cada prova pode pertencer a uma de k classes possíveis A1, A2, S, A k; Maria Eugénia Graça Martins Análise de Dados 101 3 - A probabilidade de que o resultado pertença à classe Ai, é pi e é sempre a mesma de prova para prova, i=1, S, k e p1+p2+S+pk=1; 4 – As provas são independentes; 5 – As variáveis de interesse são O1, O2, S,Ok, em que Oi é o número de vezes em que o resultado pertence à classe Ai e O1+O2+S+Ok = n. Enunciamos a seguir algumas definições e resultados úteis para a análise da População em estudo. Definição 5.1. Dada uma experiência que consiste em n provas repetidas multinomiais, independentes, com parâmetros pi, i=1, S , k, seja Oi a v.a. que representa o nº de provas cujo resultado pertence à i-ésima classe, i=1, S , k. Então (O1, O2, S , Ok) é uma variável aleatória multinomial com parâmetros n, pi, i=1, S , k. Teorema 5.1 Se (O1, O2, S , Ok) é uma v. a. multinomial com parâmetros n, pi, i=1, S , k, então P(O1=o1, O2=o2, S , Ok=ok) = n! p1o1 p o2 2 o1! o 2 !...o k ! p kok oi= 0,S, n k ∑o i = n; i=1, S , k i=1 Observação: Repare-se que se k=2, estamos no caso Binomial. Teorema 5.2 Se (O1, O2, S , Ok) é uma v.a. multinomial, com parâmetros n, pi, i=1, S , k, então a função distribuição da v.a. k U= (Oi − npi )2 ∑ np i i =1 aproxima-se da função distribuição dum χ2 com (k-1) graus de liberdade, quando n →Z∞. O resultado anterior serve para testar a hipótese de que (O1, O2, S , Ok) é uma v.a. multinomial com parâmetros n, pi, i=1, S , k. Basta para isso calcular Maria Eugénia Graça Martins Análise de Dados 102 k (o i − np i )2 u= ∑ npi i =1 para uma amostra observada (o1, o2, S , ok) e rejeitar a hipótese se u ≥ χ12−α (k − 1) , onde χ12−α (k − 1) é o quantil de probabilidade (1-α) de uma distribuição dum χ2 com (k-1) graus de liberdade. Nota - A distribuição aproximada da estatística de teste do Qui-quadrado pode ser obtida de forma intuitiva da forma seguinte: Numa experiência multinomial em que cada resultado pode ser um de k possíveis, o número médio de resultados, em n, que pertencem à classe Ai é npi. Então Oi tem distribuição Binomial(n,pi), pelo que se n for suficientemente grande e pi suficientemente pequeno, a distribuição de Oi pode ser aproximada por uma Poisson de valor médio npi, pelo que a distribuição de Oi − npi pode ser aproximada por uma Normal(0,1). np i 2 O − npi tem uma distribuição de um χ2 com (1) grau de liberdade e Finalmente i npi k (O i − npi )2 tem uma distribuição dum χ2 com (k-1) graus de liberdade. ∑ np i i =1 Observação - O modelo do χ2 tem uma função densidade com suporte positivo e tem enviesamento para a direita, dependendo a sua forma do número de graus de liberdade. Apresenta-se a seguir a função densidade do Qui-quadrado para vários graus de liberdade: Maria Eugénia Graça Martins Análise de Dados 103 5.2.3 ► Teste de ajustamento do Qui-quadrado 5.2.3.1 ► Análise de dados qualitativos Considerando então a População em estudo, pretendemos realizar testes de hipóteses sobre os parâmetros pi, i=1, S , k, sendo as hipóteses a testar H0: p1= p10 , p2= p 02 , S , pk= p k0 contra H1: pi≠ p i0 para algum i=1,S,k Estamos em condições, depois dos resultados apresentados anteriormente, de utilizar a estatística X2 = k (Oi − e i )2 ei i =1 ∑ onde Oi é a v.a. que representa o nº de indivíduos observados na amostra, de dimensão n, que pertencem à classe Ai e ei=n p i0 , i=1,S,k. Esta estatística, sob a hipótese de H0 ser verdadeira, tem uma distribuição de amostragem aproximada de um χ2 com (k-1) graus de liberdade. Regra de decisão: Para o nível de significância α, rejeita-se a hipótese nula H0 quando X2 ≥ χ12−α (k − 1) , ou seja, a região de rejeição é constituída pelo intervalo [ χ12− α (k-1), +∞[, como se pode ver pela figura seguinte De forma alternativa, face ao valor observado da estatística de teste x 02 , calcula-se o pvalue P= P(X2≥ x 02 ) e rejeita-se H0 quando P≤ α. Observação: Para se utilizar este teste deve-se ter em consideração que os valores esperados para cada classe, ei não podem ser muito pequenos. Normalmente exigemse que sejam ≥5. Maria Eugénia Graça Martins Análise de Dados 104 Exemplo 5.2 Utilize os dados apresentados no início deste capítulo, para verificar se existe evidência de que existam alguns signos mais propícios a que os seus nativos sejam homens de sucesso. H0: P(Carneiro) = P(Touro) = P(Gémeos) = ... = P(Peixes) = 1/12 contra H1: Alguma das probabilidades anteriores é diferente de 1/12 2 Sabemos que, sob H0, a estatística de teste tem uma distribuição aproximada dum χ com 11 graus de liberdade, uma vez que k=12, isto é, temos 12 classes. Para calcular o valor observado da estatística de teste, vamos considerar a seguinte tabela: Obtivémos o valor de 5.0938 para a estatística de teste. Será que é um valor grande? Será que é um 2 valor na cauda direita da função densidade? Será que P(X ≥5.0938) é um valor pequeno, quando a 2 2 distribuição de X é um χ com 11 graus de liberdade? Estas três questões, são outras tantas formas de fazer a mesma pergunta, que é: Há evidência para rejeitar a hipótese nula H0? Repare-se que neste caso, não temos dificuldade em dizer que não há evidência para rejeitar H0, pois 2 basta ver na figura da função densidade do χ com 11 graus de liberdade, que o valor 5.0938 é relativamente pequeno. De qualquer modo calculámos o P-value associado a este teste, utilizando a função CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), onde X é uma variável aleatória com uma distribuição do Qui-quadrado com deg_freedom graus de liberdade. O valor obtido é 0.9265, que se apresenta na figura seguinte: Maria Eugénia Graça Martins Análise de Dados 105 Decisão: Não há evidência para rejeitar a hipósese de que os nascimentos se distribuem uniformemente pelos signos. Não rejeitar a hipótese nula significa que o modelo proposto é o correcto? Não! Na verdade o facto de os dados não nos levarem a rejeitar o modelo proposto na hipótese nula, não significa que ele seja verdadeiro. O teste serviu unicamente para mostrar que os dados são consistentes com a teoria (o modelo proposto), mas não para provar que ela é verdadeira. Porque é que não podemos provar a hipótese nula? (De Veaux and al, 2004) – Um biologista pretende mostrar que a sua teoria, sobre a mosca da fruta, é válida. Segundo ele, 10% das moscas são de tipo 1, 70% de tipo 2 e 20% de tipo 3. Fez um teste de ajustamento a partir dos dados que os seus alunos recolheram, sobre 100 moscas, tendo obtido um P-value de 7%. Celebrou este facto, pois sustentava a sua hipótese, até que os seus alunos recolheram informação sobre mais 100 moscas. Com 200 moscas o P-value desceu para 2%. Apesar de já estar a adivinhar que a resposta seria não, ainda perguntou ao estatístico, na esperança de poder deitar fora metade dos dados e ficar com os 100 primeiros! Ora bem, se isto fosse possível, conseguiríamos sempre “provar a hipótese nula” não recolhendo muitos dados. Efectivamente, quanto menos informação tivermos, mais os nossos dados serão consistentes com o que quer que seja, e também nunca rejeitaremos o que quer que seja! Então um teste assim não serve para nada. Como já vimos na secção 11.5, diz-se que um teste destes tem pouca potência, medindo-se a potência de um teste como a probabilidade de rejeitar H0, quando H0 é falsa. Assim, quantos mais dados, melhor, já que nunca poderemos “provar” a hipótese nula. Maria Eugénia Graça Martins Análise de Dados 106 Exemplo 5.3 Suponha que uma marca conhecida de carros pretende averiguar se existe evidência para afirmar que os compradores mudaram, nos últimos tempos, as suas preferências pelas 4 cores mais vendidas, nomeadamente o cinza prateado, o preto, o branco e o vermelho, em que estas cores eram preferidas por, respectivamente 56.25%, 18.75%, 18.75% e 6.25% dos compradores, segundo informação de alguns anos atrás. Assim, recolheu informação sobre 100 clientes, tendo obtido os seguintes resultados: Preto Cinza prateado Vermelho Branco 59 20 11 10 Retire conclusões, para o nível de significância de 5%. Hipóteses: H0: P(Cinza prateado) = 0.5625; P(Preto) = 0.1875; P(Branco) = 0.1875; P(Vermelho) = 0.0625 contra H1: P(Cinza prateado)≠0.5625 ou P(Preto)≠0.1875 ou P(Branco)≠0.1875 ou P(Vermelho)≠0.0625 4 2 Estatística de teste: X = ∑ i =1 (O i − e i ) 2 2 , que sob H0, tem distribuição aproximada dum χ (3). ei 2 Valor observado da estatística de teste: x = 5.671 2 P-value: P(X ≥5.671) Para calcular a probabilidade anterior, utilizando o Excel, utiliza-se a função CHIDIST(x;deg_freedom), tal como já fizémos no exemplo anterior, agora com x=5.671 e deg_freedom=3, obtendo para o P-value = 0.12855 Decisão: Não rejeitar H0, para os níveis usuais de significância, nomeadamente para o nível de significância de 5%. Só rejeitaríamos H0, para α≥12.855%. Suponhamos, agora, que tinha sido recolhido uma amostra de dimensão 200, tendo obtido o dobro dos valores observados, em cada uma das categorias. Qual a conclusão que se tiraria? Refazendo os cálculos anteriores, temos: Maria Eugénia Graça Martins Análise de Dados 107 2 Valor observado da estatística de teste: x = 11.342 P-value: P(X2≥11.342) = CHIDIST(11.342;3), = 0.0100 Decisão: Para o nível de significância de 5%, rejeitar H0, isto é, existe evidência de que os compradores mudaram de atitude, quanto ao gosto das cores. Esta conclusão não é de estranhar, embora seja diferente da retirada anteriormente, pois agora temos mais dados, isto é, mais informação, e podemos dizer que as discrepâncias existentes entre os valores observados e os valores esperados, mostram “maior evidência” contra a hipótese nula 5.2.3.2 ► Análise de dados discretos Face à amostra observada (x1, x2, S,xn) de dados discretos quantitativos, associada a uma característica populacional X, pretende-se inferir algo sobre a função distribuição de X. Então começa por se fazer o agrupamento dos dados, o qual no caso dos dados discretos, de um modo geral, não apresenta dificuldade, uma vez que consiste em contar o número de vezes que os diferentes elementos surgem na amostra. Constroi-se assim a tabela de frequências e o diagrama de barras. Sendo o diagrama de barras a imagem estatística da função massa de probabilidade, esta primeira fase de tratamento descritivo dos dados vai-nos obter informações para passar à fase seguinte de postular qual o modelo que melhor se adapta a esses dados. Nesta fase também se entram com algumas considerações teóricas, que eventualmente sejam conhecidas, sobre a população de onde se recolheu a amostra. Uma vez postulado o modelo é necessário testá-lo, utilizando normalmente o teste de ajustamento do Qui-quadrado. Maria Eugénia Graça Martins Análise de Dados 108 Comecemos por admitir que na hipótese nula se especifica um modelo discreto de forma completa, isto é, H0: X∩F onde F está perfeitamente especificada, ou então, uma vez que o modelo é discreto, se especifica através da função massa de probabilidade H0: P(X=ai) = pi onde aiεD, domínio de variação da v.a. X Considera-se então uma partição de D, eventualmente constituída pelos pontos ai, alguns dos quais podem ser agrupados. Representando por A1, A2, S, Ak essa partição, calculam-se as frequências observadas, que representamos por oi, e estamos no caso analisado anteriormente, de análise de observações qualitativas pertencentes a uma de k categorias. Se o modelo não estiver completamente especificado, terão de se estimar alguns parâmetros, através de estimativas da máxima verosimilhança e estamos também na situação descrita anteriormente, da análise de observações pertencentes a uma de k categorias, mas em que a distribuição da estatística de teste não é a mesma. Resumindo, temos: H0: X∩F Classes A1 A2 S Ak Freq. observadas o1 o2 S ok 2 Estatística de teste: X = vs H1: X não tem distribuição F Sob a validade de Ho p1=P(XεA1) p2=P(XεA2) S pk=P(XεAk) Valores esperados np1 np2 S npk k (Oi − e i )2 ei i =1 ∑ Distribuição da estatística de teste: Sob a validade de H0 2 a) Se o modelo está completamente especificado, X tem uma distribuição assintótica 2 dum χ (k-1). Maria Eugénia Graça Martins Análise de Dados 109 b) Se o modelo está especificado a menos de m parâmetros desconhecidos, que terão 2 2 de ser estimados a partir dos dados, X tem uma distribuição assintótica dum χ (k-m-1). Então, fixando o nível de significância α temos: 2 2 2 a) Rejeita-se H0 se X ≥ χ (k − 1) ou alternativamente, face ao valor observado x da 1− α 2 2 2 estatística de teste X calcula-se P=P(χ (k-1)≥ x ) e se P≤α, rejeita-se H0. b) Análogo à alínea a), mas a distribuição do Qui-quadrado considerada, em vez de ter (k-1) graus de liberdade tem, (k-m-1) graus de liberdade. Os m parâmetros desconhecidos são estimados utilizando as estimativas da máxima verosimilhança. Exemplo 5.4 A procura diária de um determinado produto, foi, em 60 dias escolhidos ao acaso, a seguinte: Nº unidades procuradas 0 1 2 3 4 5 6 7 8 9 Nº dias 2 4 9 11 14 10 5 3 1 1 Haverá evidência para duvidar que tal procura se faça segundo um modelo de Poisson? Resolução: Seja X a v.a. que representa o nº de unidades procuradas, por dia. Então: H0: X∩P(λ) contra H1: X não tem uma distribuição P(λ) Representando o estimador de λ por λ̂ , temos que λ̂ = X (não esquecer que no modelo de Poisson, o parâmetro é o valor médio da variável aleatória), pelo que uma estimativa para λ, é a média dos dados -3.8 x =3.8, e as estimativas para as probabilidades pi, obter-se-ão a partir da expressão P(X=k) = e 3.8 k . k! Estas probabilidades foram obtidas no Excel através da função Poisson(x; mean; cumulative), em que x é o valor que a v.a. X assume, mean é o valor médio e cumulative é um valor lógico: para a função distribuição, usar TRUE; para a função massa de probabilidade usar FALSE. Por exemplo, para obter o valor 0.085009, colocámos o cursor na célula C3 e inserimos a função =POISSON(B3;3,8;FALSE). Maria Eugénia Graça Martins Análise de Dados 110 Chamamos a atenção para o facto de as classes Ai deverem constituir uma partição do domínio da v.a. X. Assim, como o domínio da Poisson é constituído pelos valores inteiros positivos (incluindo o 0) introduzimos a classe 10 ou mais, cuja probabilidade foi calculada fazendo (1-P(X≤9)) (não esquecer que ∑ P(A ) = 1 ). Por outro lado, tendo em conta a observação feita sobre o valor dos e , que não devem ser i i inferiores a 5, agrupámos as classes 0 e 1, numa classe, e as classes 7, 8, 9 e 10 ou mais, noutra classe, tendo ficado assim 7 classes. 7 2 Se H0 for verdadeiro, a estatística de teste X = ∑ i =1 (O i − e i ) 2 2 tem uma distribuição assintótica dum χ (7ei 1-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Segundo a tabela anterior, obtivémos, para a estatística de teste, o valor observado de 2.2736. Para tomar uma decisão, vamos calcular o P2 value:P(X ≥2.2736) = 0.81. Este valor foi obtido, inserindo na célula F13, a função = CHIDIST(E13;5): Decisão: Não há evidência para dizer que a distribuição do número de unidades procuradas por dia, não segue uma distribuição de Poisson. Maria Eugénia Graça Martins Análise de Dados 111 5.2.3.3 ► Análise de dados contínuos Este caso é em tudo idêntico ao caso anterior, com a excepção de que agora a escolha das classes Ai, que constituem uma partição do domínio da variável aleatória X, já não é tão óbvia, como no caso dos dados discretos. Assim, de forma a reduzir a arbitrariedade na escolha da partição Ai, 1≤i≤k, é usual escolher os Ai, tais que P(XεAi׀H0) = 1/k ou seja pi = 1/k, 1≤i≤k. Como escolher o k? A escolha de k é feita de modo a garantir que o número esperado ei=npi, de elementos em cada classe seja ≥5. Assim, deve ter-se n/k≥5, o que implica que k≤n/5. Considerase geralmente para k o maior inteiro contido em n/5 (a não ser que este valor seja demasiado grande, como veremos no exemplo a seguir, em que se escolhe um valor inferior), e as classes Ai, são assim construídas: A1 = (-∞, a1[, P(XεA1׀H0) = 1/k → P(X≤ a1) = F(a1) = 1/k → a1=F-1(1/k) A2 = [a1, a2[, P(XεA2׀H0) = 1/k → P(a1<X≤ a2) = F(a2)- F(a1)= 1/k → a2=F-1(2/k) ... Ak = [ak-1, ∞[, P(XεAk׀H0) = 1/k → P(X> ak-1) = 1 – F(ak-1)= 1/k → ak-1=F-1((k-1)/k) A estatística de teste obtém-se da mesma maneira, assim como a distribuição de amostragem. Exemplo 5.4 O Sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas a serem vendidas em Portugal. Para ter alguma informação sobre os moldes que deve considerar, nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a uma empresa de Consultoria de Estatística que o ajudasse, dando-lhe algumas indicações sobre a população a que se destinam as camisas. Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva. 1º passo – Recolha de uma amostra A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra de dimensão 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do braço direito de 250 homens: Maria Eugénia Graça Martins Análise de Dados 112 51.5 56.0 55.0 58.3 58.4 55.3 56.3 52.2 55.2 57.3 55.4 52.9 54.0 59.7 55.4 53.0 52.6 55.5 53.1 52.4 57.9 57.7 55.3 53.5 55.8 57.9 54.7 55.7 54.0 52.1 57.6 52.9 54.2 52.9 56.2 54.9 58.2 53.2 54.1 53.1 53.9 54.9 56.7 52.1 57.7 55.4 54.9 54.9 55.5 56.6 56.6 54.7 55.6 53.2 54.7 53.0 57.5 55.6 56.9 57.4 49.9 54.7 53.8 58.4 55.7 55.4 54.3 49.1 56.7 55.4 53.0 55.3 55.7 52.1 51.0 53.1 55.3 52.1 54.3 54.9 55.3 56.7 57.1 54.4 53.7 58.9 53.8 54.8 55.7 55.4 56.6 56.8 53.4 53.4 56.0 56.5 56.7 54.0 51.6 52.6 56.4 56.8 57.4 54.7 55.5 53.2 54.7 54.7 58.4 56.3 58.1 53.4 56.7 58.1 54.9 54.2 56.5 53.2 51.3 56.6 56.6 58.8 57.7 52.5 56.2 54.4 56.8 51.8 53.9 58.4 58.7 55.2 53.0 58.0 58.6 52.3 59.2 56.5 57.1 54.2 55.3 55.5 56.1 52.1 53.9 53.2 52.9 58.8 55.0 54.2 54.8 53.4 56.8 51.9 55.0 51.6 58.2 55.5 56.2 53.7 54.6 51.7 55.5 52.8 54.4 55.7 54.0 56.8 53.3 56.8 54.2 50.5 54.3 54.6 53.2 52.2 55.2 55.4 55.8 55.6 60.2 57.0 54.6 55.0 56.6 55.1 58.0 57.3 56.0 51.7 55.1 54.5 53.8 55.1 55.7 57.1 53.2 52.4 55.5 57.2 56.1 55.1 55.2 56.3 57.1 55.5 53.2 54.8 55.6 56.0 60.7 58.3 59.4 52.8 55.8 56.8 56.3 55.7 53.0 53.0 51.9 55.7 53.4 53.8 52.1 57.5 59.8 55.3 55.0 55.0 54.2 57.6 55.1 56.5 58.3 53.1 55.2 53.7 48.4 54.7 55.0 56.5 56.9 57.0 58.2 56.7 54.4 50.2 54.4 56.5 2º passo – Estudo descritivo Procedeu-se ao estudo descritivo dos dados anteriores, calculando algumas características amostrais e procedendo à redução dos dados através de uma tabela de frequências e à construção do histograma correspondente. Apresentam-se a seguir os resultados obtidos: Maria Eugénia Graça Martins Análise de Dados 113 Decidimos construir uma tabela de frequências com 8 classes, valor sugerido pela regra empírica enunciada quando da construção do histograma, e considerar como amplitude de classe o valor 1.54 (valor aproximado, por excesso, de (max-min)/8).Construímos uma tabela de frequências e o histograma associado, utilizando a metodologia das PivotTables.: O histograma sugere-nos um modelo Normal, pelo que, o passo seguinte será testar se efectivamente tem sentido ajustar um modelo Normal aos dados. Uma questão que se levanta neste momento é a seguinte: terá sentido estar a ajustar aos nossos dados um modelo com suporte R, isto é, que pode assumir qualquer valor real, quando nós sabemos que isso não se passa com o comprimento do braço? Mas se estamos renitentes em ajustar um modelo com suporte em R, talvez pensassemos que seria mais + razoável um cujo suporte fosse R , pois se temos a garantia que o comprimento não pode ser negativo, não sabemos qual o valor máximo que devemos escolher. Ou poderíamos inventar um valor ao acaso como limite superior, por exemplo 150 cm, mas com que legitimidade é que escolhemos este e não outro valor? Também não devemos considerar o valor 60.7 como valor máximo, embora tenha sido o maior valor da amostra que se recolheu. Ninguém nos garante que na população não haja homens com o comprimento do braço superior a 60.7! Nesta altura, de reflexão sobre qual o modelo a adoptar, recordemos o que se disse sobre a escolha de um modelo para traduzir um fenómeno aleatório – todos os modelos são maus, alguns são úteis. No entanto, além do histograma nos sugerir o modelo Normal, devido à semelhança com a função densidade da Normal, também dispomos de alguma informação científica sobre este modelo; e são esses estudos que nos dizem que ele se aplica em situações de fenómenos que possam ser considerados provenientes de uma contribuição aditiva de várias variáveis, como é, por exemplo, o caso da variável em estudo. Então, em posse da informação sobre a proveniência dos dados e dos resultados do estudo descritivo dos mesmos, estamos em condições de propor o modelo Normal. 3º passo – Teste de ajustamento do modelo sugerido no passo anterior Maria Eugénia Graça Martins Análise de Dados 114 Representando por X, a v.a. que representa o comprimento do braço, consideremos as seguintes hipóteses: H0: X∩N(µ,σ) contra H1: X N(µ,σ) Para utilizarmos o teste de ajustamento do Qui-qudrado, as classes Ai têm que constituir uma partição do suporte da v.a. X. Neste momento podemos seguir dois processos, nomeadamente: utilizar a tabela de frequência anterior, procedendo às modificações adequadas nas classes, de forma a termos uma partição, ou utilizar o processo enunciado anteriormente, para a formação das classes. Vamos exemplificar os dois processos: Processo 1 – Modificação da tabela de frequências, de forma a termos uma partição de R Para obter uma partição, basta proceder a uma alteração conveniente na primeira e na última classe, como se apresenta a seguir: Para calcular estimativas das probabiliaddes pi, utilizámos o modelo Normal(55.14, 2.087), no Excel. Por exemplo, para calcular a probabilidade do intervalo ]49.94, 51.48], colocámos o cursor na célula G19 e escrevemos =NORMDIST(51,48;55,14;2,087;TRUE)-NORMDIST(49,94;55, 14;2,087;TRUE). 2 Como estimámos dois parâmetros a partir dos dados, a estatística de teste X , tem uma distribuição 2 assintótica dum χ (8-2-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Para tomar uma decisão calculámos o P-value, bastando colocar o cursor na célula J26 e escrever =CHIDIST(I26;5): Maria Eugénia Graça Martins Análise de Dados 115 Decisão: Não existe evidência para rejeitar a hipótese do modelo Normal. Processo 2 – Admitindo que não tinha havido uma fase anterior, em que tinha sido necessário proceder a um agrupamento dos dados, como no caso do exemplo que estamos a tratar, vamos exemplificar o processo sugerido na secção anterior. Temos n=250, donde k≤250/5. Vamos considerar k=10, isto é, 10 classes. Então os limites de classe a1, a2, ..., a9, com a notação introduzida na secção referida, podem ser obtidos no Excel, da seguinte forma: Uma vez as classes construídas, teremos de contar quais os valores observados. Utilizámos a seguinte tabela feita no Excel, para determinar esses valores, assim como o valor observado da estatística de teste: A estatística de teste é a mesma, mas agora tem uma distribuição de amostragem dum Qui-quadrado com 7=(10-2-1) graus de liberdade, uma vez que considerámos 10 classes e estimámos 2 parâmetros: Maria Eugénia Graça Martins Análise de Dados 116 Decisão: Uma vez que o P-value é igual a 32.56%, não existe evidência para rejeitar a hipótese de que os dados sejam provenientes de um modelo Normal. 4º passo – Transmissão dos resultados ao industrial têxtil Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentação dos resultados. Pode-se, no entanto, ir adiantando alguma informação, em termos de percentagens dos futuros compradores das camisas. Assim, temos os seguintes números: • Aproximadamente 68% dos homens têm o comprimento dos braços no intervalo [53, 57] P(55.14-2.087≤X≤55.14+2.087)=φ(1)-φ(-1)= 2φ(1)-1≈0.68 • Aproximadamente 95% dos homens têm o comprimento dos braços no intervalo [51, 59] P(55.14-2×2.087≤X≤55.14+2×2.087)=φ(2)-φ(-2)= 2φ(2)-1≈0.95 • Aproximadamente 100% dos homens têm o comprimento dos braços no intervalo [49, 61] P(55.14-3×2.087≤X≤55.14+3×2.087)=φ(2)-φ(-2)= 2φ(3)-1≈0.997 Utilizando ainda o modelo Normal(55.14, 2.087), podemos ser um pouco mais precisos, informando o Sr. Silva sobre os valores do 1º e 3º quartis, que são respectivamente 53.7 cm e 56.5 cm: Assim, o industrial sabe que, por exemplo, só 25% dos homens é que têm o comprimento dos braços inferior a 53.7 cm e que 50% dos homens têm o comprimento dos braços no intervalo [53.7, 56.5]. Esta informação é importante, pois permite fazer uma programação adequada da percentagem de camisas que devem ser fabricadas, para cada tamanho Maria Eugénia Graça Martins Análise de Dados 117 5.2.4 ► Teste de Kolmogorov-Smirnov Dada uma população X, contínua, pretende-se testar a hipótese H0: X∩F(x) contra H1: X∩G(x) com F(x)≠G(x) para algum x A metodologia seguida na realização do teste de Kolmogorov-Smirnov é a de utilizar a função distribuição empírica Fn(x), que é um estimador consistente de F(x), considerando como estatística de teste, uma estatística que seja uma medida da distância entre a função distribuição empírica e a função distribuição F(x), postuladav em H0. Face à amostra aleatória (X1, X2, ..., Xn), consideremos a função distribuição empírica x < X1:n 0 se i Fn(x) = se X i:n ≤ x < X i+1:n n x ≥ X n:n 1 se para i= 1, 2, ..., n-1. Se considerarmos X0:n=-∞ e Xn+1:n=+∞, podemos escrever mais simplesmente Fn(x) = i n Xi:n≤x<Xi+1:n, i=0, 1, 2, ..., n Repare-se que nFn(x) é uma variável aleatória discreta, que assume os valores i, com n i=0, 1, 2, ..., n e P[nFn(x)=i]= F(x)i[1-F(x)]n-i, para i=0, 1, 2, ..., n. i A v.a. n Fn(x) tem distribuição Binomial (n, F(x)), donde E[nFn(x)]=nF(x) → Var[nFn(x)]=nF(x) [1-F(x)] → E[Fn(x)]=F(x) Var[Fn(x)]= F( x )[1 − F( x )] n Assim se conclui que Fn(x) é um estimador centrado e quando n → ∞ , é um estimador consistente de F(x). As estatísticas que se consideram são as seguintes: • Estatística bilateral Dn= sup |Fn(x) – F(x)| xεR • Estatística unilateral D n+ = sup [Fn(x) – F(x)] xεR Maria Eugénia Graça Martins Análise de Dados • 118 Estatística unilateral D n− = sup [F(x) – Fn(x)] xεR As estatísticas unilaterais podem-se apresentar com outro aspecto, como vamos ver: D n+ = sup [Fn(x) – F(x)] xεR = max sup [Fn ( x ) − F( x )] 0≤i≤n X ≤ x < X i +1:n i:n i = max − inf F( x ) Xi:n ≤ x < Xi +1:n 0 ≤ i≤ n n i = max − F( X i:n ) 0 ≤ i≤ n n i = max max − F( X i:n ), o 1≤i≤n n Analogamente D n− = sup [F(x) – Fn(x)] xεR = max sup [F( x ) − Fn ( x )] 0 ≤ i≤ n X ≤ x < X i +1:n i:n i = max inf F( x ) − 0≤i≤n Xi:n ≤ x < Xi +1:n n i = max F( X i+1:n ) − 0≤i≤n n i = max max F(X i + 1:n ) − , o 0 ≤ i ≤ n −1 n = max max F(X i:n ) − 1≤ i ≤ n i − 1 , o n Resumindo, podemos escrever para as estatísticas de Kolmogorov-Smirnov (K-S): i • D n+ = max max − F( X i:n ), o 1≤i≤n n Maria Eugénia Graça Martins Análise de Dados 119 • D n− = max max F( X i:n ) − • Dn= Max { D n+ , D n− } 1≤ i ≤ n i − 1 , o n donde concluímos que a distribuição das estatísticas de teste depende das variáveis aleatórias F(Xi:n). Como F(Xi:n) é a iésima estatística ordinal de uma amostra cuja distribuição subjacente é a uniforme no intervalo (0, 1), concluímos que a distribuição das estatísticas de K-S é independente da distribuição considerada em H0, se esta for absolutamente contínua. Se a função distribuição postulada em H0, F(.), for absolutamente Teorema 5.3 contínua, as estatísticas D n+ , D n− e Dn, têm distribuições independentes de F. As distribuições exactas e assintóticas destas estatísticas encontram-se tabeladas. Vejamos quais as regras de teste associadas às diferentes estatísticas de KolmogorovSmirnov: 1. H0: X∩F(x) contra H1: X∩G(x) com F(x)≠G(x) para algum x Utiliza-se a estatística Dn e face ao valor observado de Dn, dn, rejeita-se H0 se dn≥dn,α, onde P(Dn≥dn,α) = α. 2. H0: X∩F(x) contra H1: X∩G(x) com G(x)≥F(x) para todo o x e para algum x, G(x)>F(x) Utiliza-se a estatística + D n+ e face ao valor observado de D n+ , dn+ , rejeita-se H0 se dn+ ≥ dn+,α , onde + P( D n ≥ dn,α ) = α. 3. H0: X∩F(x) contra H1: X∩G(x) com G(x)≤F(x) para todo o x e para algum x, G(x)<F(x) Utiliza-se a estatística − D n− e face ao valor observado de D n− , dn− , rejeita-se H0 se dn− ≥ dn−,α , onde − P( D n ≥ dn,α ) = α. Exemplo 5.5 Considere a seguinte amostra de dimensão 10, que se supõe proveniente de uma população X, com distribuição uniforme no intervalo (0,1): 0.621, 0.503, 0.203, 0.477, 0.710, 0.581, 0.329, 0.480, 0.554, 0.382. Verifique se existem razões para duvidar da nossa suposição. Vamos considerar o seguinte teste: Maria Eugénia Graça Martins Análise de Dados H0: X∩F0(x) 120 contra H1: X não tem a distribuição F0(x) com x<0 0 se F0(x)= x se 0 ≤ x < 1 1 se x ≥1 Vamos utilizar a estatística de teste bilateral Dn. Realizámos os cálculos numa folha de Excel e concluímos que dn=0,290. Consultando uma tabela com a distribuição de D10, obtemos que o quantil de probabilidade 95% é 0,409, d10,.05=0,409, pelo que tomamos a decisão de não rejeitar a hipótese nula, uma vez que 0,290<0,409. 5.2.5 Comparação entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov Vamos fazer a comparação entre estes dois testes de ajustamento, em termos das vantagens e desvantagens de um e outro: 1. O teste do Qui-quadrado pode ser aplicado quando os dados são discretos ou contínuos, enquanto que o teste de Kolmogorov-Smirnov pressupõe a continuidade dos dados. A tabela com os pontos críticos da distribuição de amostragem das estatísticas de teste de K-S só é exacte se a distribuição subjacente aos dados for contínua. Caso contrário, os quantis conduzem a um teste conservativo. Existe, no entanto, um processo para obter os pontos críticos exactos quando a distribuição é discreta (consultar Conover). 2. O teste do Qui-quadrado pode ser facilmente modificado, de modo a permitir a estimação de parâmetros a partir dos dados, enquanto que o teste de Kolmogorov-Smirnov não tem essa flexibilidade. No entanto, existem algumas Maria Eugénia Graça Martins Análise de Dados 121 distribuições importantes, como são o caso da Normal e da Exponencial, para os quais existem tabelas com os valores corrigidos para os pontos críticos das estatísticas de teste. O caso mais conhecido é o da Normal, chamando-se neste caso teste de Lilliefors. 3. O teste de Kolmogorov-Smirnov trata as observações individualmente, enquanto que o teste dfo Qui-quadrado discretiza os dados, procedendo ao seu agrupamento, dando origem a perca de informação. 4. O teste de Kolmogorov-Smirnov é aplicável para o caso de pequenas amostras, enquanto que o teste do Qui-quadrado é essencialmente para grandes amostras, uma vez que só dispomos da distribuição assintótica da distribuição de amostragem, da estatística de teste. Maria Eugénia Graça Martins Análise de Dados 122 5.3.► Problema da localização e da localização e simetria – teste dos Sinais e teste de Wilcoxon 5.3.1 ► Introdução Seja (X1, X2, ...,Xn) uma amostra aleatória de dimensão n, proveniente de uma população com função distribuição F(.) desconhecida. Admitiremos usualmente, no que se segue, que F(.) é absolutamente contínua, com função densidade f(.). Seja p um real que assume valores no intervalo (0, 1) e designemos por χ (F) o quantil p de probabilidade p, de F(.). Um problema que tem interesse estudar é o chamado problema da localização, em que se pretende testar: H0: χ (F)= χ 0 p contra H1: χ (F)> χ ou 0 p H1: χ (F)< χ ou 0 p H1: χ (F)≠ χ 0 p Um outro problema é o chamado problema da localização e simetria, em que se pretende testar: H0: χ 0.5 (F)= χ e F(.) simétrica 0 contra H1: χ 0.5 (F)≠ χ ou F(.) não simétrica 0 O nosso objectivo vai ser o de encontrar estatísticas de teste convenientes, cuja distribuição de amostragem, sob a validade de H0, seja conhecida. Exemplo 5.6 Os passageiros que utilizam determinada carreira da Carris, na paragem de Entrecampos, têm-se queixado alegando que o tempo que esperam pelo autocarro é demasiado, quando a empresa afirma que a mediana do tempo de espera é inferior a 20 minutos. Haverá razão para duvidar da afirmação da Carris? Pretende-se testar se existe evidência para afirmar que a mediana da população constituída pelos tempos de espera na referida paragem é superior a 20 minutos, ou seja: Maria Eugénia Graça Martins Análise de Dados 123 H0: χ 0.5 (F)≤20 contra H1: χ 0.5 (F)>20 com base numa amostra de tempos de espera (em minutos) de 12 passageiros escolhidos aleatoriamente e que foram 25, 15, 19, 16, 21, 24, 18, 18, 24, 28, 25, 21. Vamos considerar para estatística de teste a variável aleatória R que representa o número de elementos da amostra superiores a 20, e que sob H0 tem distribuição Binomial(12, 0.5). Como a hipótese alternativa é que a mediana é superior a 20, então deveremos rejeitar a hipótese nula para valores grandes da estatística de teste, pois se H1 fosse verdadeira, situação que nos levaria a rejeitar H, esperaríamos encontrar, na amostra, muitos valores maiores que a mediana. No nosso caso tem-se r0=7, pelo que vamos calcular o P-value, que é, neste caso, a probabilidade de encontrar um valor igual ou maior que o valor observado, ou seja P-value= P(R≥7|R∩B(12, 0.5))=0.387 Decisão: Não há evidência para rejeitar a afirmação da Carris (só rejeitaríamos a hipótese nula para α≥38.7%). Este exemplo que acabámos de apresentar é um exemplo de um teste, chamado teste dos sinais, que vamos introduzir formalmente a seguir. 5.3.2 ► Teste dos Sinais Consideremos uma população X contínua, com distribuição F(.), da qual se recolheu uma amostra aleatória (X1, X2, ...,Xn), e sobre a qual pretendemos testar H0: χ (F)= χ , ou seja P(X≤ χ )=p. 0 0 p Sob a validade de H0 é de esperar que nos surjam np valores menores do que χ 0 e n(1-p) valores maiores do que χ , dos n valores da amostra. Vamos então considerar 0 uma estatística que conta o número de valores maiores do que χ : 0 n Sn= ∑ I( X i − χ 0 ) =nº de sinais positivos na amostra {Xi - χ }, 0 i=1 1 se X i > χ 0 já que I(Xi - χ )= 0 0 se X i ≤ χ 0 Então, sob Ho, Sn∩B(n, 1-p). Maria Eugénia Graça Martins com probabilidade (1 − p) com probabilidade p Análise de Dados 124 Como a região de rejeição vai depender da hipótese alternativa que se especificar, consideremos, então, os seguintes casos: 1º caso: H0: χ (F)= χ 0 p contra ou seja P(X≤ χ )=p 0 H1: χ (F)< χ 0 p P(X≤ χ )=p’>p 0 Se a hipótese alternativa for verdadeira, temos maior probabilidade de obter valores menores que χ ou seja, esperamos obter menos valores, na amostra, maiores do que 0 χ 0 , do que os que esperaríamos obter se Ho fosse verdadeira. Então, devemos rejeitar Ho para valores pequenos da estatística de teste: Região de rejeição: 0, 1, ..., cα, onde P[Sn≤ cα | Sn∩B(n, 1-p)] ≤α 2º caso: H0: χ (F)= χ p 0 ou seja P(X≤ χ )=p 0 contra H1: χ (F)> χ p 0 P(X≤ χ )=p’<p 0 Se a hipótese alternativa for verdadeira, temos menor probabilidade de obter valores menores que χ ou seja, esperamos obter mais valores, na amostra, maiores do que 0 χ 0 , do que os que esperaríamos obter se Ho fosse verdadeira. Então, devemos rejeitar Ho para valores grandes da estatística de teste: Região de rejeição: c 'α c 'α +1, ..., n, onde P[Sn≥ c 'α | Sn∩B(n, 1-p)] ≤α Temos ainda um 3º caso, em que o teste é bilateral, o qual será apresentado no resumo que se segue, pois é uma situação que se deduz das duas anteriores: Maria Eugénia Graça Martins Análise de Dados 125 Formalizando o teste em que aplicamos a estatística Sn e a que chamamos teste dos Sinais, temos, para o nível de significância α: H1 H0 χp (F)= χ 0 Região de rejeição χp (F)< χ 0 Sn≤ cα χp (F)> χ 0 Sn≥ c 'α χp (F)≠ χ 0 Sn≤ c *α ou Sn≥ c '*α onde cα é o maior inteiro tal que cα n i= 0 ∑ i (1 − p) p c 'α é o menor inteiro tal que * α c é o maior inteiro tal que e c '*α é o menor inteiro n n i= c 'α i ( n −i ) ∑ i (1 − p) p c *α n i= 0 n n i= c '*α i ∑ i (1 − p) p i ( n −i ) ( n −i ) ∑ i (1 − p) p i ≤α ( n −i ) ≤α ≤ α/2 ≤ α/2 Observação: Os valores da amostra que forem iguais a χ são desprezados, 0 diminuindo-se a dimensão da amostra em conformidade com o número de valores desprezados. Exemplo 5.7 Os dados seguintes referem-se ao peso (em Kg) de 12 crianças de 6 anos, seleccionadas aleatoriamente, entre os alunos de uma escola primária: 22.3, 21.7, 19.6, 18.4, 17.7, 19.3, 18.5, 18.6, 17.8, 16.9, 21.4, 20.6. A tabela de pesos para crianças de 6 anos, indica que o valor do 1º quartil é 19 kg. Uma técnica de saúde, que visitou a escola, apresentou um relatório, reclamando um suplemento alimentar para as crianças, alegando que elas apresentavem um peso inferior ao tabelado. Teste a veracidade desta afirmação. Qual o menor nível de significância que leva à rejeição da hipótese de que as crianças apresentam um peso, dentro do que está tabelado? Ho: χ 0.25 (F)=19 H1: χ 0.25 (F)<19 onde F é a função distribuição da v.a. X, que representa o peso das crianças de 6 anos. Vamos considerar como estatística de teste a v.a. S12, que representa o número de crianças, na amostra, com peso superior a 19, que sob Ho, tem distribuição Binomial(12, 0.75), S12|Ho∩B(12, 0.75) Maria Eugénia Graça Martins Análise de Dados 126 Rejeitamos Ho para valores pequenos da estatística de teste, cujo valor observado é s12 =6. Então P(S12≤6)Ho =0.0544 Decisão: O menor nível de significância que nos levaria a rejeitar a hipótese nula seria α=5.44%. Para α=10% há evidência para afirmar que as crianças têm peso inferior ao tabelado. 5.3.2.1 ► Teste dos Sinais para amostras emparelhadas O teste dos sinais pode ser facilmente modificado para se aplicar a amostras emparelhadas, quando se pretende comparar dois processos associados à amostra bivariada (Ui, Vi), i=1, 2, ..., n e cujos resultados observados são os pares (ui, vi). Para utilizar o teste dos Sinais, passamos à amostra Xi= Ui - Vi, admitimos que Xi tem distribuição absolutamente contínua H(.) e as hipóteses que pretendemos testar são relativamente a esta função. Uma hipótese que tem interesse testar é a de que a mediana de X assume um determinado valor, que, sem perda de generalidade, assumimos ser 0. Então, pretende-se testar H0: χ 0 .5 (H)=0 contra H1: χ 0 .5 (H)≠0 Repare-se que a hipótese nula é equivalente a considerar que P(X>0)=P(X<0)=1/2, ou P(U>V)=P(U<V)=1/2 ou P(+)=P(-)=1/2 e como hipóteses alternativas temos: • P(U>V)<P(U<V) ⇔ P(+)>P(-) ⇔ χ • P(U>V)<P(U<V) ⇔ P(+)<P(-) ⇔ χ • P(U>V) ≠P(U<V) ⇔ P(+)≠P(-) ⇔ χ 0 .5 0 .5 (H)>0 (H)<0 0.5 (H) ≠0 O teste dos sinais é o método não paramétrico, equivalente ao teste-t para amostras emparelhadas. Observação: Sempre que se verificarem ligações, isto é, valores ui=vi, esses valores são desprezados, diminuindo-se a dimensão da amostra, do número de ligações existentes. Exemplo 5.8 Os dados seguintes referem-se ao número de batimentos cardíacos, por minuto, de 10 ratos quando sós ou quando na presença de outro rato. Pretende-se averiguar, se o facto de os ratos estarem acompanhados, faz aumentar o ritmo cardíaco: Maria Eugénia Graça Martins Análise de Dados 127 1 2 3 4 5 6 7 8 9 10 Só (U) 463 462 462 456 450 426 418 415 409 402 Acomp. (V) 523 499 461 535 476 454 448 408 470 437 Rato Vamos considerar a amostra xi=ui-vi, proveniente de uma v.a. X, com distribuição H, pretendendo-se testar: H0: χ 0.5 (H)=0 H1: χ contra 0.5 (H)<0 Estatística de teste: S10|Ho∩B(10, 0.5) Valor observado da estatística de teste: s10=2. Chamamos a atenção para o facto de não ser necessário obter o valor dos xi, para calcular o valor observado da estatística de teste, já que o que nos interessam são os valores positivos. Assim, basta conhecer o sinal da diferença entre os ui e os vi, como se exemplifica a seguir, acrescentando mais uma linha à tabela anterior: Rato 1 2 3 4 5 6 7 8 9 10 Só (U) 463 462 462 456 450 426 418 415 409 402 Acomp. (V) 523 499 461 535 476 454 448 408 470 437 - - + - - - - + - - P-value: P=P(S10≤2)Ho =0.0547 Decisão: Rejeitar H0 para α≥5.47%, isto é, para valores do nível de significância superiores a 5.45%, há evidência para afirmar que os batimentos cardíacos aumentam, quando os ratos estão acompanhados. 5.3.3 ► Teste de Wilcoxon Ao ignorar a amplitude da diferença entre as observações e o quantil especificado na hipótese nula, o teste dos Sinais está a desprezar grande parte da informação disponível na amostra. O teste de Wilcoxon é um teste alternativo ao teste dos Sinais, para populações contínuas e simétricas, em que se pretende testar o seguinte: H0: χ 0 .5 (F)= χ 0 Maria Eugénia Graça Martins contra H1: χ 0.5 (F)> χ 0 ou H1: χ 0.5 (F)< χ 0 ou H1: χ 0.5 (F)≠ χ 0 Análise de Dados 128 Sem perda de generalidade, vamos considerar χ =0, pois caso isso não se verifique, 0 considera-se a amostra {Xi- χ }. 0 Como nas populações simétricas a mediana e o valor médio coincidem, neste teste podemos falar indiferentemente de valor médio ou mediana. Para obter as estatísticas de teste, é necessário entrar com o conceito de ordem: • Considera-se a amostra X1, X2, ..., Xn; • Considera-se a amostra das estatísticas ordinais X1:n<X2:n<...<Xn:n (não admitimos ligações); • Chama-se ordem de Xj ao valor Rj tal que XRj:n=Xj, para 1≤j≤n. Uma vez o conceito de ordem definido, vejamos como obter as estatísticas de Wilcoxon: 1. Ordena-se a amostra Yj=|Xj|, onde (X1, X2, ..., Xn) é a amostra dada (estamos a admitir que χ =0), onde Yj≠0 e não existem ligações; 0 2. Associa-se a cada Yj a sua ordem Rj, 1≤j≤n, mantendo-se informação sobre o sinal original de Xj, 1≤j≤n. As estatísticas de Wilcoxon são: Tn+ = soma das ordens correspondentes aos X’s positivos n = ∑ R I(X ) i =1 Tn− i i em que 1 t > 0 I(t)= 0 t < 0 = soma das ordens correspondentes aos X’s negativos + Tn= max( Tn , Tn− ) As estatísticas Tn+ e Tn− estão linearmente relacionadas, já que Tn+ + Tn− = n(n + 1) , 2 fornecendo, portanto, critérios equivalentes. Vamos considerar a estatística Tn+ , e comecemos por fazer as seguintes considerações. Sob a validade de H0, é de esperar que a soma das ordens positivas não difira grandemente da soma das ordens negativas. Uma soma “grande” para as ordens positivas (negativas), relativamente à soma das ordens negativas (positivas), implica Maria Eugénia Graça Martins Análise de Dados 129 que a mediana tenha uma pequena probabilidade de ser igual a zero. Então, se considerarmos a estatística de teste Tn+ , como nos propusemos, vejamos quais as diferentes regiões de rejeição, face às alternativas usuais: H0 H1 χ 0.5 (F)= 0 Região de rejeição χ 0.5 (F)> 0 Tn+ ≥cα χ 0.5 (F)< 0 Tn+ ≤ c 'α χ 0.5 (F)≠ 0 Tn+ ≥ c *α ou Tn+ ≤ c '*α Exemplo 5.9 Considerando a população constituída pelas percentagens de pessoas com idade maior ou igual a 60 anos, nos diferentes países, retirou-se desta população uma amostra de dimensão 12, cujos elementos são: 4.9, 6.0, 6.9, 17.6, 4.5, 12.3, 5.7, 5.3, 9.6, 13.5, 15.7, 7.7. Admitindo a simetria da população, teste se existe evidência para duvidar que a mediana da população seja igual a 12. Pretende-se então realizar o seguinte teste: H0: χ 0.5 (F)= 12 contra O valor da estatística de teste é igual a 14. Por outro lado H1: χ 0.5 (F)≠ 12 T12+ + T12− =12*13/2=78, pelo que verificamos que o valor observado para a estatística de teste é “demasiado” pequeno para o que estávamos à espera se a hipótese nula fosse verdadeira! Efectivamente, se H0 fosse verdadeira, esperaríamos obter um valor Maria Eugénia Graça Martins Análise de Dados 130 para a estatística de teste à volta de 39. Precisamos então de calcular a probabilidade de obter um valor + igual ou mais pequeno do que o valor observado para a estatística de teste, ou seja, P( T12 ≤14│H0), mas para isso é necessário conhecer a distribuição de amostragem de T12+ . Admitindo, para já, a existência de + uma tabela com essa distribuição, verificamos que P( T12 ≤14│H0)=0.026. Então o P-value é igual a 0.052, pelo que a decisão a tomar é a de rejeitar a hipótese nula para α≥5.2%. 5.3.3 1 ► Distribuição de amostragem de Tn+ Para obter a distribuição de amostragem de Tn+ , vamos introduzir as seguintes variáveis aleatórias: Z(i)= 1 se o Y j = X j com ordem i corresponde a um X j positivo 0 caso contrário Então, em termos dos Z(i), a estatística de teste Tn+ vem Tn+ = n ∑i Z i =1 (i) Vamos começar por obter a distribuição assintótica de Tn+ , pelo que temos de calcular (caso existam!) o seu valor médio e variância, sob H0: E( Tn+ )= • n ∑ i E(Z i=1 (i) ) E(Z(i)) = 1.P(Z(i)=1) = P(Yi:n corresponder a um Xj positivo) = 1/2 (porque sob H0 P(Xj <0)=P(Xj >0)=1/2) • Var(Z(i)) = E(Z(i)2) – E2(Z(i)) = E(Z(i)) – E2(Z(i)) = 1/4 Então 1 n n(n + 1) i= ∑ 2 i=1 4 • E( Tn+ )= • Var( Tn+ )= 1 n 2 n(n + 1)(2n + 1) ∑i = 4 i=1 24 Maria Eugénia Graça Martins Análise de Dados 131 Distribuição assintótica de Tn+ Para n grande a condição de Lindeberg é satisfeita, pelo que sendo válida uma generalização do teorema limite central, vem que, sob H0, a distribuição de n(n + 1) 4 pode ser aproximada pela distribuição N(0,1) n(n + 1)(2n + 1) 24 Tn+ − Distribuição exacta de Tn+ Para o caso de n ser pequeno, a distribuição de Tn+ fica completamente identificada pelos z(i), i=1, 2, ..., n, pelo que o espaço amostral pode ser considerado como o conjunto dos 2n n-énuplos (z(1), z(2), ..., z(n)) onde cada z(i)=0 ou 1. Então, sob H0: 1. Tn+ =0 se todos os Xi’s forem negativos (z(i)=0, i=1, 2, ..., n); 2. Tn+ = n(n + 1) se todos os Xi’s forem positivos (z(i)=1, i=1, 2, ..., n); 2 3. Tn+ é simétrica em torno do seu valor médio n(n + 1) ; 4 nº de modos possíveis como se pode obter k somando inteiros distintos entre 1 e n n(k) = n 4. P( Tn+ =k)= 2n 2 Exemplifiquemos para o caso de n=3: T3+ = k (z(1), z(2), z(3)) n(k) 0 (0, 0, 0) 1 1/8 1 (1, 0, 0) 1 1/8 2 (0, 1, 0) 1 1/8 3 (1, 1, 0) 2 2/8 4 (1, 0, 1) 1 1/8 5 (0, 1, 1) 1 1/8 6 (1, 1, 1) 1 1/8 + P( T3 =k) (0, 0, 1) Maria Eugénia Graça Martins Análise de Dados 132 Observação: Como a v.a. é simétrica relativamente ao seu valor médio, bastaria calcular a tabela anterior para os valores de k=0, 1, 2 e 3, uma vez que E( T3+ )=3. Para valores de n pequenos, a distribuição exacta da estatística Tn+ encontra-se tabelada. Se esta distribuição já não se encontrar tabelada para um determinado valor de n, significa que podemos utilizar a distribuição assintótica. No início da definição da estatística de teste de Wilcoxon, dissemos que não se admitiam ligações, assim como os elementos da amostra eram diferentes da mediana. Na realidade, tem sentido fazer estas hipóteses, já que se a distribuição da população em estudo é contínua, a probabilidade de obter dois valores iguais, assim como a probabilidade de obter valores iguais a um valor prefixado, são nulas. Na prática a situação é diferente, uma vez que ao medirmos uma variável contínua, necessitamos de a discretizar, o que faz com que surjam observações iguais entre si ou iguais à mediana. No caso de existirem ligações, substituímos as ordens desses elementos, pela média das ordens que teriam se diferissem ligeiramente uns dos outros, mas a distribuição de amostragem da estatística de teste já não é a mesma. Vejamos o caso simples de n=4 e de o 1º e 2º elementos y1:4 e y2:4 serem iguais, a que atribuímos a média das ordens 1 e 2, ou seja 1.5: T4+ = k + P( T4 =k) 0 1.5 3 4 4.5 5.5 6 7 8.5 10 1/16 2/16 2/16 1/16 2/16 2/16 1/16 2/16 2/16 1/16 O valor médio é o mesmo, que no caso de não haver ligações, ou seja E( T4+ )=5, mas a variância vem igual a Var( T4+ )=7.375, enquanto que no caso de não haver ligações viria igual a 7.5 (=4*5*9/24). Efectivamente, se representarmos as ordens, no caso de haver ligações, por ri, tem-se que E( Tn+ )= 1 2 n ∑ i=1 ri = 1 2 n ∑ i=1 + i , mas Var( Tn )= 1 4 n ∑ i=1 ri2 ≠ 1 4 n ∑i 2 . i=1 Na prática, como as variâncias não diferem muito, utiliza-se a distribuição da estatística, como se não houvesse ligações. Relativamente aos valores observados que possam surgir iguais à mediana, é usual desprezá-los, diminuindo do mesmo número de unidades, a dimensão da amostra. Maria Eugénia Graça Martins Análise de Dados 133 Exemplo 5.10 (Adaptado de Murteira, B., 2002) Os dados do quadro seguinte constituem uma amostra de observações da precipitação anual em Beja. Pensa-se que a mediana da população é igual a 650 mm. Verifique se existem razões para duvidar desta hipótese. 607.4 592.8 513.3 602.3 809.1 809.1 345.4 527.4 672.0 721.8 488.8 620.0 497.6 581.1 533.9 481.1 407.7 728.4 464.0 384.2 Seja X a v.a. que representa a precipitação anual em Beja. Então, pretende testar-se H0: P(X<650)=P(X>650)=1/2 contra H1:P(X<650)≠P(X>650) Vamos utilizar este exemplo para o resolver pelo teste dos Sinais e pelo teste de Wilcoxon e comparar os resultados. Seja S20 a v.a. que representa o nº de elementos da amostra maiores que 650, ou seja, o nº de sinais positivos nas diferenças (xi-mediana). Sob H0, S20 tem uma distribuição Binomial(20,0.5). Na tabela anterior acrescentámos os sinais das diferenças 607.4(-) 592.8(-) 513.3(-) 602.3(-) 809.1(+) 809.1(+) 345.4(-) 527.4(-) 672.0(+) 721.8(+) 488.8(-) 620.0(-) 497.6(-) 581.1(-) 533.9(-) 481.1(-) 407.7(-) 728.4(+) 464.0(-) 384.2(-) obtendo o valor observado da estatística de teste s20=5. Como se rejeita para valores “grandes” ou “pequenos” da estatística de teste, vem que P-value=2 P(S20≤5)=2×0.0207=0.0414, donde temos a seguinte decisão: Rejeitar H0 para α≥4.14%. Se pensarmos em termos da região crítica, temos que para o nível de significância de 5%, ela é constituída pelos valores {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20}. Isto significa que nenhuma hipótese que proponha uma mediana maior que 488.8 (observação de ordem 6, quando se considera a amostra ordenada) ou menor que 620.0 (observação de ordem 15 quando se considera a amostra ordenada), será rejeitada para o nível de significância de 5%. Desta conclusão podemos concluir que o intervalo (488.8, 620.0) é um intervalo de confiança, com uma confiança de 95% para a mediana. Admitindo que a distribuição F da precipitação é simétrica, vamos utilizar o teste de Wilcoxon na resolução deste problema. As hipóteses a testar são as mesmas, embora as apresentemos com outro aspecto: H0: Maria Eugénia Graça Martins χ 0.5 (F)= 650 contra H1: χ 0.5 (F) ≠ 650 Análise de Dados 134 O valor observado para a estatística de teste foi 43, pelo que consultando a tabela da distribuição de + ≤43)=0.01, donde o P-value =0.02, pelo que temos a seguinte decisão: Wilcoxon, verificamos que P( T20 Rejeitar H0 para α≥2%. Comparando com o resultado obtido pelo teste dos Sinais, verificamos que agora rejeitamos mais vezes, o que não deve estranhar, pois este teste foi realizado na posse de mais informação: não só admitimos a simetria da distribuição, como utilizámos mais informação fornecida pelos dados. 5.3.3.2 ► Teste de Wilcoxon para amostras emparelhadas O teste de Wilcoxon, como o teste dos Sinais, pode ser modificado para se aplicar a amostras emparelhadas, quando se pretende comparar dois processos associados à amostra bivariada (Ui, Vi), i=1, 2, ..., n e cujos resultados observados são os pares (ui, vi). Para utilizar o teste de Wilcoxon, passamos à amostra Xi= Ui - Vi, admitimos que Xi tem distribuição absolutamente contínua H(.) e simétrica e as hipóteses que pretendemos testar são relativamente a esta função. Uma hipótese que tem interesse testar é a de que a mediana ou valor médio de X assume um determinado valor, que, sem perda de generalidade, assumimos ser 0. Então, pretende-se testar H0: χ Maria Eugénia Graça Martins 0 .5 (H)=0 contra H1: χ 0 .5 (H)≠0 Análise de Dados 135 5.3.3.3 ► O teste de Wilcoxon e o teste-t O teste de Wilcoxon é a versão não paramétrica do teste-t para uma única amostra. Existem estudos (Montgomery, 1999) que comparam os dois testes e que concluem que, de um modo geral, o teste de Wilcoxon nunca é muito pior do que o teste-t, e que na maior parte das situações em que a população subjacente não é Normal, pode ser superior. Temos assim uma alternativa bastante útil ao teste-t. 5.4.► Testes de hipóteses em modelos não paramétricos para testar a homogeneidade de várias populações independentes 5.4.1 ► Comparação de duas populações independentes 5.4.1.1 ► Teste de Mann-Whitney Wilcoxon Consideremos duas populações contínuas X e Y, independentes, em que assumimos que as suas distribuições têm a mesma forma e variabilidade, só diferindo na localização. Face a duas amostras independentes, pretende testar-se a sua homogeneidade, isto é, dadas as amostras independentes (X1, X2, ..., Xm) e (Y1, Y2, ..., Yn), respectivamente de X e Y, pretende testar-se H0:FX(x)=GY(x) ∀ x contra H1: alternativa unilateral ou bilateral O processo que se vai considerar para arranjar uma estatística dec teste, vai ser o de considerar a amostra conjunta dos X’s e dos Y’s, considerando-se para estatística de teste a v.a. que conta o nº total de Y’s que são maiores que os Xi, i=1, 2, ..., m. Assim, considerando 1 Yj > X i Zij= 0 Yj ≤ X i para i=1, 2, ..., m; j=1, 2, ..., n a estatística de Mann-Whitney-Wilcoxon é dada por W m,n = m n ∑∑ Z i=1 j=1 ij cujo domínio de variação é o intervalo [0, mn] Vejamos então qual a regra de teste, de acordo com a alternativa especificada: Maria Eugénia Graça Martins Análise de Dados 136 H0 H1 Região de rejeição FX(x)=GY(x) ∀ x FX(x)≥GY(x) ∀ x e para algum x, FX(x)>GY(x) W m,n ≥cα FX(x)=GY(x) ∀ x FX(x)≤GY(x) ∀ x e para algum x, FX(x)<GY(x) W m,n ≤cα FX(x)=GY(x) ∀ x FX(x)≠GY(x) para algum x W m,n ≥ c *α ou W m,n ≤ c '*α Observação: Chamamos a atenção para o facto de que dizer que F>G é equivalente a dizer que X<Y, pois, como se verifica pela figura junta, dado um x qualquer, tem-se P(X≤x)>P(Y≤x) ou P(X>x)<P(Y>x), isto é, se F>G, então X toma valores menores que x com maior probabilidade do que Y toma valores menores que x, ou tem menor probabilidade de tomar valores maiores que x, do que Y. Este facto faz com que, por exemplo, na primeira situação de teste considerada anteriormente, se a hipótese alternativa em que admitimos que F>G, for verdadeira, esperamos encontrar “muitos” Y’s maiores que X’s, na amostra conjunta (já que X<Y), ou seja um valor “grande” para a estatística de teste. Assim, um valor “grande” para a estatística de teste leva-nos a rejeitar a hipótese nula. Sabemos que um valor grande deve situar-se próximo de mn, mas para saber qual o ponto crítico que, para um determinado nível de significância define a fronteira entre a região de rejeição e a de não rejeição, temos de conhecer a distribuição de amostragem da estatística de teste. 5.4.1.1 1 ► Distribuição de amostragem de Wm,n Vamos começar por obter a distribuição assintótica de W m,n, pelo que temos de calcular o seu valor médio e variância, sob H0: m n m n E(W m,n)= ∑∑ E(Z ij ) = ∑∑ P(Y j > X i ) i=1 j=1 Maria Eugénia Graça Martins i=1 j=1 Análise de Dados Var(W m,n)= 137 m n m n ∑∑∑∑ Cov(Z , Z ij hk ) i=1 j=1 h =1 k =1 Se H0 verdadeiro, P(Yj>Xi)=1/2, pelo que E(W m,n)= mn 2 No que diz respeito à variância, é necessário calcular E(ZijZhk), pelo que vamos considerar o produto 1 se X i < Y j e X h < Yk 0 caso contrário ZijZhk= Então, sob H0, E(ZijZhk)=P(Xi<Yj e Xh<Yk)=P(Xi<Yj) se i=h e j=k =P(Xi<Yj)2 se i≠h, j≠k =P(Xi<Yj, Xh<Yj) se i≠h, j=k ou i=h, j≠k Para calcular as probabilidades anteriores, basta ter em consideração que, dados 3 elementos de uma amostra X1, X2 e X3, P(X1< X2)=1/2 e P(X1<X2, X3<X2)=2/6=1/3. Atendendo a que Cov(Zij, Zhk)= E(ZijZhk) – E(Zij)E(Zhk), vem, sob H0: Cov(Zij, Zhk)= 0 se i≠h, j≠k 1/4 se i=h e j=k 1/12 se i≠h, j=k ou i=h, j≠k Assim, para obter a variância de W m,n, basta contar o nº de termos em que se verificam cada uma das situações anteriores, e que é: Se i=h, j=k o nº de termos é mn j=k, i≠h “ n×m(m-1) i=h, j≠k “ m×n(n-1) Finalmente temos que Var(W m,n)= mn(m + n + 1) 12 Resumindo, algumas propriedades da estatística W m,n, são: Maria Eugénia Graça Martins Análise de Dados 138 • Domínio: {0, 1, 2, ..., mn} • E(W m,n)= • Var(W m,n)= • É simétrica relativamente ao seu valor médio. Assim, P(W m,n≤w)=P(W m,n≥mn-w) mn 2 mn(m + n + 1) 12 Distribuição assintótica de Wm,n Para valores elevados de m e n, embora as variáveis Zij sejam dependentes, i=1, ..., m; j=1, ..., n, continua a ser válido um teorema do tipo do teorema limite central, pelo que a distribuição de amostragem de mn 2 pode ser aproximada pela distribuição N(0,1) mn(m + n + 1) 12 Wm,n − A aproximação anterior é válida para valores suficientemente grandes de m e n e tais que m/n, seja aproximadamente constante (os valores de m e n não devem diferir muito). Distribuição exacta de Wm,n Para obter a distribuição exacta de W m,n sob a validade de H0, vamos representar a função massa de probabilidade por pm,n(k)=P(W m,n=k)=P[nº de Zij em que Yj>Xi (na amostra conjunta) igual a k], com K=0, 1, ..., mn. Considerando a amostra conjunta dos X’s e dos Y’s, vamos calcular a probabilidade anterior condicionando no maior valor dessa amostra conjunta, fazendo o seguinte raciocínio: O maior elemento da amostra conjunta pode ser um elemento pertencente à amostra dos X’s, o que ocorre com probabilidade m (não esquecer que sob H0, existe m+n homogeneidade), ou pode ser um elemento pertencente à amostra dos Y’s, o que ocorre com probabilidade Maria Eugénia Graça Martins n . Por outro lado, para que W m,n venha igual a k: m+n Análise de Dados • 139 se o maior elemento for um Xi, é necessário que a amostra constituída pelos outros (m-1) X’s e n Y’s, contribua com k Zij nas condições exigidas; • se o maior elemento for um Yj, ele está a contribuir com m Zij para k e é necessário que os restantes m X’s e (n-1) Y’s contribuam com (k-m). Assim, pm,n(k)=P(W m,n=k)= P(o maior elemento ser um X)×P(Wm-1,n=k)+P(o maior elemento ser um Y)×P(W m,n-1=k-m) pm,n(k)= m n pm-1,n(k)+ pm,n-1(k-m) m+n m+n A equação anterior, juntamente com as condições iniciais seguintes: 1. p0,n(0)=1 2. Pm,0(0)=1 3. Pm,n(k)=0, se k<0, e m,n≥0. permite obter, de forma recursiva, a função massa de probabilidade de W m,n. Para valores pequenos de m e n, esta distribuição encontra-se tabelada. Se os valores de m e n pretendidos já não estiverem nas tabelas, significa que podemos utilizar a distribuição assintótica. 5.4.1.1 2 ► O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras O teste de Mann-Whitney-Wilcoxon é a alternativa não paramétrica ao teste-t para duas amostras independentes. Os resultados da comparação entre estes dois testes, são idênticos aos referidos quando comparámos o teste de Wilcoxon e o teste-t para uma única amostra. Acresce ainda o facto de que o teste-t, na presença de distribuições com caudas pesadas, tem um comportamento muito instável pois depende muito das médias amostrais, as quais são medidas pouco resistentes (Montgomery, 1999). Neste caso o teste de Mann-Whitney-Wilcoxon é uma boa alternativa. Exemplo 5.11 Dezassete estudantes foram escolhidos aleatoriamente para participarem num projecto de investigação educacional. Assim, enquanto 8 estudantes seguiram um curso tradicional de aprendizagem de uma língua, os restantes seguiram um curso de auto aprendizagem com cassetes vídeo. Ao fim de 4 semanas realizaram um teste, tendo-se obtido os seguintes resultados: Método tradicional: Maria Eugénia Graça Martins 75 82 28 82 94 78 76 64 Análise de Dados 140 Método auto aprendizagem: 78 95 63 37 48 74 65 77 63 Teste se existe evidência de diferença significativa entre os dois métodos. Resolução: Representando por X e Y, respectivamente, os resultados obtidos pelo método tradicional e pelo método de auto aprendizagem, com funções de distribuição F e G, respectivamente, pretendemos testar H0: FX(x)=GY(x) ∀x contra H1: FX(x)≠GY(x) para algum x Estatística de teste: A v.a. W 8,9, que representa o número de vezes que os Y’s são superiores aos X’s, na amostra conjunta. Para obter o valor observado para a estatística de teste, uma metodologia possível é a seguinte: 1º passo: o primeiro “y” que surge na amostra dos y´s, ou seja o 78, é superior a 4 X’S; 2º passo: o segundo “y” que surge na amostra os y’s, ou seja o 95, é superior a 8 x’s; .... 9º passo: o último “y” que surge na amostra os y’s, ou seja o 63, é superior a 1 x’s. Então, o valor observado da estatística de teste é w8,9=4+8+1+1+1+2+2+4+1=24 os valores que a estatística de teste pode assumir, variam entre 0 e 72, pelo que se rejeitarmos H0, será porque 24 é um valor demasiado pequeno, pelo que precisamos de calcular P(W 8,9≤24) Da As tabelas disponíveis só apresentam a P(W m,n>w), donde P(W 8,9≤24)=P(W 8,9≥72-24)=P(W 8,9>47) consulta das tabelas, verificamos que P(W 8,9)>60≈0.01 e que P(W 8,9)>49) ≈0.10, pelo que concluímos que P(W 8,9>47)>0.10 e temos um P-value>20%. Decisão: Não temos razão para duvidar que os dois métodos sejam idênticos. Exemplo 5.12 Dois plásticos, cada um produzido pelo seu processo foram testados para avaliar a sua resistência. As medidas a seguir representam as forças necessárias para danificarem vários pedaços idênticos dos dois tipos de plástico. Haverá razões para acreditar que o plástico 2 é mais forte que o plástico 1? Plástico 1: 15.3 18.7 22.3 17.6 19.1 14.8 Plástico 2: 21.1 22.4 18.3 19.3 17.1 37.7 Representando por F1 e F2, respectivamente a distribuição da força necessária para danificar o plástico 1 e o plástico 2, pretendemos testar: H0: F1(x)=F2(x) ∀ x contra H1: F1(x)≥ F2 (x) ∀ x e para algum x F1(x)> F2 (x) Estatística de teste: A v.a. W 6,6, que representa o número de vezes que os valores da amostra 2 são superiores aos valores da amostra 1, quando se considera a amostra conjunta. O valor observado da estatística de teste é w6,6=5+6+3+5+2+6=27. Maria Eugénia Graça Martins Análise de Dados 141 Rejeitamos a hipótese nula para valores grandes da estatística de teste, pelo que pretendemos calcular P(W 6,6≥27), ou seja P(W 6,6>26). Da consulta das tabelas P(W 6,6>26)=.10 Decisão: Para o nível de significância de 10%, rejeitamos a hipótese dos dois tipos de ração serem idênticos. Já não rejeitamos para 5% ou 1%. Exemplo 5.13 Temos dois tipos de alimentação para porcos A e B, tendo-se começado a desconfiar que a ração de tipo A é melhor que a de tipo B. Com base em amostras de pesos de porcos, com a mesma idade e da mesma ninhada, mas em que uns foram alimentados com a ração A e os outros com a ração B, verifique se a desconfiança tem razão de ser: Ração A: 73 42 90 58 62 Ração B: 50 23 68 40 45 Resolução: Pretende-se testar H0: FA(x)=FB(x) ∀ x contra H1: FA(x)≤FB(x) ∀ x e para algum x FA(x)<FB(x) Estatística de teste: W 5,5 que representa o número de vezes que os pesos B’s são superiores aos A’s. Valor observado da estatística de teste: w5,5=1+3+1=5 Rejeitamos a hipótese nula para valores pequenos da estatística de teste, pelo que pretendemos calcular P(W 5,5≤5), ou seja P(W 5,5≤5)=P(W 5,5≥25-5)=P(W 5,5≥20)=P(W 5,5>19). Da consulta das tabelas P(W 5,5>19)=.10 P(W 5,5>20)=.05 Assim P(W 5,5≤5)=P(W 5,5<6)= P(W 5,5>19)=0.10 Decisão: Para o nível de significância de 10%, rejeitamos a hipótese dos dois tipos de ração serem idênticos. Já não rejeitamos para 5% ou 1%. 5.4.1.1 3 ► Forma alternativa para a estatística de Mann-Whitney-Wilcoxon Por vezes, como estatística de Mann-Whitney-Wilcoxon, utiliza-se uma outra estatística, que consiste em considerar a v.a. n Tm.n= ∑ R(Yi ) = soma das ordens dos Y’s na amostra conjunta i=1 Como R(Yi)=(nº de X’s <Yi)+ordem de Yi nos Y’s, vem que n n i=1 i=1 Tm,n= ∑ R(Yi ) = ∑ nº de X' s < Yi ) + Maria Eugénia Graça Martins n(n + 1) , donde 2 Análise de Dados 142 Tm,n=W m,n + n(n + 1) 2 Observação: O cálculo directo do valor médio e da variância de Tm,n, prende-se com o seguinte problema: Considerem-se N bolas numa urna, numeradas de 1 a N. Uma a uma, retiram-se n dessas bolas, com n<N. Seja T a soma dos números das n bolas retiradas. Assumindo que as tiragens são aleatórias, calcular o valor médio e a variância de T. Podemos considerar T como a soma de n variáveis aleatórias X1, X2, ..., Xn, onde cada Xi é o número da i-ésima bola extraída: k k = 1,2,..., N Xi 1 P( X i = k ) = N N Então E(Xi)= ∑ k i=1 N +1 1 N +1 , pelo que E(T)=n = N 2 2 n n n Quanto à Var(T)= ∑ Var ( X i ) + ∑∑ Cov( X i , X j ) (i≠j) i=1 (1) i =1 j=1 Pode-se mostrar (Conover, pag 37 e segs) que Var(Xi) = (N + 1)(N − 1) N +1 e Cov(Xi, Xj)=12 12 Como na expressão (1) o termo que contém a variância aparece n vezes e o que contém a covariãncia aparece n(n-1) vezes, vem que Var(T)=n = (N + 1)(N − 1) N +1 +n(n-1)() 12 12 n(N + 1)(N − n) 12 Exemplo 5.13 Considere duas amostras independentes X1, X2, X3 e Y1, Y2 e a estatística de teste T3,2, anteriormente considerada. Determine a sua distribuição de amostragem. Resolução: Vamos considerar uma matriz, onde indicamos as ordens possíveis para Y1 e para Y2, na amostra conjunta, preenchendo a tabela com a soma dessas ordens, como se apresenta a seguir Maria Eugénia Graça Martins Análise de Dados 143 OrdemY1 Ordem Y2 1 2 3 4 5 1 2 X 3 4 5 6 2 X 3 4 5 3 4 5 X 7 8 4 5 6 7 X 9 5 6 7 8 9 x Então a função massa de probabilidade para a estatística vem T3,2=k 3 4 5 6 7 8 9 P(T3,2=k) .1 .1 .2 .2 .2 .1 .1 5.4.1.2 ► Teste de Kolmogorov-Smirnov para duas amostras Consideremos duas populações contínuas X e Y, independentes, e duas amostras X1, X2, ..., Xm e Y1, Y2, ..., Yn, respectivamente de X e Y. Com base nestas amostras pretende-se testar a homogeneidade das populações subjacentes. No teste de ajustamento de K-S, considerámos uma estatística de teste baseada na diferença entre a função distribuição empírica construída a partir da amostra dada, e a função distribuição da população subjacente à amostra. Agora vamos considerar uma estatística de teste construída com base na diferença das funções de distribuição empíricas construídas a partir das amostras dadas. 1. Processo para obter a estatística de teste Começam por se considerar as estatísticas ordinais e as funções de distribuição empíricas: 0 k X1:m, X2:m, ..., Xm:m e Fm* ( x ) = m 1 se x < X1:m se X k:m ≤ x < X k +:m se k = 1,..., m - 1 x ≥ X m:m e x < Y1:n 0 se k Y1:n, Y2:n, ..., Yn:n e Gn* ( x ) = se Yk:n ≤ x < Yk +:n n x ≥ Yn:n 1 se 2. Estatísticas de teste Maria Eugénia Graça Martins k = 1,..., n - 1 Análise de Dados 144 Dm,n= sup Fm* ( x ) − G n* ( x ) x [ ] [ ] D m+ ,n = sup Fm* ( x ) − G n* ( x ) x D m− ,n = sup G n* ( x ) − Fm* ( x ) x 3. Regra de teste para o nível de significância α Considerando como hipótese nula H0: As duas amostras são provenientes de populações homogéneas, ou seja FX(x)=GY(x), ∀ x, temos as seguintes hipóteses alternativas e as respectivas regiões de rejeição: a) H1: FX(x)≠GY(x) para algum x Utiliza-se a estatística Dm,n e rejeita-se H0 quando Dm,n≥Dm,n,α onde P(Dm,n ≥ Dm,n,α)≤α b) H1: FX(x) ≥GY(x) ∀ x e para algum x FX(x) >GY(x) Utiliza-se a estatística D m+ ,n e rejeita-se H0 quando D m+ ,n ≥ D m+ ,n,α onde P( D m+ ,n ≥ D m+ ,n,α )≤α c) H1: FX(x) ≤GY(x) ∀ x e para algum x FX(x) <GY(x) Utiliza-se a estatística D m− ,n e rejeita-se H0 quando D m− ,n ≥ D m− ,n,α onde P( D m− ,n ≥ D m− ,n,α )≤α 4. Distribuição das estatísticas de teste As distribuições das estatísticas de teste encontram-se tabeladas para pequenas amostras. Exemplo 5.14 Com o objectivo de estudar o efeito de determinado medicamento, foram recolhidas amostras de dois grupos de indivíduos – um grupo de controlo, a quem foi dado um placebo e outro grupo a quem foi administrado o medicamento. Os dados obtidos referem-se a uma variação de uma determinada substância existente na urina, relativamente a um valor padrão: Grupo de controlo: 0.22, -0.87, -2.39, -1.79. 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10, 0.30, 0.15, 2.30, 0.19, -0.50, -0.09 Grupo de tratamento: -5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, 5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50 Verifique se existe evidência de que o tratamento tenha efeito, para um nível de significância de 5%. Resolução: Representando por FC e GT, respectivamente as funções de distribuição das populações de onde foram recolhidas as amostras de controlo e de tratamento, vamos fazer o teste bilateral, pelo que as hipóteses a testar são: H0: FC(x)=GT(x) ∀ x Maria Eugénia Graça Martins contra H1: FC(x)≠GT(x) para algum x Análise de Dados 145 As funções de distribuição empírica são: * F20 (x)= 0 G *20 (x)=0 x<-2.39 x<-5.80 0.05 -2.39≤x<-1.79 0.05 -5.80≤x<-5.10 0.10 0.15 0.20 -1.79≤x<-1.54 -1.54≤x<-1.10 -1.10≤x<-0.87 0.10 0.15 0.20 -5.10≤x<-3.80 -3.80≤x<-3.30 -3.30≤x<-3.10 0.25 0.30 0.35 -0.87≤x<-0.74 -0.74≤x<-0.62 -0.62≤x<-0.50 0.25 0.30 0.35 -3.10≤x<-2.40 -2.40≤x<-2.20 -2.20≤x<-0.40 0.40 0.45 0.50 -0.50≤x<-0.31 -0.31≤x<-0.17 -0.17≤x<-0.09 0.40 0.45 0.50 -0.40≤x<0.07 0.07≤x<0.50 0.50≤x<1.63 0.55 0.60 0.65 -0.09≤x<0.15 0.15≤x<0.19 0.19≤x<0.22 0.55 0.60 0.65 1.63≤x<2.58 2.58≤x<3.50 3.50≤x<3.76 0.70 0.75 0.80 0.22≤x<0.30 0.30≤x<0.37 0.37≤x<0.38 0.70 0.75 0.80 3.76≤x<4.32 4.32≤x<4.87 4.87≤x<5.18 0.85 0.90 0.95 0.38≤x<1.28 1.28≤x<1.72 1.72≤x<2.3 0.85 0.90 0.95 5.18≤x<5.76 5.76≤x<6.31 6.31≤x<7.11 1.00 2.3≤x 1.00 7.11≤x * Então F20 (x) - G *20 (x)= 0 x<-5.80 -0.05 -0.10 -5.80≤x<-5.10 -5.10≤x<-3.80 0.15 0.20 0.25 0.15≤x<0.19 0.19≤x<0.22 0.22≤x<0.30 -0.15 -0.20 -0.25 -3.80≤x<-3.30 -3.30≤x<-3.10 -3.10≤x<-2.40 0.30 0.35 0.40 0.30≤x<0.37 0.37≤x<0.38 0.38≤x<0.50 -0.30 -0.25 -0.30 -2.40≤x<-2.39 -2.39≤x<-2.20 -2.20≤x<-1.79 0.35 0.40 0.35 0.50≤x<1.28 1.28≤x<1.63 1.63≤x<1.72 -0.25 -0.20 -0.15 -1.79≤x<-1.54 -1.54≤x<-1.10 -1.10≤x<-0.87 0.40 0.45 1.72≤x<2.30 2.30≤x<2.58 0.40 2.58≤x<3.50 -0.10 -0.05 0 -0.87≤x<-0.74 -0.74≤x<-0.62 -0.62≤x<-0.50 0.35 0.30 0.25 3.50≤x<3.76 3.76≤x<4.32 4.32≤x<4.87 0.05 0 0.05 -0.50≤x<-0.40 -0.40≤x<-0.31 -0.31≤x<-0.17 0.20 0.15 0.10 4.87≤x<5.18 5.18≤x<5.76 5.76≤x<6.31 0.10 0.15 0.10 -0.17≤x<-0.09 -0.09≤x<0.07 0.07≤x<0.15 0.05 0 6.31≤x<7.11 7.11≤x O valor observado da estatístiva de teste é d20,20=0.45, como se pode verificar da diferença entre as funções de distribuição empíricas, anteriormente considerada, e se pode visualizar na figura seguinte, onde estão representadas graficamente essas funções: Maria Eugénia Graça Martins Análise de Dados 146 Consultando uma tabela da distribuição D20,20, verificamos que P(D20,20≥0.45)=0.02. Então rejeitamos a hipótese nula para α≥2%, pelo que rejeitamos a hitótese de que o tratamento não tem efeito, para o nível de significância de 5%. 5.4.2 ► Comparação de mais de duas populações independentes 5.4.2.1 ► Teste de Kruskal-Wallis Consideremos p (≥3) populações contínuas, independentes, X1, X2, ..., Xp, com funções distribuição F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras X11, X12, ..., X1n1 X21, X22, ..., X 2n2 ... Xp1, Xp2, ..., X pnp Com base nas amostras anteriores, pretende-se testar a hipótese nula de que as p populações são homogéneas, contra a hipótese alternativa, de que pelo menos uma das populações fornece observações maiores ou menores. Para obter a estatística de teste, do mesmo modo que para o teste de Mann-Whitney, vamos considerar a amostra conjunta, constituída pelas p amostras. No entanto, a partir daqui vamos trabalhar com as ordens das observações, quando consideradas na amostra conjunta, pelo que deixaremos de trabalhar com os dados originais. Vamos delinear, a seguir, a filosofia que está por detrás do teste de Kruskal-Wallis. p Seja N a soma das dimensões das p amostras, N= ∑ n i , e representemos por R(Xij), i=1 i=1,...,p; j=1,...,ni, a ordem de Xij, na ordenação das N observações, onde, se existirem ligações, se associa a média das ordens. Representemos ainda por R1, R2, ..., Rp, a Maria Eugénia Graça Martins Análise de Dados 147 soma das ordens das obervações correspondentes, respectivamente, às amostras 1, 2, ..., p: ni Ri= ∑ R( X ij ) , i=1, 2, ..., p j=1 Se a hipótese nula for verdadeira, esperamos que a distribuição das ordens pelas diferentes amostras se faça aleatoriamente, pelo que nem as ordens pequenas, nem as ordens grandes terão tendência em concentrar-se numa das amostras. Assim, se se verificar a homogeneidade entre as populações, esperamos que as p somas das ordens das observações das p amostras, que representámos por Ri, sejam aproximadamente iguais, depois de devidamente ajustadas para entrar em linha de conta com as diferentes dimensões das amostras. Intuitivamente, uma possível estatística de teste, poderia ser uma estatística que determinasse se as somas das ordens não são substancialmente diferentes das que obteríamos se considerássemos populações idênticas. Então, sob a hipótese de homogeneidade, temos que ni E(Ri) = E( ∑ R( X ij ) ) = j=1 ni ∑ E(R( Xij )) = j=1 ni n (N + 1) 1 N i= i ∑ ∑ 2 j=1 N i=1 e vamos considerar uma estatística que consiste na soma ponderada dos quadrados dos desvios entre as somas das ordens e o valor médio anterior, utilizando como coeficiente de ponderação os inversos das dimensões das amostras: p 1 D= ∑ i=1 n i Pode-se mostrar que E(D) = n i (N + 1) R i − 2 2 (p − 1) N (N + 1) , utilizando-se então como estatística de 12 teste de Kruskal-Wallis a estatística 12 D , que se representa por K n1 ,n2 ,...,np e que se N(N + 1) costuma apresentar com o seguinte aspecto: p R i2 12 K n1 ,n2 ,...,np = ∑ -3(N+1) N(N + 1) i=1 ni Maria Eugénia Graça Martins Análise de Dados 148 com valor médio (p-1), independente das dimensões das amostras. A fórmula anterior obtém-se no pressuposto de que não existem ligações. Caso isso aconteça, é necessário introduzir uma correcção, pelo que a estatística de teste a utilizar será: 1 p R i2 N(N + 1) 2 − K n1 ,n2 ,...,np = 2 ∑ 4 S i=1 n i N(N + 1) 2 1 p ni 2 S= ∑∑ R ( X ij ) − N − 1 i=1 j=1 4 2 onde A distribuição de amostragem exacta (1), da estatística de teste, para valores pequenos das dimensões das amostras, encontra-se tabelada. Se ni≥5 para algum i, i=1,..., p, então a distribuição da estatística de teste pode ser aproximada pela distribuição do Qui-quadrado, com (p-1) graus de liberdade (2). Como regra de teste, rejeita-se a hipótese nula para valores grandes da estatística de teste, ou seja, para o nível de significância α, rejeita-se H0, quando o valor observado da estatística de teste for superior a um valor k n1,n2 ,...,np ,α , onde P( K n1 ,n2 ,...,np ≥ k n1 ,n2 ,...,np ,α )≤α. Alternativamente, face ao valor observado K n01 ,n2 ,...,np da estatística de teste, calcula-se o P-value, ou seja, P=P( K n1 ,n2 ,...,np ≥ K n01 ,n2 ,...,np ) e rejeita-se H0 para α ≥P. (1) Distribuição de amostragem exacta para a estatística de Kruskal-Wallis Para obter a distribuição exacta da estatística de teste K n1 ,n2 ,...,np , basta ter presente que, sob H0, todos os arranjos das ordens de 1 até N, em grupos de tamanhos n1, n2, ..., np, são igualmente prováveis. Calcula-se para cada um o valor da estatística de teste e assim se obtém a f.m.p da estatística. No caso particular de p=3, n1=2, n2=1 e n3=1, vem : Arranjo 1e2 3e4 5e6 7e8 9 e 10 11 e 12 13 e 14 15 e 16 17 e 18 Amostra 1(X1,X2) Ordens (X1,X2) ou (X2,X1) (1,2) (X1,X2) ou (X2,X1) (1,2) (X1,X2) ou (X2,X1) (1,3) (X1,X2) ou (X2,X1) (1,3) (X1,X2) ou (X2,X1) (1,4) (X1,X2) ou (X2,X1) (1,4) (X1,X2) ou (X2,X1) (2,3) (X1,X2) ou (X2,X1) (2,3) (X1,X2) ou (X2,X1) (2,4) Maria Eugénia Graça Martins 2 (Y) Ordem 3 4 2 4 2 3 1 2 1 2(Z) Ordem 4 3 4 2 3 2 2 1 3 K2,1,1 2.7 2.7 1.8 1.8 0.3 0.3 2.7 2.7 1.8 Análise de Dados 19 e 20 21 e 22 23 e 24 149 (X1,X2) ou (X2,X1) (2,4) (X1,X2) ou (X2,X1) (3,4) (X1,X2) ou (X2,X1) (3,4) 3 1 2 1 2 1 1.8 2.7 2.7 Da tabela anterior obtém-se para K2,1,1 a seguinte função massa de probabilidade: K2,1,1=k 0.3 1.8 2.7 P(K2,1,1=k) 4/24 8/24 12/24 Como se disse anteriormente, para obter a distribuição de amostragem da estatística de Kruskal-Wallis, não será necessário utilizar o processo anterior, pois embora simples, é trabalhoso, mesmo para o caso de valores pequenos das dimensões das amostras, já que estas distribuições se encontram tabeladas. (2) Distribuição de amostragem assintótica para a estatística de Kruskal-Wallis Na expressão da estatística de teste temos Ri, que é a soma de ni variáveis aleatórias, pelo que para ni suficientemente grande, pelo Teorema Limite Central, a distribuição de R i − E(R i ) Var (R i ) pode ser aproximada pela distribuição N(0,1). Tendo em conta a observação feita na secção 5.4.1.1.3, E(Ri)=ni n (N + 1)(N − n i ) N +1 . Então, a distribuição e Var(Ri)= i 2 12 de 2 R i − E(R i ) {R i − [n i (N + 1) / 2]}2 = Var (R i ) n i (N + 1)(N − n i ) / 12 pode ser aproximada pela distribuição do Qui-quadrado, com 1 grau de liberdade. Se os Ri fossem independentes (Conover, pag 235), a soma das p parcelas, idênticas à expressão anterior, correspondentes às p v.a. Ri, teria uma distribuição aproximada de um Qui-quadrado, com (p-1) graus de liberdade. No entanto a soma dos Ri é N(N+1)/2, pelo que existe dependência. Kruskal mostrou que se a parcela correspondente à variável Ri for multiplicada por (N-ni)/N, para cada i=1, 2, ..., p, então p {R i − [ni (N + 1) / 2]}2 i=1 n i (N + 1)N / 12 ∑ Maria Eugénia Graça Martins Análise de Dados 150 tem uma distribuição assintótica de um Qui-quadrado, com (p-1) graus de liberdade. A expressão utilizada como estatística de Kruskal-Wallis não é mais que um rearranjo dos termos da expressão anterior. Exemplo 5.15 Um produtor de vinhos seleccionou, aleatoriamente, 3 grupos de provadores de vinhos, em que cada grupo provava o mesmo vinho. No entanto, cada provador tinha uma entrevista pessoal, onde lhe era criada uma certa expectativa, quanto ao vinho que iria provar. Esta expectativa era a mesma dentro de cada grupo, sendo maior para o grupo A e menor para o grupo C. Depois da prova, cada provador tinha de atribuir uma classificação, numa escala de 1 a 10, em que 10 está no topo da tabela. As classificações obtidas foram as seguintes: Grupo A: 6.4, 6.8, 7.2, 8.3, 8.4, 9.1, 9.4, 9.7 Grupo B: 2.5, 3.7, 4.9, 5.4, 5.9, 8.1, 8.2 Grupo C: 1.3, 4.1, 4.9, 5.2, 5.5, 8.2 Verifique se existe evidência de que o método de sugestão utilizado para criar a expectativa, funcionou. Resolução: Vamos utilizar o teste de K-W, para testar as hipóteses H0: O método de sugestão não funcionou contra H1: O método de sugestão funcionou No caso de H0 ser verdadeira, K8,7,6 tem uma distribuição assintótica de Qui-quadrado, com 2 graus de liberdade. A metodologia utilizada para obter o valor da estatística de teste de K-W, foi de inserir os dados de cada grupo, em coluna, numa folha de Excel, indicando na coluna adjacente o grupo a que pertencem. Ordenámos os dados (esta operação não era necessária, mas é conveniente para nos apercebermos mais rapidamente da existência de observações iguais, uma vez que, neste caso, as ordens iguais vêm consecutivas), sem perder a indicação do grupo a que pertencem e utilizando a função RANK do Excel atribuímos ordens aos dados. No caso de haver observações iguais, substituímos a ordem que o Excel atribui, pela média das ordens. Maria Eugénia Graça Martins Análise de Dados 151 O valor observado para a estatística de teste foi de 9.84. Para calcular o valor anterior ignorámos as duas ligações existentes. Para obter o p-value vamos utilizar a função do Excel CHIDIST(x;deg_freedom) que, para o valor de x=9.83627 e deg_freedom=2, devolve o valor 0.007313, que é a probabilidade de uma variável aleatória X, com uma distribuição de um Qui-quadrado, com 2 graus de liberdade, assumir valores superiores a 9.83627, ou seja, o p-value=0.007313. Decisão: Rejeitar a hipótese nula para valores de α≥0.7%. Para utilizar o teste de Kruskal-Wallis, basta que os dados estejam na escala ordinal, como se exemplifica a seguir: Exemplo 5.16 Três instrutores decidiram comparar as pontuações dadas no semestre passado, para averiguar se haveria algum com tendência para dar notas mais baixas. Estes instrutores fizeram parte de um júri de avaliação, sendo o resultado da avaliação, sobre alunos do mesmo nível, o seguinte: Pontuação Maria Eugénia Graça Martins Instrutor1 Instrutor2 Instrutor3 A 4 10 6 B 14 6 7 C 17 9 8 D 6 7 6 E 2 6 1 Análise de Dados 152 H0: Os instrutores dão pontuações análogas contra H1: Os instrutores não dão pont. análogas A tabela anterior apresenta as classificações dadas, numa escala ordinal, em que, por exemplo, a classificação A foi atribuída a 20 alunos, metade dos quais pelo instrutor2. Como se depreende, temos dados com muitas ligações, nomeadamente 20 iguais a A, 27 iguais a B, etc. Vamos aproveitar a tabela anterior para associar as ordens médias a cada uma das pontuações, de forma a calcular o valor observado para a estatística de Kruskal-Wallis: Pontuação Instrutor1 Instrutor2 Instrutor3 Total linhas A 4 10 6 20 (1-20) B 14 6 7 27 (21-47) C 17 9 8 34 (48-81) D 6 7 6 19 (82-100) E 2 6 1 9 (101-109) Nº total de estudantes 43 38 28 Ordens médias 21 =10.5 2 21 + 47 =34 2 48 + 81 =64.5 2 82 + 100 =91 2 101 + 109 =105 2 R1=4×10.5+14×34+17×64.5+6×91+2×105=2370.5 R2=10×10.5+6×34+9×64.5+7×91+6×105=2156.5 R3=6×10.5+7×34+8×64.5+6×91+1×105=1468 2 Neste caso temos de utilizar a expressão que dá o S para o caso de existirem ligações, obtendo S2=941.71, donde vem para o valor observado da estatística de teste k43,38,28=0.3209. Sabendo que, se H0 verdadeira, a distribuição da estatística de teste K43,38,28 é assintoticamente um Qui-quadrado com 2 graus de liberdade, obtemos para o p-value P-value= P(K43,38,28 ≥ 0.3209)=0.8518 (calculado no Excel) Decisão: Não existe razão para duvidar que os instrutores dão notas análogas. 5.4.2.1 1.► Comparações múltiplas (Conover, pag 231) No caso da hipótese nula ser rejeitada, podemos utilizar o seguinte processo para determinar quais os pares de populações que tendem a diferir. Podemos dizer que as populações i e j têm tendência para serem diferentes, se a seguinte desigualdade for satisfeita: N − 1 − k n1 ,n2 ,...,np Ri R j − > t 1−α / 2 (N − p) S 2 N−p ni n j Maria Eugénia Graça Martins 1/ 2 1 1 + n n j i 1/ 2 Análise de Dados 153 onde t1-α/2 é o quantil de probabilidade 1-α/2 de uma t-Student com (N-p) graus de liberdade. O nível de significância α é o mesmo que o utilizado no teste de K-W. Exemplo 5.15 (cont) Para este exemplo, uma vez que rejeitámos a hipótese nula para os níveis usuais de significância, vamos utilizar o critério definido anteriormente para proceder às comparações múltiplas. Vamo-nos fixar no nível de significância de 5%. 2 S= N(N + 1) =38.5; 12 2 N − 1 − k n1,n 2 ,...,np S N−p =21.73 Da tabela anterior concluímos que existe tendência para que a população 1 seja distinta das populações 2 e 3, não havendo razão para dizer o mesmo sobre as populações 2 e 3. 5.4.2.2 ► Teste do Qui-quadrado em tabelas de contingência para testar a homogeneidade Consideremos p (≥2) populações independentes, X1, X2, ..., Xp, com funções distribuição F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras X11, X12, ..., X1n1 X21, X22, ..., X 2n2 ... Xp1, Xp2, ..., X pnp Com base nas amostras anteriores, pretende-se testar a hipótese nula de que as p populações são homogéneas, contra a hipótese alternativa, de que pelo menos uma das populações fornece observações maiores ou menores. Consideremos uma partição da recta real em c classes A1, A2, ..., Ac e representemos por nij=#{Xik, 1≤k≤ni; XikεAj}, 1≤i≤p; 1≤j≤c Com a notação introduzida anteriormente, podemos construir a seguinte tabela de contingência Maria Eugénia Graça Martins Análise de Dados 154 A1 A2 q Aj q Ac X1 n11 n12 n1j n1c n1 X2 n21 n22 n2j n2c n2 ni1 ni2 nij nic ni np1 np2 npj npc np n.1 n.2 n.j n.c q Xi q Xp em que a margem vertical é fixa, isto é, é conhecida antes do preenchimento da tabela, pois é constituída pelas dimensões das amostras recolhidas das p populações, que representámos por X1, X2, q, Xp. Representemos por pj|i, a probabilidade de um elemento da amostra Xi, pertencer à classe Aj. A hipótese de homogeneidade que se põe é H0: pj|1= pj|2=q= pj|p para 1≤j≤c a qual vai ser testada contra a alternativa H1: Existe um par (i,k) com i≠k, tal que pj|i ≠ pj|k Para obter a estatística de teste e a respectiva distribuição de amostragem (assintótica), vamos utilizar a seguinte metodologia, recordando o que fizémos quando estudámos o teste de ajustamento do Qui-quadrado: 1. Se pjIi for conhecido , para todo o i, tal que 1≤i≤p c ∑ (n ij − n i p jIi ) 2 n i p jIi j=1 tem uma distribuição assintótica de um χ c2 −1 2. Como as amostras são independentes, temos p situações multinomiais independentes, pelo que p c ∑∑ (n ij − n i p jIi ) 2 n i p jIi i=1 j=1 tem uma distribuição assintótica de um χ p2(c −1) 3. Normalmente terão de se estimar os pjIi, pelo que se H0 verdadeira, teremos como estimadores p̂ jIi = já que c ∑p jIi n. j n , com 1≤j≤c, dos quais só (c-1) são independentes, =1 j=1 4. Então teremos como estatística de teste Maria Eugénia Graça Martins Análise de Dados 155 p (n ij − n i c X = ∑∑ 2 i=1 j=1 ni n. j n p jIi )2 com uma distribuição assintótica de um χ (2p−1)(c −1) n já que p(c-1)-(c-1)=(p-1)(c-1). Regra de decisão para o nível de significância α: Rejeitar H0 para x2≥ χ 2(1− α ) (p−1)(c −1) (Quantil de probabilidade (1-α) de um χ (2p−1)(c −1) ). Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(X2≥ x 02 ,) e rejeita-se H0 para α≥P. Exemplo 5.17 O Senhor Afonso, director da Academia de Manequins Continental, tem muito orgulho na sua escola e argumenta que os seus manequins são melhores profissionais do que os da sua concorrente, a Senhora D. Bárbara, dos Modelos Jovens. Numa avaliação destas duas escolas de manequins, as classificações obtidas pelos manequins foram: Muito Bom Suficiente Medíocre Total Afonso 10 45 5 60 Bárbara 4 35 11 50 Total 14 80 16 110 Com base nas classificações, haverá evidência para duvidar de que as duas escolas fornecem profissionais do mesmo nível? Resolução: H0: P(Muito Bom|Afonso)= P(Muito Bom|Bárbara); P(Suficiente|Afonso)= P(Suficiente|Bárbara); P(Medíocre|Afonso)= P(Medíocre |Bárbara); H1: Alguma das igualdades anteriores não se verifica Estatistica de Teste: X2 que, sob H0, tem distribuição assintótica de um χ (22 −1)(3−1) . Sob H0, o valor observado da estatística de teste, obtém-se da seguinte forma: x 02 = 14 2 ) 110 14 60 × 110 (10 − 60 × + 80 2 ) 110 80 60 × 110 ( 45 − 60 × + 16 2 ) 110 16 60 × 110 (5 − 60 × + 14 2 ) 110 14 50 × 110 ( 4 − 50 × + 80 2 ) 110 80 50 × 110 (35 − 50 × + 16 2 ) 110 16 50 × 110 (11 − 50 × = 5.20 Consultando uma tabela do Qui-quadrado com 2 graus de liberdade, ou o Excel, vem que P(X 2 ≥5.20)=0.074274. Decisão: Rejeitar a hipótese de que os manequins das duas escolas têm o mesmo nível, para α≥7.43%. Maria Eugénia Graça Martins Análise de Dados 156 5.5.► Testes de hipóteses em modelos não paramétricos para testar a independência de várias populações 5.5.1 ► Teste do Qui-quadrado em tabelas de contingência para testar a independência de duas populações Consideremos uma amostra de dados bivariados (Xi, Yi), i=1, ...,n, tendo (X, Y) função de distribuição conjunta F(x,y) com marginais F1(x) = F(x,+∞) e F2(y)=F(+∞,y). Pretendemos testar H0: F(x,y)=F1(x) F2(y) ∀(x,y)εR2 contra H1: F(x,y)≠F1(x) F2(y) para algum (x,y)εR2, isto é, face a uma amostra aleatória (Xi, Yi), i=1,...,n, pretendemos testar a independência do par (X,Y). Para obter a estatística de teste começamos por dividir o suporte da variável aleatória X em p classes A1, A2, ..., Ap, disjuntas e o suporte da variável aleatória Y em c classes B1, B2, ..., Bc, disjuntas. Representemos por nij= #{(xk, yk): xkεAi, ykεBj}, ni.= c ∑ n.j= n ij j=1 pij= P(XεAi e YεBj) p ∑n ij i=1 A1 A2 B1 n11 n21 B2 n12 n22 Bj n1j n2j Bc n1c n2c n1. n2. Ai ni1 ni2 nij nic n3. Ap np1 n.1 np2 n.2 npj n.j npc n.c np. e pi.= P(XεAi), p.j= P(YεBj), i=1,...,p; j=1,...,c Com a notação introduzida anteriormente, as hipóteses a testar têm a forma H0: pij= pi.× p.j, ∀(i,j) contra H1: pij≠ pi.× p.j, para algum (i,j) Estatística de teste: Se as probabilidades pij forem conhecidas, a estatística de teste que se utiliza é p c X2= ∑∑ i=1 j=1 (n ij − np ij ) 2 np ij Maria Eugénia Graça Martins que, sob H0, tem uma distribuição assintótica de um χ (2pc −1) Análise de Dados 157 Se as probabilidades pij não forem conhecidas, vamos substituí-las pelas suas estimativas, as quais serão, se H0 verdadeira n.j ) ) ) ) n ) p ij = p i. × p . j onde p i. = i. e p . j = . n n Então a estatística de teste tem a forma X2= p c ∑∑ i=1 j=1 (n ij − n i.n . j / n) 2 n i.n . j / n que, sob H0, tem uma distribuição assintótica de um χ (2p−1)(c −1) . Observação: Como estimámos (p-1) + (c-1) parâmetros, o número de graus de liberdade vem igual a pc-1-(p-1) –(c-1)=(p-1)(c-1). Chama-se a atenção para o facto de, embora a expressão seja análoga à utilizada no teste de homogeneidade, o significado da estatística de teste, aqui, é substancialmente diferente. Assim, num teste de homogeneidade, uma das margens da tabela de contingência é fixa, pois é constituída pelas dimensões das amostras que estamos a testar. Num teste de independência, nenhuma das margens é fixa. Regra de decisão para o nível de significância α: Rejeitar H0 para x2≥ χ 2(1− α ) (p−1)(c −1) (Quantil de probabilidade (1-α) de um χ (2p−1)(c −1) ). Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(x2≥ x 02 ,) e rejeita-se H0 para α≥P. Regra prática: Como a distribuição da estatística de teste é assintótica, convém que as células não tenham valores esperados muito pequenos. Como regra prática, utiliza-se a seguinte: No máximo, 20% das células podem ter frequência esperada <5 e nenhuma célula deve ter frequência esperada <1. Exemplo 5.18 Para estudar se haveria alguma relação entre a sensibilidade da pele ao Sol e a cor dos olhos, considerou-se uma amostra de 100 pessoas que foram sujeitas a uma dose de raios ultravioletas, tendo-se obtido os seguintes resultados: Cor dos olhos Tire conclusões. Maria Eugénia Graça Martins Azul Cinzenta ou verde Castanha ++ 19 7 1 Reacção + 27 8 13 4 5 16 Análise de Dados 158 Resolução: Vamos testar as seguintes hipóteses H0: Existe independência entre a sensibilidade da pele e a cor dos olhos Contra H1: Não existe independência 2 A estatística de teste X tem uma distribuição assintótica de um χ (24 ) . O valor observado da estatística de 2 2 teste é x =25.13, donde P(X ≥25.13)<.0001, pelo que rejeitamos a hipótese nula. Assim, concluímos que há evidência para dizer que a cor dos olhos não é independente da sensibilidade da pele. 5.5.2 ► Coeficiente de correlação ordinal de Spearman Consideremos uma amostra de dados bivariados (Xi, Yi), i=1, ...,n, de uma população contínua (X, Y). Pretende-se arranjar um índice que sirva para medir a dependência ou inter-relação entre a variável X e a variável Y. Considera-se como hipótese nula H0: Não existe relação entre as variáveis X e Y, isto é, elas são independentes. Observação: Num modelo paramétrico e Normal, X e Y são independentes sse o coeficiente de correlação ρ é igual a 0, isto é, testar H0 é equivalente a testar H0: ρ =0, pelo que é natural usar o coeficiente de correlação amostral. Processo para construir a estatística de teste: O coeficiente de correlação ordinal de Spearman, RS, que é o índice que procuramos, é essencialmente o coeficiente de correlação amostral, em que os Xi’s e os Yi’s são substituídos pelas suas ordens: n R= ∑ (X n i i=1 n ∑ i=1 ∑ (R − X)( Yi − Y ) → n ( X i − X) 2 ∑ ( Yi − Y ) i =1 2 RS= i − R )(S i − S ) i=1 n ∑ i=1 n (R i − R ) 2 ∑ (S i − S)2 i=1 Para obter as ordens Ri= ordem de Xi e Si= ordem de Yi, ordenam-se as amostras dos Xi’s e os Yi’s separadamente. Como se admite que têm distribuição contínua, Maria Eugénia Graça Martins Análise de Dados 159 obteremos um único conjunto de ordens, isto é, não existem (teoricamente) ligações entre os Xi’s, nem entre os Yi’s. O facto de os dados com que estamos a trabalhar serem ordens, permite simplificar a fórmula de RS. Para já, podemos escrever n ∑R S i (1) RS= i − nR S i=1 n ( ∑R n 2 i − n R 2 )( i =1 ∑S 2 i − nS 2 ) i=1 Representando por Di=Ri – Si D i2 = R i2 + S i2 -2RiSi n ∑ Ri = i=1 n ∑ Si = i=1 n n ∑i = i=1 n n ∑R = ∑ S = ∑i 2 i 2 i i=1 i=1 2 n(n + 1) 2 = i=1 n(n + 1)( 2n + 1) 6 Então n n ∑R S (2) i i = i=1 (3) R =S= n(n + 1)( 2n + 1) 6 ∑D i=1 2 2 i e (n + 1) 2 Introduzindo em (1) as simplificações obtidas, vem n 12 RS= ∑R S i i i=1 2 n(n − 1) -3 (n + 1) n −1 ou n RS= 1 - 6 ∑D 2 i i=1 2 n(n − 1) Maria Eugénia Graça Martins Análise de Dados 160 Observemos que as ordens de X e Y estão completamente de acordo sse Ri=Si, ∀i, e em completo desacordo sse Ri = n+1 – Si. A diferença Di entre Ri e Si mede o grau de não associação entre Ri e Si, no sentido de que Di=0 quando Ri=Si, o que implica RS=1 e n ∑ D i2 = i=1 n(n 2 − 1) 3 quando Ri+Si=n+1, o que implica RS=-1. Assim, o grau máximo de associação verifica-se para |RS|=1: Quando RS=1, existe uma associação directa; Quando RS=-1, existe uma associação indirecta Pequenos valores de RS, tendem a suportar a hipótese H0 de não associação entre X e Y. Regra de decisão, utilizando a estatística RS: H0 H1 Rej H0 P-value, sob H0 Não existe associação Existe associação directa RS≥c1 P(RS≥r0) Existe associação indirecta RS≤c2 P(RS≤r0) Existe associação |RS|≥c 2min[P(RS≤r0), P(RS≥r0)] onde r0 é o valor observado da estatística de teste. A partir da expressão de RS n 12 RS= vem que E(RS)= 12 n(n 2 − 1) n E( ∑R S i i=1 2 n(n − 1) i -3 (n + 1) n −1 n +1 ∑ R S ) -3 n - 1 i i i=1 Sob H0, E(R i S i ) = E(Ri)×E(Si) =( n +1 2 ) 2 (Observação: Cada um dos Ri (ou Si) é uma v.a. que, sob H0, assume o valor i, i=1,...,n, com probabilidade 1/n). pelo que, E(RS) = 0. Pode-se demonstrar que, sob H0, Var(RS)= grande a distribuição de n - 1 RS pode ser aproximada pela N(0,1). Maria Eugénia Graça Martins 1 , donde, para n n -1 Análise de Dados 161 Cálculo da distribuição exacta da estatística RS Para calcular os pontos críticos necessários para obter a região de rejeição, necessitamos da distribuição de RS, sob a validade de H0. Sem perda de generalidade, admitamos que Ri=i, para i=1,...,n. Então Di=i-Si, para i=1,...,n. Sendo H0 verdadeiro, isto é, X e Y independentes, temos n! possibilidades para os pares (i, Si), i=1,...,n, todas elas igualmente prováveis. Assim, sob H0, P(RS=r)= nº depossibilidades para as quais R S = r n! RS pode assumir valores pertencentes ao intervalo [-1, 1], e a distribuição de RS é simétrica relativamente ao ponto 0. Exemplo: Cálculo da distribuição exacta para n=3 n ∑ is (s1, s2, s3) 12 r= i ∑ is i -3 i=1 2 3(3 − 1) (1, 2, 3) 14 1.0 (1, 3, 2) 13 .5 (2, 1, 3) 13 .5 (2, 3, 1) 11 -.5 (3, 1, 2) 11 -.5 (3, 2, 1) 10 -1.0 (3 + 1) 3 −1 Então RS=r -1 -.5 .5 1 PH0 (R S = r ) 1/6 2/6 2/6 1/6 Para n=4, obter-se-ia, de forma idêntica, RS=r -1 -.8 -.6 -.4 -.2 0 .2 .4 .6 .8 1 PH0 (R S = r ) 1/24 3/24 1/24 4/24 2/24 2/24 2/24 4/24 1/24 3/24 1/24 Maria Eugénia Graça Martins Análise de Dados 162 Exemplo 5.19 Dois juízes ordenaram 4 provas do seguinte modo: Juiz 1: 1 2 3 4 Juiz 2: 2 4 3 1 Verifique se haverá evidência da existência de associação entre as ordens. Vamos testar as seguintes hipóteses: H0: Não existe associação contra H1: Existe associação Σi si = 2+8+9+4=23 O valor observado da estatística de teste é r0=-.4, donde P(|RS|≥.4)=18/24=.75, pelo que decidimos não rejeitar H0. Observação: No caso de existir um número pequeno de ligações, atribui-se a média das ordens e usa-se a mesma distribuição para calcular o P-value. 5.5.3 ► Índice de Friedman Do mesmo modo que a estatística de Kruskal-Wallis generaliza a estatística de MannWhitney, também o índice de Friedman generaliza a ideia do coeficiente de correlação ordinal de Spearman. Suponhamos então que temos uma amostra aleatória (Xi1, Xi2, ..., XiI). i=1, ..., m, de uma população de tipo contínuo, multivariada de ordem I. Observação: No caso do coeficiente de correlação ordinal tínhamos (X11, X12, ..., X1I) (X21, X22, ..., X2I). ou seja, m=2 ordenações. As observações podem ser arranjadas em m linhas e I colunas, chamando-se blocos às linhas e tratamentos às colunas. Friedman sugeriu que se substituísse cada observação, pela sua ordem no bloco respectivo. Admitamos que não existem ligações. Então, inicialmente tínhamos um conjunto de observações, em que cada observação foi substituída pela sua ordem (no bloco correspondente): Maria Eugénia Graça Martins Análise de Dados 163 X11 X12 ... X1I X21 X22 ... X2I ... ... ... ... Xm1 Xm2 ... XmI → R11 R12 ... R1I R21 R22 ... R2I Rm1 Rm2 ... RmI Muito possivelmente o conjunto dos dados para análise já nos são fornecidos na forma de ordenações. Outra forma de apresentar os dados é dizer que temos I objectos (tratamentos), classificados por m juízes (blocos): Obj 1 2 1 R11 2 R21 ... j ... I R12 ... R1I R22 ... R2I Juiz ... ... ... ... ... i Ri1 Ri2 ... ... ... RiI Rm1 Rm2 ... RmI ... m Em geral, quando vários juízes ordenam vários itens, ou quando obtemos várias ordenações, esperamos que haja correlação entre as ordenações e é precisamente isso que pretendemos testar. Assim, as hipóteses que nos interessam considerar são: H0: Existe independência entre as ordenações (os tratamentos têm todos o mesmo efeito) contra H1: Não existe independência entre as ordenações Vamos utilizar uma estatística de teste muito semelhante à estatística de Kruskal-Wallis, (K-W), na forma e na distribuição. Para calcular a estatística de K-W, substituímos cada observação pela sua ordem, na amostra conjunta, com o objectivo de comparar cada observação com outra qualquer. Aqui não faz muito sentido comparar observações correspondentes a linhas diferentes, pelo que a cada linha corresponde uma observação. Maria Eugénia Graça Martins Análise de Dados 164 Seja Rj a soma das ordens correspondentes ao j-ésimo objecto, ou seja, correspondente à j-ésima coluna, j=1, ..., I. Se existir independência entre as ordenações, esperamos que sob H0 E(Rj) = m ∑ E(R ij ) = m I i =1 ∑ ∑ i i=1 i=1 1 I = m(I + 1) 2 A soma dos quadrados dos desvios de Rj, relativamente a E(Rj) é, por conseguinte, uma medida das diferenças nas classificações dos diferentes objectos. Seja I m(I + 1) S= R j − 2 i=1 2 ∑ Pode-se mostrar que S será igual a 0 se todos os Rj forem iguais (R1=R2=...=RI = m(I + 1) ), pelo que um valor grande desta estatística denotará um afastamento da 2 hipóteses dos Rj serem iguais ou sensivelmente iguais. Pode-se mostrar que (ver mais à frente), sob H0: Var(Rj) = Então, a distribuição de Rj − m(I + 1) 2 m(I 2 − 1) 12 m(I 2 − 1) 12 é assintoticamente N(0,1), pelo que 2 m(I + 1) I R j − tem uma distribuição assintótica de um χ 2 , ou seja, 2 (I−1) 2 m(I − 1) j=1 12 ∑ F*= m(I 2 I ∑ R − 1) 12 j =1 2 j − m(I + 1) tem uma distribuição assintótica de um χ (2I−1) . Mostraremos 2 mais à frente que E(S)= Im(I 2 − 1) , pelo que a estatística 12 F= Maria Eugénia Graça Martins 12 mI(I + 1) I ∑ j=1 m(I + 1) R j − 2 2 Análise de Dados 165 tem valor médio (I-1), dependendo, portanto, unicamnete do número de objectos que se pretendem ordenar. É esta estatística F, que se utiliza como estatística de Friedman. Outra forma de apresentar a estatística F, é a seguinte F= I ∑R 12 mI(I + 1) 2 j -3m(I+1) j=1 A distribuição exacta de F está tabelada, e a distribuição assintótica é, como vimos anteriormente, um χ (2I−1) . Regra de teste: Rejeitar H0, para valores grandes da estatística de teste. Complementos: 1) Mostrar que, sob H0, Var(Rj) = m(I 2 − 1) 12 Var(Rj)=E( R 2j ) – E2(Rj) m ∑R E( R 2j ) =E( ij )2 i =1 m = ∑ E(R m 2 ij ) + i=1 =m = 1 I m ∑∑ E(R I ∑i ij )E(R kj ) , 2 +m(m-1) i=1 (I + 1) 2 4 m(I + 1) [(I-1)+3m(I+1)] 12 Tendo em conta que E(Rj)= 2) Mostrar que E(S)= I E(S) = com i≠k i=1 k =1 ∑ E(R 2j ) + j=1 m(I + 1) , vem o resultado pretendido. 2 Im(I 2 − 1) 12 m(I + 1) Im 2 (I + 1) 2 -2 4 2 I ∑ E(R ) j j=1 = Im(I + 1) m(I + 1) Im(I + 1) Im 2 (I + 1) 2 [(I-1)+3m(I+1)]+ -2 12 4 2 2 = Im(I 2 − 1) 12 Maria Eugénia Graça Martins Análise de Dados 166 Exemplo 5.20 Num festival da canção, em que concorreram 7 países, o júri, constituído por 3 elementos, ordenou as canções pela seguinte ordem: Portugal Espanha França Suiça Itália Bélgica Reino Unido Juiz 1 1 5 2 4 7 6 3 Juiz 2 5 2 1 4 6 3 7 Juiz 3 3 4 5 6 7 1 2 Soma ordens 9 11 8 14 20 10 12 Pretende-se saber se existe evidência de alguma das canções ser preferida, relativamente às restantes. Resolução: Pretende-se testar as hipóteses H0: Existe independência entre os juízes contra H1: Não existe independência ou as canções são equivalentes ou algumas canções são melhores A estatística de teste F tem, sob H0, uma distribuição assintótica de um χ (26 ) e o valor observado de F, é f = = 12 3 × 7(7 + 1) I ∑R 2 j -9×8 j=1 1 (81+121+64+196+400+100+144)-72 14 =7 Para I=7 e m=3, não temos a distribuição exacta da estatística de teste, pelo que utilizamos a distribuição assintótica, obtendo-se.30<P(F≥7)<.40, pelo que decidimos não rejeitar H0, para os níveis usuais de significância, ou seja, não há evidência para dizer que os juízes combinaram a classificação. Exemplo 5.21 Decidiu-se testar 3 tipos de rações para animais. Escolheram-se 3 grupos de 5 porcos cada um, em que cada grupo de porcos foi escolhido dentro da mesma ninhada. Apresentamos na seguinte tabela, os aumentos de pesos (em Kg): Ração 1 2 3 4 5 A 3.0 7.3 6.1 4.9 6.4 B 6.0 6.7 9.2 4.5 8.9 C 3.8 7.4 6.3 7.2 6.5 Pretende-se testar a hipótese H0: Não existe diferença entre as rações, isto é, os “tratamentos” são equivalentes, ou ainda, existe independência entre as ordenações Para aplicar o teste de Friedman, vamos considerar as ordens A 1 2 1 2 1 7 Maria Eugénia Graça Martins B 3 1 3 1 3 11 C 2 3 2 3 2 12 Análise de Dados 167 A estatística F tem, sob H0, uma distribuição assintótica de um χ (22 ) , e o valor observado de F é f=2.8. Consultando a tabela para m=5 e I=3, verificamos que P(F≥2.8)>0.10, pelo que não rehjeitamos H0, ou seja, não temos evidência para dizer que as rações não asão equivalentes. Maria Eugénia Graça Martins