APLICAÇÃO DO TESTE DE IGUALDADE DE MATRIZES DE VARIÂNCIA/COVARIÂNCIA (M DE BOX), AOS DADOS DA POPULAÇÃO EUROPÉIA 1 1 2 Nathielly Lima do RÊGO , Edwirde Luiz SILVA , Marystella Duarte CORREIA , Arielly Arethuza 1 1 Galdino de ARAÚJO , Valneli da Silva MELO 1 Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB. E-mail: [email protected]. Telefone: (83) 3339-6601. 1 Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB. E-mail: [email protected]. Telefone: (83) 33153459. 2 Departamento de Estatística, Universidade Federal de Pernambuco – UFPE, Recife – PE. Email: [email protected] . Telefone: (83) 8807-2660 1 Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB. E-mail: [email protected] Telefone: (83) 9107-2467. 1 Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB. E-mail: [email protected]. Telefone: (83) 8847-9091. RESUMO Levando em consideração que o continente europeu é o terceiro mais populoso do mundo, com 11% da população mundial, observa-se um crescimento mínimo na população, ou seja, a taxa de natalidade muito baixa por ter muitos países desenvolvidos. O presente trabalho busca fazer uma análise da população do leste europeu com a outra parte da população europeia, por meio do teste de igualdade de matrizes de variância/covariância (M Box), saber se o crescimento da população de 2001 a 2012 dos países do leste europeu é igual aos restantes dos países da Europa. Foi observado que a dispersão do crescimento de ambos os grupos de países foram semelhantes ao nível de significância 0,05. O resultado do teste M de Box foi aproximado a distribuição qui-quadrado e a distribuição F de Snedecor, ambos mostraram que não há evidencias estatísticas para rejeitar a hipótese de que a matriz de variância/covariâncias sejam iguais, ou seja, o crescimento da população de 2001 a 2012 dos países do leste europeu é igual ao resto dos países da Europa. PALAVRAS CHAVE: população, covariância, M’Box 1 INTRODUÇÃO A Europa é o segundo menor continente em superfície do mundo, cobrindo cerca de 10 180 000 quilômetros quadrados ou 2% da superfície da Terra e cerca de 6,8% da área acima do nível do mar. É o terceiro continente mais populoso do mundo, após a Ásia e a África, com uma população de 731 milhões, o que perfaz pouco mais de 11% da população mundial. De acordo com a Organização das Nações Unidas (ONU), a proporção da população europeia pode cair cerca de 7% até 2050. Em 1900, a população europeia representava 25% da população mundial. O Leste Europeu, também chamado de Europa Oriental, abriga os antigos países socialista. Depois da mudanças ocorridas com o fim da Guerra Fria, observou-se um nova conformação, onde compreende 22 países, são eles: Albânia, Armêmia, Azerbaijão, Belorus, Bulgária, Croácia, Eslovênia, Eslováquia, Estônia, Federação Russa, Georgia, Hungria, Iugoslávia, Letônia, Lituânia, Macedônia, Moldávia, Polônia, República Tcheca, Romênia e Turquia. Será que a Europa oriental como o resto de toda Europa apresentam crescimentos populacionais divergentes? Assim o objetivo deste trabalho é verificar se os grupos de países europeus formam tiveram a mesma variação em relação aos anos 2001 a 2012. 2 METODOLOGIA Utilizou-se o banco de dados da população de países da Europa, no período de 2000 a 2012, que se encontram no Site: http:// www.euroestar.com .(Referencia do site online) A Europa é composta por 46 países independentes, mas no banco de dados tínhamos apenas 35 países com a sua população até 2012 atualizada. Os 35 países Europeus que estudaremos são: 1. Bulgária, 2. Republica Checa, 3. Estônia, 4. Grécia, 5. Latvia, 6. Lituânia, 7. Hungria, 8. Polônia, 9. Romênia, 10. Eslovênia, 11. Eslovaca, 12. Montenegro, 13. Croácia, 14. Yugoslávia 15. Turquia 16. Bélgica, 17. Dinamarca, 18. Alemanha, 19. Irlanda, 20. Espanha, 21. França, 22. Itália, 23. Chipre, 24. Luxemburgo, 25. Malta, 26. Holanda, 27. Áustria, 28. Portugal, 29. Finlândia, 30. Suécia, 31. Reino Unido, 32. Iceland, 33. Liechtenstein, 34. Noruega, 35. Suíça. Onde, são divididos por aqueles, que fazem parte da região chamada Leste Europeu e os países que não são do leste Europeu. Figura 1 – Mapa Político de Países Europeus e do Leste Europeu Fonte: Wikipédia Os países que integram atualmente a região chamada Leste Europeu são: 1. Bulgária 2. Republica Checa 3. Estônia 4. Grécia 5. Latvia 6. Lituânia 7. Hungria 8. Polônia 9. Romênia 10. Eslovênia 11. Eslovaca 12. Montenegro 13. Croácia 14. Yugoslavia 15. Turquia Os países que não são do leste europeu são os seguintes: 1. Bélgica 2. Dinamarca 3. Alemanha 4. Irlanda 5. Espanha 6. França 7. Itália 8. Chipre 9. Luxemburgo 10. Malta 11. Holanda 12. Áustria 13. Portugal 14. Finlândia 15. Suécia 16. Reino Unido 17. Irlanda 18. Liechtenstein 19. Noruega 20. Suíça Teste para a igualdade de matrizes de variância/covariância (M Box) É o teste estatístico da generalização do teste univariado de igualdade de variâncias de Bartlett, que é possível determinar se, pode ou não rejeitar a hipótese de igualdade das matrizes de variância/covariância das variáveis independentes ao longo dos grupos. Onde tem-se as pré-suposições: 1. As matrizes de variância/covariância devem ser iguais para todos os grupos de tratamentos; 2. O conjunto de p variáveis independentes deve seguir uma distribuição normal multivariada, ou seja, qualquer combinação linear das variáveis dependentes deve seguir uma distribuição normal. A violação do pressuposto de normalidade multivariada, das variáveis independentes merece cautela na decisão futura, quanto à realização de testes paramétricos por serem muito sensíveis a algumas estatísticas multivariadas. No teste de igualdade de matrizes de variância/covariância (M de Box), não é tão sensível quanto à esse pressuposto, mas o melhor é que se tenha normalidade nas variáveis independentes. Ainda que essa suposição seja inerente à maioria das técnicas multivariadas, não existe um teste direto para a normalidade multivariada. Assim muitos pesquisadores testa a normalidade de cada variável, só que, a normalidade univariada não garante a normalidade multivariada, mas se todas as variáveis atendem a essa condição, então quaisquer desvios da normalidade multivariada são geralmente inócuos (HAIR, 1998). Então se não há normalidade, deve-se partir para a transformação dos dados, de modo que satisfaça o pressuposto de normalidade e então partir para o teste de M Box. Segundo (REIS, 2001) Box elaborou o teste M, utilizando o método do quociente de verosimilhanças e pressupostos que os vetores de médias dos grupos são desconhecidos, onde as hipóteses a serem testadas são: H 0 : 1 2 ... K i j H1 : i j , O teste M Box define-se da seguinte forma: k M (n k ) ln S V j ln S j j 1 em que n é a dimensão total da amostra; os graus de liberdade associados a cada grupo; é a matriz de covariância do grupo j; é a matriz de covariância conjunta total S (n1 1).S1 (n2 1).S2 (n1 1) (n2 1) Box então sugeriu duas aproximações para o teste de igualdade de matrizes, são elas: 1. À distribuição do Qui-quadrado ( 2 ): A aproximação pela distribuição do Qui-quadrado será realizada pela formula: 2 p2 3 p 1 k 1 1 C 1 6( p 1)(k 1) j 1 V j n k onde M .C 21 2 p ( p 1)( k 1) 2. À distribuição F de Snedecor (F): A aproximação pela distribuição F de Snedecor, é um pouco complicada, então é necessário definir: a1 1 C ( p 1)( p 2) k 1 1 a2 2 6(k 1) j 1 V j (n k ) 2 v em que p( p 1)(k 1) 2 v2 v0 a2 a12 v 1 a 1 v0 M. v F( v ,v0 ) 3 RESULTADOS E DISCUSSÃO Observou-se por meio do teste de Shapiro-Wilks, que nem todas as variáveis independentes possuem normalidade, ou seja, as populações em anos dos países europeus, não seguem uma distribuição normal. Levando em consideração que não existe um teste direto para testar a normalidade multivariada das variáveis independentes, conclui-se por meio do teste de Shapiro-Wilks que não há normalidade multivariada nas variáveis independentes. Devendo resaltar que análises posteriores não podem concluir nada a respeito. Sabendo que o melhor a se fazer seria transformar os dados para obter a normalidade das variáveis independentes e então partir para o teste de igualdade de matrizes de variância/covariância M de Box. Mas como o objetivo deste trabalho foi mostrar como é aplicada a técnica do teste de igualdade de matrizes de variância/covariância (M Box). Foi realizado o teste nos dois grupos de países, para o entendimento da técnica, e não, para concluir se há ou não igualdade de matrizes, o que seria um erro enorme. Então, vejamos a seguir como seria a conclusão se houvesse normalidade multivariada nas variáveis independentes. Para partir ao teste M de Box, considera-se, os países do leste europeu como primeiro grupo e os países que não integram o leste europeu como segundo grupo. Então devemos levar em consideração as hipóteses: H 0 : S1 S2 H1 : S1 S2 Onde: H0: O crescimento da população de 2001 a 2012 dos países do leste europeu é igual aos restantes dos países da Europa. H1: O grupo dos países do leste europeu é diferente do restante da Europa. Calculado as matrizes de variância/covariância dos dois de países, a matriz de variância/covariância conjunta (S), e os valores abaixo: p 12 : variáveis (anos) k 2 :grupos (países que são do leste Europeu e que não são do leste Europeu) n 35 n1 15 n2 20 Vk nk 1 , como temos k 2 , então: V1 n1 1 15 1 14 V2 n2 1 20 1 19 tem-se o seguinte resultado k M (n k ) ln S V j ln S j 7,538 j 1 Encontrando valores necessários para obtenção do resultado futuros: C 1 2 p2 3 p 1 k 1 1 2.122 3.12 1 1 1 1 1 0, 6596 6( p 1)(k 1) j 1 V j n k 6(12 1)(2 1) 15 19 35 2 a1 1 C 1 0,6596 0,3404 ( p 1)( p 2) k 1 1 (12 1)(12 2) 1 1 1 0,1405 2 152 192 35 2 2 6(k 1) j 1 V j (n k )2 6(2 1) p( p 1)(k 1) 12(12 1)(2 1) v 78 2 2 v2 78 2 v0 3248,36 2 a2 a1 0,1405 0,3404 2 a2 Utilizando a aproximação pela distribuição do Qui-quadrado ( 2 ), teremos: M .C 7,538.0,6596 4,9722 valor tabelado do qui-quadrado ao nível de 5% de probabilidade será: 2 1 2 p ( p 1)( k 1) 2 1 2 .12(12 1)(2 1) 278 99, 62 Então, aceita-se a hipótese H0, ao nível de 5% de probabilidade, ou seja, as matrizes de variância/covariância dos dois grupos não diferem estatisticamente entre si. Utilizando a aproximação pela distribuição F de Snedecor (F ): v 78 1 0,3404 1 a1 v0 3248,36 M. 7,538. 0, 061 v 78 Valor da tabela F ao nível de 5% de probabilidade é dado por: F( v,v0 ) F 78;3248,36 1, 28 Da mesma forma que a aproximação pela distribuição qui-quadrado, aceita-se a hipótese H0, ao nível de 5% de probabilidade, quando utilizada a aproximação pela distribuição F de Snedecor, ou seja, as matrizes de variância/covariância dos dois grupos não diferem estatisticamente entre si. 4 CONCLUSÃO Após análises realizadas nos dados, pode-se observar que não houve normalidade multivariada nas variáveis independentes, então não poderia ser realizada a técnica do teste de igualdade de matrizes de variância/covariância, pois deveria ser realizada a transformação dos dados, para que as variáveis independentes seguissem uma distribuição normal multivariada, e então fazer uso da técnica de M Box. Mas como o objetivo deste trabalho foi mostrar como é aplicada a técnica do (M Box), e não concluir se realmente as matrizes são iguais ou diferem estatisticamente entre si, pois seria um grande erro concluir a respeito de dados que não seguem uma distribuição normal. Então realizou-se o teste nos dois grupos de países, para o entendimento da técnica. Assim, vejamos a seguir como seria a conclusão se houvesse normalidade multivariada nas variáveis independentes. Notou-se que ao aplicar o teste M de Box de igualdade de matrizes de variância/covariância entre dois grupos de países europeus constatou-se que houve igualdade na dispersão dos grupos, por meio da utilização de aproximações da distribuição qui-quadrado e distribuição F de Snedecor, ao nível de 5 % de probabilidade, ou seja, a matriz de variância/covariância do crescimento populacional entre os anos de 2001 a 2012 dos países do leste europeu é igual ao resto dos países da Europa. REFERÊNCIAS 1. Reis, E. Estatística Multivariada Aplicada. 2. ed Revista e Corrigida. Lisboa: Editora Silabo, 2001. 2. HAIR,J.F., TATHAM,R.L., ANDERSON,R.E., BLACK,W., Análise Multivariada de Dados. 5 ed. Porto Alegre :Artmed Editora S.A., 1998. 3. BOX, G. E. P., A general distribution theory for a class of likelihood criteria. Biometrika, 1949. 4. MINGOTI, S.A., Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada. Belo Horizonte: Ed. UFMG, 2005. 5. SEBER, G. A. F. Multivariate observations. New York: John Wiley & Sons, Inc. (Section 9.2.6). 1984. 6. Portal de Dados da População Europeia, acesso em 29/09/2012, (http:// www.euroestar.com). 7. WIKIPEDIA – A enciclopédia livre, acesso 16/10/2012, disponível em http://pt.wikipedia.org/wiki/Leste_Europeu