APLICAÇÃO DO TESTE DE IGUALDADE DE MATRIZES DE

Propaganda
APLICAÇÃO DO TESTE DE IGUALDADE DE MATRIZES DE
VARIÂNCIA/COVARIÂNCIA (M DE BOX), AOS DADOS DA POPULAÇÃO
EUROPÉIA
1
1
2
Nathielly Lima do RÊGO , Edwirde Luiz SILVA , Marystella Duarte CORREIA , Arielly Arethuza
1
1
Galdino de ARAÚJO , Valneli da Silva MELO
1
Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB.
E-mail: [email protected]. Telefone: (83) 3339-6601.
1
Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB.
E-mail: [email protected]. Telefone: (83) 33153459.
2
Departamento de Estatística, Universidade Federal de Pernambuco – UFPE, Recife – PE. Email:
[email protected] . Telefone: (83) 8807-2660
1
Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB.
E-mail: [email protected] Telefone: (83) 9107-2467.
1
Departamento de Estatística, Universidade Estadual da Paraíba-UEPB, Campus I, Campina Grande-PB.
E-mail: [email protected]. Telefone: (83) 8847-9091.
RESUMO
Levando em consideração que o continente europeu é o terceiro mais populoso do mundo, com
11% da população mundial, observa-se um crescimento mínimo na população, ou seja, a taxa de
natalidade muito baixa por ter muitos países desenvolvidos. O presente trabalho busca fazer uma
análise da população do leste europeu com a outra parte da população europeia, por meio do teste de
igualdade de matrizes de variância/covariância (M Box), saber se o crescimento da população de
2001 a 2012 dos países do leste europeu é igual aos restantes dos países da Europa. Foi observado
que a dispersão do crescimento de ambos os grupos de países foram semelhantes ao nível de
significância 0,05. O resultado do teste M de Box foi aproximado a distribuição qui-quadrado e a
distribuição F de Snedecor, ambos mostraram que não há evidencias estatísticas para rejeitar a
hipótese de que a matriz de variância/covariâncias sejam iguais, ou seja, o crescimento da população
de 2001 a 2012 dos países do leste europeu é igual ao resto dos países da Europa.
PALAVRAS CHAVE: população, covariância, M’Box
1 INTRODUÇÃO
A Europa é o segundo menor continente em superfície do mundo, cobrindo
cerca de 10 180 000 quilômetros quadrados ou 2% da superfície da Terra e cerca
de 6,8% da área acima do nível do mar. É o terceiro continente mais populoso do
mundo, após a Ásia e a África, com uma população de 731 milhões, o que perfaz
pouco mais de 11% da população mundial. De acordo com a Organização das
Nações Unidas (ONU), a proporção da população europeia pode cair cerca de 7%
até 2050. Em 1900, a população europeia representava 25% da população mundial.
O Leste Europeu, também chamado de Europa Oriental, abriga os antigos
países socialista. Depois da mudanças ocorridas com o fim da Guerra Fria,
observou-se um nova conformação, onde compreende 22 países, são eles: Albânia,
Armêmia, Azerbaijão, Belorus, Bulgária, Croácia, Eslovênia, Eslováquia, Estônia,
Federação Russa, Georgia, Hungria, Iugoslávia, Letônia, Lituânia, Macedônia,
Moldávia, Polônia, República Tcheca, Romênia e Turquia.
Será que a Europa oriental como o resto de toda Europa apresentam
crescimentos populacionais divergentes? Assim o objetivo deste trabalho é verificar
se os grupos de países europeus formam tiveram a mesma variação em relação aos
anos 2001 a 2012.
2 METODOLOGIA
Utilizou-se o banco de dados da população de países da Europa, no período
de 2000 a 2012, que se encontram no Site: http:// www.euroestar.com .(Referencia
do site online)
A Europa é composta por 46 países independentes, mas no banco de dados
tínhamos apenas 35 países com a sua população até 2012 atualizada. Os 35 países
Europeus que estudaremos são:
1. Bulgária,
2. Republica Checa,
3. Estônia,
4. Grécia,
5. Latvia,
6. Lituânia,
7. Hungria,
8. Polônia,
9. Romênia,
10. Eslovênia,
11. Eslovaca,
12. Montenegro,
13. Croácia,
14. Yugoslávia
15. Turquia
16. Bélgica,
17. Dinamarca,
18. Alemanha,
19. Irlanda,
20. Espanha,
21. França,
22. Itália,
23. Chipre,
24. Luxemburgo,
25. Malta,
26. Holanda,
27. Áustria,
28. Portugal,
29. Finlândia,
30. Suécia,
31. Reino Unido,
32. Iceland,
33. Liechtenstein,
34. Noruega,
35. Suíça.
Onde, são divididos por aqueles, que fazem parte da região chamada Leste
Europeu e os países que não são do leste Europeu.
Figura 1 – Mapa Político de Países Europeus e do Leste Europeu
Fonte: Wikipédia
Os países que integram atualmente a região chamada Leste Europeu são:
1. Bulgária
2. Republica Checa
3. Estônia
4. Grécia
5. Latvia
6. Lituânia
7. Hungria
8. Polônia
9. Romênia
10. Eslovênia
11. Eslovaca
12. Montenegro
13. Croácia
14. Yugoslavia
15. Turquia
Os países que não são do leste europeu são os seguintes:
1. Bélgica
2. Dinamarca
3. Alemanha
4. Irlanda
5. Espanha
6. França
7. Itália
8. Chipre
9. Luxemburgo
10. Malta
11. Holanda
12. Áustria
13. Portugal
14. Finlândia
15. Suécia
16. Reino Unido
17. Irlanda
18. Liechtenstein
19. Noruega
20. Suíça
Teste para a igualdade de matrizes de variância/covariância (M Box)
É o teste estatístico da generalização do teste univariado de igualdade de
variâncias de Bartlett, que é possível determinar se, pode ou não rejeitar a hipótese
de igualdade das matrizes de variância/covariância das variáveis independentes ao
longo dos grupos. Onde tem-se as pré-suposições:
1. As matrizes de variância/covariância devem ser iguais para todos os
grupos de tratamentos;
2. O conjunto de p variáveis independentes deve seguir uma distribuição
normal multivariada, ou seja, qualquer combinação linear das variáveis dependentes
deve seguir uma distribuição normal.
A violação do pressuposto de normalidade multivariada, das variáveis
independentes merece cautela na decisão futura, quanto à realização de testes
paramétricos por serem muito sensíveis a algumas estatísticas multivariadas. No
teste de igualdade de matrizes de variância/covariância (M de Box), não é tão
sensível quanto à esse pressuposto, mas o melhor é que se tenha normalidade nas
variáveis independentes.
Ainda que essa suposição seja inerente à maioria das técnicas multivariadas,
não existe um teste direto para a normalidade multivariada. Assim muitos
pesquisadores testa a normalidade de cada variável, só que, a normalidade
univariada não garante a normalidade multivariada, mas se todas as variáveis
atendem a essa condição, então quaisquer desvios da normalidade multivariada são
geralmente inócuos (HAIR, 1998).
Então se não há normalidade, deve-se partir para a transformação dos dados,
de modo que satisfaça o pressuposto de normalidade e então partir para o teste de
M Box.
Segundo (REIS, 2001) Box elaborou o teste M, utilizando o método do
quociente de verosimilhanças e pressupostos que os vetores de médias dos grupos
são desconhecidos, onde as hipóteses a serem testadas são:
 H 0 : 1   2  ...   K

i j
 H1 : i   j ,
O teste M Box define-se da seguinte forma:
k
M  (n  k ) ln S  V j ln S j
j 1
em que
 n é a dimensão total da amostra;

os graus de liberdade associados a cada grupo;

é a matriz de covariância do grupo j;
 é a matriz de covariância conjunta total
S
(n1  1).S1  (n2  1).S2
(n1  1)  (n2  1)
Box então sugeriu duas aproximações para o teste de igualdade de matrizes,
são elas:
1. À distribuição do Qui-quadrado (  2 ): A aproximação pela distribuição
do Qui-quadrado será realizada pela formula:
2 p2  3 p 1  k 1
1 
C  1
  

6( p  1)(k  1)  j 1 V j n  k 
onde
M .C
 21

 2 p ( p 1)( k 1) 


2. À distribuição F de Snedecor (F): A aproximação pela distribuição F de
Snedecor, é um pouco complicada, então é necessário definir:
a1  1  C
( p  1)( p  2)  k 1
1 
a2 
  2 

6(k  1)  j 1 V j (n  k ) 2 
v
em que
p( p  1)(k  1)
2
v2
v0 
a2  a12

v
1

a



1
v0 

M.
v
F( v ,v0 )
3 RESULTADOS E DISCUSSÃO
Observou-se por meio do teste de Shapiro-Wilks, que nem todas as variáveis
independentes possuem normalidade, ou seja, as populações em anos dos países
europeus, não seguem uma distribuição normal. Levando em consideração que não
existe um teste direto para testar a normalidade multivariada das variáveis
independentes, conclui-se por meio do teste de Shapiro-Wilks que não há
normalidade multivariada nas variáveis independentes. Devendo resaltar que
análises posteriores não podem concluir nada a respeito. Sabendo que o melhor a
se fazer seria transformar os dados para obter a normalidade das variáveis
independentes e então partir para o teste de igualdade de matrizes de
variância/covariância M de Box.
Mas como o objetivo deste trabalho foi mostrar como é aplicada a técnica do
teste de igualdade de matrizes de variância/covariância (M Box). Foi realizado o
teste nos dois grupos de países, para o entendimento da técnica, e não, para
concluir se há ou não igualdade de matrizes, o que seria um erro enorme. Então,
vejamos a seguir como seria a conclusão se houvesse normalidade multivariada nas
variáveis independentes.
Para partir ao teste M de Box, considera-se, os países do leste europeu como
primeiro grupo e os países que não integram o leste europeu como segundo grupo.
Então devemos levar em consideração as hipóteses:
 H 0 : S1  S2

 H1 : S1  S2
Onde:
 H0: O crescimento da população de 2001 a 2012 dos países do leste europeu
é igual aos restantes dos países da Europa.
 H1: O grupo dos países do leste europeu é diferente do restante da Europa.
Calculado as matrizes de variância/covariância dos dois de países, a matriz de
variância/covariância conjunta (S), e os valores abaixo:
p  12 : variáveis (anos)
k  2 :grupos (países que são do leste Europeu e que não são do leste Europeu)
n  35
n1  15
n2  20
Vk  nk  1 , como temos k  2 , então:
V1  n1  1  15  1  14
V2  n2  1  20  1  19
tem-se o seguinte resultado
k
M  (n  k ) ln S  V j ln S j  7,538
j 1
Encontrando valores necessários para obtenção do resultado futuros:
C  1
2 p2  3 p 1  k 1
1 
2.122  3.12  1  1 1
1 
  
  1 
  
  0, 6596
6( p  1)(k  1)  j 1 V j n  k 
6(12  1)(2  1)  15 19 35  2 
a1  1  C  1  0,6596  0,3404

( p  1)( p  2)  k 1
1  (12  1)(12  2)  1
1
1

  0,1405



  2 

 152 192  35  2 2 
6(k  1)  j 1 V j (n  k )2 
6(2  1)


p( p  1)(k  1) 12(12  1)(2  1)
v

 78
2
2
v2
78  2
v0 

 3248,36
2
a2  a1 0,1405   0,3404 2
a2 
Utilizando a aproximação pela distribuição do Qui-quadrado (  2 ), teremos:
M .C  7,538.0,6596  4,9722
valor tabelado do qui-quadrado ao nível de 5% de probabilidade será:
 2 1

 2 p ( p 1)( k 1) 


  2 1

 2 .12(12 1)(2 1) 


  278  99, 62
Então, aceita-se a hipótese H0, ao nível de 5% de probabilidade, ou seja, as
matrizes de variância/covariância dos dois grupos não diferem estatisticamente
entre si.
Utilizando a aproximação pela distribuição F de Snedecor (F ):

v
78 

1  0,3404 
1  a1  

v0 
3248,36 
M.
 7,538. 
 0, 061
v
78
Valor da tabela F ao nível de 5% de probabilidade é dado por:
F( v,v0 )  F 78;3248,36  1, 28
Da mesma forma que a aproximação pela distribuição qui-quadrado, aceita-se
a hipótese H0, ao nível de 5% de probabilidade, quando utilizada a aproximação
pela distribuição F de Snedecor, ou seja, as matrizes de variância/covariância dos
dois grupos não diferem estatisticamente entre si.
4 CONCLUSÃO
Após análises realizadas nos dados, pode-se observar que não houve
normalidade multivariada nas variáveis independentes, então não poderia ser
realizada a técnica do teste de igualdade de matrizes de variância/covariância, pois
deveria ser realizada a transformação dos dados, para que as variáveis
independentes seguissem uma distribuição normal multivariada, e então fazer uso
da técnica de M Box. Mas como o objetivo deste trabalho foi mostrar como é
aplicada a técnica do (M Box), e não concluir se realmente as matrizes são iguais ou
diferem estatisticamente entre si, pois seria um grande erro concluir a respeito de
dados que não seguem uma distribuição normal. Então realizou-se o teste nos dois
grupos de países, para o entendimento da técnica. Assim, vejamos a seguir como
seria a conclusão se houvesse normalidade multivariada nas variáveis
independentes.
Notou-se que ao aplicar o teste M de Box de igualdade de matrizes de
variância/covariância entre dois grupos de países europeus constatou-se que houve
igualdade na dispersão dos grupos, por meio da utilização de aproximações da
distribuição qui-quadrado e distribuição F de Snedecor, ao nível de 5 % de
probabilidade, ou seja, a matriz de variância/covariância do crescimento
populacional entre os anos de 2001 a 2012 dos países do leste europeu é igual ao
resto dos países da Europa.
REFERÊNCIAS
1. Reis, E. Estatística Multivariada Aplicada. 2. ed Revista e Corrigida. Lisboa:
Editora Silabo, 2001.
2. HAIR,J.F., TATHAM,R.L., ANDERSON,R.E., BLACK,W., Análise Multivariada
de Dados. 5 ed. Porto Alegre :Artmed Editora S.A., 1998.
3. BOX, G. E. P., A general distribution theory for a class of likelihood
criteria. Biometrika, 1949.
4. MINGOTI, S.A., Análise de dados através de métodos de estatística
multivariada: uma abordagem aplicada. Belo Horizonte: Ed. UFMG, 2005.
5. SEBER, G. A. F. Multivariate observations. New York: John Wiley & Sons,
Inc. (Section 9.2.6). 1984.
6. Portal de Dados da População Europeia, acesso em 29/09/2012, (http://
www.euroestar.com).
7. WIKIPEDIA – A enciclopédia livre, acesso 16/10/2012, disponível em
http://pt.wikipedia.org/wiki/Leste_Europeu
Download