1 Introdução

Propaganda
ANÁLISE DE COMPONENTES PRINCIPAIS APLICADA AO TRATAMENTO DE DADOS
ESPACIAIS
Bernardo Jeunon de Alencar
[email protected]
Instituto de Informática – Programa de Pós Graduação em Geografia – Tratamento da Informação Espacial – PUC Minas
Belo Horizonte – MG – Brasil
Leônidas Conceição Barroso
[email protected]
Programa de Pós Graduação em Geografia – Tratamento da Informação Espacial – PUC Minas
Belo Horizonte – MG – Brasil
João Francisco de Abreu
[email protected]
Programa de Pós Graduação em Geografia – Tratamento da Informação Espacial – PUC Minas
Belo Horizonte – MG – Brasil
Resumo – O tratamento multivariado de dados tem tido aceitação crescente em Análise Espacial por possibilitar maior facilidade no
exame de grandes conjuntos de dados, tão necessários à explicação de fenômenos geográficos. Uma técnica que tem sido bastante
utilizada é Análise de Componentes Principais. Seu uso simplifica a visualização das informações contidas nos dados originais, permitindo
estudos de tendências e delineação de padrões espaciais. É uma técnica que pode ser aplicada quando existe, por exemplo, a necessidade
de se agrupar um grande número de variáveis relacionadas a um determinado conjunto de observações. Nesse artigo ilustra-se sua
aplicação na Geografia como instrumento de análise de dados espaciais da mesorregiao do Vale do Mucuri, no Estado de Minas Gerais,
Brasil. Para auxiliar estudantes e profissionais de Geografia na execução dos cálculos foi desenvolvido o aplicativo NINNA PCA,
registrado sob número 11.045-5 no INPI-Instituto Nacional de Propriedade Industrial da República Federativa do Brasil.
Palavras-Chave – Análise de Componentes Principais. Interdisciplinaridade. Tratamento da Informação Espacial. Vale do Mucuri.
_______________________________________________________________________________________________________________
1 Introdução
A organização e a análise de dados podem ser feitas por
mesorregião do Vale do Mucuri, no Estado de Minas
meio de várias técnicas multivariadas. A Análise
Gerais, Brasil.
Multivariada pode ser usada, principalmente, para a
redução ou simplificação de dados, para o agrupamento
bem como a investigação sobre a interdependência entre
variáveis. Esse trabalho apresenta uma delas, a Análise de
Componentes Principais e ilustra sua aplicação no
tratamento de algumas variáveis socio-econômicas da
De acordo com (JOHNSON; WICHERN, 1988), a
Análise Multivariada utiliza métodos estatísticos com a
finalidade de descrever e analisar dados de muitas
variáveis simultaneamente. Entender o relacionamento
entre essas diversas variáveis faz desse conjunto de
técnicas uma ferramenta de grande potencial de
A medida da projeção dos pontos entre P e Q, segmento
aplicação, principalmente com apoio do computador,
b, da figura 1, no eixo x’Oy’ é maior que a medida da
veloz e acessível como se observa atualmente.
projeção dos mesmos pontos sobre o eixo xOy.
Para HAIR et al, (2005), a Análise Multivariada é um
y
y’
Q
conjunto de técnicas voltadas para a análise de dados e é
uma área em constante expansão.
2 A Análise de Componentes Principais
b
P
A Análise de Componentes Principais objetiva reduzir
x’
um conjunto de dados criando componentes, chamados
a
de principais. Em termos muito reduzidos, a Análise de
Componentes Principais é uma técnica que busca
x
eliminar a redundância existente entre um grupo de
Figura 1 - Rotação de Eixos efetuada pelas Componentes
variáveis criando outras, por meio de uma combinação
Principais
linear entre elas. Essas novas variáveis criadas são
chamadas
de
componentes,
sintetizam
a
maior
variabilidade dos dados originais, não são correlacionadas
Há inúmeras possibilidades de escolha dos coeficientes
de uma combinação linear, isto é, para a combinação
linear
entre si e são ordenadas segundo a proporção da variância
y  a1 x1  a 2 x2  a3 x3  ...  a n xn
que podem explicar. Ela busca sintetizar a maior
variabilidade dos dados, o que sugere a qualificação de
principal. A partir da inspeção dessas componentes,
(1)
diversos an's são capazes de satisfazê-la.
podem-se estabelecer relações para a classificação de
A combinação linear entre variáveis permite a redução de
variáveis e a ordenação de indivíduos.
muitos problemas multivariados.
Os objetivos dessa técnica, em síntese, são:
 Gerar novas variáveis em um número reduzido
3 Roteiro de cálculos
que expressem de modo satisfatório a informação
3.1 Matriz de dados
contida no conjunto original de dados;
A Matriz de Dados contém os dados coletados, incluindo
 Reduzir a dimensão do problema que está sendo
estudado, como passo prévio para futuras análises;
as coordenadas geográficas das observações. Esses dados
originais podem ser quantificados em grandezas e
unidades de medida muito diversificadas. Para contornar
 Eliminar, quando for possível, algumas variáveis
originais, caso elas contribuam com informação
este
obstáculo
devem-se
padronizar
esses
dados,
tornando-os adimensionais.
pouco significativa.
Segundo
(JOHNSON;
geometricamente,
essas
WICHERN,
1998),
combinações
lineares
3.2
Padronização das variáveis
representam a seleção de um novo sistema de
A padronização de cada variável é calculada por meio da
coordenadas, obtido através da rotação de eixos do
equação:
sistema de coordenadas original. Esses novos eixos
representam as direções com o máximo de variabilidade.
Z
x  mX
Sx
onde:
relativo a um autovalor  quando a relação Rv  v é
verdadeira.
Desta forma, a solução dessa equação (polinomial)
Z é o valor da variável padronizada,
x é o valor da variável a ser padronizada,
fornece diversos valores possíveis para  e cada  é um
autovalor de R . Substituindo  em ( R  I )v  0 será
S x é o desvio padrão da variável
encontrado o autovetor de R associado ao autovalor  .
mX é a média aritmética da variável
3.4
Com os dados padronizados calcula-se a matriz de
As coordenadas dos autovetores v
correlação R, conforme (2).
correlação
Z T .Z
R
n
Componentes principais
são
os
coeficientes
da matriz de
(ou
pesos)
das
componentes principais e os autovalores são variâncias
(2)
dessas componentes principais.
O autovalor representa o percentual da quantidade de
onde:
variância total que está associado ao componente.
R é a matriz de correlação;
Encontra-se também o respectivo autovetor associado ao
Z é a matriz padronizada;
autovalor calculado, o peso, que corresponde à correlação
entre as componentes principais e as variáveis, e a
Z T é a matriz transposta de Z e
variância de cada elemento individual do autovetor.
n é o número de observações
A soma dos autovalores fornece a variância total.
Os elementos de sua diagonal principal possuem valor 1
O primeiro autovalor corresponde ao maior percentual da
que mostra a correlação de uma variável com ela mesma.
variabilidade máxima. O segundo autovalor corresponde
Os demais valores sempre variam entre -1 e 1. Quando
ao segundo maior percentual de variabilidade máxima e
esse valor está próximo de 1 tem-se uma forte correlação
assim por diante.
positiva e quando está próximo de -1 forte correlação
negativa. Um valor próximo de 0 indica ausência de
correlação.
O Traço da Matriz de Correlação é a soma dos elementos
da sua diagonal principal e expressa a variância total dos
Pode-se expressar as componentes principais nas n
combinações lineares em (3):
Y1  v(1,1) Z1  v( 2,1) Z 2  v(3,1) Z 3  ...  v( n,1) Z n
Y2  v(1, 2) Z1  v( 2, 2 ) Z 2  v(3, 2) Z 3  ...  v( n , 2 ) Z n (3)
dados considerados.
É possível também o cálculo da matriz de correlação
utilizando a própria matriz de dados original, ao invés da
matriz padronizada.
3.3
Autovalores e Autovetores
...
Ym  v(1,m ) Z1  v( 2, m) Z 2  v(3,m) Z 3  ...  v( n ,m) Z n
onde:
Yi , i = 1, 2, 3, ....,m,são as componentes;
Obtida a matriz de correlação, torna-se possível calcular
os autovalores e os respectivos autovetores da matriz de
correlação. Um vetor v  0 é autovetor da matriz R
v( n ,m ) são os coeficientes da combinação linear e
Z n são as colunas da matriz padronizada.
3.5
Quadro 1 – Municípios da Mesorregião do Vale do
Mucuri/MG
Escores
A próxima etapa é a do cálculo dos escores. Eles são
Nome do Município
utilizados para ordenar as observações no âmbito de cada
componente principal, para a finalidade de mapeamento.
Toma-se
a
matriz
padronizada
dos
dados,
pós-
multiplicando-a pelo vetor que expressa a correlação
entre as componentes principais e as variáveis, isto é,
Escore  Z .cv (4)
onde:
Z é a matriz de dados padronizada e
cv é a correlação entre as componentes e as variáveis.
Essa correlação é expressa por:
cv   .v
onde 
1
Águas Formosas
13
Maxacalis
2
Ataléia
14
Nanuque
3
Bertópolis
15
Novo Oriente de Minas
4
Carlos Chagas
16
Ouro Verde de Minas
5
Catuji
17
Pavão
6
Crisólita
18
Poté
7
Franciscópolis
19
Santa Helena de Minas
8
Frei Gaspar
20
Serra dos Aimorés
9
Fronteira dos Vales
21
Setubinha
10
Itaipe
22
Teófilo Otoni
11
Ladainha
23
Umbuiratiba
12
Malacacheta
(variância da componente principal) é o
autovalor da matriz de correlação R relativo a v , e v
(coeficientes da componente principal) é o autovetor da
Quadro 2 – Variáveis
#
Nome
Descrição
1
EspVidaN
Esperança de Vida ao Nascer
2
Taxa de Alfabetização de Adultos
4
TxAlfAdulto
s
TxFreqEscol
a
RendaPC
5
IDHM-M
Índice
de
Desenvolvimento
Humano Municipal - Geral
6
IDHM-L
Índice
de
Humano
7
IDHM-E
Índice
de
Desenvolvimento
Humano Municípal - Educação
8
IDHM-R
Índice
de
Desenvolvimento
Humano Municípal - Renda
9
DifEspVida
Diferença da Esperança de Vida
ao Nascer
10
DifTxAlfab
Diferença
da
Taxa
Alfabetização de Adultos
11
DifTxFreqE
12
DifRendaPC
Diferença da Taxa de Freqüência
à Escola
Diferença da Renda per Capita
13
DifIDHM-M
Diferença do IDHM-M
14
DifIDHM-L
Diferença do IDHM-L
15
DifIDHM-E
Diferença do IDHM-E
16
DifIDHM-R
Diferença do IDHM-R
matriz de correlação R . Na verdade, o que se faz é
multiplicar o desvio padrão do autovalor sobre os
3
coeficientes dos autovetores.
4. Exemplo de Uso da Técnica em Geografia
Nome do Município
Taxa Bruta de Freqüência à
Escola
Renda per Capita
Desenvolvimento
Municípal
-
A título de ilustração da aplicação da ACP, consideramse alguns dados sócio-econômicos de 23 municípios
pertencentes ao Vale do Mucuri, em Minas Gerais, Brasil.
O Quadro 1 mostra a relação dos municípios.
Foram
consideradas
23
observações,
ou
casos,
correspondentes aos municípios, e 16 variáveis, listadas
no Quadro 2. Os dados são do ano de 1991 e as
diferenças de valores relatadas são entre 1991 e 2000.
de
O software utilizado para os cálculos foi o programa de
Quadro 3 – Variáveis agrupadas pela Primeira
Componente Principal
computador NINNAPCA, versão Desktop, disponível em
www.globogeo.com/ninna. A descrição completa do
#
Nome
software e instruções sobre sua disponibilização está em
2
(ALENCAR, 2009).
3
A aplicação da Análise de Componentes Principais
4
TxAlfAdulto
s
TxFreqEscol
a
RendaPC
6
IDHM-L
7
IDHM-E
8
IDHM-R
encontrou duas componentes principais que explicam um
total de 66,57% da variância total dos dados. Como a
primeira componente associa 46,55% das variáveis, podese considerar que ela agrupa até 7 variáveis. A segunda
componente associa 20,02%, ou até 3 variáveis.
A segunda componente principal, por sua vez, agrupou as
Taxa de Alfabetização de Adultos
Taxa Bruta de Freqüência à
Escola
Renda per Capita
Índice
de
Desenvolvimento
Humano
Municípal
Longevidade
Índice Desenvolvimento Humano
Municípal - Geral
Índice Desenvolvimento Humano
Municípal - Renda
Quadro 4 – Variáveis agrupadas pela Segunda
Componente Principal
A primeira componente principal permitiu o agrupamento
das variáveis 2, 3, 4, 6, 7,e 8, listadas no Quadro 3.
Descrição
#
Nome
Descrição
1
EspVidaN
Esperança de Vida ao Nascer
5
IDHM-M
Índice
Desenvolvimento.
Humano Municipal - Geral
seguintes variáveis 1 e 5, listadas no Quadro 4.
Os mapas temáticos 1 e 2 mostram os municípios da
região classificados segundo a primeira componente
principal
(massa
sócio-econômica)
e
a
segunda
componente principal, respectivamente, divididos em 5
classes.
Mapa 1 - Municípios do Vale do Mucuri segundo a componente I
Mapa 2 - Municípios do Vale do Mucuri segundo a componente II
5 Considerações Finais
Trata-se, em síntese, de uma abordagem estatística que
A aplicação da técnica da Análise de Componentes
pode ser usada para analisar as inter-relações existentes
Principais permitiu o agrupamento de variáveis em eixos
entre um grande número de variáveis, condensando a
comuns e a confecção mapas temáticos proporcionando a
informação contida nelas em um conjunto reduzido de
visualização dos resultados. Ela se mostra uma técnica
variáveis, observando uma perda mínima de informação.
muito eficiente quando existe a necessidade de se
Seu uso simplifica a análise e a visualização das
comparar, de maneira conjunta, um grande número de
informações contidas nos dados originais.
variáveis relacionadas a um determinado conjunto de
Entretanto deve-se observar que a técnica é um meio
observações. Efetivamente possibilita uma simplificação
auxiliar para o geógrafo na análise e na validação dos
no processo de análise.
resultados encontrados. O uso puro e simples de uma
técnica não assegura, por si só, a decisão de acatar ou
rejeitar a explicação de um fenômeno espacial.
____________________________________________________________________________________________________
Bibliografia
ALENCAR, B. J., A Análise Multivariada no Tratamento
da Informação Espacial – Uma Abordagem MatemáticoComputacional em Análise de Agrupamentos e Análise
de Componentes Principais.
Tese de Doutorado em
Geografia (PUC Minas). 2009, 198p. Disponível em:
www.biblioteca.pucminas/teses/TratInfEspacial_Alencar
BJJ_1.pdf
HAIR JR., J. F.; ANDERSON, R.; TATHAM, R. L.;
BLACK, W. C., Análise Multivariada de Dados – 5ª
Edição – Bookman – 2005 – 593p.
JOHNSON, R. A.; WICHERN, D. W., Applied
Multivariate Statistical Analysis. Prentice Hall, New
Jersey, USA, 1998, 816p.
Download