ANÁLISE DE COMPONENTES PRINCIPAIS APLICADA AO TRATAMENTO DE DADOS ESPACIAIS Bernardo Jeunon de Alencar [email protected] Instituto de Informática – Programa de Pós Graduação em Geografia – Tratamento da Informação Espacial – PUC Minas Belo Horizonte – MG – Brasil Leônidas Conceição Barroso [email protected] Programa de Pós Graduação em Geografia – Tratamento da Informação Espacial – PUC Minas Belo Horizonte – MG – Brasil João Francisco de Abreu [email protected] Programa de Pós Graduação em Geografia – Tratamento da Informação Espacial – PUC Minas Belo Horizonte – MG – Brasil Resumo – O tratamento multivariado de dados tem tido aceitação crescente em Análise Espacial por possibilitar maior facilidade no exame de grandes conjuntos de dados, tão necessários à explicação de fenômenos geográficos. Uma técnica que tem sido bastante utilizada é Análise de Componentes Principais. Seu uso simplifica a visualização das informações contidas nos dados originais, permitindo estudos de tendências e delineação de padrões espaciais. É uma técnica que pode ser aplicada quando existe, por exemplo, a necessidade de se agrupar um grande número de variáveis relacionadas a um determinado conjunto de observações. Nesse artigo ilustra-se sua aplicação na Geografia como instrumento de análise de dados espaciais da mesorregiao do Vale do Mucuri, no Estado de Minas Gerais, Brasil. Para auxiliar estudantes e profissionais de Geografia na execução dos cálculos foi desenvolvido o aplicativo NINNA PCA, registrado sob número 11.045-5 no INPI-Instituto Nacional de Propriedade Industrial da República Federativa do Brasil. Palavras-Chave – Análise de Componentes Principais. Interdisciplinaridade. Tratamento da Informação Espacial. Vale do Mucuri. _______________________________________________________________________________________________________________ 1 Introdução A organização e a análise de dados podem ser feitas por mesorregião do Vale do Mucuri, no Estado de Minas meio de várias técnicas multivariadas. A Análise Gerais, Brasil. Multivariada pode ser usada, principalmente, para a redução ou simplificação de dados, para o agrupamento bem como a investigação sobre a interdependência entre variáveis. Esse trabalho apresenta uma delas, a Análise de Componentes Principais e ilustra sua aplicação no tratamento de algumas variáveis socio-econômicas da De acordo com (JOHNSON; WICHERN, 1988), a Análise Multivariada utiliza métodos estatísticos com a finalidade de descrever e analisar dados de muitas variáveis simultaneamente. Entender o relacionamento entre essas diversas variáveis faz desse conjunto de técnicas uma ferramenta de grande potencial de A medida da projeção dos pontos entre P e Q, segmento aplicação, principalmente com apoio do computador, b, da figura 1, no eixo x’Oy’ é maior que a medida da veloz e acessível como se observa atualmente. projeção dos mesmos pontos sobre o eixo xOy. Para HAIR et al, (2005), a Análise Multivariada é um y y’ Q conjunto de técnicas voltadas para a análise de dados e é uma área em constante expansão. 2 A Análise de Componentes Principais b P A Análise de Componentes Principais objetiva reduzir x’ um conjunto de dados criando componentes, chamados a de principais. Em termos muito reduzidos, a Análise de Componentes Principais é uma técnica que busca x eliminar a redundância existente entre um grupo de Figura 1 - Rotação de Eixos efetuada pelas Componentes variáveis criando outras, por meio de uma combinação Principais linear entre elas. Essas novas variáveis criadas são chamadas de componentes, sintetizam a maior variabilidade dos dados originais, não são correlacionadas Há inúmeras possibilidades de escolha dos coeficientes de uma combinação linear, isto é, para a combinação linear entre si e são ordenadas segundo a proporção da variância y a1 x1 a 2 x2 a3 x3 ... a n xn que podem explicar. Ela busca sintetizar a maior variabilidade dos dados, o que sugere a qualificação de principal. A partir da inspeção dessas componentes, (1) diversos an's são capazes de satisfazê-la. podem-se estabelecer relações para a classificação de A combinação linear entre variáveis permite a redução de variáveis e a ordenação de indivíduos. muitos problemas multivariados. Os objetivos dessa técnica, em síntese, são: Gerar novas variáveis em um número reduzido 3 Roteiro de cálculos que expressem de modo satisfatório a informação 3.1 Matriz de dados contida no conjunto original de dados; A Matriz de Dados contém os dados coletados, incluindo Reduzir a dimensão do problema que está sendo estudado, como passo prévio para futuras análises; as coordenadas geográficas das observações. Esses dados originais podem ser quantificados em grandezas e unidades de medida muito diversificadas. Para contornar Eliminar, quando for possível, algumas variáveis originais, caso elas contribuam com informação este obstáculo devem-se padronizar esses dados, tornando-os adimensionais. pouco significativa. Segundo (JOHNSON; geometricamente, essas WICHERN, 1998), combinações lineares 3.2 Padronização das variáveis representam a seleção de um novo sistema de A padronização de cada variável é calculada por meio da coordenadas, obtido através da rotação de eixos do equação: sistema de coordenadas original. Esses novos eixos representam as direções com o máximo de variabilidade. Z x mX Sx onde: relativo a um autovalor quando a relação Rv v é verdadeira. Desta forma, a solução dessa equação (polinomial) Z é o valor da variável padronizada, x é o valor da variável a ser padronizada, fornece diversos valores possíveis para e cada é um autovalor de R . Substituindo em ( R I )v 0 será S x é o desvio padrão da variável encontrado o autovetor de R associado ao autovalor . mX é a média aritmética da variável 3.4 Com os dados padronizados calcula-se a matriz de As coordenadas dos autovetores v correlação R, conforme (2). correlação Z T .Z R n Componentes principais são os coeficientes da matriz de (ou pesos) das componentes principais e os autovalores são variâncias (2) dessas componentes principais. O autovalor representa o percentual da quantidade de onde: variância total que está associado ao componente. R é a matriz de correlação; Encontra-se também o respectivo autovetor associado ao Z é a matriz padronizada; autovalor calculado, o peso, que corresponde à correlação entre as componentes principais e as variáveis, e a Z T é a matriz transposta de Z e variância de cada elemento individual do autovetor. n é o número de observações A soma dos autovalores fornece a variância total. Os elementos de sua diagonal principal possuem valor 1 O primeiro autovalor corresponde ao maior percentual da que mostra a correlação de uma variável com ela mesma. variabilidade máxima. O segundo autovalor corresponde Os demais valores sempre variam entre -1 e 1. Quando ao segundo maior percentual de variabilidade máxima e esse valor está próximo de 1 tem-se uma forte correlação assim por diante. positiva e quando está próximo de -1 forte correlação negativa. Um valor próximo de 0 indica ausência de correlação. O Traço da Matriz de Correlação é a soma dos elementos da sua diagonal principal e expressa a variância total dos Pode-se expressar as componentes principais nas n combinações lineares em (3): Y1 v(1,1) Z1 v( 2,1) Z 2 v(3,1) Z 3 ... v( n,1) Z n Y2 v(1, 2) Z1 v( 2, 2 ) Z 2 v(3, 2) Z 3 ... v( n , 2 ) Z n (3) dados considerados. É possível também o cálculo da matriz de correlação utilizando a própria matriz de dados original, ao invés da matriz padronizada. 3.3 Autovalores e Autovetores ... Ym v(1,m ) Z1 v( 2, m) Z 2 v(3,m) Z 3 ... v( n ,m) Z n onde: Yi , i = 1, 2, 3, ....,m,são as componentes; Obtida a matriz de correlação, torna-se possível calcular os autovalores e os respectivos autovetores da matriz de correlação. Um vetor v 0 é autovetor da matriz R v( n ,m ) são os coeficientes da combinação linear e Z n são as colunas da matriz padronizada. 3.5 Quadro 1 – Municípios da Mesorregião do Vale do Mucuri/MG Escores A próxima etapa é a do cálculo dos escores. Eles são Nome do Município utilizados para ordenar as observações no âmbito de cada componente principal, para a finalidade de mapeamento. Toma-se a matriz padronizada dos dados, pós- multiplicando-a pelo vetor que expressa a correlação entre as componentes principais e as variáveis, isto é, Escore Z .cv (4) onde: Z é a matriz de dados padronizada e cv é a correlação entre as componentes e as variáveis. Essa correlação é expressa por: cv .v onde 1 Águas Formosas 13 Maxacalis 2 Ataléia 14 Nanuque 3 Bertópolis 15 Novo Oriente de Minas 4 Carlos Chagas 16 Ouro Verde de Minas 5 Catuji 17 Pavão 6 Crisólita 18 Poté 7 Franciscópolis 19 Santa Helena de Minas 8 Frei Gaspar 20 Serra dos Aimorés 9 Fronteira dos Vales 21 Setubinha 10 Itaipe 22 Teófilo Otoni 11 Ladainha 23 Umbuiratiba 12 Malacacheta (variância da componente principal) é o autovalor da matriz de correlação R relativo a v , e v (coeficientes da componente principal) é o autovetor da Quadro 2 – Variáveis # Nome Descrição 1 EspVidaN Esperança de Vida ao Nascer 2 Taxa de Alfabetização de Adultos 4 TxAlfAdulto s TxFreqEscol a RendaPC 5 IDHM-M Índice de Desenvolvimento Humano Municipal - Geral 6 IDHM-L Índice de Humano 7 IDHM-E Índice de Desenvolvimento Humano Municípal - Educação 8 IDHM-R Índice de Desenvolvimento Humano Municípal - Renda 9 DifEspVida Diferença da Esperança de Vida ao Nascer 10 DifTxAlfab Diferença da Taxa Alfabetização de Adultos 11 DifTxFreqE 12 DifRendaPC Diferença da Taxa de Freqüência à Escola Diferença da Renda per Capita 13 DifIDHM-M Diferença do IDHM-M 14 DifIDHM-L Diferença do IDHM-L 15 DifIDHM-E Diferença do IDHM-E 16 DifIDHM-R Diferença do IDHM-R matriz de correlação R . Na verdade, o que se faz é multiplicar o desvio padrão do autovalor sobre os 3 coeficientes dos autovetores. 4. Exemplo de Uso da Técnica em Geografia Nome do Município Taxa Bruta de Freqüência à Escola Renda per Capita Desenvolvimento Municípal - A título de ilustração da aplicação da ACP, consideramse alguns dados sócio-econômicos de 23 municípios pertencentes ao Vale do Mucuri, em Minas Gerais, Brasil. O Quadro 1 mostra a relação dos municípios. Foram consideradas 23 observações, ou casos, correspondentes aos municípios, e 16 variáveis, listadas no Quadro 2. Os dados são do ano de 1991 e as diferenças de valores relatadas são entre 1991 e 2000. de O software utilizado para os cálculos foi o programa de Quadro 3 – Variáveis agrupadas pela Primeira Componente Principal computador NINNAPCA, versão Desktop, disponível em www.globogeo.com/ninna. A descrição completa do # Nome software e instruções sobre sua disponibilização está em 2 (ALENCAR, 2009). 3 A aplicação da Análise de Componentes Principais 4 TxAlfAdulto s TxFreqEscol a RendaPC 6 IDHM-L 7 IDHM-E 8 IDHM-R encontrou duas componentes principais que explicam um total de 66,57% da variância total dos dados. Como a primeira componente associa 46,55% das variáveis, podese considerar que ela agrupa até 7 variáveis. A segunda componente associa 20,02%, ou até 3 variáveis. A segunda componente principal, por sua vez, agrupou as Taxa de Alfabetização de Adultos Taxa Bruta de Freqüência à Escola Renda per Capita Índice de Desenvolvimento Humano Municípal Longevidade Índice Desenvolvimento Humano Municípal - Geral Índice Desenvolvimento Humano Municípal - Renda Quadro 4 – Variáveis agrupadas pela Segunda Componente Principal A primeira componente principal permitiu o agrupamento das variáveis 2, 3, 4, 6, 7,e 8, listadas no Quadro 3. Descrição # Nome Descrição 1 EspVidaN Esperança de Vida ao Nascer 5 IDHM-M Índice Desenvolvimento. Humano Municipal - Geral seguintes variáveis 1 e 5, listadas no Quadro 4. Os mapas temáticos 1 e 2 mostram os municípios da região classificados segundo a primeira componente principal (massa sócio-econômica) e a segunda componente principal, respectivamente, divididos em 5 classes. Mapa 1 - Municípios do Vale do Mucuri segundo a componente I Mapa 2 - Municípios do Vale do Mucuri segundo a componente II 5 Considerações Finais Trata-se, em síntese, de uma abordagem estatística que A aplicação da técnica da Análise de Componentes pode ser usada para analisar as inter-relações existentes Principais permitiu o agrupamento de variáveis em eixos entre um grande número de variáveis, condensando a comuns e a confecção mapas temáticos proporcionando a informação contida nelas em um conjunto reduzido de visualização dos resultados. Ela se mostra uma técnica variáveis, observando uma perda mínima de informação. muito eficiente quando existe a necessidade de se Seu uso simplifica a análise e a visualização das comparar, de maneira conjunta, um grande número de informações contidas nos dados originais. variáveis relacionadas a um determinado conjunto de Entretanto deve-se observar que a técnica é um meio observações. Efetivamente possibilita uma simplificação auxiliar para o geógrafo na análise e na validação dos no processo de análise. resultados encontrados. O uso puro e simples de uma técnica não assegura, por si só, a decisão de acatar ou rejeitar a explicação de um fenômeno espacial. ____________________________________________________________________________________________________ Bibliografia ALENCAR, B. J., A Análise Multivariada no Tratamento da Informação Espacial – Uma Abordagem MatemáticoComputacional em Análise de Agrupamentos e Análise de Componentes Principais. Tese de Doutorado em Geografia (PUC Minas). 2009, 198p. Disponível em: www.biblioteca.pucminas/teses/TratInfEspacial_Alencar BJJ_1.pdf HAIR JR., J. F.; ANDERSON, R.; TATHAM, R. L.; BLACK, W. C., Análise Multivariada de Dados – 5ª Edição – Bookman – 2005 – 593p. JOHNSON, R. A.; WICHERN, D. W., Applied Multivariate Statistical Analysis. Prentice Hall, New Jersey, USA, 1998, 816p.