NOVAS METODOLOGIAS NA ANÁLISE DE CLUSTERS APLICADA A ESTUDOS GEOGRÁFICOS Fernando Bação ([email protected]), Marco Painho ([email protected]), Sandra Catarino ([email protected]), Instituto Superior de Estatística e Gestão de Informação – Universidade Nova de Lisboa, Campus de Campolide – 1070-124 Lisboa Tel: 21 387 15 73 Fax: 21 387 21 40 Palavras Chave: Análise de Cluster, Geografia política, Distância ENQUADRAMENTO Um dos aspectos essenciais a considerar aquando da utilização de métodos estatísticos no âmbito da análise espacial, relaciona-se com a natureza especial dos dados geográficos. Estes, possuem características únicas que em larga medida inviabilizam a utilização de técnicas provenientes da estatística clássica. De facto, a validade destas técnicas, assente em pressupostos de independência e distribuições idênticas, é posta em causa por características como a dependência espacial e a heterogeneidade espacial (Anselin 1989). A adopção acrítica de métodos estatísticos poderá ter sido o primeiro e principal erro da Revolução da Geografia Quantitativa dos anos 60. No entanto, os métodos estatísticos permaneceram como a maior fonte de técnicas de análise e continuam a ser largamente utilizados na Geografia Quantitativa. Infelizmente, a sua utilização não terá sido sempre a mais correcta, o que provavelmente diz mais sobre os utilizadores do que sobre as técnicas em si. O trabalho desenvolvido nos últimos anos na área da análise espacial, pode ser caracterizado como um esforço no sentido de adaptar os métodos estatísticos às particularidades dos dados geográficos (Anselin 1993, Bailey 1994). Paralelamente, uma visão completamente distinta tem sido proposta por Openshaw (1991/93), que argumenta em favor do desenvolvimento de métodos completamente novos, baseados nas novas tecnologias de computação. Esta visão particular, foi a principal responsável pelo aparecimento de uma nova área de investigação denominada GeoComputação. No âmbito do esforço de adaptação das técnicas estatísticas à sua utilização na análise geográfica diversas propostas têm vindo a ser feitas. A maioria dos trabalhos de pesquisa desenvolvidos nesta área têm como preocupação central, desenvolver formas de incorporar as relações topológicas e a distância em métodos estatísticos, normalmente utilizados pelos geógrafos. Trabalhos como o desenvolvido por Stewart Fotheringham, no âmbito da Regressão Geograficamente Ponderada (Fotheringham and Rogerson, 1994), são contribuições importantes para o arsenal analítico do geógrafo. Neste contexto, propomos uma reflexão sobre a análise de clusters, sua utilização na Geografia e formas de a conciliar com as especificidades dos dados espaciais. 1 A ANÁLISE DE CLUSTERS A classificação é uma actividade conceptual básica dos seres humanos. As crianças aprendem muito cedo a classificar os objectos do ambiente que as rodeia e a associar as classes daí resultantes a nomes da sua linguagem. De facto, este processo de classificação constitui um aspecto básico da aquisição de conhecimento nos seres humanos. A complexidade e variabilidade da realidade é de tal forma elevada, que só através deste processo é possível generalizar, reconhecer fenómenos idênticos apesar das cambiantes com que se apresentam. Por isso, a classificação é, também, um processo fundamental comum a muitas ciências, indispensável ao desenvolvimento de teorias científicas. Análise de clusters é um nome genérico para uma grande variedade de metodologias que são usadas para classificar entidades. Estas metodologias constróem grupos (clusters) de entidades com muitas semelhanças entre si. Mais especificamente, a análise de clusters é um conjunto de metodologias de estatística multivariada que, a partir de um conjunto de informação sobre um grupo de entidades, procura organizá-las em grupos “homogéneos”, determinando uma estrutura de semelhanças/diferenças entre as unidades. Tradicionalmente, a análise de clusters divide-se em dois tipos fundamentais de técnicas: hierárquicas e de optimização. As técnicas de optimização são suportadas por um critério de agrupamento dos indivíduos e por um número k (pré-determinado) de grupos (clusters). Na prática estes métodos iniciam o processo através da colocação de k seeds no espaço das variáveis, sendo que, os n indivíduos são associados à seed que se encontra mais próxima. Esta proximidade é, geralmente, calculada em termos de distância euclidiana. Uma vez estabelecida a associação dos indivíduos às seeds obtemos uma primeira solução, os passos seguintes consistem na melhoria da partição inicial. Assim, as seeds são recalculadas por forma a serem recentradas no espaço dos indivíduos que representam. Após este passo, existe a necessidade de voltar ao passo anterior e tornar a associar os indivíduos às seeds mais próximas. O processo é iterativo, e processa-se até que seja atingida estabilidade na solução encontrada. As técnicas hierárquicas, partem de uma matriz de distâncias entre os indivíduos que corresponde inicialmente a n grupos, igual ao número de indivíduos na análise e vai agrupando os indivíduos sucessivamente até atingir um único grupo. O agrupamento vai sendo feito através de uma “flexibilização” da proximidade absoluta: cada indivíduo é agregado ao que lhe está mais próximo; depois, cada grupo daqui resultante é agrupado ao que lhe está mais próximo e assim sucessivamente, até que o processo finda com um único grupo de n indivíduos. Recentemente, vários autores (Kohonen 1988, Bishop 1995) mostraram o impacto que certas redes neuronais artificiais podem ter nas tarefas de clustering. Na realidade, nestes últimos anos as redes neuronais tornaram-se uma ferramenta importante no arsenal de técnicas de classificação disponíveis. Uma aproximação mais flexível parece ser a principal promessa destes novos métodos. O tipo de rede mais utilizada nas tarefas de clustering é sem dúvida o Self Organizing Mapa (SOM), também conhecido 2 por rede de Kohonen. Estas são redes não-supervisionadas, que classificam os indivíduos de acordo com os neurónios que activam no nível de output, com a restrição de que casos semelhantes activarão o mesmo neurónio ou neurónios vizinhos. Assim, o SOM tenta encontrar clusters de tal modo que quaisquer dois clusters que se encontram próximos no mapa têm seeds que estão próximas no espaço de input. Neste contexto temos assistido a uma utilização cada vez mais intensa deste tipo de tecnologia na classificação de dados. No entanto, isto não significa que os métodos tradicionais tenham vindo a ser abandonados. Para além da pesquisa necessária sobre a efectiva valia deste tipo de métodos, a utilização conjunta dos métodos tradicionais com as redes neuronais parece ser um caminho interessante. De facto, a natureza iminentemente apriorística deste tipo de métodos presta-se à utilização de diversas metodologias como forma de validação cruzada dos resultados. 1ª LEI DA GEOGRAFIA Desde de que Tobler (1970) formulou a 1ª Lei da Geografia, o enquadramento teórico da Geografia sofreu uma importante alteração. Não é claro que o meio académico tenha compreendido todas as consequências desta lei. De facto, a ausência de trabalho científico relacionado com este importante marco na ciência geográfica, está em larga medida relacionado com a dificuldade de testar e verificar a aderência do postulado à realidade. No entanto, quando nos preocupamos em verificar esta lei em todos os exemplos específicos, estamos, provavelmente, a preocuparmo-nos com o problema errado. Tal como Goodchild observa “é impossível para um geógrafo imaginar um mundo onde a autocorrelação espacial esteja ausente: não haveria regiões de qualquer espécie, já que a variação de qualquer fenómeno ocorreria de forma independente da localização, e locais na mesma vizinhança seriam tão diferentes quanto locais que se encontram em diferentes continentes.” Assim, o esforço despendido a tentar provar esta evidência empírica é desperdiçado. Os geógrafos sabem que “tudo está relacionado com tudo, mas o que se encontra mais próximo está mais relacionado do que o que se encontra mais distante” (Tobler 1970), e isto é um facto, medir este efeito em todos os casos particulares tem pouco interesse, e levantará sempre dúvidas sobre aquilo que se sabe ser verdadeiro. Em vez de medir a aderência estatística da lei, é provavelmente mais interessante trabalhar no sentido de compreender todas as implicações que esta tem na Geografia, no seu método e nas sua técnicas. Obviamente, que a utilização da estatística clássica, baseada nos pressupostos de independência entre observações, pode ser perigosa. E quanto a alternativas? Novas ferramentas de análise espacial são necessárias, não havendo aparentemente muitas respostas adequadas a este problema. Existem ainda outros aspectos a ter em conta. Os dados censitários, por exemplo, constituem a mais importante fonte de informação no planeamento regional e urbano. A identificação de áreas carenciadas, a geodemografia, o planeamento de equipamentos, são apenas alguns dos processos do planeamento 3 regional e urbano que se baseiam na utilização de dados provenientes dos census. É sabido que a qualidade destes dados não é, nem poderia ser ideal, pelo que a sua utilização deve contemplar particular atenção às interpretações resultantes. Problemas como a unidade de área modificável (Openshaw 1979) e a própria origem das unidades que servem de base à distribuição dos resultados, condicionam a qualidade e interpretabilidade destes dados. Assim, sabendo que o espaço onde procuramos realizar as nossas análises, o espaço das variáveis sócio-demográficas, não está isento de erro, mais importante se torna validar estas análises com teoria geográfica. A DISTÂCIA GEOGRÁFICA COMO VARIÁVEL DE SEGMENTAÇÃO A análise de clusters é desde há muito uma ferramenta largamente utilizada por Geógrafos e técnicos de planeamento, normalmente aplicada no sentido de agrupar unidades territoriais com base em conjuntos de variáveis alfanuméricas. Se a proximidade é importante no espaço do conjunto das variáveis alfanuméricas, porque é que não será importante no espaço geográfico? Se duas áreas são semelhantes em termos dos valores de desemprego, estrutura etária, rendimento, e principalmente são vizinhas, não deverão ser consideradas mais semelhantes, do que duas áreas que tendo valores semelhantes para as variáveis alfanuméricas se encontram distantes? O Geógrafo, em vez de se limitar a medir distâncias no espaço das variáveis deve introduzir também o espaço geográfico. Ignorar que qualquer indivíduo ou entidade do conjunto de dados também pode ser caracterizado em função da sua posição, que se sabe influenciar as suas características, limita severamente o interesse e utilidade do trabalho. Mais importante, não terá qualquer préstimo para a Geografia e para o desejável desenvolvimento da análise e teoria geográfica. Infelizmente, uma grande quantidade de trabalho e talento é em larga medida desperdiçado em análises sociológicas levadas a cabo por Geógrafos. Neste trabalho é proposta uma nova perspectiva sobre a utilização da análise de clusters nos estudos geográficos. Esta nova perspectiva passa pela introdução de medidas de distância geográfica na análise de clusters, tal como até hoje se utilizaram as variáveis estatísticas. Assim, serão apresentados alguns resultados sobre a utilização deste tipo de medidas, no âmbito da análise dos resultados eleitorais das eleições legislativas de 1995. EXEMPLO PRÁTICO, ELEIÇÕES LEGISLATIVAS DE 1995 O exemplo prático pretende apenas apresentar uma das muitas formas que podem ser utilizadas para introduzir uma perspectiva geográfica na análise de clusters. Neste caso específico, a metodologia seguida consistiu em produzir quatro classificações distintas para os dados relativos às Eleições Legislativas de 1995. Duas destas classificações foram produzidas recorrendo ao tradicional algoritmo K-Means, sendo que as outras duas foram produzidas com um SOM. Em cada um dos algoritmos utilizamos dois conjuntos de dados, um não continha qualquer referência geográfica, o segundo para além das variáveis 4 eleitorais foram utilizadas as coordenadas geográficas (x,y). Na tabela 1 são apresentadas as variáveis utilizadas neste exemplo. Descrição das Variáveis Utilizadas % de Votos no Concelho % de Votos Nulos no Concelho % de Votos Brancos no Concelho % de Votos CDS-PP no Concelho % de Votos PCP/PEV no Concelho % de Votos PPD/PSD no Concelho % de Votos PS no Concelho % de Votos PSR e UDP no Concelho % de Votos Outros partidos no Concelho Coordenada x do centróide do concelho Coordenada y do centróide do concelho Tabela 1 - Variáveis utilizadas na análise (as coordenadas geográficas foram utilizadas em apenas dois casos) Uma vez definidas as variáveis procedeu-se à standardização das mesmas, por forma a que se apresentassem todas no mesmo tipo de unidades. Este passo é particularmente importante na medida em que as coordenadas (x,y) se apresentavam, obviamente, em unidades muito diferentes das restantes variáveis, representadas por percentagens. Apesar de não ser objectivo deste trabalho desenvolver grandes comentários sobre o exemplo específico apresentado, algumas considerações são importantes em termos da análise dos resultados obtidos. Estas considerações devem ser divididas em duas categorias distintas: considerações de ordem quantitativas e apreciação qualitativa dos mapas obtidos. No caso das considerações de ordem quantitativa e utilizando o apoio da tabela 2, que representa a soma dos desvios intra-cluster para cada uma das classificações realizadas, podemos observar um facto muito interessante: a classificação que obtém o valor mais baixo em termos de variabilidade intra-cluster é o SOM com informação sobre as coordenadas dos centróides dos concelhos. O cálculo desta variabilidade é obtido sem levar em linha de conta as distâncias produzidas com as variáveis coordenada x e coordenada y, assim, podemos obter uma comparação directa entre as classificações que utilizam coordenadas geográficas e as que não utilizam. Genericamente, seria de esperar que as classificações onde as coordenadas geográficas foram utilizadas tivessem valores de variabilidade intra-cluster superiores. De facto, é mais exigente proceder à optimização em função de onze variáveis (número de variáveis utilizadas quando são incluídas as coordenadas geográficas), do que de nove variáveis. Assim, seria de esperar que os dois métodos utilizados piorassem os resultados 5 aquando da utilização das coordenadas geográficas. Não sendo esse o caso a hipótese que parece mais plausível para explicar este resultado relaciona-se com a capacidade das coordenadas geográficas, no caso concreto do exemplo que apresentamos, “ajudarem” o método a orientar a sua pesquisa no sentido óptimo. Método Utilizado Com coordenadas (x,y) Sem coordenadas (x,y) K-Means 1062.65 1028.72 SOM 938.27 1035.23 Tabela 2 - Soma dos desvios intra-cluster Em termos da apreciação qualitativa dos mapas e sem entrar em grandes detalhes é relativamente fácil ver que as classificações são genericamente semelhantes, com excepção para a classificação em que o SOM utiliza as coordenadas geográficas (mapa 3). Neste caso, o interpretabilidade parece bastante mais simples, na medida em que os clusters se apresentam como grandes grupos de concelhos contíguos. Mapa 1 - SOM sem utilização de Mapa 2 - K-Means sem utilização de coordenadas geográficas (1035.23) coordenadas geográficas (1028.72) 6 Mapa 3 - SOM com utilização de Mapa 4 - K-Means com utilização de coordenadas geográficas (938.27) coordenadas geográficas (1062.65) CONCLUSÕES E DESENVOLVIMENTOS FUTUROS O material produzido neste trabalho não permite, neste momento, retirar grandes conclusões sobre as virtudes da utilização de medidas de distância geográfica, no âmbito da análise de clusters de entidades espaciais. No entanto, estes resultados são suficientemente interessantes para que uma linha de pesquisa mais substancial venha a ser desenvolvida sobre este tópico. Certamente, que nem sempre a distância desempenhará um papel tão relevante, como acontece no exemplo apresentado. No entanto, os Geógrafos, sabem que desempenha sempre um papel importante em todos os fenómenos com expressão espacial. Faz todo o sentido, que perante a necessidade de agrupar unidades espaciais, se experimente a utilização de medidas de distância geográfica, por forma a comparar resultados e analisar vantagens e desvantagens. Em termos de desenvolvimentos futuros existe um grande número de indicadores a experimentar. O exemplo apresentado constitui a forma mais simples e fácil de incorporar informação geográfica no processo. Existem muitas outras que devem ser testadas. De entre estas, gostaríamos de salientar a utilização da distância a determinados pontos que se sabe (ou desconfia) serem estruturantes em relação ao fenómeno em estudo. Faz todo o sentido, no âmbito do trabalho apresentado, substituir as coordenadas geográficas pela distância à área metropolitana mais próxima ou à capital de distrito, quer seja em termos de distância absoluta, quer em termos de distância relativa. Outro teste interessante relaciona-se com a utilização da distância ao centro de densidade dos diferentes partidos. 7 Bibliografia: Anselin, L. (1989), What is Special About Spatial Data? Alternative Perspectives on Spatial Data Analysis, Technical Paper, NCGIA, Geography Departement, University of California Santa Barbara, California Anselin, L. (1993), Exploratory spatial data analysis and geographic information systems, Proceedings of the workshop on New Tools for Spatial Analysis, ISEGI, Lisboa Bação, F. “Novas Abordagens à Análise de Clusters”, Conferência Annual de Utilizadores SAS (CAUS) 2000 Proceedings, Lisboa 2000. Bação,F. Oliveira, J. “Análise de Clusters”, in Metodologia de Análise Regional: Análise Factorial e de Clusters (ed. Maria Júlia Ferreira), Série Documentos de Trabalho nº1 do Centro de Estudos de Geografia e Planeamento Regional, Lisboa 99. Bação,F. Painho, M. “Classificação de Dados Numéricos – Novas Abordagens”, Actas do VIII Congresso Ibérico de Geografia, Lisboa 30 de Setembro – 2 de Outubro1999. Bação, F. “Neural Networks for census analysis”, European Research Conferences, Socio-Economic and Geographic Information Systems: Socio-economic analysis and geographic Information, Espinho, Portugal, 22-27 Maio 1999. Bailey, Trevor C. (1994), A review of statistical spatial analysis in geographical information systems, In: Fotheringham, A. S., Rogerson, P. A. (eds) Spatial analysis and GIS Taylor and Francis Ltd. 1900 Frost Road, Suite 101, Bristol PA 19007, pp 13-44 Fotheringham S. and Rogerson P. (eds.) Spatial Analysis and GIS. viii and 281 pages, Taylor and Francis: London/Bristol, PA, 1994. ISBN 0-7874-0103-2 (hardback) 0-7874-0104-0 (paperback). Hartigan, J., (1975), Clustering Algorithms, Wiley Series in Probability and Mathematical Statistics, John Wiley & Sons. Openshaw, S. and Taylor, P. J. 1979 A million or so correlation coefficients: three experiments on the modifiable areal unit problem. In Wrigley, N. (ed) Statistical applications in the spatial sciences (London: Pion), 127-144. Openshaw, S. (1991), Developing appropriate spatial analysis methods for GIS, In: Maguire D J, Goodchild M F, Rhind D W (eds) Geographical Information Systems Vol 1 Principles, Longman Scientific & Technical, Harlow, pp 389-402 Openshaw, S. (1993), What is gisable spatial analysis?, Proceedings of the workshop on New Tools for Spatial Analysis, ISEGI, Lisboa Openshaw, S. (1994), Two exploratory space-time-attribute pattern analysers relevant to GIS, In: Fotheringham, A. S., Rogerson, P. A. (eds) Spatial analysis and GIS, Taylor and Francis Ltd. 1900 Frost Road, Suite 101, Bristol PA 19007, pp 83-103 Openshaw S., & Openshaw C. (1997) Artificial Intelligence in Geography, Chichester, England, John Wiley & Sons Openshaw, S. & Wymer, C., (1994). Classifying and regionalizing census data. In S. Openshaw, Census Users Handbook (pp. 239-270). Cambridge, UK: Geo Information International. 8 Painho, Marco, Lia T. Vasconcelos, João Fonseca, João Geirinhas. (1997) The Clustering of Urban Environment: the Case of Lisbon. In João Reis Machado & Jack Ahern, Environmental Challenges in an Expanding Urban World and the Role of Information Technologies. CNIG. Tobler, Waldo, 1970. A computer movie simulating urban growth in the Detroit region. Economic Geography 46(2), 234-240 9