novas metodologias na análise de clusters aplicada a estudos

Propaganda
NOVAS METODOLOGIAS NA ANÁLISE DE CLUSTERS APLICADA A
ESTUDOS GEOGRÁFICOS
Fernando Bação ([email protected]), Marco
Painho
([email protected]), Sandra
Catarino
([email protected]), Instituto Superior de Estatística e Gestão de Informação – Universidade Nova de
Lisboa, Campus de Campolide – 1070-124 Lisboa Tel: 21 387 15 73 Fax: 21 387 21 40
Palavras Chave: Análise de Cluster, Geografia política, Distância
ENQUADRAMENTO
Um dos aspectos essenciais a considerar aquando da utilização de métodos estatísticos no âmbito da
análise espacial, relaciona-se com a natureza especial dos dados geográficos. Estes, possuem
características únicas que em larga medida inviabilizam a utilização de técnicas provenientes da
estatística clássica. De facto, a validade destas técnicas, assente em pressupostos de independência e
distribuições idênticas, é posta em causa por características como a dependência espacial e a
heterogeneidade espacial (Anselin 1989).
A adopção acrítica de métodos estatísticos poderá ter sido o primeiro e principal erro da Revolução da
Geografia Quantitativa dos anos 60. No entanto, os métodos estatísticos permaneceram como a maior
fonte de técnicas de análise e continuam a ser largamente utilizados na Geografia Quantitativa.
Infelizmente, a sua utilização não terá sido sempre a mais correcta, o que provavelmente diz mais sobre
os utilizadores do que sobre as técnicas em si.
O trabalho desenvolvido nos últimos anos na área da análise espacial, pode ser caracterizado como um
esforço no sentido de adaptar os métodos estatísticos às particularidades dos dados geográficos (Anselin
1993, Bailey 1994). Paralelamente, uma visão completamente distinta tem sido proposta por Openshaw
(1991/93), que argumenta em favor do desenvolvimento de métodos completamente novos, baseados nas
novas tecnologias de computação. Esta visão particular, foi a principal responsável pelo aparecimento de
uma nova área de investigação denominada GeoComputação.
No âmbito do esforço de adaptação das técnicas estatísticas à sua utilização na análise geográfica diversas
propostas têm vindo a ser feitas. A maioria dos trabalhos de pesquisa desenvolvidos nesta área têm como
preocupação central, desenvolver formas de incorporar as relações topológicas e a distância em métodos
estatísticos, normalmente utilizados pelos geógrafos. Trabalhos como o desenvolvido por Stewart
Fotheringham, no âmbito da Regressão Geograficamente Ponderada (Fotheringham and Rogerson, 1994),
são contribuições importantes para o arsenal analítico do geógrafo. Neste contexto, propomos uma
reflexão sobre a análise de clusters, sua utilização na Geografia e formas de a conciliar com as
especificidades dos dados espaciais.
1
A ANÁLISE DE CLUSTERS
A classificação é uma actividade conceptual básica dos seres humanos. As crianças aprendem muito cedo
a classificar os objectos do ambiente que as rodeia e a associar as classes daí resultantes a nomes da sua
linguagem. De facto, este processo de classificação constitui um aspecto básico da aquisição de
conhecimento nos seres humanos. A complexidade e variabilidade da realidade é de tal forma elevada,
que só através deste processo é possível generalizar, reconhecer fenómenos idênticos apesar das
cambiantes com que se apresentam. Por isso, a classificação é, também, um processo fundamental comum
a muitas ciências, indispensável ao desenvolvimento de teorias científicas.
Análise de clusters é um nome genérico para uma grande variedade de metodologias que são usadas para
classificar entidades. Estas metodologias constróem grupos (clusters) de entidades com muitas
semelhanças entre si. Mais especificamente, a análise de clusters é um conjunto de metodologias de
estatística multivariada que, a partir de um conjunto de informação sobre um grupo de entidades, procura
organizá-las em grupos “homogéneos”, determinando uma estrutura de semelhanças/diferenças entre as
unidades.
Tradicionalmente, a análise de clusters divide-se em dois tipos fundamentais de técnicas: hierárquicas e
de optimização. As técnicas de optimização são suportadas por um critério de agrupamento dos
indivíduos e por um número k (pré-determinado) de grupos (clusters). Na prática estes métodos iniciam o
processo através da colocação de k seeds no espaço das variáveis, sendo que, os n indivíduos são
associados à seed que se encontra mais próxima. Esta proximidade é, geralmente, calculada em termos de
distância euclidiana. Uma vez estabelecida a associação dos indivíduos às seeds obtemos uma primeira
solução, os passos seguintes consistem na melhoria da partição inicial. Assim, as seeds são recalculadas
por forma a serem recentradas no espaço dos indivíduos que representam. Após este passo, existe a
necessidade de voltar ao passo anterior e tornar a associar os indivíduos às seeds mais próximas. O
processo é iterativo, e processa-se até que seja atingida estabilidade na solução encontrada.
As técnicas hierárquicas, partem de uma matriz de distâncias entre os indivíduos que corresponde
inicialmente a n grupos, igual ao número de indivíduos na análise e vai agrupando os indivíduos
sucessivamente até atingir um único grupo. O agrupamento vai sendo feito através de uma
“flexibilização” da proximidade absoluta: cada indivíduo é agregado ao que lhe está mais próximo;
depois, cada grupo daqui resultante é agrupado ao que lhe está mais próximo e assim sucessivamente, até
que o processo finda com um único grupo de n indivíduos.
Recentemente, vários autores (Kohonen 1988, Bishop 1995) mostraram o impacto que certas redes
neuronais artificiais podem ter nas tarefas de clustering. Na realidade, nestes últimos anos as redes
neuronais tornaram-se uma ferramenta importante no arsenal de técnicas de classificação disponíveis.
Uma aproximação mais flexível parece ser a principal promessa destes novos métodos. O tipo de rede
mais utilizada nas tarefas de clustering é sem dúvida o Self Organizing Mapa (SOM), também conhecido
2
por rede de Kohonen. Estas são redes não-supervisionadas, que classificam os indivíduos de acordo com
os neurónios que activam no nível de output, com a restrição de que casos semelhantes activarão o
mesmo neurónio ou neurónios vizinhos. Assim, o SOM tenta encontrar clusters de tal modo que
quaisquer dois clusters que se encontram próximos no mapa têm seeds que estão próximas no espaço de
input.
Neste contexto temos assistido a uma utilização cada vez mais intensa deste tipo de tecnologia na
classificação de dados. No entanto, isto não significa que os métodos tradicionais tenham vindo a ser
abandonados. Para além da pesquisa necessária sobre a efectiva valia deste tipo de métodos, a utilização
conjunta dos métodos tradicionais com as redes neuronais parece ser um caminho interessante. De facto, a
natureza iminentemente apriorística deste tipo de métodos presta-se à utilização de diversas metodologias
como forma de validação cruzada dos resultados.
1ª LEI DA GEOGRAFIA
Desde de que Tobler (1970) formulou a 1ª Lei da Geografia, o enquadramento teórico da Geografia
sofreu uma importante alteração. Não é claro que o meio académico tenha compreendido todas as
consequências desta lei. De facto, a ausência de trabalho científico relacionado com este importante
marco na ciência geográfica, está em larga medida relacionado com a dificuldade de testar e verificar a
aderência do postulado à realidade. No entanto, quando nos preocupamos em verificar esta lei em todos
os exemplos específicos, estamos, provavelmente, a preocuparmo-nos com o problema errado.
Tal como Goodchild observa “é impossível para um geógrafo imaginar um mundo onde a autocorrelação
espacial esteja ausente: não haveria regiões de qualquer espécie, já que a variação de qualquer
fenómeno ocorreria de forma independente da localização, e locais na mesma vizinhança seriam tão
diferentes quanto locais que se encontram em diferentes continentes.” Assim, o esforço despendido a
tentar provar esta evidência empírica é desperdiçado. Os geógrafos sabem que “tudo está relacionado
com tudo, mas o que se encontra mais próximo está mais relacionado do que o que se encontra mais
distante” (Tobler 1970), e isto é um facto, medir este efeito em todos os casos particulares tem pouco
interesse, e levantará sempre dúvidas sobre aquilo que se sabe ser verdadeiro.
Em vez de medir a aderência estatística da lei, é provavelmente mais interessante trabalhar no sentido de
compreender todas as implicações que esta tem na Geografia, no seu método e nas sua técnicas.
Obviamente, que a utilização da estatística clássica, baseada nos pressupostos de independência entre
observações, pode ser perigosa. E quanto a alternativas? Novas ferramentas de análise espacial são
necessárias, não havendo aparentemente muitas respostas adequadas a este problema.
Existem ainda outros aspectos a ter em conta. Os dados censitários, por exemplo, constituem a mais
importante fonte de informação no planeamento regional e urbano. A identificação de áreas carenciadas, a
geodemografia, o planeamento de equipamentos, são apenas alguns dos processos do planeamento
3
regional e urbano que se baseiam na utilização de dados provenientes dos census. É sabido que a
qualidade destes dados não é, nem poderia ser ideal, pelo que a sua utilização deve contemplar particular
atenção às interpretações resultantes. Problemas como a unidade de área modificável (Openshaw 1979) e
a própria origem das unidades que servem de base à distribuição dos resultados, condicionam a qualidade
e interpretabilidade destes dados. Assim, sabendo que o espaço onde procuramos realizar as nossas
análises, o espaço das variáveis sócio-demográficas, não está isento de erro, mais importante se torna
validar estas análises com teoria geográfica.
A DISTÂCIA GEOGRÁFICA COMO VARIÁVEL DE SEGMENTAÇÃO
A análise de clusters é desde há muito uma ferramenta largamente utilizada por Geógrafos e técnicos de
planeamento, normalmente aplicada no sentido de agrupar unidades territoriais com base em conjuntos de
variáveis alfanuméricas. Se a proximidade é importante no espaço do conjunto das variáveis
alfanuméricas, porque é que não será importante no espaço geográfico? Se duas áreas são semelhantes em
termos dos valores de desemprego, estrutura etária, rendimento, e principalmente são vizinhas, não
deverão ser consideradas mais semelhantes, do que duas áreas que tendo valores semelhantes para as
variáveis alfanuméricas se encontram distantes?
O Geógrafo, em vez de se limitar a medir distâncias no espaço das variáveis deve introduzir também o
espaço geográfico. Ignorar que qualquer indivíduo ou entidade do conjunto de dados também pode ser
caracterizado em função da sua posição, que se sabe influenciar as suas características, limita
severamente o interesse e utilidade do trabalho. Mais importante, não terá qualquer préstimo para a
Geografia e para o desejável desenvolvimento da análise e teoria geográfica. Infelizmente, uma grande
quantidade de trabalho e talento é em larga medida desperdiçado em análises sociológicas levadas a cabo
por Geógrafos.
Neste trabalho é proposta uma nova perspectiva sobre a utilização da análise de clusters nos estudos
geográficos. Esta nova perspectiva passa pela introdução de medidas de distância geográfica na análise de
clusters, tal como até hoje se utilizaram as variáveis estatísticas. Assim, serão apresentados alguns
resultados sobre a utilização deste tipo de medidas, no âmbito da análise dos resultados eleitorais das
eleições legislativas de 1995.
EXEMPLO PRÁTICO, ELEIÇÕES LEGISLATIVAS DE 1995
O exemplo prático pretende apenas apresentar uma das muitas formas que podem ser utilizadas para
introduzir uma perspectiva geográfica na análise de clusters. Neste caso específico, a metodologia seguida
consistiu em produzir quatro classificações distintas para os dados relativos às Eleições Legislativas de
1995. Duas destas classificações foram produzidas recorrendo ao tradicional algoritmo K-Means, sendo
que as outras duas foram produzidas com um SOM. Em cada um dos algoritmos utilizamos dois
conjuntos de dados, um não continha qualquer referência geográfica, o segundo para além das variáveis
4
eleitorais foram utilizadas as coordenadas geográficas (x,y). Na tabela 1 são apresentadas as variáveis
utilizadas neste exemplo.
Descrição das Variáveis Utilizadas
% de Votos no Concelho
% de Votos Nulos no Concelho
% de Votos Brancos no Concelho
% de Votos CDS-PP no Concelho
% de Votos PCP/PEV no Concelho
% de Votos PPD/PSD no Concelho
% de Votos PS no Concelho
% de Votos PSR e UDP no Concelho
% de Votos Outros partidos no Concelho
Coordenada x do centróide do concelho
Coordenada y do centróide do concelho
Tabela 1 - Variáveis utilizadas na análise (as coordenadas geográficas foram utilizadas em apenas
dois casos)
Uma vez definidas as variáveis procedeu-se à standardização das mesmas, por forma a que se
apresentassem todas no mesmo tipo de unidades. Este passo é particularmente importante na medida em
que as coordenadas (x,y) se apresentavam, obviamente, em unidades muito diferentes das restantes
variáveis, representadas por percentagens.
Apesar de não ser objectivo deste trabalho desenvolver grandes comentários sobre o exemplo específico
apresentado, algumas considerações são importantes em termos da análise dos resultados obtidos. Estas
considerações devem ser divididas em duas categorias distintas: considerações de ordem quantitativas e
apreciação qualitativa dos mapas obtidos. No caso das considerações de ordem quantitativa e utilizando o
apoio da tabela 2, que representa a soma dos desvios intra-cluster para cada uma das classificações
realizadas, podemos observar um facto muito interessante: a classificação que obtém o valor mais baixo
em termos de variabilidade intra-cluster é o SOM com informação sobre as coordenadas dos centróides
dos concelhos.
O cálculo desta variabilidade é obtido sem levar em linha de conta as distâncias produzidas com as
variáveis coordenada x e coordenada y, assim, podemos obter uma comparação directa entre as
classificações que utilizam coordenadas geográficas e as que não utilizam. Genericamente, seria de
esperar que as classificações onde as coordenadas geográficas foram utilizadas tivessem valores de
variabilidade intra-cluster superiores. De facto, é mais exigente proceder à optimização em função de
onze variáveis (número de variáveis utilizadas quando são incluídas as coordenadas geográficas), do que
de nove variáveis. Assim, seria de esperar que os dois métodos utilizados piorassem os resultados
5
aquando da utilização das coordenadas geográficas. Não sendo esse o caso a hipótese que parece mais
plausível para explicar este resultado relaciona-se com a capacidade das coordenadas geográficas, no caso
concreto do exemplo que apresentamos, “ajudarem” o método a orientar a sua pesquisa no sentido
óptimo.
Método Utilizado
Com coordenadas (x,y)
Sem coordenadas (x,y)
K-Means
1062.65
1028.72
SOM
938.27
1035.23
Tabela 2 - Soma dos desvios intra-cluster
Em termos da apreciação qualitativa dos mapas e sem entrar em grandes detalhes é relativamente fácil ver
que as classificações são genericamente semelhantes, com excepção para a classificação em que o SOM
utiliza as coordenadas geográficas (mapa 3). Neste caso, o interpretabilidade parece bastante mais
simples, na medida em que os clusters se apresentam como grandes grupos de concelhos contíguos.
Mapa 1 - SOM sem utilização de
Mapa 2 - K-Means sem utilização de
coordenadas geográficas (1035.23)
coordenadas geográficas (1028.72)
6
Mapa 3 - SOM com utilização de
Mapa 4 - K-Means com utilização de
coordenadas geográficas (938.27)
coordenadas geográficas (1062.65)
CONCLUSÕES E DESENVOLVIMENTOS FUTUROS
O material produzido neste trabalho não permite, neste momento, retirar grandes conclusões sobre as
virtudes da utilização de medidas de distância geográfica, no âmbito da análise de clusters de entidades
espaciais. No entanto, estes resultados são suficientemente interessantes para que uma linha de pesquisa
mais substancial venha a ser desenvolvida sobre este tópico. Certamente, que nem sempre a distância
desempenhará um papel tão relevante, como acontece no exemplo apresentado. No entanto, os Geógrafos,
sabem que desempenha sempre um papel importante em todos os fenómenos com expressão espacial. Faz
todo o sentido, que perante a necessidade de agrupar unidades espaciais, se experimente a utilização de
medidas de distância geográfica, por forma a comparar resultados e analisar vantagens e desvantagens.
Em termos de desenvolvimentos futuros existe um grande número de indicadores a experimentar. O
exemplo apresentado constitui a forma mais simples e fácil de incorporar informação geográfica no
processo. Existem muitas outras que devem ser testadas. De entre estas, gostaríamos de salientar a
utilização da distância a determinados pontos que se sabe (ou desconfia) serem estruturantes em relação
ao fenómeno em estudo. Faz todo o sentido, no âmbito do trabalho apresentado, substituir as coordenadas
geográficas pela distância à área metropolitana mais próxima ou à capital de distrito, quer seja em termos
de distância absoluta, quer em termos de distância relativa. Outro teste interessante relaciona-se com a
utilização da distância ao centro de densidade dos diferentes partidos.
7
Bibliografia:
Anselin, L. (1989), What is Special About Spatial Data? Alternative Perspectives on Spatial Data
Analysis, Technical Paper, NCGIA, Geography Departement, University of California Santa Barbara,
California
Anselin, L. (1993), Exploratory spatial data analysis and geographic information systems, Proceedings
of the workshop on New Tools for Spatial Analysis, ISEGI, Lisboa
Bação, F. “Novas Abordagens à Análise de Clusters”, Conferência Annual de Utilizadores SAS (CAUS)
2000 Proceedings, Lisboa 2000.
Bação,F. Oliveira, J. “Análise de Clusters”, in Metodologia de Análise Regional: Análise Factorial e de
Clusters (ed. Maria Júlia Ferreira), Série Documentos de Trabalho nº1 do Centro de Estudos de Geografia
e Planeamento Regional, Lisboa 99.
Bação,F. Painho, M. “Classificação de Dados Numéricos – Novas Abordagens”, Actas do VIII
Congresso Ibérico de Geografia, Lisboa 30 de Setembro – 2 de Outubro1999.
Bação, F. “Neural Networks for census analysis”, European Research Conferences, Socio-Economic and
Geographic Information Systems: Socio-economic analysis and geographic Information, Espinho,
Portugal, 22-27 Maio 1999.
Bailey, Trevor C. (1994), A review of statistical spatial analysis in geographical information systems, In:
Fotheringham, A. S., Rogerson, P. A. (eds) Spatial analysis and GIS Taylor and Francis Ltd. 1900 Frost
Road, Suite 101, Bristol PA 19007, pp 13-44
Fotheringham S. and Rogerson P. (eds.) Spatial Analysis and GIS. viii and 281 pages, Taylor and
Francis: London/Bristol, PA, 1994. ISBN 0-7874-0103-2 (hardback) 0-7874-0104-0 (paperback).
Hartigan, J., (1975), Clustering Algorithms, Wiley Series in Probability and Mathematical Statistics,
John Wiley & Sons.
Openshaw, S. and Taylor, P. J. 1979 A million or so correlation coefficients: three experiments on the
modifiable areal unit problem. In Wrigley, N. (ed) Statistical applications in the spatial sciences
(London: Pion), 127-144.
Openshaw, S. (1991), Developing appropriate spatial analysis methods for GIS, In: Maguire D J,
Goodchild M F, Rhind D W (eds) Geographical Information Systems Vol 1 Principles, Longman
Scientific & Technical, Harlow, pp 389-402
Openshaw, S. (1993), What is gisable spatial analysis?, Proceedings of the workshop on New Tools for
Spatial Analysis, ISEGI, Lisboa
Openshaw, S. (1994), Two exploratory space-time-attribute pattern analysers relevant to GIS, In:
Fotheringham, A. S., Rogerson, P. A. (eds) Spatial analysis and GIS, Taylor and Francis Ltd. 1900 Frost
Road, Suite 101, Bristol PA 19007, pp 83-103
Openshaw S., & Openshaw C. (1997) Artificial Intelligence in Geography, Chichester, England, John
Wiley & Sons
Openshaw, S. & Wymer, C., (1994). Classifying and regionalizing census data. In S. Openshaw, Census
Users Handbook (pp. 239-270). Cambridge, UK: Geo Information International.
8
Painho, Marco, Lia T. Vasconcelos, João Fonseca, João Geirinhas. (1997) The Clustering of Urban
Environment: the Case of Lisbon. In João Reis Machado & Jack Ahern, Environmental Challenges in an
Expanding Urban World and the Role of Information Technologies. CNIG.
Tobler, Waldo, 1970. A computer movie simulating urban growth in the Detroit region. Economic
Geography 46(2), 234-240
9
Download