Data Mining em Bancos de Dados Espaciais

Propaganda
1
INE5644 ­ Data Mining
Data Mining
em Bancos de Dados Espaciais
Gabriel Arthur Gerber Andrade
Jorge Gonzaga Júnior
RESUMO
Spatial data mining é o processo de descobrir padrões interessantes e previamente desconhecidos, mas que sejam
potêncialmente útil a partir de grandes spatial datasets. Extrair padrões interessante e úteis de spatial datasets é mais difícil que
extrair os padrões correspondentes de dados tradicionais numéricos e categóricos, devido a complexidade de spatial data types,
spatial relationships, e spatial autocorrelation.
INTRODUÇÃO
A importância da exploração de dados espaciais pode ser notada pelo fato dos dados geográficos,
os quais são um tipo específico de dados espaciais, estarem sendo utilizados em vários domínios diferentes
de aplicações, como planejamento urbano, meios­de­transporte, telecomunicações, marketing. Os dados
geográficos são armazenados em Geographic Information Database Management Systems (GDBMS),
e são manipulados por Geographic Information Systems (GIS). Este último é uma técnologia que
providência um conjunto de operações e funções para análises de dados geográficos. Entretanto, dentro
dos dados armazenados em bancos de dados geográficos há, ainda, um implícito, não­trivíal e previamente
desconhecido conhecimento que não pode ser descoberto por GIS. Técnicas específicas são necessárias
para encontrar este tipo de conhecimento, o que é o objetivo da Descoberta de Conhecimento em Bancos
de Dados (DCBD).
Como exemplos de motivos para utilizar DCBD em bancos espaciais, temos os seguintes tópicos:
idêntificar um poço como fonte da cólera asiática em Londres (1855); definir clusters de pessoas com
câncer para investigar a influência do ambiente; encontrar locais de concentração de crimes para planejar
as rotas de patrulha da polícia; identificar características de onde um certo tipo de águia faz o seu ninho;
saber como está a saúde do planeta; caracterizar os efeitos da atividade humana para o ambiente e a
ecologia; predizer o efeito do El Niño na economia e no clima.
DCBD é um processo interativo constituído de cinco etapas básicas: seleção,
pré­processamento, transformação, data mining e avaliação/interpretação. As três primeiras etapas
têm o objetivo de rearranjar os dados para o formato requerido pelos algorítmos de data mining. Em
bancos de dados não­espaciais 60% à 80% do tempo e esforço de todo o processo DCBD é utilizado na
etapa de pré­processamento. Já nos bancos de dados espaciais este problema é aumentado
significantemente devido à complexidade dos dados espaciais.
A literatura apresenta diferentes soluções para DCBD em bancos de dados geográficos, sendo
que muitas delas proprõem data mining query language e novos algoritmos para dados espaciais. Uma
abordagem alternativa consiste em selecionar dados e relacionamentos espaciais sobre os quais serão
aplicados os métodos clássico de data mining.
2
BANCOS DE DADOS ESPACIAIS
Bancos de dados Geográficos (BDG) armazenam entidades do mundo real, também chamadas de
spatial features, localizadas em uma região específica do globo terrestre. Spatial features (Canadá,
França) pertencem à um feature type (país) e possuem atributos não­espaciais (eg. nome, população) e
espaciais (eg. coordenadas geográficas latitude e longitude). Nos BDG cada spatial type é, usualmente,
armazenado em uma relação diferente devido a maioria dos BDG seguir ou a abordagem relacional ou a
objeto­relacional.
Atributos espaciais possuem relações intrísecas (e.g. perto, longe, continência), as quais são
responsáveis pelas características de entidades do mundo real poderem afetar o comportamento de outras
features vizinhas. Como resultado, as relações espaciais são a princípal característica dos dados
geográficos que é considera no data mining e DCBD. Ela também é a principal característica que
diferencia o data mining de dados geográficos/espaciais com o de dados não­espaciais.
Relacionamentos espaciais não são, normalmente, armazenados explicitamente no banco de dados
e, portanto, têm que ser computados por operações espaciais. Existem basicamente três (3)
relacionamentos espaciais: distância, ordem e topologia. Relacionamentos de distância são baseados
na distância Euclidiana entre dois spatial features. Relacionamentos de ordem lidam com a direção e
como spatial features são localizados em um espaço. Relacionamentos topológicos caracterizam o tipo
da intersecção entre dois spatial features e podem ser classificado em igual, disjunto, toca, dentro,
sobre­põe, cruza, contém, cobre e cobertoPor. Os principais relacionamentos utilizados no data
mining de dados espaciais são de topologia e de distância.
GIS implementa funções específicas para manipular dados geográficos. O OGC (Open GIS
Conrsortium) é uma organização dedicada a desenvolver padrões para operações geográficas e para
integração de dados geográficos, com o intuito de providênciar interoperabilidade para GIS.
Os padrões espaciais têm propriedades únicas que são interessantes para o data mining: são
frequêntemente ao­correlacionados; possuem domínios complexos; descrevem objetos contínuos; e
possuem a característica descrita pela Primeira Lei da Geografia [Tobler] ­ “tudo está relacionado com
tudo, mas coisas próximas estão mais relacionadas do que as distantes”. Como o spatial data mining é
um campo em desenvolvimento, então além de haver diversas famílias para os padrões espaciais, novas
ainda podem estar surgindo. Entretanto três delas são usualmente utilizadas:
Família
Predição de localização
Interação espacial
Hot spots
Característica
Onde um certo fenônemo Quais subconjuntos de Quais localizações são não
irá acontecer?
objetos ou fenômenos usuais?
espaciais interagem?
Necessidades
­ locais que um evento
acontece;
­ quais eventos espaciais
são previsíveis;
­ métodos para prever
eventos espaciais a partir
de outros eventos espaciais
(e.g. utilizando equações ou
­ se é um fenômeno
espacialmente agrupado;
­ se uma entidade espacial
ou um agrupamento é ‘não
usual’,
­ quais entidades espaciais
compartilham
características comuns.
3
regras).
Exemplos
Onde uma espécie de
pássaro faz seus ninhos?
Que áreas estão mais
sujeitas à incêndios
florestais considerando
dados de vegetação, vento,
etc?
Qual linha de trem
possui o maior fluxo,
durante todo o dia, entre
duas cidades?
Exemplos são: regiões com
alta incidência de câncer
podem ser utilizadas para
investigação; locais com
alta incidência de crimes
podem ser utilizados para
planejar rodas de patrulha
da polícia.
Técnicas
classificação
correlação,
associação e
co­locations
clusterings e detecção
de desvios.
Existem várias técnicas para encontrar padrões espaciais de uma mesma família e a escolha da
técnica depende do que é selecionado: como atributos e dados espaciais.
A análise de dados espaciais enfreta várias questões fundamentais quanto a definição dos objetos
de estudo, a construção das operações analíticas a serem utilizadas, o uso de computadores para a análise,
as limitações e particulariedades conhecidas da análise. Erros comuns aparecem frequêntemente na
análise espacial, alguns devido ao espaço matemática, outros por meios particulares que os dados estão
espacialmente apresentados ou, até, pelas ferramentas disponíveis. Por exemplo, a natureza fragmentada
de uma enconsta faz com que a precisão da medida de seu comprimento seja difícil, senão impossível.
Estes problemas representam um desafio para a análise de dados espaciais, devido ao poder que
mapas possuem como um meio de apresentação dos dados. Quando os resultados são mostrados como
mapa, a apresentação combina dados espaciais, os quais são geralmente precisos, com resultados
analíticos, que podem possuir erros. Isto leva a impressão que resultados análitcos são mais preciso
quando os dados são indicados.
A definição da presença espacial de um entidade restringe as possíveis análises que podem ser
aplicadas para esta entidade e influênciam as conclusões finais que podem ser alcançadas. Enquanto esta
propriedade é fundamentalmente verdade para todas as análises, isto é particularmente importânte na
análise espacial devido às ferramentas que definem e estudam entidades são favorecidas por
caracterizações específicas das entidades que estão sendo estudadas. Técnicas estatísticas favorecem a
definição espacial de objetos como pontos, porque há poucas técnicas que operam diretamente com
elementos de linha, área ou volume. Ferramentas computacionais favorecem a definição de objetos como
homogêneos e elementos separados devido a limitação de elementos de bancos de dados e estruturas
computacionais disponíveis, e também pela facilidade que estruturas primitivas podem ser criadas.
Dependência espacial é a co­variação de propriedades dentro do espaço geográfico:
características em localizações próxima parecem ser correlacionadas, tanto positivamente quanto
negativamente. Depedências espaciais causam problemas de autocorrelacionamento espacial na estatítica
já que, como autocorrelacionamentos temporais, violam a hipótese adotada, por técnicas estatísticas
padrões, de que há indepedência entre as observações. Também é apropriado ver a dependência espacial
como uma fonte de informações do que algo a ser corrigido. Efeitos locacionais também são manifestados
4
como heteregioniedade espacial, ou a aparente variação em um processo ­ com respeito a localização no
espaço geográfico. Isto afeta a dependência espacial das relações e, portanto, o processo espacial.
Heterogeniedade espacial significa que parâmetros globais estimados para todo o sistema podem
descrevem inadequadamente o processo em certas localizações.
A escala de medição é uma questão na análise espacial, sendo estuda como Modifiable Areal Unit
Problem (MAUP).
Amostragem espacial involve determinar um número limitado de localizações em um espaço
geográfico para fazer uma medida confiável dos fenômenos que estão sujeitos a dependência e
heterogeneidade. Dependência sugere que como uma localização pode prever o valor de outra, nós não
precisamos observar os dois lugares. Mas heterogeneidade sugere que esta relação pode mudar conforme
o lugar e, portanto, não podemos confiar em um certo grau de dependência. Esquemas básicos de
amostragem incluem aleatoriedade, clustering e sistemática. Estes esquemas podem ser aplicados em
múltiplos níveis de uma certa hierarquia espacial (e.g. área urbana, cidade, vizinhança).
Estas questões fundamentais geram numerosos problemas na análise, incluindo bias, distorção e
outright errors nas conclusões. Estas questões são frequêntemente interligadas, mas diversas tentativas
foram feitas para separar questões particulares: variação da validade do 'comprimento' conforme o
contexto; falácia de localização ­ erros ocasionados pela escolha de características espaciais como
elementos de estudo, as quais além de serem muitos simples ou até mesmo erradas podem levar a limitar,
implicitamente, o objetivo do estudo; falácia de atomicidade ­ tratar elemento como 'atômicos' mesmo
quando estão fora de seus contextos; falácia ecológica ­ analisar dados agregados com o objetivo de tirar
conclusões de unidades individuais.
Observações inconstantes com o resto do dataset podem aparecer em qualquer data mining, e
são chamados outliers. Spatial outlier são observações inconstantes com seus vizinhos, uma instabilidade
ou descontínuidade local presentes em spatial data mining. Por sua vez, global outliers são, usualmente,
definidos como observações de dados que parecem ser inconstantes com o resto dos dados do dataset.
A verificação destes últimos outliers pode levar a descoberta de conhecimentos inesperados, e possui
numerosas aplicações em áreas como: fraude de cartão de crédito, análise desempenho atlético,
irregularidades de votação e previsão de tempo severo.
SEGMENTAÇÂO
O principio da segmentação é que partindo de uma imagem digital, possamos através de
algoritmos estatísticos, reduzir as informações da mesma em regiões (objetos) homogêneas, as quais são
funções diretas do problema considerado, ajudando em uma análise mais adequada da imagem.
Porem é importante lembrar que a qualidade da segmentação depende não apenas do algoritmo
selecionado, mas de um apropriado ajuste dos valores de seus parâmetros. Como já foi dito, o ajuste
desses parâmetros necessita de uma longa jornada de testes para cada imagem. Hoje já existem alguns
procedimentos para tornar a inserção desses parâmetros mais aferida, no entanto gastam mais tempo.
A segmentação pode ser classificada genericamente em dois grandes grupos:
● Baseada em Descontinuidade: particiona a imagem levando em consideração a mudança abrupta
nos níveis de cinza que podem ser observados através de matrizes de convolução que percorrem a
imagem detectando pontos isolados, linhas e bordas de um objeto. Na prática, pode­se perceber
que na maioria das vezes as detecções de linhas e bordas retornam erros de detecção que
5
posteriormente precisam ser ajustados manualmente ou usando algum processamento anterior a
segmentação.
● Baseada em Similaridade: neste caso, leva em consideração o interior dos objetos, analisando
propriedades similares entre os pixels, tendo como critério os métodos de segmentação por
crescimento de regiões, limiarização, detecção de bacias, pirâmides e clustering.
O método de Segmentação por Crescimento de Regiões agrega pixels, ou sub­regiões e regiões
maiores. O processo pelo qual se inicia esse método é a coleta automática de pixels fontes, que
partindo­se deles o algoritmo vai agregando pixels vizinhos que tenham características similares de cor,
intensidade, textura e etc; até que não haja mais possibilidade de agregação.
Já o método de Limiarização, consiste em fazer uma discretização dos objetos por limiares sobre o
histograma da imagem, esse limiar retorna uma imagem com valores de 1 para os objetos e 0 para o
fundo.
O método Detecção de Bacias pode ser considerado uma junção de outros métodos como a
detecção de bordas que usa o filtro de sobel e por agregadores de região. O resultado intermediário desse
método é uma imagem com aparência de um modelo digital de elevação (DEM) onde serão processadas
as regiões a partir de um limiar configurado pelo usuário, o resultado final é a criação de objetos
pertinentes às bacias dentro do limiar empregado.
Os procedimentos empregados no método Pirâmide são bem diferentes dos usualmente
conhecidos, pois o algoritmo divide a imagem em quadrantes arbitrários, quase que identificando o pixel.
Para os métodos de Clustering, a imagem e convertida em valores de atributo (pontos) que são
visualizados em um espaço amostral. Os cluster são porções contínuas desse espaço com alta densidade
de pontos. O que define o objeto é a separabilidade entre essas nuvens de pontos adensadas. Existem
ainda subdivisões desse método que determinam que um ponto pertence a apenas uma classe ou ainda os
que permitem que um ponto pertença a todas as classes até certo grau. Os clustering pode usar algoritmos
ISOSEG ou K­MÉDIAS.
Já a Segmentação Baseada em Objeto, ou Multiresolução, leva em consideração varias
características da imagem, como heterogeneidade espacial (forma) que também é subdividido em
compacidade e suavidade, assim como espectral (cor) e diferença dos objetos de entorno, utilizando em
síntese o método de crescimento de regiões para agregar pixels vizinhos. Esse processo termina quando o
objeto excede o limiar (escala) definido pelo usuário.
­ A heterogeneidade define a uniformidade dos objetos (Ex: cor, forma);
­ O limiar de escala é a propriedade que define o tamanho dos objetos (Ex: metro, kilos);
A classificação pode ser muito mais apurada quando se faz um estudo das estatísticas dos
segmentos para identificação das classes pretendidas. Geralmente os algoritmos automáticos, usam­se os
classificadores de pertinência para associar os objetos as classes, esses classificadores inibem a noção
determinista de sim ou não, deixando com que as estatísticas de cada segmento definam o grau de
pertencimento a uma determinada classe.
CLASSIFICAÇÂO
Uma grande diversidade de projetos ambientais tem se desenvolvido com técnicas de
sensoriamento remoto, muitas das vezes esses projetos cobrem uma área bastante extensa, necessitando
de procedimentos mais automáticos para a interpretação da paisagem. É nesse contexto que o uso das
técnicas de classificação de imagens de satélite vem crescendo e junto com elas muitas duvidas sobre os
6
tipos de classificação também. A família dos dados que compõem a classificação de dados espaciais, é de
predição de localização (location prediction).
A Classificação em sistemas de dados espaciais pode ser dividida em dois grupos:
● Supervisionada: procedimento que necessita de conhecimento prévio da área para produção do
treinamento do algoritmo, para que o mesmo possa reconhecer os diferentes intervalos do
comprimento de onda e assim definir as fronteiras de classes;
● Não­Supervisionado: genericamente nesse método, cada pixel da imagem é associado a uma
classe sem que o usuário tenha conhecimento prévio do numero ou da identificação das diferentes
classes presentes.
Dentro desses dois métodos existem peculiaridades de agregação da informação espectral que
podem ser:
● Pixel­a­pixel: a técnica de classificação por pixel utiliza a informação espectral de cada pixel
isolado para encontrar regiões homogêneas, traçando assim uma probabilidade de um determinado
pixel analisado pertencer ou não a uma determinada classe.
● Por Regiões: nessa caso leva­se em consideração a variabilidade espacial e a textura natural, que
consiste em simular o comportamento de um fotointérprete, ao reconhecer áreas homogêneas nos
dados orbitais, baseados nas propriedades espectrais e espaciais dessas áreas na imagem.
Alguns métodos que são recorrentes na literatura e nos softwares de PDI, entre eles estão
Máxima Verossimilhança, Distância Euclidiana, Bhattacharya, Mahalanobis, Parallelepiped, Spectral
Angle Mapper, K­Media e IsoData; são frequentemente usados para classificação de dados espaciais.
Máxima Verossimilhança, ou como costuma ser chamado MAXVER, é o método que pressupõe
a ponderação das distâncias entre médias dos níveis digitais das classes, utilizando parâmetros estatísticos.
Como esse é um método de classificação supervisionada pixel­a­pixel, é fundamental que se use amostras
de treinamento para definir o diagrama de dispersão das classes e a probabilidade de pertencimento. Para
que nessa metodologia se tenha uma boa classificação é imprescindível o número de amostras seja um
pouco elevado. É importante frisar que essas amostras não podem conter contaminações, ou seja,
apresentarem muita informação pertencente a outras classes, sendo assim, é sempre bom dar uma olhada
na estatística das amostras antes de partir para a classificação.
Outro método de classificação, também supervisionado pixel­a­pixel, é o por Distância Euclidiana,
segundo a matemática, é a distância entre dois pontos provada pela aplicação repetida do teorema de
Pitágoras. O que acontece é que o algoritmo de classificação compara a Distância Euclidiana do pixel à
media de cada agrupamento e quanto menor for a distância maior será a probabilidade de pertencimento,
esse procedimento é repetido até que toda a imagem seja classificada.
No método Bhattacharya, o algoritmo é usado para medir a separabilidade estatística entre um par
de classes espectrais, ou seja, mede a distância média entre as distribuições de probabilidades dessas
classes para agrupar regiões. Aqui as amostras de treinamento serão os objetos gerados na segmentação
através de similaridades e forma. Segundo (CORREIA et al 2007), o classificador Bhattacharya se aplica
sobre o resultado do processo de segmentação, ou seja, classifica­se um conjunto de pixels, gerando áreas
mais contínuas.
Ainda nessa mesma linha de classificações baseadas em segmentação, temos a classificação pela
distância de Mahalanobis, que tem uma semelhança com a MAXVER, mas com o diferencial de assumir
que todas as classes de covariância são iguais, tornando­se assim mais rápido. A distância de Mahalanobis
é calculada considerando o espalhamento dos dados, inclusive a orientação de amostras de uma
7
determinada classe. Essa distância é calculada sempre entre um ponto e um conjunto de amostras, no
caso objetos da segmentação.
O método Parallelepiped, consiste em determinar se um pixel está dentro de uma classe ou não,
para isso, usa os limiares de cada amostra, esses limiares formam as dimensões de cada lado de um
paralelepípedo em torno da média da classe, com isso, se um pixel cai dentro do paralelepípedo, é atribuído
à classe. Mas se o pixel estiver dentro de mais de uma classe, ele é colocado dentro da sobreposição de
classes e se não se enquadrar em nenhuma das classes, é atribuído à classe nula.
Saindo um pouco dos métodos tradicionais de classificação supervisionada, o método SAM –
Spectral Angle Mapper, traz um mapeamento de classes pela variação do ângulo de separação espectral,
esse processo pode ser visualizado em um espaço n­dimensional, que é criado a partir do número de
bandas da imagem, tendo como característica um nuvem de pontos. Geralmente nas extremidades dessa
nuvem em ângulos diferentes temos a divisão das classes, pois esse método é insensível à iluminação, ou
seja, o algoritmo SAM utiliza apenas a direção do vetor e não o comprimento do vetor. Este método é
geralmente usado como um primeiro corte para a determinação da mineralogia e funciona bem em áreas
de regiões homogêneas. Levando isso em consideração e sabendo que a maioria dos alvos na superfície
terrestre não são homogêneos, esse método se torna melhor aplicado quando é feito um estudo prévio com
modelo linear de mistura espectral – MLME e extração dos pixels puros – PPI.
Um dos métodos mais usados no sensoriamento remoto para a classificação não­supervisonada é
o IsoData. Esse algoritmo identifica padrões típicos nos níveis de cinza, onde esses padrões são
classificados efetuando­se visitas de reconhecimento a alguns poucos exemplos escolhidos para
determinar sua interpretação. Em razão da técnica usada nesse processo, os padrões são geralmente
referidos como “clusters”. Neste tipo de classificação, as classes são determinadas pela análise de
agrupamentos (cluster analysis). Para tanto é necessário que o usuário determine o número de classes, a
quantidade de interações, ou seja, de recalculo para os novos valores médios.
O usuário ainda pode deixar o algoritmo mais preciso configurando o desvio padrão, o erro de
distância mínima e outros parâmetros. Esse algoritmo e muito sensíveis a esses parâmetros, podendo gerar
classificações muito diferentes quando são feitas vários testes para um mesmo conjunto de dados. O
procedimento de classificação usado pelo método K­Media é basicamente o mesmo do IsoData, pois este
ultimo é uma derivação do primeiro.
CORRELAÇÃO
A Correlação faz parte da família de dados que seguem o padrão de Interação Espacial, ou
também chamado de Spatial Interaction. Em outras palavras, neste método se procura quais subconjuntos
de objetos ou fenômenos espaciais interagem.
Correlação espacial (ou, neighborhood influence) se refere ao fenômeno da localização de um
objeto específico em uma área que afeta algum atributo não espacial do objeto. Por exemplo, o valor
(atributo não espacial) de uma casa em um determinado endereço (georreferenciados para dar um atributo
espacial) é em grande parte determinado pelo valor de outras casas no bairro.
Para usar a correlação espacial em uma aplicação de mineração de dados, é necessário
materializar a correlação espacial, adicionando atributos (colunas) em uma tabela de mineração de dados.
Pode­se usar tabelas temáticas associadas para adicionar os atributos adequados. Neste caso, pode­se
8
executar tarefas de mineração nas tabelas de mineração de dados usando funções ODM (Object Data
Mining).
ASSOCIAÇÃO
Regras de associação consiste em uma implicação da forma que X ­> Y , onde X e Y são
conjuntos de itens de co­ocorrendo num dado (Agrawal 1993). O problema das regras de mineração de
associação pode ser decomposto em duas etapas (Agrawal 1993):
● Encontrar todos os grandes/frequente conjuntos de itens : um conjunto de itens é freqüente se o
seu apoio é de pelo menos igual a um certo limiar, chamado minsup;
● Gerar regras de confiança elevados : a regra é forte se o seu apoio é pelo menos igual ao suporte
mínimo e a confiança é maior ou igual a um certo limite, chamado minconf.
A Associação pode gerar conjuntos candidatos e, em seguida, calcular a sua frequência, de forma
a gerar conjuntos frequentes, como no Apriori (Agrawal 1994). A geração do candidato é realizada com
múltiplas passadas sobre o conjunto de dados. Na primeira passagem, o apoio dos elementos individuais é
calculado para determinar os conjuntos de itens de grande, chamado k­itemsets freqüentes . Em seguida,
dado k como o número da passagem de corrente, geram os grandes conjuntos com k elementos, que são
chamados de conjuntos candidatos . O apoio de cada grupo das candidatas é calculado, e se for igual ou
maior do que o mínimo suporte, então este conjunto é considerado frequente . Este processo continua até
que o grande conjunto de os resultados passam em um conjunto vazio. Regras de associação são extraídos
a partir da resultante dos conjuntos freqüentes , ou seja, conjuntos candidatos que atingiram o mínimo de
apoio.
Enquanto em bancos de dados transacional, a associação de cada linha no conjunto de dados é
normalmente uma transação e colunas são itens, em dados espaciais as regras de associação dita que
cada linha é uma instância (por exemplo, Florianópolis) de um tipo de objeto de referência (por exemplo,
cidade), são chamadas de tipo de função alvo, e as colunas são predicados. Cada predicado está
relacionada a um atributo não­espacial (Por exemplo, população) do tipo característica alvo ou um
predicado espacial. Predicado espacial é um tipo de característica relevante que é espacialmente
relacionada a casos específicos do tipo da função alvo(por exemplo contains_factory).
CO­LOCATIONS
Um dataset pode utilizado para criar um grafo, não orientado, cujos vértices são todas instâncias
de cada feature type, e as arestas representam o relacionamento de vizinhança entre duas instâncias.
Portanto, neighborhood é um clique neste grafo e uma co­location é um subconjunto de spatial
features. A partir de uma co­location podemos definir row instance I como o conjunto de instâncias dos
spatial features que estão na co­location, ou seja, I é uma vizinhança. Outra definição feita a patir de
uma certa co­location é a de Table Instance, que é a coleção de todas as rows instance de uma certa
co­location. Isto é interpretado como um spatial join.
A avaliação da qualidade de co­locations é dada por participation index (PI) e participation ratio
(PR). Participation ratio (PR): percentagem de instancias de um certo feature type que a co­location
possui. Participation index (PI): mínimo PR obtido por algum spatial feature da co­location.
WEKA­GDPM
Weka­GDPM é um módulo interoperável que suporta pré­processamento automático de dados
9
geográficos para a mineração de dados espaciais. Esta automatização é um facilitador do
pré­processamento destes tipos de dados; o qual, por sua vez é a etapa de data mining que possui o maior
esforço e consumo de tempo. Weka é um clássico data mining toolkit que é gratuíto e open source; e
GDPM segue as especifícações Open GIS para suporte de interoperabilidade com Geographic
Information Systems, tendo a capacidade de: gerar automáticamente dados com dois níveis de
granularidade diferentes sem utilizar prior knowledge; providenciar suporte tanto para relacionamentos
espaciais de distância quanto topológicos.
PRÉ­PROCESSAMENTO DE DADOS GEOGRÁFICOS
Os passos principais para preparar bancos de dados geográficos para o data mining incluem a
definição: de um feature type alvo, no qual a descoberta de conhecimento será realizada; de um conjunto
de feature types relevântes, isto é, que podem ter alguma influência sobre o feature type alvo; de um
nível de granularidade no qual tanto os dados serão representados quanto os relacionamentos espaciais
serão computados. O feature type alvo e todo feature type relevânte são database table diferentes.
Além do arquivo resultante da preparação dos dados ter de ser único, também deve conter uma linha para
cada instância do feature type alvo enquanto que as colunas são predicados. Os predicados são atributos
não­espaciais (e.g. população) do feature type alvo e relacionamentos espaciais com os feature types
relevantes (e.g. contém rio).
Os relacionamentos espaciais são computados com SQL queries que spatially join todas as
instâncias de um feature type alvo e todas as instâncias de cada feature type relevante em um conjunto
de feature types relevantes que possui qualquer um dos relacionamentos espaciais com a feature type
alvo.
De acordo com o objetivo da descoberta, dados podem ser representados em diferentes níveis de
granularidade. Por exemplo: o caso de haver algumas regiões, em uma área metropolitânea, com alta
incidência de poluição torna interessante considerar predicados espaciais de fábricas em um nível genérico
como contém(fábrica). Em alguns casos específicos estes predicados podem considerar diferentes tipos
de fábricas contém(fábrica_química), contém(fábrica_metalúrgica). Por fim, em casos bem
específicos pode ser interessante considerar instâncias de fábricas.
Dois possíveis níveis de granularidade são: feature instance e feature type. O primeiro é uma
granularidade bem baixa na qual o tipo de spatial feature e os identificadores de suas instâncias são
considerados. Enquanto que o último é uma granularidade de nível mais genérico na qual apenas o feature
type é considerado. Estas duas granularidades podem ser automáticamente geradas sem a necessidade de
algum prior knowledge e sem requerir background knowledge do usuário de banco de dados.
RELACIONAMENTOS TOPOLÓGICOS
Relacionamentos topológicos são mutuamente exclusívos de modo que apenas um relacionamento
topológico é válido entre duas feature instances. No nível de granularidade da feature instance toda
instância de um feature type alvo pode ter apenas um relacionamento topológico com uma instância de
um feature type relevânte. Caso haja alguma instância do feature type alvo possua mais de um
relacionamento topológico com algum feature type relevante então é necessário criar um novo nome de
atributo para cada feature type relevante que tenha um relacionamento topológico diferente com o
feature alvo, a fim de preservar o tipo (semântica) do relacionamento topológico. É difícil especificar
dominância entre relacionamentos topológicos para definir qual é o mais forte. Até o momento este
10
problema não foi tratado na literatura. A ferramenta Weka­GDPM preserva o relacionamento type por
meio da sua concatenação ao feature type, enquanto o atributo value recebe a string “yes” quando o
relacionamento é válido e “?” caso não haja relacionamento.
Seguindo o objetivo da descoberta de conhecimento, o uso dos relacionamentos topológicos pode
ocasionar perda de informação interessante devido a dificuldade de obter informações entre
relacionamentos de tipos diferentes. Para resolver este tipo de problema é possível utilizar relacionamentos
topológicos gerais como intersecciona e não­intersecciona. O processo de transformação está em
[Bogorny, 2006b].
RELACIONAMENTO DE DISTÂNCIA
Relacionamentos de distância são computados seguindo os parâmetros obtidos do usuário. Caso
exista apenas um parâmetro de distância então os vizinhos são considerados very close se suas distâncias
com o feature alvo são menores ou iguais à este parâmetro. Quando dois parâmetros de distância são
informados, os vizinhos são considerado very_close se suas distâncias com o feature alvo são menores
ou iguais ao primeiro parâmetro, e close caso as distâncias estejam entre os dois parâmetros.
REFERÊNCIAS
1.
2.
3.
4.
5.
6.
7.
8.
http://www.inf.ufsc.br/~vania/publications.html
http://www.inf.ufsc.br/~vania/artigos/WAAMD2006.pdf
http://www.inf.ufrgs.br/~alvares/CMP259DCBD/aula4.ppt
http://www.spatial.cs.umn.edu/sdm.html
http://en.wikipedia.org/wiki/Spatial_analysis
http://www.lume.ufrgs.br/bitstream/handle/10183/7841/000558236.pdf?sequence=1
http://docs.oracle.com/html/B10826_01/sdo_sam_concepts.htm
http://sci2s.ugr.es/keel/pdf/specific/report/zhao03ars.pdf
Download