1 INE5644 ­ Data Mining Data Mining em Bancos de Dados Espaciais Gabriel Arthur Gerber Andrade Jorge Gonzaga Júnior RESUMO Spatial data mining é o processo de descobrir padrões interessantes e previamente desconhecidos, mas que sejam potêncialmente útil a partir de grandes spatial datasets. Extrair padrões interessante e úteis de spatial datasets é mais difícil que extrair os padrões correspondentes de dados tradicionais numéricos e categóricos, devido a complexidade de spatial data types, spatial relationships, e spatial autocorrelation. INTRODUÇÃO A importância da exploração de dados espaciais pode ser notada pelo fato dos dados geográficos, os quais são um tipo específico de dados espaciais, estarem sendo utilizados em vários domínios diferentes de aplicações, como planejamento urbano, meios­de­transporte, telecomunicações, marketing. Os dados geográficos são armazenados em Geographic Information Database Management Systems (GDBMS), e são manipulados por Geographic Information Systems (GIS). Este último é uma técnologia que providência um conjunto de operações e funções para análises de dados geográficos. Entretanto, dentro dos dados armazenados em bancos de dados geográficos há, ainda, um implícito, não­trivíal e previamente desconhecido conhecimento que não pode ser descoberto por GIS. Técnicas específicas são necessárias para encontrar este tipo de conhecimento, o que é o objetivo da Descoberta de Conhecimento em Bancos de Dados (DCBD). Como exemplos de motivos para utilizar DCBD em bancos espaciais, temos os seguintes tópicos: idêntificar um poço como fonte da cólera asiática em Londres (1855); definir clusters de pessoas com câncer para investigar a influência do ambiente; encontrar locais de concentração de crimes para planejar as rotas de patrulha da polícia; identificar características de onde um certo tipo de águia faz o seu ninho; saber como está a saúde do planeta; caracterizar os efeitos da atividade humana para o ambiente e a ecologia; predizer o efeito do El Niño na economia e no clima. DCBD é um processo interativo constituído de cinco etapas básicas: seleção, pré­processamento, transformação, data mining e avaliação/interpretação. As três primeiras etapas têm o objetivo de rearranjar os dados para o formato requerido pelos algorítmos de data mining. Em bancos de dados não­espaciais 60% à 80% do tempo e esforço de todo o processo DCBD é utilizado na etapa de pré­processamento. Já nos bancos de dados espaciais este problema é aumentado significantemente devido à complexidade dos dados espaciais. A literatura apresenta diferentes soluções para DCBD em bancos de dados geográficos, sendo que muitas delas proprõem data mining query language e novos algoritmos para dados espaciais. Uma abordagem alternativa consiste em selecionar dados e relacionamentos espaciais sobre os quais serão aplicados os métodos clássico de data mining. 2 BANCOS DE DADOS ESPACIAIS Bancos de dados Geográficos (BDG) armazenam entidades do mundo real, também chamadas de spatial features, localizadas em uma região específica do globo terrestre. Spatial features (Canadá, França) pertencem à um feature type (país) e possuem atributos não­espaciais (eg. nome, população) e espaciais (eg. coordenadas geográficas latitude e longitude). Nos BDG cada spatial type é, usualmente, armazenado em uma relação diferente devido a maioria dos BDG seguir ou a abordagem relacional ou a objeto­relacional. Atributos espaciais possuem relações intrísecas (e.g. perto, longe, continência), as quais são responsáveis pelas características de entidades do mundo real poderem afetar o comportamento de outras features vizinhas. Como resultado, as relações espaciais são a princípal característica dos dados geográficos que é considera no data mining e DCBD. Ela também é a principal característica que diferencia o data mining de dados geográficos/espaciais com o de dados não­espaciais. Relacionamentos espaciais não são, normalmente, armazenados explicitamente no banco de dados e, portanto, têm que ser computados por operações espaciais. Existem basicamente três (3) relacionamentos espaciais: distância, ordem e topologia. Relacionamentos de distância são baseados na distância Euclidiana entre dois spatial features. Relacionamentos de ordem lidam com a direção e como spatial features são localizados em um espaço. Relacionamentos topológicos caracterizam o tipo da intersecção entre dois spatial features e podem ser classificado em igual, disjunto, toca, dentro, sobre­põe, cruza, contém, cobre e cobertoPor. Os principais relacionamentos utilizados no data mining de dados espaciais são de topologia e de distância. GIS implementa funções específicas para manipular dados geográficos. O OGC (Open GIS Conrsortium) é uma organização dedicada a desenvolver padrões para operações geográficas e para integração de dados geográficos, com o intuito de providênciar interoperabilidade para GIS. Os padrões espaciais têm propriedades únicas que são interessantes para o data mining: são frequêntemente ao­correlacionados; possuem domínios complexos; descrevem objetos contínuos; e possuem a característica descrita pela Primeira Lei da Geografia [Tobler] ­ “tudo está relacionado com tudo, mas coisas próximas estão mais relacionadas do que as distantes”. Como o spatial data mining é um campo em desenvolvimento, então além de haver diversas famílias para os padrões espaciais, novas ainda podem estar surgindo. Entretanto três delas são usualmente utilizadas: Família Predição de localização Interação espacial Hot spots Característica Onde um certo fenônemo Quais subconjuntos de Quais localizações são não irá acontecer? objetos ou fenômenos usuais? espaciais interagem? Necessidades ­ locais que um evento acontece; ­ quais eventos espaciais são previsíveis; ­ métodos para prever eventos espaciais a partir de outros eventos espaciais (e.g. utilizando equações ou ­ se é um fenômeno espacialmente agrupado; ­ se uma entidade espacial ou um agrupamento é ‘não usual’, ­ quais entidades espaciais compartilham características comuns. 3 regras). Exemplos Onde uma espécie de pássaro faz seus ninhos? Que áreas estão mais sujeitas à incêndios florestais considerando dados de vegetação, vento, etc? Qual linha de trem possui o maior fluxo, durante todo o dia, entre duas cidades? Exemplos são: regiões com alta incidência de câncer podem ser utilizadas para investigação; locais com alta incidência de crimes podem ser utilizados para planejar rodas de patrulha da polícia. Técnicas classificação correlação, associação e co­locations clusterings e detecção de desvios. Existem várias técnicas para encontrar padrões espaciais de uma mesma família e a escolha da técnica depende do que é selecionado: como atributos e dados espaciais. A análise de dados espaciais enfreta várias questões fundamentais quanto a definição dos objetos de estudo, a construção das operações analíticas a serem utilizadas, o uso de computadores para a análise, as limitações e particulariedades conhecidas da análise. Erros comuns aparecem frequêntemente na análise espacial, alguns devido ao espaço matemática, outros por meios particulares que os dados estão espacialmente apresentados ou, até, pelas ferramentas disponíveis. Por exemplo, a natureza fragmentada de uma enconsta faz com que a precisão da medida de seu comprimento seja difícil, senão impossível. Estes problemas representam um desafio para a análise de dados espaciais, devido ao poder que mapas possuem como um meio de apresentação dos dados. Quando os resultados são mostrados como mapa, a apresentação combina dados espaciais, os quais são geralmente precisos, com resultados analíticos, que podem possuir erros. Isto leva a impressão que resultados análitcos são mais preciso quando os dados são indicados. A definição da presença espacial de um entidade restringe as possíveis análises que podem ser aplicadas para esta entidade e influênciam as conclusões finais que podem ser alcançadas. Enquanto esta propriedade é fundamentalmente verdade para todas as análises, isto é particularmente importânte na análise espacial devido às ferramentas que definem e estudam entidades são favorecidas por caracterizações específicas das entidades que estão sendo estudadas. Técnicas estatísticas favorecem a definição espacial de objetos como pontos, porque há poucas técnicas que operam diretamente com elementos de linha, área ou volume. Ferramentas computacionais favorecem a definição de objetos como homogêneos e elementos separados devido a limitação de elementos de bancos de dados e estruturas computacionais disponíveis, e também pela facilidade que estruturas primitivas podem ser criadas. Dependência espacial é a co­variação de propriedades dentro do espaço geográfico: características em localizações próxima parecem ser correlacionadas, tanto positivamente quanto negativamente. Depedências espaciais causam problemas de autocorrelacionamento espacial na estatítica já que, como autocorrelacionamentos temporais, violam a hipótese adotada, por técnicas estatísticas padrões, de que há indepedência entre as observações. Também é apropriado ver a dependência espacial como uma fonte de informações do que algo a ser corrigido. Efeitos locacionais também são manifestados 4 como heteregioniedade espacial, ou a aparente variação em um processo ­ com respeito a localização no espaço geográfico. Isto afeta a dependência espacial das relações e, portanto, o processo espacial. Heterogeniedade espacial significa que parâmetros globais estimados para todo o sistema podem descrevem inadequadamente o processo em certas localizações. A escala de medição é uma questão na análise espacial, sendo estuda como Modifiable Areal Unit Problem (MAUP). Amostragem espacial involve determinar um número limitado de localizações em um espaço geográfico para fazer uma medida confiável dos fenômenos que estão sujeitos a dependência e heterogeneidade. Dependência sugere que como uma localização pode prever o valor de outra, nós não precisamos observar os dois lugares. Mas heterogeneidade sugere que esta relação pode mudar conforme o lugar e, portanto, não podemos confiar em um certo grau de dependência. Esquemas básicos de amostragem incluem aleatoriedade, clustering e sistemática. Estes esquemas podem ser aplicados em múltiplos níveis de uma certa hierarquia espacial (e.g. área urbana, cidade, vizinhança). Estas questões fundamentais geram numerosos problemas na análise, incluindo bias, distorção e outright errors nas conclusões. Estas questões são frequêntemente interligadas, mas diversas tentativas foram feitas para separar questões particulares: variação da validade do 'comprimento' conforme o contexto; falácia de localização ­ erros ocasionados pela escolha de características espaciais como elementos de estudo, as quais além de serem muitos simples ou até mesmo erradas podem levar a limitar, implicitamente, o objetivo do estudo; falácia de atomicidade ­ tratar elemento como 'atômicos' mesmo quando estão fora de seus contextos; falácia ecológica ­ analisar dados agregados com o objetivo de tirar conclusões de unidades individuais. Observações inconstantes com o resto do dataset podem aparecer em qualquer data mining, e são chamados outliers. Spatial outlier são observações inconstantes com seus vizinhos, uma instabilidade ou descontínuidade local presentes em spatial data mining. Por sua vez, global outliers são, usualmente, definidos como observações de dados que parecem ser inconstantes com o resto dos dados do dataset. A verificação destes últimos outliers pode levar a descoberta de conhecimentos inesperados, e possui numerosas aplicações em áreas como: fraude de cartão de crédito, análise desempenho atlético, irregularidades de votação e previsão de tempo severo. SEGMENTAÇÂO O principio da segmentação é que partindo de uma imagem digital, possamos através de algoritmos estatísticos, reduzir as informações da mesma em regiões (objetos) homogêneas, as quais são funções diretas do problema considerado, ajudando em uma análise mais adequada da imagem. Porem é importante lembrar que a qualidade da segmentação depende não apenas do algoritmo selecionado, mas de um apropriado ajuste dos valores de seus parâmetros. Como já foi dito, o ajuste desses parâmetros necessita de uma longa jornada de testes para cada imagem. Hoje já existem alguns procedimentos para tornar a inserção desses parâmetros mais aferida, no entanto gastam mais tempo. A segmentação pode ser classificada genericamente em dois grandes grupos: ● Baseada em Descontinuidade: particiona a imagem levando em consideração a mudança abrupta nos níveis de cinza que podem ser observados através de matrizes de convolução que percorrem a imagem detectando pontos isolados, linhas e bordas de um objeto. Na prática, pode­se perceber que na maioria das vezes as detecções de linhas e bordas retornam erros de detecção que 5 posteriormente precisam ser ajustados manualmente ou usando algum processamento anterior a segmentação. ● Baseada em Similaridade: neste caso, leva em consideração o interior dos objetos, analisando propriedades similares entre os pixels, tendo como critério os métodos de segmentação por crescimento de regiões, limiarização, detecção de bacias, pirâmides e clustering. O método de Segmentação por Crescimento de Regiões agrega pixels, ou sub­regiões e regiões maiores. O processo pelo qual se inicia esse método é a coleta automática de pixels fontes, que partindo­se deles o algoritmo vai agregando pixels vizinhos que tenham características similares de cor, intensidade, textura e etc; até que não haja mais possibilidade de agregação. Já o método de Limiarização, consiste em fazer uma discretização dos objetos por limiares sobre o histograma da imagem, esse limiar retorna uma imagem com valores de 1 para os objetos e 0 para o fundo. O método Detecção de Bacias pode ser considerado uma junção de outros métodos como a detecção de bordas que usa o filtro de sobel e por agregadores de região. O resultado intermediário desse método é uma imagem com aparência de um modelo digital de elevação (DEM) onde serão processadas as regiões a partir de um limiar configurado pelo usuário, o resultado final é a criação de objetos pertinentes às bacias dentro do limiar empregado. Os procedimentos empregados no método Pirâmide são bem diferentes dos usualmente conhecidos, pois o algoritmo divide a imagem em quadrantes arbitrários, quase que identificando o pixel. Para os métodos de Clustering, a imagem e convertida em valores de atributo (pontos) que são visualizados em um espaço amostral. Os cluster são porções contínuas desse espaço com alta densidade de pontos. O que define o objeto é a separabilidade entre essas nuvens de pontos adensadas. Existem ainda subdivisões desse método que determinam que um ponto pertence a apenas uma classe ou ainda os que permitem que um ponto pertença a todas as classes até certo grau. Os clustering pode usar algoritmos ISOSEG ou K­MÉDIAS. Já a Segmentação Baseada em Objeto, ou Multiresolução, leva em consideração varias características da imagem, como heterogeneidade espacial (forma) que também é subdividido em compacidade e suavidade, assim como espectral (cor) e diferença dos objetos de entorno, utilizando em síntese o método de crescimento de regiões para agregar pixels vizinhos. Esse processo termina quando o objeto excede o limiar (escala) definido pelo usuário. ­ A heterogeneidade define a uniformidade dos objetos (Ex: cor, forma); ­ O limiar de escala é a propriedade que define o tamanho dos objetos (Ex: metro, kilos); A classificação pode ser muito mais apurada quando se faz um estudo das estatísticas dos segmentos para identificação das classes pretendidas. Geralmente os algoritmos automáticos, usam­se os classificadores de pertinência para associar os objetos as classes, esses classificadores inibem a noção determinista de sim ou não, deixando com que as estatísticas de cada segmento definam o grau de pertencimento a uma determinada classe. CLASSIFICAÇÂO Uma grande diversidade de projetos ambientais tem se desenvolvido com técnicas de sensoriamento remoto, muitas das vezes esses projetos cobrem uma área bastante extensa, necessitando de procedimentos mais automáticos para a interpretação da paisagem. É nesse contexto que o uso das técnicas de classificação de imagens de satélite vem crescendo e junto com elas muitas duvidas sobre os 6 tipos de classificação também. A família dos dados que compõem a classificação de dados espaciais, é de predição de localização (location prediction). A Classificação em sistemas de dados espaciais pode ser dividida em dois grupos: ● Supervisionada: procedimento que necessita de conhecimento prévio da área para produção do treinamento do algoritmo, para que o mesmo possa reconhecer os diferentes intervalos do comprimento de onda e assim definir as fronteiras de classes; ● Não­Supervisionado: genericamente nesse método, cada pixel da imagem é associado a uma classe sem que o usuário tenha conhecimento prévio do numero ou da identificação das diferentes classes presentes. Dentro desses dois métodos existem peculiaridades de agregação da informação espectral que podem ser: ● Pixel­a­pixel: a técnica de classificação por pixel utiliza a informação espectral de cada pixel isolado para encontrar regiões homogêneas, traçando assim uma probabilidade de um determinado pixel analisado pertencer ou não a uma determinada classe. ● Por Regiões: nessa caso leva­se em consideração a variabilidade espacial e a textura natural, que consiste em simular o comportamento de um fotointérprete, ao reconhecer áreas homogêneas nos dados orbitais, baseados nas propriedades espectrais e espaciais dessas áreas na imagem. Alguns métodos que são recorrentes na literatura e nos softwares de PDI, entre eles estão Máxima Verossimilhança, Distância Euclidiana, Bhattacharya, Mahalanobis, Parallelepiped, Spectral Angle Mapper, K­Media e IsoData; são frequentemente usados para classificação de dados espaciais. Máxima Verossimilhança, ou como costuma ser chamado MAXVER, é o método que pressupõe a ponderação das distâncias entre médias dos níveis digitais das classes, utilizando parâmetros estatísticos. Como esse é um método de classificação supervisionada pixel­a­pixel, é fundamental que se use amostras de treinamento para definir o diagrama de dispersão das classes e a probabilidade de pertencimento. Para que nessa metodologia se tenha uma boa classificação é imprescindível o número de amostras seja um pouco elevado. É importante frisar que essas amostras não podem conter contaminações, ou seja, apresentarem muita informação pertencente a outras classes, sendo assim, é sempre bom dar uma olhada na estatística das amostras antes de partir para a classificação. Outro método de classificação, também supervisionado pixel­a­pixel, é o por Distância Euclidiana, segundo a matemática, é a distância entre dois pontos provada pela aplicação repetida do teorema de Pitágoras. O que acontece é que o algoritmo de classificação compara a Distância Euclidiana do pixel à media de cada agrupamento e quanto menor for a distância maior será a probabilidade de pertencimento, esse procedimento é repetido até que toda a imagem seja classificada. No método Bhattacharya, o algoritmo é usado para medir a separabilidade estatística entre um par de classes espectrais, ou seja, mede a distância média entre as distribuições de probabilidades dessas classes para agrupar regiões. Aqui as amostras de treinamento serão os objetos gerados na segmentação através de similaridades e forma. Segundo (CORREIA et al 2007), o classificador Bhattacharya se aplica sobre o resultado do processo de segmentação, ou seja, classifica­se um conjunto de pixels, gerando áreas mais contínuas. Ainda nessa mesma linha de classificações baseadas em segmentação, temos a classificação pela distância de Mahalanobis, que tem uma semelhança com a MAXVER, mas com o diferencial de assumir que todas as classes de covariância são iguais, tornando­se assim mais rápido. A distância de Mahalanobis é calculada considerando o espalhamento dos dados, inclusive a orientação de amostras de uma 7 determinada classe. Essa distância é calculada sempre entre um ponto e um conjunto de amostras, no caso objetos da segmentação. O método Parallelepiped, consiste em determinar se um pixel está dentro de uma classe ou não, para isso, usa os limiares de cada amostra, esses limiares formam as dimensões de cada lado de um paralelepípedo em torno da média da classe, com isso, se um pixel cai dentro do paralelepípedo, é atribuído à classe. Mas se o pixel estiver dentro de mais de uma classe, ele é colocado dentro da sobreposição de classes e se não se enquadrar em nenhuma das classes, é atribuído à classe nula. Saindo um pouco dos métodos tradicionais de classificação supervisionada, o método SAM – Spectral Angle Mapper, traz um mapeamento de classes pela variação do ângulo de separação espectral, esse processo pode ser visualizado em um espaço n­dimensional, que é criado a partir do número de bandas da imagem, tendo como característica um nuvem de pontos. Geralmente nas extremidades dessa nuvem em ângulos diferentes temos a divisão das classes, pois esse método é insensível à iluminação, ou seja, o algoritmo SAM utiliza apenas a direção do vetor e não o comprimento do vetor. Este método é geralmente usado como um primeiro corte para a determinação da mineralogia e funciona bem em áreas de regiões homogêneas. Levando isso em consideração e sabendo que a maioria dos alvos na superfície terrestre não são homogêneos, esse método se torna melhor aplicado quando é feito um estudo prévio com modelo linear de mistura espectral – MLME e extração dos pixels puros – PPI. Um dos métodos mais usados no sensoriamento remoto para a classificação não­supervisonada é o IsoData. Esse algoritmo identifica padrões típicos nos níveis de cinza, onde esses padrões são classificados efetuando­se visitas de reconhecimento a alguns poucos exemplos escolhidos para determinar sua interpretação. Em razão da técnica usada nesse processo, os padrões são geralmente referidos como “clusters”. Neste tipo de classificação, as classes são determinadas pela análise de agrupamentos (cluster analysis). Para tanto é necessário que o usuário determine o número de classes, a quantidade de interações, ou seja, de recalculo para os novos valores médios. O usuário ainda pode deixar o algoritmo mais preciso configurando o desvio padrão, o erro de distância mínima e outros parâmetros. Esse algoritmo e muito sensíveis a esses parâmetros, podendo gerar classificações muito diferentes quando são feitas vários testes para um mesmo conjunto de dados. O procedimento de classificação usado pelo método K­Media é basicamente o mesmo do IsoData, pois este ultimo é uma derivação do primeiro. CORRELAÇÃO A Correlação faz parte da família de dados que seguem o padrão de Interação Espacial, ou também chamado de Spatial Interaction. Em outras palavras, neste método se procura quais subconjuntos de objetos ou fenômenos espaciais interagem. Correlação espacial (ou, neighborhood influence) se refere ao fenômeno da localização de um objeto específico em uma área que afeta algum atributo não espacial do objeto. Por exemplo, o valor (atributo não espacial) de uma casa em um determinado endereço (georreferenciados para dar um atributo espacial) é em grande parte determinado pelo valor de outras casas no bairro. Para usar a correlação espacial em uma aplicação de mineração de dados, é necessário materializar a correlação espacial, adicionando atributos (colunas) em uma tabela de mineração de dados. Pode­se usar tabelas temáticas associadas para adicionar os atributos adequados. Neste caso, pode­se 8 executar tarefas de mineração nas tabelas de mineração de dados usando funções ODM (Object Data Mining). ASSOCIAÇÃO Regras de associação consiste em uma implicação da forma que X ­> Y , onde X e Y são conjuntos de itens de co­ocorrendo num dado (Agrawal 1993). O problema das regras de mineração de associação pode ser decomposto em duas etapas (Agrawal 1993): ● Encontrar todos os grandes/frequente conjuntos de itens : um conjunto de itens é freqüente se o seu apoio é de pelo menos igual a um certo limiar, chamado minsup; ● Gerar regras de confiança elevados : a regra é forte se o seu apoio é pelo menos igual ao suporte mínimo e a confiança é maior ou igual a um certo limite, chamado minconf. A Associação pode gerar conjuntos candidatos e, em seguida, calcular a sua frequência, de forma a gerar conjuntos frequentes, como no Apriori (Agrawal 1994). A geração do candidato é realizada com múltiplas passadas sobre o conjunto de dados. Na primeira passagem, o apoio dos elementos individuais é calculado para determinar os conjuntos de itens de grande, chamado k­itemsets freqüentes . Em seguida, dado k como o número da passagem de corrente, geram os grandes conjuntos com k elementos, que são chamados de conjuntos candidatos . O apoio de cada grupo das candidatas é calculado, e se for igual ou maior do que o mínimo suporte, então este conjunto é considerado frequente . Este processo continua até que o grande conjunto de os resultados passam em um conjunto vazio. Regras de associação são extraídos a partir da resultante dos conjuntos freqüentes , ou seja, conjuntos candidatos que atingiram o mínimo de apoio. Enquanto em bancos de dados transacional, a associação de cada linha no conjunto de dados é normalmente uma transação e colunas são itens, em dados espaciais as regras de associação dita que cada linha é uma instância (por exemplo, Florianópolis) de um tipo de objeto de referência (por exemplo, cidade), são chamadas de tipo de função alvo, e as colunas são predicados. Cada predicado está relacionada a um atributo não­espacial (Por exemplo, população) do tipo característica alvo ou um predicado espacial. Predicado espacial é um tipo de característica relevante que é espacialmente relacionada a casos específicos do tipo da função alvo(por exemplo contains_factory). CO­LOCATIONS Um dataset pode utilizado para criar um grafo, não orientado, cujos vértices são todas instâncias de cada feature type, e as arestas representam o relacionamento de vizinhança entre duas instâncias. Portanto, neighborhood é um clique neste grafo e uma co­location é um subconjunto de spatial features. A partir de uma co­location podemos definir row instance I como o conjunto de instâncias dos spatial features que estão na co­location, ou seja, I é uma vizinhança. Outra definição feita a patir de uma certa co­location é a de Table Instance, que é a coleção de todas as rows instance de uma certa co­location. Isto é interpretado como um spatial join. A avaliação da qualidade de co­locations é dada por participation index (PI) e participation ratio (PR). Participation ratio (PR): percentagem de instancias de um certo feature type que a co­location possui. Participation index (PI): mínimo PR obtido por algum spatial feature da co­location. WEKA­GDPM Weka­GDPM é um módulo interoperável que suporta pré­processamento automático de dados 9 geográficos para a mineração de dados espaciais. Esta automatização é um facilitador do pré­processamento destes tipos de dados; o qual, por sua vez é a etapa de data mining que possui o maior esforço e consumo de tempo. Weka é um clássico data mining toolkit que é gratuíto e open source; e GDPM segue as especifícações Open GIS para suporte de interoperabilidade com Geographic Information Systems, tendo a capacidade de: gerar automáticamente dados com dois níveis de granularidade diferentes sem utilizar prior knowledge; providenciar suporte tanto para relacionamentos espaciais de distância quanto topológicos. PRÉ­PROCESSAMENTO DE DADOS GEOGRÁFICOS Os passos principais para preparar bancos de dados geográficos para o data mining incluem a definição: de um feature type alvo, no qual a descoberta de conhecimento será realizada; de um conjunto de feature types relevântes, isto é, que podem ter alguma influência sobre o feature type alvo; de um nível de granularidade no qual tanto os dados serão representados quanto os relacionamentos espaciais serão computados. O feature type alvo e todo feature type relevânte são database table diferentes. Além do arquivo resultante da preparação dos dados ter de ser único, também deve conter uma linha para cada instância do feature type alvo enquanto que as colunas são predicados. Os predicados são atributos não­espaciais (e.g. população) do feature type alvo e relacionamentos espaciais com os feature types relevantes (e.g. contém rio). Os relacionamentos espaciais são computados com SQL queries que spatially join todas as instâncias de um feature type alvo e todas as instâncias de cada feature type relevante em um conjunto de feature types relevantes que possui qualquer um dos relacionamentos espaciais com a feature type alvo. De acordo com o objetivo da descoberta, dados podem ser representados em diferentes níveis de granularidade. Por exemplo: o caso de haver algumas regiões, em uma área metropolitânea, com alta incidência de poluição torna interessante considerar predicados espaciais de fábricas em um nível genérico como contém(fábrica). Em alguns casos específicos estes predicados podem considerar diferentes tipos de fábricas contém(fábrica_química), contém(fábrica_metalúrgica). Por fim, em casos bem específicos pode ser interessante considerar instâncias de fábricas. Dois possíveis níveis de granularidade são: feature instance e feature type. O primeiro é uma granularidade bem baixa na qual o tipo de spatial feature e os identificadores de suas instâncias são considerados. Enquanto que o último é uma granularidade de nível mais genérico na qual apenas o feature type é considerado. Estas duas granularidades podem ser automáticamente geradas sem a necessidade de algum prior knowledge e sem requerir background knowledge do usuário de banco de dados. RELACIONAMENTOS TOPOLÓGICOS Relacionamentos topológicos são mutuamente exclusívos de modo que apenas um relacionamento topológico é válido entre duas feature instances. No nível de granularidade da feature instance toda instância de um feature type alvo pode ter apenas um relacionamento topológico com uma instância de um feature type relevânte. Caso haja alguma instância do feature type alvo possua mais de um relacionamento topológico com algum feature type relevante então é necessário criar um novo nome de atributo para cada feature type relevante que tenha um relacionamento topológico diferente com o feature alvo, a fim de preservar o tipo (semântica) do relacionamento topológico. É difícil especificar dominância entre relacionamentos topológicos para definir qual é o mais forte. Até o momento este 10 problema não foi tratado na literatura. A ferramenta Weka­GDPM preserva o relacionamento type por meio da sua concatenação ao feature type, enquanto o atributo value recebe a string “yes” quando o relacionamento é válido e “?” caso não haja relacionamento. Seguindo o objetivo da descoberta de conhecimento, o uso dos relacionamentos topológicos pode ocasionar perda de informação interessante devido a dificuldade de obter informações entre relacionamentos de tipos diferentes. Para resolver este tipo de problema é possível utilizar relacionamentos topológicos gerais como intersecciona e não­intersecciona. O processo de transformação está em [Bogorny, 2006b]. RELACIONAMENTO DE DISTÂNCIA Relacionamentos de distância são computados seguindo os parâmetros obtidos do usuário. Caso exista apenas um parâmetro de distância então os vizinhos são considerados very close se suas distâncias com o feature alvo são menores ou iguais à este parâmetro. Quando dois parâmetros de distância são informados, os vizinhos são considerado very_close se suas distâncias com o feature alvo são menores ou iguais ao primeiro parâmetro, e close caso as distâncias estejam entre os dois parâmetros. REFERÊNCIAS 1. 2. 3. 4. 5. 6. 7. 8. http://www.inf.ufsc.br/~vania/publications.html http://www.inf.ufsc.br/~vania/artigos/WAAMD2006.pdf http://www.inf.ufrgs.br/~alvares/CMP259DCBD/aula4.ppt http://www.spatial.cs.umn.edu/sdm.html http://en.wikipedia.org/wiki/Spatial_analysis http://www.lume.ufrgs.br/bitstream/handle/10183/7841/000558236.pdf?sequence=1 http://docs.oracle.com/html/B10826_01/sdo_sam_concepts.htm http://sci2s.ugr.es/keel/pdf/specific/report/zhao03ars.pdf