Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra 1 2 Introdução 3 4 Capacidade de Armazenamento X Análise e Interpretação Satélites de SR geram imagens diariamente. Se os dados são analisados de forma independente, não apresentam significado. A interpretação de imagens pode ser automatizada. Como encontrar um alvo em uma imagem de SR? Como representar o conhecimento em software? Atributos em uma tabela caracterizam os objetos. Descoberta de Conhecimento em Bancos de Dados: KDD Knowledge Discovery in Databases. KDD é o processo não trivial de identificar padrões nos dados. Os padrões devem ser válidos, singulares, potencialmente úteis e compreensíveis. Fayyad, 1997 Medidas de avaliação dos resultados do KDD 1 2 3 4 Certeza Utilidade Inovação Simplicidade Áreas de pesquisa Reconhecimento de Padrões KDD Estatística Bancos de Dados Aprendizado por Máquina KDD Genérico KDD em imagens 1 2 3 Pré Processamento 4 Atributos para Pixels Atributos para Segmentos Atributos de Paisagem 10 km Manchas dentro da célula: • Área total • Porcentagem • Tamanho médio • Conectividade •… Questões: • Tamanho da célula • Padrões observáveis Subconjunto de atributos suficiente e necessário para representar um conceito. Técnicas de Seleção Normalização previne que uma variável tenha maior impacto do que as outras. Técnicas de Normalização Visualização aumenta a interatividade e melhora o entendimento dos resultados. 1 2 Mineração de Dados 3 4 Extração de padrões, ou modelos, dos dados. Classificação omite detalhes, mas simplifica a interpretação. A modelagem preditiva encontra o estado mais provável de um elemento, sua classe. Solo Exposto Edificações Construções Ferrovia Estrada Solo Torres Árvores Vegetação Árvores de decisão descrevem fronteiras lineares sobre o espaço de atributos. Redes neurais artificiais geram separadores não lineares. Agrupamento (clustering) separa automaticamente objetos em subconjuntos similares entre si, e diferentes dos demais. Mapas de Kohonen (SOM) representam em neurônios próximos objetos similares. K-Médias encontra K valores de médias, os centróides de cada cluster. Técnicas de associação revelam relações de co-ocorrência nos atributos. 1. SE ( media_pixels_0 >= 127 E area < 50 ) ENTÃO media_pixels_2 > 200 2. SE ( area > 1000 E compacidade < 0.5 ) ENTÃO media_pixels_0 < 50 ... Algoritmos genéticos buscam associações cruzando as hipóteses. 1. SE ( media_pixels_0 ( media_pixels_0 ENTÃO... 2. SE ( media_pixels_0 ( media_pixels_0 ENTÃO... >= 100 E media_pixels_0 < 150 ) OU >= 150 E media_pixels_0 < 200 ) >= 0 E media_pixels_0 < 50 ) OU >= 200 E media_pixels_0 < 256 ) (00110, 10001) 00101 SE ( media_pixels_0 >= 100 E media_pixels_0 < 150 ) OU ( media_pixels_0 >= 200 E media_pixels_0 < 256 ) ENTÃO ... 1 2 3 4 Interpretação do Conhecimento A interpretação valida e aplica o conhecimento a todos os dados. O modelo será diferente conforme a técnica empregada. O modelo preditivo é avaliado logo após sua construção. Entrada κ = 0.67738 Treinamento κ = 0.62293 κ = 0.74850 Pode-se aceitar o modelo produzido, refazer etapas anteriores ou ajustar o resultado. Se clustering for empregado, significados devem ser atribuídos no pós-processamento. Geographical Data Mining Analyst • Brazil’s National Institute for Space Research – Image Processing Division • Free Software • TerraLib, C++ • Data Mining applied to Remote Sensing Interpretation Model Interpretation Model Interpretation Model Interpretation Model Applications Intra-Urban Land Cover Classification Applications Deforestation changes in the Amazon Forest Conclusion • • • • Background Preprocessing Data Mining Knowledge Construction GeoDMA http://www.dpi.inpe.br/geodma/ Future Works...