Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra 1 2 Introdução 3 4 Capacidade de Armazenamento X Análise e Interpretação Geração contínua de dados Satélites de SR geram imagens diariamente. Se os dados são analisados de forma independente, não apresentam significado. A interpretação de grandes volumes de dados é facilitada pela manipulação das informações de forma integrada. A interpretação de imagens pode ser automatizada. Como encontrar um alvo em uma imagem? Como representar o conhecimento em software? Atributos em uma tabela caracterizam os objetos. Descoberta de Conhecimento em Bancos de Dados: KDD Knowledge Discovery in Databases KDD é o processo não trivial de identificar padrões nos dados. Os padrões devem ser válidos, singulares, potencialmente úteis e compreensíveis. Fayyad, 1997 Medidas de avaliação dos resultados do KDD 1 2 3 4 Certeza Utilidade Inovação Simplicidade Áreas de pesquisa Reconhecimento de Padrões KDD Estatística Bancos de Dados Aprendizado por Máquina KDD Genérico KDD em imagens Sistema de Coordenadas 0 1 2 3 . . . N-1 x 0 1 2 3 f(x,y) N colunas . . . M - 1 18 y M linhas Espaços Espaço da Imagem X Espaço de Atributos atr x3 24 24 32 col 10 x3 x2 32 x1 10 x1 lin 19 x2 Qual imagem poderia ter este comportamento no espaço de atributos? 20 Solução 21 1 2 3 Pré Processamento 4 Atributos para Pixels Atributos para Segmentos Atributos de Paisagem 10 km Manchas dentro da célula: • Área total • Porcentagem • Tamanho médio • Conectividade •… Questões: • Tamanho da célula • Padrões observáveis Subconjunto de atributos suficiente e necessário para representar um conceito. Técnicas de Seleção Normalização previne que uma variável tenha maior impacto do que as outras. Técnicas de Normalização z-score min-max Visualização aumenta a interatividade e melhora o entendimento dos resultados. 1 2 Mineração de Dados 3 4 Extração de padrões, ou modelos, dos dados. Classificação omite detalhes, mas simplifica a interpretação. A modelagem preditiva encontra o estado mais provável de um elemento, sua classe. Solo Exposto Edificações Construções Ferrovia Estrada Solo Torres Árvores Vegetação Árvores de decisão descrevem fronteiras lineares sobre o espaço de atributos. Redes neurais artificiais geram separadores não lineares. Nearest Neighbors Support Vector Machines (SVM) Agrupamento (clustering) separa automaticamente objetos em subconjuntos similares entre si, e diferentes dos demais. Mapas de Kohonen (SOM) representam em neurônios próximos objetos similares. K-Médias encontra K valores de médias, os centróides de cada cluster. Técnicas de associação revelam relações de co-ocorrência nos atributos. 1. SE ( media_pixels_0 >= 127 E area < 50 ) ENTÃO media_pixels_2 > 200 2. SE ( area > 1000 E compacidade < 0.5 ) ENTÃO media_pixels_0 < 50 ... Algoritmos genéticos buscam associações cruzando as hipóteses. 1. SE ( media_pixels_0 ( media_pixels_0 ENTÃO... 2. SE ( media_pixels_0 ( media_pixels_0 ENTÃO... >= 100 E media_pixels_0 < 150 ) OU >= 150 E media_pixels_0 < 200 ) >= 0 E media_pixels_0 < 50 ) OU >= 200 E media_pixels_0 < 256 ) (00110, 10001) 00101 SE ( media_pixels_0 >= 100 E media_pixels_0 < 150 ) OU ( media_pixels_0 >= 200 E media_pixels_0 < 256 ) ENTÃO ... 1 2 3 4 Interpretação do Conhecimento A interpretação valida e aplica o conhecimento a todos os dados. O modelo será diferente conforme a técnica empregada. O modelo preditivo é avaliado logo após sua construção. Entrada κ = 0.67738 Treinamento κ = 0.62293 κ = 0.74850 Pode-se aceitar o modelo produzido, refazer etapas anteriores ou ajustar o resultado. Se clustering for empregado, significados devem ser atribuídos no pós-processamento. Geographic Data Mining Analyst • • • • • Desenvolvido pela DPI – INPE Software livre Código fonte aberto TerraLib, C++ Mineração de dados de sensoriamento remoto Modelo de Interpretação Image Segmentation Modelo de Interpretação Modelo de Interpretação Modelo de Interpretação Exemplo de Aplicação Classificação de cobertura urbana usando imagens de alta resolução São Paulo, SP Exercício – Análise de padrões de desmatamento na Amazônia (GeoDMA)