ANÁLISE DA COBERTURA VEGETAL DA CAATINGA UTILIZANDO TÉCNICAS DE MINERAÇÃO DE DADOS LUIZ FELIPE CAMPOS DE REZENDE CST-312 Padrões e Processos em Dinâmica de Uso e Cobertura da Terra RESUMO A partir de dados da região do Bioma Caatinga, este trabalho utiliza técnicas de mineração de dados para estudar a classificação de vegetação segundo o Manual técnico do IBGE. Uma metodologia foi aplicada e com apenas algumas métricas de ecologia da paisagem foi possível realizar a classificação. Como resultado preliminar obteve-se um acerto em torno de 95% num nível mais alto de classificação e 93% para classes mais completas que incluem as sub-classes. Aplicou-se uma segunda metodologia com algoritmos de associação com a finalidade de encontrar regras entre as diversas classificações vegetais e a ação antrópica na região da Caatinga. Esta segunda metodologia precisaria ser revista com o auxílio de especialistas em classificação de vegetação para reavaliar a definição de variáveis e as regras resultantes. 1. INTRODUÇÃO O Bioma Caatinga é muito importante do ponto de vista biológico por apresentar fauna e flora únicas, formada por uma vasta biodiversidade, rica em recursos genéticos e de vegetação constituída por espécies lenhosas, herbáceas, cactáceas e bromeliáceas. Estima-se que pelo menos 932 espécies já foram registradas para a região, das quais 380 são endêmicas. Dentre os biomas brasileiros, a Caatinga é o menos conhecido cientificamente e vem sendo tratado com baixa prioridade, apesar de ser um dos mais ameaçados, devido ao uso inadequado e insustentável dos seus solos e recursos naturais, e por ter cerca de 1% de remanescentes protegidos por unidades de conservação. A Caatinga que se estende por quase todos os estados do Nordeste e parte de Minas Gerais, parte do Espírito Santo, e cobre 9,92% do território nacional. Segundo o IBGE (2004), a área é de 844.453 km2, e está situada entre os paralelos 3° e 17°S e meridianos 35° e 45°W. Na região Nordeste, os solos assumem uma grande variação. Os solos de maior fertilidade natural e com melhor potencial de utilização agrícola situam-se em áreas calcárias do embasamento cristalino e em faixas de deposição aluvial. Os solos localizados na zona do agreste apresentam maior teor de umidade (precipitação: 600 a 800 mm anuais), especialmente, na faixa limite com a zona úmida costeira, nos sopés das grandes chapadas e dos planaltos. A vegetação no agreste é a caatinga hipoxerófila de porte arbóreo arbustivo mais ou menos denso. Na região de semi-árido acentuado, a agricultura quase não existe devido aos longos períodos de estiagem (precipitação: 400 a 600 mm anuais) e a vegetação é a caatinga hiperxerófila com predomínio de espécies mais adaptadas à seca e com maior número de cactáceas que na caatinga hipoxerófila (VIEIRA et al., 2007). Mineração de dados é definida como o processo de descobrir padrões em dados. Padrão pode ser definido como um evento/característica ou combinação de eventos numa base de dados que ocorrem com maior freqüência. Padrões quando descobertos, podem permitir que se faça predições acuradas sobre dados futuros. Assim, os padrões quando são descobertos devem ser significativos e trazer uma nova informação sobre o que os dados representam. O objetivo de mineração de dados é descobrir conhecimento novo oculto em grandes bases de dados. O processo pode ser automático ou (mais usualmente) semi-automático (HAN, KAMBER, 2001) (WITTEN, FRANK, 2000). Mineração de dados é considerada uma área multidisciplinar que envolve reconhecimento de padrões, inteligência artificial, bancos de dados, sistemas distribuídos, estatística, matemática, aprendizado de máquina e visualização de dados. O trabalho se baseia em dados e no relatório do projeto PROBIO (Projeto de Conservação e Utilização Sustentável da Diversidade Biológica Brasileira) – Subprojeto: Levantamento da Cobertura Vegetal e do Uso do Solo do Bioma Caatinga (Relatório Final PROBIO, 2007) apoiado pelo Ministério do Meio Ambiente (MMA). Utiliza-se as diversas classificações de vegetação (IBGE, 1992) contidas no relatório como Savana-Estépica florestada, Savana-Estépica arborizada com agricultura, áreas de tensão ecológica, Savana Florestada (Cerradão), Savana Arborizada (Campo-cerrado), Savana Parque (Campo-sujo), Savana Gramíneo-lenhosa (Campo-limpo) etc. 2. METODOLOGIA 2.1 DADOS UTILIZADOS Foram utilizados dados das regiões fitoecológicas do bioma Caatinga que foram obtidos no portal do Ministério do Meio Ambiente em: http://mapas.mma.gov.br/geonetwork/srv/br/main.home do PROBIO - Subprojeto: Levantamento da Cobertura Vegetal e do Uso do Solo do Bioma Caatinga. Alem do Ministério do Meio Ambiente, este projeto envolve diversas instituições de fomento e pesquisa brasileiras. Entre os principais objetivos do subprojeto pode-se citar: produzir o mapa dos remanescentes da cobertura vegetal e do uso das terras do bioma caatinga (escala 1:250.000), com caracterização básica das diversas tipologias vegetais definidas; consolidar as iniciativas existentes de mapeamento do bioma; elaborar mapas de remanescentes de cobertura vegetal do bioma a partir de imagens de satélite; integrar e compatibilizar o mapa, os dados de campo e os produtos resultantes do processamento das imagens de satélite; promover a divulgação de resultados. Os dados podem ser acessados no link: http://mapas.mma.gov.br/mapas/aplic/probio/datadownload.htm. E esses dados estão nos formatos DBF, SHP e SHX. Eles foram importados para o TerraView versão 3.5.0 (Figura 1.0) e para o Sistema de Gerenciamento de Banco de Dados: Access, da Microsoft. Uma das tabelas principais (vegetação.dbf) contém 10.994 linhas. Em princípio, para a realização deste trabalho, considerou-se todos os estados que compõem a Caatinga (região Nordeste, Minas Gerais e Espírito Santo). No decorrer do trabalho uma restrição foi realizada e reduziu-se a área de estudo (explica-se na Seção 2.2). Figura 1.0 – Dados importados para o TerraView 3.5.0 2.1.1 Referências geográficas e geodésicas Os dados foram importados têm as seguintes características geográficas e geodésicas: coordenada inicial (X): -43,5007500000, coordenada inicial (Y): -15,0000000070, coordenada final (X): -35,1114879476, coordenada final (Y): -2.7223135722, projeção: LatLong, datum: SAD69, unidade: graus decimais, escala: 1,000000e+000, hemisfério: Sul, número de polígonos: 16490 e número de linhas: 10994. 2.1.2 Classes definidas Os dados foram classificados em 4 níveis (classe 1, classe 2, sub-classe 1 e sub-classe 2) de acordo com o Manual técnico de vegetação Brasileira (IBGE, 1992) Como mostra a Tabela 1.0, nem sempre as sub-classes são preenchidas. Tabela 1.0 EXEMPLO DE CLASSIFICAÇÃO DE VEGETAÇÃO CLASSE 1 CLASSE 2 SUB-CLASSE 1 SUB-CLASSE 2 Ag_Ta_Pa Ta_Td_Ag TN_Ag Ag_Td Td_Ta_Ag Corpos d'água Ag Ta TN Ag Td Corpos d'água Ta Td Ag Td Ta - Pa Ag Ag - A combinação da classe 2, sub-classe 1 e sub-classe 2 dá origem a 85 classes diferentes (classe 1). Para fins de mineração de dados e melhor visualização dos resultados, foi criado um nível acima de abstração ( denominada classe 0) reduzindo-se para 12 classes diferentes, conforme a Tabela 2.0. Tabela 2.0 – CLASSIFICAÇÃO DAS REGIÕES FITOECOLÓGICAS CLASSE 0 FOD FOA FES FED CLASSE Floresta Ombrófila Densa Floresta Ombrófila Aberta Floresta Estacional Semidecidual Floresta Estacional Decidual SAV Savana SES Savana Estépica (Caatinga) AFP Áreas das Formações Pioneiras ATE Áreas de Tensão Ecológica RVE AAN Refúgios Vegetacionais Áreas Antrópicas TIP c_agua Tipos de terreno Corpos_d’água SUB-CLASSE Floresta Ombrófila Densa Submontana Floresta Ombrófila Aberta Submontana Floresta Estacional Semidecidual das Terras Baixas Floresta Estacional Decidual das Terras Baixas Floresta Estacional Decidual Submontana Floresta Estacional Decidual Montana Savana Florestada Savana Arborizada Savana Parque Savana Gramíneo-Lenhosa Savana Estépica Florestada Savana Estépica Arborizada Savana Estépica Parque Savana Estépica Gramíneo-Lenhosa Formação Pioneira com influência marinha Formação Pioneira com influência flúvio-marinha Formação Pioneira com influência fluvial e/ou lacustre Savana Floresta Estacional Savana Estépica – Floresta Estacional Savana Savana Estépica Savana/Savana Estépica/Floresta Estacional Refúgio Montano Vegetação Secundária Agropecuária Influência urbana Indiscriminadas Dunas Corpos d’água Sub Ds As Fb Cb Cs Cm Sd Sa Sp Sg Td Ta Tp Tg Pm Pf Pa SN TN ST STN rm Vs Ag Iu Ai Dun c_agua 2.2 PREPARAÇÃO DOS DADOS Os dados passaram por um processo de Descoberta de Conhecimento em Base de Dados (DCBD) (FAYYAD et al., 1996). Para esta finalidade foram utilizados os programas: Matlab, Weka e TerraView/GeoDMA (KORTING et al., 2009). Utilizou-se o programa TerraView para criar a matriz de proximidade que apura e registra numa tabela da base de dados todos os vizinhos de cada polígono. E a API (Application Programming Interface - Interface de Programação de Aplicações) GeoDMA foi utilizada na preparação de dados para a geração de atributos e métricas da ecologia da paisagem (radius of gyration, fractal dimension index, related circumscribing circle, shape índex, contagion índex e outros) (MCGARIGAL & MARKS, 1994). Após a criação da matriz de proximidade, foi utilizada a linguagem de banco de dados Structured Query Language (SQL) para consultar e recuperar os dados das tabelas de vegetação (regiões) e de vizinhança (Figura 2.0). Essa consulta atingiu o número de 38978 linhas. Figura 2.0 – Consulta às tabelas de vegetação e vizinhança da base de dados Para efeito de processamento e mineração de dados, optou-se por escolher uma área um pouco menor e foram acrescentados filtros nas cláusulas da consulta SQL. Foi feito um filtro sobre as latitudes e longitudes e foram selecionadas as regiões que tinham os seus centróides entre -38 e -41 graus de longitude e entre -11 e -5 graus de latitude, obtendose a área em destaque na Figura 3.0. O resultado da consulta foi de 10048 linhas. Figura 3.0 – Imagem do programa TerraView em que aparece no centro a região selecionada para o trabalho entre -38 e -41 graus de longitude e entre -11 e -5 graus de latitude 2.2.1 Análise inicial de correlações Num conjunto de dados com um número de variáveis em torno de 23, tornou-se necessário fazer uma análise inicial das correlações dessas variáveis. Diversas variáveis correlacionadas não contribuem no resultado do modelo, além de aumentar a complexidade de processamento para os algoritmos. A análise foi realizada com o auxílio do programa PASW 18 Statistics Release 18.0.0 e foi observado que diversos atributos tem uma correlação alta ( > 0,8) e alguns desses atributos e a significância (*,**) são mostrados na Tabela 3.0 abaixo. Tabela 3.0 Correlação entre os Atributos AREA 1 ,861** -.014 AREA gyration_radius P_Angle p_area p_box_area ** ,998 ** ,915 p_area ,998** ,862** -.013 p_box_area ,915** ,906** -,022* 1 ** ,917 ,917 1 ** 2.2.2 Seleção de atributos (PCA) O objetivo principal da análise do Principal Component Analysis (PCA) é a obtenção de um pequeno número de combinações lineares (componentes principais) de um conjunto de variáveis, que retenham o máximo possível da informação contida nas variáveis originais. Os atributos da base de dados foram avaliados utilizando o PCA e foi feita uma classificação em ordem do componente mais explicativo para o menos explicativo como mostra a Tabela 4.0. Tabela 4.0 Classificação dos Componentes (PCA) CLASSIF. 1 2 3 4 AUTOVALOR 0.4655 0.3077 0.2105 0.1302 COMPONENTE (COMBINAÇÃO LINEAR) -0.355p_frac+0.352p_perim+0.35 p_width+0.35 p_box_A+0.349p_gyra 0.491p_ellip-0.481p_circle+0.473p_rect+0.328p_Angle-0.268p_shape_i -0.763p_perim_A-0.485p_shape_i-0.304p_Angle-0.256p_ellip+0.067p_width -0.665p_Angle+0.418p_rect-0.365p_circle+0.292p_perim_A-0.272p_ellip Os atributos que fazem parte do componente melhor classificado foram utilizados nos algoritmos de classificação, como é descrito em Resultados. 2.3 Abordagens Os dados foram processados para atender as abordagens a seguir descritas e para se adequarem ao formato do programa WEKA utilizado na mineração de dados. 2.3.1 Abordagem 1 Uma das abordagens tem a finalidade de preparar os dados para os algoritmos de classificação supervisionada e não supervisionada de acordo com as definições das Tabelas 1.0 e 2.0. Validação cruzada Os resultados foram avaliados por validação cruzada. A validação cruzada é um método para validar um determinado modelo e consiste em se dividir uma amostra num conjunto de N sub-amostras. Reserva-se uma sub-amostra qualquer para o teste, deixando-se as demais (N-1) amostras para treinamento. O processo se repete alternando a sub-amostra de teste (REZENDE, 2009). Neste trabalho foi adotado o número (N) de 10 sub-amostras. 2.3.2 Abordagem 2 Na segunda abordagem, procurou-se trabalhar com os algoritmos de associação para buscar possíveis padrões nos dados. Esses algoritmos inferem regras de associação que expressam regularidades entre os conjuntos de itens de dados numa base de dados. Ao contrário de classificadores, regras de associação não fazem predição para todos os registros de uma base de dados. Regras de associação não precisam ser perfeitamente acuradas. O algoritmo gera um conjunto de regras no formato A => C onde o conjunto A é chamado de antecedente da regra e o conjunto C é chamado de conseqüente. O cálculo da confiança (Conf) é a razão entre o número de conseqüentes e de antecedentes (Eq. 1.0). (Eq. 1.0) O algoritmo de associação utilizado foi o Apriori proposto por Agrawal (AGRAWAL, R. et al. 1994), com o objetivo de minerar regras associativas em grandes e complexas bases de dados constituindo-se no algoritmo mais difundido em regras associativas. Sendo que a maioria de algoritmos de associação trabalha apenas com atributos nominais (WITTEN; FRANK, 2000), os atributos numéricos foram discretizados e transformados em valores nominais como demonstra a Tabela 5.0. Os atributos de métricas de ecologia da paisagem são calculados pelo programa TerraView com o plugin GeoDMA e seguem basicamente a metodologia do programa FRAGSTATS (MCGARIGAL; MARKS, 1994) e por Silva (SILVA et al., 2008). Tabela 5.0 Valores Nominais para as Métricas MÉTRICA P_CIRCLE P_RECT P_FRAC P_GYRA AREA REGRA P_CIRCLE < 0.2 P_CIRCLE >= 0.2 e P_CIRCLE < 0.4 P_CIRCLE >= 0.8 e P_CIRCLE <= 1.2 P_RECT >= 0.7 P_RECT < 0.7 P_FRAC > 0.9 e P_FRAC < 1.1 P_FRAC > 0.7 e P_FRAC < 0.9 ) ou (P_FRAC >= 1.1 e P_FRAC <= 1.3) (P_FRAC <= 0.7 ou P_FRAC) >= 1.3 ) (P_FRAC > 1.9 e P_FRAC < 2.1) (P_FRAC > 1.7 e P_FRAC <= 1.9 ) ou ( P_FRAC >= 2.1 e P_FRAC < 2.3) P_GYRA <= 0.001 (próximo de 0) P_GYRA > 0.001 AREA <= 530.505837 AREA > 530.505837 & AREA <= 1061.011674 AREA > 1061.011674 & AREA <= 1591.517511 ) AREA > 1591.517511 & AREA <= 2122.023348 AREA > 2122.023348 & AREA <= 2652.529186 AREA > 2652.529186 & AREA <= 3183.035023 AREA > 3183.035023 VALOR NOMINAL ‘circulo’ ‘meioCirculo’ ‘elongado’ 'retangular' 'naoRetangular' 'perimMuitoSimples' 'perimSimples' 'perimNaoDefinido' 'altamenteConvoluto' 'convoluto' 'umaCelula' 'semLimite' 'areaPequena01' 'areaPequena02' 'areaIntermediaria01' 'areaIntermediaria02' 'areaGrande01' 'areaGrande02' 'areaMuitoGrande' A classificação das regiões fitoecológicas em relação às métricas: p_circle, p_rect, p_frac (fractal dimension) e p_gyra (giration radius) é mostrado na Figura 5.0, e as imagens foram geradas pelo programa TerraView por consultas e filtros seguindo as faixas definidas na Tabela 4.0. Algumas seleções não geraram linhas de dados para os valores nominais: círculo, convoluto e altamente convoluto. A grande maioria da classificação é para perímetro não definido. As regiões selecionadas aparecem em amarelo na Figura 4.0. Essas métricas também são definidas por Silva (SILVA et al, 2008). Gyra (radius of gyration) é uma medida da extensão da mancha, influenciada pelo tamanho e compactação da mancha. Para cada pixel r na mancha (ij), é computada a distância dijr do centróide do pixel até o centróide da mancha. Esta distância é então medida pelo número total de pixels n na mancha. O atributo p_circle ou circle (circumscribing circle) se for igual a 0 caracteriza manchas circulares; e próximo a 1 significa manchas alongadas. O atributo p_frac ou frac (fractal dimension index) é utilizado para medir a complexidade da forma: quando se aproxima de 1 caracteriza uma mancha com um perímetro simples semelhantes a quadrados, e próximo de 2 significa formas complexas, perímetros altamente convolutos. (a) (d) (b) (c) (e) (f) Figura 4.0 – (a) elongado (métrica: p_Circle); (b) retangular (métrica: p_rect); c) não retangular (métrica: p_rect); (d) perímetros muito simples (métrica: fractal dimension); (e) perímetro simples (métrica: fractal dimension); (f) perímetro não definido (métrica: fractal dimension) 3. RESULTADOS 3.1 Abordagem 1 A seguir são apresentados os resultados de classificação supervisionada. A classificação não supervisionada foi testada com K-Means, mas foi suprimida deste trabalho, pois os resultados ficaram de difícil interpretação. Sendo ainda que com essa amostra bem representativa e sem outliers com 10048 linhas (instâncias), tornou-se bastante favorável a utilização de treinamento. 3.1.1 Classificação supervisionada De acordo com a definição na Tabela 1.0, primeiramente foi realizada a mineração de dados considerando-se 85 categorias. Conseguiu-se um melhor resultado com RandomTree (93,85%) e os demais resultados são mostrados na Tabela 6.0. Tabela 6.0 – Resultado de Classificação (85 categorias) Algoritmo RandomTree J48 (C4.5) Kstar BayesNet Classif. Correta (instâncias) 9431 8873 7662 6690 Classif. correta (%) 93.8595 88.3061 76.254 66.5804 Classif. incorreta (instâncias) 617 1175 2386 3358 Classif. incorreta (%) 6.1405 11.6939 23.746 33.4196 Kappa RMS TP (%) FP (%) ROC 0.9313 0.869 0.7275 0.6243 0.038 0.047 0.0724 0.0718 0.939 0.883 0.763 0.666 0.007 0.014 0.049 0.042 0.966 0.969 0.964 0.913 Outros algoritmos foram utilizados, mas geraram resultados inferiores aos da Tabela 6.0. Ainda para este caso de 85 categorias, em alguns casos, ocorreu estouro de memória (overflow memory) quando se tentou usar métodos ensemble como RandomForest e Bagging. Os métodos ensemble geram diversos modelos, por isso consomem mais memória do que outros algoritmos, além do que, o programa Weka foi desenvolvido na linguagem Java que não faz economia de memória. Os resultados para True Positive (TP), False Positive (FP) e curva ROC para a classificação de RandomTree são apresentados na Tabela 7.0. Tabela 7.0 - Resultados para todas as classes (85) TP (%) FP (%) ROC Classificação 1 0 1 Ag_Tg 1 0 1 Td_Ag_Ta 1 0 1 Tp 0.351 0.001 0.675 Pa 1 0 1 TN_Vs 1 0 1 Ag_Vs_F 1 0 1 Vs_Ag_Ta 1 0 1 Ag_F_Vs 0.875 0 0.937 Ai 0.216 0.002 0.607 rm Continua... Continuação da Tabela 7.0 TP (%) FP (%) ROC Classificação 1 0 1 STN_Sg 0.84 0 0.92 STN 1 0 1 Ag_Sa 0.792 0 0.896 Sa 0.86 0.001 0.93 STN_Ag 0.96 0 0.98 Ag_STN 1 0 1 Ta_Td_Vs 1 0 1 Vs_Ta 1 0 1 Fb 1 0 1 Fs 1 0 1 Ta_Vs 1 0 1 Ag_Vs_Ta 1 0 1 Ag_TN_Vs 1 0 1 Ag_TN_Pa 0 0 0.5 Fb_Ag 0.981 0 0.99 Ag_SN 1 0 1 Ag_TN_Ta 0.77 0.006 0.882 Iu 0.919 0 0.959 SN 0.931 0.001 0.965 SN_Ag 1 0 1 Tp_Ag_Ta 0.933 0 0.967 Ta_Tp 0.808 0.002 0.903 Ag 0.949 0 0.974 TN 0.971 0.001 0.985 ST_Ag 0.947 0.013 0.967 Ta_Ag 0.955 0.012 0.972 Ag_Ta 0.878 0.003 0.937 c_agua 0 0 ? Ag_Ta_Cs 0.946 0.01 0.968 Ta 0.864 0.003 0.931 Ag_T 0.956 0.001 0.978 Td 0 0 ? Ag_Tn 1 0 1 Ta_Vs_Ag 1 0 1 Ag_Tp_Ta 1 0 1 Ta_Ag_Vs 0.94 0 0.97 Ag_Pa 0.969 0 0.984 Ta_Ag_Td 1 0 1 Tp_Ta 0.935 0 0.967 Ag_Tp Continua... Continuação da Tabela 7.0 TP (%) FP (%) ROC Classificação 1 0 1 Ta_Ag_Tp 0.974 0.001 0.987 Ag_Ta_Tp 1 0 1 TN_Ta_Ag 1 0 1 Tp_Ag_Pa 0.941 0 0.971 Ag_Ta_Td 0.966 0 0.983 Tp_Ag 0.986 0 0.993 Ta_Tp_Ag 0.944 0 0.972 Tp_Pa_Ag 1 0 1 Ta_Pa_Ag 0.941 0 0.97 Pa_Ag 1 0 1 Pa_Ta_Ag 0.786 0 0.893 Ta_Ag_Pa 0 0 ? Ag_Vs_Tn 0.962 0.001 0.981 Td_Ta 1 0 1 Ag_Td_Ta 0.867 0 0.933 ST 0 0 ? cdagua 1 0 1 Ag_Ta_Pa 0 0 0.5 Ag_P 0.964 0.001 0.981 Td_Ag 0 0 0.5 Vs_Ag 0.75 0 0.875 Ag_Vs 0.966 0 0.983 Tp_Ta_Ag 0.926 0.001 0.963 Ag_TN 0 0 ? Ag_Vs_TN 0.89 0.001 0.945 Ag_ST 0.954 0.002 0.976 Ag_Td 0 0 ? Fs_Vs_Ag 0.959 0.001 0.979 TN_Ag 0.981 0.001 0.99 Ta_Td_Ag 0.971 0 0.985 Ta_Td 1 0 1 Ag_Ta_Vs 0.967 0 0.983 Td_Ta_Ag 1 0 1 Pa_Ag_Ta 1 0 1 Ag_Pa_Ta Para o caso de 12 categorias, o melhor resultado de classificação foi para a árvore de decisão: RandomForest. Como aparece na Tabela 8.0, com o Random Forest o acerto foi de 95,8101%. Outras árvores de decisão (CART, J48) tiveram um resultado inferior. Tabela 8.0 Resultados das classificações por algoritmo (12 categorias) Algoritmo Random forest Kstar Random Tree J48 (C4.5) Simple CART BayesNet MLPCS Classif. Correta (instâncias) 9627 9586 9583 9353 9286 7409 5782 Classif. correta (%) 95.8101 95.4021 95.3722 93.083 92.4164 73.7361 57.543 Classif. incorreta (instâncias) 421 462 465 695 762 2639 4266 Classif. incorreta (%) 4.189 4.5979 4.6278 6.9168 7.5836 26.2639 42.4562 Kappa RMS TP (%) FP (%) ROC 0.93 0.9236 0.9231 0.8846 0.8732 0.5684 0.229 0.089 0.107 0.1074 0.1241 0.1285 0.2189 0.255 0.958 0.954 0.954 0.931 0.924 0.737 0.575 0.029 0.028 0.028 0.044 0.049 0.161 0.37 0.991 0.964 0.963 0.969 0.969 0.896 0.674 5070 50.4578 4978 49.5422 0.0178 0.3016 0.505 0.489 0.523 20 hidden Layers SMO O algoritmo Random Forest é uma combinação de predições de diversas árvores em que cada árvore depende dos valores de um vetor independente, amostrados aleatoriamente e com a mesma distribuição para todas as árvores da floresta. Floresta é o que se denomina para uma série de árvores de decisão. Após a geração de um grande número de árvores, são eleitas as classes com maior número de votos (BREIMAN, 2001). A Tabela 9.0 mostra o resultado da matriz de confusão para o algoritmo Random Forest. Pode-se observar que para classes com um número pequeno de amostras, o acerto foi menor, é o caso de FES (Floresta Estacional Semidecidual) e RVE (Refúgios Vegetacionais). Também pela matriz de confusão, observa-se que para as demais classes o acerto foi alto. Tabela 9.0 Matriz de Confusão da Classificação de RandomForest a 7 0 0 0 3 0 0 0 b c d 0 1 0 21 2 0 0 4882 4 0 9 58 0 24 0 1 136 3 1 5 0 1 13 1 e f 2 4 0 0 4 97 0 12 600 13 9 3663 1 18 3 29 g 0 0 0 0 0 2 9 0 h 0 1 2 3 5 9 3 387 classes a = FES b = SAV c = SES d = AFP e = ATE f = AAN g = RVE h = c_agua Os algoritmos KStar que utiliza funções de distância baseado na entropia (CLEARY & TRIGG, 1995) e Random Tree (utiliza processos estocásticos) também tiveram uma performance próxima ao de Random Forest, em torno de 95%. J48 (versão da C4.5 de Quinlan) e SimpleCart o acerto diminuiu para 93.083 % e 92.4164 % respectivamente. Nos demais algoritmos a queda de acerto foi mais acentuada: BayesNet com 73.736 %, MultilayerPerceptronCS( MLPCS: 20 camadas escondidas e 500 iterações) com 57.543 % e finalmente, SMO, baseado em Support Vector Machine (PLATT, 1998) com apenas 50.457 % de acerto. 3.2 Abordagem 2 – Valores nominais O algoritmo Apriori gerou 100 regras de associação, algumas delas bastante óbvias, e outras que parecem ter relevância para estudo e discussão foram selecionadas e são mostradas na Tabela 10.0. Tabela 11.0 Regras de associação Num. 01 02 03 ANTECEDENTE clas_0=SES frac=perimNaoDefinido area=areaPequena01 2151 clas_0=SES frac=perimSimples gyra=semLimite 1582 clas_0=AAN frac=perimNaoDefinido area=areaPequena01 1599 CONSEQUENTE gyra=semLimite 2150 area=areaPequena01 1575 gyra=semLimite 1598 CONF. 1.0 0.99 1.0 Para a obtenção das regras 02 e 03 da Tabela 8.0, o atributo p_rect foi suprimido, pois a sua presença nos dados influenciou resultados óbvios devido à redundância de informações. A interpretação da regra 03 é feita presumindo que há 1599 casos de ocorrência para a classe AAN (Áreas Antrópicas), com o índice de dimensão fractal: perímetro não definido e área pequena (<= 530.505837 m2) e tendo como 1598 casos como conseqüente: gyration of radius (sem limite) (P_GYRA > 0.001). Não se conseguiu inferir alguma influência sobre vizinhanças, apesar de que os dados foram preparados para isto, quando se criou a matriz de proximidade (procedimento descrito na Seção 2.2). 4. DISCUSSÕES E COMENTÁRIOS Na primeira abordagem proposta, este trabalho aplicou uma metodologia de mineração de dados para fazer a classificação de vegetação, segundo o IBGE. Neste resultado, a metodologia foi capaz de fazer acertos de ~93% quando utilizou 85 categorias e o acerto foi de ~95% quando utilizou 12 categorias. Para ambos os casos, apenas 5 métricas de ecologia da paisagem como variáveis independentes. A utilização de apenas 5 métricas de ecologia da paisagem reduz a complexidade computacional, facilita a compreensão e interpretação da árvore e não perde em acurácia. O classificador Random Forest (que melhor classificou) faz parte de um paradigma bastante em voga atualmente em mineração de dados e reconhecimento de padrões que utiliza os métodos ensemble. Os métodos ensemble trabalham com conjuntos de modelos, em que os dados são arranjados aleatoriamente, dentro de uma distribuição conhecida. Os dados são classificados, na maioria das vezes, através da apuração das classes mais votadas. O algoritmo RandomForest costuma produzir resultados altamente precisos para muitos conjuntos de dados e ainda tem uma performance bastante rápida. Na segunda abordagem, foram procuradas regras entre áreas antrópicas e as regiões fitoecológicas com algoritmos de associação. Os resultados não foram conclusivos. A aplicação desta metodologia precisaria ser revista e discutida mais profundamente com especialistas em classificação de vegetação. Por falta de dados (alterações no decorrer do tempo, séries temporais) não foi possível verificar dinamicamente, a influência de áreas antrópicas sobre a vegetação e inferir possíveis mudanças futuras. 5. REFERÊNCIAS AGRAWAL, R.; SIRIKANT, R. Fast algorithms for mining association rules. In:, VLDB CONFERENCE, 20., 1994, Santiago, Chile. Proceedings… Santiago: Morgan Kaufmann, 1994. p. 487-499. BREIMAN, L. (2001). "Random Forests". Machine Learning 45 (1): 5–32. doi:10.1023/A:1010933404324. CLEARY, J.G., TRIGG, L.E. K*: An Instance-based Learner Using an Entropic Distance Measure. In: 12th International Conference on Machine Learning, 108-114, 1995. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMITH, P. The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communication of the ACM, v. 39, n. 11, p. 27-34, 1996. HAN, J.; KAMBER, M. Data mining concepts and techniques. San Franscisco: Academic Press, 2001, 548 p. Instituto Brasileiro de Geografia Estatística Manual técnico de vegetação brasileira, Rio de Janeiro, 1992. 92 p. KORTING, T. S. et al, GeoDMA – Um sistema para mineração de dados de sensoriamento remoto. SBSR - Brazilian Remote Sensing Symposium (2009). SILVA, M.; CAMARA, G.; ESCADA, M.I.S.; SOUZA, R.C.M. Remote-sensing image mining: detecting agents of land-use in tropical forest areas – International Journal of Remote Sensing – V. 29, 2008 MCGARIGAL, K.; MARKS, B. Fragstats – Spatial Pattern Analysis Program for Quantifying Landscape Structure. Version 2.0. 1994. PLATT, J. Fast Training of Support Vector Machines using Sequential Minimal Optimization. In B. Schoelkopf and C. Burges and A. Smola, editors, Advances in Kernel Methods - Support Vector Learning, 1998. RELATÓRIO FINAL - PROBIO - Projeto de Conservação e Utilização Sustentável da Diversidade Biológica Brasileira – Subprojeto: Levantamento da Cobertura Vegetal e do Uso do Solo do Bioma Caatinga (2007) - Ministério do Meio Ambiente (MMA) REZENDE, L. F. C., Mineração de Dados Aplicada à Análise e Predição de Cintilação Ionosférica. Dissertação. INPE, Brasil. 2009. VIEIRA, R. M. S.P.; CARVALHO, V.C.; ALVALÁ, R.C.S.; MELLO, E.M.K.; NETO, F. Melhorias no mapeamento do uso da terra da região Nordeste do Brasil para utilização em modelos meteorológicos e hidrológicos. Anais XIII Simpósio Brasileiro de Sensoriamento Remoto, Florianópolis, Brasil, 21-26 abril 2007, INPE, p. 1923-1930. WITTEN, I.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. [S.l.]: Morgan Kaufmann, 2000.