ANÁLISE DA COBERTURA VEGETAL DA CAATINGA

Propaganda
ANÁLISE DA COBERTURA VEGETAL DA CAATINGA UTILIZANDO
TÉCNICAS DE MINERAÇÃO DE DADOS
LUIZ FELIPE CAMPOS DE REZENDE
CST-312 Padrões e Processos em Dinâmica de Uso e Cobertura da Terra
RESUMO
A partir de dados da região do Bioma Caatinga, este trabalho utiliza técnicas de
mineração de dados para estudar a classificação de vegetação segundo o Manual técnico
do IBGE. Uma metodologia foi aplicada e com apenas algumas métricas de ecologia da
paisagem foi possível realizar a classificação. Como resultado preliminar obteve-se um
acerto em torno de 95% num nível mais alto de classificação e 93% para classes mais
completas que incluem as sub-classes. Aplicou-se uma segunda metodologia com
algoritmos de associação com a finalidade de encontrar regras entre as diversas
classificações vegetais e a ação antrópica na região da Caatinga. Esta segunda
metodologia precisaria ser revista com o auxílio de especialistas em classificação de
vegetação para reavaliar a definição de variáveis e as regras resultantes.
1. INTRODUÇÃO
O Bioma Caatinga é muito importante do ponto de vista biológico por apresentar fauna
e flora únicas, formada por uma vasta biodiversidade, rica em recursos genéticos e de
vegetação constituída por espécies lenhosas, herbáceas, cactáceas e bromeliáceas.
Estima-se que pelo menos 932 espécies já foram registradas para a região, das quais 380
são endêmicas.
Dentre os biomas brasileiros, a Caatinga é o menos conhecido cientificamente e vem
sendo tratado com baixa prioridade, apesar de ser um dos mais ameaçados, devido ao
uso inadequado e insustentável dos seus solos e recursos naturais, e por ter cerca de 1%
de remanescentes protegidos por unidades de conservação.
A Caatinga que se estende por quase todos os estados do Nordeste e parte de Minas
Gerais, parte do Espírito Santo, e cobre 9,92% do território nacional. Segundo o IBGE
(2004), a área é de 844.453 km2, e está situada entre os paralelos 3° e 17°S e
meridianos 35° e 45°W.
Na região Nordeste, os solos assumem uma grande variação. Os solos de maior
fertilidade natural e com melhor potencial de utilização agrícola situam-se em áreas
calcárias do embasamento cristalino e em faixas de deposição aluvial. Os solos
localizados na zona do agreste apresentam maior teor de umidade (precipitação: 600 a
800 mm anuais), especialmente, na faixa limite com a zona úmida costeira, nos sopés
das grandes chapadas e dos planaltos. A vegetação no agreste é a caatinga hipoxerófila
de porte arbóreo arbustivo mais ou menos denso. Na região de semi-árido acentuado, a
agricultura quase não existe devido aos longos períodos de estiagem (precipitação: 400
a 600 mm anuais) e a vegetação é a caatinga hiperxerófila com predomínio de espécies
mais adaptadas à seca e com maior número de cactáceas que na caatinga hipoxerófila
(VIEIRA et al., 2007).
Mineração de dados é definida como o processo de descobrir padrões em dados. Padrão
pode ser definido como um evento/característica ou combinação de eventos numa base
de dados que ocorrem com maior freqüência. Padrões quando descobertos, podem
permitir que se faça predições acuradas sobre dados futuros. Assim, os padrões quando
são descobertos devem ser significativos e trazer uma nova informação sobre o que os
dados representam. O objetivo de mineração de dados é descobrir conhecimento novo
oculto em grandes bases de dados. O processo pode ser automático ou (mais
usualmente) semi-automático (HAN, KAMBER, 2001) (WITTEN, FRANK, 2000).
Mineração de dados é considerada uma área multidisciplinar que envolve
reconhecimento de padrões, inteligência artificial, bancos de dados, sistemas
distribuídos, estatística, matemática, aprendizado de máquina e visualização de dados.
O trabalho se baseia em dados e no relatório do projeto PROBIO (Projeto de
Conservação e Utilização Sustentável da Diversidade Biológica Brasileira) –
Subprojeto: Levantamento da Cobertura Vegetal e do Uso do Solo do Bioma Caatinga
(Relatório Final PROBIO, 2007) apoiado pelo Ministério do Meio Ambiente (MMA).
Utiliza-se as diversas classificações de vegetação (IBGE, 1992) contidas no relatório
como Savana-Estépica florestada, Savana-Estépica arborizada com agricultura, áreas de
tensão ecológica, Savana Florestada (Cerradão), Savana Arborizada (Campo-cerrado),
Savana Parque (Campo-sujo), Savana Gramíneo-lenhosa (Campo-limpo) etc.
2. METODOLOGIA
2.1 DADOS UTILIZADOS
Foram utilizados dados das regiões fitoecológicas do bioma Caatinga que foram obtidos
no
portal
do
Ministério
do
Meio
Ambiente
em:
http://mapas.mma.gov.br/geonetwork/srv/br/main.home do PROBIO - Subprojeto:
Levantamento da Cobertura Vegetal e do Uso do Solo do Bioma Caatinga. Alem do
Ministério do Meio Ambiente, este projeto envolve diversas instituições de fomento e
pesquisa brasileiras. Entre os principais objetivos do subprojeto pode-se citar: produzir
o mapa dos remanescentes da cobertura vegetal e do uso das terras do bioma caatinga
(escala 1:250.000), com caracterização básica das diversas tipologias vegetais definidas;
consolidar as iniciativas existentes de mapeamento do bioma; elaborar mapas de
remanescentes de cobertura vegetal do bioma a partir de imagens de satélite; integrar e
compatibilizar o mapa, os dados de campo e os produtos resultantes do processamento
das imagens de satélite; promover a divulgação de resultados. Os dados podem ser
acessados no link: http://mapas.mma.gov.br/mapas/aplic/probio/datadownload.htm. E
esses dados estão nos formatos DBF, SHP e SHX. Eles foram importados para o
TerraView versão 3.5.0 (Figura 1.0) e para o Sistema de Gerenciamento de Banco de
Dados: Access, da Microsoft. Uma das tabelas principais (vegetação.dbf) contém
10.994 linhas. Em princípio, para a realização deste trabalho, considerou-se todos os
estados que compõem a Caatinga (região Nordeste, Minas Gerais e Espírito Santo). No
decorrer do trabalho uma restrição foi realizada e reduziu-se a área de estudo (explica-se
na Seção 2.2).
Figura 1.0 – Dados importados para o TerraView 3.5.0
2.1.1 Referências geográficas e geodésicas
Os dados foram importados têm as seguintes características geográficas e geodésicas:
coordenada inicial (X): -43,5007500000, coordenada inicial (Y): -15,0000000070,
coordenada final (X): -35,1114879476, coordenada final (Y): -2.7223135722, projeção:
LatLong, datum: SAD69, unidade: graus decimais, escala: 1,000000e+000, hemisfério:
Sul, número de polígonos: 16490 e número de linhas: 10994.
2.1.2 Classes definidas
Os dados foram classificados em 4 níveis (classe 1, classe 2, sub-classe 1 e sub-classe 2)
de acordo com o Manual técnico de vegetação Brasileira (IBGE, 1992) Como mostra a
Tabela 1.0, nem sempre as sub-classes são preenchidas.
Tabela 1.0 EXEMPLO DE CLASSIFICAÇÃO DE VEGETAÇÃO
CLASSE 1
CLASSE 2
SUB-CLASSE 1
SUB-CLASSE 2
Ag_Ta_Pa
Ta_Td_Ag
TN_Ag
Ag_Td
Td_Ta_Ag
Corpos d'água
Ag
Ta
TN
Ag
Td
Corpos d'água
Ta
Td
Ag
Td
Ta
-
Pa
Ag
Ag
-
A combinação da classe 2, sub-classe 1 e sub-classe 2 dá origem a 85 classes diferentes
(classe 1).
Para fins de mineração de dados e melhor visualização dos resultados, foi criado um
nível acima de abstração ( denominada classe 0) reduzindo-se para 12 classes diferentes,
conforme a Tabela 2.0.
Tabela 2.0 – CLASSIFICAÇÃO DAS REGIÕES FITOECOLÓGICAS
CLASSE 0
FOD
FOA
FES
FED
CLASSE
Floresta Ombrófila Densa
Floresta Ombrófila Aberta
Floresta Estacional Semidecidual
Floresta Estacional Decidual
SAV
Savana
SES
Savana Estépica (Caatinga)
AFP
Áreas das Formações Pioneiras
ATE
Áreas de Tensão Ecológica
RVE
AAN
Refúgios Vegetacionais
Áreas Antrópicas
TIP
c_agua
Tipos de terreno
Corpos_d’água
SUB-CLASSE
Floresta Ombrófila Densa Submontana
Floresta Ombrófila Aberta Submontana
Floresta Estacional Semidecidual das Terras Baixas
Floresta Estacional Decidual das Terras Baixas
Floresta Estacional Decidual Submontana
Floresta Estacional Decidual Montana
Savana Florestada
Savana Arborizada
Savana Parque
Savana Gramíneo-Lenhosa
Savana Estépica Florestada
Savana Estépica Arborizada
Savana Estépica Parque
Savana Estépica Gramíneo-Lenhosa
Formação Pioneira com influência marinha
Formação Pioneira com influência flúvio-marinha
Formação Pioneira com influência fluvial e/ou
lacustre
Savana Floresta Estacional
Savana Estépica – Floresta Estacional
Savana Savana Estépica
Savana/Savana Estépica/Floresta Estacional
Refúgio Montano
Vegetação Secundária
Agropecuária
Influência urbana
Indiscriminadas
Dunas
Corpos d’água
Sub
Ds
As
Fb
Cb
Cs
Cm
Sd
Sa
Sp
Sg
Td
Ta
Tp
Tg
Pm
Pf
Pa
SN
TN
ST
STN
rm
Vs
Ag
Iu
Ai
Dun
c_agua
2.2 PREPARAÇÃO DOS DADOS
Os dados passaram por um processo de Descoberta de Conhecimento em Base de
Dados (DCBD) (FAYYAD et al., 1996). Para esta finalidade foram utilizados os
programas: Matlab, Weka e TerraView/GeoDMA (KORTING et al., 2009).
Utilizou-se o programa TerraView para criar a matriz de proximidade que apura e
registra numa tabela da base de dados todos os vizinhos de cada polígono. E a API
(Application Programming Interface - Interface de Programação de Aplicações)
GeoDMA foi utilizada na preparação de dados para a geração de atributos e métricas da
ecologia da paisagem (radius of gyration, fractal dimension index, related
circumscribing circle, shape índex, contagion índex e outros) (MCGARIGAL &
MARKS, 1994).
Após a criação da matriz de proximidade, foi utilizada a linguagem de banco de dados
Structured Query Language (SQL) para consultar e recuperar os dados das tabelas de
vegetação (regiões) e de vizinhança (Figura 2.0). Essa consulta atingiu o número de
38978 linhas.
Figura 2.0 – Consulta às tabelas de vegetação e vizinhança da base de dados
Para efeito de processamento e mineração de dados, optou-se por escolher uma área um
pouco menor e foram acrescentados filtros nas cláusulas da consulta SQL. Foi feito um
filtro sobre as latitudes e longitudes e foram selecionadas as regiões que tinham os seus
centróides entre -38 e -41 graus de longitude e entre -11 e -5 graus de latitude, obtendose a área em destaque na Figura 3.0. O resultado da consulta foi de 10048 linhas.
Figura 3.0 – Imagem do programa TerraView em que aparece no centro a região selecionada
para o trabalho entre -38 e -41 graus de longitude e entre -11 e -5 graus de latitude
2.2.1 Análise inicial de correlações
Num conjunto de dados com um número de variáveis em torno de 23, tornou-se
necessário fazer uma análise inicial das correlações dessas variáveis. Diversas variáveis
correlacionadas não contribuem no resultado do modelo, além de aumentar a
complexidade de processamento para os algoritmos. A análise foi realizada com o
auxílio do programa PASW 18 Statistics Release 18.0.0 e foi observado que diversos
atributos tem uma correlação alta ( > 0,8) e alguns desses atributos e a significância
(*,**) são mostrados na Tabela 3.0 abaixo.
Tabela 3.0 Correlação entre os Atributos
AREA
1
,861**
-.014
AREA
gyration_radius
P_Angle
p_area
p_box_area
**
,998
**
,915
p_area
,998**
,862**
-.013
p_box_area
,915**
,906**
-,022*
1
**
,917
,917
1
**
2.2.2 Seleção de atributos (PCA)
O objetivo principal da análise do Principal Component Analysis (PCA) é a obtenção de
um pequeno número de combinações lineares (componentes principais) de um conjunto
de variáveis, que retenham o máximo possível da informação contida nas variáveis
originais.
Os atributos da base de dados foram avaliados utilizando o PCA e foi feita uma
classificação em ordem do componente mais explicativo para o menos explicativo como
mostra a Tabela 4.0.
Tabela 4.0 Classificação dos Componentes (PCA)
CLASSIF.
1
2
3
4
AUTOVALOR
0.4655
0.3077
0.2105
0.1302
COMPONENTE (COMBINAÇÃO LINEAR)
-0.355p_frac+0.352p_perim+0.35 p_width+0.35 p_box_A+0.349p_gyra
0.491p_ellip-0.481p_circle+0.473p_rect+0.328p_Angle-0.268p_shape_i
-0.763p_perim_A-0.485p_shape_i-0.304p_Angle-0.256p_ellip+0.067p_width
-0.665p_Angle+0.418p_rect-0.365p_circle+0.292p_perim_A-0.272p_ellip
Os atributos que fazem parte do componente melhor classificado foram utilizados nos
algoritmos de classificação, como é descrito em Resultados.
2.3 Abordagens
Os dados foram processados para atender as abordagens a seguir descritas e para se
adequarem ao formato do programa WEKA utilizado na mineração de dados.
2.3.1 Abordagem 1
Uma das abordagens tem a finalidade de preparar os dados para os algoritmos de
classificação supervisionada e não supervisionada de acordo com as definições das
Tabelas 1.0 e 2.0.
Validação cruzada
Os resultados foram avaliados por validação cruzada. A validação cruzada é um método
para validar um determinado modelo e consiste em se dividir uma amostra num
conjunto de N sub-amostras. Reserva-se uma sub-amostra qualquer para o teste,
deixando-se as demais (N-1) amostras para treinamento. O processo se repete
alternando a sub-amostra de teste (REZENDE, 2009). Neste trabalho foi adotado o
número (N) de 10 sub-amostras.
2.3.2 Abordagem 2
Na segunda abordagem, procurou-se trabalhar com os algoritmos de associação para
buscar possíveis padrões nos dados. Esses algoritmos inferem regras de associação que
expressam regularidades entre os conjuntos de itens de dados numa base de dados. Ao
contrário de classificadores, regras de associação não fazem predição para todos os
registros de uma base de dados. Regras de associação não precisam ser perfeitamente
acuradas. O algoritmo gera um conjunto de regras no formato A => C onde o conjunto
A é chamado de antecedente da regra e o conjunto C é chamado de conseqüente. O
cálculo da confiança (Conf) é a razão entre o número de conseqüentes e de antecedentes
(Eq. 1.0).
(Eq. 1.0)
O algoritmo de associação utilizado foi o Apriori proposto por Agrawal (AGRAWAL,
R. et al. 1994), com o objetivo de minerar regras associativas em grandes e complexas
bases de dados constituindo-se no algoritmo mais difundido em regras associativas.
Sendo que a maioria de algoritmos de associação trabalha apenas com atributos
nominais (WITTEN; FRANK, 2000), os atributos numéricos foram discretizados e
transformados em valores nominais como demonstra a Tabela 5.0. Os atributos de
métricas de ecologia da paisagem são calculados pelo programa TerraView com o
plugin GeoDMA e seguem basicamente a metodologia do programa FRAGSTATS
(MCGARIGAL; MARKS, 1994) e por Silva (SILVA et al., 2008).
Tabela 5.0 Valores Nominais para as Métricas
MÉTRICA
P_CIRCLE
P_RECT
P_FRAC
P_GYRA
AREA
REGRA
P_CIRCLE < 0.2
P_CIRCLE >= 0.2 e P_CIRCLE < 0.4
P_CIRCLE >= 0.8 e P_CIRCLE <= 1.2
P_RECT >= 0.7
P_RECT < 0.7
P_FRAC > 0.9 e P_FRAC < 1.1
P_FRAC > 0.7 e P_FRAC < 0.9 )
ou (P_FRAC >= 1.1 e P_FRAC <= 1.3)
(P_FRAC <= 0.7 ou P_FRAC) >= 1.3 )
(P_FRAC > 1.9 e P_FRAC < 2.1)
(P_FRAC > 1.7 e P_FRAC <= 1.9 ) ou
( P_FRAC >= 2.1 e P_FRAC < 2.3)
P_GYRA <= 0.001 (próximo de 0)
P_GYRA > 0.001
AREA <= 530.505837
AREA > 530.505837 & AREA <= 1061.011674
AREA > 1061.011674 & AREA <= 1591.517511 )
AREA > 1591.517511 & AREA <= 2122.023348
AREA > 2122.023348 & AREA <= 2652.529186
AREA > 2652.529186 & AREA <= 3183.035023
AREA > 3183.035023
VALOR NOMINAL
‘circulo’
‘meioCirculo’
‘elongado’
'retangular'
'naoRetangular'
'perimMuitoSimples'
'perimSimples'
'perimNaoDefinido'
'altamenteConvoluto'
'convoluto'
'umaCelula'
'semLimite'
'areaPequena01'
'areaPequena02'
'areaIntermediaria01'
'areaIntermediaria02'
'areaGrande01'
'areaGrande02'
'areaMuitoGrande'
A classificação das regiões fitoecológicas em relação às métricas: p_circle, p_rect,
p_frac (fractal dimension) e p_gyra (giration radius) é mostrado na Figura 5.0, e as
imagens foram geradas pelo programa TerraView por consultas e filtros seguindo as
faixas definidas na Tabela 4.0. Algumas seleções não geraram linhas de dados para os
valores nominais: círculo, convoluto e altamente convoluto. A grande maioria da
classificação é para perímetro não definido. As regiões selecionadas aparecem em
amarelo na Figura 4.0.
Essas métricas também são definidas por Silva (SILVA et al, 2008). Gyra (radius of
gyration) é uma medida da extensão da mancha, influenciada pelo tamanho e
compactação da mancha. Para cada pixel r na mancha (ij), é computada a distância dijr
do centróide do pixel até o centróide da mancha. Esta distância é então medida pelo
número total de pixels n na mancha. O atributo p_circle ou circle (circumscribing
circle) se for igual a 0 caracteriza manchas circulares; e próximo a 1 significa manchas
alongadas. O atributo p_frac ou frac (fractal dimension index) é utilizado para medir a
complexidade da forma: quando se aproxima de 1 caracteriza uma mancha com um
perímetro simples semelhantes a quadrados, e próximo de 2 significa formas complexas,
perímetros altamente convolutos.
(a)
(d)
(b)
(c)
(e)
(f)
Figura 4.0 – (a) elongado (métrica: p_Circle); (b) retangular (métrica: p_rect); c) não retangular (métrica:
p_rect); (d) perímetros muito simples (métrica: fractal dimension); (e) perímetro simples (métrica: fractal
dimension); (f) perímetro não definido (métrica: fractal dimension)
3. RESULTADOS
3.1 Abordagem 1
A seguir são apresentados os resultados de classificação supervisionada. A classificação
não supervisionada foi testada com K-Means, mas foi suprimida deste trabalho, pois os
resultados ficaram de difícil interpretação. Sendo ainda que com essa amostra bem
representativa e sem outliers com 10048 linhas (instâncias), tornou-se bastante
favorável a utilização de treinamento.
3.1.1 Classificação supervisionada
De acordo com a definição na Tabela 1.0, primeiramente foi realizada a mineração de
dados considerando-se 85 categorias. Conseguiu-se um melhor resultado com
RandomTree (93,85%) e os demais resultados são mostrados na Tabela 6.0.
Tabela 6.0 – Resultado de Classificação (85 categorias)
Algoritmo
RandomTree
J48 (C4.5)
Kstar
BayesNet
Classif.
Correta
(instâncias)
9431
8873
7662
6690
Classif.
correta
(%)
93.8595
88.3061
76.254
66.5804
Classif.
incorreta
(instâncias)
617
1175
2386
3358
Classif.
incorreta
(%)
6.1405
11.6939
23.746
33.4196
Kappa
RMS
TP
(%)
FP
(%)
ROC
0.9313
0.869
0.7275
0.6243
0.038
0.047
0.0724
0.0718
0.939
0.883
0.763
0.666
0.007
0.014
0.049
0.042
0.966
0.969
0.964
0.913
Outros algoritmos foram utilizados, mas geraram resultados inferiores aos da Tabela
6.0. Ainda para este caso de 85 categorias, em alguns casos, ocorreu estouro de
memória (overflow memory) quando se tentou usar métodos ensemble como
RandomForest e Bagging. Os métodos ensemble geram diversos modelos, por isso
consomem mais memória do que outros algoritmos, além do que, o programa Weka foi
desenvolvido na linguagem Java que não faz economia de memória.
Os resultados para True Positive (TP), False Positive (FP) e curva ROC para a
classificação de RandomTree são apresentados na Tabela 7.0.
Tabela 7.0 - Resultados para todas as classes (85)
TP (%)
FP (%)
ROC
Classificação
1
0
1
Ag_Tg
1
0
1
Td_Ag_Ta
1
0
1
Tp
0.351
0.001
0.675
Pa
1
0
1
TN_Vs
1
0
1
Ag_Vs_F
1
0
1
Vs_Ag_Ta
1
0
1
Ag_F_Vs
0.875
0
0.937
Ai
0.216
0.002
0.607
rm
Continua...
Continuação da Tabela 7.0
TP (%)
FP (%)
ROC
Classificação
1
0
1
STN_Sg
0.84
0
0.92
STN
1
0
1
Ag_Sa
0.792
0
0.896
Sa
0.86
0.001
0.93
STN_Ag
0.96
0
0.98
Ag_STN
1
0
1
Ta_Td_Vs
1
0
1
Vs_Ta
1
0
1
Fb
1
0
1
Fs
1
0
1
Ta_Vs
1
0
1
Ag_Vs_Ta
1
0
1
Ag_TN_Vs
1
0
1
Ag_TN_Pa
0
0
0.5
Fb_Ag
0.981
0
0.99
Ag_SN
1
0
1
Ag_TN_Ta
0.77
0.006
0.882
Iu
0.919
0
0.959
SN
0.931
0.001
0.965
SN_Ag
1
0
1
Tp_Ag_Ta
0.933
0
0.967
Ta_Tp
0.808
0.002
0.903
Ag
0.949
0
0.974
TN
0.971
0.001
0.985
ST_Ag
0.947
0.013
0.967
Ta_Ag
0.955
0.012
0.972
Ag_Ta
0.878
0.003
0.937
c_agua
0
0
?
Ag_Ta_Cs
0.946
0.01
0.968
Ta
0.864
0.003
0.931
Ag_T
0.956
0.001
0.978
Td
0
0
?
Ag_Tn
1
0
1
Ta_Vs_Ag
1
0
1
Ag_Tp_Ta
1
0
1
Ta_Ag_Vs
0.94
0
0.97
Ag_Pa
0.969
0
0.984
Ta_Ag_Td
1
0
1
Tp_Ta
0.935
0
0.967
Ag_Tp
Continua...
Continuação da Tabela 7.0
TP (%)
FP (%)
ROC
Classificação
1
0
1
Ta_Ag_Tp
0.974
0.001
0.987
Ag_Ta_Tp
1
0
1
TN_Ta_Ag
1
0
1
Tp_Ag_Pa
0.941
0
0.971
Ag_Ta_Td
0.966
0
0.983
Tp_Ag
0.986
0
0.993
Ta_Tp_Ag
0.944
0
0.972
Tp_Pa_Ag
1
0
1
Ta_Pa_Ag
0.941
0
0.97
Pa_Ag
1
0
1
Pa_Ta_Ag
0.786
0
0.893
Ta_Ag_Pa
0
0
?
Ag_Vs_Tn
0.962
0.001
0.981
Td_Ta
1
0
1
Ag_Td_Ta
0.867
0
0.933
ST
0
0
?
cdagua
1
0
1
Ag_Ta_Pa
0
0
0.5
Ag_P
0.964
0.001
0.981
Td_Ag
0
0
0.5
Vs_Ag
0.75
0
0.875
Ag_Vs
0.966
0
0.983
Tp_Ta_Ag
0.926
0.001
0.963
Ag_TN
0
0
?
Ag_Vs_TN
0.89
0.001
0.945
Ag_ST
0.954
0.002
0.976
Ag_Td
0
0
?
Fs_Vs_Ag
0.959
0.001
0.979
TN_Ag
0.981
0.001
0.99
Ta_Td_Ag
0.971
0
0.985
Ta_Td
1
0
1
Ag_Ta_Vs
0.967
0
0.983
Td_Ta_Ag
1
0
1
Pa_Ag_Ta
1
0
1
Ag_Pa_Ta
Para o caso de 12 categorias, o melhor resultado de classificação foi para a árvore de
decisão: RandomForest. Como aparece na Tabela 8.0, com o Random Forest o acerto
foi de 95,8101%. Outras árvores de decisão (CART, J48) tiveram um resultado inferior.
Tabela 8.0 Resultados das classificações por algoritmo (12 categorias)
Algoritmo
Random forest
Kstar
Random Tree
J48 (C4.5)
Simple CART
BayesNet
MLPCS
Classif.
Correta
(instâncias)
9627
9586
9583
9353
9286
7409
5782
Classif.
correta
(%)
95.8101
95.4021
95.3722
93.083
92.4164
73.7361
57.543
Classif.
incorreta
(instâncias)
421
462
465
695
762
2639
4266
Classif.
incorreta
(%)
4.189
4.5979
4.6278
6.9168
7.5836
26.2639
42.4562
Kappa
RMS
TP
(%)
FP
(%)
ROC
0.93
0.9236
0.9231
0.8846
0.8732
0.5684
0.229
0.089
0.107
0.1074
0.1241
0.1285
0.2189
0.255
0.958
0.954
0.954
0.931
0.924
0.737
0.575
0.029
0.028
0.028
0.044
0.049
0.161
0.37
0.991
0.964
0.963
0.969
0.969
0.896
0.674
5070
50.4578
4978
49.5422
0.0178
0.3016
0.505
0.489
0.523
20 hidden Layers
SMO
O algoritmo Random Forest é uma combinação de predições de diversas árvores em que
cada árvore depende dos valores de um vetor independente, amostrados aleatoriamente
e com a mesma distribuição para todas as árvores da floresta. Floresta é o que se
denomina para uma série de árvores de decisão. Após a geração de um grande número
de árvores, são eleitas as classes com maior número de votos (BREIMAN, 2001). A
Tabela 9.0 mostra o resultado da matriz de confusão para o algoritmo Random Forest.
Pode-se observar que para classes com um número pequeno de amostras, o acerto foi
menor, é o caso de FES (Floresta Estacional Semidecidual) e RVE (Refúgios
Vegetacionais). Também pela matriz de confusão, observa-se que para as demais
classes o acerto foi alto.
Tabela 9.0 Matriz de Confusão da Classificação de RandomForest
a
7
0
0
0
3
0
0
0
b
c d
0
1
0
21
2
0
0 4882 4
0
9 58
0
24
0
1 136
3
1
5
0
1
13
1
e
f
2
4
0
0
4
97
0 12
600 13
9 3663
1
18
3
29
g
0
0
0
0
0
2
9
0
h
0
1
2
3
5
9
3
387
classes
a = FES
b = SAV
c = SES
d = AFP
e = ATE
f = AAN
g = RVE
h = c_agua
Os algoritmos KStar que utiliza funções de distância baseado na entropia (CLEARY &
TRIGG, 1995) e Random Tree (utiliza processos estocásticos) também tiveram uma
performance próxima ao de Random Forest, em torno de 95%. J48 (versão da C4.5 de
Quinlan) e SimpleCart o acerto diminuiu para 93.083 % e 92.4164 % respectivamente.
Nos demais algoritmos a queda de acerto foi mais acentuada: BayesNet com 73.736 %,
MultilayerPerceptronCS( MLPCS: 20 camadas escondidas e 500 iterações) com 57.543
% e finalmente, SMO, baseado em Support Vector Machine (PLATT, 1998) com
apenas 50.457 % de acerto.
3.2 Abordagem 2 – Valores nominais
O algoritmo Apriori gerou 100 regras de associação, algumas delas bastante óbvias, e
outras que parecem ter relevância para estudo e discussão foram selecionadas e são
mostradas na Tabela 10.0.
Tabela 11.0 Regras de associação
Num.
01
02
03
ANTECEDENTE
clas_0=SES frac=perimNaoDefinido area=areaPequena01 2151
clas_0=SES frac=perimSimples gyra=semLimite 1582
clas_0=AAN frac=perimNaoDefinido area=areaPequena01 1599
CONSEQUENTE
gyra=semLimite 2150
area=areaPequena01 1575
gyra=semLimite 1598
CONF.
1.0
0.99
1.0
Para a obtenção das regras 02 e 03 da Tabela 8.0, o atributo p_rect foi suprimido, pois a
sua presença nos dados influenciou resultados óbvios devido à redundância de
informações. A interpretação da regra 03 é feita presumindo que há 1599 casos de
ocorrência para a classe AAN (Áreas Antrópicas), com o índice de dimensão fractal:
perímetro não definido e área pequena (<= 530.505837 m2) e tendo como 1598 casos
como conseqüente: gyration of radius (sem limite) (P_GYRA > 0.001). Não se
conseguiu inferir alguma influência sobre vizinhanças, apesar de que os dados foram
preparados para isto, quando se criou a matriz de proximidade (procedimento descrito
na Seção 2.2).
4. DISCUSSÕES E COMENTÁRIOS
Na primeira abordagem proposta, este trabalho aplicou uma metodologia de mineração
de dados para fazer a classificação de vegetação, segundo o IBGE. Neste resultado, a
metodologia foi capaz de fazer acertos de ~93% quando utilizou 85 categorias e o
acerto foi de ~95% quando utilizou 12 categorias. Para ambos os casos, apenas 5
métricas de ecologia da paisagem como variáveis independentes. A utilização de apenas
5 métricas de ecologia da paisagem reduz a complexidade computacional, facilita a
compreensão e interpretação da árvore e não perde em acurácia. O classificador
Random Forest (que melhor classificou) faz parte de um paradigma bastante em voga
atualmente em mineração de dados e reconhecimento de padrões que utiliza os métodos
ensemble. Os métodos ensemble trabalham com conjuntos de modelos, em que os dados
são arranjados aleatoriamente, dentro de uma distribuição conhecida. Os dados são
classificados, na maioria das vezes, através da apuração das classes mais votadas. O
algoritmo RandomForest costuma produzir resultados altamente precisos para muitos
conjuntos de dados e ainda tem uma performance bastante rápida.
Na segunda abordagem, foram procuradas regras entre áreas antrópicas e as regiões
fitoecológicas com algoritmos de associação. Os resultados não foram conclusivos. A
aplicação desta metodologia precisaria ser revista e discutida mais profundamente com
especialistas em classificação de vegetação.
Por falta de dados (alterações no decorrer do tempo, séries temporais) não foi possível
verificar dinamicamente, a influência de áreas antrópicas sobre a vegetação e inferir
possíveis mudanças futuras.
5. REFERÊNCIAS
AGRAWAL, R.; SIRIKANT, R. Fast algorithms for mining association rules. In:,
VLDB CONFERENCE, 20., 1994, Santiago, Chile. Proceedings… Santiago:
Morgan Kaufmann, 1994. p. 487-499.
BREIMAN, L. (2001). "Random Forests". Machine Learning 45 (1): 5–32.
doi:10.1023/A:1010933404324.
CLEARY, J.G., TRIGG, L.E. K*: An Instance-based Learner Using an Entropic Distance Measure. In:
12th International Conference on Machine Learning, 108-114, 1995.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMITH, P. The KDD Process for Extracting Useful
Knowledge from Volumes of Data. Communication of the ACM, v. 39, n. 11, p. 27-34, 1996.
HAN, J.; KAMBER, M. Data mining concepts and techniques. San Franscisco: Academic Press, 2001,
548 p.
Instituto Brasileiro de Geografia Estatística Manual técnico de vegetação
brasileira, Rio de Janeiro, 1992. 92 p.
KORTING, T. S. et al, GeoDMA – Um sistema para mineração de dados de sensoriamento remoto.
SBSR - Brazilian Remote Sensing Symposium (2009).
SILVA, M.; CAMARA, G.; ESCADA, M.I.S.; SOUZA, R.C.M. Remote-sensing image mining:
detecting agents of land-use in tropical forest areas – International Journal of Remote Sensing – V. 29,
2008
MCGARIGAL, K.; MARKS, B. Fragstats – Spatial Pattern Analysis Program for Quantifying Landscape
Structure. Version 2.0. 1994.
PLATT, J. Fast Training of Support Vector Machines using Sequential Minimal Optimization. In B.
Schoelkopf and C. Burges and A. Smola, editors, Advances in Kernel Methods - Support Vector
Learning, 1998.
RELATÓRIO FINAL - PROBIO - Projeto de Conservação e Utilização Sustentável da Diversidade
Biológica Brasileira – Subprojeto: Levantamento da Cobertura Vegetal e do Uso do Solo do Bioma
Caatinga (2007) - Ministério do Meio Ambiente (MMA)
REZENDE, L. F. C., Mineração de Dados Aplicada à Análise e Predição de Cintilação Ionosférica.
Dissertação. INPE, Brasil. 2009.
VIEIRA, R. M. S.P.; CARVALHO, V.C.; ALVALÁ, R.C.S.; MELLO, E.M.K.; NETO, F. Melhorias no
mapeamento do uso da terra da região Nordeste do Brasil para utilização em modelos meteorológicos e
hidrológicos. Anais XIII Simpósio Brasileiro de Sensoriamento Remoto, Florianópolis, Brasil, 21-26 abril
2007, INPE, p. 1923-1930.
WITTEN, I.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques with Java
Implementations. [S.l.]: Morgan Kaufmann, 2000.
Download