this PDF file - Fatec-ID

Uma Estratégia de Preparação de Dados para Aumento de
Precisão de Modelos de Classificação da Produtividade de
Cana-de-açucar
Maria das Graças J.M. Tomazela¹, Luiz Antônio Daniel¹
¹Faculdade de Tecnologia de Indaiatuba (FATEC-ID)
Rua Dom Pedro I, 65 - Cidade Nova - Indaiatuba – SP – Brasil
[email protected], [email protected]
Abstract. This research has the objective of applying data preparation techniques to
the sugarcane productivity information related to the 2009/2010 harvest, supplied by
a group that produces sugar and ethanol from Ribeirão Preto region, in order to
increase the precision of productivity classification model. Were used to attribute
selections techniques and balance methods as strategy to achieve the aim.. The
classification of reduced model compared with the full model showed similar
accuracy, which enable the use of reduced model that allow a simpler analysis. The
balance SMOTE method used for “very high” class resulted in a great classifier
performance and lower error rate.
Resumo. Este trabalho objetivou a aplicação de técnicas de preparação de dados a
partir dos dados de produtividade de cana-de-açúcar referentes à safra 2009/2010,
cedidos por um grupo produtor de açúcar e etanol da região de Ribeirão Preto,
visando ao aumento da precisão de um modelo de classificação de produtividade.
Foram utilizadas técnicas de seleção de atributos e de balanceamento de membros
por classe como estratégia para obtenção do objetivo proposto. A classificação do
modelo reduzido de dados apresentou acurácias semelhantes àquelas obtidas para o
modelo completo, o que viabiliza a utilização do modelo reduzido, pois as análises
podem ser mais simples. A utilização do método SMOTE de balanceamento para a
classe “muito alta” resultou em ótimo desempenho dos classificadores e baixa taxa
de erro.
1. Introdução
O agronegócio brasileiro desempenha um importante papel na economia brasileira,
destacando-se nesse contexto a cana-de-açúcar. O aquecimento global e a busca por
alternativas à queima de combustíveis fósseis tornam o etanol uma importante fonte de
energia renovável. Além disso, destaca-se a produção de açúcar, cujo valor médio da
tonelada vem apresentando um crescimento ao longo dos últimos anos, passando de US$
279,35 a US$ 458,04, de 2005 a 2009 respectivamente (MAPA 2009).
Destaca-se nesse cenário, o desempenho do estado de São Paulo, tanto em
produção quanto em produtividade. Neste trabalho são utilizados os dados do censo
varietal qualitativo - safra 09/10, referentes à cana-de-açucar, cedidos por um dos maiores
Grupos sucroenergéticos do Brasil, segundo a União da Indústria de Cana-de-Açúcar
(UNICA), sediado na região de Ribeirão Preto. O Grupo possui três usinas em operação,
duas delas produzem açúcar e etanol e uma é dedicada à produção exclusiva de etanol. As
1
três usinas geram energia elétrica a partir da queima do bagaço da cana, garantindo
autossuficiência e venda do excedente.
O índice médio de mecanização da colheita do Grupo é de 82%, chegando a 100%
em uma das usinas, índices considerados referência no setor. O Grupo processou na safra
2009/2010 12,9 milhões de toneladas de cana, resultando em cerca de 702 mil toneladas de
açúcar, 594 milhões de litros de etanol e 158 mil MWh de energia elétrica.
Uma das principais componentes da estratégia do Grupo é continuar a reduzir
custos operacionais e aumentar a eficiência das operações, por meio de investimentos em
tecnologia, incluindo processos agrícolas, industriais, logísticos e de tecnologia da
informação.
Para dar subsídio a esta redução de custos e aumento de eficiência propõe-se a
utilização de técnicas de mineração de dados, que segundo HAN e KAMBER (2006) é a
”extração ou mineração de conhecimento de grande quantidade de dados”. Ferramentas de
mineração de dados podem ajudar no processo decisório das organizações por meio de
análise nos dados e descoberta de padrões interessantes, novos e úteis.
A Mineração de dados faz parte de um processo denominado “Descoberta de
Conhecimento em Bases de Dados”, conhecido como KDD (Knowledge Discovery in
Databases). O processo de KDD pode ser dividido em três etapas operacionais
(GOLDSCHMIDT e PASSOS, 2005):
1)Pré-Processamento- Nesta etapa é realizada a preparação dos dados até que
fiquem no formato necessário para a execução mineração. Consiste nas atividades de
limpeza, integração, seleção e transformação de dados.
2)Mineração de Dados- Durante essa etapa é realizada a busca do conhecimento
conforme o contexto a ser analisado através da ferramenta de KDD. É a principal etapa no
processo e consiste na aplicação de técnicas inteligentes para obter a extração de padrões
de interesse do usuário.
3)Pós-Processamento- Etapa responsável por realizar o tratamento do conhecimento
obtido na Mineração de Dados. É importante, nesta etapa, a análise dos resultados por
especialistas da área do problema que está sendo minerado.
O objetivo deste trabalho é aplicar técnicas de preparação de dados a partir dos dados
de produtividade de cana-de-acúcar referentes à safra 2009/2010, cedidos pelo do Grupo
sucroenergético citado, visando ao aumento da precisão de um modelo de classificação de
produtividade. Utilizam-se técnicas de seleção de atributos e de balanceamento de
membros por classe como estratégia para obtenção do objetivo proposto.
2.Material e Métodos
Como citado, neste trabalho foram utilizados os dados do censo varietal qualitativo - safra
09/10, referentes à cana-de-açucar, cedidos por um dos maiores Grupos sucroenergéticos
do Brasil sediado na região de Ribeirão Preto.
A planilha com os dados do censo contém em cada instância os seguintes atributos:
código da fazenda, código da gleba, código do talhão, tipo de solo, variedade da cana,
espaçamento, datas (divididas em: plantio, corte 1, corte anterior e corte atual), estágio de
2
corte, tipo de corte, condição de corte, vinhaça, fórmula do adubo, adubação (Kg/ha) e
produtividade (t/ha).
Os atributos código da fazenda, código da gleba e código do talhão identificam
cada instância, mas não é necessária a utilização destes atributos no processo de mineração
de dados, as datas também não foram usadas porque o atributo estágio de corte resume
estas informações. Também não foi utilizado o atributo vinhaça por não ser relevante para
o contexto de produtividade em análise. Desta forma o conjunto de dados resultante para
este estudo é composto por 9 atributos e 6730 instâncias.
Na Tabela 1 são apresentadas as características de cada atributo utilizado neste
trabalho. Ressalta-se que o atributo Produtividade*, com valores entre 12.51 e 201.81
toneladas por hectare, foi discretizado pelo método de particionamento baseado em
distância (Equi-width) que divide os valores de um determinado atributo em um número
de intervalos, especificado pelo usuário, com tamanhos iguais (HAN e KAMBER, 2006).
Foram utilizados 5 intervalos, classificando a produtividade como: “muito baixa”, “baixa”,
“média”, “alta” e “muito alta”. Esta classificação da produtividade foi feita com a ajuda de
um especialista na área agrícola.
Tabela 1 – Atributos utilizados no modelo
Atributo
Tipo
Valores
distintos
Solo
nominal
38
Variedade
nominal
65
Espaçamento
nominal
3
Estágio de corte
nominal
16
Tipo de corte
nominal
4
Condição de corte
nominal
2
Fórmula do adubo
nominal
13
Adubação
numérico
779
Produtividade*
numérico
3935
Para atingir o objetivo da pesquisa foi utilizada a ferramenta WEKA (Waikato
Environment for Knowledge Analysis). WEKA é uma ferramenta de mineração de dados
de código aberto, desenvolvida pelo departamento de Ciência da Computação da
Universidade de Waikato da Nova Zelândia. Implementa os principais algoritmos das
tarefas de mineração: classificação, associação e clusterização. Implementa também
diversos métodos de seleção de atributos e de balanceamento de classes.
Neste estudo de caso foi utilizada inicialmente a tarefa de classificação para todo o
conjunto de dados. A Classificação é citada por GOLDSCHIMIDT e PASSOS (2005)
como uma das tarefas de KDD mais populares e importantes, consiste na busca por uma
função que permita associar corretamente cada instância do banco de dados a uma classe.
Para isso é necessário encontrar um modelo para o atributo alvo, utilizando uma função
3
aplicada nos valores de outros atributos. A produtividade da cana-de-acúcar foi definida
como atributo alvo neste estudo.
Para a realização da tarefa de classificação foram utilizados alguns dos principais
métodos classificadores propostos na literatura: árvores de decisão, classificador Bayesiano
simples e K-vizinhos mais próximos (K-NN). Estes métodos são descritos em detalhes em
HAN e KAMBER (2006) e também em GOLDSCHMIDT e PASSOS (2005). A utilização
de métodos de classificação tem o objetivo de verificar a capacidade preditiva do modelo
estudado.
Os algoritmos de classificação utilizam uma parte do conjunto de dados para
treinamento e uma parte para validação do modelo. Na primeira etapa do trabalho foram
utilizadas duas abordagens para esta divisão: 1) Percentage Split: que divide os dados em
dois grupos – geralmente dois terços para o conjunto de treinamento e um terço para o
conjunto de teste e 2)k-fold cross-validation (validação cruzada), que divide o conjunto de
dados em K partes, separa uma parte para teste e realiza o treinamento com as demais
partes; este procedimento é repetido para todas as partes. A acurácia final do modelo é a
média das acurácias parciais calculadas para cada parte. A validação cruzada apresenta
bons resultados quando o conjunto de dados é pequeno.
Quanto melhor a qualidade dos dados melhores serão os resultados do processo de
mineração de dados. Neste sentido o segundo passo deste trabalho foi a utilização de
métodos de seleção de atributos. O objetivo da seleção de atributos é remover atributos
irrelevantes ou redundantes, reduzindo desta forma o tamanho do conjunto de dados e
facilitando a análise dos resultados no processo de mineração. Os atributos selecionados
devem resultar na distribuição dos dados nas classes o mais próximo possível da
distribuição obtida utilizando todos os atributos (HAN e KAMBER, 2006).
Os métodos de seleção de atributos são geralmente classificados como filtros e
wrappers ((DASH e LIU,1997), (GUYON e ELISSEEFF A, 2003), ( HALL e HOLMES, 2006)
(MARK et all., 2003), (PRATI et all, 2006)). Wrappers avaliam os atributos utilizando a
acurácia obtida por um algoritmo de aprendizado especificado. Filtros se baseiam nas
características dos dados e trabalham de forma independente dos algoritmos de
aprendizado. Segundo HALL e HOLMES (2003) uma taxonomia útil das técnicas de
seleção de atributos é a que divide os algoritmos em: 1)aqueles que avaliam e definem o
ranqueamento dos atributos de forma individual em relação ao atributo classe e 2)aqueles
que avaliam subconjuntos de atributos, para pares de atributos com forte correlação um
deles pode ser descartado para reduzir redundância, os atributos escolhidos são aqueles
que possuem alta correlação com o atributo classe.
Na Tabela 2 são apresentados os métodos de seleção de atributos utilizados neste
estudo de caso. Após análise dos resultados obtidos com estes métodos foram selecionados
4 atributos e o processo de classificação foi realizado novamente, utilizando-se a mesma
metodologia utilizada no conjunto completo.
Tabela 2 – Métodos de seleção de atributos utilizados
Método
Característica
CFS - Correlation-based feature selection
Correlação baseada em subconjunto de
atributos
4
Qui-quadrado (Chi-squared Ranking Filter)
Avalia relação de cada atributo com a classe
Ganho de informação (Information Gain Ranqueia os atributos através do ganho de
informação
Ranking Filter)
Taxa de ganho de informação (Gain Ratio Ranqueia os atributos através da incorporação
de quantidade de informação
feature evaluator)
segmentada
Wrapper (utilizando árvore de decisão)
Avalia conjuntos de atributos usando um
algoritmo de aprendizado de máquina
Muitos aspectos influenciam o desempenho dos classificadores, a existência de
classes desbalanceadas é um dos fatores que podem interferir negativamente no
desempenho dos algoritmos de aprendizado de máquina (PRATI et all., 2007). A
existência de classes desbalanceadas ocorre quando o número de elementos entre as classes
é desproporcional, nestes casos, exemplos da classe minoritária são geralmente
classificados erroneamente. Na Tabela 3 é apresentado o número de instâncias de cada
classe do modelo sob análise. A classe “muito baixa” representa 1.85% das instâncias, a
classe “baixa” representa 34.8%, a classe “média” possui 56% das instâncias, a classe
“alta” representa 7.2% do conjunto e a classe “muito alta” contribui apenas com 0.15% dos
elementos.
Tabela 3 – Distribuição das Instâncias por classe
Classes
Num. Elementos
“muito baixa”
125
“baixa”
2341
“média”
3768
“alta”
486
“muito alta”
10
A partir dos dados da Tabela 3 pode-se verificar que as classes “muito baixa”,
“alta” e “muito alta” podem ser consideradas classes minoritárias, em especial a
porcentagem de instâncias da classe “muito alta” é extremamente menor que as demais.
Desta forma a terceira etapa deste processo de preparação de dados se constituiu na
utilização de métodos de balanceamento de classes. Os métodos de balanceamento de
classes trabalham de duas formas diferentes: inserem elementos na classe minoritária (over
sample) ou, eliminam elementos da classe majoritária (under sample). Neste trabalho
foram usados dois métodos, que utilizam heurísticas com base no algoritmo K- vizinhos
mais próximos (K-NN), para a inserção/ remoção dos exemplos : Smote, que é um método
over sample e NCL (Neighborhood Cleaning Rule), que é um método under sample.
Experimentos foram realizados também utilizando uma técnica de amostragem
(Resample, no Weka) que balanceia um conjunto de dados por meio de uma amostragem
com reposição. A utilização desta técnica permite variar a proporção de exemplos entre as
classes, que pode ser similar à distribuição inicial ou próxima da distribuição balanceada.
5
Como os métodos de balanceamento devem ser aplicados apenas sobre o conjunto
de treino, utilizou-se, nesta etapa, a abordagem de divisão dos conjuntos de treinamento e
teste, denominada holdout. Desta forma primeiramente foi criado um conjunto de testes em
um arquivo separado, com 10% das amostras e, em seguida, os métodos de balanceamento
foram aplicados no conjunto de treinamento com 90% das amostras.
Para medir o desempenho dos métodos de classificação após o balanceamento das
classes foi utilizada a área abaixo da curva ROC1 (AUC - Area Under Curve), a medida
AUC especifica a probabilidade de um exemplo positivo ser ranqueado acima de um
exemplo negativo. Quanto maior a área, melhor é o desempenho médio do classificador.
ROC é um método gráfico para avaliação, organização e seleção de sistemas de
diagnóstico e/ou predição, a análise ROC é uma ferramenta especialmente útil para a
avaliação de modelos de classificação em que as classes são desbalanceadas (PRATI et
all., 2007).
Apresentam-se a seguir os resultados obtidos em cada etapa da realização do
método proposto para a preparação dos dados deste estudo de caso.
3. Resultados e Discussão
Este estudo foi realizado em três etapas, inicialmente foi realizada a tarefa de classificação
para o conjunto completo dos dados do estudo de caso. Foram selecionadas algumas das
principais técnicas de classificação propostas na literatura. Para cada técnica os seguintes
classificadores listados na Tabela 4 foram escolhidos:
Tabela 4 – Classificadores utilizados na ferramenta Weka
Técnica
Classificador
Árvores de decisão
J48
K-vizinhos mais próximos (K-NN)
IBK – K=1
K-vizinhos mais próximos (K-NN)
IBK –K =5
Classificador Bayesiano simples
Naïve Bayes
Da análise da Tabela 5 pode ser verificado que o modelo apresentou melhores acurácias
para a abordagem cross validation em três dos quatro algoritmos de classificação
utilizados. É interessante notar que, enquanto o algoritmo IBK para K =1 resultou em um
decréscimo na acurácia (0.45%) em relação à acurácia obtida utilizando-se percentage
split, o mesmo algoritmo para K = 5 resultou na maior taxa de acréscimo de acurácia (1.39
%) da abordagem cross validation em relação à abordagem percentage split.
Tabela 5 – Acurácia para o conjunto completo dos dados
1
Algoritmo
Acurácia –cross validation
Acurácia – percentage split
J48
87.6226 %
86.3636 %
IBK – K=1
87.3997 %
87.8497 %
IBK –K =5
86.2259 %
84.8339 %
ROC - Receiver Operating Characteristic
6
Naïve Bayes
70.5052 %
69.6374 %
A segunda etapa deste trabalho foi a utilização dos métodos de seleção de atributos
que resultou na classificação apresentada na Tabela 6. Ressalta-se que os métodos quiquadrado, ganho de informação e taxa de ganho de informação apresentam o
ranqueamento das variáveis, enquanto os métodos CFS e Wrapper apresentam apenas os
atributos que devem ser mantidos. Para o método qui-quadrado todos os atributos
apresentaram valores de ranqueamento superiores ao ponto de corte definido para o
método que é 3.841. Comparando-se os resultados obtidos nos cinco métodos de seleção
de atributos foram escolhidos os seguintes atributos: Adubação, Solo, Variedade, Estágio
Corte.
Tabela 6 – Ranqueamento dos atributos
Método
Atributos selecionados
CFS - Correlation-based feature selection
Adubação
Método de pesquisa: best first
Qui-quadrado (Chi-squared Ranking Filter)
Adubação,Solo, Variedade, Estágio Corte,
Formula Adubo, Tipo de Corte, Condição de
Corte,
Método de pesquisa: Attribute ranking
Espaçamento
Ganho de informação (Information Gain Adubação, Variedade, Solo, Estágio Corte,
Ranking Filter)
Formula Adubo, Espaçamento ,Tipo de Corte,
Condição de Corte
Método de pesquisa: Attribute ranking
Taxa de ganho de informação (Gain Ratio Adubação, Variedade, Solo, Estágio Corte,
feature evaluator)
Formula Adubo, Tipo de Corte, Condição de
Corte, Espaçamento
Método de pesquisa: Attribute ranking
Wrapper (utilizando J48)
Solo, Variedade, Estágio Corte, Tipo de Corte,
Adubação
Método de pesquisa: best first
Na Tabela 7 são apresentados os resultados obtidos com a classificação realizada a
partir do conjunto reduzido de dados. Para este conjunto a abordagem cross validation
obteve melhores acurácias para todos os algoritmos, vale lembrar que esta abordagem é
melhor para conjuntos pequenos, portanto com a redução dos atributos, e respectiva
redução do conjunto de dados, faz sentido que a utilização de cross validation produza
resultados ainda melhores quando comparados à abordagem percentage split.
Tabela 7 – Acurácia para o conjunto com seleção de atributos
Algoritmo
Acurácia –cross validation
Acurácia – percentage split
J48
87.2511 %
84.9213 %
IBK – K=1
85.6612 %
85.4458 %
IBK –K =5
85.3195 %
82.7797 %
Naïve Bayes
71.263 %
70.8042 %
7
Na Figura 1 pode-se observar um gráfico comprarativo dos resultados obtidos para
os quatro algoritmos de classificação utilizados, tanto para o conjunto completo de dados
como para o conjunto gerado após a seleção de atributos. Verifica-se que os resultados
estão bem próximos para todos os classificadores, ressalta-se que para o classificador
Naïve Bayes a acurácia obtida foi ligeiramente maior para o conjunto de dados com
seleção de atributos, isto se deve ao fato que o melhor desempenho deste algoritmo se dá
quando as variáveis são independentes (HAN e KAMBER, 2006).
Acurácias
70
.5
71
.2
86
.2
85
.3
85
.6
87
.4
100
90
80
70
60
50
40
30
20
10
0
87
.6
87
.2
Comparação das acurácias do conjunto completo e do
conjunto com seleção de atributos ( utilizando cross validation)
conj.completo
seleção de atributos
J48
K-NN K=1
K-NN k=5
Naïve Bayes
Classificadores
Figura 1 – Comparação das acurácias obtidas para o conjunto completo e com Seleção de
atributos utilizando cross validation
A terceira etapa do trabalho consistiu na aplicação de métodos de balanceamento de
classes. Embora as classes “muito baixa” e “alta” estivessem com porcentagem de
instâncias bem inferior às instâncias das classes “baixa” e “média”, os valores de precisão
dessas duas classes minoritárias foram bem razoáveis para a maioria dos classificadores.
Analisando os resultados das classificações para o conjunto de dados com seleção
de atributos por meio da porcentagem de instâncias classificadas corretamente para cada
classe – taxa verdadeiro positivo (taxa TP –True Positive), verificou-se que a menor
porcentagem obtida para a classe “muito baixa” foi de 37.7%, para o algoritmo IBK – K=5,
utilizando percentage split e a maior taxa TP para esta mesma classe foi de 62.4% para os
algoritmos J48 e IBK com K=1, ambos utilizando cross validation.
Para a classe “alta” a menor taxa TP obtida foi de 16.7% para o algoritmo Naïve
Bayes utilizando percentage split e a maior taxa para esta mesma classe foi de 71.7% para
o algoritmo IBK – K=1, utilizando percentage split.
Com base nestes resultados optou-se pela análise dos resultados dos métodos de
balanceamento apenas para a classe “muito alta” que obteve taxa TP de 0% para a maioria
dos classificadores.
Na Tabela 8 estão resumidos os dados obtidos utilizando a técnica de amostragem
Resample, ajustando o parâmetro “biasToUniformClass” (Weka) para variar a proporção
de exemplos entre as classes, 0 indica distribuição similar à distribuição inicial e 1 indica
distribuição próxima da balanceada. A coluna Erro(%) diz respeito à porcentagem de erro
do classificador e a coluna AUC(%) contém os valores AUC para a classe “muito alta”.
8
Observa-se que para a técnica Resample o algoritmo J48 possui resultados muito bons para
os valores 0.5 e 1 do parâmetro “biasToUniformClass” – 100%, com a 2ª. menor
porcentagem de erro. O algoritmo IBK – K=1 possui as menores porcentagens de erro, mas
os valores AUC variam em torno de 50%.
Tabela 8 – Desempenho dos classificadores utilizando Resample
Conjunto Algoritmo
0
de dados
J48
Resample
AUC (%)
IBK – K=1
IBK –K =5
Naïve Bayes
Erro (%)
0.5
48.7
50
56.8
99.7
100
49.93
61.5
100
1
0
99.9
49.78
66.15
100
14.11
13.07
14.11
28.23
0.5
15.45
14.56
18.87
36.99
1
20.05
16.64
26.89
47.54
Na Tabela 9 são apresentados os dados dos métodos de balanceamento Smote e
NCL, as porcentagens de erro de cada classificador são, em sua maioria, menores que as
taxas de erro utilizando Resample, além disso os valores de AUC são superiores a 98%
para todos os classificadores. O classificador Naïve Bayes possui as maiores taxas de erro
para todas as técnicas de balanceamento utilizadas neste experimento. Comparando-se as
taxas de erro de cada classificador para os métodos Smote e NCL verifica-se que o método
Smote possui taxa de erros menores.
Tabela 9 – Desempenho dos classificadores com Smote e NCL
Algoritmo
AUC (%)
Erro (%)
J48
99.78
13.5215
IBK – K=1
100
11.4413
IBK –K =5
98.81
14.2645
Smote
NaïveBayes
99.7
28.529
J48
99.93
16.0475
IBK – K=1
100
14.8588
IBK –K =5
99.55
16.3447
NCL
NaïveBayes
99.85
32.838
Após o balanceamento com Resample, ajustado para 0.5 e para 1, todos os classificadores
foram capazes de identificar 100% das instâncias da classe “muito alta”. Utilizando Smote
somente o classificador IBK K=1 obteve esta porcentagem e utilizando NCL os
classificadores IBK K=1 e Naïve Bayes conseguiram classificar corretamente as instâncias
da classe minoritária.
9
Na Figura 2 tem-se a matriz de confusão para o algoritmo J48, utilizando-se a técnica de
amostragem Resample, ajustado para 0.5. Uma matriz de confusão resume o total de
instâncias que foram classificadas corretamente e as que foram incorretamente
classificadas para cada classe, na diagonal principal da matriz estão as instâncias
corretamente classificadas. Pode-se observar que o único elemento da classe “muito alta”
foi corretamente classificado, entretanto existem 4 instâncias classificadas incorretamente
como “muito alta” (falsos positivos). Existem domínios em que o custo de não se
determinar um verdadeiro positivo para a classe minoritária é muito maior do que o custo
de se classificar erroneamente uma instância como positiva, como por exemplo, nos casos
de diagnósticos de doenças graves. Portanto a decisão da utilização da técnica de
balanceamento deve ser cuidadosamente avaliada para cada domínio.
=== Confusion Matrix ===
a
b
c d
e
<-- classified as
8
2
2
0
0
| a = 'muito baixa'
13 187 24 9
1
| b = 'baixa'
2 25 337 11 2
| c = 'média'
0 3 15
30 1
| d = 'alta'
0 0 0
0
| e = 'muito alta'
1
Figura 2 – Matriz de confusão utilizando J48 e Resample
4. Conclusões
Neste trabalho foram realizados experimentos para a preparação de dados referentes à
produtividade de cana-de-açúcar da safra 2009/2010 de um Grupo sucroenergético do
Estado de São Paulo. O objetivo da realização destes experimentos é aumentar a precisão
de um modelo de classificação de produtividade.
O experimento foi realizado em três etapas. Na primeira etapa foram utilizados os
algoritmos de classificação J48, IBK para K=1 e K=1 e Naive Bayes, com as abordagens
cross validation e porcentage split. Na segunda etapa foram aplicados os métodos de
seleção de atributos CFS, Qui-quadrado, Ganho de informação, Taxa de ganho de
informação e Wrapper. A partir da análise dos resultados destes métodos os seguintes
atributos foram escolhidos: Adubação, Solo, Variedade, Estágio Corte. Os algoritmos de
classificação utilizados na primeira etapa do estudo de caso foram utilizados para o
conjunto de dados reduzido pela seleção de atributos. A classificação utilizando cross
validation apresentou melhores resultados tanto para o conjunto completo como para o
conjunto reduzido pelo número de atributos. As acurácias de cada classificador,
comparando-se os valores obtidos no conjunto completo e no conjunto reduzido, foram
muito próximas, o que viabiliza a utilização do conjunto reduzido, uma vez que a análise
de conjuntos menores pode ser mais simples.
10
A terceira etapa do experimento consistiu na utilização de métodos de
balanceamento uma vez que havia três classes, das cinco utilizadas para a classificação,
com porcentagem muito pequena de instâncias. A análise do balanceamento aplicado foi
realizada somente para a classe “muito alta”, que possui apenas 0.15% das instâncias. Foi
utilizada a técnica de amostragem Resample e os métodos de balanceamento Smote e NCL.
Da análise dos métodos de balanceamento verificou-se que o método Smote obteve valores
acima de 98% para a AUC, que verifica o desempenho médio do classificador, e também
obteve as menores taxas de erro de classificação para todos os classificadores utilizados no
experimento. Além disso, após a utilização da técnica de amostragem Resample, ajustada
para 0.5 e 1, obteve-se 100% de classificação correta (verdadeiro positivo) para as
instâncias da classe minoritária “muito alta”, para todos os classificadores utilizados no
experimento.
5. Referências
Dash, M.; Liu, H. Feature Selection For Classification. Intelligent Data Analysis 1, P.
131–156, Elsevier, 1997.
Goldschmidt R.; Passos E. Data Mining – Um Guia Prático. Rio De Janeiro: Elsevier,
2005.
Guyon I. ; Elisseeff A. An Introduction To Variable And Feature Selection. Journal Of
Machine Learning Research 3, 2003.
Hall, M.A.; Holmes, G. Benchmarking Attribute Selection Techniques For Discrete Class
Data Mining. Ieee Transactions On Knowledge And Data Engineering, Vol. 15, No. 3,
May/June, 2003.
Han, J. ; Kamber, M. Data Mining: Concepts And Techniques. Second Edition, Morgan
Kaufmann, 2006.
Mapa - Ministério Da Agricultura, Pecuária E Abastecimento. Estatísticas. Disponível
Em:
<Http://Www.Agricultura.Gov.Br/Pls/Portal/Docs/Page/Mapa/Estatisticas/Co
Mercio_Exterior_Brasileiro/21exp.%20anual%20a%C7ucar.Pdf>.
Acesso
Em:
27/11/2009.
Prati, R. C. ; . Batista G. E. A. P. A E; Monard, M. C. Curvas Roc Para Avaliação De
Classificadores, 2006.
11