Baixar este arquivo PDF - Fatec-ID

Propaganda
Aplicação de Técnicas de Mineração de Dados para
Caracterização de Grupos de Cidades Produtoras de Cana-DeAcúcar do Estado de São Paulo e Definição de Políticas
Especificas
Maria das Graças J.M. Tomazela¹, Gerson Araujo de Medeiros¹, Luiz Antonio
Daniel¹, Luciana de Mattos Moraes²
¹Faculdade de Tecnologia de Indaituba – FATEC-ID, Rua D.Pedro I, 65, Cidade
Nova, Indaiatuba, SP
²Faculdade de Tecnologia de Itapetininga , Rua Dr. João Vieira de Camargo, 104, Vila
Barth , Itapetininga - SP
[email protected],[email protected],
[email protected],
[email protected]
Resumo. Este trabalho teve como objetivo a aplicação de técnicas de mineração
em dados coletados no processo de produção,produtividade e mecanização de cana-deaçúcar das cidades do Estado de São Paulo.
Utilizou-se o algoritmo DBScan da
ferramenta Weka para a determinação do número de clusters e o algoritmo K-Means para
a organização destes clusters. Os resultados da clusterização foram utilizados para definir
um atributo classe para os dados originais e viabilizar o uso de técnicas de classificação.
Foram utilizados os principais algoritmos de classificação da literatura. A precisão obtida
pelo modelo foi superior a 90% para todos os classificadores, indicando a viabilidade de
utilização da classificação obtida para a definição de políticas específicas para cada
grupo de cidades.
Abstract. This study applies techniques of data mining of the production, productivity
and mechanization of sugarcane of the cities of São Paulo Estate. We used the
algorithm DBSCAN of the Weka tool for determining the number of clusters and KMeans algorithm for the organization of these clusters. The results of clustering were
used to define a class attribute to the original data and enable the use of
classification techniques. We used the main classification algorithms found in the
literature. The degree of accuracy achieved by the model was over 90% for all
classifiers, indicating the feasibility of using the classifications to the definition of
specific policies for each group of cities.
1. Introdução
A evolução na área de Tecnologia da Informação possibilitou a utilização de computadores
e a automatização de processos nas mais diferentes áreas. As mídias de armazenamento
também passaram por uma evolução que as tornou mais acessíveis em função de sua
portabilidade e baixo custo, tornando possível o armazenamento de quantidades de dados
cada vez maiores em periféricos e espaços físicos por sua vez menores.
Tais avanços tecnológicos possibilitaram a criação de grandes repositórios de dados
que, todavia, superam a habilidade humana de compreensão e geração de informação e
conhecimento. Como conseqüência importantes decisões tem sido tomadas baseadas
apenas na intuição dos tomadores de decisão, uma vez que não possuem ferramentas para
extrair os conhecimentos escondidos neste enorme conjunto de dados [Han e Kamber
2006].
Han e Kamber (2006) definem mineração de dados como ”extração ou mineração
de conhecimento de grande quantidade de dados”. Ferramentas de mineração de dados
podem ajudar no processo decisório das organizações por meio de análise dos dados e
descoberta de padrões interessantes e relações entre eles.
A Mineração de dados faz parte de um processo denominado “Descoberta de
Conhecimento em Bases de Dados”, conhecido como KDD (Knowledge Discovery in
Databases). O processo de KDD pode ser dividido em três etapas operacionais
[Goldschmidt e Passos 2005]:
Pré-Processamento- Nesta etapa é realizada a formatação dos dados até que fiquem
no formato necessário para a execução mineração. Consiste nas atividades de limpeza,
integração, seleção e transformação de dados.
Mineração de Dados- Durante essa etapa é realizada a busca do conhecimento
conforme o contexto a ser analisado através da ferramenta de KDD. É a principal etapa no
processo e consiste na aplicação de técnicas inteligentes para obter a extração de padrões
de interesse do usuário.
Pós-Processamento- Etapa responsável por realizar o tratamento do conhecimento
obtido na Mineração de Dados. É importante, nesta etapa, a análise dos resultados por
especialistas da área do problema que está sendo minerado.
Este trabalho tem por objetivo realizar tarefas de mineração em dados da produção
de cana-de-açúcar no Estado de São Paulo, visando a encontrar grupos de produtores com
características semelhantes, de forma que possam ser desenvolvidas políticas apropriadas
para cada grupo ou até mesmo viabilizar a criação de arranjos produtivos locais(APLs).
O agronegócio brasileiro desempenha um importante papel na economia brasileira.
Segundo o Ministério da Agricultura, Pecuária e Abastecimento [MAPA 2009] o
agronegócio brasileiro foi responsável, em 2004, por 33% do Produto Interno Bruto (PIB),
42% do volume das exportações totais e 37% dos empregos brasileiros. No ano de 2006, as
exportações atingiram a marca de US$ 49,4 bilhões e geraram um superávit comercial de
US$ 42,7 bilhões [Barros e Silva 2008].
Nesse contexto, destaca-se a cana-de-açúcar, uma das culturas mais importantes do
agronegócio brasileiro, pois possui uma relevante função estratégica na economia do
Brasil. O aquecimento global e a busca por alternativas a queima de combustíveis fósseis,
tornam o etanol uma importante fonte de energia renovável. Além disso, destaca-se a
produção de açúcar, cujo valor médio da tonelada vem apresentando um crescimento ao
longo dos últimos anos, passando de US$ 279,35 a US$ 458,04, de 2005 a 2009
respectivamente [MAPA 2009].
Destaca-se, nesse cenário, o desempenho do estado de São Paulo, tanto em
produção quanto em produtividade. A previsão da safra 2009/2010, nesse estado, aponta
para uma produção de 364 milhões de toneladas ou 57,9% da produção brasileira de canade-açúcar, sendo também o estado que apresenta a maior produtividade, a qual alcançará
86,8 t/ha, de acordo com as previsões de CONAB (2009).
O estado de São Paulo também é aquele que apresenta a maior produção de açúcar
e de etanol hidratado. Cerca de 63,3% do açúcar, o equivalente a 19,7 milhões de
toneladas, foi produzido no estado de São Paulo na safra 2008/2009, enquanto o percentual
do etanol hidratado atingiu 59,0%, correspondendo a 10,7 milhões de m3, de acordo com
informações veiculadas pela União da Indústria de Cana-de-Açúcar [UNICA 2009].
Pela importância do Brasil no cenário internacional da cana-de-açúcar e de seus
produtos, e do estado de São Paulo no contexto brasileiro, justifica-se um estudo das
relações existentes entre os fatores que possam influenciar no agronegócio dessa cultura,
por meio da aplicação de ferramentas de apoio ao planejamento ou tomada de decisão
como a mineração de dados.
2. Materiais e Métodos
Neste trabalho foram avaliados os dados de cana-de-açúcar do Estado de São Paulo que,
conforme citado, representa 57,9% da produção brasileira de cana-de-açúcar e tem a maior
produtividade no contexto brasileiro, justificando assim a realização de aplicação de
ferramentas de mineração de dados visando a identificação de características específicas
das áreas produtoras de cana-de-açúcar para o planejamento de ações para este setor.
Os dados foram coletados a partir dos sites do IBGE [IBGE 2008] e do projeto
LUPA (São Paulo, 2008) referente ao ano agrícola 2007/2008, para cada cidade do Estado
que possuísse plantação de cana-de-açúcar, totalizando 505 cidades.
Os seguintes atributos foram coletados do IBGE: área plantada (hectares), área
colhida (hectares), quantidade produzida (toneladas), valor da produção (em mil reais),
rendimento médio da produção (quilograma por hectare, transformado em tonelada por
hectare).
Os atributos coletados a partir do projeto LUPA foram o número total de UPAs
(unidade produtiva agrícola), o número de UPAs de cana-de-açúcar e também os dados
referentes à mecanização de cada cidade. Vale ressaltar que os dados sobre mecanização
estavam relacionados às cidades e não exclusivamente ao cultivo de cana-de-açúcar. Por
essa razão foi necessário a escolha das máquinas que são utilizadas tipicamente em
plantações de cana-de-açúcar, esta seleção foi feita com a ajuda de especialistas1 na área
agrícola e resultou nos seguintes atributos: arado subsolador, carregadeira de cana,
conjunto de irrigação autopropelido e terraceador. Foi coletado também número total de
engenhos em cada cidade.
Para atingir o objetivo da pesquisa foi utilizada a ferramenta WEKA. O Waikato
Environment for Knowledge Analysis (WEKA) é uma ferramenta de mineração de dados
de código aberto, desenvolvida pelo departamento de Ciência da Computação da
Universidade de Waikato da Nova Zelândia. Implementa os principais algoritmos das
tarefas de mineração: classificação, associação e clusterização.
A Classificação de Dados é citada por Goldschimidt e Passos(2005) como uma das
tarefas do KDD mais populares e importantes, consiste na busca por uma função que
permita associar corretamente cada registro do banco de dados a uma classe. Para isso é
necessário encontrar um modelo para o atributo alvo, utilizando uma função aplicada nos
valores de outros atributos.
A tarefa de Regras de Associação consiste na busca por regras de associação
freqüentes e válidas baseando-se em parâmetros de suporte, a freqüência da regra, e o nível
de confiança, que expressa a força da regra, que devem ser especificados pelo especialista
em KDD juntamente com o especialista no domínio da aplicação.
A tarefa de Clusterização (ou agrupamento) consiste em particionar os registros
da base de dados em subconjuntos (ou clusters) de maneira que elementos presentes em
um cluster, compartilhem um conjunto de propriedades comuns e que os diferenciem dos
elementos de outros clusters. A análise de um cluster está envolvida principalmente com a
organização de um conjunto de padrões conforme a medida de similaridade definida. Em
geral o conjunto de dados utilizados para efetuar a clusterização não possui uma classe
pré-definida, a clusterização pode ser utilizada para definir classes para o conjunto em
análise [Han e Kamber 2006].
Na etapa de pré-processamento dos dados foi necessária a eliminação do atributo
área plantada que continha os mesmos valores que o atributo área colhida, para todas as
instâncias. Na realidade qualquer um dos dois poderiam ser retirados, a escolha pela
retirada de área plantada foi aleatória.
1
Gerson Arruda Medeiros e Luiz Antônio Daniel, Doutores em engenharia agrícola –Fatec
Indaiatuba, reunião de trabalho em 16/11/2009.
Para a realização da etapa de mineração de dados foi definida a seguinte estratégia,
conforme sugerido por Han e Kamber (2006): inicialmente foi realizado o processo de
clusterização para a segmentação das cidades produtoras de cana-de-açúcar em grupos
similares e em seguida foram aplicadas técnicas de classificação para validar a
segmentação realizada e verificar a capacidade preditiva do modelo.
O algoritmo de clusterização utilizado foi o DBScan, que é classificado como
baseado em densidade. Algoritmos baseados em densidade têm sido utilizados para
descobrir clusters com forma arbitrária. Esses métodos consideram clusters como regiões
densas de objetos no espaço de dados que são separadas por regiões com baixa densidade,
que representam ruídos [Han e Kamber 2006]. A utilização deste algoritmo objetivou a
determinação do número de clusters apropriado ao modelo, outros algoritmos de
clusterização, como o K-Means (no Weka denominado SimpleKMeans), necessitam da
definição prévia do número de clusters. Três clusters foram definidos pelo algoritmo
DBSCan e apenas três instâncias foram consideradas outliers,por essa razão este valor foi
considerado adequado ao experimento.
Uma vez definido o número de clusters utilizou-se a ferramenta Matlab, para a
associação de cada cidade a seu respectivo cluster. Apesar do algoritmo DBScan, na
ferramenta Weka, realizar esta associação, a forma como o Matlab apresenta estes
resultados é mais fácil para transportá-los para uma planilha eletrônica. Ressalta-se que o
algoritmo de clusterização utilizado foi o K-Means, uma vez todas as instâncias deveriam
ser classificadas em algum grupo e este algoritmo não detecta a presença de ruídos ou
outliers. Os dados resultantes da clusterização realizada pelo Matlab foram transportados
para a planilha original. O atributo acrescentado passou a ser utilizado como a classe do
conjunto de dados.
Para a realização da tarefa de classificação foram utilizados os principais métodos
classificadores propostos na literatura: árvores de decisão, classificador Bayesiano simples,
K- vizinhos mais próximos (K-NN),redes neurais e support vector machine (SMO). Estes
métodos são descritos em detalhes em Han e Kamber (2006) e também em Goldschmidt e
Passos (2005). A utilização de métodos de classificação tem o objetivo de verificar a
capacidade preditiva do modelo estudado.
3. Resultados e Discussões
Conforme citado na seção anterior, para a realização deste experimento foram selecionados
dados da produção e produtividade da cana-de-açúcar no Estado de São Paulo, além de
dados de mecanização para esta cultura.
Inicialmente foi utilizada a tarefa de clusterização para segmentar as cidades em
grupos similares nos valores de seus atributos. Três clusters foram considerados, o cluster
1 com 121 cidades(24% das instâncias), o cluster 2 com 25 cidades (5% das instâncias) e o
cluster 3 com 359 cidades (71% das cidades). Em seguida, para a tarefa de classificação,
foram selecionadas as principais técnicas de classificação propostas na literatura. Para cada
técnica os seguintes classificadores listados na Tabela 1, presentes no Weka, versão 3.7,
foram escolhidos:
Tabela 1 – Classificadores utilizados
Técnica
Classificador
Árvores de decisão
J48, RandomForest, RandomTree
Classificador Bayesiano simples
Naïve Bayes
K-vizinhos mais próximos (K-NN)
IBK – K=5
Redes neurais
MultilayerPerceptron
SMO
SMO
Os algoritmos de classificação utilizam uma parte do conjunto de dados para
treinamento e uma parte para validar o modelo. Neste trabalho foi utilizada a opção k-fold
cross-validation (validação cruzada), que divide o conjunto de dados em K partes, separa
uma parte para teste e realiza o treinamento com as demais partes; este procedimento é
repetido para todas as partes. A acurácia final do modelo é a média das acurácias parciais
calculadas para cada parte. A validação cruzada apresenta bons resultados quando o
conjunto de dados é pequeno.
É apresentada na Tabela 2 uma sumarização dos dados obtidos para cada
classificador. Salienta-se que os dados foram balanceados antes da classificação para que
não houvesse influência da classe com maior número de elementos sobre as demais
classes. Pode-se observar que os algoritmos baseados em árvore de decisão obtiveram os
melhores resultados, em especial o algoritmo RandomTree obteve 100% de precisão e
também foi o que gerou a maior árvore e, consequentemente, o maior número de regras,
conforme apresentado na Figura 1.
Tabela 2- Acurácia do modelo por classificador
Classificador
Acurácia
J48
99.41%
RandomForest
99.80%
RandomTree
100%
Naïve Bayes
92.67%
IBK – K=5
93.07%
MultilayerPerceptron
97.63%
SMO
93.86%
O algoritmo Naïve Bayes apresentou a menor precisão, o que pode indicar alguma
dependência entre as atributos, uma vez que o melhor desempenho deste algoritmo se dá
quando as variáveis são independentes. De acordo com Han e Kamber (2006), o algoritmo
considera que o efeito do valor de um atributo de uma determinada classe é independente
dos valores dos outros atributos.
O algoritmo MultilayerPerceptron apresentou um bom resultado, mas inferior aos
algoritmos de árvore de decisão que tem ainda a vantagem de serem muito mais rápidos.
Figura 1 – Árvore RandomTree
Considerações Finais
Neste trabalho foi apresentada a aplicação de tarefas e técnicas de mineração de dados
em dados da produção e produtividade de cana-de-açúcar no estado de São Paulo.
Este trabalho se justifica pela importância da cultura de cana-de-açúcar no
agronegócio brasileiro, que possui uma relevante função estratégica na economia do Brasil,
uma vez que o etanol é uma importante fonte de energia renovável, além da importância da
produção de açúcar. Destaca-se, nesse cenário, o desempenho do estado de São Paulo que
apresenta a maior produção de açúcar e de etanol hidratado.
Objetivou-se nesta pesquisa segmentar a áreas produtoras de açúcar em grupos
similares de forma que possam ser definidas políticas especificas para cada grupo.
Os dados analisados são referentes à produção, produtividade e mecanização da
cana-de-açúcar no Estado de São Paulo, considerando 505 cidades que possuem esta
cultura.
A tarefa de clusterização foi utilizada para a formação de grupos. Utilizou-se o
técnica de classificação baseada em densidade, denominado DBScan, para definir o
número de clusters e em seguida a técnica K-Means, para definição destes clusters. A
utilização da técnica K-Means foi necessária porque todas as instâncias deveriam ser
classificadas em algum grupo. O algoritmo DBScan não classifica todas as instâncias,
algumas podem ser consideradas ruídos ou outliers.
Após o processo de clusterização foram utilizadas técnicas de classificação visando
a verificação da capacidade preditiva do modelo.
Foram utilizadas as principais técnicas de classificação definidas na literatura:
árvores de decisão, classificador Bayesiano simples, K- vizinhos mais próximos (KNN),redes neurais e support vector machine (SMO).
Destaque pode ser dado aos resultados obtidos pelos classificadores baseados em
árvore de decisão, em especial ao algoritmo RandomTree que apresentou precisão de
100% e o conjunto de regras mais interessante.
A partir dos resultados obtidos pode-se dizer que é possível a utilização das tarefas
de clusterização e classificação para a determinação de grupos de produtores de cana-deaçucar com características semelhantes. A utilização desta segmentação pode se utilizada
para a definição de políticas específicas para cada grupo. Sugere-se como trabalho futuro o
acréscimo de atributos, como por exemplo, as características do solo, os níveis de chuva, a
declividade do terreno e outras características que podem afetar a produtividade da canade-açúcar. Sugere-se ainda, após a inclusão destes novos atributos, a utilização da técnica
de associação que não foram utilizadas neste trabalho porque não apresentou resultado
satisfatório.
Referências Bibliográficas
Barros, G. S. C.; Silva, S. F., “A Balança Comercial Do Agronegócio Brasileiro De 1989
A 2005”, Rev. Econ. Sociol. Rural, V. 46, N.4, P.905-935. Dez 2008
CONAB - Companhia Nacional De Abastecimento. “Acompanhamento De Safra
Brasileira: Cana-De-Açúcar, Segundo Levantamento.”, Brasília: Conab, Setembro De
2009. 5p. Disponível Em:
<Http://Www.Conab.Gov.Br/Conabweb/Download/Safra/2_Levantamento2009_Set2009.
Pdf>. Acesso Em: 27 De Novembro De 2009.
Goldschmidt R., Passos E., Data Mining – Um Guia Prático, Rio De Janeiro: Elsevier,
2005.
Han, J. e Kamber, M., Data Mining: Concepts And Techniques, Second Edition, Morgan
Kaufmann, 2006.
IBGE – Instituto Brasileiro De Geografia E Estatística. Sidra.Disponível Em:
http://www.Sidra.Ibge.Gov.Br/Bda/Tabela/Listabl.Asp?C=839&Z=T&O=11. Acesso Em
9/11/2009.
MAPA - Ministério Da Agricultura, Pecuária E Abastecimento, Estatísticas,
Http://www.Agricultura.Gov.Br/Pls/Portal/Docs/Page/Mapa/Estatisticas/CoMercio_Ex
terior_Brasileiro/21exp.%20anual%20a%C7ucar.Pdf>. Acesso Em: 27/11/2009.
São Paulo (Estado). Secretaria De Agricultura E Abastecimento. Coordenadoria De
Assistência Técnica Integral. Instituto De Economia Agrícola. “Levantamento
Censitário De Unidades De Produção Agrícola Do Estado De São Paulo - Lupa
2007/2008.” São Paulo: Saa/Cati/Iea, 2008. Http://www.cati.sp.gov.br/projetolupa.
Acesso Em: 24/11/2009.
UNICA – União da Indústria de Cana-de-Açúcar, Dados e cotações – estatística,
http://www.unica.com.br/dadosCotacao/estatistica/. Acesso em: 27/11/ 2009.
Download