Aplicação de Técnicas de Mineração de Dados para Caracterização de Grupos de Cidades Produtoras de Cana-DeAcúcar do Estado de São Paulo e Definição de Políticas Especificas Maria das Graças J.M. Tomazela¹, Gerson Araujo de Medeiros¹, Luiz Antonio Daniel¹, Luciana de Mattos Moraes² ¹Faculdade de Tecnologia de Indaituba – FATEC-ID, Rua D.Pedro I, 65, Cidade Nova, Indaiatuba, SP ²Faculdade de Tecnologia de Itapetininga , Rua Dr. João Vieira de Camargo, 104, Vila Barth , Itapetininga - SP [email protected],[email protected], [email protected], [email protected] Resumo. Este trabalho teve como objetivo a aplicação de técnicas de mineração em dados coletados no processo de produção,produtividade e mecanização de cana-deaçúcar das cidades do Estado de São Paulo. Utilizou-se o algoritmo DBScan da ferramenta Weka para a determinação do número de clusters e o algoritmo K-Means para a organização destes clusters. Os resultados da clusterização foram utilizados para definir um atributo classe para os dados originais e viabilizar o uso de técnicas de classificação. Foram utilizados os principais algoritmos de classificação da literatura. A precisão obtida pelo modelo foi superior a 90% para todos os classificadores, indicando a viabilidade de utilização da classificação obtida para a definição de políticas específicas para cada grupo de cidades. Abstract. This study applies techniques of data mining of the production, productivity and mechanization of sugarcane of the cities of São Paulo Estate. We used the algorithm DBSCAN of the Weka tool for determining the number of clusters and KMeans algorithm for the organization of these clusters. The results of clustering were used to define a class attribute to the original data and enable the use of classification techniques. We used the main classification algorithms found in the literature. The degree of accuracy achieved by the model was over 90% for all classifiers, indicating the feasibility of using the classifications to the definition of specific policies for each group of cities. 1. Introdução A evolução na área de Tecnologia da Informação possibilitou a utilização de computadores e a automatização de processos nas mais diferentes áreas. As mídias de armazenamento também passaram por uma evolução que as tornou mais acessíveis em função de sua portabilidade e baixo custo, tornando possível o armazenamento de quantidades de dados cada vez maiores em periféricos e espaços físicos por sua vez menores. Tais avanços tecnológicos possibilitaram a criação de grandes repositórios de dados que, todavia, superam a habilidade humana de compreensão e geração de informação e conhecimento. Como conseqüência importantes decisões tem sido tomadas baseadas apenas na intuição dos tomadores de decisão, uma vez que não possuem ferramentas para extrair os conhecimentos escondidos neste enorme conjunto de dados [Han e Kamber 2006]. Han e Kamber (2006) definem mineração de dados como ”extração ou mineração de conhecimento de grande quantidade de dados”. Ferramentas de mineração de dados podem ajudar no processo decisório das organizações por meio de análise dos dados e descoberta de padrões interessantes e relações entre eles. A Mineração de dados faz parte de um processo denominado “Descoberta de Conhecimento em Bases de Dados”, conhecido como KDD (Knowledge Discovery in Databases). O processo de KDD pode ser dividido em três etapas operacionais [Goldschmidt e Passos 2005]: Pré-Processamento- Nesta etapa é realizada a formatação dos dados até que fiquem no formato necessário para a execução mineração. Consiste nas atividades de limpeza, integração, seleção e transformação de dados. Mineração de Dados- Durante essa etapa é realizada a busca do conhecimento conforme o contexto a ser analisado através da ferramenta de KDD. É a principal etapa no processo e consiste na aplicação de técnicas inteligentes para obter a extração de padrões de interesse do usuário. Pós-Processamento- Etapa responsável por realizar o tratamento do conhecimento obtido na Mineração de Dados. É importante, nesta etapa, a análise dos resultados por especialistas da área do problema que está sendo minerado. Este trabalho tem por objetivo realizar tarefas de mineração em dados da produção de cana-de-açúcar no Estado de São Paulo, visando a encontrar grupos de produtores com características semelhantes, de forma que possam ser desenvolvidas políticas apropriadas para cada grupo ou até mesmo viabilizar a criação de arranjos produtivos locais(APLs). O agronegócio brasileiro desempenha um importante papel na economia brasileira. Segundo o Ministério da Agricultura, Pecuária e Abastecimento [MAPA 2009] o agronegócio brasileiro foi responsável, em 2004, por 33% do Produto Interno Bruto (PIB), 42% do volume das exportações totais e 37% dos empregos brasileiros. No ano de 2006, as exportações atingiram a marca de US$ 49,4 bilhões e geraram um superávit comercial de US$ 42,7 bilhões [Barros e Silva 2008]. Nesse contexto, destaca-se a cana-de-açúcar, uma das culturas mais importantes do agronegócio brasileiro, pois possui uma relevante função estratégica na economia do Brasil. O aquecimento global e a busca por alternativas a queima de combustíveis fósseis, tornam o etanol uma importante fonte de energia renovável. Além disso, destaca-se a produção de açúcar, cujo valor médio da tonelada vem apresentando um crescimento ao longo dos últimos anos, passando de US$ 279,35 a US$ 458,04, de 2005 a 2009 respectivamente [MAPA 2009]. Destaca-se, nesse cenário, o desempenho do estado de São Paulo, tanto em produção quanto em produtividade. A previsão da safra 2009/2010, nesse estado, aponta para uma produção de 364 milhões de toneladas ou 57,9% da produção brasileira de canade-açúcar, sendo também o estado que apresenta a maior produtividade, a qual alcançará 86,8 t/ha, de acordo com as previsões de CONAB (2009). O estado de São Paulo também é aquele que apresenta a maior produção de açúcar e de etanol hidratado. Cerca de 63,3% do açúcar, o equivalente a 19,7 milhões de toneladas, foi produzido no estado de São Paulo na safra 2008/2009, enquanto o percentual do etanol hidratado atingiu 59,0%, correspondendo a 10,7 milhões de m3, de acordo com informações veiculadas pela União da Indústria de Cana-de-Açúcar [UNICA 2009]. Pela importância do Brasil no cenário internacional da cana-de-açúcar e de seus produtos, e do estado de São Paulo no contexto brasileiro, justifica-se um estudo das relações existentes entre os fatores que possam influenciar no agronegócio dessa cultura, por meio da aplicação de ferramentas de apoio ao planejamento ou tomada de decisão como a mineração de dados. 2. Materiais e Métodos Neste trabalho foram avaliados os dados de cana-de-açúcar do Estado de São Paulo que, conforme citado, representa 57,9% da produção brasileira de cana-de-açúcar e tem a maior produtividade no contexto brasileiro, justificando assim a realização de aplicação de ferramentas de mineração de dados visando a identificação de características específicas das áreas produtoras de cana-de-açúcar para o planejamento de ações para este setor. Os dados foram coletados a partir dos sites do IBGE [IBGE 2008] e do projeto LUPA (São Paulo, 2008) referente ao ano agrícola 2007/2008, para cada cidade do Estado que possuísse plantação de cana-de-açúcar, totalizando 505 cidades. Os seguintes atributos foram coletados do IBGE: área plantada (hectares), área colhida (hectares), quantidade produzida (toneladas), valor da produção (em mil reais), rendimento médio da produção (quilograma por hectare, transformado em tonelada por hectare). Os atributos coletados a partir do projeto LUPA foram o número total de UPAs (unidade produtiva agrícola), o número de UPAs de cana-de-açúcar e também os dados referentes à mecanização de cada cidade. Vale ressaltar que os dados sobre mecanização estavam relacionados às cidades e não exclusivamente ao cultivo de cana-de-açúcar. Por essa razão foi necessário a escolha das máquinas que são utilizadas tipicamente em plantações de cana-de-açúcar, esta seleção foi feita com a ajuda de especialistas1 na área agrícola e resultou nos seguintes atributos: arado subsolador, carregadeira de cana, conjunto de irrigação autopropelido e terraceador. Foi coletado também número total de engenhos em cada cidade. Para atingir o objetivo da pesquisa foi utilizada a ferramenta WEKA. O Waikato Environment for Knowledge Analysis (WEKA) é uma ferramenta de mineração de dados de código aberto, desenvolvida pelo departamento de Ciência da Computação da Universidade de Waikato da Nova Zelândia. Implementa os principais algoritmos das tarefas de mineração: classificação, associação e clusterização. A Classificação de Dados é citada por Goldschimidt e Passos(2005) como uma das tarefas do KDD mais populares e importantes, consiste na busca por uma função que permita associar corretamente cada registro do banco de dados a uma classe. Para isso é necessário encontrar um modelo para o atributo alvo, utilizando uma função aplicada nos valores de outros atributos. A tarefa de Regras de Associação consiste na busca por regras de associação freqüentes e válidas baseando-se em parâmetros de suporte, a freqüência da regra, e o nível de confiança, que expressa a força da regra, que devem ser especificados pelo especialista em KDD juntamente com o especialista no domínio da aplicação. A tarefa de Clusterização (ou agrupamento) consiste em particionar os registros da base de dados em subconjuntos (ou clusters) de maneira que elementos presentes em um cluster, compartilhem um conjunto de propriedades comuns e que os diferenciem dos elementos de outros clusters. A análise de um cluster está envolvida principalmente com a organização de um conjunto de padrões conforme a medida de similaridade definida. Em geral o conjunto de dados utilizados para efetuar a clusterização não possui uma classe pré-definida, a clusterização pode ser utilizada para definir classes para o conjunto em análise [Han e Kamber 2006]. Na etapa de pré-processamento dos dados foi necessária a eliminação do atributo área plantada que continha os mesmos valores que o atributo área colhida, para todas as instâncias. Na realidade qualquer um dos dois poderiam ser retirados, a escolha pela retirada de área plantada foi aleatória. 1 Gerson Arruda Medeiros e Luiz Antônio Daniel, Doutores em engenharia agrícola –Fatec Indaiatuba, reunião de trabalho em 16/11/2009. Para a realização da etapa de mineração de dados foi definida a seguinte estratégia, conforme sugerido por Han e Kamber (2006): inicialmente foi realizado o processo de clusterização para a segmentação das cidades produtoras de cana-de-açúcar em grupos similares e em seguida foram aplicadas técnicas de classificação para validar a segmentação realizada e verificar a capacidade preditiva do modelo. O algoritmo de clusterização utilizado foi o DBScan, que é classificado como baseado em densidade. Algoritmos baseados em densidade têm sido utilizados para descobrir clusters com forma arbitrária. Esses métodos consideram clusters como regiões densas de objetos no espaço de dados que são separadas por regiões com baixa densidade, que representam ruídos [Han e Kamber 2006]. A utilização deste algoritmo objetivou a determinação do número de clusters apropriado ao modelo, outros algoritmos de clusterização, como o K-Means (no Weka denominado SimpleKMeans), necessitam da definição prévia do número de clusters. Três clusters foram definidos pelo algoritmo DBSCan e apenas três instâncias foram consideradas outliers,por essa razão este valor foi considerado adequado ao experimento. Uma vez definido o número de clusters utilizou-se a ferramenta Matlab, para a associação de cada cidade a seu respectivo cluster. Apesar do algoritmo DBScan, na ferramenta Weka, realizar esta associação, a forma como o Matlab apresenta estes resultados é mais fácil para transportá-los para uma planilha eletrônica. Ressalta-se que o algoritmo de clusterização utilizado foi o K-Means, uma vez todas as instâncias deveriam ser classificadas em algum grupo e este algoritmo não detecta a presença de ruídos ou outliers. Os dados resultantes da clusterização realizada pelo Matlab foram transportados para a planilha original. O atributo acrescentado passou a ser utilizado como a classe do conjunto de dados. Para a realização da tarefa de classificação foram utilizados os principais métodos classificadores propostos na literatura: árvores de decisão, classificador Bayesiano simples, K- vizinhos mais próximos (K-NN),redes neurais e support vector machine (SMO). Estes métodos são descritos em detalhes em Han e Kamber (2006) e também em Goldschmidt e Passos (2005). A utilização de métodos de classificação tem o objetivo de verificar a capacidade preditiva do modelo estudado. 3. Resultados e Discussões Conforme citado na seção anterior, para a realização deste experimento foram selecionados dados da produção e produtividade da cana-de-açúcar no Estado de São Paulo, além de dados de mecanização para esta cultura. Inicialmente foi utilizada a tarefa de clusterização para segmentar as cidades em grupos similares nos valores de seus atributos. Três clusters foram considerados, o cluster 1 com 121 cidades(24% das instâncias), o cluster 2 com 25 cidades (5% das instâncias) e o cluster 3 com 359 cidades (71% das cidades). Em seguida, para a tarefa de classificação, foram selecionadas as principais técnicas de classificação propostas na literatura. Para cada técnica os seguintes classificadores listados na Tabela 1, presentes no Weka, versão 3.7, foram escolhidos: Tabela 1 – Classificadores utilizados Técnica Classificador Árvores de decisão J48, RandomForest, RandomTree Classificador Bayesiano simples Naïve Bayes K-vizinhos mais próximos (K-NN) IBK – K=5 Redes neurais MultilayerPerceptron SMO SMO Os algoritmos de classificação utilizam uma parte do conjunto de dados para treinamento e uma parte para validar o modelo. Neste trabalho foi utilizada a opção k-fold cross-validation (validação cruzada), que divide o conjunto de dados em K partes, separa uma parte para teste e realiza o treinamento com as demais partes; este procedimento é repetido para todas as partes. A acurácia final do modelo é a média das acurácias parciais calculadas para cada parte. A validação cruzada apresenta bons resultados quando o conjunto de dados é pequeno. É apresentada na Tabela 2 uma sumarização dos dados obtidos para cada classificador. Salienta-se que os dados foram balanceados antes da classificação para que não houvesse influência da classe com maior número de elementos sobre as demais classes. Pode-se observar que os algoritmos baseados em árvore de decisão obtiveram os melhores resultados, em especial o algoritmo RandomTree obteve 100% de precisão e também foi o que gerou a maior árvore e, consequentemente, o maior número de regras, conforme apresentado na Figura 1. Tabela 2- Acurácia do modelo por classificador Classificador Acurácia J48 99.41% RandomForest 99.80% RandomTree 100% Naïve Bayes 92.67% IBK – K=5 93.07% MultilayerPerceptron 97.63% SMO 93.86% O algoritmo Naïve Bayes apresentou a menor precisão, o que pode indicar alguma dependência entre as atributos, uma vez que o melhor desempenho deste algoritmo se dá quando as variáveis são independentes. De acordo com Han e Kamber (2006), o algoritmo considera que o efeito do valor de um atributo de uma determinada classe é independente dos valores dos outros atributos. O algoritmo MultilayerPerceptron apresentou um bom resultado, mas inferior aos algoritmos de árvore de decisão que tem ainda a vantagem de serem muito mais rápidos. Figura 1 – Árvore RandomTree Considerações Finais Neste trabalho foi apresentada a aplicação de tarefas e técnicas de mineração de dados em dados da produção e produtividade de cana-de-açúcar no estado de São Paulo. Este trabalho se justifica pela importância da cultura de cana-de-açúcar no agronegócio brasileiro, que possui uma relevante função estratégica na economia do Brasil, uma vez que o etanol é uma importante fonte de energia renovável, além da importância da produção de açúcar. Destaca-se, nesse cenário, o desempenho do estado de São Paulo que apresenta a maior produção de açúcar e de etanol hidratado. Objetivou-se nesta pesquisa segmentar a áreas produtoras de açúcar em grupos similares de forma que possam ser definidas políticas especificas para cada grupo. Os dados analisados são referentes à produção, produtividade e mecanização da cana-de-açúcar no Estado de São Paulo, considerando 505 cidades que possuem esta cultura. A tarefa de clusterização foi utilizada para a formação de grupos. Utilizou-se o técnica de classificação baseada em densidade, denominado DBScan, para definir o número de clusters e em seguida a técnica K-Means, para definição destes clusters. A utilização da técnica K-Means foi necessária porque todas as instâncias deveriam ser classificadas em algum grupo. O algoritmo DBScan não classifica todas as instâncias, algumas podem ser consideradas ruídos ou outliers. Após o processo de clusterização foram utilizadas técnicas de classificação visando a verificação da capacidade preditiva do modelo. Foram utilizadas as principais técnicas de classificação definidas na literatura: árvores de decisão, classificador Bayesiano simples, K- vizinhos mais próximos (KNN),redes neurais e support vector machine (SMO). Destaque pode ser dado aos resultados obtidos pelos classificadores baseados em árvore de decisão, em especial ao algoritmo RandomTree que apresentou precisão de 100% e o conjunto de regras mais interessante. A partir dos resultados obtidos pode-se dizer que é possível a utilização das tarefas de clusterização e classificação para a determinação de grupos de produtores de cana-deaçucar com características semelhantes. A utilização desta segmentação pode se utilizada para a definição de políticas específicas para cada grupo. Sugere-se como trabalho futuro o acréscimo de atributos, como por exemplo, as características do solo, os níveis de chuva, a declividade do terreno e outras características que podem afetar a produtividade da canade-açúcar. Sugere-se ainda, após a inclusão destes novos atributos, a utilização da técnica de associação que não foram utilizadas neste trabalho porque não apresentou resultado satisfatório. Referências Bibliográficas Barros, G. S. C.; Silva, S. F., “A Balança Comercial Do Agronegócio Brasileiro De 1989 A 2005”, Rev. Econ. Sociol. Rural, V. 46, N.4, P.905-935. Dez 2008 CONAB - Companhia Nacional De Abastecimento. “Acompanhamento De Safra Brasileira: Cana-De-Açúcar, Segundo Levantamento.”, Brasília: Conab, Setembro De 2009. 5p. Disponível Em: <Http://Www.Conab.Gov.Br/Conabweb/Download/Safra/2_Levantamento2009_Set2009. Pdf>. Acesso Em: 27 De Novembro De 2009. Goldschmidt R., Passos E., Data Mining – Um Guia Prático, Rio De Janeiro: Elsevier, 2005. Han, J. e Kamber, M., Data Mining: Concepts And Techniques, Second Edition, Morgan Kaufmann, 2006. IBGE – Instituto Brasileiro De Geografia E Estatística. Sidra.Disponível Em: http://www.Sidra.Ibge.Gov.Br/Bda/Tabela/Listabl.Asp?C=839&Z=T&O=11. Acesso Em 9/11/2009. MAPA - Ministério Da Agricultura, Pecuária E Abastecimento, Estatísticas, Http://www.Agricultura.Gov.Br/Pls/Portal/Docs/Page/Mapa/Estatisticas/CoMercio_Ex terior_Brasileiro/21exp.%20anual%20a%C7ucar.Pdf>. Acesso Em: 27/11/2009. São Paulo (Estado). Secretaria De Agricultura E Abastecimento. Coordenadoria De Assistência Técnica Integral. Instituto De Economia Agrícola. “Levantamento Censitário De Unidades De Produção Agrícola Do Estado De São Paulo - Lupa 2007/2008.” São Paulo: Saa/Cati/Iea, 2008. Http://www.cati.sp.gov.br/projetolupa. Acesso Em: 24/11/2009. UNICA – União da Indústria de Cana-de-Açúcar, Dados e cotações – estatística, http://www.unica.com.br/dadosCotacao/estatistica/. Acesso em: 27/11/ 2009.