Classificação de Fatores que mais Impactam a Produtividade da Cana-deAçúcar usando mineração de dados. Ederson Garcia1, Luis Camolesi Jr2 1 EsalqTec Incubadora Tecnológica – ESALQ/USP; Maxit-Sistemas, Piracicaba, São Paulo, Brasil, [email protected] 2 Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp), Campinas, São Paulo, Brasil, [email protected] RESUMO A pesquisa para aumentar a produtividade é um tema recorrente na agricultura, bem como o apelo crescente para a preservação do meio ambiente. Este artigo apresenta, através do processo de descoberta de conhecimento em bases de dados (KDD), um método sistemático para classificação dos fatores que impactam na produtividade de modo a que os agricultores possam identificar e agir sobre os processos que causam os maiores impactos e que deve trazer os maiores retornos com investimentos na produção. Este processo KDD utilizada a técnica de árvore de decisão que mostra os fatores com maior influência na produtividade agrícola. Na pesquisa foram utilizados os dados sobre as culturas de cinco anos (entre 2010 e 2014) de duas organizações na região Assis-SP. PALAVRAS-CHAVE: Descoberta de Conhecimento em bases de dados; Mineração de dados Agrícola. ABSTRACT The research to increase productivity is a recurring theme in agriculture, as well as the increasing appeal for the environment preservation. This article presents, through the process of Knowledge Discovery in Databases (KDD), a systematic method to classification of factors that impact in productivity so that farmers can identify and act on processes that cause the greatest impacts and that should bring the greatest returns with investments on production. This process KDD used the decision tree technique that shows the factors with major influence in agricultural productivity. In the research was used data about of crops five years (between 2010 and 2014) of two organizations at Assis-SP region. KEYWORDS: Knowledge discovery in databases; Agricultural data mining. INTRODUÇÃO O agronegócio é um importante setor para a economia do Brasil. A cana-de-açúcar, por sua vez, possui uma cadeia de produção que é destaque do agronegócio brasileiro e que segundo o Procana, a cadeia foi responsável por aproximadamente 2% do PIB nacional e por 31% do PIB da agricultura no Brasil em 2012, tendo empregado cerca de 4,5 milhões de pessoas. Segundo o (CEPEA; 2014), “O Agronegócio é um setor estratégico para a economia brasileira e, especialmente em 2015, pode ser o grande condicionante do seu desempenho. Representando 23% do PIB brasileiro, ele pode ser o único setor com crescimento mais expressivo diante da indústria claudicante e dos serviços em processo de exaustão. ” O setor passa por dificuldades econômicas e por isso é necessário investir no aumento da produtividade, em que o objetivo é a eficiência em produzir mais no mesmo espaço físico. Neste sentido, órgãos como o BNDES, FINEP e FAPESP têm investido em tecnologias inovadoras através de programas como o PAISS (FINEP), o Inova Agro (BNDES). Com o aumento da preocupação com a preservação do meio ambiente, aliada a necessidade da produção de açúcar, álcool e energia elétrica, uma das alternativas é o investimento no aumento da produtividade agrícola, isto é, produzir mais cana-de-açúcar na mesma área física, ou em uma área menor ter a mesma produção. Com isso, faz-se uma racionalização do uso dos recursos naturais e também uma diminuição dos custos com terras pelos produtores rurais. O objetivo deste artigo é descrever a pesquisa realizada que aplicou o processo de descoberta de conhecimento em base de dados (Knowledge Discovery in Databases - KDD) para auxiliar o produtor rural a aumentar sua produtividade sem a necessidade de aumento da área plantada. O processo KDD envolveu a utilização da técnica de Classificação em mineração de dados, particularmente no desenvolvimento de Árvores de Decisão para o reconhecimento dos fatores envolvidos na produção de açúcar e álcool que apresentam maior impacto na produtividade. Este artigo aborda como o processo de descoberta de conhecimento em base de dados pode ajudar a entender os fatores de impacto na produtividade e ajudar a melhorar os processos produtivos envolvidos. Especificamente, este trabalho destaca quais são os maiores influenciadores, positivos ou negativos, da produtividade medida através do Açúcar Total Recuperado (ATR). Adicionalmente, esse trabalho apresenta requisitos e resultados experimentais para promover o desenvolvimento de um software específico cujo processamento de dados possa diagnosticar a situação da lavoura, permitindo que o produtor rural, de forma fácil e intuitiva, aplique o processo de descoberta de conhecimento e por consequência consiga usar os diagnósticos para melhorar a produtividade da lavoura. Trabalhos Relacionados Existem alguns poucos trabalhos relativos à utilização da mineração de dados aplicados à agricultura para geração de Árvores de Decisão. Podemos citar: Cintra (2012) que utiliza lógica fuzzy para criar uma Árvore de Decisão com predição de alerta de ferrugem no café em plantações no Brasil; Girolamo, (2014) que usa redes neurais artificiais e Árvore de Decisão para criar uma predição de infestação de ferrugem no café; e Giasson (2013) que avalia cinco algoritmos de Árvores de Decisão e três tipos de modelos digitais de elevação para mapeamento digital de solos na Bacia do Lageado Grande (RS). A utilização de mineração de dados na cultura de cana-de-açúcar tem alguns poucos trabalhos como em (SOUZA et al. 2010), que faz uma análise dos atributos do solo e da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e Árvore de Decisão. Ainda, Garcia e Vieira (2008) apresentam uma técnica de mineração de dados multirelacional para um problema semelhante ao apresentado, contudo a relação desse trabalho estava voltada para o confronto de ganhos e perda em relação ao esperado. MATERIAL E MÉTODOS A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de conhecimento em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o qual é dividido em cinco etapas principais: Seleção dos dados brutos; Pré-processamento dos dados selecionados; Transformação dos dados pré-processados; Mineração dos dados transformados e Interpretação e Avaliação dos padrões encontrados pela mineração. Para aplicação desta pesquisa foram selecionadas duas usinas de uma organização de grande porte de produção de açúcar e álcool no Brasil, sendo ambas situadas na região de Assis no estado de São Paulo. Para seleção dos dados usados no processo, foram realizadas seções de trabalho com a equipe da organização envolvida no cotidiano da produção agrícola, para recolhimento de experiências sobre os fatores (variáveis) de influência na produtividade agrícola. Como resultado, foram apontados diversos fatores (variáveis) com diferentes graus de impactos e facilidade de manejo (atuação), descartando-se aqueles que não podem ser operados. Por exemplo, a precipitação pluviométrica impacta fortemente na produtividade da cana-de- açúcar, porém não é possível seu manejo, por outro lado, a aplicação de insumos de forma adequada impacta na produtividade e é possível de ser manejada. Com as variáveis selecionadas, analisaram-se quais destas estariam contempladas nos sistemas de informação em uso. A organização utiliza-se do sistema ERP de gestão agrícola e deste foram analisadas quais as tabelas de dados e colunas possuíam dados relevantes. Para acesso a estes dados foi desenvolvido um extrator de dados e modelado uma base de dados para armazenamento dos dados pré-processados. Partindo dos dados pré-processados, foi realizada a mineração de dados aplicando-se a técnica de Árvore de Decisão com utilização do algoritmo J48 do Weka (HALL et al., 2009). O J48 é uma implementação em Java do algoritmo C4.5 (QUINLAN, 1993) que gera Árvores de Decisão a partir de um conjunto de dados de treinamento. A cada nó, o algoritmo determina o atributo que é mais eficientemente para subdividir o conjunto das amostras em subconjuntos homogêneos. Para determinar o atributo mais eficiente o critério usado pelo J48 é o ganho da informação definido em (QUINLAN, 1993; HALL et al., 2009). O Processo de Classificação dos Fatores que Impactam na Produtividade A abordagem empregada nesta pesquisa para geração de Árvore de Decisão na identificação de regras de classificação de produtividade baseado em dados sobre colheita foi apoiada no processo de KDD, visto que sua utilização está consolidada na área de tecnologia. Esta seção apresenta os passos percorridos durante este processo, desde a seleção e preparação dos dados brutos do processo de colheita, passando pela etapa de mineração dos dados pré-processados até a fase de análise dos resultados preliminares obtidos. 1. Pré-processamento dos dados A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível satisfatório de completude. Todas essas atividades de preparação dos dados visam, sobretudo, otimizar a significância e a confiabilidade dos resultados gerados na etapa de mineração. Nessa pesquisa, a etapa de pré-processamento compreendeu atividades para seleção, transformação, centralização, imputação e discretização dos dados, as quais serão apresentadas nas próximas seções. 1.1. Seleção e Limpeza dos Dados O conjunto de dados a ser analisado foi selecionado com base em critérios gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições de como foram aplicados. o Critérios gerais para seleção dos dados: Dados de 5 anos produção de cana de açúcar de 2 usinas (safras de 2010 a 2014); Dados das características dos locais de produção de 2 usinas (safras de 2010 a 2014). Os critérios específicos para seleção dos dados levaram em conta especialmente a questão da completude, uma das premissas básicas para que a etapa de mineração de dados seja bem sucedida. A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos dados. o Critérios específicos para seleção das colheitas: Somente dados dos locais com produtividade válida (acima de 30t/ha e abaixo de 250t/ha); Somente dados dos locais com o valor do ATR (kg/t) válido entre 80 e 200. Na tabela de histórico de produção que contem a sumarização da colheita dia-a-dia havia 95.005 registros, depois de sumarizados por talhão, o resultado foi uma base de dados de 18.973 registros. A aplicação dos critérios nesta base de dados causou a exclusão de 1.373 registros (7,2% do total). o Considerando os pontos com maior riqueza e uniformidade de dados para determinação dos Critérios específicos das variáveis das colheitas: Somente variáveis cujas frequências tinham valor válido, isto é, diferente de nulo e diferente de “A Definir” maior que 50% em relação a toda a base de dados. Após a aplicação destes critérios específicos, dos 34 parâmetros pré-selecionados inicialmente, 11 foram excluídos da análise por não terem dados válidos, restando 23 parâmetros. Permaneceram as seguintes variáveis: ambiente de produção; ciclo de desenvolvimento; classe de declividade; classe de fertilidade; classe tipo propriedade; empresa; espaçamento; estágio; grupo estágio; grupo tipo propriedade; modulo administrativo; sistema de colheita; sistema de cultivo; sistema de irrigação; sistema de plantio; textura de solo; tipo de maturação; tipo de propriedade; tipo de solo; topografia; unidade administrativa; unidade industrial e variedade de cana-de-açúcar. 1.1.2. Integração dos Dados Os dados selecionados de uma base de dados relacional do ERP em um sistema gerenciador de banco de dados Oracle foram eliminados, sumarizados, transformados e carregados por meio de um processo de extração, transformação e carga (ETL – Extract, Transform and Load). Estes dados foram integrados em um Data Warehouse Relacional (Oracle) sumarizado de forma a ter os atributos contínuos, como o ATR (Açúcar Total Recuperado - quilos por hectare), sumarizados. Na tabela de histórico de produção estavam os dados de produção diaa-dia com os valores produtividade do ATR totalizando 253.053 registros e na tabela de talhões estavam as áreas dos talhões em hectare (ha). Os dados foram sumarizados por talhão resultando em 61.671 registros, contendo os dados de produção, dos talhões e demais variáveis referentes à produção, além de características do talhão, como tipo de solo, ambiente de produção entre outros. Depois de carregados, os dados foram exportados para um arquivo texto em formato adequado para importação no WEKA (ferramenta de Mineração de Dados) como representado na Figura 1. Figura 1 – Representação do Processo usado para integração dos dados. ERP – Oracle Relacional Oracle Dimensional ETL Seleção, Limpeza, Transformação, sumarização e Carga Conversão dos dados para o Formato do WEKA ARFF Carregamento no WEKA Fonte: (os autores) 1.1.3. Transformação dos Dados - Discretização Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam categorizados por meio de valores discretos, processo denominado discretização. De acordo com Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado para a técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em discreto envolve duas tarefas: definir quantas categorias devem existir e como será feito o mapeamento dos valores contínuos para os valores discretos. Para a discretização dos dados foi utilizada a estatística descritiva por meio da distribuição das frequências de quartil. Estabelecendo 4 faixas de valores para o ATR, com descrição de “Baixo”, “Médio Baixo”, “Médio Alto” e “Alto”, sendo “Baixo” o indicativo do valor mínimo até o primeiro quartil, o “Médio Baixo” do primeiro quartil até a mediana, o “Médio Alto” da mediana até o terceiro quartil e o “Alto” do terceiro quartil até o valor máximo, conforme é apresentado na Figura 2. Esse processo foi realizado para cada safra, para cada usina e tipo de propriedade. Figura 2 – Representação do Processo de discretização dos dados. FAIXAS DO ATR (kg/ha) Baixo >= 4.002,91 < 8.228,88 Médio Baixo >= 8.228,88 < 10.316,55 Médio Alto >= 10.316,55 < 12.722,67 Alto >= 12.722,67 <=32.008,85 Fonte: (os autores) RESULTADOS E DISCUSSÃO Deve ser considerado que a descoberta de conhecimento é um processo inerentemente exploratório e iterativo, característica que demanda ajustes e, consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por este motivo, foram feitas iterações analisando-se diversos aspectos como safras e o tipos de propriedade (própria e terceiros) para se gerar resultados satisfatórios. Desse modo, nas duas usinas e com os cinco anos de safra, foram feitas análises separadas entre as safras e os tipos de propriedade, sendo Usina 1/Cana-de-açúcar própria e Fornecedor e Usina 2/ Cana-de-açúcar própria. A Usina 2 não tinha informações significativa de cana-de-açúcar de fornecedor. Assim, em cada safra foram classificados os maiores influenciadores com resultados apresentados na figura 3. Na figura 3 é possível observar que a variável de maior ocorrência é Variedades com 7 instâncias, seguida de Estágio com 6 instâncias e as demais têm 1 ocorrência cada. Figura 3 – Principais influenciadores nas safras. Unidades 21011 PRINCIPAL INFLUENCIADOR 21112 21213 21314 21415 Variedades Usina 1 - Cana Própria Variedades Estágios Classe Fertilidade Maturação Estágios Usina 1 - Cana Fornecedor Variedades Estágios Estágios Grupo Estágios Variedades Usina 2 - Cana Própria Ambiente Produção Variedades Variedades Variedades Estágios Ciclo Desenvolvimento Estágio Fonte: (os autores) A listagem a seguir exemplifica uma árvore gerada para a safra de 2014 da Usina 1/Cana-de-açúcar Própria, cuja representação gráfica é apresentada na figura 4. VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES VARIEDADES = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = RB925345: BAIXO (15.0/5.0) SP87-365: BAIXO (59.0/25.0) SP83-2847: BAIXO (419.0/289.0) CTC941295: BAIXO (18.0/11.0) RB925211: BAIXO (15.0) SP81-3250: BAIXO (1501.0/722.0) RB855036: BAIXO (321.0/168.0) SP89-1115: BAIXO (66.0/31.0) CTC9: BAIXO (83.0/25.0) CTC3: BAIXO (51.0/25.0) PO88-62: BAIXO (88.0/10.0) SP82-3530: NORMAL ABAIXO (32.0/11.0) RB855156: NORMAL ABAIXO (75.0/22.0) CTC7: NORMAL ABAIXO (727.0/430.0) RB855536: NORMAL ABAIXO (777.0/449.0) RB855453: NORMAL ABAIXO (812.0/527.0) RB72454: NORMAL ABAIXO (39.0/18.0) CTC11: NORMAL ABAIXO (16.0) CTC12: NORMAL ACIMA (27.0/10.0) CTC963263: NORMAL ACIMA (26.0/11.0) CTC15: NORMAL ACIMA (1182.0/719.0) CTC17: NORMAL ACIMA (240.0/134.0) CTC2: NORMAL ACIMA (813.0/546.0) RB867515: NORMAL ACIMA (338.0/204.0) IACSP93-3046: NORMAL ACIMA (15.0) CTC18: NORMAL ACIMA (15.0/3.0) RB935621: NORMAL ACIMA (10.0/3.0) SP80-3280: NORMAL ACIMA (86.0/45.0) SP90-3414: NORMAL ACIMA (65.0/40.0) RB966928: ALTO (946.0/362.0) CTC4: ALTO (1504.0/510.0) RB965917: ALTO (15.0/3.0) RB92579: ALTO (203.0/106.0) CTC19: ALTO (17.0/3.0) CTC20: ALTO (20.0/8.0) A classificação foi gerada levando em consideração 23 variáveis disponíveis e a variável que representou maior influência nas usinas pesquisadas no decorrer de 5 safras foi a variedade da cana-de-açúcar. Com esse resultado, o agricultor pode aprofundar seus estudos para melhorar a produtividade focando nessa variável, pois deve trazer os melhores resultados. Figura 4 – Representação gráfica da árvore gerada pela mineração de dados. Variedades ATR (kg/ha) Baixo ATR (kg/ha) Médio Baixo ATR (kg/ha) Médio Alto ATR (kg/ha) Alto Fonte: (os autores) A pesquisa apontou que a variedade de cana-de-açúcar é a variável que mais influencia na produtividade, devido a melhor classificação da distribuição da produtividade nas áreas estudadas. Para aprofundamento nos resultados, pode-se usar uma ferramenta de análise dinâmica que facilita o entendimento dos dados, caso-a-caso. Sabe-se que cada variedade de cana-de-açúcar tem suas características e necessidades e que cada área de terra também tem suas próprias características, potencialidades que são dinâmicas. Determinar a melhor variedade de cana-de-açúcar para cada área de terra e suas características deve ser um processo constante que este trabalho procurou contribuir. É importante observar que os resultados apresentados neste artigo não podem ser generalizado e as empresas devem aplicar o processo apresentado em seus próprios dados para obter suas conclusões específicas. CONCLUSÕES Durante esta pesquisa observou-se como as técnicas de mineração de dados podem prover subsídios valiosos para a tomada de decisão no que diz respeito à gestão das lavouras de canade-açúcar com intuito de melhorar a produtividade dos canaviais. Como complemento a esse trabalho, temos a iniciativa para novos estudos acrescentando dados da influência das aplicações de insumos (fertilizantes e herbicidas), além da influência do clima (precipitação e tempo de radiação solar) de cada região dentro da mesma safra e a influência de pragas e plantas daninhas. AGRADECIMENTOS Agradecemos as instituições que apoiaram essa pesquisa: FAPESP, Processo: 2013/50657-6, Fundação de Amparo à Pesquisa do Estado de São Paulo, FT/Unicamp, EsalqTec – Incubadora Tecnológica da Esalq/USP; Grupo NovAmérica, pelos dados e discussões valiosas e Maxit-Sistemas pelos recursos humanos e equipamentos. REFERÊNCIAS CEPEA, ESALQ. USP: Perspectivas para o Agronegócio em 2015; Piracicaba-SP, 2014. Disponível em <http://www.cepea.esalq.usp.br/> . Acesso em 23 de Março de 2015 CINTRA, MARCOS EVANDRO; MEIRA, CARLOS A. A; MONARD MARIA C; CAMARGO, HELOISA. The use of fuzzy decision trees for coffee rust warning in Brazilian crops. In: Intelligent Systems Design and Applications (ISDA). 11th International Conference on. IEEE, 2011. p. 13471352, 2011. DE SOUZA, ZIGOMAR MENEZES, CERRI, DOMINGOS GUILHERME PELLEGRINO; COLET, MARCELO JOSÉ; RODRIGUES, LUIZ HENRIQUE ANTUNES; MAGALHÃES, PAULO SÉRGIO GRAZIANO; MANDONI, RAFAEL JUNQUEIRA ARAÚJO. Análise dos atributos do solo e da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de decisão. Ciência Rural, v. 40, n. 4, p. 840-847, 2010. DI GIROLAMO NETO, C.; RODRIGUES, LHA; MEIRA, C.A.A. Modelos de predição da ferrugem do cafeeiro (Hemileia vastatrix Berkeley & Broome) por técnicas de mineração de dados. Embrapa Informática Agropecuária-Artigo em periódico indexado (ALICE), 2014. GARCIA, EDERSON; VIEIRA, MARINA TERESA PIRES. Estudo de caso de mineração de dados multi-relacional: aplicação do algoritmo connetionblock em um problema da agroindústria. In: Proceedings of the 23rd Brazilian symposium on Databases. Sociedade Brasileira de Computação, p. 224-237, 2008 GIASSON, ELVIO; HARTEMINK, ALFRED EDUARD; TORNQUIST, CARLOS GUSTAVO; TESKE, RODRIGO; BAGATINI, TATIANE. Avaliação de cinco algoritmos de árvores de decisão e três tipos de modelos digitais de elevação para mapeamento digital de solos a nível semi detalhado na Bacia do Lageado Grande, RS, Brasil. Ciência Rural, v. 43, n. 11, p. 1967-1973, 2013. HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., PETER, R., & WITTEN, I. H. The weka data mining software: An update. Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, Paris, France. v. 11, n. 1, p. 10-18, 2009 QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan Kaufmann Publishers, 1993. TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna. 900 p.