ISSN 1984-9354 APLICAÇÃO DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS AGRÍCOLA PARA RECONHECIMENTO DE FATORES QUE IMPACTAM NA PRODUTIVIDADE DA CANA-DE-AÇÚCAR Área temática: Gestão da Produção Ederson Garcia [email protected] Luiz Camolesi Jr [email protected] Resumo: A pesquisa pelo aumento na produtividade é constante nas empresas agrícolas que produzem cana de açúcar, assim como é crescente o apelo pela preservação do meio ambiente. Este artigo apresenta, através do processo de descoberta de conhecimento em bases de dados, um método sistemático de classificação dos fatores que impactam a produtividade de forma que o agricultor possa identificar e atacar os pontos que causam os maiores impactos e que podem trazer os maiores retornos. Neste processo foi utilizada a técnica de Árvore de Decisão em que são apresentados os fatores que mais influenciam na produtividade agrícola. Na experimentação foram usados os dados da safra 2014/2015 de quatro usinas da região de São Jose do Rio Preto. Palavras-chaves:. Produtividade de Cana de Açúcar; Gestão do Processo de Colheita Agrícola; Descoberta de Conhecimento em bases de dados; Mineração de dados; XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 1. Introdução O agronegócio é um importante setor para a economia do Brasil. A cana-de-açúcar, por sua vez, possui uma cadeia de produção que é um dos destaques do agronegócio brasileiro e que segundo o Procana, a cadeia foi responsável por aproximadamente 2% do PIB nacional e por 31% do PIB da agricultura no Brasil em 2012, tendo empregado cerca de 4,5 milhões de pessoas. Segundo o (CEPEA; 2014) “O Agronegócio é um setor estratégico para a economia brasileira e, especialmente em 2015, pode ser o grande condicionante do seu desempenho. Representando 23% do PIB brasileiro, ele pode ser o único setor com crescimento mais expressivo diante da indústria claudicante e dos serviços em processo de exaustão.” O setor passa por dificuldades econômicas e por isso é necessário investir no aumento da produtividade, em que o objetivo é a eficiência em produzir mais no mesmo espaço físico. Neste sentido, órgãos como o BNDES, FINEP e FAPESP têm investido em tecnologias inovadoras através de programas como o PAISS (FINEP), o Inova Agro (BNDES), entre outros. Este artigo aborda como o processo de descoberta de conhecimento em base de dados pode ajudar a entender os fatores de impacto na produtividade e ajudar a melhorar os processos produtivos envolvidos. 1.1 Objetivo Com o aumento da preocupação com a preservação do meio ambiente, aliada a necessidade da produção de açúcar, álcool e energia elétrica, uma das alternativas é o investimento no aumento da produtividade agrícola, isto é, produzir mais cana-de-açúcar na mesma área física, ou em uma área menor ter a mesma produção. Com isso, faz-se uma racionalização do uso dos recursos naturais e também uma diminuição dos custos com terras pelos produtores rurais. Por exemplo, no local onde se tem uma usina de tamanho médio que moi 2.000.000 de toneladas de cana por safra com uma produtividade média de 75 toneladas por hectare são necessários aproximadamente 26.667 alqueires de terra. Se a produtividade aumentar em 5% para 78,8 toneladas por hectare, serão necessários aproximadamente 25.397alqueires, isto é, 1.270 hectares podem ser usados para outros fins. Por outra perspectiva, pode-se produzir na mesma área 100.000 toneladas de cana a mais com praticamente os mesmos gastos fixos. Eleva-se, desta forma, os lucros em mais que 5% pois os custos fixos se mantem praticamente os mesmos. O objetivo deste artigo é descrever a pesquisa realizada que aplicou o processo de descoberta de conhecimento em base de dados (Knowledge Discovery in Databases - KDD) para auxiliar o produtor rural a aumentar sua produtividade sem a necessidade de se aumentar a área plantada. O 2 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 processo KDD envolveu a utilização da técnica de Classificação em mineração de dados, particularmente na produção de Árvores de Decisão para o reconhecimento dos fatores envolvidos na produção de açúcar a álcool que apresentam maior impacto na produtividade. Adicionalmente, esse trabalho apresenta requisitos e resultados experimentais para promover o desenvolvimento de um software específico para o setor agrícola que permita diagnosticar a situação da lavoura, através dos dados, de modo que o produtor rural, de forma fácil e intuitiva, consiga usar com certa facilidade o processo de descoberta de conhecimento e por consequência consiga usar os diagnósticos para melhorar a produtividade da lavoura. 1.2 Metodologia A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de conhecimento em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o qual é dividido em cinco etapas principais: Seleção dos dados brutos; Pré-processamento dos dados selecionados; Transformação dos dados pré-processados; Mineração dos dados transformados e Interpretação e Avaliação dos padrões encontrados pela mineração. Para aplicação desta pesquisa foi selecionada a empresa Noble Agri sendo uma organização de grande porte que conta com quatro usinas de açúcar e álcool no Brasil situadas na região noroeste do estado de São Paulo, nas cidades de Meridiano, Sebastianópolis do Sul, Potirendaba e Catanduva. Para seleção dos dados usados no processo, foram realizadas seções com a equipe da organização envolvida no cotidiano da produção agrícola, para recolhimento de experiências sobre os fatores (variáveis) de influência na produtividade agrícola. Como resultado, foram apontados diversos fatores (variáveis) com diferentes graus de impactos e facilidade de manejo, descartando-se aqueles que não podem ser operados. Por exemplo, a precipitação pluviométrica impacta fortemente na produtividade da cana, porém não é possível seu manejo, por outro lado, a aplicação de insumos de forma adequada impacta na produtividade e é possível de ser manejada. Com as variáveis selecionadas, analisaram-se quais destas estariam contempladas nos sistemas de informação em uso. A organização utiliza-se do sistema ERP de gestão agrícola e deste foram analisadas quais as tabelas de dados e colunas possuíam dados relevantes. Para acesso a estes dados foi desenvolvido um extrator desses dados e modelado uma base de dados para os dados pré-processados. Partindo dos dados pré-processados, foi realizada a mineração de dados aplicando-se a técnica de Árvore de Decisão utilizando-se do algoritmo J48 do Weka (HALL et al., 2009). O J48 é uma implementação em Java do algoritmo C4.5 (QUINLAN, 1993) que gera Árvores de Decisão a partir de um conjunto de dados de treinamento. A cada nó, o algoritmo determina o atributo que é mais 3 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 eficientemente para subdividir o conjunto das amostras em subconjuntos homogêneos. Para determinar o atributo mais eficiente o critério usado pelo J48 é o ganho da informação definido em (QUINLAN, 1993; HALL et al., 2009). 2. Gestão de Colheitas de Cana-de-açúcar O processo de produção de cana-de-açúcar comumente é dividido em 4 grandes etapas, envolvendo a menor unidade de área de terra no manejo para a cultura de cana-de-açúcar é denominada talhão, que são: reforma, plantio, trato e colheita. Na etapa de reforma são feitas as operações para a retirada da cultura que está plantada no local. No plantio são realizadas as operações para a plantação da cana-de-açúcar. Na etapa de trato são feitas as operações para tratamento da área para dar melhores condições de crescimento para a cana, sendo geralmente dividida em trato de cana planta que é o trato feito após o plantio e trato de cana soca, que é o trato feito após a colheita. Na etapa de colheita são realizadas as operações de colheita de cana e entrega à usina. Geralmente são feitas cinco colheitas (corte) em um ciclo de plantio. Na Figura 1 é representado um ciclo de três cortes na linha do tempo. Reforma Tempo Plantio Trato Planta 1º corte Colheita Trato Soca 12 meses ou 18 meses após o plantio 2º corte Colheita Trato Soca 12 meses após o corte anterior 3º corte Colheita 12 meses após o corte anterior Figura 1 - Ciclo da cultura de cana de açúcar. Na etapa de trato são aplicados os insumos como adubos, herbicida, inseticida, maturadores, etc. A adubação é realizada com base em uma recomendação agronômica feita por um engenheiro agrônomo, com base em análises de solo do local. Essa recomendação indica a necessidade de reposição de nitrogênio (N), fósforo (P) e potássio (K) no solo para que a cana possa se desenvolver e ser viável economicamente. O engenheiro agrônomo indica uma fórmula de adubo (N-P-K) para cada local e uma dose recomendada dessa fórmula por hectare, ideal de acordo com as análises de solo apontando os nutrientes que a cultura de cana-de-açúcar necessita. A etapa de colheita é executada em 3 ou 4 dias em média, dependendo do tamanho do talhão. A colheita é planejada de acordo com algumas restrições, como: capacidade de moagem diária da indústria; capacidade de corte; carregamento e transporte da empresa e melhor época de colheita de cada variedade de cana. Para a usina, a época de colheita é a época de produção de energia, açúcar e álcool, considerando as restrições acima, e varia de acordo com a região. No centro oeste do estado de 4 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 São Paulo essa época ocorre entre abril e dezembro ou de maio a novembro, dependendo da quantidade de cana à ser processada. A usina possui uma capacidade de processamento limitada, por isso a área agrícola precisa colher de forma constante e continua durante todo o período da safra. Dessa forma a entrega de matéria-prima precisa manter sempre a usina perto de seu limite de processamento, durante o período de safra. Se o processo é interrompido por falta de matéria-prima, tem-se um custo alto, pois as pessoas estão disponíveis para o trabalho, mas a indústria está parada, além de interromper a fabricação de energia elétrica, açúcar e álcool. Na etapa da colheita existem diversas medidas importantes para o gerenciamento da área agrícola, entre elas destacam-se a produção de cana, a qualidade da cana (que é a medida do teor de sacarose da cana) e a produtividade da cana que é a produção dividida pela área. No centro oeste de São Paulo a medida de área mais comum é o hectare que equivale a 10.000 m sendo a produtividade expressa por TCH (Tonelada de Cana por Hectare). O ATR (Açúcar Total Recuperável) é uma das principais medidas de qualidade da cana-deaçúcar. ATR é resultado de uma análise laboratorial que mede a qualidade da cana. O ATR representa, resumidamente, a quantidade de quilos de açúcar que é possível extrair em uma tonelada de cana. Portanto, se temos uma área em que a cana analisada está representando o ATR de 135, tem-se que, com uma tonelada dessa cana é possível fabricar 135 quilogramas de açúcar. Assim, o ATR representa quantos quilos de açúcar é possível extrair de uma tonelada de cana e é calculado por meio da fórmula: 9,5263 x PC + 9,05 x ARC, onde os valores de PC e ARC são fórmulas que envolvem valores obtidos através de análises de laboratório da cana-de-açúcar. As normas dessas análises são determinadas pelo CONSECANA-SP (Conselho dos Produtores de Canade-Açúcar, Açúcar e Álcool do Estado de São Paulo). Dessas análises são extraídas várias medidas como BRIX, POL, PC, FIBRA, AR, ATR. (CONCECANA; 2007). Cada variedade de cana tem sua curva de maturação padrão para o primeiro corte e para os demais e, de acordo com essa curva, a variedade de cana pode ser precoce, normal ou tardia. Na Figura 2 é apresentada a curva de maturação da variedade de cana RB83-5486, para o primeiro corte de 12 meses. Com base na curva de maturação e na produtividade é feito o planejamento de colheita para todos os talhões, considerando as restrições de capacidade diária de moagem da usina, capacidade das 5 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 frentes de corte e transporte, área com aplicação de maturador, distância, período de colheita, e demais restrições consideradas no planejamento. Diversos fatores influenciam na qualidade da cana. Alguns desses fatores estão relacionados com as características das variedades, época de colheita, idade da cana, etc. A princípio, a aplicação de insumos e fertilizantes não afetam a qualidade da cana e sim a quantidade de cana produzida. Por isso é comum empresas trabalharem com a curva de maturação da variedade para tirar o melhor rendimento ATR das variedades plantadas. Mês Figura 2 - Curva de maturação da variedade RB83-5486 Parte da materia-prima entregue à industria tem origem nos fornecedores. Por isso, os fornecedores de tem um papel importante no processo de colheita, pois ele compõem a produção que será entregue a industria. Os fornecedores recebem de acordo com a quantidade de cana entregue e também de acordo com a qualidade da cana entregue (ATR). Desse modo, quanto maior a sua produção em toneladas de cana e melhor sua qualidade em (ATR), maior será o valor pago ao fornecedor. Como o pico de maturação ocorre nos meses de julho, agosto e setembro para a maioria das variedades de cana e para evitar que todo fornecedor entregue nesse periodo, foi criado o ATR relativo. Assim, o fornecedor recebe pela média do ATR da usina, ao invés de receber pela média do ATR. 3. Descoberta de Conhecimento em Bases de Dados A busca por padrões em bases de dados é objeto de pesquisa desde a década de 90 quando criaram um algoritmo para buscar dados em relações de produtos comprados em uma mesma compra e 6 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 desde então muitos foram os avanços em descobertas de conhecimento em bases de dados (AGRAWAL; IMIELINSKI; SWAMI, 1993). Esses dados, transformados em conhecimento através da descoberta de conhecimento em bases de dados, trazem vantagens competitivas para o mundo corporativo com uma abordagem multidisciplinar e de horizontes a serem desvendados nos mais diversos aspectos dos dados, desde o agrupamento destes até as descobertas usando aprendizado de máquina. O processo de descoberta de conhecimento em base de dados ou simplesmente KDD (Knowledge Discovery in Databases) explora todos os aspectos que levam ao conhecimento extraído a partir de uma base de dados, e pode ser dividido em diversas etapas que vão desde a limpeza e integração dos dados até a avaliação de padrões e apresentação dos conhecimentos gerados, passando pela etapa da Mineração dos Dados. Na Figura 3 tem-se uma representação do processo de descoberta de conhecimento mostrando a sequencia das etapas. Na Figura 4 tem-se uma descrição resumida de todas as etapas do processo de descoberta do conhecimento segundo (HAN; KAMBER 2011). Figura 3 - Processo de Descoberta de Conhecimento em BD (adaptação de HAN; KAMBER 2011) O processo é composto por sete etapas segundo (HAN; KAMBER, 2011), sendo que para cada etapa existem diversas técnicas para serem trabalhadas. O processo inicia-se com a etapa de seleção dos dados a serem trabalhados, seguido da limpeza desses dados tirando os dados inconsistentes ou imputando dados faltantes. Após a limpeza, os dados precisam ser integrados e compatibilizados e transformados para dar início a etapa de mineração dos dados, que consiste em aplicar algum algoritmo para extrair o conhecimento desses dados. Após a mineração dos dados, é necessário fazer uma avaliação dos padrões gerados pela mineração e finalmente é possível a apresentação de resultados. 7 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 Etapa Objetivo 1 Seleção de dados Buscar os dados relevantes à tarefa de análise 2 Limpeza de dados Eliminar dados inconsistentes e/ou com ruídos. 3 Integração de dados 4 5 6 7 Compatibilizar os dados de múltiplas origens Transformar os dados para o formato apropriado para a Transformação de dados tarefa de mineração Extrair conhecimento através de mecanismos inteligentes Mineração dos dados. de extração Identificar se o padrão extraído é realmente um Avaliação dos padrões. conhecimento, baseado em medidas de interesse. Apresentar o conhecimento minerado usando técnicas Apresentação do Conhecimento adequadas de representação. Figura 4 - Etapas do Processo de KDD 4. Trabalhos Relacionados Existem alguns poucos trabalhos relativos à utilização da mineração de dados aplicados à agricultura para geração de Árvores de Decisão. Podemos citar: Cintra (2012) que utiliza lógica fuzzy para criar uma Árvore de Decisão com predição de alerta de ferrugem no café em plantações no Brasil; Girolamo, (2014) que usa redes neurais artificiais e Árvore de Decisão para criar uma predição de infestação de ferrugem no café; e Giasson (2013) que avalia cinco algoritmos de Árvores de Decisão e três tipos de modelos digitais de elevação para mapeamento digital de solos na Bacia do Lageado Grande (RS). A utilização de mineração de dados na cultura de cana-de-açúcar tem alguns poucos trabalhos como em (SOUZA et al. 2010), que faz uma análise dos atributos do solo e da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e Árvore de Decisão. Ainda, Garcia e Vieira (2008) que apresentam uma técnica de mineração de dados multi-relacional para um problema semelhante ao apresentado, contudo a relação desse trabalho estava voltada para o confronto de ganhos e perda em relação ao esperado. 5. O Processo de Classificação dos Fatores que Impactam a Produtividade A abordagem empregada nesta pesquisa para geração de Árvore de Decisão na identificação de regras de classificação de produtividade baseado em dados sobre colheita foi baseada no processo de KDD, visto que é um método bastante consolidado na área de tecnologia. Esta seção apresenta os passos percorridos durante este processo, desde a seleção e preparação dos dados brutos do processo de colheita, passando pela etapa de mineração dos dados pré-processados, até a fase de análise dos resultados preliminares obtidos. 8 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 5.1. Pré-processamento dos dados A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível satisfatório de completude. Todas essas atividades de preparação dos dados visam, sobretudo, otimizar a significância e a confiabilidade dos resultados gerados na etapa de mineração. Nessa pesquisa, a etapa de pré-processamento compreendeu atividades para seleção, transformação, centralização, imputação e discretização dos dados, as quais serão apresentadas nas próximas seções. 5.1.1. Seleção e Limpeza dos Dados O conjunto de dados a ser analisado foi selecionado com base em critérios gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições de como foram aplicados: Critérios gerais para seleção dos dados: Dados de produção de cana de açúcar das 4 usinas na safra 2014/2015 Dados das características dos locais de produção da safra 2014/2015; Os critérios específicos para seleção dos dados levaram em conta especialmente a questão da completude, uma das premissas básicas para que a etapa de mineração de dados seja bem sucedida. A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos dados. Critérios específicos para seleção das colheitas: Somente dados dos locais que tiveram produtividade válida (acima de 10 Toneladas de Cana por Hectare (TCH) e abaixo de 300 TCH). Somente dados dos locais com o valor do ATR válido entre 20 e 200. Na tabela de histórico de produção que contem a sumarização da colheita dia-a-dia haviam 95.005 registros, depois de sumarizados por talhão, ficou com 18.973 registros da base de dados e após a aplicação destes critérios, foram excluídos 1.373 (7,2% do total). Considerados os pontos com maior riqueza e uniformidade de dados. Critérios específicos dos parâmetros nas colheitas: Somente parâmetros cujas frequências tenham valor válido, isto é, diferente de nulo e diferente de “A Definir” maior que 50% em relação a base toda. 9 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 Como resultados destes critérios, foram selecionados 27 parâmetros para comporem a análise dos dados, que estão descritos da Tabela 1. A aplicação destes critérios específicos, dos 27 parâmetros, resultou na seleção de 14 parâmetros, 13 parâmetros foram excluídos da análise por terem menos de 50% de frequência com valores válidos (diferente de nulo e diferente de “A Definir”). Permaneceram os parâmetros: ambiente de produção, ciclo de desenvolvimento, empresa, espaçamento, estágio, frente de Transporte, grupo de estágio, grupo do tipo de propriedade, sistema de colheita, tipo de propriedade, tipo de maturação, unidade administrativa, unidade industrial, variedade de cana. Este último critério eliminou aproximadamente 48% dos parâmetros, considerados sem valores consistentes para o processo de mineração de dados. Ambiente Produção Ciclo Desenvolvimento Classificação do ambiente de solo variando Modo como foi cultivada a cana, de A a F de acordo com sua produtividade Sistema Cultivo Cultivo Convencional, sem cultivo... potencial. Tipo do ciclo de desenvolvimento da cana, se cana de ano, cana de ano e meio, cana Sistema Drenagem Modo de drenagem do local de meiose... Classe Declividade Classe de declividade do solo de acordo com seu % de inclinação do solo Sistema Irrigação Modo de irrigação do local, gotejamento, não irrigado... Classe Fertilidade Classe de fertilidade do solo em fornecer nutrição a cana Sistema Plantio Modo como foi plantada a cana, mecanizado, convencional... Empresa Empresa responsável pelo talhão Textura Textura do Solo, areiosa, argilosa... Espaçamento Espaçamento entre linhas de plantação de Tipo Maturação cana Estágio Estágio de corte da cana, variando entre planta 12 meses, 2º corte, 3º corte... Frente Frente que transportou a cana Agrupamento de estágios, como Cana Planta, Cana Soca, reforma... Agrupamento do tipo de propriedade, Grupo Tipo Propriedade Própria, Fornecedor... Grupo Estágio Modulo ADM Distribuição das áreas de acordo com um responsável Procedência Muda Descrição da origem da muda da área Região ADM Distribuição dos módulos administrativos de acordo com um responsável Sistema Colheita Modo como foi colhida a cana, manual, mecanizado... Tipo de maturação da cana, precoce, tardia... Classificação do tipo de solo, Tipo Solo latossolo, latossolo roxo, eutrófico... Tipo de terraceamento feito, Tipo Terraço embutido, base larga... Topografia do terreno, ondulada, Topografia suave, plana... Trafegabilidade do local, boa, Trafegabilidade ruim... Distribuição das regiões Unidade ADM administrativos de acordo com um responsável Unidade Industrial Usina que processou a cana Variedades Variedade da cana, CTC12, IACSP 95, CV7231... Tabela 1 – Parâmetros selecionados 10 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 5.1.2. Integração dos Dados Os dados selecionados de uma base de dados relacional do ERP em um sistema gerenciador de banco de dados Oracle foram limpos, sumarizados, transformados e carregados por meio de um processo de extração, transformação e carga (ETL – Extract, Transform and Load). Estes dados foram integrados em um Data Warehouse Relacional (Oracle) sumarizado de forma a ter os atributos selecionados com os valores de ATR (açúcar total recuperado) e do TCH (tonelada de cana por hectare), os dados com valores contínuos como o ATR e o TCH foram sumarizados. Na tabela de histórico de produção, continham os dados de produção dia-a-dia com os valores das toneladas de cana colhida e do ATR totalizando 95.005 registros, na tabela de talhões há a área dos talhões em hectare (ha), os dados foram sumarizados por talhão, depois de sumarizados a tabela resultante ficou com 18.973 registros, contendo os dados de produção, dos talhões e demais parâmetros referentes à produção e características do talhão, como tipo de solo, ambiente de produção entre outros. Depois de carregado, os dados foram exportados para um arquivo texto em formato adequado para importação no WEKA (ferramenta de Mineração de Dados) como representado na Figura 5. ERP – Oracle Relacional Oracle Dimensional ETL Seleção, Limpeza, Transformação, sumarização e Carga Conversão dos dados para o Formato do WEKA ARFF Carregamento no WEKA Figura 5 - Processo de integração dos dados. Sumarização dos dados. 11 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 5.1.3. Transformação dos Dados - Discretização Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam categorizados por meio de valores discretos, processo denominado discretização. De acordo com Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado para a técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em discreto envolve duas tarefas: definir quantas categorias devem existir e como será feito o mapeamento dos valores contínuos para os valores discretos. O objetivo do trabalho é destacar quais são os maiores influenciadores do ATR e TCH, positiva e negativamente, e para isso a discretização dos dados foi realizada utilizando-se de estatística descritiva por meio da distribuição das frequências de quartil. Estabelecendo 4 faixas de valores tanto para o ATR quanto para o TCH, com descrição de “Baixo”, “Médio Baixo”, “Médio Alto” e “Alto”, sendo o “Baixo” do valor mínimo até o primeiro quartil, o “Médio Baixo” do primeiro quartil até a mediana, o “Médio Alto” da mediana até o terceiro quartil e o “Alto” do terceiro quartil até o valor máximo, sendo do ATR conforme Figura 6. Histograma do ATR FAIXAS DE ATR Baixo >= 21.62 < 124.10 Médio Baixo >= 124.10 < 137.20 Médio Alto >= 137.20 < 146.90 Alto >=146.90 <= 190.60 Figura 6 - Discretização do ATR O TCH também foi discretizado com a mesma técnica e está apresentado na Figura 7. Histograma do TCH FAIXAS DE TCH Baixo >= 10.00 < 51.79 Médio Baixo >= 51.79 < 68.78 Médio Alto >= 68.78 < 88.23 Alto >=88.23 <= 299.00 Figura 7 - Discretização do TCH 12 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 6. Resultados Para configurar o processamento da classificação e visualizar os resultados gerados por este processamento, foi utilizado o Weka 3.6 uma ferramenta desenvolvida em Java, de código aberto, da Universidade de Waikato (WEKA; 2015), que contempla uma série de algoritmos de mineração e de validação de resultados. 6.1 – Resultados - ATR Para o processamento dos dados foi utilizado o algoritmo J48 do Weka, que gera Árvores de Decisão, em que, a cada nó o algoritmo determina o atributo que é mais eficientemente para subdividir o conjunto das amostras em subconjuntos homogêneos. Nesse caso foi usado o ATR como atributo alvo para a criação da árvore. Abaixo a árvore gerada pelo J48. TIPO DE PROPRIEDADE = Fornecedor Esteira: ATR Alto (1957.0/1205.0) TIPO DE PROPRIEDADE = Própria: ATR Baixo (12.0/1.0) TIPO DE PROPRIEDADE = Fornecedor Campo: ATR Normal Acima (1254.0/840.0) TIPO DE PROPRIEDADE = Arrendado: ATR Normal Abaixo (4232.0/3021.0) TIPO DE PROPRIEDADE = Cana Spot Campo: ATR Alto (125.0/27.0) TIPO DE PROPRIEDADE = Parceria: ATR Baixo (4028.0/2868.0) TIPO DE PROPRIEDADE = Cana Spot Esteira: ATR Normal Acima (126.0/85.0) Na Figura 8 e apresentado a árvore em forma de um diagrama. Tipo Propriedade ATR Baixo ATR Médio Baixo ATR Médio Alto ATR Alto Figura 8 - Representação da árvore gerada para ATR O algorítmo gerou como maior influenciador na distribuição do ATR, o tipo de propriedade do local de produção (talhão). Percebe-se que os locais com tipo de propriedade “Parceria” tendem a ter um “ATR Baixo” e os locais com tipo de propriedade “Fornecedor Esteira” tendem a ter um “ATR Alto”. 13 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 Ao apresentar esses resultados aos colaboradores, a principal indagação é o porquê dos locais geridos pela empresa (“Parceria” e “Arrendado”) terem pior ATR em relação aos locais geridos pelos fornecedores? (“Cana Spot Esteira”, “Fornecedor Campo”, Fornecedor Esteira” e “Cana Spot Campo”). Uma das suposições levantadas para esse comportamento é de que como a empresa precisa ter um fluxo continuo e constante de entrega de matéria prima (cana-de-açúcar) para a industria e a curva de maturação da cana de açúcar tem seus picos de valores de ATR nos meses de Julho, Agosto e Setembro, os fornecedores tendem a entregar suas canas nesses meses, as canas próprias da usina são entregues nos meses em que tem baixa demanda de cana de fornecedores, desse modo há um detrimento da qualidade da cana própria em favor da entrega da cana de fornecedor. Mesmo o fornecedor recebendo pelo ATR Relativo ele tende a entregar nessses meses. Considerando esse cenário percebido, para melhorar o ATR global das usinas nesse caso, um plano de ação possivel é fazer o planejamento da colheita da safra, englobar os dados dos fornecedores de modo a se ter um melhor ATR global independentemente se a cana é própria ou de fornecedor, dessa forma o ATR global seria maior e como os fornecedores ganham por ATR relativo todos ganhariam. Alterando-se os parâmetros do algorítmo para aumentar o nivel da árvore, tem-se uma árvore de dois níveis conforme apresentado na Figura 9 Grupo Tipo Propriedade Empresa ATR Baixo ATR Médio Baixo ATR Alto ATR Médio Alto Figura 9 - Representação da árvore gerada para ATR com dois níveis; É possivel notar que o algorítmo classificou por grupo de tipo de propriedade, separando os grupos “Cana Spot e “Fornecedor” com tendencia a “ATR Alto”, e os grupos do tipo “Próprio” abriu- 14 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 se um segundo nivel por empresa sendo que as empresas 1 e 2 tendem a ter “ATR Baixo”, a empresa 3 tende a ter “ATR Médio Baixo” e a empresa 4 tende a ter “ATR Médio Alto”. 6.2 – Resultados - TCH Com o intuito de verificar os influenciadores do TCH, foi realizada a classificação usando o TCH como atributo alvo. Para esse processamento também foi usado o algoritmo J48 do WEKA para gerar a Árvore de Decisão. Abaixo a árvore gerada pelo J48 para o atributo alvo TCH. Estágio = 15meses: TCH Alto (364.0/216.0) Estágio = 18meses: TCH Alto (1277.0/441.0) Estágio = 2º Corte: TCH Alto (2522.0/1657.0) Estágio = 3º Corte: TCH Normal Abaixo (2027.0/1401.0) Estágio = 4º Corte: TCH Normal Abaixo (1088.0/736.0) Estágio = 5º Corte: TCH Normal Abaixo (1257.0/764.0) Estágio = 6º Corte: TCH Baixo (892.0/526.0) Estágio = 7º Corte: TCH Normal Abaixo (718.0/426.0) Estágio = 9º Corte: TCH Normal Abaixo (223.0/159.0) Estágio = 2º Corte Bisada: TCH Alto (217.0/88.0) Estágio = 3° Corte Bisada: TCH Normal Acima (115.0/70.0) Estágio = 4º Corte Bisada: TCH Normal Abaixo (143.0/94.0) Estágio = 8º Corte: TCH Normal Abaixo (299.0/202.0) Na Figura 10 é apresentada a representação contendo uma amostra da árvore gerada. Estágio TCH Baixo TCH Médio Baixo TCH Médio Alto TCH Alto Figura 10 - Representação da árvore gerada para o TCH Desse modo o algorítmo gerou como maior influenciador na distribuição do TCH, o estágio de corte do talhão. Sendo que os locais com estágios de 15 meses, 18meses e 2o Corte tendem a ter um 15 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 “TCH Alto”, 3o Corte Bisada e 6o Corte Bisada tendem a ter “TCH Médio Alto”, 3o e 4o Corte tendem a ter “TCH Médio Baixo” e 6o Corte tende a ter um “TCH Baixo”. Esse comportamento já é um comportamento conhecido e esperado em relação ao TCH, isto é, a cana-de-açúcar produz mais por hectare nos primeiros cortes (15 e 18 meses), depois esse rendimento vai caindo gradativamente com o passar dos anos e cortes, até não ser mais viavel economicamente e ser necessário renovar a plantação e plantar novamente. Diante disto, foi realizado um segundo processamenti, retirando-se o estágio de corte ara se perceber o comportamento dos dados. Na Figura 11 é apresentada a árvore com dois niveis do TCH sem o parametro do estágio. É possivel notar que o algorítmo gerou uma árvore com dois níveis, primeiramente classificando por grupo de tipo de propriedade, assim como ocorreu com o ATR, e para os grupos do tipo de propriedade “Cana Spot” tendem a ter um “TCH Alto”, para os grupo de Fornecedor tendem a ter um “TCH Médio Alto”, para os grupo “Própria”, abre-se um novo nó na árvore para Tipo de Maturação, sendo a Precoce com “TCH Alto”, a super precoce com “TCH Médio Alto” e a Média e Tardia com “TCH Médio Baixo”. Grupo Tipo Propriedade Tipo Maturação TCH Médio Baixo TCH Médio Alto TCH Médio Alto TCH Alto TCH Alto Figura 11 - Árvore para TCH sem estágio 7. Considerações Finais Neste artigo foi apresentada a utilização de técnicas específicas de mineração de dados para descoberta de conhecimento dentro do domínio da produtividade da cana de açúcar. 16 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra significativa dos dados, contemplando várias usinas e os diversos parâmetros possíveis de serem usados para a classificação da produtividade. Também é intuito desse trabalho auxiliar as usinas a melhorarem seus dados, trabalhando para ajudar a completude de seus dados na origem do acontecimento dos fatos, com isso pode-se gerar outros processos de descoberta de conhecimento acrescentando os parâmetros com dados completos afim de se ter um resultado mais acurado. Outro elemento que deve ser considerado é que a descoberta de conhecimento é um processo inerentemente exploratório e iterativo, característica que demanda muitos ajustes e, consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por este motivo, ainda serão realizadas novas avaliações para consolidação de resultados e novas descobertas. Durante esta pesquisa notou-se como as técnicas de mineração de dados podem prover subsídios valiosos para a tomada de decisão no que diz respeito à gestão das lavouras de cana de açúcar com intuito de melhorar a produtividade dos canaviais. Como complemento a esse trabalho, temos a iniciativa para novos estudos acrescentando dados da influência das aplicações de insumos (fertilizantes e herbicidas), além da influência do clima (precipitação e tempo de radiação solar) e a influência de pragas e plantas daninhas. Além disso, temos a influência das safras como resultado de uma análise temporal dos dados. Agradecimentos Agradecemos as instituições que apoiaram essa pesquisa: FAPESP, processo 13/50657-6; FT/Unicamp, EsalqTec – Incubadora Tecnológica da Esalq/USP; Noble Agr, pelos dados e discussões valiosas e Maxit-Sistemas pelos recursos humanos e equipamentos. Referências Bibliográficas AGRAWAL, R.; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of items in large databases. ACM SIGMOD Int'l Conf. on Management of Data, p. 207-216, 1993. CEPEA, ESALQ. USP: Perspectivas para o Agronegócio em 2015; Piracicaba-SP, 2014. Disponível em <http://www.cepea.esalq.usp.br/> . Acesso em 23 de Março de 2015 CINTRA, MARCOS EVANDRO; MEIRA, CARLOS A. A; MONARD MARIA C; CAMARGO, HELOISA. The use of fuzzy decision trees for coffee rust warning in Brazilian crops. In: Intelligent Systems Design and Applications (ISDA). 11th International Conference on. IEEE, 2011. p. 13471352, 2011. CONSECANA - Conselho dos Produtores de Cana de-Açúcar e Álcool do Estado de São Paulo. Manual de instruções, v. 5, 2007. 17 XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 13 e 14 de agosto de 2015 DE SOUZA, ZIGOMAR MENEZES, CERRI, DOMINGOS GUILHERME PELLEGRINO; COLET, MARCELO JOSÉ; RODRIGUES, LUIZ HENRIQUE ANTUNES; MAGALHÃES, PAULO SÉRGIO GRAZIANO; MANDONI, RAFAEL JUNQUEIRA ARAÚJO. Análise dos atributos do solo e da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de decisão. Ciência Rural, v. 40, n. 4, p. 840-847, 2010. DI GIROLAMO NETO, C.; RODRIGUES, LHA; MEIRA, C.A.A. Modelos de predição da ferrugem do cafeeiro (Hemileia vastatrix Berkeley & Broome) por técnicas de mineração de dados. Embrapa Informática Agropecuária-Artigo em periódico indexado (ALICE), 2014. GARCIA, EDERSON; VIEIRA, MARINA TERESA PIRES. Estudo de caso de mineração de dados multi-relacional: aplicação do algoritmo connetionblock em um problema da agroindústria. In: Proceedings of the 23rd Brazilian symposium on Databases. Sociedade Brasileira de Computação, p. 224-237, 2008 GIASSON, ELVIO; HARTEMINK, ALFRED EDUARD; TORNQUIST, CARLOS GUSTAVO; TESKE, RODRIGO; BAGATINI, TATIANE. Avaliação de cinco algoritmos de árvores de decisão e três tipos de modelos digitais de elevação para mapeamento digital de solos a nível semi detalhado na Bacia do Lageado Grande, RS, Brasil. Ciência Rural, v. 43, n. 11, p. 1967-1973, 2013. HALL, M.A. Correlation-based feature subset selection for machine learning. Tese - Department of Computer Science, University of Waikato. 1999. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. 2011. QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan Kaufmann Publishers, 1993. TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna. 900 p. WEKA– Data Mining Software in Java. Disponível no site da University of Waikato (2015). Disponível em <http://www.cs.waikato.ac.nz/ml/weka> Acesso em 23 de Março de 2015 18