Classificação de Fatores que mais Impactam a

Propaganda
Classificação de Fatores que mais Impactam a Produtividade da Cana-deAçúcar usando mineração de dados.
Ederson Garcia1, Luis Camolesi Jr2
1
EsalqTec Incubadora Tecnológica – ESALQ/USP; Maxit-Sistemas, Piracicaba, São Paulo,
Brasil, [email protected]
2
Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp), Campinas, São
Paulo, Brasil, [email protected]
RESUMO
A pesquisa para aumentar a produtividade é um tema recorrente na agricultura, bem como o
apelo crescente para a preservação do meio ambiente. Este artigo apresenta, através do
processo de descoberta de conhecimento em bases de dados (KDD), um método sistemático
para classificação dos fatores que impactam na produtividade de modo a que os agricultores
possam identificar e agir sobre os processos que causam os maiores impactos e que deve
trazer os maiores retornos com investimentos na produção. Este processo KDD utilizada a
técnica de árvore de decisão que mostra os fatores com maior influência na produtividade
agrícola. Na pesquisa foram utilizados os dados sobre as culturas de cinco anos (entre 2010 e
2014) de duas organizações na região Assis-SP.
PALAVRAS-CHAVE: Descoberta de Conhecimento em bases de dados; Mineração de
dados Agrícola.
ABSTRACT
The research to increase productivity is a recurring theme in agriculture, as well as the
increasing appeal for the environment preservation. This article presents, through the process
of Knowledge Discovery in Databases (KDD), a systematic method to classification of factors
that impact in productivity so that farmers can identify and act on processes that cause the
greatest impacts and that should bring the greatest returns with investments on production.
This process KDD used the decision tree technique that shows the factors with major
influence in agricultural productivity. In the research was used data about of crops five years
(between 2010 and 2014) of two organizations at Assis-SP region.
KEYWORDS: Knowledge discovery in databases; Agricultural data mining.
INTRODUÇÃO
O agronegócio é um importante setor para a economia do Brasil. A cana-de-açúcar, por sua
vez, possui uma cadeia de produção que é destaque do agronegócio brasileiro e que segundo o
Procana, a cadeia foi responsável por aproximadamente 2% do PIB nacional e por 31% do
PIB da agricultura no Brasil em 2012, tendo empregado cerca de 4,5 milhões de pessoas.
Segundo o (CEPEA; 2014), “O Agronegócio é um setor estratégico para a economia
brasileira e, especialmente em 2015, pode ser o grande condicionante do seu desempenho.
Representando 23% do PIB brasileiro, ele pode ser o único setor com crescimento mais
expressivo diante da indústria claudicante e dos serviços em processo de exaustão. ”
O setor passa por dificuldades econômicas e por isso é necessário investir no aumento
da produtividade, em que o objetivo é a eficiência em produzir mais no mesmo espaço físico.
Neste sentido, órgãos como o BNDES, FINEP e FAPESP têm investido em tecnologias
inovadoras através de programas como o PAISS (FINEP), o Inova Agro (BNDES).
Com o aumento da preocupação com a preservação do meio ambiente, aliada a
necessidade da produção de açúcar, álcool e energia elétrica, uma das alternativas é o
investimento no aumento da produtividade agrícola, isto é, produzir mais cana-de-açúcar na
mesma área física, ou em uma área menor ter a mesma produção. Com isso, faz-se uma
racionalização do uso dos recursos naturais e também uma diminuição dos custos com terras
pelos produtores rurais.
O objetivo deste artigo é descrever a pesquisa realizada que aplicou o processo de
descoberta de conhecimento em base de dados (Knowledge Discovery in Databases - KDD)
para auxiliar o produtor rural a aumentar sua produtividade sem a necessidade de aumento da
área plantada. O processo KDD envolveu a utilização da técnica de Classificação em
mineração de dados, particularmente no desenvolvimento de Árvores de Decisão para o
reconhecimento dos fatores envolvidos na produção de açúcar e álcool que apresentam maior
impacto na produtividade.
Este artigo aborda como o processo de descoberta de conhecimento em base de dados
pode ajudar a entender os fatores de impacto na produtividade e ajudar a melhorar os
processos produtivos envolvidos. Especificamente, este trabalho destaca quais são os maiores
influenciadores, positivos ou negativos, da produtividade medida através do Açúcar Total
Recuperado (ATR).
Adicionalmente, esse trabalho apresenta requisitos e resultados experimentais para
promover o desenvolvimento de um software específico cujo processamento de dados possa
diagnosticar a situação da lavoura, permitindo que o produtor rural, de forma fácil e intuitiva,
aplique o processo de descoberta de conhecimento e por consequência consiga usar os
diagnósticos para melhorar a produtividade da lavoura.
Trabalhos Relacionados
Existem alguns poucos trabalhos relativos à utilização da mineração de dados aplicados à
agricultura para geração de Árvores de Decisão. Podemos citar: Cintra (2012) que utiliza
lógica fuzzy para criar uma Árvore de Decisão com predição de alerta de ferrugem no café em
plantações no Brasil; Girolamo, (2014) que usa redes neurais artificiais e Árvore de Decisão
para criar uma predição de infestação de ferrugem no café; e Giasson (2013) que avalia cinco
algoritmos de Árvores de Decisão e três tipos de modelos digitais de elevação para
mapeamento digital de solos na Bacia do Lageado Grande (RS).
A utilização de mineração de dados na cultura de cana-de-açúcar tem alguns poucos
trabalhos como em (SOUZA et al. 2010), que faz uma análise dos atributos do solo e da
produtividade da cultura de cana-de-açúcar com o uso da geoestatística e Árvore de Decisão.
Ainda, Garcia e Vieira (2008) apresentam uma técnica de mineração de dados multirelacional para um problema semelhante ao apresentado, contudo a relação desse trabalho
estava voltada para o confronto de ganhos e perda em relação ao esperado.
MATERIAL E MÉTODOS
A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de conhecimento
em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o qual é
dividido em cinco etapas principais: Seleção dos dados brutos; Pré-processamento dos dados
selecionados; Transformação dos dados pré-processados; Mineração dos dados transformados
e Interpretação e Avaliação dos padrões encontrados pela mineração.
Para aplicação desta pesquisa foram selecionadas duas usinas de uma organização de
grande porte de produção de açúcar e álcool no Brasil, sendo ambas situadas na região de
Assis no estado de São Paulo.
Para seleção dos dados usados no processo, foram realizadas seções de trabalho com a
equipe da organização envolvida no cotidiano da produção agrícola, para recolhimento de
experiências sobre os fatores (variáveis) de influência na produtividade agrícola. Como
resultado, foram apontados diversos fatores (variáveis) com diferentes graus de impactos e
facilidade de manejo (atuação), descartando-se aqueles que não podem ser operados. Por
exemplo, a precipitação pluviométrica impacta fortemente na produtividade da cana-de-
açúcar, porém não é possível seu manejo, por outro lado, a aplicação de insumos de forma
adequada impacta na produtividade e é possível de ser manejada.
Com as variáveis selecionadas, analisaram-se quais destas estariam contempladas nos
sistemas de informação em uso. A organização utiliza-se do sistema ERP de gestão agrícola e
deste foram analisadas quais as tabelas de dados e colunas possuíam dados relevantes. Para
acesso a estes dados foi desenvolvido um extrator de dados e modelado uma base de dados
para armazenamento dos dados pré-processados.
Partindo dos dados pré-processados, foi realizada a mineração de dados aplicando-se a
técnica de Árvore de Decisão com utilização do algoritmo J48 do Weka (HALL et al., 2009).
O J48 é uma implementação em Java do algoritmo C4.5 (QUINLAN, 1993) que gera Árvores
de Decisão a partir de um conjunto de dados de treinamento. A cada nó, o algoritmo
determina o atributo que é mais eficientemente para subdividir o conjunto das amostras em
subconjuntos homogêneos. Para determinar o atributo mais eficiente o critério usado pelo J48
é o ganho da informação definido em (QUINLAN, 1993; HALL et al., 2009).
O Processo de Classificação dos Fatores que Impactam na Produtividade
A abordagem empregada nesta pesquisa para geração de Árvore de Decisão na
identificação de regras de classificação de produtividade baseado em dados sobre colheita foi
apoiada no processo de KDD, visto que sua utilização está consolidada na área de tecnologia.
Esta seção apresenta os passos percorridos durante este processo, desde a seleção e
preparação dos dados brutos do processo de colheita, passando pela etapa de mineração dos
dados pré-processados até a fase de análise dos resultados preliminares obtidos.
1. Pré-processamento dos dados
A aplicação das técnicas de mineração de dados tem como premissa que os dados a
serem pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com
um nível satisfatório de completude. Todas essas atividades de preparação dos dados visam,
sobretudo, otimizar a significância e a confiabilidade dos resultados gerados na etapa de
mineração.
Nessa pesquisa, a etapa de pré-processamento compreendeu atividades para seleção,
transformação, centralização, imputação e discretização dos dados, as quais serão
apresentadas nas próximas seções.
1.1. Seleção e Limpeza dos Dados
O conjunto de dados a ser analisado foi selecionado com base em critérios gerais,
relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a
características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas
descrições de como foram aplicados.
o Critérios gerais para seleção dos dados: Dados de 5 anos produção de cana de
açúcar de 2 usinas (safras de 2010 a 2014); Dados das características dos locais
de produção de 2 usinas (safras de 2010 a 2014).
Os critérios específicos para seleção dos dados levaram em conta especialmente a questão da
completude, uma das premissas básicas para que a etapa de mineração de dados seja bem
sucedida. A seguir, são apresentados cada um dos critérios específicos empregados na seleção
dos dados.
o Critérios específicos para seleção das colheitas: Somente dados dos locais com
produtividade válida (acima de 30t/ha e abaixo de 250t/ha); Somente dados dos
locais com o valor do ATR (kg/t) válido entre 80 e 200.
Na tabela de histórico de produção que contem a sumarização da colheita dia-a-dia havia
95.005 registros, depois de sumarizados por talhão, o resultado foi uma base de dados de
18.973 registros. A aplicação dos critérios nesta base de dados causou a exclusão de 1.373
registros (7,2% do total).
o Considerando os pontos com maior riqueza e uniformidade de dados para
determinação dos Critérios específicos das variáveis das colheitas: Somente
variáveis cujas frequências tinham valor válido, isto é, diferente de nulo e
diferente de “A Definir” maior que 50% em relação a toda a base de dados.
Após a aplicação destes critérios específicos, dos 34 parâmetros pré-selecionados
inicialmente, 11 foram excluídos da análise por não terem dados válidos, restando 23
parâmetros. Permaneceram as seguintes variáveis: ambiente de produção; ciclo de
desenvolvimento; classe de declividade; classe de fertilidade; classe tipo propriedade;
empresa;
espaçamento;
estágio;
grupo
estágio;
grupo
tipo
propriedade;
modulo
administrativo; sistema de colheita; sistema de cultivo; sistema de irrigação; sistema de
plantio; textura de solo; tipo de maturação; tipo de propriedade; tipo de solo; topografia;
unidade administrativa; unidade industrial e variedade de cana-de-açúcar.
1.1.2. Integração dos Dados
Os dados selecionados de uma base de dados relacional do ERP em um sistema
gerenciador de banco de dados Oracle foram eliminados, sumarizados, transformados e
carregados por meio de um processo de extração, transformação e carga (ETL – Extract,
Transform and Load).
Estes dados foram integrados em um Data Warehouse Relacional (Oracle) sumarizado
de forma a ter os atributos contínuos, como o ATR (Açúcar Total Recuperado - quilos por
hectare), sumarizados. Na tabela de histórico de produção estavam os dados de produção diaa-dia com os valores produtividade do ATR totalizando 253.053 registros e na tabela de
talhões estavam as áreas dos talhões em hectare (ha). Os dados foram sumarizados por talhão
resultando em 61.671 registros, contendo os dados de produção, dos talhões e demais
variáveis referentes à produção, além de características do talhão, como tipo de solo, ambiente
de produção entre outros.
Depois de carregados, os dados foram exportados para um arquivo texto em formato
adequado para importação no WEKA (ferramenta de Mineração de Dados) como
representado na Figura 1.
Figura 1 – Representação do Processo usado para integração dos dados.
ERP – Oracle
Relacional
Oracle
Dimensional
ETL
Seleção, Limpeza,
Transformação,
sumarização e Carga
Conversão dos dados
para o Formato do
WEKA
ARFF
Carregamento no
WEKA
Fonte: (os autores)
1.1.3. Transformação dos Dados - Discretização
Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam
categorizados por meio de valores discretos, processo denominado discretização. De acordo
com Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor
resultado para a técnica de mineração de dados a ser utilizada. A conversão de um atributo
contínuo em discreto envolve duas tarefas: definir quantas categorias devem existir e como
será feito o mapeamento dos valores contínuos para os valores discretos.
Para a discretização dos dados foi utilizada a estatística descritiva por meio da
distribuição das frequências de quartil. Estabelecendo 4 faixas de valores para o ATR, com
descrição de “Baixo”, “Médio Baixo”, “Médio Alto” e “Alto”, sendo “Baixo” o indicativo do
valor mínimo até o primeiro quartil, o “Médio Baixo” do primeiro quartil até a mediana, o
“Médio Alto” da mediana até o terceiro quartil e o “Alto” do terceiro quartil até o valor
máximo, conforme é apresentado na Figura 2. Esse processo foi realizado para cada safra,
para cada usina e tipo de propriedade.
Figura 2 – Representação do Processo de discretização dos dados.
FAIXAS DO ATR (kg/ha)
Baixo
>= 4.002,91 < 8.228,88
Médio Baixo >= 8.228,88 < 10.316,55
Médio Alto >= 10.316,55 < 12.722,67
Alto
>= 12.722,67 <=32.008,85
Fonte: (os autores)
RESULTADOS E DISCUSSÃO
Deve ser considerado que a descoberta de conhecimento é um processo inerentemente
exploratório e iterativo, característica que demanda ajustes e, consequentemente, novas
iterações e experimentos em busca padrões em meio aos dados. Por este motivo, foram feitas
iterações analisando-se diversos aspectos como safras e o tipos de propriedade (própria e
terceiros) para se gerar resultados satisfatórios.
Desse modo, nas duas usinas e com os cinco anos de safra, foram feitas análises
separadas entre as safras e os tipos de propriedade, sendo Usina 1/Cana-de-açúcar própria e
Fornecedor e Usina 2/ Cana-de-açúcar própria. A Usina 2 não tinha informações significativa
de cana-de-açúcar de fornecedor. Assim, em cada safra foram classificados os maiores
influenciadores com resultados apresentados na figura 3.
Na figura 3 é possível observar que a variável de maior ocorrência é Variedades com 7
instâncias, seguida de Estágio com 6 instâncias e as demais têm 1 ocorrência cada.
Figura 3 – Principais influenciadores nas safras.
Unidades
21011
PRINCIPAL INFLUENCIADOR
21112
21213
21314
21415
Variedades
Usina 1 - Cana Própria
Variedades
Estágios
Classe Fertilidade
Maturação
Estágios
Usina 1 - Cana Fornecedor
Variedades
Estágios
Estágios
Grupo Estágios
Variedades
Usina 2 - Cana Própria
Ambiente
Produção
Variedades
Variedades
Variedades
Estágios
Ciclo
Desenvolvimento
Estágio
Fonte: (os autores)
A listagem a seguir exemplifica uma árvore gerada para a safra de 2014 da Usina
1/Cana-de-açúcar Própria, cuja representação gráfica é apresentada na figura 4.
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
VARIEDADES
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
RB925345: BAIXO (15.0/5.0)
SP87-365: BAIXO (59.0/25.0)
SP83-2847: BAIXO (419.0/289.0)
CTC941295: BAIXO (18.0/11.0)
RB925211: BAIXO (15.0)
SP81-3250: BAIXO (1501.0/722.0)
RB855036: BAIXO (321.0/168.0)
SP89-1115: BAIXO (66.0/31.0)
CTC9: BAIXO (83.0/25.0)
CTC3: BAIXO (51.0/25.0)
PO88-62: BAIXO (88.0/10.0)
SP82-3530: NORMAL ABAIXO (32.0/11.0)
RB855156: NORMAL ABAIXO (75.0/22.0)
CTC7: NORMAL ABAIXO (727.0/430.0)
RB855536: NORMAL ABAIXO (777.0/449.0)
RB855453: NORMAL ABAIXO (812.0/527.0)
RB72454: NORMAL ABAIXO (39.0/18.0)
CTC11: NORMAL ABAIXO (16.0)
CTC12: NORMAL ACIMA (27.0/10.0)
CTC963263: NORMAL ACIMA (26.0/11.0)
CTC15: NORMAL ACIMA (1182.0/719.0)
CTC17: NORMAL ACIMA (240.0/134.0)
CTC2: NORMAL ACIMA (813.0/546.0)
RB867515: NORMAL ACIMA (338.0/204.0)
IACSP93-3046: NORMAL ACIMA (15.0)
CTC18: NORMAL ACIMA (15.0/3.0)
RB935621: NORMAL ACIMA (10.0/3.0)
SP80-3280: NORMAL ACIMA (86.0/45.0)
SP90-3414: NORMAL ACIMA (65.0/40.0)
RB966928: ALTO (946.0/362.0)
CTC4: ALTO (1504.0/510.0)
RB965917: ALTO (15.0/3.0)
RB92579: ALTO (203.0/106.0)
CTC19: ALTO (17.0/3.0)
CTC20: ALTO (20.0/8.0)
A classificação foi gerada levando em consideração 23 variáveis disponíveis e
a variável que representou maior influência nas usinas pesquisadas no decorrer de 5 safras foi
a variedade da cana-de-açúcar. Com esse resultado, o agricultor pode aprofundar seus estudos
para melhorar a produtividade focando nessa variável, pois deve trazer os melhores
resultados.
Figura 4 – Representação gráfica da árvore gerada pela mineração de dados.
Variedades
ATR (kg/ha)
Baixo
ATR (kg/ha)
Médio Baixo
ATR (kg/ha)
Médio Alto
ATR (kg/ha)
Alto
Fonte: (os autores)
A pesquisa apontou que a variedade de cana-de-açúcar é a variável que mais
influencia na produtividade, devido a melhor classificação da distribuição da produtividade
nas áreas estudadas. Para aprofundamento nos resultados, pode-se usar uma ferramenta de
análise dinâmica que facilita o entendimento dos dados, caso-a-caso.
Sabe-se que cada variedade de cana-de-açúcar tem suas características e necessidades
e que cada área de terra também tem suas próprias características, potencialidades que são
dinâmicas. Determinar a melhor variedade de cana-de-açúcar para cada área de terra e suas
características deve ser um processo constante que este trabalho procurou contribuir. É
importante observar que os resultados apresentados neste artigo não podem ser generalizado e
as empresas devem aplicar o processo apresentado em seus próprios dados para obter suas
conclusões específicas.
CONCLUSÕES
Durante esta pesquisa observou-se como as técnicas de mineração de dados podem prover
subsídios valiosos para a tomada de decisão no que diz respeito à gestão das lavouras de canade-açúcar com intuito de melhorar a produtividade dos canaviais. Como complemento a esse
trabalho, temos a iniciativa para novos estudos acrescentando dados da influência das
aplicações de insumos (fertilizantes e herbicidas), além da influência do clima (precipitação e
tempo de radiação solar) de cada região dentro da mesma safra e a influência de pragas e
plantas daninhas.
AGRADECIMENTOS
Agradecemos as instituições que apoiaram essa pesquisa: FAPESP, Processo: 2013/50657-6,
Fundação de Amparo à Pesquisa do Estado de São Paulo, FT/Unicamp, EsalqTec –
Incubadora Tecnológica da Esalq/USP; Grupo NovAmérica, pelos dados e discussões valiosas
e Maxit-Sistemas pelos recursos humanos e equipamentos.
REFERÊNCIAS
CEPEA, ESALQ. USP: Perspectivas para o Agronegócio em 2015; Piracicaba-SP, 2014.
Disponível em <http://www.cepea.esalq.usp.br/> . Acesso em 23 de Março de 2015
CINTRA, MARCOS EVANDRO; MEIRA, CARLOS A. A; MONARD MARIA C; CAMARGO,
HELOISA. The use of fuzzy decision trees for coffee rust warning in Brazilian crops. In: Intelligent
Systems Design and Applications (ISDA). 11th International Conference on. IEEE, 2011. p. 13471352, 2011.
DE SOUZA, ZIGOMAR MENEZES, CERRI, DOMINGOS GUILHERME PELLEGRINO; COLET,
MARCELO JOSÉ; RODRIGUES, LUIZ HENRIQUE ANTUNES; MAGALHÃES, PAULO SÉRGIO
GRAZIANO; MANDONI, RAFAEL JUNQUEIRA ARAÚJO. Análise dos atributos do solo e da
produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de decisão. Ciência
Rural, v. 40, n. 4, p. 840-847, 2010.
DI GIROLAMO NETO, C.; RODRIGUES, LHA; MEIRA, C.A.A. Modelos de predição da ferrugem
do cafeeiro (Hemileia vastatrix Berkeley & Broome) por técnicas de mineração de dados. Embrapa
Informática Agropecuária-Artigo em periódico indexado (ALICE), 2014.
GARCIA, EDERSON; VIEIRA, MARINA TERESA PIRES. Estudo de caso de mineração de dados
multi-relacional: aplicação do algoritmo connetionblock em um problema da agroindústria.
In: Proceedings of the 23rd Brazilian symposium on Databases. Sociedade Brasileira de Computação,
p. 224-237, 2008
GIASSON, ELVIO; HARTEMINK, ALFRED EDUARD; TORNQUIST, CARLOS GUSTAVO;
TESKE, RODRIGO; BAGATINI, TATIANE. Avaliação de cinco algoritmos de árvores de decisão e
três tipos de modelos digitais de elevação para mapeamento digital de solos a nível semi detalhado na
Bacia do Lageado Grande, RS, Brasil. Ciência Rural, v. 43, n. 11, p. 1967-1973, 2013.
HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., PETER, R., & WITTEN, I. H. The weka
data mining software: An update. Proceedings of the 15th ACM SIGKDD international conference on
Knowledge discovery and data mining, Paris, France. v. 11, n. 1, p. 10-18, 2009
QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan Kaufmann
Publishers, 1993.
TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados.
Rio de Janeiro: Editora Ciência Moderna. 900 p.
Download