USO DO SOFTWARE WEKA NA ANÁLISE DOS DADOS FOLIARES DA CULTURA DO MILHO Fernando Alves da Silva (BIC/Fundação Araucária), Jefferson Luiz Carneiro, Alaine Margarete Guimarães (Orientador), e-mail: ([email protected]). Universidade Estadual de Ponta Grossa/Departamento de Informática/Ponta Grossa, PR. Palavras-Chave: classificação Mineração de dados, Nutrientes, Algoritmos de Resumo: Este trabalho teve como objetivo estudar o software Weka e avaliar o valor dos nutrientes para alta produtividade da cultura do milho em Plantio Direto que pode ser diferente da adotada no plantio convencional, utilizando a técnica de Mineração de Dados para se obter regras da correlação entre nutrientes e produtividade por meio de algoritmos de classificação. Considerando o número reduzido de observações disponíveis e que está de acordo com o coletado em campo, o que corresponde a 67 pontos amostrais, ou seja, 67 observações em uma base de dados foliar de milho, composta pelos nutrientes: N, P, K, Ca, Mg, Cu, Kn, B, Mn. O melhor resultado apresentou correlação não óbvia envolvendo dois nutrientes que estão presentes em duas das três regras obtidas com fator de confiança de 60%. A problemática considerada nesse trabalho foi o reduzido número de observações, demonstrando que embora dificultando o processo de mineração, foi possível ainda assim encontrar novo conhecimento. Introdução O plantio direto é um sistema diferenciado de manejo do solo muito empregado na região dos Campos Gerais, o qual envolve o não revolvimento do solo, a rotação de culturas e o uso de culturas de cobertura para formação de palhada. Com água da chuva atingindo diretamente o solo, este solo vai empobrecendo, a água vai levando os nutrientes e o deixando pobre, fenômeno conhecido como Lixiviação. A rotação de culturas também se torna necessária pelo fato que algumas culturas retiram mais nutrientes do solo do que outras, fazendo uso da rotação de culturas obtêm-se um solo mais rico e equilibrado em relação aos nutrientes. Porém as taxas de nutrientes consideradas adequadas neste sistema são as mesmas adotadas para o plantio convencional, o que pode vir a apresentar diferenças na produtividade, pois fazendo uso do plantio direto Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR. pode vir a obter alta produtividade em níveis de nutrientes diferentes dos utilizados no plantio convencional. A fim de ter melhor produtividade analisamos uma base de dados foliares da cultura do milho efetivamente observados em campo. Estudando o software Weka e avaliando o valor dos nutrientes para alta produtividade de milho em Plantio Direto, utilizou-se a técnica de Mineração de Dados, considerando que o número de observações disponíveis está de acordo com o coletado em campo, o que corresponde a 67 pontos amostrais, ou seja, 67 observações. O objetivo foi estudar e utilizar o software Weka para encontrar relações entre dados em pontos de alta produtividade, considerando o numero reduzido de observações. Materiais e Métodos Na primeira etapa foi realizado o pré-processamento da base descartando dados irrelevantes para análise, mantendo só os atributos principais como nutrientes e a produtividade. Utilizou-se o Software Excel para discretizar o atributo Produtividade, pois apresentava valores contínuos onde interessava somente saber quando a produtividade estivesse acima ou abaixo do limiar estabelecido de 9000 kg/ha, o que significa que a produtividade é considerada alta quando maior ou igual a 9000 kg/ha. Na segunda etapa, já fazendo uso do Software Weka, foram removidos da base atributos constantes, ou seja, que não variavam seu valor. O seguinte passo foi efetuar a discretização dos atributos da base de acordo com os intervalos atualmente adotados pelo meio agronômico para o plantio convencional, os quais indicam se o teor do nutriente pode ser considerado baixo, médio ou alto. Dividindo assim cada atributo em apenas quatro intervalos. No meio agronômico, exceto quando utilizamos tecnologia de agricultura de precisão, normalmente o número de pontos amostrais que são obtidos é pequeno em relação ao que seria adequado para a mineração de dados. Porém, mesmo assim existe a necessidade de se buscar novas correlações nesses dados. Foram utilizados algoritmos do Weka para a obtenção das regras, dentre os algoritmos que apresentam estrutura de Classificação (Classify), Agrupamento (Cluster) e Associação (Associate), os algoritmos de Classificação com estrutura de Arvore (Tree) e Regras (Rules) foram os que obtiveram melhores resultados dentre os testados. Buscou-se regras que fornecessem 75% de confiança, e se possível apresentassem novidade em relação a parâmetros já obtidos no plantio convencional. Para essa taxa de confiança não foram obtidas regras, pois o volume de dados da base era pequeno dificultando assim o processo de mineração, assumindo-se então uma taxa de confiança menor, de 60%. Na terceira etapa, foi feito a análise das regras obtidas e evidenciando na base se realmente continham as ocorrências apresentadas nos intervalos estabelecidos de cada regra. Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR. Resultados e Discussão Foram obtidas três regras em que os critérios foram satisfeitos. No algoritmo J48 e o Random que apresenta estrutura de arvore (Tree) foram obtidas as regras: J48 (Tree): Mn = (23.7-31.5) | MG = (-inf-3.9): '(1.5-inf)' (9.0/3.0). Que pode ser interpretada como, quando o Mn estiver no intervalo (23.731.5), considerado baixo, e o Mg tiver valor até 3.9, a produtividade está maior que 9000 Kg/ha, considerada alta, sendo o fator de confiança da regra de (9.0/3.0). Random (Tree): Mn = (23.7-31.5] | CU = (-inf-5.7) : '(1.5-inf)' (7/3). Que também pode ser interpretada da seguinte forma, quando o Mn estiver no intervalo (23.7-31.5), e o CU variar até 5.7, considerado adequado, a produtividade está maior que 9000 Kg/ha, considerada alta, sendo o fator de confiança da regra de (7.0/3.0). Com o algoritmo PART, que apresenta estrutura de regras (Rules), foi obtida a regra: B = (11.8-14.8): '(1.5-inf)' (8.0/2.0), que também pode ser interpretada como, quando o B estiver no intervalo (11.8-14.8), considerado baixo, a produtividade é maior que 9000 Kg/ha, ou seja, alta e o fator de confiança é (8.0/2.0). Posteriormente foi analisada a base original no Weka verificando a confirmação das ocorrências apresentadas nas regras, como mostram os quadros 1, 2 e 3. Quadro 1 Linha 11 12 14 ... Mn 23.7-31.5 23.7-31.5 23.7-31.5 Mg -inf-3.9 -inf-3.9 -inf-3.9 PRODUTIVID. DISC. 1.5-inf 1.5-inf 1.5-inf Cu -inf-5.7 -inf-5.7 -inf-5.7 PRODUTIVID. DISC. 1.5-inf 1.5-inf 1.5-inf Resultados da base original. Algoritmos J48. Quadro 2 Linha 36 11 12 ... Mn 23.7-31.5 23.7-31.5 23.7-31.5 Resultados da base original. Algoritmos Random Tree Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR. Quadro 3 Linha 14 09 37 ... B 11.8-14.8 11.8-14.8 11.8-14.8 PRODUTIVID. DISC. 1.5-inf 1.5-inf 1.5-inf Resultados da base original. Algoritmos Part. Conclusões No processo de Mineração de Dados o trabalho cumpriu seu objetivo de estudo do software Weka através da análise da base original e por meio da obtenção das regras com os algoritmos testados. Pode-se observar novas correlações entre os nutrientes, mesmo em uma base pequena com apenas 67 observações, quando alteramos o fator de confiança de 75% para 60%. É importante mencionar que a taxa dos nutrientes não pode ser analisada isoladamente, visto que existe interação entre os mesmos. Porém, o indicativo de que um nutriente apresenta valor diferente ao esperado em pontos de alta produtividade, traz uma contribuição para uma atenção seja dada em relação ao mesmo. Agradecimentos Agradeço Primeiramente a Deus, a Fundação Araucária, pelo incentivo financeiro recebido, a minha orientadora Alaine Margarete Guimarães, e UEPG pelo espaço fornecido para realização do trabalho. Referências 1. GUIMARÃES, Alaine Margarete. Inteligência Computacional Aplicada à Data Mining. In: UNICENTRO, Sociedade Brasileira de Computação E. (Org). XII Escola Regional de Informática. Guarapuava, 2004, v.1, p. 90132. 2. University of Waikato. Weka 3 – Machine Learning Software in Java. Disponível em: <URL:http://www.cs.waikato.ac.nz/ml/weka>. Acesso em: 15 março 2010. 3. Sistemas de Plantio Direto. Disponível em: <http://www22.sede.embrapa.br/plantiodireto/IntroducaoHistorico/sistema PlantioDireto.htm>. Acesso em: 10 abril 2010. 4. S.O.S Natureza. Disponível em: <http://gaoli.sites.uol.com.br/solopolu.htm>. Acesso em: 10 abril 2010. Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.