ESTUDO DO EFEITO DA INTERPOLAÇÃO EM DADOS FOLIARES DO MILHO COM O USO DO SOFTWARE WEKA Jefferson Luiz Carneiro (BIC/ARAUCÁRIA – Ações Afirmativas - UEPG), Alaine Margarete Guimarães (Orientadora), e-mail: [email protected]. Universidade Estadual de Ponta Grossa/Departamento de Informática/Ponta Grossa, PR. Palavras-chave: Mineração de Dados, Produtividade, Nutrientes. Resumo: As tecnologias de Agricultura de Precisão tem possibilitado a geração de bases de dados de pontos georreferenciados, amostrados em campo, e posteriormente interpolados. Com a análise de solo, o uso de softwares de mineração de dados ajudam no processo de descoberta de novas regras, onde são analisados os nutrientes presentes em certos segmentos de uma determinada cultura agrícola. Foram utilizadas duas bases de dados, uma base original e uma outra interpolada, ou seja, que foram deduzidos valores a partir dos dados conhecidos, assim gerando mais conhecimento. Neste trabalho, foi utilizado o software Weka, com uma base de dados foliares da cultura de milho, analisando os nutrientes, além da produtividade. Para a obtenção e seleção das regras de interesse, foi levado em consideração somente regras com no mínimo 60% de confiança, produtividade alta e que apresentasse alguma novidade, ou seja, cujo conhecimento não era óbvio. Introdução Com o crescimento da área agronômica, o uso de técnicas computacionais vem desempenhando grande melhora na produtividade de muitas culturas, a mineração de dados contribuí com a análise de dados amostrais de solo, foliares e ainda de produtividade obtida em cada ponto observado. A interpolação contruibui com a expansão nas bases de dados originais, onde são deduzidos muitos valores através dos conhecidos, assim podendo gerar grandes bases de dados. Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR. Materiais e métodos Foi utilizado o software Weka, onde foram analisadas as bases de dados, obtendo regras. A base de dados original possuía 59 observações, já a interpolada, apresentou-se 2371 observações. Essas bases estavam em formatos não conhecidos pelo Weka, então foi utilizado inicialmente uma ferramenta de conversão de arquivos. Ambas as bases possuíam dados de nutrientes nas folhas de milho, dados de posicionamento geográfico (latitude e longitude) e a produtividade. Esses nutrientes estavam cada um com seus respectivos valores que foram coletados em campo, mas para melhor entendimento do Weka e do usuário, foi realizado um processo de discretização, onde foram separados todos esses valores em grupos. Neste trabalho foi utilizado três grupos, onde compreendiam valores como por exemplo: -infinito, X , infinito. Utilizou-se o Software Excel para discretizar o atributo produtividade, pois apresentava valores contínuos onde interessava somente quando a produtividade estive-se 9.000 kg/ha ou menor, sendo que o que fosse superior ou inferior no linear estabelecido de 9000 kg/ha, o que significa que a produtividade é considerada alta quando ≤ 9000 kg/ha. Utilizando algoritmos de classificação, tais como, J48 e Random Tree, foram obtidas regras apresentando correlação entre os nutrientes e a produtividade. Esses são algoritmos que usam estrutura de árvore, os quais são muito úteis pela sua simplicidade de exibição e fácil interpretação. Para a obtenção e seleção das regras, foi levado em consideração somente regras com no mínimo 60% de confiança, onde apresentava produtividade alta e alguma novidade. Com os resultados obtidos, fez-se uma comparação entre a base original e a base interpolada, para verificar se a correlação apresentada nas regras se confirma tanto na base original como na interpolada. Resultados e Discussão As bases de dados apresentaram diferentes regras, sendo que na base original, como possuía menos observações, pode-se observar que houve uma menor correlação entre os nutrientes e a produtividade. Na base interpolada algumas regras envolvem varios nutrientes porém não apresentam novidade. Tais regras então foram desconsideradas. Os resultados foram gerados usando dois algoritmos de classificação, o J48 e o Random Tree. Com o algoritmo J48 obteve-se regra envolvendo apenas um nutriente, o P, na base original, onde essa regra mostrava que era uma novidade, e estava dentro dos 60% de confiança, sendo ela: J48 pruned tree -----------------P = '(-inf-2.466667]': '(1.5-inf)' (21.0/8.0) P = '(2.466667-3.033333]': '(-inf-1.5]' (34.0/9.0) P = '(3.033333-inf)': '(-inf-1.5]' (3.0/1.0) Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR. Utilizando-se do algoritmo Random Tree, também na base original, teve apenas o mesmo nutriente, o P, foi apresentado nas regras dentro dos mesmo requisitos estabelecidos (novidade e confiança mínimo de 60%), Sendo ela: RandomTree ========== P = '(-inf-2.466667]' : '(1.5-inf)' (21/8) P = '(2.466667-3.033333]' : '(-inf-1.5]' (34/9) P = '(3.033333-inf)' : '(-inf-1.5]' (3/1) A base interpolada, com mais observações que a base original, possibilitou um melhor desempenho nos mesmo algoritmos de classificação. Foi observado maior confiança por aparecer mais vezes a mesma regra, os algoritmos usados geraram regras diferentes da base original, envolvendo mais nutrientes em seus resultados. No algoritmo J48, onde anteriormente era só gerado o P em seus resultados, dessa vez apareceram o Cu, Ca e B, relacionando esses nutrientes com a produtividade alta, com os mesmos critérios da original, sendo a regra: J48 pruned tree -----------------Cu = '(8-9.9]' | Ca = '(-inf-3]': '(-inf-1.5]' (49.0/24.0) | Ca = '(3-3.9]' | | B = '(-inf-7.3]': '(1.5-inf)' (320.0/112.0) | | B = '(7.3-10.3]': '(1.5-inf)' (1214.0/308.0) | | B = '(10.3-inf)': '(-inf-1.5]' (2.0) | Ca = '(3.9-inf)' | | Mg = '(-inf-3.3]': '(1.5-inf)' (201.0/64.0) | | Mg = '(3.3-4.3]': '(-inf-1.5]' (78.0/38.0) | | Mg = '(4.3-inf)': '(1.5-inf)' (5.0) Já com o algoritmo Random Tree pode-se observar os nutrientes Zn, Mn e o Cu, sendo que: RandomTree ========== Mn = '(-inf-21.9]' | Zn = '(-inf-15.4]' : '(1.5-inf)' (238/58) | Zn = '(15.4-20.7]' | | Cu = '(-inf-8]' : '(1.5-inf)' (35/3) | | Cu = '(8-9.9]' : '(1.5-inf)' (1381/400) | | Cu = '(9.9-inf)' : '(1.5-inf)' (230/98) | Zn = '(20.7-inf)' : '(-inf-1.5]' (48/22) Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR. Conclusões Através da análise das bases original e interpolada, comparando seus resultados, observamos que tem mais nutrientes envolvidos nas regras, assim foi concluído que, para as bases de dados estudadas, a interpolação contribui no processo de mineração, na geração de regras com maior número de nutrientes, o que é importante do ponto de vista agronômico, pois tais nutrientes agem em conjunto na planta, sendo, portanto, pertinente que as regras não apresentem apenas um atributo de predição. Agradecimentos Agradeço a minha orientadora, professora Alaine Margarete Guimarães, a UEPG por ter cedido o espaço para realizar o trabalho, e a Fundação Araucária pelo fornecimento da bolsa. Referências GUIMARÃES, Alaine Margarete. Inteligência Computacional Aplicada à Data Mining. In: UNICENTRO, Sociedade Brasileira de Computação E. (Org). XII Escola Regional de Informática. Guarapuava, 2004, v.1, p. 90-132. University of Waikato. Weka 3 – Machine Learning Software in Java. Disponível em < http://www.cs.waikato.ac.nz/ml/weka> acesso em: 15 de junho de 2010. Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.