título do resumo - Anais Unicentro

Propaganda
ESTUDO DO EFEITO DA INTERPOLAÇÃO EM DADOS FOLIARES DO
MILHO COM O USO DO SOFTWARE WEKA
Jefferson Luiz Carneiro (BIC/ARAUCÁRIA – Ações Afirmativas - UEPG),
Alaine Margarete Guimarães (Orientadora), e-mail: [email protected].
Universidade Estadual de Ponta Grossa/Departamento de Informática/Ponta
Grossa, PR.
Palavras-chave: Mineração de Dados, Produtividade, Nutrientes.
Resumo:
As tecnologias de Agricultura de Precisão tem possibilitado a geração
de bases de dados de pontos georreferenciados, amostrados em campo, e
posteriormente interpolados. Com a análise de solo, o uso de softwares de
mineração de dados ajudam no processo de descoberta de novas regras,
onde são analisados os nutrientes presentes em certos segmentos de uma
determinada cultura agrícola. Foram utilizadas duas bases de dados, uma
base original e uma outra interpolada, ou seja, que foram deduzidos valores
a partir dos dados conhecidos, assim gerando mais conhecimento. Neste
trabalho, foi utilizado o software Weka, com uma base de dados foliares da
cultura de milho, analisando os nutrientes, além da produtividade. Para a
obtenção e seleção das regras de interesse, foi levado em consideração
somente regras com no mínimo 60% de confiança, produtividade alta e que
apresentasse alguma novidade, ou seja, cujo conhecimento não era óbvio.
Introdução
Com o crescimento da área agronômica, o uso de técnicas computacionais
vem desempenhando grande melhora na produtividade de muitas culturas, a
mineração de dados contribuí com a análise de dados amostrais de solo,
foliares e ainda de produtividade obtida em cada ponto observado. A
interpolação contruibui com a expansão nas bases de dados originais, onde
são deduzidos muitos valores através dos conhecidos, assim podendo gerar
grandes bases de dados.
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Materiais e métodos
Foi utilizado o software Weka, onde foram analisadas as bases de dados,
obtendo regras. A base de dados original possuía 59 observações, já a
interpolada, apresentou-se 2371 observações. Essas bases estavam em
formatos não conhecidos pelo Weka, então foi utilizado inicialmente uma
ferramenta de conversão de arquivos.
Ambas as bases possuíam dados de nutrientes nas folhas de milho,
dados de posicionamento geográfico (latitude e longitude) e a produtividade.
Esses nutrientes estavam cada um com seus respectivos valores que foram
coletados em campo, mas para melhor entendimento do Weka e do usuário,
foi realizado um processo de discretização, onde foram separados todos
esses valores em grupos. Neste trabalho foi utilizado três grupos, onde
compreendiam valores como por exemplo: -infinito, X , infinito.
Utilizou-se o Software Excel para discretizar o atributo produtividade,
pois apresentava valores contínuos onde interessava somente quando a
produtividade estive-se 9.000 kg/ha ou menor, sendo que o que fosse
superior ou inferior no linear estabelecido de 9000 kg/ha, o que significa que
a produtividade é considerada alta quando ≤ 9000 kg/ha. Utilizando
algoritmos de classificação, tais como, J48 e Random Tree, foram obtidas
regras apresentando correlação entre os nutrientes e a produtividade. Esses
são algoritmos que usam estrutura de árvore, os quais são muito úteis pela
sua simplicidade de exibição e fácil interpretação. Para a obtenção e seleção
das regras, foi levado em consideração somente regras com no mínimo 60%
de confiança, onde apresentava produtividade alta e alguma novidade. Com
os resultados obtidos, fez-se uma comparação entre a base original e a base
interpolada, para verificar se a correlação apresentada nas regras se
confirma tanto na base original como na interpolada.
Resultados e Discussão
As bases de dados apresentaram diferentes regras, sendo que na base
original, como possuía menos observações, pode-se observar que houve
uma menor correlação entre os nutrientes e a produtividade. Na base
interpolada algumas regras envolvem varios nutrientes porém não
apresentam novidade. Tais regras então foram desconsideradas. Os
resultados foram gerados usando dois algoritmos de classificação, o J48 e o
Random Tree. Com o algoritmo J48 obteve-se regra envolvendo apenas um
nutriente, o P, na base original, onde essa regra mostrava que era uma
novidade, e estava dentro dos 60% de confiança, sendo ela:
J48 pruned tree
-----------------P = '(-inf-2.466667]': '(1.5-inf)' (21.0/8.0)
P = '(2.466667-3.033333]': '(-inf-1.5]' (34.0/9.0)
P = '(3.033333-inf)': '(-inf-1.5]' (3.0/1.0)
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Utilizando-se do algoritmo Random Tree, também na base original, teve
apenas o mesmo nutriente, o P, foi apresentado nas regras dentro dos
mesmo requisitos estabelecidos (novidade e confiança mínimo de 60%),
Sendo ela:
RandomTree
==========
P = '(-inf-2.466667]' : '(1.5-inf)' (21/8)
P = '(2.466667-3.033333]' : '(-inf-1.5]' (34/9)
P = '(3.033333-inf)' : '(-inf-1.5]' (3/1)
A base interpolada, com mais observações que a base original,
possibilitou um melhor desempenho nos mesmo algoritmos de classificação.
Foi observado maior confiança por aparecer mais vezes a mesma regra, os
algoritmos usados geraram regras diferentes da base original, envolvendo
mais nutrientes em seus resultados. No algoritmo J48, onde anteriormente
era só gerado o P em seus resultados, dessa vez apareceram o Cu, Ca e B,
relacionando esses nutrientes com a produtividade alta, com os mesmos
critérios da original, sendo a regra:
J48 pruned tree
-----------------Cu = '(8-9.9]'
| Ca = '(-inf-3]': '(-inf-1.5]' (49.0/24.0)
| Ca = '(3-3.9]'
| | B = '(-inf-7.3]': '(1.5-inf)' (320.0/112.0)
| | B = '(7.3-10.3]': '(1.5-inf)' (1214.0/308.0)
| | B = '(10.3-inf)': '(-inf-1.5]' (2.0)
| Ca = '(3.9-inf)'
| | Mg = '(-inf-3.3]': '(1.5-inf)' (201.0/64.0)
| | Mg = '(3.3-4.3]': '(-inf-1.5]' (78.0/38.0)
| | Mg = '(4.3-inf)': '(1.5-inf)' (5.0)
Já com o algoritmo Random Tree pode-se observar os nutrientes Zn, Mn e o
Cu, sendo que:
RandomTree
==========
Mn = '(-inf-21.9]'
| Zn = '(-inf-15.4]' : '(1.5-inf)' (238/58)
| Zn = '(15.4-20.7]'
| | Cu = '(-inf-8]' : '(1.5-inf)' (35/3)
| | Cu = '(8-9.9]' : '(1.5-inf)' (1381/400)
| | Cu = '(9.9-inf)' : '(1.5-inf)' (230/98)
| Zn = '(20.7-inf)' : '(-inf-1.5]' (48/22)
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Conclusões
Através da análise das bases original e interpolada, comparando seus
resultados, observamos que tem mais nutrientes envolvidos nas regras,
assim foi concluído que, para as bases de dados estudadas, a interpolação
contribui no processo de mineração, na geração de regras com maior
número de nutrientes, o que é importante do ponto de vista agronômico, pois
tais nutrientes agem em conjunto na planta, sendo, portanto, pertinente que
as regras não apresentem apenas um atributo de predição.
Agradecimentos
Agradeço a minha orientadora, professora Alaine Margarete Guimarães, a
UEPG por ter cedido o espaço para realizar o trabalho, e a Fundação
Araucária pelo fornecimento da bolsa.
Referências
GUIMARÃES, Alaine Margarete. Inteligência Computacional Aplicada à Data
Mining. In: UNICENTRO, Sociedade Brasileira de Computação E. (Org). XII
Escola Regional de Informática. Guarapuava, 2004, v.1, p. 90-132.
University of Waikato. Weka 3 – Machine Learning Software in Java.
Disponível em < http://www.cs.waikato.ac.nz/ml/weka> acesso em: 15 de
junho de 2010.
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Download