título do resumo - Anais Unicentro

Propaganda
USO DO SOFTWARE WEKA NA ANÁLISE DOS DADOS FOLIARES DA
CULTURA DO MILHO
Fernando Alves da Silva (BIC/Fundação Araucária), Jefferson Luiz Carneiro,
Alaine Margarete Guimarães (Orientador), e-mail: ([email protected]).
Universidade Estadual de Ponta Grossa/Departamento de Informática/Ponta
Grossa, PR.
Palavras-Chave:
classificação
Mineração
de
dados,
Nutrientes,
Algoritmos
de
Resumo:
Este trabalho teve como objetivo estudar o software Weka e avaliar o valor
dos nutrientes para alta produtividade da cultura do milho em Plantio Direto
que pode ser diferente da adotada no plantio convencional, utilizando a
técnica de Mineração de Dados para se obter regras da correlação entre
nutrientes e produtividade por meio de algoritmos de classificação.
Considerando o número reduzido de observações disponíveis e que está de
acordo com o coletado em campo, o que corresponde a 67 pontos
amostrais, ou seja, 67 observações em uma base de dados foliar de milho,
composta pelos nutrientes: N, P, K, Ca, Mg, Cu, Kn, B, Mn. O melhor
resultado apresentou correlação não óbvia envolvendo dois nutrientes que
estão presentes em duas das três regras obtidas com fator de confiança de
60%. A problemática considerada nesse trabalho foi o reduzido número de
observações, demonstrando que embora dificultando o processo de
mineração, foi possível ainda assim encontrar novo conhecimento.
Introdução
O plantio direto é um sistema diferenciado de manejo do solo muito
empregado na região dos Campos Gerais, o qual envolve o não
revolvimento do solo, a rotação de culturas e o uso de culturas de cobertura
para formação de palhada.
Com água da chuva atingindo diretamente o solo, este solo vai
empobrecendo, a água vai levando os nutrientes e o deixando pobre,
fenômeno conhecido como Lixiviação. A rotação de culturas também se
torna necessária pelo fato que algumas culturas retiram mais nutrientes do
solo do que outras, fazendo uso da rotação de culturas obtêm-se um solo
mais rico e equilibrado em relação aos nutrientes.
Porém as taxas de nutrientes consideradas adequadas neste sistema
são as mesmas adotadas para o plantio convencional, o que pode vir a
apresentar diferenças na produtividade, pois fazendo uso do plantio direto
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
pode vir a obter alta produtividade em níveis de nutrientes diferentes dos
utilizados no plantio convencional.
A fim de ter melhor produtividade analisamos uma base de dados
foliares da cultura do milho efetivamente observados em campo. Estudando
o software Weka e avaliando o valor dos nutrientes para alta produtividade
de milho em Plantio Direto, utilizou-se a técnica de Mineração de Dados,
considerando que o número de observações disponíveis está de acordo com
o coletado em campo, o que corresponde a 67 pontos amostrais, ou seja, 67
observações. O objetivo foi estudar e utilizar o software Weka para encontrar
relações entre dados em pontos de alta produtividade, considerando o
numero reduzido de observações.
Materiais e Métodos
Na primeira etapa foi realizado o pré-processamento da base descartando
dados irrelevantes para análise, mantendo só os atributos principais como
nutrientes e a produtividade. Utilizou-se o Software Excel para discretizar o
atributo Produtividade, pois apresentava valores contínuos onde interessava
somente saber quando a produtividade estivesse acima ou abaixo do limiar
estabelecido de 9000 kg/ha, o que significa que a produtividade é
considerada alta quando maior ou igual a 9000 kg/ha.
Na segunda etapa, já fazendo uso do Software Weka, foram
removidos da base atributos constantes, ou seja, que não variavam seu
valor. O seguinte passo foi efetuar a discretização dos atributos da base de
acordo com os intervalos atualmente adotados pelo meio agronômico para o
plantio convencional, os quais indicam se o teor do nutriente pode ser
considerado baixo, médio ou alto. Dividindo assim cada atributo em apenas
quatro intervalos.
No meio agronômico, exceto quando utilizamos tecnologia de
agricultura de precisão, normalmente o número de pontos amostrais que são
obtidos é pequeno em relação ao que seria adequado para a mineração de
dados. Porém, mesmo assim existe a necessidade de se buscar novas
correlações nesses dados.
Foram utilizados algoritmos do Weka para a obtenção das regras,
dentre os algoritmos que apresentam estrutura de Classificação (Classify),
Agrupamento (Cluster) e Associação (Associate), os algoritmos de
Classificação com estrutura de Arvore (Tree) e Regras (Rules) foram os que
obtiveram melhores resultados dentre os testados.
Buscou-se regras que fornecessem 75% de confiança, e se possível
apresentassem novidade em relação a parâmetros já obtidos no plantio
convencional. Para essa taxa de confiança não foram obtidas regras, pois o
volume de dados da base era pequeno dificultando assim o processo de
mineração, assumindo-se então uma taxa de confiança menor, de 60%.
Na terceira etapa, foi feito a análise das regras obtidas e evidenciando
na base se realmente continham as ocorrências apresentadas nos intervalos
estabelecidos de cada regra.
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Resultados e Discussão
Foram obtidas três regras em que os critérios foram satisfeitos. No algoritmo
J48 e o Random que apresenta estrutura de arvore (Tree) foram obtidas as
regras:
J48 (Tree): Mn = (23.7-31.5)
| MG = (-inf-3.9): '(1.5-inf)' (9.0/3.0).
Que pode ser interpretada como, quando o Mn estiver no intervalo (23.731.5), considerado baixo, e o Mg tiver valor até 3.9, a produtividade está
maior que 9000 Kg/ha, considerada alta, sendo o fator de confiança da regra
de (9.0/3.0).
Random (Tree): Mn = (23.7-31.5]
| CU = (-inf-5.7) : '(1.5-inf)' (7/3).
Que também pode ser interpretada da seguinte forma, quando o Mn estiver
no intervalo (23.7-31.5), e o CU variar até 5.7, considerado adequado, a
produtividade está maior que 9000 Kg/ha, considerada alta, sendo o fator de
confiança da regra de (7.0/3.0).
Com o algoritmo PART, que apresenta estrutura de regras (Rules), foi
obtida a regra: B = (11.8-14.8): '(1.5-inf)' (8.0/2.0), que também pode ser
interpretada como, quando o B estiver no intervalo (11.8-14.8), considerado
baixo, a produtividade é maior que 9000 Kg/ha, ou seja, alta e o fator de
confiança é (8.0/2.0).
Posteriormente foi analisada a base original no Weka verificando a
confirmação das ocorrências apresentadas nas regras, como mostram os
quadros 1, 2 e 3.
Quadro 1
Linha
11
12
14
...
Mn
23.7-31.5
23.7-31.5
23.7-31.5
Mg
-inf-3.9
-inf-3.9
-inf-3.9
PRODUTIVID. DISC.
1.5-inf
1.5-inf
1.5-inf
Cu
-inf-5.7
-inf-5.7
-inf-5.7
PRODUTIVID. DISC.
1.5-inf
1.5-inf
1.5-inf
Resultados da base original. Algoritmos J48.
Quadro 2
Linha
36
11
12
...
Mn
23.7-31.5
23.7-31.5
23.7-31.5
Resultados da base original. Algoritmos Random Tree
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Quadro 3
Linha
14
09
37
...
B
11.8-14.8
11.8-14.8
11.8-14.8
PRODUTIVID. DISC.
1.5-inf
1.5-inf
1.5-inf
Resultados da base original. Algoritmos Part.
Conclusões
No processo de Mineração de Dados o trabalho cumpriu seu objetivo de
estudo do software Weka através da análise da base original e por meio da
obtenção das regras com os algoritmos testados. Pode-se observar novas
correlações entre os nutrientes, mesmo em uma base pequena com apenas
67 observações, quando alteramos o fator de confiança de 75% para 60%. É
importante mencionar que a taxa dos nutrientes não pode ser analisada
isoladamente, visto que existe interação entre os mesmos. Porém, o
indicativo de que um nutriente apresenta valor diferente ao esperado em
pontos de alta produtividade, traz uma contribuição para uma atenção seja
dada em relação ao mesmo.
Agradecimentos
Agradeço Primeiramente a Deus, a Fundação Araucária, pelo incentivo
financeiro recebido, a minha orientadora Alaine Margarete Guimarães, e
UEPG pelo espaço fornecido para realização do trabalho.
Referências
1. GUIMARÃES, Alaine Margarete. Inteligência Computacional Aplicada à
Data Mining. In: UNICENTRO, Sociedade Brasileira de Computação E.
(Org). XII Escola Regional de Informática. Guarapuava, 2004, v.1, p. 90132.
2. University of Waikato. Weka 3 – Machine Learning Software in Java.
Disponível em: <URL:http://www.cs.waikato.ac.nz/ml/weka>. Acesso em:
15 março 2010.
3. Sistemas
de
Plantio
Direto.
Disponível
em:
<http://www22.sede.embrapa.br/plantiodireto/IntroducaoHistorico/sistema
PlantioDireto.htm>. Acesso em: 10 abril 2010.
4. S.O.S Natureza. Disponível em:
<http://gaoli.sites.uol.com.br/solopolu.htm>. Acesso em: 10 abril 2010.
Anais do XIX EAIC – 28 a 30 de outubro de 2010, UNICENTRO, Guarapuava –PR.
Download