Aplicação de técnicas de Mineração de Dados para planejamento

Propaganda
Aplicação de técnicas de Mineração de Dados para
planejamento agrícola no estado de São Paulo
Miriam Takamoto1, Maria das Graças J. M. Tomazela1
1
Faculdade de Tecnologia de Indaiatuba (FATEC) – Indaiatuba – SP – Brazil
[email protected], [email protected]
Resumo. O objetivo do trabalho foi aplicar técnicas de Mineração de Dados
em uma base de dados da produção agrícola permanente do estado de São
Paulo, com a finalidade de criar recursos para obter informações que auxiliem
no planejamento agrícola. Nosso suporte metodológico baseou-se em:
levantamento bibliográfico focado em Mineração de Dados; escolha da base
de dados e da ferramenta a ser utilizada para a mineração e seleção das
técnicas a serem utilizadas para o pré-processamento e para a Mineração de
Dados. Conclui-se que, a Mineração de Dados é um excelente recurso que
auxilia na análise e interpretação de bancos de dados possibilitando uma
tomada de decisão eficiente ou proporcionando um conhecimento novo.
Mineração de Dados, Planejamento agrícola.
Abstract. The objective was to apply techniques of Data Mining in a database
of agricultural permanent production in the state of São Paulo, aiming to create
resources to get information to assist agricultural planning. Our methodology
was based on: literature review focused on Data Mining; choice of database
and tool used for mining and selection techniques used for pre-processing and
Data Mining. It is concluded that Data Mining is an excellent resource that
helps in analysis and interpretation of databases allowing an efficient decision
making or providing new knowledge.
Data Mining, Agricultural Planning
Introdução
Com o advento da Tecnologia da Informação, armazenar gigantescas quantidades de
dados tornou-se muito fácil. Relatórios, dados sobre clientes, fornecedores, produtos,
dados estatísticos, dados de pesquisa, entre muitos outros são armazenados diariamente.
Tais dados são essenciais para gerir eficientemente o empreendimento, entretanto, não é
possível para a mente humana analisar e abstrair conhecimento de uma base de dados
tão grande.
Neste cenário, as técnicas de Mineração de Dados foram introduzidas como uma
forma de solução para a análise e interpretação de bancos de dados, possibilitando
assim, uma tomada de decisão eficiente, ou proporcionando um conhecimento novo.
O objetivo deste trabalho é apresentar um sistema de recomendação para
produtores agrícolas, utilizando as técnicas de Mineração de Dados. Devido à
importância da atividade agrícola no Brasil (segundo a Associação Brasileira de
Empresas de Tecnologia de Informação e Comunicação - Brasscom, o PIB agrícola
brasileiro em 2007 foi de US$ 611,8 bilhões de dólares que corresponde a 23,07% do
PIB do Brasil, em 2008 o PIB foi de US$ 741,1 bilhões de dólares, em 2009 houve uma
queda em função da seca e da chuva, porém a estimativa para 2010 foi um crescimento
de 8%), tal sistema traria ao homem grandes benefícios pois, a partir das informações
geradas um produtor saberá qual produto agrícola é mais vantajoso para se cultivar em
determinada região, ou uma financiadora saberá se é viável efetuar empréstimo a um
produtor que deseja iniciar a produção de determinado produto.
A Mineração de Dados é apenas uma etapa de um processo maior chamado de
KDD - Knowledge Discovery in Databases, traduzindo Descoberta de Conhecimentos
em Bases de Dados, mas, por ser a Mineração de Dados a etapa onde são aplicadas as
técnicas de busca de conhecimento, esta denominação acabou por se tornar mais
utilizada do que o KDD. O processo de KDD pode ser dividido em três etapas
operacionais:
1) Pré-Processamento: consiste na preparação dos dados e é de fundamental
importância, pois tais dados serão utilizados na etapa seguinte que é a Mineração de
Dados e compreende as atividades de limpeza, integração, seleção e transformação de
dados.
2) Mineração de Dados: É a principal etapa do processo e consiste na aplicação
de técnicas inteligentes para obter a extração de padrões de interesse do usuário.
Compreende a aplicação de algoritmos fundamentados em técnicas que procuram
explorar os dados de forma a produzir os modelos de conhecimento.
3) Pós-Processamento: consiste em analisar e interpretar os modelos de
conhecimentos que foram gerados na Mineração de Dados e compreende as funções de
elaboração e organização de gráficos, diagramas, ou relatórios demonstrativos. É
importante, nesta etapa, a análise dos resultados por especialistas da área do problema
que está sendo minerado.
Material e Métodos
A Base de Dados utilizada neste trabalho foi extraída do Sistema IBGE de Recuperação
Automática – SIDRA1. São dados sobre produtos da lavoura permanente do estado de
São Paulo, referente ao ano de 2006 (não havia outros anos disponíveis) e possuía 789
instâncias. Os atributos da base de dados são: 1) Microrregião: são as 63 microrregiões
do estado de São Paulo; 2) Produto: são produtos da lavoura permanente, totalizando 65
produtos diferentes tais como: Abacate, Açaí, Acerola, Algodão e Borracha; 3) Número
de estabelecimentos agropecuários com mais de 50 pés existentes; 4) Quantidade
produzida nos estabelecimentos agropecuários: a unidade de medida utilizada foi
“quilos”, exceto para o coco-da-baía, a graviola, a jaca e as mudas de plantas que eram
medidas em “unidades”; 5) Valor da produção dos estabelecimentos agropecuários; 6)
Valor da produção dos estabelecimentos agropecuários (percentual); 7) Quantidade
vendida nos estabelecimentos agropecuários; 8) Valor das vendas dos estabelecimentos
agropecuários; 9) Valor das vendas dos estabelecimentos agropecuários (percentual);10)
Número de pés colhidos nos estabelecimentos agropecuários; 11) Número de pés
1
Encontra-se disponível no site <http://www.sidra.ibge.gov.br/bda/agric/default.asp?z=t&o=11&i=P
colhidos nos estabelecimentos agropecuários (percentual); 12) Área colhida nos
estabelecimentos agropecuários; 13) Área colhida nos estabelecimentos agropecuários
(percentual); 14) Área plantada nos estabelecimentos agropecuários; 15) Área plantada
nos estabelecimentos agropecuários (percentual); 16) Número de pés existentes nos
estabelecimentos agropecuários; 17) Número de pés existentes nos estabelecimentos
agropecuários (percentual);18) Número de pés novos plantados no ano nos
estabelecimentos agropecuários;19) Número de pés novos plantados no ano nos
estabelecimentos agropecuários (percentual).
Para atingir o objetivo da pesquisa foi utilizada a ferramenta WEKA (Waikato
Environment for Knowledge Analysis)2, que é uma ferramenta de mineração de dados de
código aberto, desenvolvida pelo departamento de Ciência da Computação da
Universidade de Waikato da Nova Zelândia. Ela implementa os principais algoritmos
das tarefas de mineração: classificação, associação e clusterização, e também diversos
métodos de seleção de atributos.
Na etapa de pré-processamento, realizamos os seguintes procedimentos:
1) Exclusão de atributos redundantes, por exemplo: “Valor da produção dos
estabelecimentos agropecuários” e “Valor da produção dos estabelecimentos
agropecuários (percentual)”, estes dois atributos apenas apresentam unidades de
medidas diferentes para expressar um mesmo dado. Desta forma, para eliminar o valor
redundante, optamos por eliminar os atributos que apresentavam os dados em
“percentual”.
2) Exclusão das instâncias com valores ausentes, ou seja, as instâncias que
continham “X” indicando que um determinado produto era inexistente em uma
determinada microrregião.
3) Exclusão das instâncias que continham o produto classificado como
“unidades” diferentemente da maioria que era medido em “quilos”, pois não poderíamos
tratar produtos com unidades de medidas diferentes como se fossem iguais.
Posteriormente, utilizamos uma operação de pré-processamento da ferramenta
WEKA chamada Normalize ou Normalização de Dados que ajusta a escala dos valores
em pequenos intervalos, evitando que aqueles que apresentam uma escala de valores
maior que outros, influenciem de forma tendenciosa os resultados da clusterização.
Após aplicarmos as operações de pré-processamento, partimos, então para a
etapa de Mineração de Dados, em que optamos por utilizar a “Clusterização Classificação” que é uma tarefa composta que encadeia as tarefas primárias de
Clusterização e Classificação.
A clusterização, segundo Amo (2004), é usada para particionar os registros de
uma base de dados em subconjuntos ou clusters, de tal forma que elementos em um
cluster compartilhem um conjunto de propriedades comuns que os distingam dos
elementos de outros clusters. Ela é uma tarefa de aprendizado não-supervisionado, pois
os clusters representam classes que não estão definidas no início do processo de
aprendizagem, ao contrário da tarefa de Classificação no qual o banco de dados é
composto de instâncias já classificadas. Uma vez, tendo esses clusters, é possível fazer
uma análise dos elementos que compõem cada um deles, identificando as características
2
É possível fazer o download dessa ferramenta no site <http://www.cs.waikato.ac.nz/~ml/weka/>
comuns aos seus elementos e, desta forma, podendo criar um rótulo que represente cada
cluster.
A classificação, segundo Goldschmidt e Passos (2005) compreende a busca por
uma função que permita associar corretamente cada registro de um Banco de Dados a
um único rótulo denominado classe. É uma tarefa preditiva, ou seja, uma vez
identificada, essa função pode ser aplicada a novos registros de forma a prever a classe
em que tais registros se enquadram. Feita a classificação é gerada uma matriz
denominada “matriz de confusão”, que apresenta a quantidade de registros que o
algoritmo classificador rotulou corretamente e a quantidade que rotulou incorretamente.
Temos, assim, a acurácia (precisão) do modelo.
Segundo Goldschmidt e Passos (2005), na tarefa composta ClusterizaçãoClassificação, os dados são agrupados em função de sua similaridade utilizando algum
algoritmo de clusterização, dessa forma, o cluster passa a ser considerado uma classe e,
então, aplica-se um algoritmo de classificação para gerar modelos que possam prever a
classificação de novos registros. A razão de termos utilizado tal tarefa deve-se ao fato
de ela ser aplicável em situações em que os registros não estejam enquadrados em
classes predefinidas, que é o caso da base de dados utilizada neste trabalho.
Na etapa de clusterização, realizamos experimentos tanto com os algoritmos de
clusterização SimpleKMeans quanto com o algoritmo EM (Expectation Maximization).
O SimpleKmeans exige que o usuário informe o número de clusters, enquanto que o EM
não necessita desta informação pois, ele próprio calcula o número de clusters a serem
criados.
Após selecionarmos o melhor modelo para a clusterização, utilizamos técnicas
de Seleção de Atributos para descobrir, dentre os atributos existentes, quais possuem
maior relevância para a tarefa de Classificação. Para tanto utilizamos algumas das
técnicas de seleção mais citadas na literatura, a saber:
1) CfsSubsetEval: CFS significa Correlation-based Feature Selection, ou Seleção
Baseada em Correlação é um método em que um conjunto de atributos é considerado
bom se: contém atributos altamente correlacionados com a classe e contém atributos não
correlacionados entre si.
2) ChiSquaredAttributeEval: Utiliza o método Ranker, que não elimina nenhum
atributo, apenas faz o ranqueamento das variáveis de acordo com sua relevância. O
método ChiSquaredAttributeEval,
ou Qui-Quadrado (x²), avalia os atributos
individualmente usando a medida x² com relação à classe. Quanto maior o valor de x²,
mais provável é a correlação das variáveis (atributo e classe). O valor crítico geralmente
utilizado para nível de significância é 3,841, ou seja, os atributos com valor maior que
3,841 tem correlação com a classe.
3) GainRatioAttributeEval: Utiliza o método Ranker, que ranqueia os atributos
através do ganho de informação e redução da entropia.
4) InfoGainAttributeEval: Este avaliador segue as mesmas especificações do
avaliador GainRatioAttributeEval, ou seja, ranqueia os atributos através do ganho de
informação.
5) PrincipalComponents: Utiliza o método Ranker. No PrincipalComponents,
utilizamos o Princípio para descarte de variáveis de Jolliffe (1972), na qual atributos
com o coeficiente menor que
dados.
= 0.70 contribui muito pouco para a explicação dos
Feita a seleção de atributos utilizamos novamente os mesmos métodos de
classificação empregados anteriormente para verificar se a acurácia é maior com a
Seleção de Atributos ou com a base de dados completa.
Como o objetivo deste trabalho é auxiliar no planejamento agrícola por meio de
técnicas de mineração de dados, decidimos que seria importante utilizar a produtividade
como parâmetro de comparação. Em pesquisas realizadas no site do IBGE3, verificamos
que podemos calcular a produtividade da seguinte forma:
Desta forma obtemos a produtividade de um produto para uma dada
microrregião, que em nosso caso é medida em quilos/hectare. Porém, precisávamos
ainda calcular a produtividade média para utilizarmos como parâmetro de comparação
para a produtividade de cada microrregião. Fizemos isso da seguinte forma:
Onde:
• “Produtividade” é a soma das produtividades de todas as microrregiões que
produzem um determinado produto no estado de São Paulo em 2006.
• “Nº de microrregiões produtoras” é a soma de todas as microrregiões que
produzem o mesmo produto no estado de São Paulo em 2006.
Utilizamos então esta produtividade média, para verificar, dentre os produtos
mais representativos de cada cluster, quais microrregiões tinham a produtividade acima
da média.
Empregamos também mapas de zoneamento agroclimático para auxiliar na
análise e interpretação dos resultados obtidos.
Resultados e Discussão
Na etapa de clusterização a aplicação do algoritmo EM dividiu a base de dados em 9
clusters. A seguir aplicamos o SimpleKmeans e especificamos 9 clusters, o mesmo
número gerado pelo EM.
A Tabela 1 apresenta a quantidade e a porcentagem de registros que os
algoritmos utilizados especificaram para cada cluster. Nota-se que ao dividir em 9
clusters obtivemos grupamentos bastante homogêneos, ou seja, não há clusters com
muitos registros e outros com poucos, com exceção do cluster 3 gerado pelo
SimpleKmeans.
3
<http://www.ibge.gov.br/home> consultado no dia 03/06/2010
Tabela 1 – Quantidade e porcentagem de registros agrupados nos clusters
Cluster 01
Cluster 02
Cluster 03
Cluster 04
Cluster 05
Cluster 06
Cluster 07
Cluster 08
Cluster 09
SimpleKmeans
EM
Qtde de Registros Porcentagem Qtde de Registros Porcentagem
60
8%
122
16%
108
14%
78
10%
9
1%
63
8%
73
9%
68
9%
99
13%
151
20%
106
14%
77
10%
92
12%
50
6%
122
16%
60
8%
101
13%
101
13%
Com o banco de dados dividido em clusters, utilizamos a operação de
Classificação para verificar a capacidade preditiva dos modelos gerados tanto pelo
algoritmo EM como pelo SimpleKmeans. Verificamos a acurácia obtida com alguns dos
algoritmos de classificação mais utilizados, que são: o J48 que se baseia em Árvores de
Decisão, o IB1 e IBk que se baseiam em K-Nearest Neighbors, o MultilayerPerceptron
baseado em Redes Neurais e o NaiveBayes baseado em Métodos Estatísticos. Na Tabela
2 podemos visualizar os resultados obtidos. Observamos que o modelo gerado pelo EM
apresentou porcentagens maiores de acurácia, justificando nossa escolha por tal modelo.
Tabela 2 – Acurácia dos modelos gerados pelo EM e SimpleKmeans
Algoritmo de
Classificação
J48
IB1
IBk
MultilayerPerceptron
NaiveBayes
Acurácia
EM
SimpleK-means
81.17%
75.06%
72.08%
74.94%
72.08%
74.94%
66.49%
68.31%
91.43%
86.88%
Após escolher o modelo gerado pelo EM utilizamos técnicas de seleção de
atributos para descobrir, dentre os atributos existentes, quais possuem maior relevância
para a tarefa de Classificação, e os resultados obtidos foram:
1) CfsSubsetEval: Os atributos selecionados foram: Numero de estabelecimentos
agropecuários, Quantidade produzida, Valor da produção, Quantidade vendida, Valor
das vendas, Numero de pés colhidos, Área plantada (hectares) e Numero de pés
existentes.
2) ChiSquaredAttributeEval: Todos os atributos apresentam correlação com a
classe, portanto, de acordo com esse classificador todos os atributos deveriam ser
utilizados.
3) GainRatioAttributeEval: Este avaliador não possui nenhum critério para
descarte de atributos, portanto decidimos utilizar os atributos de valor acima de 0.5 que
são: Quantidade produzida, Quantidade vendida, Valor da produção, Valor das vendas e
Número de pés existentes.
4) InfoGainAttributeEval: Este avaliador também não possui nenhum critério
para descarte de atributos, portanto decidimos utilizar os atributos de valor acima de 1.0
que são: Quantidade vendida, Quantidade produzida, Valor das vendas, Valor da
produção e Número de pés existentes.
5) PrincipalComponents: Utilizando o coeficiente de Jolliffe, os melhores
atributos são: Área colhida, Quantidade produzida, Valor da produção e Número de
estabelecimentos agropecuários.
Após a Seleção de Atributos utilizamos os métodos de classificação
especificados na Tabela 3 e verificamos que obtivemos melhores acurácias sem a
Seleção de Atributos, isto é, um número maior de instâncias classificadas corretamente
quando utilizamos o banco de dados completo.
Tabela 3 – Acurácia dos modelos com seleção e sem seleção de atributos
Acurácia
CfsSubsetEval GainRatio InfoGain PrincipalComponents Sem seleção
J48
81.56%
76.62% 76.10%
68.83%
81.17%
IB1
76.75%
74.81% 76.75%
66.75%
72.08%
Ibk
76.75%
74.81% 76.75%
66.75%
72.08%
MultilayerPerceptron
79.48%
77.27% 78.57%
67.27%
66.4935%
NaiveBayes
83.77%
76.23% 79.61%
67.27%
91.43%
Algoritmo
Ainda analisando a Tabela 3 observamos que o algoritmo NaïveBayes
apresentou a melhor precisão dentre os classificadores. Os algoritmos de seleção de
atributos consideram os atributos de maior correlação, por outro lado o algoritmo de
classificação NaïveBayes considera que os atributos não tem dependência entre si, estes
dois fatores explicam a alta acurácia obtida por este algoritmo na presença de todos os
atributos. Portanto resolvemos utilizar o modelo gerado pelo algoritmo EM na presença
de todos os atributos.
Nossa base de dados possui 63 microrregiões, cada uma delas produz um ou
vários produtos e um mesmo produto pode ser produzido por uma ou várias
microrregiões e efetuando a análise dos resultados gerados com a Mineração de Dados,
conseguimos identificar que os registros foram agrupados principalmente por produtos,
isso porque, embora cada cluster apresentasse diversos produtos, sempre havia um ou
alguns que eram predominantes, por exemplo, de todos os produtos do cluster 8 o "café
arábica em grão" representava 82% destes produtos. A Tabela 4 apresenta os produtos
predominantes de cada cluster e a porcentagem que este representa em relação ao total
de produtos do agrupamento.
Entretanto, verificamos que os demais produtos encontravam-se “espalhados”
entre os clusters, mas, constatamos que esses produtos possuíam poucas instâncias,
enquanto que os que possuem muitas instâncias foram agrupados de forma a se
concentrarem em um ou dois clusters, o que nos leva a concluir que a ferramenta de
Mineração de Dados não pôde clusterizar de maneira eficiente os produtos com poucas
instâncias. Portanto efetuamos somente a análise dos produtos com várias instâncias,
mas por ser inviável explicarmos detalhadamente todos os produtos, selecionamos
apenas os produtos da lavoura permanente mais significativos do estado de São Paulo,
que são: a borracha, o café e a laranja.
Tabela 4 – Itens predominantes de cada cluster
Borracha látex liquido
Borracha látex coagulado
Banana
Goiaba
Maracujá
Palmito
Café canephora em grão
Tangerina bergamota mexerica
Laranja
Manga
Abacate
Limão
Maracujá
Banana
Café arábica em grão
Uva mesa
Lichia
Cluster 1
Cluster 1
Cluster 1
Cluster 2
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 5
Cluster 5
Cluster 5
Cluster 6
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Cluster 9
14%
15%
16%
36%
19%
45%
62%
29%
25%
14%
12%
50%
14%
70%
84%
30%
21%
O produto borracha se divide em látex coagulado e látex líquido, e está
predominantemente no cluster 1. Aproximadamente 77% de todas as microrregiões que
produzem borracha látex coagulado e 76% dos produtores de látex liquido, foram
agrupados no cluster 1 e destes 65% e 56%, respectivamente, possuem produtividade
acima da média. Além disso, percebemos que a microrregião Registro, que produz tanto
látex líquido como látex coagulado e se encontra no cluster 2, tem a produtividade baixa
para ambos os produtos, e estudando um mapa de zoneamento agroclimático da
seringueira (Figura 1) verificamos que ela se encontra em uma área de “restrição por
excesso de umidade” explicando a baixa produtividade e justificando a razão dessa
microrregião ter sido agrupada em outro cluster. A análise dos dados nos possibilita
ainda a concluir que as microrregiões mais indicadas para a produção da borracha são as
pertencentes ao cluster 1, principalmente as que apresentaram produtividade acima da
média, ou seja, Adamantina, Araraquara, Assis, Auriflama, Batatais, Birigui,
Catanduva, Dracena, Fernandópolis, Itapetininga, Lins, Marilia, Novo Horizonte,
Presidente Prudente, São João da Boa Vista, São Joaquim da Barra, Tupã e
Votuporanga.
Figura 1 - Zoneamento climático da cultura da Seringueira
Fonte: Instituto Agronômico de Campinas (2007) - a Classe A representa aptidão, a Classe B
restrição por excesso de umidade, a Classe C restrição por excesso térmico, a Classe D
inaptidão por carência térmica.
O produto café também possui duas categorias, café arábica e café canephora.
Das microrregiões produtoras do café arábica 96% foram agrupadas no cluster 8 e as
duas microrregiões que ficaram fora deste agrupamento são Registro e Bananal que
apresentam baixa produtividade, isso porque, se analisarmos no mapa de zoneamento
agroclimático do café (Figura 2) verificamos que a microrregião de Registro e parte da
microrregião do Bananal estão dentro da área considerada desfavorável para o cultivo
de café.
Quanto ao café canephora, 93% das microrregiões produtoras foram agrupadas
no cluster 4, e ficaram fora deste agrupamento três microrregiões também de baixa
produtividade que são: Registro, Capão Bonito e São José dos Campos; as duas
primeiras se encontram em área desfavorável para o cultivo e a última em área
considerada favorável mas sujeita a geadas.
Portanto as microrregiões que podem ser consideradas as mais indicadas para o
plantio do café arábica são as que se encontram no cluster 8: Jales, Novo Horizonte,
Tupã, Araçatuba, Dracena, Votuporanga, Presidente Prudente, Limeira, Birigui,
Itapetininga, Rio Claro, Auriflama, Catanduva, Sorocaba, Campos do Jordão, Jundiaí,
Capão Bonito. E as microrregiões mais indicadas para o plantio do café canephora são
as pertencentes ao cluster 4: Amparo, Botucatu, São Jose do Rio Preto, Araraquara,
Birigui, Adamantina, Lins, Ourinhos, Franca, Rio Claro, Ribeirão Preto, Tupã, Dracena,
Votuporanga, Catanduva, Novo Horizonte, Tatuí, Bragança Paulista, Limeira.
Figura 2 - Zoneamento climático da cultura do café
Fonte: Coral et al.(2001)
Analisando o cluster 5 percebemos que mais da metade dele é composto por
citros, ou seja, laranja 24%, tangerina 28% e lima 5% totalizando 57%. Sendo que 74 %
das microrregiões produtoras de laranja e 94% das microrregiões produtoras de
tangerina foram agrupadas neste cluster. Para verificarmos a razão de 15% e 11% das
microrregiões produtoras de laranja terem sido agrupadas nos clusters 6 e 7
respectivamente, utilizamos um mapa de zoneamento agroclimático da laranja (Figura
3), e verificamos que quase todas essas microrregiões se encontram em áreas de alto
risco por elevado déficit hídrico ou por elevada precipitação durante o ano todo, o que
justifica a produtividade abaixo da média.
Quanto à tangerina, não encontramos um mapa de zoneamento agroclimático
para a mesma, porém, apenas três microrregiões foram agrupadas fora do cluster 5 e são
justamente as três que apresentam a produtividade mais baixa do estado de São Paulo
em 2006. Esta análise nos permitiu comprovar que as microrregiões mais aptas ao
plantio de laranja e tangerina são as que se encontram no cluster 5.
Figura 3 - Zoneamento climático da cultura da Laranja
Fonte: Marin (2009) - As áreas em verde são consideradas de baixo risco para a laranja. As
áreas em vermelho são de alto risco: o norte do planalto paulista pelo elevado déficit hídrico e o
litoral do estado por possuir elevada precipitação durante o ano todo.
Conclusões
Neste trabalho aplicamos técnicas de Mineração de Dados à base de dados da produção
agrícola permanente do estado de São Paulo, com o objetivo de apresentar um sistema
de recomendação para produtores agrícolas.
Primeiramente utilizamos técnicas de pré-processamento como a exclusão de
alguns valores e a normalização dos dados que poderiam influenciar de forma
tendenciosa os resultados da Mineração. Depois, efetuamos testes com dois tipos de
algoritmos de clusterização o K-Means e o EM no qual o EM apresentou melhor
acurácia. A seguir utilizamos as técnicas de seleção de atributos, porém ao
compararmos a acurácia do modelo com a seleção de atributos e sem a seleção de
atributos, verificamos que o modelo apresentava maior acurácia sem a seleção de
atributos e utilizando o algoritmo de classificação NaïveBayes.
Na última parte do trabalho realizamos a análise dos resultados obtidos e
verificamos que o algoritmo de clusterização agrupou os dados por produtos, e com o
auxílio de gráficos, tabelas e mapas de zoneamento agroclimático, constatamos que era
possível obter informações de quais microrregiões são aptas para o plantio de
determinado produto, ou seja, dar suporte a um produtor que deseja saber se é viável
produzir determinado produto, ou a uma financiadora que quer saber se é viável efetuar
empréstimo a um produtor que deseja iniciar a produção de um determinado produto,
tarefa essa que seria muito difícil de conseguir se tivéssemos que analisar a base de
dados inteira, portanto, atingimos o objetivo deste trabalho que visava a gerar recursos
para auxiliar no planejamento agrícola.
Salientamos ainda a possibilidade de aprimoramento deste trabalho utilizando-se
uma base de dados com valores de vários anos permitindo assim eliminar possíveis
inconsistências, por exemplo se uma determinada região que normalmente possui alta
produtividade teve, justamente neste ano, uma baixa produção devido a algum fator
esporádico, ou então acrescentado à base de dados informações complementares tais
como condições pluviométricas, climáticas ou de solo, por exemplo.
Referências
AMO, Sandra de. Técnicas de Mineração de Dados. Universidade Federal de
Uberlândia, 2004. Disponível em <http://www.deamo.prof.ufu.br/arquivos/JAIcap5.pdf> Acesso em: 03/02/2010.
BRASSCON. BRASIL: Gigante de TI rumo ao mercado global. 2010
Disponível em:
<http://www.anggulo.com.br/camp_tec/palestras/3%20Sergio%20Sgobbi_new.pdf>
Acesso em: 20/06/2010
CORAL, Gustavo. et al. Zoneamento de riscos climáticos para a cafeicultura do
estado de São Paulo. Revista Brasileira de Agrometeorologia, Passo Fundo, v.9, n.3,
p.495-500, 2001.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: Um Guia Prático. Rio
de Janeiro: Elsevier, 2005.
IAC. Instituto Agronômico de Campinas. Programa Seringueira. Disponível em:
<http://www.iac.sp.gov.br/centros/centro_cafe/seringueira/importcult.htm> Acesso
em: 13/11/2010.
JOLLIFFE, I. T. Discarding Variables in a Principal Component Analysis. In
Applied Statistics, Vol. 21, No. 2 (1972), pp. 160-173.
MARIN, Fábio R.; MACEDO JUNIOR, Celso; ASSAD, Eduardo Delgado.
Zoneamento Agrícola de Riscos Climáticos da Laranja no Estado de São Paulo. XVI
Congresso Brasileiro de Agrometeorologia, Belo Horizonte, 2009.
SIDRA. Sistema IBGE de Recuperação Automática. Disponível em:
<http://www.sidra.ibge.gov.br/bda/agric/default.asp?z=t&o=11&i=P> Acesso em:
03/06/2010.
WEKA. Waikato Environment for Knowledge Analysis. Disponível em:
<http://www.cs.waikato.ac.nz/~ml/weka/> Acesso em: 10/02/2010
Download