Aplicação de técnicas de Mineração de Dados para planejamento agrícola no estado de São Paulo Miriam Takamoto1, Maria das Graças J. M. Tomazela1 1 Faculdade de Tecnologia de Indaiatuba (FATEC) – Indaiatuba – SP – Brazil [email protected], [email protected] Resumo. O objetivo do trabalho foi aplicar técnicas de Mineração de Dados em uma base de dados da produção agrícola permanente do estado de São Paulo, com a finalidade de criar recursos para obter informações que auxiliem no planejamento agrícola. Nosso suporte metodológico baseou-se em: levantamento bibliográfico focado em Mineração de Dados; escolha da base de dados e da ferramenta a ser utilizada para a mineração e seleção das técnicas a serem utilizadas para o pré-processamento e para a Mineração de Dados. Conclui-se que, a Mineração de Dados é um excelente recurso que auxilia na análise e interpretação de bancos de dados possibilitando uma tomada de decisão eficiente ou proporcionando um conhecimento novo. Mineração de Dados, Planejamento agrícola. Abstract. The objective was to apply techniques of Data Mining in a database of agricultural permanent production in the state of São Paulo, aiming to create resources to get information to assist agricultural planning. Our methodology was based on: literature review focused on Data Mining; choice of database and tool used for mining and selection techniques used for pre-processing and Data Mining. It is concluded that Data Mining is an excellent resource that helps in analysis and interpretation of databases allowing an efficient decision making or providing new knowledge. Data Mining, Agricultural Planning Introdução Com o advento da Tecnologia da Informação, armazenar gigantescas quantidades de dados tornou-se muito fácil. Relatórios, dados sobre clientes, fornecedores, produtos, dados estatísticos, dados de pesquisa, entre muitos outros são armazenados diariamente. Tais dados são essenciais para gerir eficientemente o empreendimento, entretanto, não é possível para a mente humana analisar e abstrair conhecimento de uma base de dados tão grande. Neste cenário, as técnicas de Mineração de Dados foram introduzidas como uma forma de solução para a análise e interpretação de bancos de dados, possibilitando assim, uma tomada de decisão eficiente, ou proporcionando um conhecimento novo. O objetivo deste trabalho é apresentar um sistema de recomendação para produtores agrícolas, utilizando as técnicas de Mineração de Dados. Devido à importância da atividade agrícola no Brasil (segundo a Associação Brasileira de Empresas de Tecnologia de Informação e Comunicação - Brasscom, o PIB agrícola brasileiro em 2007 foi de US$ 611,8 bilhões de dólares que corresponde a 23,07% do PIB do Brasil, em 2008 o PIB foi de US$ 741,1 bilhões de dólares, em 2009 houve uma queda em função da seca e da chuva, porém a estimativa para 2010 foi um crescimento de 8%), tal sistema traria ao homem grandes benefícios pois, a partir das informações geradas um produtor saberá qual produto agrícola é mais vantajoso para se cultivar em determinada região, ou uma financiadora saberá se é viável efetuar empréstimo a um produtor que deseja iniciar a produção de determinado produto. A Mineração de Dados é apenas uma etapa de um processo maior chamado de KDD - Knowledge Discovery in Databases, traduzindo Descoberta de Conhecimentos em Bases de Dados, mas, por ser a Mineração de Dados a etapa onde são aplicadas as técnicas de busca de conhecimento, esta denominação acabou por se tornar mais utilizada do que o KDD. O processo de KDD pode ser dividido em três etapas operacionais: 1) Pré-Processamento: consiste na preparação dos dados e é de fundamental importância, pois tais dados serão utilizados na etapa seguinte que é a Mineração de Dados e compreende as atividades de limpeza, integração, seleção e transformação de dados. 2) Mineração de Dados: É a principal etapa do processo e consiste na aplicação de técnicas inteligentes para obter a extração de padrões de interesse do usuário. Compreende a aplicação de algoritmos fundamentados em técnicas que procuram explorar os dados de forma a produzir os modelos de conhecimento. 3) Pós-Processamento: consiste em analisar e interpretar os modelos de conhecimentos que foram gerados na Mineração de Dados e compreende as funções de elaboração e organização de gráficos, diagramas, ou relatórios demonstrativos. É importante, nesta etapa, a análise dos resultados por especialistas da área do problema que está sendo minerado. Material e Métodos A Base de Dados utilizada neste trabalho foi extraída do Sistema IBGE de Recuperação Automática – SIDRA1. São dados sobre produtos da lavoura permanente do estado de São Paulo, referente ao ano de 2006 (não havia outros anos disponíveis) e possuía 789 instâncias. Os atributos da base de dados são: 1) Microrregião: são as 63 microrregiões do estado de São Paulo; 2) Produto: são produtos da lavoura permanente, totalizando 65 produtos diferentes tais como: Abacate, Açaí, Acerola, Algodão e Borracha; 3) Número de estabelecimentos agropecuários com mais de 50 pés existentes; 4) Quantidade produzida nos estabelecimentos agropecuários: a unidade de medida utilizada foi “quilos”, exceto para o coco-da-baía, a graviola, a jaca e as mudas de plantas que eram medidas em “unidades”; 5) Valor da produção dos estabelecimentos agropecuários; 6) Valor da produção dos estabelecimentos agropecuários (percentual); 7) Quantidade vendida nos estabelecimentos agropecuários; 8) Valor das vendas dos estabelecimentos agropecuários; 9) Valor das vendas dos estabelecimentos agropecuários (percentual);10) Número de pés colhidos nos estabelecimentos agropecuários; 11) Número de pés 1 Encontra-se disponível no site <http://www.sidra.ibge.gov.br/bda/agric/default.asp?z=t&o=11&i=P colhidos nos estabelecimentos agropecuários (percentual); 12) Área colhida nos estabelecimentos agropecuários; 13) Área colhida nos estabelecimentos agropecuários (percentual); 14) Área plantada nos estabelecimentos agropecuários; 15) Área plantada nos estabelecimentos agropecuários (percentual); 16) Número de pés existentes nos estabelecimentos agropecuários; 17) Número de pés existentes nos estabelecimentos agropecuários (percentual);18) Número de pés novos plantados no ano nos estabelecimentos agropecuários;19) Número de pés novos plantados no ano nos estabelecimentos agropecuários (percentual). Para atingir o objetivo da pesquisa foi utilizada a ferramenta WEKA (Waikato Environment for Knowledge Analysis)2, que é uma ferramenta de mineração de dados de código aberto, desenvolvida pelo departamento de Ciência da Computação da Universidade de Waikato da Nova Zelândia. Ela implementa os principais algoritmos das tarefas de mineração: classificação, associação e clusterização, e também diversos métodos de seleção de atributos. Na etapa de pré-processamento, realizamos os seguintes procedimentos: 1) Exclusão de atributos redundantes, por exemplo: “Valor da produção dos estabelecimentos agropecuários” e “Valor da produção dos estabelecimentos agropecuários (percentual)”, estes dois atributos apenas apresentam unidades de medidas diferentes para expressar um mesmo dado. Desta forma, para eliminar o valor redundante, optamos por eliminar os atributos que apresentavam os dados em “percentual”. 2) Exclusão das instâncias com valores ausentes, ou seja, as instâncias que continham “X” indicando que um determinado produto era inexistente em uma determinada microrregião. 3) Exclusão das instâncias que continham o produto classificado como “unidades” diferentemente da maioria que era medido em “quilos”, pois não poderíamos tratar produtos com unidades de medidas diferentes como se fossem iguais. Posteriormente, utilizamos uma operação de pré-processamento da ferramenta WEKA chamada Normalize ou Normalização de Dados que ajusta a escala dos valores em pequenos intervalos, evitando que aqueles que apresentam uma escala de valores maior que outros, influenciem de forma tendenciosa os resultados da clusterização. Após aplicarmos as operações de pré-processamento, partimos, então para a etapa de Mineração de Dados, em que optamos por utilizar a “Clusterização Classificação” que é uma tarefa composta que encadeia as tarefas primárias de Clusterização e Classificação. A clusterização, segundo Amo (2004), é usada para particionar os registros de uma base de dados em subconjuntos ou clusters, de tal forma que elementos em um cluster compartilhem um conjunto de propriedades comuns que os distingam dos elementos de outros clusters. Ela é uma tarefa de aprendizado não-supervisionado, pois os clusters representam classes que não estão definidas no início do processo de aprendizagem, ao contrário da tarefa de Classificação no qual o banco de dados é composto de instâncias já classificadas. Uma vez, tendo esses clusters, é possível fazer uma análise dos elementos que compõem cada um deles, identificando as características 2 É possível fazer o download dessa ferramenta no site <http://www.cs.waikato.ac.nz/~ml/weka/> comuns aos seus elementos e, desta forma, podendo criar um rótulo que represente cada cluster. A classificação, segundo Goldschmidt e Passos (2005) compreende a busca por uma função que permita associar corretamente cada registro de um Banco de Dados a um único rótulo denominado classe. É uma tarefa preditiva, ou seja, uma vez identificada, essa função pode ser aplicada a novos registros de forma a prever a classe em que tais registros se enquadram. Feita a classificação é gerada uma matriz denominada “matriz de confusão”, que apresenta a quantidade de registros que o algoritmo classificador rotulou corretamente e a quantidade que rotulou incorretamente. Temos, assim, a acurácia (precisão) do modelo. Segundo Goldschmidt e Passos (2005), na tarefa composta ClusterizaçãoClassificação, os dados são agrupados em função de sua similaridade utilizando algum algoritmo de clusterização, dessa forma, o cluster passa a ser considerado uma classe e, então, aplica-se um algoritmo de classificação para gerar modelos que possam prever a classificação de novos registros. A razão de termos utilizado tal tarefa deve-se ao fato de ela ser aplicável em situações em que os registros não estejam enquadrados em classes predefinidas, que é o caso da base de dados utilizada neste trabalho. Na etapa de clusterização, realizamos experimentos tanto com os algoritmos de clusterização SimpleKMeans quanto com o algoritmo EM (Expectation Maximization). O SimpleKmeans exige que o usuário informe o número de clusters, enquanto que o EM não necessita desta informação pois, ele próprio calcula o número de clusters a serem criados. Após selecionarmos o melhor modelo para a clusterização, utilizamos técnicas de Seleção de Atributos para descobrir, dentre os atributos existentes, quais possuem maior relevância para a tarefa de Classificação. Para tanto utilizamos algumas das técnicas de seleção mais citadas na literatura, a saber: 1) CfsSubsetEval: CFS significa Correlation-based Feature Selection, ou Seleção Baseada em Correlação é um método em que um conjunto de atributos é considerado bom se: contém atributos altamente correlacionados com a classe e contém atributos não correlacionados entre si. 2) ChiSquaredAttributeEval: Utiliza o método Ranker, que não elimina nenhum atributo, apenas faz o ranqueamento das variáveis de acordo com sua relevância. O método ChiSquaredAttributeEval, ou Qui-Quadrado (x²), avalia os atributos individualmente usando a medida x² com relação à classe. Quanto maior o valor de x², mais provável é a correlação das variáveis (atributo e classe). O valor crítico geralmente utilizado para nível de significância é 3,841, ou seja, os atributos com valor maior que 3,841 tem correlação com a classe. 3) GainRatioAttributeEval: Utiliza o método Ranker, que ranqueia os atributos através do ganho de informação e redução da entropia. 4) InfoGainAttributeEval: Este avaliador segue as mesmas especificações do avaliador GainRatioAttributeEval, ou seja, ranqueia os atributos através do ganho de informação. 5) PrincipalComponents: Utiliza o método Ranker. No PrincipalComponents, utilizamos o Princípio para descarte de variáveis de Jolliffe (1972), na qual atributos com o coeficiente menor que dados. = 0.70 contribui muito pouco para a explicação dos Feita a seleção de atributos utilizamos novamente os mesmos métodos de classificação empregados anteriormente para verificar se a acurácia é maior com a Seleção de Atributos ou com a base de dados completa. Como o objetivo deste trabalho é auxiliar no planejamento agrícola por meio de técnicas de mineração de dados, decidimos que seria importante utilizar a produtividade como parâmetro de comparação. Em pesquisas realizadas no site do IBGE3, verificamos que podemos calcular a produtividade da seguinte forma: Desta forma obtemos a produtividade de um produto para uma dada microrregião, que em nosso caso é medida em quilos/hectare. Porém, precisávamos ainda calcular a produtividade média para utilizarmos como parâmetro de comparação para a produtividade de cada microrregião. Fizemos isso da seguinte forma: Onde: • “Produtividade” é a soma das produtividades de todas as microrregiões que produzem um determinado produto no estado de São Paulo em 2006. • “Nº de microrregiões produtoras” é a soma de todas as microrregiões que produzem o mesmo produto no estado de São Paulo em 2006. Utilizamos então esta produtividade média, para verificar, dentre os produtos mais representativos de cada cluster, quais microrregiões tinham a produtividade acima da média. Empregamos também mapas de zoneamento agroclimático para auxiliar na análise e interpretação dos resultados obtidos. Resultados e Discussão Na etapa de clusterização a aplicação do algoritmo EM dividiu a base de dados em 9 clusters. A seguir aplicamos o SimpleKmeans e especificamos 9 clusters, o mesmo número gerado pelo EM. A Tabela 1 apresenta a quantidade e a porcentagem de registros que os algoritmos utilizados especificaram para cada cluster. Nota-se que ao dividir em 9 clusters obtivemos grupamentos bastante homogêneos, ou seja, não há clusters com muitos registros e outros com poucos, com exceção do cluster 3 gerado pelo SimpleKmeans. 3 <http://www.ibge.gov.br/home> consultado no dia 03/06/2010 Tabela 1 – Quantidade e porcentagem de registros agrupados nos clusters Cluster 01 Cluster 02 Cluster 03 Cluster 04 Cluster 05 Cluster 06 Cluster 07 Cluster 08 Cluster 09 SimpleKmeans EM Qtde de Registros Porcentagem Qtde de Registros Porcentagem 60 8% 122 16% 108 14% 78 10% 9 1% 63 8% 73 9% 68 9% 99 13% 151 20% 106 14% 77 10% 92 12% 50 6% 122 16% 60 8% 101 13% 101 13% Com o banco de dados dividido em clusters, utilizamos a operação de Classificação para verificar a capacidade preditiva dos modelos gerados tanto pelo algoritmo EM como pelo SimpleKmeans. Verificamos a acurácia obtida com alguns dos algoritmos de classificação mais utilizados, que são: o J48 que se baseia em Árvores de Decisão, o IB1 e IBk que se baseiam em K-Nearest Neighbors, o MultilayerPerceptron baseado em Redes Neurais e o NaiveBayes baseado em Métodos Estatísticos. Na Tabela 2 podemos visualizar os resultados obtidos. Observamos que o modelo gerado pelo EM apresentou porcentagens maiores de acurácia, justificando nossa escolha por tal modelo. Tabela 2 – Acurácia dos modelos gerados pelo EM e SimpleKmeans Algoritmo de Classificação J48 IB1 IBk MultilayerPerceptron NaiveBayes Acurácia EM SimpleK-means 81.17% 75.06% 72.08% 74.94% 72.08% 74.94% 66.49% 68.31% 91.43% 86.88% Após escolher o modelo gerado pelo EM utilizamos técnicas de seleção de atributos para descobrir, dentre os atributos existentes, quais possuem maior relevância para a tarefa de Classificação, e os resultados obtidos foram: 1) CfsSubsetEval: Os atributos selecionados foram: Numero de estabelecimentos agropecuários, Quantidade produzida, Valor da produção, Quantidade vendida, Valor das vendas, Numero de pés colhidos, Área plantada (hectares) e Numero de pés existentes. 2) ChiSquaredAttributeEval: Todos os atributos apresentam correlação com a classe, portanto, de acordo com esse classificador todos os atributos deveriam ser utilizados. 3) GainRatioAttributeEval: Este avaliador não possui nenhum critério para descarte de atributos, portanto decidimos utilizar os atributos de valor acima de 0.5 que são: Quantidade produzida, Quantidade vendida, Valor da produção, Valor das vendas e Número de pés existentes. 4) InfoGainAttributeEval: Este avaliador também não possui nenhum critério para descarte de atributos, portanto decidimos utilizar os atributos de valor acima de 1.0 que são: Quantidade vendida, Quantidade produzida, Valor das vendas, Valor da produção e Número de pés existentes. 5) PrincipalComponents: Utilizando o coeficiente de Jolliffe, os melhores atributos são: Área colhida, Quantidade produzida, Valor da produção e Número de estabelecimentos agropecuários. Após a Seleção de Atributos utilizamos os métodos de classificação especificados na Tabela 3 e verificamos que obtivemos melhores acurácias sem a Seleção de Atributos, isto é, um número maior de instâncias classificadas corretamente quando utilizamos o banco de dados completo. Tabela 3 – Acurácia dos modelos com seleção e sem seleção de atributos Acurácia CfsSubsetEval GainRatio InfoGain PrincipalComponents Sem seleção J48 81.56% 76.62% 76.10% 68.83% 81.17% IB1 76.75% 74.81% 76.75% 66.75% 72.08% Ibk 76.75% 74.81% 76.75% 66.75% 72.08% MultilayerPerceptron 79.48% 77.27% 78.57% 67.27% 66.4935% NaiveBayes 83.77% 76.23% 79.61% 67.27% 91.43% Algoritmo Ainda analisando a Tabela 3 observamos que o algoritmo NaïveBayes apresentou a melhor precisão dentre os classificadores. Os algoritmos de seleção de atributos consideram os atributos de maior correlação, por outro lado o algoritmo de classificação NaïveBayes considera que os atributos não tem dependência entre si, estes dois fatores explicam a alta acurácia obtida por este algoritmo na presença de todos os atributos. Portanto resolvemos utilizar o modelo gerado pelo algoritmo EM na presença de todos os atributos. Nossa base de dados possui 63 microrregiões, cada uma delas produz um ou vários produtos e um mesmo produto pode ser produzido por uma ou várias microrregiões e efetuando a análise dos resultados gerados com a Mineração de Dados, conseguimos identificar que os registros foram agrupados principalmente por produtos, isso porque, embora cada cluster apresentasse diversos produtos, sempre havia um ou alguns que eram predominantes, por exemplo, de todos os produtos do cluster 8 o "café arábica em grão" representava 82% destes produtos. A Tabela 4 apresenta os produtos predominantes de cada cluster e a porcentagem que este representa em relação ao total de produtos do agrupamento. Entretanto, verificamos que os demais produtos encontravam-se “espalhados” entre os clusters, mas, constatamos que esses produtos possuíam poucas instâncias, enquanto que os que possuem muitas instâncias foram agrupados de forma a se concentrarem em um ou dois clusters, o que nos leva a concluir que a ferramenta de Mineração de Dados não pôde clusterizar de maneira eficiente os produtos com poucas instâncias. Portanto efetuamos somente a análise dos produtos com várias instâncias, mas por ser inviável explicarmos detalhadamente todos os produtos, selecionamos apenas os produtos da lavoura permanente mais significativos do estado de São Paulo, que são: a borracha, o café e a laranja. Tabela 4 – Itens predominantes de cada cluster Borracha látex liquido Borracha látex coagulado Banana Goiaba Maracujá Palmito Café canephora em grão Tangerina bergamota mexerica Laranja Manga Abacate Limão Maracujá Banana Café arábica em grão Uva mesa Lichia Cluster 1 Cluster 1 Cluster 1 Cluster 2 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 5 Cluster 5 Cluster 5 Cluster 6 Cluster 6 Cluster 7 Cluster 8 Cluster 9 Cluster 9 14% 15% 16% 36% 19% 45% 62% 29% 25% 14% 12% 50% 14% 70% 84% 30% 21% O produto borracha se divide em látex coagulado e látex líquido, e está predominantemente no cluster 1. Aproximadamente 77% de todas as microrregiões que produzem borracha látex coagulado e 76% dos produtores de látex liquido, foram agrupados no cluster 1 e destes 65% e 56%, respectivamente, possuem produtividade acima da média. Além disso, percebemos que a microrregião Registro, que produz tanto látex líquido como látex coagulado e se encontra no cluster 2, tem a produtividade baixa para ambos os produtos, e estudando um mapa de zoneamento agroclimático da seringueira (Figura 1) verificamos que ela se encontra em uma área de “restrição por excesso de umidade” explicando a baixa produtividade e justificando a razão dessa microrregião ter sido agrupada em outro cluster. A análise dos dados nos possibilita ainda a concluir que as microrregiões mais indicadas para a produção da borracha são as pertencentes ao cluster 1, principalmente as que apresentaram produtividade acima da média, ou seja, Adamantina, Araraquara, Assis, Auriflama, Batatais, Birigui, Catanduva, Dracena, Fernandópolis, Itapetininga, Lins, Marilia, Novo Horizonte, Presidente Prudente, São João da Boa Vista, São Joaquim da Barra, Tupã e Votuporanga. Figura 1 - Zoneamento climático da cultura da Seringueira Fonte: Instituto Agronômico de Campinas (2007) - a Classe A representa aptidão, a Classe B restrição por excesso de umidade, a Classe C restrição por excesso térmico, a Classe D inaptidão por carência térmica. O produto café também possui duas categorias, café arábica e café canephora. Das microrregiões produtoras do café arábica 96% foram agrupadas no cluster 8 e as duas microrregiões que ficaram fora deste agrupamento são Registro e Bananal que apresentam baixa produtividade, isso porque, se analisarmos no mapa de zoneamento agroclimático do café (Figura 2) verificamos que a microrregião de Registro e parte da microrregião do Bananal estão dentro da área considerada desfavorável para o cultivo de café. Quanto ao café canephora, 93% das microrregiões produtoras foram agrupadas no cluster 4, e ficaram fora deste agrupamento três microrregiões também de baixa produtividade que são: Registro, Capão Bonito e São José dos Campos; as duas primeiras se encontram em área desfavorável para o cultivo e a última em área considerada favorável mas sujeita a geadas. Portanto as microrregiões que podem ser consideradas as mais indicadas para o plantio do café arábica são as que se encontram no cluster 8: Jales, Novo Horizonte, Tupã, Araçatuba, Dracena, Votuporanga, Presidente Prudente, Limeira, Birigui, Itapetininga, Rio Claro, Auriflama, Catanduva, Sorocaba, Campos do Jordão, Jundiaí, Capão Bonito. E as microrregiões mais indicadas para o plantio do café canephora são as pertencentes ao cluster 4: Amparo, Botucatu, São Jose do Rio Preto, Araraquara, Birigui, Adamantina, Lins, Ourinhos, Franca, Rio Claro, Ribeirão Preto, Tupã, Dracena, Votuporanga, Catanduva, Novo Horizonte, Tatuí, Bragança Paulista, Limeira. Figura 2 - Zoneamento climático da cultura do café Fonte: Coral et al.(2001) Analisando o cluster 5 percebemos que mais da metade dele é composto por citros, ou seja, laranja 24%, tangerina 28% e lima 5% totalizando 57%. Sendo que 74 % das microrregiões produtoras de laranja e 94% das microrregiões produtoras de tangerina foram agrupadas neste cluster. Para verificarmos a razão de 15% e 11% das microrregiões produtoras de laranja terem sido agrupadas nos clusters 6 e 7 respectivamente, utilizamos um mapa de zoneamento agroclimático da laranja (Figura 3), e verificamos que quase todas essas microrregiões se encontram em áreas de alto risco por elevado déficit hídrico ou por elevada precipitação durante o ano todo, o que justifica a produtividade abaixo da média. Quanto à tangerina, não encontramos um mapa de zoneamento agroclimático para a mesma, porém, apenas três microrregiões foram agrupadas fora do cluster 5 e são justamente as três que apresentam a produtividade mais baixa do estado de São Paulo em 2006. Esta análise nos permitiu comprovar que as microrregiões mais aptas ao plantio de laranja e tangerina são as que se encontram no cluster 5. Figura 3 - Zoneamento climático da cultura da Laranja Fonte: Marin (2009) - As áreas em verde são consideradas de baixo risco para a laranja. As áreas em vermelho são de alto risco: o norte do planalto paulista pelo elevado déficit hídrico e o litoral do estado por possuir elevada precipitação durante o ano todo. Conclusões Neste trabalho aplicamos técnicas de Mineração de Dados à base de dados da produção agrícola permanente do estado de São Paulo, com o objetivo de apresentar um sistema de recomendação para produtores agrícolas. Primeiramente utilizamos técnicas de pré-processamento como a exclusão de alguns valores e a normalização dos dados que poderiam influenciar de forma tendenciosa os resultados da Mineração. Depois, efetuamos testes com dois tipos de algoritmos de clusterização o K-Means e o EM no qual o EM apresentou melhor acurácia. A seguir utilizamos as técnicas de seleção de atributos, porém ao compararmos a acurácia do modelo com a seleção de atributos e sem a seleção de atributos, verificamos que o modelo apresentava maior acurácia sem a seleção de atributos e utilizando o algoritmo de classificação NaïveBayes. Na última parte do trabalho realizamos a análise dos resultados obtidos e verificamos que o algoritmo de clusterização agrupou os dados por produtos, e com o auxílio de gráficos, tabelas e mapas de zoneamento agroclimático, constatamos que era possível obter informações de quais microrregiões são aptas para o plantio de determinado produto, ou seja, dar suporte a um produtor que deseja saber se é viável produzir determinado produto, ou a uma financiadora que quer saber se é viável efetuar empréstimo a um produtor que deseja iniciar a produção de um determinado produto, tarefa essa que seria muito difícil de conseguir se tivéssemos que analisar a base de dados inteira, portanto, atingimos o objetivo deste trabalho que visava a gerar recursos para auxiliar no planejamento agrícola. Salientamos ainda a possibilidade de aprimoramento deste trabalho utilizando-se uma base de dados com valores de vários anos permitindo assim eliminar possíveis inconsistências, por exemplo se uma determinada região que normalmente possui alta produtividade teve, justamente neste ano, uma baixa produção devido a algum fator esporádico, ou então acrescentado à base de dados informações complementares tais como condições pluviométricas, climáticas ou de solo, por exemplo. Referências AMO, Sandra de. Técnicas de Mineração de Dados. Universidade Federal de Uberlândia, 2004. Disponível em <http://www.deamo.prof.ufu.br/arquivos/JAIcap5.pdf> Acesso em: 03/02/2010. BRASSCON. BRASIL: Gigante de TI rumo ao mercado global. 2010 Disponível em: <http://www.anggulo.com.br/camp_tec/palestras/3%20Sergio%20Sgobbi_new.pdf> Acesso em: 20/06/2010 CORAL, Gustavo. et al. Zoneamento de riscos climáticos para a cafeicultura do estado de São Paulo. Revista Brasileira de Agrometeorologia, Passo Fundo, v.9, n.3, p.495-500, 2001. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: Um Guia Prático. Rio de Janeiro: Elsevier, 2005. IAC. Instituto Agronômico de Campinas. Programa Seringueira. Disponível em: <http://www.iac.sp.gov.br/centros/centro_cafe/seringueira/importcult.htm> Acesso em: 13/11/2010. JOLLIFFE, I. T. Discarding Variables in a Principal Component Analysis. In Applied Statistics, Vol. 21, No. 2 (1972), pp. 160-173. MARIN, Fábio R.; MACEDO JUNIOR, Celso; ASSAD, Eduardo Delgado. Zoneamento Agrícola de Riscos Climáticos da Laranja no Estado de São Paulo. XVI Congresso Brasileiro de Agrometeorologia, Belo Horizonte, 2009. SIDRA. Sistema IBGE de Recuperação Automática. Disponível em: <http://www.sidra.ibge.gov.br/bda/agric/default.asp?z=t&o=11&i=P> Acesso em: 03/06/2010. WEKA. Waikato Environment for Knowledge Analysis. Disponível em: <http://www.cs.waikato.ac.nz/~ml/weka/> Acesso em: 10/02/2010