Análise Comparativa entre Ferramentas de Mineração de Dados para Aplicação da Técnica de Clusterização Yuri Krauser Melo1, Regis Schuch1, Michele Figueiró1 1 Centro de Ciências Humanas e Sociais (CCHS) – Universidade de Cruz Alta (UNICRUZ) – Cruz Alta – RS – Brasil {yuri029929, rschuch, mfigueiro}@unicruz.edu.br Abstract. The evolution of information technology has enabled the storage of large volumes of data. These data in the original format in which they are stored, do not present useful knowledge, but when adjusted and handled by a data mining process (MD), may reveal information that would not be possible to obtain through traditional techniques and / or analytical tools. In this context, this work presents a comparative analysis of tools to MD implementing clustering technique, such tools have been selected based on their applicability, with a specific use for MD and one for statistical analysis. Resumo. A evolução da tecnologia da informação possibilitou o armazenamento de grandes volumes de dados. Estes dados, no formato original em que são armazenados, não apresentam conhecimento útil, mas quando ajustados e manipulados por um processo de Mineração de Dados (MD), podem revelar informações que não seriam possíveis de se obter por meio de técnicas tradicionais e/ou ferramentas analíticas. Neste contexto, o presente trabalho descreve uma análise comparativa entre ferramentas para MD que implementam a técnica clusterização, tais ferramentas foram selecionadas com base em suas aplicabilidades, sendo uma de uso específico para MD e outra para análise estatística. 1. Introdução A evolução da tecnologia da informação possibilitou que grandes volumes de dados possam ser armazenados e processados mais rapidamente com uma maior precisão. Em décadas passadas, o problema residia na capacidade física de armazenamento e processamento. Atualmente a questão está focada na competência de análise desses dados, de forma a extrair informações úteis. Os dados, no formato natural em que estão armazenados, podem não apresentar conhecimento, mas se ajustados e manipulados por um processo de mineração, revelam informações que talvez não seriam possíveis de se obter por meio de técnicas estatísticas normais e/ou ferramentas analíticas. Já em 1984, John Naisbitt [apud Larose, 2005] observou, “estamos nos afogando em informação, porém para passar fome em conhecimento”. Isto se torna cada vez mais evidente, pois quanto maior a base de dados, mais difícil é a recuperação e extração de informações. Neste contexto, cada vez mais se fazem necessárias novas formas de entender e tirar um proveito maior dessas volumosas quantidades de dados. Frente a isso, surgem as ferramentas e técnicas de MD, que estão sendo cada vez mais empregadas em organizações e pesquisadas em ambiente acadêmico, pois oferecem de forma rápida, automatizada ou semi-automatizada [Berry and Linoff, 1997] uma alternativa para a geração de informações e produção do conhecimento, identificando aspectos relevantes que possam ser utilizadas a nível estratégico como apoio ao processo de tomada de decisão. As áreas de aplicação da MD são as mais diversas. Neste trabalho, será explorada no sentido de testar e comparar os recursos disponíveis em ferramentas que implementam a técnica de clusterização, mais especificamente a ferramenta Waikato Environment for Knowledge Analysis (WEKA) e Statistical Package for the Social Sciences (SPSS), sendo uma de aplicação específica para MD e outra para análise estatística, respectivamente. Este trabalho está organizado em 6 seções. A partir daqui, a próxima Seção aborda o processo de Descoberta do Conhecimento em Bases de Dados através da MD. Na Seção 3, descrevem-se as ferramentas de MD utilizadas neste trabalho. Na Seção 4, descreve-se o tratamento dos dados para sua adequação ao algoritmo de clusterização. A aplicação da MD e os resultados alcançados são discutidos na Seção 5. Por fim, as conclusões, recomendações e sugestões de trabalhos futuros. 2. Mineração de Dados e Descoberta do Conhecimento Na literatura é possível encontrar diversas definições para a MD, mas um dos principais conceitos, aceito por muitos pesquisadores, foi elaborado por Fayyad, Piateski and Smyth, (1996) como: “o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Esses autores referem-se, ainda, a Descoberta do Conhecimento em Bases de Dados (DCBD) como um processo global de descoberta de conhecimento que envolve seleção, pré-processamento dos dados e transformação dos mesmos, também MD, interpretação dos resultados e a transformação do conhecimento. A MD é uma das etapas deste processo onde são aplicados algoritmos específicos para extração de padrões a partir dos dados ou até mesmo revelar o comportamento de um banco de dados. Para Han and Kamber, (2006), a MD também pode ser descrita como uma área de pesquisa multidisciplinar que engloba diversas outras áreas como: Inteligência Artificial; Aprendizado de Máquina; Redes Neurais; Estatística; dentre outras, sendo que esta só se tornou possível a partir do amadurecimento destas diferentes áreas. Segundo Harrison [apud Dias, 2001], a escolha das técnicas de MD dependerá da tarefa específica a ser executada e dos dados disponíveis para análise, devendo-se levar em conta a natureza dos dados disponíveis em termos de conteúdo, os tipos de campos de dados e a estrutura das relações entre os registros. 2.1. Tarefa de Clusterização A Tarefa de Clusterização, embora seja de simples entendimento, porque instintivamente as pessoas visualizam os dados segmentados em grupos discretos como, por exemplo, tipos de plantas ou animais, é um processo computacional complexo, pois em grandes bases de dados os cenários existentes são muito similares, tornando-se competitivos entre si, requerendo a utilização de algoritmos complexos que determinem a segmentação (Clusterings) mais apropriada. Nessa tarefa, o algoritmo deve criar as classes através da produção de partições do banco de dados em conjuntos de tuplas. Essa partição é feita de modo que tuplas com valores de atributos semelhantes, ou seja, propriedades de interesse comuns, sejam reunidas dentro de uma mesma classe. Uma vez que as classes sejam criadas, pode-se aplicar um algoritmo de classificação nessas classes, produzindo assim regras para as mesmas. Segundo Han e Kamber (2006) a tarefa de agrupamento identifica a classe de cada objeto de maneira que os objetos dentro de uma mesma classe apresentem alta similaridade entre si, e ao mesmo tempo, baixa similaridade em relação aos objetos das outras classes. A qualidade do resultado da clusterização também depende da medida utilizada para medir a similaridade usada pelo método e de sua implementação, além de sua habilidade de descobrir algum ou todos os padrões escondidos. Segundo Pinheiro (2006), as medidas de similaridade fornecem valores numéricos que exprimem a “distância” entre dois objetos. Quanto menor o valor desta, mais semelhantes será os objetos e estes deverão ficar no mesmo cluster. De outro modo, quanto maior a “distância”, menos similares serão os objetos e, em consequência, eles deverão estar em grupos distintos [PINHEIRO, 2006]. As técnicas mais utilizadas para agrupar dados, segundo Barioni (2002), são baseadas em três categorias: Partição: basicamente enumera várias partições e então cria uma nota para cada uma delas segundo algum critério; Hierárquia: cria uma decomposição hierárquica do conjunto de dados usando algum critério; Modelo: um modelo é hipoteticamente criado para cada cluster e a ideia é encontrar o que melhor se enquadra quando comparados entre si [BARIONI, 2002]. A maior parte das ferramentas de clusterização trabalham em função de um número pré-definido de grupos especificado pelo usuário. Isso requer um conhecimento detalhado do domínio, transformando assim a tarefa de descoberta de conhecimento menos atrativa. Tecnologias mais sofisticadas são capazes de procurar através de diferentes possibilidades de quantidades de grupos e avaliar cada configuração de acordo com a sua importância. Os algoritmos de Clusterização realizam a medida de similaridade baseados nos valores dos atributos que descrevem os objetos do banco de dados através de métodos de agrupamento, que geralmente são divididos em duas categorias, como descritos a seguir. 2.1.1. Métodos Baseados em Partição Conhecido como K-means, este é o algoritmo mais utilizado e segundo Viana (2004), basicamente, o particionamento divide a base de dados em grupos, chamados de clusters. A técnica é baseada no seguinte princípio: primeiro a base de dados é tratado como um vetor e cada informação nela contida como um ponto vetorial. Desta forma o algoritmo trabalha com a distância entre os pontos, ou seja, um conjunto de pontos próximos será considerado um cluster. Para plotar os dados como pontos vetoriais e calcular a distância entre eles utiliza-se uma função de distância. As funções de distância mais utilizadas são a Euclidiana e a função Manhattan. Em um segundo momento, é necessário definir o número de clusters que serão criados. Esse número é chamado k, por isso o nome Kmeans. O algoritmo plota então um ponto chamado centroid no meio (mean) de cada cluster, em seguida os centroids são reposicionados de acordo com a sua distância em relação aos grupos de pontos mais próximos, então os clusters são recalculados. Esse processo é repetido ate que os clusters estejam bem definidos. A qualidade de definição dos clusters será melhor à medida que as “nuvens” de pontos estiverem bem agrupadas [VIANA, 2004]. 2.1.2. Métodos Hierárquicos Segundo Viana (2004), “essa técnica trabalha de duas formas, com o método Divisivo, que começa com um cluster único e vai particionando-o em clusters menores, num processo iterativo; Ou com o método Aglomerativo que faz justamente o contrário, começa com partes pequenas e vai agrupando em clusters maiores”. O resultado é uma árvore de grupos chamada Dendograma [VIANA, 2004]. 3. Ferramentas para Mineração de Dados Existem diversas ferramentas disponíveis no mercado, que implementam uma ou mais técnicas de MD. Baseado nos critérios acima citados, para a análise comparativa das ferramentas que implementam algoritmos de mineração por agrupamento foram selecionadas as ferramentas WEKA e SPSS. A primeira – WEKA – por se tratar de um software de domínio público específico para MD e apresentar grande praticidade na utilização, pois não necessita da criação de um banco de dados, aceitando dados em formato texto. E a segunda – SPSS – por se tratar de uma ferramenta de uso estatístico que permite a análise de agrupamentos através das mesmas técnicas presentes na WEKA, além de permitir a mineração a partir de uma planilha eletrônica. 3.1. Ferramenta WEKA A Ferramenta de MD WEKA foi desenvolvida na Universidade de Waikato na Nova Zelândia. Trata-se de um pacote implementado em Java, seguindo o paradigma de orientação a objetos, composto de uma série de algoritmos de aprendizagem para solucionar problemas de MD. Os algoritmos podem ser aplicados diretamente a uma série de dados. Tem como principal característica ser portável podendo rodar nas mais variadas plataformas e aproveitando todos os benefícios de uma linguagem orientada a objetos, por ser uma ferramenta de domínio público encontra-se disponível em http://www.cs.waikato.ac.nz/ml/weka/. A Ferramenta WEKA trabalha com um formato de arquivo próprio, desenvolvido pelo Projeto Machine Learning no Departamento de Ciência da Computação da Universidade de Waikato. Um Atributo-Relação File Format (ARFF) é um arquivo de texto que descreve uma lista de instâncias de um conjunto de atributos. 3.2. Ferramenta SPSS A ferramenta SPSS trata-se de um software proprietário com três versões (Standard, Profissional, Premium) que proporciona um poderoso tratamento estatístico de dados, combinando potencialidades gráficas com uma gestão de dados. O SPSS apresenta-se como uma aplicação de fácil manuseamento visto que a sua apresentação e o modo como funciona é semelhante a qualquer aplicação desenvolvida para Windows baseada em janelas e menus característicos do referido ambiente. 4. Tratamento dos Dados para Aplicação do Algoritmo de Clusterização Para obter um melhor desempenho e resultados de maior relevância, foi necessário tratar os dados visando o uso do algoritmo de clusterização em particular. 4.1. Seleção dos Dados Esta primeira etapa foi necessária para definir quais atributos possuíam características pertinentes à análise e algumas possíveis contribuições para a formação dos grupos (clusters). Para tanto, os dados para o desenvolvimento do estudo de caso foram obtidos a partir de uma base de dados do Instituto Brasileiro de Geografia e Estatística (IBGE). Essa base é referente ao levantamento de dados oriundos dos censos e estimativas populacionais, compreendidos no período de 2000 a 2013, conforme ilustrado na Tabela 1. Tabela 1. Base de Dados (COREDE) população_total 2471 2282 4072 67350 4985 18633 1627 14413 3582 3195 11534 10003 4861 10564 jovens 557 587 931 18344 1375 4391 345 3500 778 698 3403 2750 1183 2734 idosos população_Ativa 345 1569 219 1476 591 2550 7343 41663 455 3155 2307 11935 254 1028 1604 9309 529 2275 372 2125 998 7133 942 6311 617 3061 1194 6636 cidades Boa Vista do Cadeado Boa Vista do Incra Colorado Cruz Alta Fortaleza dos Valos Ibirubá Lagoa dos Três Cantos Não-me-Toque Quinze de Novembro Saldanha Marinho Salto do Jacuí Santa Bárbara do Sul Selbach Tapera As informações são referentes aos municípios que fazem parte do Conselho Regional de Desenvolvimento (COREDE) do Alto Jacuí. Este COREDE abrange 14 municípios: Boa Vista do Cadeado, Boa Vista do Incra, Colorado, Cruz Alta, Fortaleza dos Valos, Ibirubá, Lagoa dos Três Cantos, Não me Toque, Quinze de Novembro, Saldanha Marinho, Salto do Jacuí, Santa Bárbara do Sul, Selbach e Tapera. Inicialmente os dados coletados foram agrupados por municípios (cidades) e armazenados em uma base de dados. Os atributos selecionados foram: população total – “p_total”, população jovem – “p_jovem”, população idosa – “p_idosa”, população ativa – “p_ativa” e municípios – “cidades”; tais atributos representam as médias populacionais correspondentes a estes 14 municípios no período em que foi realizado o levantamento. A partir destas informações foi estabelecido um modelo de mineração por agrupamento. 4.2. Pré-processamento e Transformação dos Dados Após reunir os dados e certificar-se de que o conjunto era composto apenas por valores válidos, estes foram tratados de maneira que pudessem ser analisados pelas ferramentas WEKA e SPSS. Para tanto, foi necessário gerar dois arquivos diferentes para a análise: um no formato XLS para a ferramenta SPSS e outro em ARFF para a WEKA. No primeiro caso manteve-se uma planilha representando os dados como na Tabela 1. Já no segundo caso, onde foi necessário transformar os dados para um formato adequado à WEKA, foi gerado um arquivo no formato ARFF, conforme ilustrado na Figura 1. @relation indicadores @attribute p_total real @attribute jovens real @attribute idosos real @attribute p_ativa real @attribute cidades {boa_vista_do_cadeado,boa_vista_do-incra, Colorado,Cruz_Alta, Fortaleza_dos_Valos,Ibirubá, Lagoa_dos_Três_Cantos,Não-me-Toque,Quinze_de_Novembro, Saldanha_Marinho,Salto_do_Jacuí,Santa_Bárbara_do_Sul, Selbach,Tapera} @data 2471,557,345,1569,boa_vista_do_cadeado 2378,587,219,1476,boa_vista_do-incra 4072,931,591,2550,Colorado 67350,18344,7343,41663,Cruz_Alta 4985,1375,455,3155,Fortaleza_dos_Valos 18633,4391,2307,11935,Ibirubá¡ 1627,345,254,1028,Lagoa_dos_Três_Cantos 14413,3500,1604,9309,Não-me-Toque 3582,778,529,2275,Quinze_de_Novembro 3195,698,372,2125,Saldanha_Marinho 11534,3403,998,7133,Salto_do_Jacuí 10003,2750,,942,6311,Santa_Bárbara_do_Sul 4861,1183,617,3061,Selbach 10564,2734,1194,6636,Tapera Figura 1. Arquivo ARFF Como pode ser observado o arquivo ARFF é basicamente um arquivo texto com algumas alterações, os passos que foram seguidos para a geração do arquivo interpretável pela ferramenta WEKA são os seguintes: a) Inclusão do cabeçalho da relação: este deve conter o nome da relação e seguir o seguinte formato: @relation indicadores b) A declaração dos atributos que compõem a relação: deve seguir a mesma ordem em que eles aparecem descritos no arquivo. O formato da declaração de atributos é: @attribute p_total real Onde o nome do atributo <p_total> deve começar com um caractere alfabético, sem espaços em branco, e o tipo de dado <real> pode ser qualquer um dos quatro tipos suportados pela WEKA, que são: Numeric (que podem ser reais ou inteiros), Nominal (que devem ser especificados em uma lista de possíveis valores), String e Data (WEKA, 2008). c) A relação dos dados: composta da expressão @data que determina o início do segmento de dados no arquivo. Cada ocorrência da tabela deve ser representada por uma única linha, sendo que o transporte de linha denota o final da ocorrência, e os valores para cada atributo devem ser delimitados por vírgulas ou tabulação e devem necessariamente aparecer na ordem em que os atributos foram declarados. Os valores de string e os atributos nominais são case sensitivos, devendo ser observados os caracteres maiúsculos ou minúsculos, e não valores numéricos as casas decimais devem ser separadas por “ponto”. 4.3. Mineração de Dados Optou-se, devido às características do tipo de aplicação, agrupar os dados em arquivos individuais de maneira que cada arquivo possa ser minerado na respectiva ferramenta. Para tanto, um arquivo foi gerado através de um editor de planilhas e outro através de um editor de textos. Com isso obteve-se dois arquivos como resultado, um no formato XLS e outro em ARFF, conforme detalhado nas seções 4.1 e 4.2. Para a mineração da base de dados (arquivos) utilizou-se as ferramentas SPSS e WEKA. Essas ferramentas fornecem o algoritmo K-means (K-médias), que é uma implementação que usa a técnica de agrupamento dos dados pela média entre os grupos (clusters). O K-means encontra a melhor divisão de dados nos grupos, de maneira que a distância total entre os dados de um grupo e o seu respectivo centro, somada por todos os grupos, seja minimizada. Para identificar qual é o melhor número de cluster para aplicação do algoritmo Kmeans foi aplicado o método hierárquico, o qual gera como resultado um dendograma – que é um diagrama ramificado – que permite visualmente deduzir o melhor agrupamento para os dados. Como demonstrado na Figura 2, os resultados definiram que o melhor número de clusters é quatro. Figura 2 . Dendograma que define o melhor número de clusters. Para medir a distância entre os clusters, (ou seja, a dissimilaridade entre dois pontos) utilizou-se a técnica de Distância Euclidiana, sendo que quanto maior a medida de dissimilaridade menor é a semelhança entre os clusters. Identificado o melhor número de clusters, o passo seguinte é a aplicação do algoritmo de clusterização K-means. Os testes realizados utilizaram dados numéricos e o método supervisionado, ou seja, o atributo “Cidades” foi definido como classificador e informado ao algoritmo. O funcionamento básico segue o princípio de que, cada ponto deve associar-se ao mais próximo, redefinindo sua posição como sendo a média das distâncias dos componentes associados a ele no passo anterior. Os resultados obtidos através das ferramentas são descritos na Seção 5. 5. Resultados Obtidos Após a etapa de MD, resultaram quatro grupos distintos da base de dados. Objetivando um grau de segurança para validar os resultados, foi realizada uma análise criteriosa sobre as saídas geradas pelas ferramentas. Na WEKA, a tela de saída apresenta os resultados da aplicação do algoritmo, conforme demonstrado na Tabela 2. Tabela 2. Saída da ferramenta WEKA 1 Cluster Centroids: 2 3 Attribute 4 Cluster Full Data (14) 0 (8) 1 (1) 2 (3) 3 (2) 11276.8121 2501.9593 1510.6629 7214.1264 3212.7425 663.4625 515.945 2133.2212 64613.79 15178.93 8399.29 41035.57 10762.5233 2414.2167 1269.1667 6745.81 17236.035 3499.075 2407.465 11329.5 5 6 7 8 9 10 p_total jovens idosos p_ativa 11 Time taken to build model (full training data) : 0.02 seconds 12 Model and evaluation on training set 13 Clustered Instances 14 0 8 (57%) 15 1 1 (7%) 16 2 3 (21%) 17 3 2 (14%) As informações demonstradas referem-se ao desempenho do algoritmo, como o número de iterações necessárias para a formação dos clusters (linha 4). Em seguida são descritos os centroids, ou seja, os valores médios para cada um dos atributos, encontrados no arquivo original e em cada um dos clusters criados (linhas 6-9). A última informação desta tela informa o percentual de registros agrupados em cada cluster (linhas 14-17). Já os resultados gerados pela ferramenta SPSS podem ser observados na Tabela 3. Tabela 3. Saída da ferramenta SPSS 1 Final Cluster Centers 2 Cluster 3 4 5 6 7 9 1 3 4 PopTotal 3312,74 64613,79 17236,04 PopJovem 663,56 15178,93 3499,07 PopIdosa 515,96 8399,29 2407,46 PopAtiva 2133,22 41035,57 11329,50 Number of Cases in each 10529,19 2514,21 1269,17 6745,81 10 Cluster 11 Cluster 2 1 8,000 12 2 1,000 13 3 2,000 14 4 3,000 15 Valid 16 Missing 14,000 0,000 Como podemos observar, inicialmente são demonstrados os valores médios para cada atributo (linhas 4-7). Em seguida é informado o número de iterações em cada cluster (linhas 11-14). Por fim, são informados os registros validados (linha 15) e com dados faltantes (linha 16) para a análise. 5.1. Discussão dos Resultados Na etapa de elaboração do modelo de mineração de dados levou-se em consideração a população total, de jovens, adultos e ativa, e a qual município pertente. Através da mineração buscou-se encontrar padrões nos dados através do uso de clusters para determinar se existe um padrão populacional. A coluna “cidades” possui 14 valores que identificam o município (Boa Vista do Cadeado, Boa Vista do Incra, Colorado, Cruz Alta, Fortaleza dos Valos, Ibirubá, Lagoa dos Três Cantos, Não me Toque, Quinze de Novembro, Saldanha Marinho, Salto do Jacuí, Santa Bárbara do Sul, Selbach e Tapera) a que uma determinada instância esta agrupada. Abaixo a análise dos clusters gerados: • Cluster 0 (WEKA) 1 (SPSS) – Podemos chamar esse grupo de “Idosos em atividade”, já que a maior concentração de idosos, proporcionalmente a média populacional, dentre os grupos gerados, está presente neste cluster, sendo que a grande maioria também faz parte da população ativa dos municípios. Este também é o cluster com maior número de municípios, sendo oito: Boa Vista do Cadeado, Boa Vista do Incra, Colorado, Fortaleza dos Valos, Lagoa dos Três Cantos, Quinze de Novembro, Saldanha Marinho, Selbach. • Cluster 1 (WEKA) 2 (SPSS) – Esse grupo apesar de possuir a maior população total gerou os resultados apenas sobre o município de Cruz Alta. Então, podemos chamar esse grupo de “Cluster isolado”, pois ele foi gerado a partir de características isoladas de um único município, não permitindo tirar uma boa conclusão de seu comportamento. • Cluster 2 (WEKA) 3 (SPSS) – Chamamos esse grupo de “População mais ativa”, pois a maior concentração de pessoas em atividade está neste cluster. Dois municípios estão presentes no cluster: Ibiruba, Não me Toque. • Cluster 3 (WEKA) 4 (SPSS) – Chamaremos esse grupo de “Jovens ativos”, já que possui a maior concentração de jovens e população ativa, proporcionalmente a média populacional. Três municípios foram agrupados neste cluster: Salto do Jacuí, Santa Barbara do Sul, Tapera. Além disso, este grupo também possui a menor média populacional de idosos. Observa-se ainda que ambas as ferramentas geraram resultados idênticos, contudo, no que diz respeito à interface da aplicação, a SPSS foi considerada a mais simples, pois permite uma variedade maior de funções, inclusive a análise de agrupamentos pelo método hierárquico. 6. Conclusões Este trabalho apresentou experimentos práticos de MD aplicado a dados de censos e estimativas populacionais. Durante o processo de MD, algumas adequações foram efetuadas para formatar os dados de maneira pertinente ao algoritmo de mineração selecionado. Com os resultados obtidos foi possível identificar padrões populacionais nos dados analisados. Este trabalho apresentou experimentos práticos realizados com as ferramentas de MD WEKA e SPSS aplicando a técnica de clusterização por particionamento. O algoritmo selecionado para realizar o agrupamento foi o K-means, por fornecer à técnica mais adequada a finalidade da aplicação. Por fim, os resultados encontrados tiveram um papel importante para o estudo comparativo das ferramentas utilizados nos experimentos, por contribuir com a análise e apresentar as particularidades de cada ferramenta. As ferramentas tiveram resultado iguais e a mesma classificação na divisão dos clusters com a base de dados do COREDE. Acredita-se que com os resultados obtidos neste trabalho, com a comparação das ferramentas gratuita e outra paga, abrem-se novos campos de estudos relacionados à área e até mesmo ao desenvolvimento de uma ferramenta mais robusta. Referências Bibliográficas BARIONI, M.C. Visualização de Operações de Junção em Sistemas de Bases de dados para Mineração de Dados. São Carlos, 2002. Dissertação de Mestrado, Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional. Universidade de São Paulo, 2002. BERRY, M, Linoff G. Data mining techniques. USA: John Wiley, 1997. p.5. DIAS M. Um Modelo de Formalização do Processo de Desenvolvimento de Sistemas de Descoberta de Conhecimento em bancos de Dados. Florianópolis, 2001. Tese de Doutorado, Programa de Pós-Graduação em Engenharia de Produção. Universidade Federal de Santa Catarina, p. 15. FAYYAD U, Piateski S and Smyth P. The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, November 1996/vol. 39, no. 11, p. 27-34. HAN J AND KAMBER M. Data Mining: Concepts and Techniques. San Francisco. Morgan Kalfmann Publishers, Secound Edition, 2006. p. 27 – 28, 228 – 234. LAROSE D. Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey: John Wiley & Sons, 2005. p. 4. PINHEIRO, Luciane C. Método de Representação Espacial de Clustering. Curitiba, 2006. Dissertação de Mestrado, Programa de Pós-Graduação em Informática. Universidade Federal do Paraná, 2006. VIANA, Reinaldo. Mineração de Dados: Introdução e Aplicações. Revista SQL Magazine, Rio de Janeiro. Edição 10, 2004. WEKA 3.7. Weka Online Documentation, março de 2016. Disponível em: <http://weka.sourceforge.net/wekadoc/index.php/en:Weka_3.5.8>. Acesso em 28.