this PDF file - Revista Eletrônica Unicruz

Propaganda
Análise Comparativa entre Ferramentas de Mineração de
Dados para Aplicação da Técnica de Clusterização
Yuri Krauser Melo1, Regis Schuch1, Michele Figueiró1
1
Centro de Ciências Humanas e Sociais (CCHS) – Universidade de Cruz Alta
(UNICRUZ) – Cruz Alta – RS – Brasil
{yuri029929, rschuch, mfigueiro}@unicruz.edu.br
Abstract. The evolution of information technology has enabled the storage of
large volumes of data. These data in the original format in which they are stored,
do not present useful knowledge, but when adjusted and handled by a data
mining process (MD), may reveal information that would not be possible to
obtain through traditional techniques and / or analytical tools. In this context,
this work presents a comparative analysis of tools to MD implementing
clustering technique, such tools have been selected based on their applicability,
with a specific use for MD and one for statistical analysis.
Resumo. A evolução da tecnologia da informação possibilitou o armazenamento
de grandes volumes de dados. Estes dados, no formato original em que são
armazenados, não apresentam conhecimento útil, mas quando ajustados e
manipulados por um processo de Mineração de Dados (MD), podem revelar
informações que não seriam possíveis de se obter por meio de técnicas
tradicionais e/ou ferramentas analíticas. Neste contexto, o presente trabalho
descreve uma análise comparativa entre ferramentas para MD que
implementam a técnica clusterização, tais ferramentas foram selecionadas com
base em suas aplicabilidades, sendo uma de uso específico para MD e outra
para análise estatística.
1. Introdução
A evolução da tecnologia da informação possibilitou que grandes volumes de dados
possam ser armazenados e processados mais rapidamente com uma maior precisão. Em
décadas passadas, o problema residia na capacidade física de armazenamento e
processamento. Atualmente a questão está focada na competência de análise desses dados,
de forma a extrair informações úteis. Os dados, no formato natural em que estão
armazenados, podem não apresentar conhecimento, mas se ajustados e manipulados por
um processo de mineração, revelam informações que talvez não seriam possíveis de se
obter por meio de técnicas estatísticas normais e/ou ferramentas analíticas.
Já em 1984, John Naisbitt [apud Larose, 2005] observou, “estamos nos afogando
em informação, porém para passar fome em conhecimento”. Isto se torna cada vez mais
evidente, pois quanto maior a base de dados, mais difícil é a recuperação e extração de
informações.
Neste contexto, cada vez mais se fazem necessárias novas formas de entender e
tirar um proveito maior dessas volumosas quantidades de dados. Frente a isso, surgem as
ferramentas e técnicas de MD, que estão sendo cada vez mais empregadas em
organizações e pesquisadas em ambiente acadêmico, pois oferecem de forma rápida,
automatizada ou semi-automatizada [Berry and Linoff, 1997] uma alternativa para a
geração de informações e produção do conhecimento, identificando aspectos relevantes
que possam ser utilizadas a nível estratégico como apoio ao processo de tomada de
decisão.
As áreas de aplicação da MD são as mais diversas. Neste trabalho, será explorada
no sentido de testar e comparar os recursos disponíveis em ferramentas que implementam
a técnica de clusterização, mais especificamente a ferramenta Waikato Environment for
Knowledge Analysis (WEKA) e Statistical Package for the Social Sciences (SPSS), sendo
uma de aplicação específica para MD e outra para análise estatística, respectivamente.
Este trabalho está organizado em 6 seções. A partir daqui, a próxima Seção aborda
o processo de Descoberta do Conhecimento em Bases de Dados através da MD. Na Seção
3, descrevem-se as ferramentas de MD utilizadas neste trabalho. Na Seção 4, descreve-se
o tratamento dos dados para sua adequação ao algoritmo de clusterização. A aplicação da
MD e os resultados alcançados são discutidos na Seção 5. Por fim, as conclusões,
recomendações e sugestões de trabalhos futuros.
2. Mineração de Dados e Descoberta do Conhecimento
Na literatura é possível encontrar diversas definições para a MD, mas um dos principais
conceitos, aceito por muitos pesquisadores, foi elaborado por Fayyad, Piateski and Smyth,
(1996) como: “o processo não-trivial de identificar, em dados, padrões válidos, novos,
potencialmente úteis e ultimamente compreensíveis”.
Esses autores referem-se, ainda, a Descoberta do Conhecimento em Bases de
Dados (DCBD) como um processo global de descoberta de conhecimento que envolve
seleção, pré-processamento dos dados e transformação dos mesmos, também MD,
interpretação dos resultados e a transformação do conhecimento. A MD é uma das etapas
deste processo onde são aplicados algoritmos específicos para extração de padrões a partir
dos dados ou até mesmo revelar o comportamento de um banco de dados.
Para Han and Kamber, (2006), a MD também pode ser descrita como uma área de
pesquisa multidisciplinar que engloba diversas outras áreas como: Inteligência Artificial;
Aprendizado de Máquina; Redes Neurais; Estatística; dentre outras, sendo que esta só se
tornou possível a partir do amadurecimento destas diferentes áreas.
Segundo Harrison [apud Dias, 2001], a escolha das técnicas de MD dependerá da
tarefa específica a ser executada e dos dados disponíveis para análise, devendo-se levar
em conta a natureza dos dados disponíveis em termos de conteúdo, os tipos de campos de
dados e a estrutura das relações entre os registros.
2.1. Tarefa de Clusterização
A Tarefa de Clusterização, embora seja de simples entendimento, porque instintivamente
as pessoas visualizam os dados segmentados em grupos discretos como, por exemplo,
tipos de plantas ou animais, é um processo computacional complexo, pois em grandes
bases de dados os cenários existentes são muito similares, tornando-se competitivos entre
si, requerendo a utilização de algoritmos complexos que determinem a segmentação
(Clusterings) mais apropriada.
Nessa tarefa, o algoritmo deve criar as classes através da produção de partições do
banco de dados em conjuntos de tuplas. Essa partição é feita de modo que tuplas com
valores de atributos semelhantes, ou seja, propriedades de interesse comuns, sejam
reunidas dentro de uma mesma classe. Uma vez que as classes sejam criadas, pode-se
aplicar um algoritmo de classificação nessas classes, produzindo assim regras para as
mesmas. Segundo Han e Kamber (2006) a tarefa de agrupamento identifica a classe de
cada objeto de maneira que os objetos dentro de uma mesma classe apresentem alta
similaridade entre si, e ao mesmo tempo, baixa similaridade em relação aos objetos das
outras classes.
A qualidade do resultado da clusterização também depende da medida utilizada
para medir a similaridade usada pelo método e de sua implementação, além de sua
habilidade de descobrir algum ou todos os padrões escondidos. Segundo Pinheiro (2006),
as medidas de similaridade fornecem valores numéricos que exprimem a “distância” entre
dois objetos. Quanto menor o valor desta, mais semelhantes será os objetos e estes deverão
ficar no mesmo cluster. De outro modo, quanto maior a “distância”, menos similares serão
os objetos e, em consequência, eles deverão estar em grupos distintos [PINHEIRO, 2006].
As técnicas mais utilizadas para agrupar dados, segundo Barioni (2002), são
baseadas em três categorias: Partição: basicamente enumera várias partições e então cria
uma nota para cada uma delas segundo algum critério; Hierárquia: cria uma decomposição
hierárquica do conjunto de dados usando algum critério; Modelo: um modelo é
hipoteticamente criado para cada cluster e a ideia é encontrar o que melhor se enquadra
quando comparados entre si [BARIONI, 2002].
A maior parte das ferramentas de clusterização trabalham em função de um
número pré-definido de grupos especificado pelo usuário. Isso requer um conhecimento
detalhado do domínio, transformando assim a tarefa de descoberta de conhecimento
menos atrativa. Tecnologias mais sofisticadas são capazes de procurar através de
diferentes possibilidades de quantidades de grupos e avaliar cada configuração de acordo
com a sua importância.
Os algoritmos de Clusterização realizam a medida de similaridade baseados nos
valores dos atributos que descrevem os objetos do banco de dados através de métodos de
agrupamento, que geralmente são divididos em duas categorias, como descritos a seguir.
2.1.1. Métodos Baseados em Partição
Conhecido como K-means, este é o algoritmo mais utilizado e segundo Viana (2004),
basicamente, o particionamento divide a base de dados em grupos, chamados de clusters.
A técnica é baseada no seguinte princípio: primeiro a base de dados é tratado como um
vetor e cada informação nela contida como um ponto vetorial. Desta forma o algoritmo
trabalha com a distância entre os pontos, ou seja, um conjunto de pontos próximos será
considerado um cluster. Para plotar os dados como pontos vetoriais e calcular a distância
entre eles utiliza-se uma função de distância. As funções de distância mais utilizadas são
a Euclidiana e a função Manhattan. Em um segundo momento, é necessário definir o
número de clusters que serão criados. Esse número é chamado k, por isso o nome Kmeans. O algoritmo plota então um ponto chamado centroid no meio (mean) de cada
cluster, em seguida os centroids são reposicionados de acordo com a sua distância em
relação aos grupos de pontos mais próximos, então os clusters são recalculados. Esse
processo é repetido ate que os clusters estejam bem definidos. A qualidade de definição
dos clusters será melhor à medida que as “nuvens” de pontos estiverem bem agrupadas
[VIANA, 2004].
2.1.2. Métodos Hierárquicos
Segundo Viana (2004), “essa técnica trabalha de duas formas, com o método Divisivo,
que começa com um cluster único e vai particionando-o em clusters menores, num
processo iterativo; Ou com o método Aglomerativo que faz justamente o contrário,
começa com partes pequenas e vai agrupando em clusters maiores”. O resultado é uma
árvore de grupos chamada Dendograma [VIANA, 2004].
3. Ferramentas para Mineração de Dados
Existem diversas ferramentas disponíveis no mercado, que implementam uma ou mais
técnicas de MD. Baseado nos critérios acima citados, para a análise comparativa das
ferramentas que implementam algoritmos de mineração por agrupamento foram
selecionadas as ferramentas WEKA e SPSS. A primeira – WEKA – por se tratar de um
software de domínio público específico para MD e apresentar grande praticidade na
utilização, pois não necessita da criação de um banco de dados, aceitando dados em
formato texto. E a segunda – SPSS – por se tratar de uma ferramenta de uso estatístico
que permite a análise de agrupamentos através das mesmas técnicas presentes na WEKA,
além de permitir a mineração a partir de uma planilha eletrônica.
3.1. Ferramenta WEKA
A Ferramenta de MD WEKA foi desenvolvida na Universidade de Waikato na Nova
Zelândia. Trata-se de um pacote implementado em Java, seguindo o paradigma de
orientação a objetos, composto de uma série de algoritmos de aprendizagem para
solucionar problemas de MD. Os algoritmos podem ser aplicados diretamente a uma série
de dados. Tem como principal característica ser portável podendo rodar nas mais variadas
plataformas e aproveitando todos os benefícios de uma linguagem orientada a objetos, por
ser uma ferramenta de domínio público encontra-se disponível em
http://www.cs.waikato.ac.nz/ml/weka/.
A Ferramenta WEKA trabalha com um formato de arquivo próprio, desenvolvido pelo
Projeto Machine Learning no Departamento de Ciência da Computação da Universidade
de Waikato. Um Atributo-Relação File Format (ARFF) é um arquivo de texto que
descreve uma lista de instâncias de um conjunto de atributos.
3.2. Ferramenta SPSS
A ferramenta SPSS trata-se de um software proprietário com três versões (Standard,
Profissional, Premium) que proporciona um poderoso tratamento estatístico de dados,
combinando potencialidades gráficas com uma gestão de dados. O SPSS apresenta-se
como uma aplicação de fácil manuseamento visto que a sua apresentação e o modo como
funciona é semelhante a qualquer aplicação desenvolvida para Windows baseada em
janelas e menus característicos do referido ambiente.
4. Tratamento dos Dados para Aplicação do Algoritmo de Clusterização
Para obter um melhor desempenho e resultados de maior relevância, foi necessário tratar
os dados visando o uso do algoritmo de clusterização em particular.
4.1. Seleção dos Dados
Esta primeira etapa foi necessária para definir quais atributos possuíam características
pertinentes à análise e algumas possíveis contribuições para a formação dos grupos
(clusters).
Para tanto, os dados para o desenvolvimento do estudo de caso foram obtidos a
partir de uma base de dados do Instituto Brasileiro de Geografia e Estatística (IBGE). Essa
base é referente ao levantamento de dados oriundos dos censos e estimativas
populacionais, compreendidos no período de 2000 a 2013, conforme ilustrado na Tabela
1.
Tabela 1. Base de Dados (COREDE)
população_total
2471
2282
4072
67350
4985
18633
1627
14413
3582
3195
11534
10003
4861
10564
jovens
557
587
931
18344
1375
4391
345
3500
778
698
3403
2750
1183
2734
idosos
população_Ativa
345
1569
219
1476
591
2550
7343
41663
455
3155
2307
11935
254
1028
1604
9309
529
2275
372
2125
998
7133
942
6311
617
3061
1194
6636
cidades
Boa Vista do Cadeado
Boa Vista do Incra
Colorado
Cruz Alta
Fortaleza dos Valos
Ibirubá
Lagoa dos Três Cantos
Não-me-Toque
Quinze de Novembro
Saldanha Marinho
Salto do Jacuí
Santa Bárbara do Sul
Selbach
Tapera
As informações são referentes aos municípios que fazem parte do Conselho
Regional de Desenvolvimento (COREDE) do Alto Jacuí. Este COREDE abrange 14
municípios: Boa Vista do Cadeado, Boa Vista do Incra, Colorado, Cruz Alta, Fortaleza
dos Valos, Ibirubá, Lagoa dos Três Cantos, Não me Toque, Quinze de Novembro,
Saldanha Marinho, Salto do Jacuí, Santa Bárbara do Sul, Selbach e Tapera. Inicialmente
os dados coletados foram agrupados por municípios (cidades) e armazenados em uma
base de dados.
Os atributos selecionados foram: população total – “p_total”, população jovem
– “p_jovem”, população idosa – “p_idosa”, população ativa – “p_ativa” e municípios
– “cidades”; tais atributos representam as médias populacionais correspondentes a estes
14 municípios no período em que foi realizado o levantamento. A partir destas
informações foi estabelecido um modelo de mineração por agrupamento.
4.2. Pré-processamento e Transformação dos Dados
Após reunir os dados e certificar-se de que o conjunto era composto apenas por valores
válidos, estes foram tratados de maneira que pudessem ser analisados pelas ferramentas
WEKA e SPSS. Para tanto, foi necessário gerar dois arquivos diferentes para a análise:
um no formato XLS para a ferramenta SPSS e outro em ARFF para a WEKA. No primeiro
caso manteve-se uma planilha representando os dados como na Tabela 1. Já no segundo
caso, onde foi necessário transformar os dados para um formato adequado à WEKA, foi
gerado um arquivo no formato ARFF, conforme ilustrado na Figura 1.
@relation indicadores
@attribute p_total real
@attribute jovens
real
@attribute idosos
real
@attribute p_ativa real
@attribute
cidades
{boa_vista_do_cadeado,boa_vista_do-incra,
Colorado,Cruz_Alta,
Fortaleza_dos_Valos,Ibirubá,
Lagoa_dos_Três_Cantos,Não-me-Toque,Quinze_de_Novembro,
Saldanha_Marinho,Salto_do_Jacuí,Santa_Bárbara_do_Sul, Selbach,Tapera}
@data
2471,557,345,1569,boa_vista_do_cadeado
2378,587,219,1476,boa_vista_do-incra
4072,931,591,2550,Colorado
67350,18344,7343,41663,Cruz_Alta
4985,1375,455,3155,Fortaleza_dos_Valos
18633,4391,2307,11935,Ibirubá¡
1627,345,254,1028,Lagoa_dos_Três_Cantos
14413,3500,1604,9309,Não-me-Toque
3582,778,529,2275,Quinze_de_Novembro
3195,698,372,2125,Saldanha_Marinho
11534,3403,998,7133,Salto_do_Jacuí
10003,2750,,942,6311,Santa_Bárbara_do_Sul
4861,1183,617,3061,Selbach
10564,2734,1194,6636,Tapera
Figura 1. Arquivo ARFF
Como pode ser observado o arquivo ARFF é basicamente um arquivo texto com
algumas alterações, os passos que foram seguidos para a geração do arquivo interpretável
pela ferramenta WEKA são os seguintes:
a) Inclusão do cabeçalho da relação: este deve conter o nome da relação e seguir o
seguinte formato:
@relation indicadores
b) A declaração dos atributos que compõem a relação: deve seguir a mesma ordem
em que eles aparecem descritos no arquivo. O formato da declaração de atributos
é:
@attribute p_total
real
Onde o nome do atributo <p_total> deve começar com um caractere alfabético,
sem espaços em branco, e o tipo de dado <real> pode ser qualquer um dos quatro
tipos suportados pela WEKA, que são: Numeric (que podem ser reais ou inteiros),
Nominal (que devem ser especificados em uma lista de possíveis valores), String
e Data (WEKA, 2008).
c) A relação dos dados: composta da expressão @data que determina o início do
segmento de dados no arquivo. Cada ocorrência da tabela deve ser representada
por uma única linha, sendo que o transporte de linha denota o final da ocorrência,
e os valores para cada atributo devem ser delimitados por vírgulas ou tabulação e
devem necessariamente aparecer na ordem em que os atributos foram declarados.
Os valores de string e os atributos nominais são case sensitivos, devendo ser
observados os caracteres maiúsculos ou minúsculos, e não valores numéricos as
casas decimais devem ser separadas por “ponto”.
4.3. Mineração de Dados
Optou-se, devido às características do tipo de aplicação, agrupar os dados em arquivos
individuais de maneira que cada arquivo possa ser minerado na respectiva ferramenta.
Para tanto, um arquivo foi gerado através de um editor de planilhas e outro através de um
editor de textos. Com isso obteve-se dois arquivos como resultado, um no formato XLS e
outro em ARFF, conforme detalhado nas seções 4.1 e 4.2.
Para a mineração da base de dados (arquivos) utilizou-se as ferramentas SPSS e
WEKA. Essas ferramentas fornecem o algoritmo K-means (K-médias), que é uma
implementação que usa a técnica de agrupamento dos dados pela média entre os grupos
(clusters). O K-means encontra a melhor divisão de dados nos grupos, de maneira que a
distância total entre os dados de um grupo e o seu respectivo centro, somada por todos os
grupos, seja minimizada.
Para identificar qual é o melhor número de cluster para aplicação do algoritmo Kmeans foi aplicado o método hierárquico, o qual gera como resultado um dendograma –
que é um diagrama ramificado – que permite visualmente deduzir o melhor agrupamento
para os dados. Como demonstrado na Figura 2, os resultados definiram que o melhor
número de clusters é quatro.
Figura 2 . Dendograma que define o melhor número de clusters.
Para medir a distância entre os clusters, (ou seja, a dissimilaridade entre dois
pontos) utilizou-se a técnica de Distância Euclidiana, sendo que quanto maior a medida
de dissimilaridade menor é a semelhança entre os clusters.
Identificado o melhor número de clusters, o passo seguinte é a aplicação do
algoritmo de clusterização K-means. Os testes realizados utilizaram dados numéricos e o
método supervisionado, ou seja, o atributo “Cidades” foi definido como classificador e
informado ao algoritmo. O funcionamento básico segue o princípio de que, cada ponto
deve associar-se ao mais próximo, redefinindo sua posição como sendo a média das
distâncias dos componentes associados a ele no passo anterior. Os resultados obtidos
através das ferramentas são descritos na Seção 5.
5. Resultados Obtidos
Após a etapa de MD, resultaram quatro grupos distintos da base de dados. Objetivando
um grau de segurança para validar os resultados, foi realizada uma análise criteriosa sobre
as saídas geradas pelas ferramentas.
Na WEKA, a tela de saída apresenta os resultados da aplicação do algoritmo,
conforme demonstrado na Tabela 2.
Tabela 2. Saída da ferramenta WEKA
1 Cluster Centroids:
2
3 Attribute
4
Cluster
Full Data
(14)
0
(8)
1
(1)
2
(3)
3
(2)
11276.8121
2501.9593
1510.6629
7214.1264
3212.7425
663.4625
515.945
2133.2212
64613.79
15178.93
8399.29
41035.57
10762.5233
2414.2167
1269.1667
6745.81
17236.035
3499.075
2407.465
11329.5
5
6
7
8
9
10
p_total
jovens
idosos
p_ativa
11 Time taken to build model (full training data) : 0.02 seconds
12 Model and evaluation on training set
13 Clustered Instances
14
0
8 (57%)
15
1
1 (7%)
16
2
3 (21%)
17
3
2 (14%)
As informações demonstradas referem-se ao desempenho do algoritmo, como o
número de iterações necessárias para a formação dos clusters (linha 4). Em seguida são
descritos os centroids, ou seja, os valores médios para cada um dos atributos, encontrados
no arquivo original e em cada um dos clusters criados (linhas 6-9). A última informação
desta tela informa o percentual de registros agrupados em cada cluster (linhas 14-17).
Já os resultados gerados pela ferramenta SPSS podem ser observados na Tabela
3.
Tabela 3. Saída da ferramenta SPSS
1
Final Cluster Centers
2
Cluster
3
4
5
6
7
9
1
3
4
PopTotal 3312,74 64613,79 17236,04
PopJovem 663,56 15178,93
3499,07
PopIdosa
515,96
8399,29
2407,46
PopAtiva 2133,22 41035,57 11329,50
Number of Cases in each
10529,19
2514,21
1269,17
6745,81
10
Cluster
11
Cluster
2
1
8,000
12
2
1,000
13
3
2,000
14
4
3,000
15
Valid
16
Missing
14,000
0,000
Como podemos observar, inicialmente são demonstrados os valores médios para
cada atributo (linhas 4-7). Em seguida é informado o número de iterações em cada cluster
(linhas 11-14). Por fim, são informados os registros validados (linha 15) e com dados
faltantes (linha 16) para a análise.
5.1. Discussão dos Resultados
Na etapa de elaboração do modelo de mineração de dados levou-se em consideração a
população total, de jovens, adultos e ativa, e a qual município pertente. Através da
mineração buscou-se encontrar padrões nos dados através do uso de clusters para
determinar se existe um padrão populacional. A coluna “cidades” possui 14 valores que
identificam o município (Boa Vista do Cadeado, Boa Vista do Incra, Colorado, Cruz Alta,
Fortaleza dos Valos, Ibirubá, Lagoa dos Três Cantos, Não me Toque, Quinze de
Novembro, Saldanha Marinho, Salto do Jacuí, Santa Bárbara do Sul, Selbach e Tapera) a
que uma determinada instância esta agrupada.
Abaixo a análise dos clusters gerados:
•
Cluster 0 (WEKA) 1 (SPSS) – Podemos chamar esse grupo de “Idosos em
atividade”, já que a maior concentração de idosos, proporcionalmente a média
populacional, dentre os grupos gerados, está presente neste cluster, sendo que a
grande maioria também faz parte da população ativa dos municípios. Este também
é o cluster com maior número de municípios, sendo oito: Boa Vista do Cadeado,
Boa Vista do Incra, Colorado, Fortaleza dos Valos, Lagoa dos Três Cantos, Quinze
de Novembro, Saldanha Marinho, Selbach.
•
Cluster 1 (WEKA) 2 (SPSS) – Esse grupo apesar de possuir a maior população
total gerou os resultados apenas sobre o município de Cruz Alta. Então, podemos
chamar esse grupo de “Cluster isolado”, pois ele foi gerado a partir de
características isoladas de um único município, não permitindo tirar uma boa
conclusão de seu comportamento.
•
Cluster 2 (WEKA) 3 (SPSS) – Chamamos esse grupo de “População mais ativa”,
pois a maior concentração de pessoas em atividade está neste cluster. Dois
municípios estão presentes no cluster: Ibiruba, Não me Toque.
•
Cluster 3 (WEKA) 4 (SPSS) – Chamaremos esse grupo de “Jovens ativos”, já
que possui a maior concentração de jovens e população ativa, proporcionalmente
a média populacional. Três municípios foram agrupados neste cluster: Salto do
Jacuí, Santa Barbara do Sul, Tapera. Além disso, este grupo também possui a
menor média populacional de idosos.
Observa-se ainda que ambas as ferramentas geraram resultados idênticos, contudo,
no que diz respeito à interface da aplicação, a SPSS foi considerada a mais simples, pois
permite uma variedade maior de funções, inclusive a análise de agrupamentos pelo
método hierárquico.
6. Conclusões
Este trabalho apresentou experimentos práticos de MD aplicado a dados de censos e
estimativas populacionais. Durante o processo de MD, algumas adequações foram
efetuadas para formatar os dados de maneira pertinente ao algoritmo de mineração
selecionado.
Com os resultados obtidos foi possível identificar padrões populacionais nos dados
analisados.
Este trabalho apresentou experimentos práticos realizados com as ferramentas de MD
WEKA e SPSS aplicando a técnica de clusterização por particionamento. O algoritmo
selecionado para realizar o agrupamento foi o K-means, por fornecer à técnica mais
adequada a finalidade da aplicação.
Por fim, os resultados encontrados tiveram um papel importante para o estudo
comparativo das ferramentas utilizados nos experimentos, por contribuir com a análise e
apresentar as particularidades de cada ferramenta. As ferramentas tiveram resultado iguais
e a mesma classificação na divisão dos clusters com a base de dados do COREDE.
Acredita-se que com os resultados obtidos neste trabalho, com a comparação das
ferramentas gratuita e outra paga, abrem-se novos campos de estudos relacionados à área
e até mesmo ao desenvolvimento de uma ferramenta mais robusta.
Referências Bibliográficas
BARIONI, M.C. Visualização de Operações de Junção em Sistemas de Bases de dados
para Mineração de Dados. São Carlos, 2002. Dissertação de Mestrado, Programa de
Pós-Graduação em Ciências de Computação e Matemática Computacional.
Universidade de São Paulo, 2002.
BERRY, M, Linoff G. Data mining techniques. USA: John Wiley, 1997. p.5.
DIAS M. Um Modelo de Formalização do Processo de Desenvolvimento de Sistemas de
Descoberta de Conhecimento em bancos de Dados. Florianópolis, 2001. Tese de
Doutorado, Programa de Pós-Graduação em Engenharia de Produção. Universidade
Federal de Santa Catarina, p. 15.
FAYYAD U, Piateski S and Smyth P. The KDD Process for Extracting Useful Knowledge
from Volumes of Data. In: Communications of the ACM, November 1996/vol. 39, no.
11, p. 27-34.
HAN J AND KAMBER M. Data Mining: Concepts and Techniques. San Francisco.
Morgan Kalfmann Publishers, Secound Edition, 2006. p. 27 – 28, 228 – 234.
LAROSE D. Discovering Knowledge in Data: An Introduction to Data Mining. New
Jersey: John Wiley & Sons, 2005. p. 4.
PINHEIRO, Luciane C. Método de Representação Espacial de Clustering. Curitiba, 2006.
Dissertação de Mestrado, Programa de Pós-Graduação em Informática. Universidade
Federal do Paraná, 2006.
VIANA, Reinaldo. Mineração de Dados: Introdução e Aplicações. Revista SQL
Magazine, Rio de Janeiro. Edição 10, 2004.
WEKA 3.7. Weka Online Documentation, março de 2016. Disponível em:
<http://weka.sourceforge.net/wekadoc/index.php/en:Weka_3.5.8>. Acesso em 28.
Download