avaliação de técnicas de visualização para mineração de dados

Propaganda
EMERSON RABELO
AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA
MINERAÇÃO DE DADOS
MARINGÁ
2007
EMERSON RABELO
AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA
MINERAÇÃO DE DADOS
Dissertação apresentada ao Programa de
Pós-Graduação em Ciência da Computação
da Universidade Estadual de Maringá, como
requisito parcial para obtenção do grau de
Mestre em Ciência da Computação.
Orientadora: Profª. Drª. Maria Madalena Dias
MARINGÁ
2007
Dados Internacionais de Catalogação-na-Publicação (CIP)
(Biblioteca Central - UEM, Maringá – PR., Brasil)
R114a
Rabelo, Emerson
Avaliação de técnicas de visualização para mineração de
dados / Emerson Rabelo. -- Maringá : [s.n.], 2007.
103 p. : il. color., figs.
Orientadora : Profª. Drª. Maria Madalena Dias.
Dissertação (mestrado) - Universidade Estadual de
Maringá. Programa de Pós-graduação em Ciência da
Computação, 2007.
1. Mineração de dados. 2. Visualização de informação. I.
Universidade Estadual de Maringá. Programa de Pós-graduação
em Ciência da Computação. II. Título.
CDD 21.ed. 006.312
EMERSON RABELO
AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA
MINERAÇÃO DE DADOS
Dissertação apresentada ao Programa de
Pós-Graduação em Ciência da Computação
da Universidade Estadual de Maringá, como
requisito parcial para obtenção do grau de
Mestre em Ciência da Computação.
Aprovado em 05/09/2007
BANCA EXAMINADORA
Profa. Dra. Maria Madalena Dias
Universidade Estadual de Maringá – DIN/UEM
Profa. Dra. Clélia Franco
Universidade Estadual de Maringá – DIN/UEM
Prof. Dr. Júlio Cesar Nievola
Pontifícia Universidade Católica do Paraná – PPGIa/PUCPR
AGRADECIMENTOS
Agradeço primeiramente a Deus pela força nos momentos de dificuldades e, pela luz que
iluminou e guiou meus passos direcionando-me no caminho da aprendizagem.
Agradeço a minha mãe Josefa Benites Rabelo, pela sua dedicação e amor e ao meu pai
Valentim Rabelo, que sempre me mostrou por meio de atitudes o valor da humildade e do
trabalho. O meu irmão que sempre esteve presente e disposto a me ajudar em qualquer
momento.
Agradeço a minha Esposa Juliana F. Rabelo por estar ao meu lado em todos os momentos de
alegria e dificuldades, pois sem a sua presença com certeza seria muito mais difícil.
Agradeço a Deus mais uma vez, por ter colocado no meu caminho uma pessoa maravilhosa
que
é
minha
orientadora
professora
Maria
Madalena
Dias,
pela
oportunidade,
profissionalismo, não medindo esforços no apoio para realização deste trabalho
compartilhando o seu conhecimento.
Agradeço a todos os professores que, de forma direta ou indireta, contribuíram para este
trabalho, principalmente a professora Clélia Franco pelo valor dos seus conhecimentos,
conselhos e sua disposição.
Agradeço ao meu Primo Heber Rabelo pela ajuda na finalização deste trabalho.
Agradeço aos funcionários do Departamento de informática em especial a Maria Inês
Davanço pela ajuda e paciência.
A todos que direta ou indiretamente contribuíram para a realização deste trabalho.
“As invenções são sobretudo os resultados
de um trabalho teimoso”
Alberto Santos Dumont ( 1873-1932)
{inventor do avião e do relógio de pulso}
RESUMO
Nas últimas décadas, o constante avanço na área de Tecnologia da Informação (TI) tem
viabilizado o armazenamento de grandes quantidades de dados. Viabilidade fornecida pelo
baixo custo de dispositivos de armazenando, fácil acesso à Internet, existência de sistemas de
informação e de ferramentas de gerenciamento. Com essa explosão no volume de dados,
surge a necessidade de novas pesquisas para encontrar formas eficazes e inteligentes na busca
de informações úteis. A mineração de dados é uma área de pesquisa que tem contribuído na
busca de conhecimentos implícitos que possam dar suporte à tomada de decisão. Na verdade,
a mineração de dados faz parte de uma área mais ampla que é descoberta de conhecimento em
banco de dados (Knowledge Discovery in Database - KDD). O processo KDD envolve várias
atividades que são divididas em três etapas principais: pré-processamento, mineração de
dados e pós-processamento. Na etapa de pós-processamento, o usuário final precisa interagir
com o sistema para analisar os resultados obtidos. No entanto, ainda existe dificuldade no
entendimento desses resultados. A utilização de técnicas de visualização de informação tem se
mostrado um meio de promover esse entendimento. Assim, este trabalho apresenta uma
avaliação de técnicas de visualização de informação para representação dos resultados obtidos
com a aplicação de técnicas de mineração de dados. Esta avaliação foi realizada de acordo
com o método conhecido como Avaliação de Características, tendo como resultado a análise
da eficácia da utilização de técnicas de visualização de informação geométricas e
iconográficas, principalmente em relação aos resultados obtidos com a aplicação do algoritmo
K-médias.
Palavras-Chave: Descoberta de conhecimento em banco de dados. Visualização de
informação. Mineração de dados.
ABSTRACT
In the last few decades, constant advances in the field of Information Technology (IT) have
enabled the storage of large quantities of data. This has been possible to the low costs of
storage devices, easy access to the Internet, and the existence of information systems and
management tools. With this surge in data volume, new researches become necessary in order
to find efficient and intelligent methods when searching for useful information. Data mining
is an area of research that has contributed in the search for implicit knowledge that can give
support to decision-making. In reality, data mining is part of a broader field, Knowledge
Discovery in Database – (KDD). The KDD process involves several activities, which are
divided into three main stages: data preparation, data mining and results analysis. In the
results analysis stage, the final user needs to interact with the system in order to analyze the
obtained results. However, there is much in difficulty in interpreting these results. The use of
information visualization techniques has shown to be an effective way to promote better result
interpretation. Thus, this study presents an evaluation of information visualization techniques
for the display of results obtained through the application of data mining techniques. This
evaluation was carried through in accordance with the known method as Evaluation of
Characteristics, having as resulted the analysis of the effectiveness of the use of geometric and
iconographic techniques of information visualization, mainly in relation to the results gotten
with the application of the K-media algorithm.
Keywords: Knowledge Discovery in Database. Information visualization. Data mining.
LISTA DE ILUSTRAÇÕES
Figura 1.1 – Processo de Desenvolvimento da Pesquisa ........................................................19
Figura 2.1 – Processo KDD.....................................................................................................23
Figura 2.2 – Associação entre conjunto de dados e classes ....................................................26
Figura 2.3 – Algoritmo K-médias ...........................................................................................31
Figura 2.4 – Passos de execução do algoritmo K-média.........................................................32
Figura 2.5 – Processo simplificado de visualização de informação auxiliada por computador
..................................................................................................................................................34
Figura 2.6 – Modelo de referência para visualização .............................................................35
Figura 2.7 – Exemplo de matriz de dispersão .........................................................................38
Figura 2.8 – Eixos da visualização de dispersão de dados 3D ................................................39
Figura 2.9 – Exemplo de coordenadas paralelas com dados fictícios .....................................40
Figura 2.10 – Exemplo de faces de chernoff...........................................................................41
Figura 2.11 – Exemplo de um icone da visualização Star Glyphs ..........................................42
Figura 2.12 – Exemplo da visualização de dados utilizando Star Glyphs...............................42
Figura 2.13 – Exemplo de um icone da visualização figura de aresta ....................................43
Figura 3.1 – Ser humano como elemento central do processo KDD ......................................47
Figura 4.1a – Coordenadas paralelas com 10.000 registros....................................................54
Figura 4.1b – Coordenadas paralelas com 100.000 registros..................................................54
Figura 4.2a – Dispersão de dados tridimensional com 100 registros .....................................55
Figura 4.2b – Dispersão de dados tridimensional com 1.000 registros...................................55
Figura 4.2c – Dispersão de dados tridimensional com 10.000 registros .................................55
Figura 4.3a – Faces de chernoff com 56 registros ..................................................................55
Figura 4.3b – Faces de chernoff com 169 registros ................................................................55
Figura 4.4 – Visualização Figuras de aresta (Stick figure) .....................................................56
Figura 4.5a – Coordenadas paralelas representando 100 registros com 10 atributos .............57
Figura 4.5b – Coordenadas paralelas representando 100 registros com 34 atributos .............57
Figura 4.5c – Coordenadas paralelas representando 100 registros com 100 atributos............57
Figura 4.6 – Faces de chenorff com 15 atributos ....................................................................59
Figura 4.7a – Coordenadas Star Glyphs com 10 atributos.....................................................59
Figura 4.7b – Coordenadas Star Glyphs com 30 atributos.....................................................59
Figura 4.7c – Coordenadas Star Glyphs com 80 atributos .....................................................59
Figura 4.7d – Coordenadas Star Glyphs com 500 atributos...................................................59
Figura 4.8 – Coordenadas Star Glyphs com 500 atributos.....................................................61
Figura 4.9 – Matriz dispersão de dado representando a base de dados “mtcars”....................64
Figura 4.10 – Coordenadas paralelas representado base de dados “mtcars”...........................65
Figura 4.11 – Matriz de Dispersão – Base de dados “USarrests” ...........................................66
Figura 4.12 – Coordenadas paralelas - Base de dados “USarrests” ........................................67
Figura 4.13 – Dispersão de dados representando Correlação positiva, negativa e nula.........68
Figura 4.14 – Correlação na visualização de dispersão de dados base“USarrests” ................68
Figura 4.15 – Repr. de correlação positiva da visualização de coordenadas paralelas ...........69
Figura 4.16 – Repr. de correlação negativa da visualização de coordenadas paralelas ..........69
Figura 4.17 – Correlação e distribuição de valores em Coordenadas Paralelas......................69
Figura 5.1 – Matriz de dispersão (base de dados Uem/2005) .................................................76
Figura 5.2a – Coordenadas paralelas representando 131 registros contendo valores nulos para
o atributo sexo .........................................................................................................................77
Figura 5.2b – Coordenadas paralelas representando 10 registros contendo valores nulos para
o atributo sexo .........................................................................................................................77
Figura 5.3 – Star Glyph representando os candidatos aprovados............................................78
Figura 5.4 – Resultado do algoritmo K-médias ......................................................................79
Figura 5.5 – Coordenadas paralelas gerado pelo algoritmo K-means.....................................81
Figura 5.6 – Coordenadas paralelas com destaque no eixo vertical que representa o atributo
redação......................................................................................................................................82
Figura 5.7 – Dispersão de dados tridimensional representado resultado do algoritmo de
agrupamento da base “UEM-2005”..........................................................................................83
Figura 5.8 – Faces de chernof. Representando os Centróides dos grupos gerados pelo
algoritmo K-médias ..................................................................................................................84
LISTA DE TABELAS
Tabela 2.1 – Tarefas e Métodos de MD ..................................................................................29
Tabela 2.2 – Visualização de informação comparada à visualização científica......................34
Tabela 3.1 – Tipo de dados para o atributo estado civil ..........................................................48
Tabela 3.2 – Características de dados......................................................................................49
Quadro 4.1 – Classificação da informação..............................................................................60
Quadro 4.2 – Ranking dos atributos em relação à percepção .................................................61
Tabela 4.1 – Análise de características das técnicas de visualização ......................................73
LISTA DE SIGLAS
KDD
Knowledge Discovery in Databases
MD
Mineração de Dados
IHC
Interação Humano-Computador
VDM
Visual Data Mining
DW
Data Warehouse
UEM
Universidade Estadual de Maringá
SUMÁRIO
1 INTRODUÇÃO ............................................................................................................................................... 16
1.1 OBJETIVOS ............................................................................................................................................... 17
1.2 JUSTIFICATIVA ....................................................................................................................................... 18
1.3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA............................................................... 18
1.3.1 Processo de Desenvolvimento da Pesquisa .......................................................... 19
1.4 ORGANIZAÇÃO DO TRABALHO .......................................................................................................... 21
2 FUNDAMENTAÇÃO TÉORICA.................................................................................................................. 23
2.1 INTRODUÇÃO .......................................................................................................................................... 23
2.2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD).............................................. 23
2.3 MINERAÇÃO DE DADOS........................................................................................................................ 26
2.3.1 Tarefas de mineração de dados ............................................................................ 27
2.3.2 Técnicas de mineração de dados .......................................................................... 28
2.3.3 Algoritmo de Agrupamento.................................................................................. 30
2.4 VISUALIZAÇÃO DE INFORMAÇÃO ..................................................................................................... 34
2.4.1 Mineração Visual de Dados .................................................................................. 36
2.4.2 Técnicas de Visualização de Informação............................................................. 37
2.5 LINGUAGEM R......................................................................................................................................... 44
2.6 CONSIDERAÇÕES FINAIS...................................................................................................................... 45
3 ANÁLISE DE PARÂMETROS GERAIS PARA KDD ............................................................................... 47
3.1 INTRODUÇÃO .......................................................................................................................................... 47
3.2 FATOR HUMANO E DOMÍNIO DE APLICAÇÃO ................................................................................. 47
3.3 DOMÍNIO DE DADOS .............................................................................................................................. 48
3.4 CONSIDERAÇÕES FINAIS...................................................................................................................... 50
4 AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO ................................................................................ 52
4.1 INTRODUÇÃO .......................................................................................................................................... 52
4.2 FONTES DE DADOS................................................................................................................................. 52
4.3 AVALIAÇÃO DAS CARACTERÍSTICAS ............................................................................................... 54
4.3.1 Escalabilidade ........................................................................................................ 54
4.3.2 Dimensionalidade .................................................................................................. 57
4.3.3 Tipos de dados........................................................................................................ 61
4.3.4 Interação................................................................................................................. 63
4.3.5 Interpretabilidade.................................................................................................. 65
4.3.6 Relacionamento entre os atributos....................................................................... 67
4.3.7 Correlação .............................................................................................................. 69
4.4 RESULTADOS E CONSIDERAÇÕES FINAIS .................................................................................... 72
5 APLICAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO DE INFORMAÇÃO............................................. 76
5.1 VISUALIZAÇÃO DOS DADOS ORIGINAIS .......................................................................................... 76
5.2 VISUALIZAÇÃO DOS RESULTADOS DO ALGORITMO DE AGRUPAMENTO............................... 80
5.3 CONSIDERAÇÕE FINAIS ........................................................................................................................ 86
6 CONCLUSÃO E TRABALHOS FUTUROS ................................................................................................ 88
REFERÊNCIAS .................................................................................................................................................. 91
APÊNDICE A - ALGORITMOS DE AGRUPAMENTO................................................................................ 95
A.1 - ALGORITMO K-MÉDIAS EM PORTUGOL......................................................................................... 95
A.2 - FUNÇÃO DO ALGORITMO DE AGRUPAMENTO K-MÉDIA NA LINGUAGEM R........................ 96
APÊNDICE B - VISUALIZAÇÃO DE INFORMAÇÃO UTILIZANDO LINGUAGEM R........................ 98
B.1 - MATRIZ DE DISPERSÃO...................................................................................................................... 98
B.2 - DISPERSÃO DE DADOS TRIDIMENSIONAL (SCATTER PLOT 3D) ............................................... 99
B.3 - COORDENADAS PARALELAS.......................................................................................................... 101
B.4 - FACES DE CHERNOFF........................................................................................................................ 102
B.5 - STAR PLOT........................................................................................................................................... 103
16
1 INTRODUÇÃO
Diante de um cenário com gigantesco acúmulo de informações, surge a necessidade de
ferramentas computacionais apropriadas para gerenciar e analisar tais informações. No mundo
atual vem crescendo a participação dos computadores na sociedade em vários ramos de
atividades como econômica, científica, saúde e social. Existem computadores prontos para
armazenar o que foi efetuado, calculado, medido e decidido. No entanto, muitas decisões são
tomadas sem que haja conhecimento suficiente baseado em informações provenientes dos
dados acumulados em bases de dados de sistemas transacionais.
Para atender este contexto, surge uma nova área denominada Descoberta de Conhecimento
em Banco de Dados (Knowledge Discovery in Databases – KDD), que é uma área da ciência
da computação. A descoberta de conhecimento é caracterizada como um processo complexo
que tem por objetivo extrair conhecimento em grandes volumes de dado e é composto por três
etapas principais: pré-processamento, mineração de dados e pós-processamento.
A etapa de pré-processamento tem como objetivo a preparação dos dados para a aplicação de
técnicas de mineração de dados (MD). A etapa de mineração de dados realiza a busca efetiva
por conhecimentos úteis para suporte à tomada de decisão. A etapa de pós-processamento
abrange o tratamento e o entendimento dos conhecimentos obtidos na MD. Tal tratamento
tem como objetivo viabilizar a avaliação da utilidade do conhecimento descoberto
(FAYYAD; PIATESTKY; SHAPIRO, 1996a).
Para facilitar o entendimento dos resultados da MD, é necessário o uso de técnicas de
visualização de informação, que tem como objetivo possibilitar a introspecção de um conjunto
de dados, fornecendo uma representação visual, evidenciando possíveis fatos dentro do
contexto de investigação (RODRIGUES, 2003). É importante considerar no processo de
visualização, a escolha de qual técnica deve ser empregada em determinada aplicação ou
situação.
O estudo de técnicas de visualização de informação em sistemas de KDD envolve as
seguintes áreas: Computação Gráfica, Interface Humano-Computador, Banco de dados e MD.
17
As técnicas de visualização de informação têm por objetivo representar graficamente um
determinado domínio de aplicação, de forma a explorar com alto desempenho o conhecimento
deste domínio e a capacidade cognitiva do homem, facilitando a compreensão e a
interpretação das informações apresentadas, na busca de novos conhecimentos.
Atualmente, existe certa dificuldade no entendimento e uso do conhecimento descoberto com
a aplicação de técnicas de mineração de dados. Esta dificuldade pode estar relacionada à
inexistência de critérios de integração de técnicas visualização de informação com técnicas de
mineração de dados.
A utilização mal empregada de técnicas de visualização em qualquer etapa do processo KDD
pode gerar resultados insuficientes ou até mesmo incorretos, provenientes de erros de
representação gráfica. Na tentativa de sanar este tipo de problema, nesta pesquisa foi realizada
a avaliação de técnicas de visualização de informação na representação de resultados obtidos
com a aplicação de técnicas de agrupamento.
1.1 OBJETIVOS
O objetivo geral é avaliar técnicas de visualização de informação para proporcionar, aos
desenvolvedores e utilizadores de sistemas de KDD, meios eficazes para a escolha de técnicas
adequadas na representação dos conhecimentos obtidos. Para atingir este objetivo,
inicialmente foram identificadas características que influenciam na representação de
informações.
Os objetivos específicos são:
•
Apresentar os elementos teóricos relacionados às técnicas de mineração de dados e
técnicas de visualização de informação;
•
Selecionar características de técnicas de visualização capazes de conduzir à escolha
daquela mais adequada na representação de resultados obtidos na aplicação de técnicas
de agrupamento;
•
Avaliar técnicas de visualização por meio das características selecionadas;
•
Apresentar os resultados obtidos na MD utilizando técnicas de visualização, segundo
as características selecionadas.
18
1.2 JUSTIFICATIVA
A busca de conhecimento em banco de dados abrange várias áreas de pesquisa, tais como:
sistemas de informação, banco de dados, mineração de dados e visualização de informação.
A mineração de dados, que é uma das etapas do processo KDD, utiliza vastos repositórios de
dados (data warehouse - DW) para tentar descobrir se há algum conhecimento escondido
entre os dados. Neste contexto, a área de visualização de informação, aliada à mineração de
dados, apresenta-se como um campo de estudo de grande utilidade. Esta agregação é
referenciada na literatura como mineração visual de dados (MVD), apresentada na Seção
2.4.1.
A área de visualização de informação é um campo emergente de pesquisa que se preocupa
com a representação de informações através de imagens gráficas, que possam ser
reconhecidas e facilitem o entendimento pelos seres humanos.
O emprego da visualização apropriada pode ajudar na capacidade de descoberta de padrões,
relacionamento de dados ou até mesmo resultados gerados por algoritmos utilizando técnicas
de mineração de dados. Porém, um mau emprego de técnicas de visualização pode
comprometer o trabalho de descoberta de conhecimento.
A avaliação realizada neste trabalho busca fornecer subsídios aos usuários e analistas de
sistemas KDD na escolha da visualização mais adequada. A sugestão sobre qual técnica de
visualização de informação utilizar na descoberta de padrões, relacionamento de dados e
interpretação dos resultados gerados por algoritmos de mineração de dados, pode evitar erros
na análise desses resultados.
1.3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA
Esta pesquisa pode ser classificada como aplicada com procedimentos técnicos experimentais.
Menezes e Silva (2001, p. 20) classificam a pesquisa de natureza aplicada da seguinte forma:
“objetiva gerar conhecimento para aplicar práticas dirigidas à solução de problemas
específicos”. Do ponto de vista de procedimento técnico experimental: “determina-se um
19
objeto de estudo, selecionam-se as variáveis capazes de influenciá-lo, definem-se as formas
de controle e de observação dos efeitos que a variável produz no objeto”.
A metodologia adotada neste trabalho é fundamentada no estudo de diversas tecnologias, as
principais são: descoberta de conhecimento em banco de dados (Knowledge Discovery in
Database – KDD), mineração de dados (Data Mining - MD), técnicas de visualização de
informação e linguagem R.
1.3.1 Processo de Desenvolvimento da Pesquisa
As principais etapas de pesquisa desta dissertação foram: revisão da literatura versando sobre
KDD, MD, algoritmos de MD, técnicas visualização; definição das características das
técnicas de visualização, avaliação das técnicas de visualização utilizando as características
levantadas, aplicação da técnica de visualização em conjunto com mineração de dados e
resultados alcançados.
A Figura 1.1 representa as etapas do processo de desenvolvimento da pesquisa. Nesta Figura,
à esquerda estão relacionados às principais etapas da pesquisa e à direita os elementos
envolvidos em cada etapa. Através destas etapas foi possível criar um ambiente de avaliação.
1) Revisão da Literatura
A revisão da literatura englobou conceitos e características do processo KDD, mineração de
dados, técnicas de visualização (projeções geométricas e iconográficas) e técnicas de
interação.
2) Estudo e Seleção de Algoritmo de MD
Nesta etapa foram estudados alguns algoritmos de agrupamento (K-médias, Kmedoid, entre
outros) e selecionado o algoritmo K-médias, que é um algoritmo amplamente utilizado na
implementação da tarefa de agrupamento.
20
Revisão da
literatura
KDD, MD, Técnica de
visualização, Interação na
visualização.
Estudo e seleção
de Algoritmo de
MD
Selecionar o algoritmo de
agrupamento.
(K-Médias, K-medoid
Agnes, DBscan)
Identificação das
características
Identificar características
comuns a todas as técnicas de
visualização de informação
Estudo da
ferramenta
Avaliação das
técnicas de
visualização
Uso de técnicas de
visualização na MD
Linguagem R
Avaliação das técnicas de
visualização por meio das
características comuns.
Mostrar o uso de técnicas de
visualização de informação para
representar resultados de mineração de
dados
Figura 1.1: Processo de Desenvolvimento da Pesquisa.
3) Identificação das características.
Esta etapa visou a identificação de características relevantes das técnicas de visualização de
informação, tendo como base as vantagens, desvantagens e limitações de sua utilização. Após
essa identificação, foi realizado um filtro para selecionar somente as características comuns a
todas as técnicas, sendo descartadas aquelas de caráter particular (característica referente
somente a uma visualização).
4) Estudo de ferramentas
Nesta etapa foram feitas pesquisas sobre ferramentas para manipulação de dados, que
executem algoritmos de MD e projetem técnicas de visualização.
21
5) Avaliação das técnicas de visualização na MD
A avaliação é a verificação da eficiência na capacidade de exibir informações realmente
relevantes que facilitem a análise, interpretação e compreensão do conjunto de informações.
Nesta etapa foram utilizadas as características propostas neste trabalho, selecionadas bases de
dados e avaliadas as técnicas por meio de sua implementação na Linguagem R.
6) Uso de técnicas de visualização.
Esta etapa consistiu nos seguintes passos:
•
Selecionar uma base de dados real;
•
Projetar a base de dados utilizando visualização de informação e elaborar
algumas interpretações;
•
Aplicar o algoritmo de MD em bases de dados;
•
Apresentar o resultado do algoritmo de MD em algumas visualizações de
informação, identificar padrões e interpretar os resultados;
Para realização desses passos, foi utilizada a linguagem R e o resultado obtido na etapa
anterior.
1.4 ORGANIZAÇÃO DO TRABALHO
Além deste capítulo que apresenta a introdução, objetivos, justificativa e metodologia de
desenvolvimento da pesquisa, este trabalho é dividido em mais cinco capítulos:
No segundo capítulo é apresentada a fundamentação teórica dos conceitos relativos ao
processo KDD, à mineração de dados, às técnicas de visualização de informação e à
ferramenta utilizada.
No terceiro capítulo são descritos os parâmetros gerais (fator humano e domínio de dados),
necessários na realização do processo KDD.
22
No quarto capítulo é descrita a avaliação realizada sobre as técnicas de visualização de
informação.
No quinto capítulo é mostrado o uso de técnicas de visualização de informação na análise de
dados e dos resultados obtidos na aplicação do algoritmo K-médias, conforme as
características avaliadas e descritas no capítulo anterior.
No sexto capítulo são apresentadas a conclusões e sugestões para trabalhos futuros.
23
2 FUNDAMENTAÇÃO TÉORICA
2.1 INTRODUÇÃO
Neste capítulo são apresentados os principais conceitos teóricos necessários para o
desenvolvimento deste trabalho, que são: processo KDD; mineração de dados; métodos de
agrupamento e algoritmo K-médias; técnicas de visualização de informação e a linguagem R
que foi a ferramenta utilizada neste trabalho.
2.2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)
O termo KDD foi formalizado em 1989 para atender os processos referentes à busca de
conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em
1996 por um grupo de pesquisadores (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 30):
“KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para
identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a
partir de grandes conjuntos de dados.”
O termo Interativo indica a atuação do Homem para a realização dos processos, sendo ele o
responsável por utilizar as ferramentas computacionais para análise e interpretação dos dados.
Para obter um resultado satisfatório, é necessário muitas vezes repetir o processo de forma
integral ou parcial, ou seja, o processo é iterativo.
A descoberta de conhecimento em base de dados é o processo de extração de conhecimento
através de manipulação de dados. Feldens (1998 apud DIAS, 2001) define as seguintes etapas
para KDD:
•
Pré-processamento: Atividades que visam gerar uma representação conveniente para
os algoritmos de mineração, a partir da base de dados. Inclui a seleção (automática
e/ou manual de atributos relevantes), amostragem, transformações de representação,
etc. Goldschmidt e Passos (2005) afirmam que esta etapa possui fundamental
relevância no processo KKD, e apresenta as seguintes funcionalidades para esta etapa:
seleção de dados, limpeza dos dados, codificação dos dados, normalização dos dados,
construção de novos atributos e correção de prevalência.
24
•
Mineração de dados: Aplicação de algoritmos de mineração aos dados préprocessados, ou seja, busca efetiva por conhecimentos úteis a partir dos dados. Esta
etapa é detalhada na próxima seção.
•
Pós-processamento: Seleção e ordenação das descobertas interessantes, mapeamentos
de representação de conhecimento e geração de relatórios. É nesta etapa que o
especialista em KDD e o especialista no domínio de aplicação avaliam os resultados
obtidos e criam novas alternativas para novas investigações de dados. Goldschmidt e
Passos (2005) apresentam algumas operações para a realização desta etapa, tais como:
simplificação do modelo de conhecimento, transformação do modelo de conhecimento
e organização e apresentação dos resultados.
A Figura 2.1 ilustra um exemplo proposto por Fayyad, Piatestky e Smyth (1996a) que
consiste em cinco passos básicos: Seleção, Pré-Processamento, Transformação, Mineração de
dados e Interpretação.
Figura 2.1: Processo KDD
Fonte: adaptado de (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 29).
Seleção: os dados são escolhidos como um subconjunto de interesse, ou sumarizados em um
subconjunto de amostragem. Os itens mais apropriados, segundo o analista, são escolhidos e
prossegue-se com a descoberta de conhecimento.
Pré-processamento: são utilizadas ferramentas para preparação dos dados visando deixá-los
em um formato mais apropriado para as próximas etapas. Aqui são tratadas distorções,
ausência de dados ou, simplesmente, é realizada uma reorganização das informações.
25
Transformação: os dados são processados e disponibilizados em uma forma diferente da
original, mas ainda mantendo suas propriedades. O novo formato busca o melhor
aproveitamento dos dados nas etapas seguintes. Como exemplo, tem-se a discretização de
dados, normalização e redução de dimensionalidade.
Mineração de Dados: é extraído conhecimento com o auxílio de métodos computacionais
capazes de revelar padrões, estruturas, tendências, etc. Diferentes métodos podem ser usados
em função da natureza dos dados e das informações que se desejam alcançar, como
identificação de aglomerados, geração de resumos e classificação.
Interpretação: o resultado da mineração é submetido à apreciação do analista, que pode
julgar necessário refazer o processo, alterando uma ou todas as etapas anteriores. Podem ser
utilizados outros conjuntos de interesse, outras técnicas de pré-processamento/transformação
ou ferramentas de MD adicionais.
De uma forma geral, a complexidade que envolve o processo de KDD, decorre de diversos
fatores que podem ser subdivididos em dois conjuntos (FAYYAD; PIATETSKY; SMYTH,
1996b):
•
Fatores operacionais – dificuldade de integrar diversos algoritmos específicos,
manipulação de grande base de dados e tratamento dos resultados de forma ideal.
•
Fator de controle – considera a complexidade de gerenciar e direcionar o processo
KDD. Exemplos de dificuldades encontradas neste fator: formulação dos objetivos a
serem alcançados, realização do pré-processamento, seleção do algoritmo ideal para
mineração de dados que satisfaça os objetivos, limitações humanas, tais como:
o
capacidade limitada e memorização de resultados, pois a cada momento
surgem diversos resultados diferentes;
o
dificuldade em interpretar resultados;
o
conjugar tais interpretações para tomada de decisão.
Goldschmidt (2003) organiza as atividades realizadas na área KDD em três grandes grupos,
que são:
26
•
Atividades voltadas ao desenvolvimento tecnológico - abrange todas as iniciativas
de concepção e desenvolvimento de recursos de apoio que possam ser utilizados na
busca por novos conhecimentos em grandes bases de dados.
•
Atividades de execução de processos de KDD - refere-se às atividades voltadas à
busca efetiva de conhecimento em bases de dados. As ferramentas produzidas pelas
atividades de desenvolvimento tecnológico são utilizadas na execução de KDD.
•
Atividades envolvendo a aplicação de resultados obtidos em processos de KDD –
uma vez obtidos modelos de conhecimento úteis a partir de grandes bases de dados, as
atividades se voltam à aplicação dos resultados no contexto em que foi realizado o
processo de KDD. Exemplos comuns de aplicação de resultados são as alterações em
estratégias de negócios que tenham como objetivo procurar tirar proveito do
conhecimento obtido. Tais alterações podem variar desde o posicionamento de
produtos nas gôndolas de um mercado até políticas estratégicas corporativas.
2.3 MINERAÇÃO DE DADOS
Conforme já citado a mineração de dados pode ser considerada como uma parte do processo
de KDD. Goldschmidt e Passos (2005) afirmam que este é a principal etapa. Segundo
Shimabukuru (2004), estima-se que a MD represente de 15% a 25% do processo de KDD.
Nessa etapa que compreende a aplicação de algoritmo para extrair e ser capaz de identificar
padrões, estruturas, tendências e revelar novidades que sejam úteis e de interesse do usuário,
vários métodos podem ser usados em função da natureza dos dados e das informações que se
desejam alcançar.
Mineração de dados também pode ser definida como a descoberta de informações úteis a
partir de um conjunto de dados. Para a obtenção dessas informações, é necessária a utilização
de técnicas e tarefas de busca por relacionamentos e padrões existentes entre os dados (DIAS,
2001). Nas próximas seções são descritas resumidamente as principais tarefas e técnicas de
MD.
27
2.3.1 Tarefas de mineração de dados
As tarefas correspondem aos problemas que podem ser tratados pela mineração de dados. As
tarefas mais comuns são:
Classificação: é uma das tarefas mais importantes e populares conhecidas. Ela busca uma
função que permite associar corretamente cada registro (x) (Figura 2.2) de um banco de dados
a um único rótulo categórico de (y) chamado de classe. Exemplo: num levantamento de
regiões com probabilidade de existência de mosquito da dengue. Sendo possível criar classes
de baixa, médio e alto risco de contaminação. Exemplos (DIAS, 2001):
•
Classificar pedidos de crédito.
•
Identificar pedidos de seguros fraudulentos.
•
Identificar a melhor forma de tratamento de um paciente.
X1
X2
X3
X4
•
•
•
Y1
Y2
Y3
Y4
•
•
•
Dados
Classes
Figura 2.2: Associação entre conjunto de dados e classes.
Associação: procuram encontrar associações entre conjunto de valores. Um exemplo clássico
é determinar quais produtos costumam serem colocados juntos em um carrinho de
supermercado. Outra definição, “A tarefa de associação pode ser considerada uma tarefa bem
definida, determinística e relativamente simples, que não envolve predição da mesma forma
que a tarefa de classificação” (FREITAS, 2000 apud DIAS, 2000, p. 10). Exemplo:
determinar quais produtos geralmente são colocados juntos em um carrinho de supermercado.
Regressão: esta tarefa é similar à tarefa de classificação. Fundamentalmente ela busca por
funções que mapeiem os registros de um banco de dados. Exemplos (DIAS, 2001):
28
•
estimativa da probabilidade de um paciente sobreviver, dado o resultado de um
conjunto de diagnóstico de exames;
•
definição do limite do cartão de crédito para cada cliente em um banco;
•
estimativa do número de filhos ou a renda total de uma família;
•
previsão da demanda de um consumidor para um novo produto.
Agrupamento: Usado para particionar os registros de uma base de dados em subconjuntos ou
clusters1. Nesta tarefa, não há classes predefinidas, os registros são agrupados segundo algum
critério de semelhança. Exemplos (DIAS, 2001):
•
agrupar clientes por região do país;
•
agrupar clientes com comportamento de compra similar;
•
agrupar seções de usuários Web para prever comportamento futuro de usuário.
Sumarização: consiste em identificar e apresentar, de forma concisa e compreensível, as
principais características dos dados em um conjunto de dados (DIAS, 2001). Exemplo:
identificar as características dos candidatos de um concurso público: São pessoas com faixa
etária entre X e Y anos, possuem casa própria e nível superior completo. Exemplos:
•
tabular o significado e desvios padrão para todos os itens de dados;
•
derivar regras de síntese.
Após a seleção de qual tarefa utilizar, deve-se também escolher o algoritmo, pois para cada
tarefa existem diferentes algoritmos, alguns simples e outros mais sofisticados, como os
algoritmos que utilizam redes neurais.
2.3.2 Técnicas de mineração de dados
As tarefas de mineração de dados são desempenhadas por técnicas de mineração de dados e
diferentes técnicas servem para diferentes propósitos (HARRISON, 1998). A seguir são
descritas de forma sucinta as técnicas de mineração de dados normalmente utilizadas:
Descoberta de Regras de Associação – introduzida por Agrawal, Imielinski e Swamil
(1993), identifica conjuntos de itens que ocorrem simultaneamente e de forma freqüente em
1
cluster é um grupo de entidades que têm características similares e que compartilham certas propriedades.
29
banco de dados, esta técnica estabelece uma correlação estatística entre os itens de dados
(GOEBEL; GRUENWALD, 1999). Existem diversos algoritmos desenvolvidos para
aplicação de descoberta de regras de associação, dentre eles (GOLDSCHMIDT; PASSOS,
2005): Apriori, DHP (Direct Hashing and Pruning, Partiition, DIC ( Dynamic Itemset
Counting), Eclat, Maxclique e Cumalte.
Árvores de Decisão – Técnica que utiliza a recursividade para particionamento da base de
dados na construção de uma árvore de decisão. Cada nó não terminal desta árvore representa
um teste ou decisão sobre o item de dado (GOEBEL;GRUENWALD, 1999). Os algoritmos
que implementam esta técnica são: CART, CHAID, C5.0, Quest, ID-3, SLIQ, SPRINT
(DIAS, 2001).
Raciocínio Baseado em Casos – Procura solucionar problemas fazendo uso direto de
experiências e soluções passadas, a distância dos vizinhos dá uma medida da exatidão dos
resultados (DIAS, 2001). Algoritmos que implementam esta técnica: BIRCH, CLIQUE.
Algoritmos
Genéticos
–
Muito
útil
para
problemas
que
envolve
otimização
(GOLDSCHMIDT; PASSOS, 2005). Procedimento interativo para construção de hipóteses
sobre a depedencia entre as variáveis (GOEBEL; GRUENWALD, 1999). Algoritmos que
implementam esta técnica (DIAS, 2001): Algoritmo Genético Simples, CHC, Algoritmo de
Hillis, GA-Nuggets, GA-PVMINER.
Redes Neurais Artificiais – segue analogia do funcionamento de um cérebro humano
formando neurônios artificiais conectados (GOEBEL; GRUENWALD, 1999). As redes
neurais não supervisionados são os mais adequados para realização tas tarefas de
agrupamento (GOLDSCHMIDT; PASSOS, 2005). Algoritmos desenvolvidos para estas
técnicas: Perceptron, Rede MLP, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede
LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron,
Rede BSB (DIAS, 2001).
Goldschmidt e Passos (2005) apresentam um resumo das tarefas de KDD de acordo com as
técnicas e algoritmos, Tabela 2.1:
30
Tarefas
Métodos de MD
Associação
Basic, Apriori, DHP, Partition, DIC, ASCX-2P
Classificação
Redes neurais: C4.5, Rough sets, algortimo genéticos (Ex: Rule
Evolver), Cart, K-NN, Classificadores Bayesianos.
Regressão
Redes Neurais (Ex: Back Propagation).
Sumarização
C4.5, Algoritmo Genético (Ex: Rule Evolver)
Agrupamento
K-Means, K-Modes, K-Prototypes, Fuzzy K-Means, Algoritmo
Genéticos, Redes Neurais (Ex: Kohonen), Clarans.
Tabela 2.1: Tarefas e Métodos de MD
Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p.116).
2.3.3 Algoritmo de Agrupamento
Técnicas de agrupamento são empregadas para dividir os registros de uma base em
subconjuntos, de tal forma que os registros que compartilham o conjunto tenham
similaridades entre si e sejam distintos dos registros armazenados em outros conjuntos. As
medidas de similaridades são pré-estabelecidas.
Definição formal para agrupamento não fuzzy de acordo com Hruschka e Ebecken (2003),
determina que um conjunto com n registros X = {X1, X2, ..., Xn}, onde Xi ∈ ℜp é um vetor de
dimensão p que pode ser agrupado em k subconjuntos disjuntos C={C1,C2,....,CK}, desde que
as seguintes condições sejam respeitadas:
A união dos subconjuntos forma o conjunto original - C1 ∪ C2 ∪ C3 ... ∪ Ck = X.
Um registro não pode pertencer a mais de um subconjunto - Ci ∩ Cj = {}, ∀ i ≠ j, 1≤ i
≤ k e 1≤ j ≤ k.
Cada subconjunto deve ter ao menos um objeto - Ci ≠ {}, ∀ i, 1≤ i ≤ k.
Um algoritmo ideal que implementa a tarefa de agrupamento deve ser capaz de lidar com os
atributos categóricos, numéricos e ordinais. Quando o algoritmo não atende a estes requisitos
é necessário efetuar uma codificação de dados2.
2
Codificação de dados: operação de pré-processamento responsável pela forma como os dados serão
representados durante o processo KDD (GOLDSCHMIDT; PASSOS ,2005).
31
Para análise de agrupamento existem diferentes critérios que medem a similaridade entre os
registros, porém, para realização deste trabalho foi utilizado o método de agrupamento onde a
distância entre dois registros é expressa pela distância euclidiana na seguinte fórmula:
Sendo,
• d - resultado do cálculo (distância);
• i , j – representam os dois registros selecionados;
• p – número de variáveis (dimensão);
Não é somente o método que calcula a distância entre registros que diferenciam os algoritmos
de agrupamento, eles também podem ser diferenciados de acordo com o método de formação,
tais como: (Partição, Hierárquico, Baseado em modelo, Baseado em Grade e Baseado em
Densidade). Este trabalho trata somente do algoritmo que utiliza o método de partição (Kmédias).
O método de partição permite que os registros em análise sejam movidos de um grupo para
outro grupo em diferentes etapas que ocorrem no processamento do algoritmo, na tentativa de
buscar de forma direta a divisão aproximadamente ótima dos registros.
De acordo com Goldschmidt e Passos (2005), o algoritmo mais popular para realização da
tarefa de agrupamento é o K-médias proposto em 1967 por J. MacQueen (DINIZ; LOUZADA
NETO, 2000 apud PRASS 2004, p. 38) que utiliza o método de partição. Este Algoritmo
possui diversas variações, tais como: K-modes, K-Prototypes e Kmedoids. Em geral estas
variações diferem no cálculo da similaridade entre os grupos encontrados e o elemento ou na
estratégia para calcular a média dos grupos.
O algoritmo K-médias faz uso de dados numéricos, selecionando k elementos para formação
inicial dos centróides (elementos centrais) do grupo. Esta seleção pode ser realizada das
seguintes formas:
•
Selecionando randomicamente k elementos.
•
Selecionando os k primeiros elementos.
•
Selecionar k elementos de tal forma que seus valores sejam bem diferentes.
32
Após a seleção dos centróides, é calculada a distância de cada elemento (registro da base) em
relação aos centróides, sendo considerada a menor distância encontrada para efetuar o
agrupamento. O processo termina somente quando todos os elementos estejam agrupados. A
Figura 2.3 apresenta um resumo do funcionamento do algoritmo K-médias:
Escolher
k-centróides
Calcular distância
dos grupos
Selecionar a
menor distância
Atribuir objeto ao
grupos
Atualizar
grupos
Sim
Houve mudança
na configuração
dos grupos ?
Não
Apresentar grupos
Figura 2.3: Algoritmo K-médias
Fonte: Goldschmidt e Passos (2005, p. 104)
A Figura 2.4 mostra um exemplo da execução do algoritmo de agrupamento K-médias,
formando dois grupos, com os seguintes elementos: (4,7,8,2,5,3,9). Para definição dos
centróides, podem ser utilizados os critérios citados acima, porém neste exemplo foram
selecionados os dois primeiros elementos e, posteriormente, utilizou-se a média para a
formação dos novos centróides.
33
b)
a)
c)
{8,2,5,3,9}
grupo 1 (4)
grupo2 (7)
{2,3,4,9}
grupo 1 (4) grupo 2 (7, 8)
{5,3,9}
grupo 1 (4,2) grupo 2 (7,8)
Centróide - 1 (4)
Centróide - 2 (7)
Centróide - 1 (4)
Centróide - 2 (7,5)
Centróide - 1 (3)
Centróide - 2 (7,5)
d)
e)
f)
{3,9}
grupo 1 (4,2,5) grupo 2 (7,8)
{9}
grupo1(4,2,5,3) grupo2(7,8)
{}
grupo1(4,2,5,3)grupo2(7,8,9)
Centróide - 1 (3,6)
Centróide - 2 (7,5)
Centróide - 1 (3,5)
Centróide - 2 (7,5)
Centróide - 1 (3,5)
Centróide - 2 (8)
Figura 2.4: Passos de execução do algoritmo k-média.
Descrição dos passos da execução do algoritmo K-médias da Figura 2.4:
•
Os dois primeiros elementos do conjunto formaram dois grupos e foram utilizados
como centróides.
•
O próximo elemento é selecionado e verifica-se qual centróide tem o valor mais
próximo ao seu valor, o elemento é adicionado ao grupo e é calculado o novo valor
para o centróide, assim por diante.
•
Esgotados os elementos, termina-se o processo.
•
Resultado: grupo 1 com os seguintes elementos (4,2,5,3) – grupo 2 com os seguintes
elementos (7,8,9).
Este algoritmo apresenta atributos confiáveis, porém foram identificados os seguintes
problemas:
•
Não consegue determinar se há realmente apenas k grupos distintos (PINHEIRO,
2006) (este problema é comum a todos algoritmos de agrupamento).
•
O fato do usuário ter que especificar o número de grupos é visto como uma
desvantagem,
sendo
necessária
a
realização
de
diversos
experimentos
(GOLDSCHMIDT; PASSOS, 2005).
•
É sensível a ruídos (outliers), já que pequena quantidade de dados inconsistentes ou
diferentes, em relação ao conjunto de dados formado, pode influenciar
substancialmente na formação dos grupos (CARLANTONIO, 2001).
34
•
Não é adequado para descobrir grupos com tamanhos muitos diferentes
(CARLANTONIO, 2001).
•
Exige que os dados sejam do tipo numérico ou binário (HUANG, 1997).
2.4 VISUALIZAÇÃO DE INFORMAÇÃO
No mundo contemporâneo, a facilidade de coletar e armazenar informações se tornou uma
tarefa de certo modo “trivial”, mas quando se trata de extrair conhecimentos em grandes bases
de dados esta tarefa torna-se complexa. Desta forma muitos pesquisadores têm se motivado a
descobrir recursos, métodos e técnicas para facilitar a descoberta de conhecimento e, também,
o entendimento desses conhecimentos.
As técnicas de visualização de informação podem ser usadas para facilitar esse entendimento.
Elas baseiam-se na capacidade humana de percepção e cognição. A interação do ser humano
faz parte do processo que envolve visualização de informação. O sistema de percepção
humano analisa eventos complexos com rapidez, reconhece automaticamente propriedades
não usuais e, ao mesmo tempo, desconsidera propriedades sem interesse.
Combinando aspectos de computação gráfica, interação humano-computador (IHC) e
mineração de dados, é possível criar um modelo de visualização de informação em modo
gráfico para que o usuário, utilizando sua visão, consiga interpretar as informações de forma
rápida. Não tendo o mesmo efeito se fosse apresentado no formato original (tabelas). Na
literatura foram encontrados dois ramos que tratam as visualizações de informação:
visualização de dados científicos e visualização de informação (RODRIGUES, 2003). A
Tabela 2.2 ilustra as diferenças entre os parâmetros das técnicas de visualização de
informação e cientifica.
Visualização cientifica
Usuário
Tarefa
Entrada
Volume
Especializado,
Profundo entendimento
Dados físicos, medidas,
Pequeno a volumoso
altamente técnico
dos fenômenos
resultados de simulação
científicos
Visualização de
Usuário comum,
Busca, descoberta de
Relações, dados não-
informação
especializado e
relações
físicos, informação
Pequeno a volumoso
altamente técnico
Tabela 2.2: Visualização de informação comparada à visualização científica.
Fonte: adaptado de (GERSHON E EICK, 1997, p.29)
35
Visualização de dados científicos que provem de dados que correspondem a medidas
associadas a objetos físicos, fenômenos ou posição num domínio espacial. Um exemplo desta
visualização poderia ser um fluxo de ar sobre as asas de um avião, tendo informações no
formato de vetores 3D amostrado periodicamente em um experimento aeronáutico, sendo este
fenômeno representado através de flechas que indicam a direção do fluxo de ar posicionado
em relação às asas do avião.
Visualização de informações procura representar graficamente dados de um determinado
domínio de aplicação. Exemplo deste tipo é uma base de dados de pacientes de um hospital,
com nome, sexo e número de internações e consultas, data de nascimento e naturalidade.
Estes dados são considerados abstratos e necessita de um mapeamento para representação
gráfica, assim poderá ser revelada informação interessante para um determinado propósito. A
Figura 2.5 demonstra um processo automatizado de visualização de informação.
Figura 2.5: Adaptação do processo simplificado de visualização de informações auxiliada por computador.
Fonte: Nascimento e Ferreira (2005, p. 1268).
Embora a visualização de dados científicos seja uma área muito interessante, o foco desta
proposta está na realização de visualização de informações de dados abstratos. Entretanto,
Rhyne (2003 apud SHIMABUKURU, 2004, p.12) questionam a necessidade de diferenciação
entre visualização científica e de informação em virtude do uso intercambiado das técnicas de
visualização, particularmente em domínios emergentes, como visualização geográfica e
visualização em bioinformática.
A Figura 2.6 exibe graficamente um modelo de referência para desenvolvimento de sistemas
de visualização de informação. A direção das setas da esquerda para direita representa a
transformação dos dados brutos em transformações visuais para interpretação humana. As
36
setas da direita para esquerda representam a modificação de cada etapa das transformações e
do mapeamento visual realizado pelo ser humano.
Figura 2.6: Modelo de referência para visualização
Fonte: Adaptado (CARD; MACKINLAY, 1999, p.232).
2.4.1 Mineração Visual de Dados
A integração de técnicas de mineração de dados e visualização de informação é referenciada
na literatura como mineração visual de dados (Visual Data Mining - VDM), ocorrendo um
balanceamento entre o processo automático e o interativo (WONG, 1999; KEIM, 2002;
SHIMABUKURU, 2004). A Mineração Visual de Dados aproxima o usuário e o processo de
descoberta de conhecimento em termos de técnicas de visualização eficientes, capacidade de
interação e transferência de conhecimento.
A visualização de informação não é capaz de substituir as técnicas convencionais de MD, mas
existem possibilidades únicas que não podem ser desprezadas, ou seja, as duas técnicas unidas
podem potencializar enormemente a exploração de informação, observando que a utilização
intercalada pode causar penalidades relativas às deficiências e limitações de cada uma
(WONG, 1999). O mesmo autor define duas formas de integração das técnicas de
visualização, que são:
•
Acoplamento forte, onde a visualização e o processo analítico são integrados em uma
única ferramenta, aproveitando os pontos fortes de cada uma das áreas.
•
Acoplamento fraco, onde as áreas são simplesmente intercaladas, possibilitando um
aproveitamento parcial do potencial de cada uma delas no uso em conjunto.
De acordo com Han e Kamber (2000 apud BARIONI, 2002, p. 22), a visualização e
mineração de dados são processos que podem ser integrados das seguintes formas:
37
•
Dados armazenados em banco de dados podem ser visualizados sob diferentes níveis
de abstração, podendo ser utilizadas diferentes combinações de atributos. As formas
visuais utilizadas podem ser cubos 3D, curvas, superfícies, grafos ligados e outras.
•
Os resultados da mineração de dados podem ser visualizados por meio de formas
visuais.
•
Visualizar as etapas do KDD de forma que o usuário possa acompanhar o processo
desde a extração dos dados até a apresentação do resultado.
•
Mineração de dados visual (VDM – Visual Data Mining): Ferramentas de visualização
de informação podem ser utilizadas tanto para extrair conhecimentos quanto para a
análise dos resultados obtidos com a aplicação de alguma técnica de mineração de
dados.
Em casos que envolvem grande volume de dados, o usuário pode selecionar porções da base
de dados de interesse utilizando técnicas de visualização de informação, diminuindo assim a
árdua tarefa exercida no entendimento dos resultados de MD para grande volume de dados.
2.4.2 Técnicas de Visualização de Informação
As técnicas de visualização de informação podem ser utilizadas como mecanismos que
auxiliam a compreensão dos resultados da mineração de dados.
A seguir são descritas as técnicas de visualizações de informação selecionadas. Antes, porém,
são feitos alguns comentários relativos ao conceito de foco/contexto e de técnicas de interação
(RUSSO; GROS; ABEL, 1999; NASCIMENTO; FERREIRA, 2005).
O conceito foco\contexto apresenta uma visão geral dos dados a serem visualizados, mas
destacando uma região de interesse (foco) através de uma ampliação. Exemplos de técnica
que utilizam estes conceitos: Fish-eye e Browser Hiperbólico.
o Fish-eye - consiste numa representação de uma lente que aumenta os objetos
que estão próximos, enquanto mostra os objetos circundantes com menos
detalhes.
o Browser Hiperbólico – utilizado nas técnicas de visualização que representam
árvores, auxiliando a exploração das hierarquias.
38
As técnicas de interação têm o intuito de facilitar o processo de compreensão dos dados,
auxiliando o usuário na exploração e criando outras possibilidades de visualização. A Figura
2.6 apresenta um modelo de visualização de informação que permite a inserção do humano na
transformação dos dados, no mapeamento visual e na transformação das visões.
As técnicas de interação que podem ser utilizadas em técnicas de visualização são as
seguintes:
•
Projeção interativa: redefine as projeções dinâmicas geradas a partir de um conjunto
multidimensional.
•
Filtragem interativa: o usuário filtra a porção de dados mais interessante e efetua
comparações entre as mesmas.
•
Zoom interativo: possibilidade de expandir ou diminuir os elementos de visualização.
•
Distorção interativa: é a deformação dos elementos visuais de maneira que as
propriedades visuais não sejam perdidas.
Concluindo, a visualização de informação, além de transmitir conhecimentos, tem um grande
potencial para receber comandos, tais como, por exemplo: controlar a quantidade de dados na
tela, alterar a representação da visualização e ajustar escalas.
Keim e Kriegel (1996) descrevem técnicas de visualização de informação multidimensional
agrupando-as nas categorias de técnicas geométricas, iconográficas, hierárquicas e orientadas
a pixel. No entanto, neste trabalho foram utilizadas somente as visualizações pertencentes às
técnicas de visualização de informação geométricas e iconográficas, que se demonstrou
adequada para projeção do resultado do algoritmo de agrupamento. Essas técnicas são
descritas a seguir.
a) Técnicas de Projeções Geométricas
As visualizações existentes nessa técnica tentam gerar projeções bidimensional e
tridimensional em base de dados multidimensionais, com intuito de revelar informações de
interesse. Dentre estas técnicas encontram-se: matriz de dispersão, gráfico de dispersão de
dados em três dimensões (Scatter plot 3D) e coordenadas paralelas.
39
Matriz de Dispersão
Esta visualização é a mais antiga, popular e muito utilizada para representação de dados de
alta dimensionalidade em uma representação bidimensional (SHIMABUKURU, 2004;
NASCIMENTO; FERREIRA, 2005).
A matriz de dispersão permite a visualização do relacionamento entre os atributos. Para isto,
esta visualização projeta os atributos aos pares formando células associadas a dois atributos
que são mapeados pelo eixo x (linha horizontal) e eixo y (linha vertical), conforme é ilustrado
na Figura 2.7, que foi gerada com auxílio da linguagem R (ferramenta discutida mais adiante).
Para a projeção da visualização da matriz de dispersão são necessárias n(n-1)/2 células para
representar uma base de dados com “n” atributos.
Figura 2.7: Exemplo de matriz de dispersão - (linguagem R)
40
Gráfico de Dispersão de Dados 3D - (Scatter Plot 3d)
Esta visualização consiste em projetar registros de uma base de dados representados por
pontos num plano e os atributos representados por eixos. sendo a posição dos pontos
dependente dos eixos que formam as dimensões da visualização (KOSARA; SAHLING;
HAUSER, 2004).
Gráfico de dispersão de dados é uma visualização popular e muito conhecida utilizada para
mapear dados multidimensionais utilizando coordenadas (FEKETE; PLAISANT, 2002). Esta
visualização em três dimensões projeta, num espaço tridimensional, o relacionamento de três
atributos da base de dados, representado pelas coordenadas X, Y e Z, conforme ilustrado na
Figura 2.8. Um dos intuitos desta visualização é revelar os dados de maneira experimental a
fim de determinar os pontos de concordância (KOSARA; SAHLING; HAUSER, 2004). Este
método gráfico é muito eficiente para determinar se existe uma relação, padrão ou tendência
entre variáveis.
Esta visualização permite a inserção de propriedades visuais (cor, tamanho, forma, orientação
e etc...), aumentando desta forma o número de atributos que podem ser representados.
Figura 2.8: Eixos da visualização de dispersão de dados 3D - os registros são
representados pelas esferas.
41
Coordenadas Paralelas
A visualização de Coordenadas Paralelas, proposta por Inselberg e Dimsdale (1990), consiste
em mapear um espaço n-dimensional em uma estrutura bidimensional que utiliza n eixos
eqüidistantes
denominados
coordenadas
(BENDIX;
KOSARA;
HAUSER,
2005;
NASCIMENTO; FERREIRA, 2005). Os eixos verticais representam as dimensões ou
atributos de dados. Uma linha representa cada item de dado conectado aos eixos com os seus
respectivos valores, permitindo a visão de padrões, conforme ilustrado na Figura 2.9. Os eixos
verticais são padronizados em uma escala que varia do menor ao maior valor do atributo.
Para representar uma base de dados com x atributos, x = (x1 ,x2 ,...,xn ), necessita-se a mesma
quantidade de coordenadas, isto é, a representação de x1 na coordenada 1, x2 na coordenada 2 e
assim por diante até a representação de xn na coordenada n.
Uma vantagem desta visualização de informação é a representação de todos os atributos em
uma mesma visualização, permitindo fazer interpretações visuais entre os atributos, exemplo:
a visualização da Figura 2.9 permite observar que a maioria das pessoas relacionadas tem
aproximadamente 30 anos, sendo a maior parte delas do sexo feminino, residentes na zona 7 e
que obtiveram notas próximas a 10,0.
Ana Maria
Acima
João
60
Ricardo
50
Paula
M
40
Kátia
F
Zona 5
10,
Centro
7,5
Aeroporto
5,0
30
Carla
Flavia
2,5
Zona 7
20
Nome
Idade
0
Sexo
Bairro
Nota
Figura 2.9: Exemplo de Coordenadas Paralelas com dados fictícios.
42
b) Técnicas Iconográficas
Estas técnicas trabalham com objetos geométricos com aparência paramétrica que podem ser
mapeados a atributos de uma base de dados (ESTIVALET; FREITAS, 2000). A idéia é
mostrar as características essenciais de um domínio de dados, por meio de ícones.
Elas também são utilizadas para representações multidimensionais e podem ser compostas por
atributos geométricos (forma, tamanho e orientação) e atributos de aparência (cor e textura),
que podem ser associados aos itens de dados em análise.
Algumas das visualizações classificadas como técnicas iconográficas são: Faces de Chernoff,
Star Glyphs e Figura de Arestas (Stick Figure).
Faces de Chernoff
Um dos primeiros trabalhos utilizando uma técnica baseada em ícones foi realizado por
Chernoff (1973). Este autor observou que o ser humano tem sensibilidade a uma grande
variedade de expressões faciais. Assim, ele sugeriu que ícones pudessem ser representados
por faces, associando suas propriedades (tais como as formas da boca, cabelo e olhos) com
atributo de dados. Este tipo de visualização é denominado Faces de Chernoff.
A Figura 2.10 mostra um exemplo de representação de Faces de Chernoff, que representam
uma base de dados contendo notas dos alunos de uma escola. São exemplos do mapeamento
de propriedades do ícone com os atributos da base de dados:
•
cores das faces associadas ao sexo (azul-masculino ou rosa-feminino);
•
a curva da boca representando a situação (aprovado e reprovado);
•
a quantidade de cabelos representando o valor das notas.
Figura 2.10: Exemplo de Faces de Chernoff
Fonte: adaptado de (NASCIMENTO; FERREIRA , 2005, p. 1268).
43
Star Glyphs
Star Glyphs é uma visualização que combina coordenadas paralelas com ícones (LEE;
REILLY; BUTAVICIUS, 2003). Esta visualização consiste na representação de p ≥ 2
atributos projetados em duas dimensões. Um círculo é construído para servir como referência
e do seu centro são projetadas linhas que representam os p atributos que emanam como raios
formando uma estrela, como é ilustrado na Figura 2.11. Para uma melhor observação, os raios
são conectados com uma linha. O tamanho do raio representa o valor do atributo.
(JOHNSON; WICHNER, 1982; NASCIMENTO; FERREIRA, 2005).
Figura 2.11: Exemplo de um ícone da visualização Star Glyphs.
A Figura 2.12 ilustra a visualização “Star Glyphs” representando a quantidade de atividades
acadêmicas de um grupo de professores. Cada estrela representa um professor, sendo os raios
as diferentes atividades acadêmicas que ele realiza. A extensão do raio ilustra a quantidade da
atividade. Por meio desta visualização é possível verificar quais professores têm um maior ou
menor destaque, ou seja, realizam maior número ou menor número de atividades.
Figura 2.12: Exemplo da visualização de dados utilizando Star Glyphs.
Fonte: Nascimento e Ferreira (2005, p. 1301).
44
Figura de Arestas (Stick Figure)
Consiste em segmentos de linhas denominados ramos que possuem três parâmetros: ângulo,
intensidade e comprimento. Estes parâmetros podem ser utilizados para representar os
atributos de dados. As ligações dos ramos formam um ícone. A Figura 2.13 ilustra um
exemplo de ícone da visualização Figura de Arestas.
Figura 2.13: Exemplo de um ícone da visualização figura de arestas.
2.5 LINGUAGEM R
Foi necessário pesquisar ferramentas para auxiliar na avaliação das técnicas de visualização,
considerando a capacidade de exibir informações que facilitem a análise, interpretação e
compreensão de um conjunto de informações.
Durante o desenvolvimento da pesquisa, verificou-se que as ferramentas avaliadas eram muito
específicas para resolução de determinados problemas e que para cada avaliação necessitaria
usar uma nova ferramenta ou tentar adaptar uma já conhecida, tornando o trabalho
dispendioso. Outra questão levada em consideração na escolha da ferramenta de visualização
foi o fato das informações serem resultados da aplicação de algoritmos de mineração de
dados. Seguindo este raciocínio, a Linguagem R foi escolhida por fornecer tanto funções que
implementam algoritmos de mineração de dados quanto a possibilidade de geração de
visualizações.
R é uma linguagem de programação especializada em computação com dados e ao mesmo
tempo um ambiente para cálculos estatísticos e gerador de gráficos. Trata-se de uma
45
linguagem gratuita sob os termos da Licença Pública Geral GNU 3, criada por Ross Ihaka e
Robert Gentleman na universidade de Auckland em Nova Zelândia e atualmente mantida pela
comunidade de desenvolvedores espalhada pelo mundo (THE R, 2007).
A linguagem R, como qualquer outra linguagem de programação, permite a criação de novas
funcionalidades utilizando a linguagem C. Isto é, tem seu código fonte aberto que pode ser
estendido para outras linguagens de programação (Python, Perl e Java). Além disso, é
possível inserir funcionalidades da linguagem R em programas escritos em outras linguagens,
fazendo com que diferentes linguagens possam utilizar o seu poder estatístico e de geração de
gráficos.
A instalação da linguagem R fornece um conjunto de pacotes (julgados pela sua importância
ou de uso comum) que são carregados quando a sua execução. Esses pacotes contêm as
funcionalidades que foram desenvolvidas e disponibilizadas para a comunidade, porém, para
realização deste trabalho foi necessária a utilização de outros pacotes que não estão presentes
na instalação da linguagem.
Geralmente, os algoritmos de mineração de dados geram resultados que necessitam de
interpretação. Para que esses resultados sejam projetados, é necessário adaptá-los aos
formatos dos parâmetros de entrada da funcionalidade de geração de visualização.
A linguagem R contém diversos pacotes, dentre eles: manipulação de dados, algoritmo de MD
e técnicas de visualização. Apesar de não existirem ligações entre as funções existentes nos
pacotes (por este motivo, a necessidade de adaptação para realizar a comunicação entre as
funções), todo o trabalho é realizado num mesmo ambiente. O termo “ambiente” refere-se à
categorização de R como um sistema planejado e coerente, em vez de uma aglomeração de
ferramentas específicas.
2.6 CONSIDERAÇÕES FINAIS
Analisando os diferentes objetivos dos algoritmos para executar as tarefas de mineração de
dados, pode-se concluir que seus resultados podem colaborar em diversos domínios de
3
A GNU (Licença Pública Geral) - Garante a liberdade de compartilhamento e alteração de software de livre
distribuição.
46
aplicação. No entanto, o uso desses algoritmos ainda requer mais aperfeiçoamento, pois
muitas vezes o usuário necessita repetir o mesmo processo com parâmetros diferentes que não
podem ser alterados no meio da execução. Isto pode ocorrer por falta ou uso inadequado de
ferramentas de visualização de informação. O uso adequado de técnicas de visualização de
informação pode diminuir esta quantidade de ciclos de tentativas e erros.
O entendimento dos processos KDD (conceitos básicos e técnicas) fornece subsídio para
identificação das etapas nas quais é possível inserir técnicas de visualização de informação,
por exemplo: selecionar uma visualização adequada à etapa de pré-processamento com o
objetivo de facilitar a eliminação de redundância, correção de erros e verificação de valores
ausentes.
Neste capítulo foram apresentados conceitos referentes às áreas de descoberta de
conhecimento em banco de dados e mineração de dados e algumas visualizações de
informação, classificadas como técnicas de projeção geométricas e técnicas iconográficas,
utilizadas na avaliação proposta neste trabalho. Além disso, foi descrita sucintamente a
Linguagem R que propiciou esta avaliação.
47
3 ANÁLISE DE PARÂMETROS GERAIS PARA KDD
3.1 INTRODUÇÃO
De acordo com Fayyad, Piatestky e Smyth (1996a), para cada etapa do processo KDD (préprocessamento, mineração de dados e pós-processamento), existem várias opções que podem
ser selecionadas. Essas opções estão relacionadas a fator humano, domínio de aplicação e
domínio de dados. Assim, neste capítulo é apresentada uma discussão sobre estes fatores.
3.2 FATOR HUMANO E DOMÍNIO DE APLICAÇÃO
A presença humana na escolha e combinação das opções de cada etapa do processo KDD é
essencial devido, principalmente, a sua intuição, experiência anterior e conhecimentos para
analisar, interpretar, direcionar e combinar estratégias a serem realizadas. Fayyad, Piatestky e
Smyth (1996a) e Goldschmidt e Passos (2005) consideram o especialista no domínio de
aplicação como um dos principais componentes necessários para melhor compreensão do
processo KDD.
Goebel e Gruenwald (1999) relacionam fatores humanos necessários a cada etapa do processo
KDD. Eles são classificados como: especialista em mineração de dados, em KDD, no
domínio da aplicação e usuários finais (engenheiros, gerentes, administradores, etc.).
Obviamente a existência de profissionais diferentes nestes estágios exige demandas diferentes
e trazem pré-requisitos diferentes. Geralmente, os usuários finais não têm capacidade de
efetuar uma análise complexa nos dados, mas naturalmente eles têm um grande conhecimento
do domínio da aplicação. De forma geral, é o ser humano que executa a difícil tarefa de
orientar e executar o processo KDD, conforme ilustrado na Figura 3.1.
Goldschmidt e Passos (2005) apresentam o especialista em KDD como pessoa ou grupo de
pessoas experientes para direcionar a execução do processo, que define o que, como e quando
deve ser realizada cada ação. O especialista em KDD interage com o especialista no domínio
de aplicação.
48
Meta
Insight
Consultas
Banco de
dados
Analise e
Visualização
Dados
processados
Apresentação
Saídas
Figura 3.1: Ser humano como elemento central do processo de KDD.
Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p. 22).
Mesmo que o processo KDD seja automatizado, o fator humano é essencial para o sucesso de
sua realização, porque é ele que tem a compreensão do domínio dos dados (natureza, forma e
conteúdo), sendo pré-requisito indispensável na abstração de qualquer conhecimento útil.
Na etapa de pré-processamento, por exemplo, é necessário o conhecimento sobre o domínio
da aplicação e domínio de dados para facilitar a organização, limpeza e seleção do conjunto
de dados.
3.3 DOMÍNIO DE DADOS
Um exemplo sobre a necessidade do conhecimento do domínio de dados é o fato de não ser
possível fazer uma classificação utilizando somente o tipo de dados que foi determinado para
o atributo (integer, float, string, char, boolean e etc), pois é necessário ter o conhecimento do
seu valor. Este é o caso do atributo que representa o estado civil, onde pode não existir um
padrão do tipo de dado que deve ser utilizado, podendo ser representado de várias formas,
conforme a Tabela 3.1 abaixo:
49
Tipo de dados
Atributo
Integer
Char
String
Solteiro
0
‘S’
‘solteiro’
Casado
1
‘C’
‘casado’
Viúvo
2
‘V’
‘viuvo’
Divorciado 3
‘D’
‘divorciado’
Tabela 3.1: Tipo de dados para o atributo estado civil.
O valor do atributo pode ser representado por dois tipos de dados (qualitativo e quantitativo),
encontrados na maioria dos repositórios de dados de um sistema de informação.
Os dados quantitativos são representados por valores numéricos que podem ser de duas
naturezas: discreta ou contínua. Os valores de natureza discreta referem-se às contagens, por
exemplo: número de acidentes com veículos registrados por mês. Os valores de natureza
contínua referem-se às representações em escala, por exemplo: área, volume, peso e
velocidade.
Os dados qualitativos são utilizados para nomear e atribuir rótulos, identificando
característica, qualidade e categoria do atributo, podem ser de natureza nominal ou ordinal.
Não há uma ordenação nos valores de natureza nominal, desta forma só é possível definir uma
relação de igualdade ou diferença, por exemplo: estado civil (casado, divorciado, solteiro,
viúvo). Os valores de natureza ordinal possibilitam ordenar as categorias, por exemplo: nível
de escolaridade, temperatura (frio, morno e quente).
Desta forma, os valores do atributo que representa “estado civil”, apresentando na Tabela 3.1,
podem ser classificados como sendo qualitativos de natureza nominal, pois não possuem uma
ordem entre seus valores.
O tipo de dado também influencia na escolha da técnica de mineração. Dias (2002) apresenta
uma classificação das técnicas de mineração de dados a serem aplicadas de acordo com as
características dos dados existentes, conforme pode ser visto na Tabela 3.2.
50
Característica
Descrição
Técnicas de
Mineração de Dados
Variáveis de
São campos que apresentam valores de
• Descoberta de
categorias
um conjunto de possibilidades limitado e
regras de associação
predeterminado
• Árvores de decisão
Variáveis numéricas São aquelas que podem ser somadas e
• Raciocínio baseado
ordenadas
em casos (MBR)
• Árvores de Decisão
Muitos campos por Este pode ser um fator de decisão da
• Árvores de decisão
registro
técnica correta para uma aplicação
específica, uma vez que os métodos de
mineração de dados variam na
capacidade de processar grandes
números de campos de entrada
Variáveis
Caso em que é desejado prever várias
• Redes neurais
dependentes
variáveis diferentes baseadas nos
múltiplas
mesmos dados de entrada
Registro de
Apresentam dificuldades na maioria das • Descoberta de
comprimento
técnicas de mineração de dados, mas
regras de associação
variável
existem situações em que a
transformação para registros de
comprimento fixo não é desejada
Dados ordenados
Apresentam dificuldades para todas as
• Rede neural
cronologicamente
técnicas e, geralmente, requerem
intervalar (timeaumento dos dados de teste com marcas
delay)
ou avisos, variáveis de diferença etc.
• Descoberta de
regras de associação
Texto sem
A maioria das técnicas de mineração de • Raciocínio baseado
formatação
dados é incapaz de manipular texto sem
em casos (MBR)
formatação
Tabela 3.2: Características de dados.
Fonte: Dias (2002, p. 1718).
3.4 CONSIDERAÇÕES FINAIS
Neste capítulo foi discutida a importância do papel humano para a condução do processo de
descoberta de conhecimento em banco de dados e a necessidade da participação humana ser
especializada, pois influenciam desde a definição dos objetivos da execução do processo até a
avaliação dos resultados.
Conclui-se que não é possível criar qualquer tipo de classificação de técnicas de mineração de
dados e de visualização de informação utilizando somente o tipo de dado definido para um
51
atributo numa base de dados, sendo essencial o conhecimento do domínio de dados antes da
realização de qualquer etapa do processo de descoberta de conhecimento em banco de dados.
52
4 AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO
4.1 INTRODUÇÃO
Neste capítulo é apresentada uma avaliação de técnicas de visualização de informação
baseada nas características gerais definidas neste trabalho e aqui descritas. Essas
características foram identificadas de acordo com a literatura pesquisada e tendo como
enfoque o uso dessas técnicas para visualização de resultados obtidos com a aplicação de
técnicas de mineração de dados.
Nesta avaliação elegeu-se a técnica de avaliação de análise de características, conforme
descrita em Pfleeger (2004), que consiste em relacionar as características importantes de
métodos, processos ou ferramentas e atribuir pontuações de 1 (não satisfaz) até 5 (satisfaz
completamente), neste caso a representação visual de técnicas de visualização de informação.
Esta avaliação possibilitará a melhor escolha sobre quais técnicas de visualização utilizar,
fazendo um estreitamento do leque de opções existentes.
Nas próximas seções, as fontes de dados utilizadas na avaliação são descritas sucintamente e é
apresentada a avaliação realizada utilizando a Linguagem R.
4.2 FONTES DE DADOS
Na avaliação das técnicas de visualização de informação foram utilizadas bases de dados que
fornecem condições específicas para cada característica avaliada, por exemplo:
•
Para avaliar a capacidade das técnicas de visualização de informação em relação à
característica de escalabilidade, é necessário utilizar uma base de grande volume de
dados.
•
Para avaliar a capacidade das técnicas de visualização de informação em relação à
característica de dimensionalidade, torna-se necessário o uso de uma base de dados
com diferentes quantidades de atributos.
As características referentes à escalabilidade, dimensionalidade e outras são descritas nas
próximas seções.
53
A seguir são descritas as bases de dados (encontradas na linguagem R) utilizadas neste
trabalho:
1) USarrests
Esta base contém dados estatísticos sobre as apreensões realizadas a cada 100.000 residentes
dos estados do Estados Unidos da América em 1973, referentes a assalto, assassinato e
violação. Nela é fornecida, também, a porcentagem da população que vive em áreas urbanas.
Os atributos desta base são:
2)
•
Murder – Número de apreensões por assassinato (a cada 100.000 residentes).
•
Assault – Número de apreensões por assalto (a cada 100.000 residentes).
•
UrbanPop – Porcentagem da população urbana.
•
Rape – Número de apreensões por violação (a cada 100.000 residentes).
Mtcars
Esta base contém dados sobre o consumo de combustível e dez aspectos relacionados ao
projeto e ao desempenho de 32 veículos produzidos nos anos de 1973-74. Os atributos desta
base são:
•
Mpg – Consumo.
•
Cyl - Número de cilindros.
•
Disp - Cilindrada.
•
Hp - Número de Cavalos\força.
•
Drat - Relação do eixo traseiro.
•
Wt - V/S.
•
Qsec –Tempo para percorrer ¼ de milha.
•
Am - Tipo de transmissão (0 = automático, 1 = Manual).
•
Gear - Número de engrenagens.
•
Carb -Número de carburadores.
54
3)
Matrizes
Algumas matrizes foram criadas na linguagem R para representar bases de dados de alta
escalabilidade e alta dimensionalidade. Na linguagem R, a criação de uma matriz é realizada a
partir da reorganização de elementos de um vetor em linhas e colunas. Cada elemento da
matriz é representado como a seguir: [(posição da linha na matriz), (posição da coluna na
matriz)]. Os valores dos elementos que compõem a matriz foram determinados aleatoriamente
usando funções da linguagem R.
4.3 AVALIAÇÃO DAS CARACTERÍSTICAS
Dentre as técnicas de visualização pesquisadas, pode-se destacar um grupo de características
comuns a todas, que são:
Escalabilidade - número de registros.
Dimensionalidade – número de atributos.
Tipos de dados – classificação de dados como qualitativos e quantitativos.
Interatividade – possibilidade de inserção de técnicas de interação.
Interpretabilidade – facilidade de extrair informação.
Relacionamento entre atributos.
Correlação – grau de relacionamento entre os atributos.
Por meio destas características foi possível gerar as pontuações atribuídas às visualizações de
informação que compõem este trabalho, a saber: técnicas geométricas e técnicas
iconográficas.
4.3.1 Escalabilidade
Segundo Traina et al. (2002), escalabilidade refere-se tanto à complexidade computacional
sobre o número de registros numa relação, quanto sobre o número de atributos. A quantidade
de registros que podem ser apresentados simultaneamente é uma das limitações nas técnicas
de visualização. Com elevado número de registros, o resultado apresenta-se com considerável
grau de desordem (RUNDENSTEINER et al., 2002).
55
Keim e Kriegel (1996) cita as limitações de algumas técnicas de visualização em relação ao
número de registros num conjunto de dados e afirma que a visualização de coordenadas
paralelas é capaz de representar aproximadamente 1000 registros. Este autor afirma, também,
que as técnicas geométricas rapidamente alcançam os limites do que pode ser considerado
compreensível. Isto ocorre devido ao fato de haver sobreposição dos registros mapeados em
posições iguais ou próximas, apresentando “borrões”, ou seja, regiões totalmente preenchidas.
Shimabukuru (2004) afirma que a visualização de grandes volumes de dados requer a
integração da técnica com operações de interação adequadas, que possibilitem seleção e
filtragem de itens de interesse.
As regiões totalmente preenchidas, “borrões” das coordenadas paralelas, geram visualizações
incompreensíveis. Porém, percebe-se que o uso de cores pode auxiliar na visualização de
padrões. Para demonstrar este fato, matrizes com diferentes quantidades de registros foram
criadas e utilizadas como parâmetros de entrada na execução do algoritmo k-médias. Os
resultados obtidos foram plotados nas técnicas de coordenadas paralelas, onde as linhas
representam os atributos da matriz e as cores representam os agrupamentos, como é possível
constatar nas Figuras 4.1a e 4.1b. As cores se destacam como borrões, possibilitando a
visualização dos padrões de cada agrupamento.
Como é possível verificar nas Figuras 4.1a e 4.1b, o aumento no número de registros de
10.000 para 100.000 gera borrões que demonstram os padrões. Neste exemplo, o algoritmo
gerou três grupos, mas, porém, dependendo do domínio da aplicação e da quantidade de
registros, pode haver necessidade da criação de mais grupos e, conseqüentemente, da
utilização de mais cores.
a)
b)
Figura 4.1: Coordenadas paralelas a) 10.000 registros, b) 100.000 registros.
(linguagem R).
56
Para reafirmar a dificuldade na visualização de grande quantidade de registros com o uso de
técnicas geométricas, as Figuras 4.2a, 4.2b e 4.2c mostram a visualização de dispersão de
dados em projeção tridimensional (scatter plot 3D) de matrizes com tamanhos de 100, 1.000 e
10.000 linhas, respectivamente, e com cinco colunas. Nestas figuras é possível observar que,
conforme o número de registros aumenta, a visualização se torna incompreensível.
a)
b)
c)
)
Figura 4.2: Dispersão de dados tridimensional
a) 100 registros, b) 1.000 registros, c) 10.000 registros - (linguagem R).
As técnicas baseadas em ícones possibilitam a representação de um número pequeno de
registros devido ao tamanho dos elementos gráficos (RODRIGUES, 2003).
Das visualizações classificadas como técnicas iconográficas, avaliadas neste trabalho, as faces
de chernoff é a visualização que tem a maior limitação na questão escalabilidade, pois permite
a representação apenas de uma pequena quantidade de registros, conforme pode ser visto nas
Figuras 4.3a e 4.3b. Na avaliação desta técnica foram utilizadas matrizes de diversos
tamanhos, porém a quantidade máxima que permitiu uma visualização interpretável foi a
matriz de 169X8, representando 169 registros com oito atributos.
57
b)
a)
Figura 4.3: Faces de Chernoff
a) 56 registros b) 169 registros - (linguagem R).
De acordo com Shimabukuru (2004), a visualização figuras de arestas é classificada como
técnica iconográfica possibilita representar grandes volumes de dados. Esta técnica de
visualização utiliza as duas dimensões da tela para mapear dois atributos de dados, com os
demais atributos sendo mapeados para ângulos e/ou comprimentos de segmentos. Na Figura
4.4 é representada a imagem composta de ícones pertencentes a visualização figura de arestas,
gerada a partir de 5 imagens de satélite da região dos Grandes Lagos, na qual diversas texturas
são identificadas.
Figura 4.4: Visualização figuras de aresta (Stick Figure)
Fonte: Gri 2001 (SHIMABUKURO apud 2004, p. 21)
4.3.2 Dimensionalidade
Esta característica está relacionada à capacidade que as técnicas de visualização possuem na
representação de atributos.
58
Keim (2002) cita que geralmente é utilizada nas visualizações de informação uma grande
quantidade de registros e cada qual tem muitos atributos, por exemplo: uma experiência física
pode ser descrita com cinco atributos ou centenas de atributos. O autor chama o termo
atributo de dimensão e classifica os dados como unidimensional, bidimensional,
multidimensional ou podem ser dados complexos como hipertexto ou redes (grafos). Tanto na
área científica quanto na engenharia e ainda no mundo dos negócios, a maioria dos dados é da
forma multidimensional, ou seja, conjuntos de dados que contêm tipicamente mais que três
atributos (PUNTAR, 2003). As técnicas de visualização de informação têm a proposta de
interpretar conjuntos de dados multidimensionais.
Nessa interpretação, deve-se levar em conta a capacidade de percepção humana, ou seja, o
limite conceitual da dimensionalidade que segundo Rodrigues (2003), pode estar entre baixo e
alto. No entanto, não existe um consenso sobre o que pode ser considerado como baixa e alta
dimensionalidade, podendo variar entre 5 e 10 atributos (BEYER et al., 1999; BERCHTOLD
et al. 1998 apud RODRIGUES, 2003, p. 19), estar em torno de 34 atributos (OLIVEIRA;
LEVKOWITZ, 2002 apud RODRIGUES, 2003, p. 19), ou mesmo estar acima de 100
atributos ( BÖHM; KRIEGEL, 2000 apud RODRIGUES, 2003, p. 19).
Utilizando estes limites conceituais como base, foram criadas diversas matrizes com
diferentes colunas (representando os atributos). Após a criação, cada matriz foi plotada nas
técnicas de visualização de informação utilizadas no trabalho.
A literatura revisada é unânime quando se trata das coordenadas paralelas para representação
de dados multidimensionais (KEIM; KRIEGEL, 1996; WEGMAN; LUO, 1996; GERSHON;
EICK, 1997; INSELBERG; DIMSDALE, 1990; RODRIGUES, 2003; SHIMABUKURU,
2004; NASCIMENTO; FERREIRA, 2005). Esta técnica mapeia cada atributo a uma linha
conectando pontos nos eixos.
A Figura 4.5 exibe três visualizações da técnica de coordenadas paralelas, com quantidades
diferentes de atributos (10, 34 e 100 respectivamente) e com a mesma quantidade de registros.
O limite de atributos que as coordenadas paralelas podem suportar está restrito à resolução da
tela do computador. Conforme pode ser observado, o aumento de atributos causa borrões que
dificultam a visualização ou até mesmo o reconhecimento de padrões.
59
a
)
b
)
c
)
Figura 4.5: Cordenadas paralelas: a) 10 atributos. b) 34 atributos. c) 100 atributos.
Todas visualizações representam 100 registros - (linguagem R).
Outra técnica de projeção geométrica de visualização que tem a capacidade de representar alta
dimensionalidade é a matriz de dispersão de dados. Shimabukuru (2004), afirma que
dispersão de dados é a técnica de visualização de informação mais antiga e popular para a
projeção de dados de alta dimensionalidade em uma representação visual bidimensional.
Para a visualização de dispersão de dados tridimensional (scatter plots 3D), Ebert et al. (2000)
sugere a possibilidade da utilização de ícones para representação dos atributos dos dados,
permitindo dessa forma o aumento no número de dimensões que podem ser exploradas nesta
visualização. Utilizando esta sugestão, pode-se considerar que esta visualização tem boa
representação na característica dimensionalidade.
A técnica de visualização iconográfica é outra das mais utilizadas, onde as figuras são usadas
como codificadores geométricos, tirando partido dos seus atributos visualmente perceptíveis
como cor, forma e textura (LEVKOWITZ, 1991 apud RUSSO; GROS; ABEL, 1999, p. 4).
As faces de chernoff, desenvolvida por Chernoff (1973), é classificada como técnica de
visualização iconográfica, também pode ser utilizada para visualizar dados multidimensionais,
partindo da capacidade do ser humano de conseguir distinguir características visuais. Embora
esta técnica seja muito útil em exibir dados multidimensionais, os registros são apresentados
separadamente, uma vez que eles não transmitem qualquer informação sobre os reais valores
com as quais se relacionam. Porém, as faces de chernoff possuem a capacidade de ilustrar
tendências ou parte dos dados que devem ser colocados em evidência (RUSSO; GROS;
ABEL , 1999).
60
A Figura 4.6 ilustra a visualização de faces de chernoff utilizando um matriz de 3 x 15 (três
registros e quinze atributos). Os atributos são representados pelas seguintes características:
altura da face, largura da face, forma da face, altura da boca, largura da boca, curva do sorriso,
altura dos olhos, largura dos olhos, altura do cabelo, largura do cabelo, estilo do cabelo, altura
do nariz, largura do nariz, largura das orelhas e altura das orelhas.
Na revisão bibliográfica realizada não é estabelecido um limite de quantidade de
características que podem ser utilizadas nesta visualização. Johnson e Wichner (1982) sugere
até 18 atributos. Na linguagem R, a função que projeta esta visualização, chamada “faces”,
possibilita a representação máxima de 15 atributos.
Figura 4.6: Faces de chenorff com 15 atributos - (linguagem R).
Outra técnica de visualização iconográfica que trabalha com dados multidimensionais,
semelhante às faces de chernoff, é a visualização star glyphs. Johnson e Wichner (1982)
dizem que esta visualização é útil para padronizar determinadas informações e a utiliza para
determinar similaridade nos agrupamentos. Lee, Reilly e Butavicius (2003) afirmam que as
visualizações “faces de chernoff” e “star glyphs” são pontos multidimensionais que usam
espaço dimensional útil para detectar agrupamento e outliers. A visualização “star glyphs”
permite um maior número de atributos comparado com “faces de chernoff”, conforme pode
ser visto na Figura 4.7, que mostra a possibilidade de representação de até aproximadamente
80 atributos (Figura 4.7c). No entanto, como mostra a Figura 4.7d, com uma grande
quantidade de atributos é possível visualizar somente borrões.
a)
b)
c)
d)
Figura 4.7: Star glyphs - a) 10 atributos, b) 30 atributos, c) 80 atributos, d) 500 atributos.
(linguagem R)
61
Além das técnicas de visualização iconográficas Faces de Chernoff e Star glyphs, existe a
visualização de Figura de arestas (Stick Figure) que, apesar de representar alta escalabilidade,
possui certa limitação referente à dimensionalidade, que é da ordem de aproximadamente uma
dezena (KEIM; KRIEGEL, 1996)
4.3.3 Tipos de dados
Freitas et al. (2001) e Chi e Riedl (1998) consideram a identificação das características
relativas aos tipos de dados como procedimento essencial na seleção de uma técnica de
visualização.
Freitas et al. (2001) classificam a informação em classe de informação, tipos dos valores,
natureza do domínio e dimensão do domínio, conforme pode ser visto no Quadro 4.1.
Quadro 4.1: Classificação da informação
Fonte: Freitas et al. (2001, p. 147).
Entretanto, neste trabalho o enfoque está nos tipos de valores (aqui nomeado como “tipos de
dados”) para avaliação destas características. No entanto, é necessário considerar também a
natureza do domínio na classificação do tipo de dado. Assim, os tipos de dados podem ser
classificados como (DOWNING; CLARK, 2002; SHIMAKURA, 2007):
•
qualitativo nominal – dados alfanuméricos que não possuem ordem (ex.: marca de
carros);
62
•
qualitativo ordinal – dados alfanuméricos que possuem ordem (ex.: frio, morno e
quente);
•
quantitativo discreto – dados numéricos (contínuo ou reais) que se referem a
contagens (ex.: número de acidentes com veículos registrado no mês);
•
quantitativo contínuo – dados numéricos (inteiros ou reais) que se referem a
representações em escala (ex.: área, volume, peso e velocidade).
Na realização da avaliação das técnicas de visualização de informação utilizando a linguagem
R, foi encontrado um problema em relação ao parâmetro de entrada para o tipo de dado
qualitativo, pois a linguagem R não permite este tipo de dado de entrada em algumas
visualizações de informação. Para solucionar este problema, foi realizada a operação de
codificação, apresentada por Goldschmidt e Passos (2005), no qual os valores qualitativos
foram substituídos por valores numéricos.
Das técnicas de visualização de informação avaliadas, todas permitem a representação de
dados quantitativos (discreto e contínuo). No entanto, para dados qualitativos nominais, as
técnicas iconográficas avaliadas não possibilitam boa representação. O uso de cores na
visualização “faces de chernoff” contribui para uma melhor representação em alguns atributos
qualitativos nominais, como é o caso, por exemplo, de sexo (M/F), estado civil
(casado/solteiro/viúvo) e Unidade Federal (PR/SP/MG...).
A inserção de propriedades de visualização pode tornar mais efetiva4 a técnica de visualização
de informação quando avaliada em relação à característica tipos de dados qualitativos.
Mackinlay (1986) propõe uma ordenação de prioridades na utilização das propriedades de
visualização, considerando os mais perceptíveis aos menos perceptíveis em relação aos tipos
de dados quantitativos e qualitativos (ordinais e nominais), conforme pode ser visto na Figura
4.8 e Quadro 4.2.
4
- A efetividade está relacionada à facilidade de se compreender os dados apresentados. Para ser efetiva, uma visualização
deve ser de rápida percepção e induzir a uma quantidade menor de erros de interpretação do que outras formas de se
visualizar os mesmos dados. (NASCIMENTO, 2005).
63
Figura 4.8: Propriedades da visualização.
Fonte: (Mackinlay, 1986, p. 125).
Quadro 4.2: Ranking dos atributos em relação à percepção.
Fonte: (Mackinlay, 1986, p. 125).
4.3.4 Interação
A interação consiste no diálogo entre usuário e a máquina, potencializando assim o poder
elucidativo de uma determinada técnica de visualização, ou seja, a interação dinâmica faz com
que o usuário altere suas visualizações de forma que suas metas possam ser alcançadas (VAZ;
CARVALHO, 2004; RODRIGUES, 2003).
64
A avaliação da característica de interação tem como objetivo verificar a possibilidade do uso
de técnicas de interação nas técnicas de visualização de informação selecionadas.
Na realização desta avaliação não foi possível criar interações utilizando a linguagem R por
não ter sido encontrado um pacote com este objetivo. Entretanto, pode-se concluir que a
técnica de filtragem interativa e zoom interativo se aplicam às visualizações selecionadas
neste trabalho. A técnica de zoom interativo permite comprimir e expandir elementos gráficos
da visualização, demonstrando maior eficácia para as técnicas de visualização iconográficas,
como é apresentado por Nascimento e Ferreira (2005) nos itens relacionados a seguir sobre
possíveis formas de interação usando técnicas de visualização iconográficas e a visualização
de coordenadas paralelas.
Formas de interação em técnicas de visualização iconográficas:
•
Possibilidades de modificação dinâmica entre a associação do componente da
visualização com os atributos de dados.
•
Controle sobre a quantidade de ícones visualizados simultaneamente, alterando o
tamanho do mesmo, por meio de zoom interativo.
•
Os ícones podem ser ordenados conforme a necessidade do usuário.
•
Por meio de um simples clique no ícone é possível ter acesso à informação mais
detalhada sobre o que o ícone representa, com apoio do zoom interativo.
Formas de interação em coordenadas paralelas:
•
Possibilidade de incluir e excluir eixos verticais.
•
Selecionar intervalos de interesse no eixo, destacando os intervalos com cores
mais intensas, este processo simboliza filtragem dos dados e zoom interativo.
•
A possibilidade de selecionar mais do que uma coordenada simultaneamente,
criando um processo de filtragem que realiza operações de união, intersecção ou
complemento entre os registros (representado pelas linhas horizontais).
Wegman e Luo (1996) realizaram um trabalho, ao qual exploraram dados multidimensionais
em projeções bidimensionais, utilizando a visualização de coordenadas paralelas. Os autores
redefiniram dinamicamente as projeções geradas a partir de uma base multidimensional. A
idéia é isolar os agrupamentos ou dados de interesse pintando estes conjuntos na visualização.
65
Portanto, pode-se verificar a possibilidade de interação na visualização de coordenadas
paralelas.
4.3.5 Interpretabilidade
A área de descoberta de conhecimento em base de dados tem como objetivo principal
identificar dados, padrões, modelos potencialmente úteis que sejam, sobretudo, altamente
interpretáveis (FAYYAD; PIATETSKY; SMYTH, 1996a). Sendo assim, a característica de
interpretabilidade foi selecionada com o intuito de verificar a existência ou não de facilidade
na interpretação das informações apresentadas utilizando as técnicas de visualização de
informação selecionadas neste trabalho.
Segundo Nascimento e Ferreira (2005), as técnicas de visualização de informação envolvem o
sentido humano da visão e este tipo de percepção está relacionado a diversas áreas, tais como
psicologia, lingüística e artes visuais, e, ainda, a algumas subáreas da computação, como
visão computacional e interação humano-computador. No entanto, essas áreas não são
consideradas nesta avaliação.
A matriz de dispersão foi a primeira visualização de informação avaliada em relação à
característica de interpretabilidade, por ser esta característica apontada por Shimabukuru
(2004) como sendo uma das vantagens desta visualização.
A Figura 4.9 representa a visualização de matriz de dispersão com sete atributos da base de
dados “mtcars” e com os três grupos gerados pelo algoritmo “K-médias” aplicado sobre esta
base. Os grupos estão representados pela propriedade de visualização cor (vermelho, preto e
verde).
Observando esta figura é possível interpretar que há uma clara divisão dos grupos
determinada pelos valores do atributo número de cilindros “cyl”. Outra interpretação possível
diz respeito ao relacionamento entre os atributos, que torna visível a similaridade e
dissimilaridade entre eles.
66
Figura 4.9: Matriz dispersão de dado representando a base de dados “mtcars” - (linguagem R).
Outra técnica de projeção geométrica avaliada foi a visualização de coordenadas paralelas que
projetam o relacionamento entre os atributos da base de dados em padrões bidimensionais,
permitindo interpretar características como a diferença na distribuição e correlação entre os
atributos (INSELBERG; DIMSDALE, 1990; WEGMAN; LUO, 1996). A análise da
característica de correlação entre atributos é discutida na Seção 4.3.7. A Figura 4.10
representa a visualização das coordenadas paralelas, demonstrando a distribuição dos registros
com os atributos da base de teste “mtcars” e os grupos formados pelo algoritmo “K-médias”
por meio de cores (vermelho, verde e preto).
Na Figura 4.10 é possível observar uma concentração de cores nos eixos horizontais que
cruzam com o eixo vertical do atributo “cyl” e que irradiam para os eixos verticais “disp” e
“hp”. Pode-se concluir que os três grupos gerados pelo algoritmo não contêm valores iguais
para os atributos “cyl” e “disp” e o número de cilindros (cyl) é proporcional aos valores dos
atributos “disp” e “hp”.
67
Figuras 4.10: Coordenadas paralelas representando a base de dados “mtcars” - (linguagem
R).
Quanto às técnicas iconográficas, a visualização “faces de chernoff” foi avaliada por
possibilitar uma visualização rápida e compacta de vários ícones simultaneamente, conforme
afirmam Estivalet e Freitas (2000). Esta representação do domínio de dados é eficiente, porém
exige uma adaptação do usuário, visto que é necessário habituar-se à interpretação de cada
característica visual existente de acordo com o mapeamento dos atributos (LEE; REILLY;
BUTAVICIUS, 2003).
Na avaliação das visualizações selecionadas foi constatado que uma boa interpretação dos
dados não depende só da técnica utilizada, mas também do domínio de aplicação,
entendimento do domínio de dados e conhecimento do usuário em relação às técnicas de
visualização e aos domínios considerados.
4.3.6 Relacionamento entre os atributos.
Esta característica diz respeito à possibilidade de representação do relacionamento entre
atributos, como é o caso da técnica geométrica matriz de dispersão de dados que representa o
relacionamento entre atributos (SHIMABUKURU, 2004). A Figura 4.11 mostra um exemplo
do uso desta técnica.
Como pode ser visto na Figura 4.11, todos os atributos de dados da base de teste (USarrests)
estão representados, onde as projeções dos atributos são realizadas aos pares e organizadas em
formato de matriz, com cada célula associada a dois atributos identificados nas linhas e
colunas da matriz. Nesta técnica de visualização é possível adicionar atributos qualitativos
68
utilizando formas e cores nos componentes de visualização. Na Figura 4.11 as cores
representam os grupos formados na execução do algoritmo K-médias.
Figura 4.11: Matriz de Dispersão – Base de dados “USarrests”.
(linguagem R)
Outra técnica de projeção geométrica de visualização que mostra o relacionamento entre os
atributos é as coordenadas paralelas, representada na Figura 4.12. Ao gerar uma representação
planar, transforma relações multivariadas em padrões bidimensionais (WEGMAN; LUO,
1996). De acordo com a resolução disponível e dimensão da tela, é possível visualizar muitos
atributos.
A relação entre os atributos encontra-se nos eixos verticais, quanto mais próximos os eixos
melhor a visualização da relação. Por exemplo, o atributo “assault” relacionado com o
atributo “urbanpop” é demonstrado através das posições das linhas horizontais que exibe o
significado na relação conforme pode ser visto na Figura 4.12a. O relacionamento entre os
atributos “assault” e “rape” que estão separados pelo atributo “urbanpop”, é necessário criar
mentalmente a relação ou retirar o atributo, conforme a Figura 4.12b.
69
a)
b)
Figura 4.12: Coordenadas paralelas - Base de dados “USarrests” - (linguagem R).
Quanto às técnicas iconográficas, não foi possível determinar a existência de relacionamentos,
desta forma optou-se em não avaliar tal característica.
4.3.7 Correlação
Correlação ou coeficiente de correlação fornece o grau de relacionamento entre duas variáveis
(DOWNING; CLARK, 2002). A correlação é a associação ou interdependência entre os
atributos da base de dados, utilizada para demonstrar se existe uma relação ou não entre
atributos de interesse.
Quando se trata de correlação, a visualização de dispersão de dados é a mais referenciada na
literatura (CRESPO, 1999; DOWNING; CLARK, 2002), fornecendo uma medida de
correlação positiva ou negativa de acordo com o sentido da dispersão de dados.
A visualização de dispersão de dados fornece uma nuvem de pontos em um plano cartesiano
utilizando eixos (x,y), sendo muito útil para identificar correlação linear (CRESPO, 1999). A
correlação é identificada na visualização de acordo com a posição dos pontos, isto é, se os
pontos do diagrama têm como “imagem” uma reta ascedente ela é linear positiva (ver Figura
4.13a), da mesma forma se os pontos formarem uma “imagem” como uma reta descendente,
ela é linear negativa (Figura 4.13b). Entretanto, se os pontos apresentam-se dispersos, não
oferecendo uma “imagem” definida, conclui-se que não há relação entre os atributos em
estudo (Figura 4.13c) (DOWNING; CLARK, 2002; CRESPO, 1999).
70
a)
b)
c)
Figura 4.13: Dispersão de dados; a) Correlação positiva; b) Correlação negativa; c) Correlação nula.
Para demonstrar esta característica, foi utilizada a base de teste “USarrests” na visualização
da matriz de dispersão de dados com uma função criada na linguagem R, que calcula a
correlação, demonstra os valores calculados e constrói linhas que acompanham a dispersão
(linhas vermelhas na Figura 4.14). Como pode ser observado nesta visualização, o maior
coeficiente de correlação encontrado está entre os atributos “morte” e “assalto”, identificado
como correlação positiva, ou seja, o número de mortes aumenta conforme o número de
assaltos também aumenta.
Figura 4.14: Correlação na visualização de dispersão de dados - base de dados “USarrests”.
(Linguagem R)
Outra técnica de projeção geométrica avaliada foi a visualização de coordenadas paralelas.
Por meio de observação é possível verificar na Figura 4.15 a similaridade de comportamento
entre os eixos que representam os registros, caracterizando assim a correlação positiva. Já na
Figura 4.16, é possível observar o contrário, isto é, a dissimilaridade do comportamento dos
eixos que representam os registros, indicando a existência de correlação negativa.
71
Figura 4.15: Representação de correlação positiva da visualização de coordenadas paralelas
Figura 4.16: Representação de correlação negativa da visualização de coordenadas paralelas
War (2002 apud SHIMABUKURU, 2003, 19), apresenta a evidência de correlação, através
do cruzamento entre as linhas horizontais, como pode ser observado na Figura 4.17 a
existência de uma correlação negativa entre os eixos 6 e 7 destacados em verde.
Figura 4.17: Correlação e distribuição de valores em Coordenadas Paralelas.
Fonte: (WAR, 2002 apud SHIMABUKURU, 2003, p. 19).
72
Foram utilizadas as bases de teste na avaliação da visualização de coordenadas paralelas com
o objetivo de identificar a existência de correlações. No entanto, os resultados não foram
satisfatórios, pois esta visualização não demonstrou as correlações existentes identificadas
previamente pela visualização dispersão de dados, devido ao fato de haver sobreposição dos
registros mapeados que apresentaram “borrões” (ver Figura 4.5a).
Quanto às técnicas iconográficas, não foi realizado qualquer tipo de avaliação pela
impossibilidade de interpretação da visualização da característica de correlação.
4.4 RESULTADOS E CONSIDERAÇÕES FINAIS
Entender as visualizações de informação e conhecer as vantagens e limitações que elas
oferecem pode auxiliar a sua utilização correta e, conseqüentemente, melhorar a sua
interpretação, evitando assim futuras frustrações e tomada de decisão incorreta.
Neste capítulo foram apresentadas as características identificadas como sendo fatores que
influenciam na utilização de técnicas de visualização de informação. Cada característica foi
avaliada com o intuito de identificar suas qualidades e limitações.
A avaliação foi realizada utilizando bases de dados de teste, algoritmo de mineração de dados
K-médias e a linguagem R. Foram definidas pontuações que variam de zero (não satisfaz) a
cinco (satisfaz completamente), conforme o modelo de análise de característica descrito por
Pfleeger (2004). Segue abaixo uma análise resumida dos resultados obtidos na avaliação de
acordo com as características definidas:
•
Escalabilidade: existem limitações para as técnicas de projeção geométrica relacionada
às bases de dados que possuem um grande número de registros, porém, para identificar
padrões gerados pelos algoritmos de mineração de dados, estas técnicas demonstramse eficientes. Já as técnicas iconográficas possuem maior limitação, no caso da
visualização “star glyphs” e “faces de chernoff”, o que não ocorre para a visualização
“Figura de arestas” que é utilizada para identificar padrões em grandes bases de dados,
por meio das formações e posições dos ícones que podem formar texturas.
73
•
Dimensionalidade: esta característica foi avaliada de acordo com a quantidade de
atributos possíveis de serem projetados nas visualizações de informação, sem causar a
poluição visual ou “borrões”. Abaixo é apresentado o número de atributos para cada
visualização avaliada de acordo com a limitação do dispositivo utilizado neste
trabalho:
o Matriz de dispersão: aproximadamente 15 atributos, considerando forma e
cores.
o Dispersão de dados 3D: nesta visualização três atributos podem ser
representados por três eixos, adicionalmente podem ser utilizadas propriedades
de visualização (tais como: densidadade, cor, área, volume, posição e etc.) na
representação de outros atributos. Neste trabalho a projeção foi feita para
aproximadamente cinco atributos.
o Coordenadas paralelas: foi possível projetar 35 atributos.
o Star glyphs: aproximadamente 80 atributos.
o Figura de arestas: esta visualização tem alta dimensionalidade.
o Faces de chernoff: foi possível projetar aproximadamente 15 atributos de
acordo com características da “face”.
•
Tipos de dados: os tipos de dados quantitativos e qualitativos ordinais são projetados
em todas as visualizações de informação avaliadas, porém os tipos de dados
qualitativos nominais apresentam dificuldade em sua representação nas técnicas
iconográficas, onde é necessário o uso das propriedades de visualização, por exemplo:
cor e forma.
•
Interação: foi constatado que existem diferentes técnicas de interação que podem ser
aplicadas às visualizações de informação.
•
Interpretabilidade: a matriz de dispersão e dispersão de dados tridimensional
demonstraram fácil interpretação na avaliação. As coordenadas paralelas também
facilitam a interpretação, porém dificultam a visualização da relação entre atributos
pelo fato de existirem coordenadas separadas. Para a interpretação das técnicas
iconográficas é necessário o conhecimento das propriedades de visualização
consideradas, juntamente com o mapeamento realizado com os atributos. Nos casos
74
em que o objetivo do uso da visualização é encontrar padrões, a visualização “Figura
de aresta” é indicada.
•
Relacionamento entre atributos: as técnicas de projeção geométrica permitem
visualizar os relacionamentos entre atributos, sendo a matriz de dispersão a
visualização de informação que melhor representa esta característica.
•
Correlação: a visualização de dispersão de dados é a que melhor demonstra esta
característica.
A partir da avaliação realizada, foi possível criar a Tabela 4.1 (Analise de características de
técnicas de visualização).
75
Características
Matriz
Dispersão
Suporte a quantidade de dados
(Escalabilidade)
Suporte a quantidade de atributos
(Dimensionalidade)
T
I
P
O
S
D
E
D
A
D
O
S
Projeção Geométrica
Dispersão
de dados
Coordenadas
3D
Paralelas
Técnicas Iconográficas
Figura
Star
de
Faces de
Glyphs arestas
Chernoff
5
4
5
1
5
1
3
2
4
5
5
3
Representação de dados
qualitativos nominais
2
2
5
1
1
1
Representação de dados
qualitativos ordinais
5
5
5
5
5
5
Representação de dados
quantitativos discretos
5
5
5
5
5
5
Representação de dados
quantitativos contínuos
5
5
5
5
5
5
5
5
5
4
4
4
5
5
5
5
5
5
Facilidade de interpretação
(Interpretabilidade)
5
5
3
3
3
4
Relacionamento entre os atributos
5
3
3
1
1
1
Correlação
5
4
2
X
X
X
Representação de dados mistos
(qualitativos e quantitativos)
Interação
Tabela 4.1: Análise de características das técnicas de visualização.
Legenda:
Pontuação: (1) não satisfaz completamente, (2) não satisfaz, (3) satisfaz parcialmente, (4) satisfaz, (5) satisfaz completamente.
76
5
APLICAÇÃO
DE
TÉCNICAS
DE
VISUALIZAÇÃO
DE
INFORMAÇÃO
Neste capitulo é demonstrado o uso de técnicas de visualização de informação na
representação de dados e de resultados obtidos na aplicação de um algoritmo de agrupamento.
O objetivo é confirmar a avaliação realizada e apresentada no capítulo anterior utilizando uma
base de dados real. Tanto o algoritmo de agrupamento quanto as técnicas de visualização de
informação apresentadas neste capítulo utilizam recursos oferecidos pela linguagem R.
Inicialmente, foi selecionada a base de dados para a experimentação. Optou-se pela base de
candidatos da Universidade Estadual de Maringá (UEM), contendo os resultados das provas
referentes ao vestibular de inverno do ano de 2005, somente do curso de medicina, disponível
no endereço eletrônico www.cvu.uem.br.
Esta base foi modificada num formato adequado para sua utilização na linguagem R e contém
1598 registros representando os candidatos ao curso de medicina e 13 atributos, que são:
idade, nota da prova de redação, nota da prova de geografia, nota da prova de historia, nota da
prova de biologia, nota da prova de matemática, nota da prova de português, nota da prova de
língua estrangeira, nota da prova de física, nota da prova de química, nota final (total),
classificação do candidato e situação do candidato (aprovado, reprovado e desclassificado).
5.1 VISUALIZAÇÃO DOS DADOS ORIGINAIS
A visualização de informação tem uma representação significativa no processo de análise de
dados, facilitando a sua interpretação. Na fase de pré-processamento do processo KDD, o
analista precisa ter um entendimento sobre os dados que, em alguns casos, podem apresentar
inconsistências, principalmente quando são o resultado da integração de duas ou mais bases
de dados.
Além da detecção de possíveis inconsistências, o uso de visualização de
informação pode auxiliar na descoberta de tendências e padrões entre os dados originais que
servirão de base na limpeza e seleção de atributos a serem usados como parâmetros de entrada
para a mineração de dados.
77
A visualização de informação sobre dados originais pode, também, fornecer conhecimentos
que darão suporte à tomada de decisão, sem que haja necessidade da aplicação de uma técnica
de mineração de dados.
Desta forma, antes de aplicar o algoritmo de agrupamento, foram utilizadas algumas técnicas
de visualização com intuito de encontrar características da base de dados.
De acordo com a Tabela 4.1 (resultado da análise de características da técnica de
visualização), descarta-se a visualização “faces de chernoff” e “star glyphs”, pois a base de
dados possui 1598 registros e estas visualizações têm como característica a baixa
escalabilidade. Em contrapartida, as visualizações matriz de dispersão, coordenadas paralelas
e figuras de arestas apresentam-se como as mais adequadas quanto à escalabilidade e
dimensionalidade.
Como já avaliado no Capítulo 4, as coordenadas paralelas demonstram-se úteis na
identificação de padrões gerados por algoritmos de agrupamento com grande quantidade de
registros, o que não ocorre na visualização preliminar da base de dados (sem aplicação do
algoritmo de agrupamento), sendo ineficiente com mais de 1000 registros.
Considerando que a matriz de dispersão obteve alta pontuação em todas as características
avaliadas e apresentadas na Tabela 4.1, esta visualização é uma opção para projetar a base de
dados original com todos os seus atributos e registros. Com a filtragem dos candidatos
aprovados, diminui-se a escalabilidade, possibilitando o uso da visualização de informação
“star glyphs”. Assim, a seguir são apresentadas as análises realizadas aplicando as técnicas de
visualização geométricas e iconográficas, mais especificamente as visualizações matriz de
dispersão e “star glyphs”.
a) Projeção Geométrica
Como a matriz de dispersão é a visualização que melhor consegue representar a correlação
entre os atributos, a sua projeção foi realizada com ênfase nesta característica. A Figura 5.1
ilustra esta visualização, onde é possível observar:
78
•
Os candidatos aprovados têm idade inferior a trinta anos, conforme mostra a relação
entre os atributos idade e situação (1 - aprovado, 2 - desclassificado e 3 – reprovado).
•
Os atributos referentes às notas das provas têm alto grau de relacionamento linear
positivo (correlação) entre si.
•
Os atributos com maior grau de relacionamento (correlação) são as notas das provas
de geografia e história e as notas das provas de química e biologia.
•
O atributo total de pontuação tem maior grau de relacionamento com os atributos
referentes às notas das provas de química e biologia.
•
O atributo idade apresenta correlação nula com os demais atributos.
Pelo fato da visualização ter gerado “borrões”, poderiam ser projetados somente aqueles
atributos de maior interesse para facilitar o entendimento sobre a dispersão dos dados.
`
Figura 5.1: Matriz de dispersão (base de dados Uem/2005) - (Linguagem R).
Com intuito de utilizar alguma visualização de informação para verificar a existência de
inconsistências em base de dados, foi incluído o atributo sexo na base de candidatos da
Universidade Estadual de Maringá (UEM) com alguns valores nulos.
Observando as Figuras 5.2a e 5.2b, é possível verificar uma inconsistência nas bases de dados
em relação ao atributo sexo que apresenta valor “nulo” para vários registros. Assim, concluise que a visualização de coordenadas paralelas consegue demonstrar à existência de atributos
79
com valores incorretos ou ausentes. Esta visualização também pode fornecer uma idéia da
quantidade de registros que contêm valores incorretos, por meio da quantidade de linhas que
irradiam do atributo em questão, por exemplo, a Figura 5.2a representa uma base de dados
com 8,2% de registros contendo valor “nulo” no atributo sexo, enquanto que a Figura 5.2b
representa outra base de dados contendo apenas 0,62% de registros com valor “nulo” no
atributo sexo, como pode ser visto nestas figuras.
a)
b)
Figura 5.2: Coordenadas paralelas: a) representando 131 registros contendo valores nulos para o atributo
sexo, b) representando 10 registros contendo valores nulos para o atributo sexo - (linguagem R)
b) Técnica Iconográfica
A Figura 5.3 ilustra a visualização “Star Glyphs” onde foram projetados somente os
candidatos aprovados. Nesta visualização é possível realizar algumas considerações sobre as
pontuações das provas de cada candidato em relação às pontuações dos demais candidatos
aprovados, tais como:
•
O candidato número 6 possui os menores valores obtidos nas provas de matemática,
geografia, historia e física.
•
Os candidatos 3 e 8 possuem as melhores notas na maioria das disciplinas.
•
O candidato 12 obteve a menor nota em biologia e sua nota em português é
relativamente alta em relação às demais notas por ele obtidas.
•
Os candidatos 3, 16, 19 e 20, obtiveram notas boas em todas as provas, enquanto que
os demais candidatos apresentam pelo menos uma prova com nota baixa.
80
Figura 5.3: Star Glyph representando os candidatos aprovados - (linguagem R).
Por meio deste exemplo, foi possível extrair algumas interpretações. No entanto, a avaliação
apresentada na Tabela 4.1 pontuou a característica interpretabilidade para a visualização “Star
Glyphs” com valor três, pela necessidade do uso do mapa representado na Figura 5.3.
5.2
VISUALIZAÇÃO
DOS
RESULTADOS
DO
ALGORITMO
DE
AGRUPAMENTO
Após a preparação da base de dados e o uso de visualizações de informação sobre os dados
originais, o algoritmo de agrupamento “K-médias” foi selecionado por ser um dos mais
referenciados na literatura e, também, pelo fato da maioria dos atributos existentes na base de
dados ser do tipo quantitativo.
Na linguagem R, a função que implementa o algoritmo de agrupamento “K-médias” se
encontra na biblioteca “amap” e possui cinco parâmetros de entrada. As linhas de código
utilizadas para carregar a biblioteca e executar a função “Kmeans” são:
library(amap)
Kmeans(x, centers, iter.max = 10, nstart = 1,method = " euclidean ")
81
Os parâmetros da função “Kmeans” são descritos a seguir:
•
x - é a estrutura de dados da base de dados de entrada, juntamente com o seu conteúdo
(valores numéricos dos atributos);
•
centers – número desejado de grupos;
•
inter.max – número máximo de interações que o algoritmo deve realizar.
•
method – medida de distância a ser utilizada: "euclidean", "maximum","manhattan",
"canberra", "binary", "pearson"
ou "correlation.
A Figura 5.4 ilustra os resultados obtidos com a execução do algoritmo K-médias, que são
divididos em quatro partes:
1. indica a quantidade de registros para cada grupo criado;
2. indica os centróides de cada atributo relacionado para cada grupo;
3. vetor do agrupamento que identifica o grupo criado para cada registro;
4. somatória da raiz quadrada por grupo.
1
2
3
4
Figura 5.4: Resultado do algoritmo K-médias - (Linguagem R).
Conforme pode ser observado na Figura 5.4, os resultados apresentados não dão subsídios
suficientes para a sua interpretação, sendo necessário, portanto, o uso de técnicas de
82
visualização de informação. A seguir são demonstradas as visualizações de informação
utilizadas para representar esses resultados.
a) Projeção Geométrica
De acordo com a avaliação realizada neste trabalho, a visualização de coordenadas paralelas é
uma das técnicas de projeção geométrica que obtiveram boa pontuação referente à
característica de escalabilidade, pelo fato de conseguir demonstrar padrões nos resultados
obtidos pelo algoritmo de agrupamento. Wegmam e Luo (1996) afirmam que a tarefa de
agrupamento é facilmente interpretada utilizando a representação de coordenadas paralelas.
Observando a projeção do resultado do algoritmo na visualização de coordenadas paralelas,
ilustrada na Figura 5.5, é possível constatar a formação de padrões nos quatro grupos gerados
pelo algoritmo de agrupamento, como descritos a seguir:
•
Grupo 1 (linhas pretas) – grande maioria dos candidatos reprovados com o total de
pontuação igual a zero.
•
Grupo 2 (linhas vermelhas) – grande maioria dos candidatos desclassificados com o
total de pontuação inferior a aproximadamente 754 (metade do total de pontuação
obtida pelo candidato classificado em primeiro lugar que foi 1508).
•
Grupo 3 (linhas azuis) – grande maioria dos candidatos desclassificados com o total de
pontuação superior a aproximadamente 754.
•
Grupo 4 (linhas verdes) - grupo de candidatos que obtiveram as melhores pontuações.
Além da identificação dos padrões dos grupos, é possível identificar outras interpretações na
visualização de coordenadas paralelas, por exemplo:
•
A faixa etária da maioria dos candidatos é inferior a aproximadamente 27 anos.
•
Quase todos os candidatos do Grupo 1 (linhas pretas) obtiveram nota zero na redação,
e neste mesmo grupo é possível verificar a existência de candidatos que obtiveram
notas com valores acima da média, sendo o grupo que apresenta a maior dispersão em
outras provas.
•
Muitos candidatos do Grupo 1 zeraram a prova de língua estrangeira, considerando
que existe uma concentração de linhas pretas no valor zero referente ao atributo LE
(língua estrangeira).
83
•
Existem candidatos que obtiveram boas notas na prova de redação, mas não estão
agrupados no Grupo 4, pois é possível verificar na visualização que há candidatos de
outros grupos no topo da linha vertical que representa o atributo redação, conforme
Figura 5.6.
•
O Grupo 4 é o grupo dos candidatos que obtiveram as melhores notas nas provas de
biologia, química e português, como pode ser observado na concentração de linhas
verdes no topo das linhas verticais que representam os atributos referentes a estas
provas. O destaque maior está na prova de química.
•
Apesar dos candidatos do Grupo 4 terem obtido as melhores pontuações no total geral,
é possível observar que muitos deles obtiveram notas abaixo da média nas provas de
matemática, língua estrangeira e física.
•
Entre os candidatos com as melhores notas, poucos obtiveram notas com valores
próximos ao valor máximo atingido na prova de matemática, conforme pode ser
observado na dispersão existente na linha vertical que representa este atributo.
•
Pode-se observar a existência de candidatos do Grupo 2 com boas notas (acima da
média) nas provas de redação, geografia, história, língua estrangeira e química e com
notas abaixo da média na prova de matemática.
Figuras 5.5: Coordenadas paralelas
gerado pelo algoritmo K-means - (Linguagem R).
84
Figura 5.6: Coordenadas paralelas com destaque no eixo vertical que
representa o atributo redação - (linguagem R).
As interpretações realizadas na visualização de coordenadas paralelas não se esgotaram,
outras poderiam ser listadas de acordo com o conhecimento e o interesse sobre o tipo de
informação a ser extraído pelo avaliador, por exemplo, o avaliador pode estar interessado
apenas no grupo que representa os melhores candidatos. Assim, pode-se filtrar da base de
dados os candidatos do Grupo 4 e serem gerados novos agrupamentos, ou até mesmo utilizar
outras tarefas de mineração de dados (associações, regressão, sumarização ou classificação).
Outra visualização que apresentou boa escalabilidade para demonstrar padrões de resultados
do algoritmo de agrupamento é a visualização de dispersão de dados tridimensional (Figuras
5.7), utilizando a propriedade cor para representar os grupos formados.
De forma geral, observando o eixo referente ao atributo da prova de biologia das Figuras 5.7a
e 5.7b, é possível constatar a separação das cores, sugerindo as seguintes interpretações:
•
O grupo de cor vermelha representa a maioria dos candidatos que obteve na prova de
biologia nota inferior a aproximadamente 30 pontos.
•
O grupo de cor verde representa a maioria dos candidatos que obteve na prova de
biologia nota no intervalo aproximado entre 30 e 50 pontos. o grupo de cor azul
representa a maioria dos candidatos que obteve na prova de biologia nota superior a
aproximadamente 50 pontos;
•
O grupo de cor preta representa a maioria dos candidatos que obteve nota zero para a
prova de redação.
Pode-se observar, também, na Figura 5.7a a existência de correlação positiva entre a prova de
química e a prova de biologia, já demonstrada pela Figura 5.1, e a separação dos grupos
85
(representados pelas cores) verificada pelo menor e maior valor do atributo da prova de
química. Possibilitando as seguintes interpretações:
•
O grupo representado pela cor vermelha tem a maioria dos candidatos com a
pontuação inferior ao grupo representado pela cor verde e azul.
•
O grupo representado pela cor verde tem a maioria dos candidatos com a pontuação
superior ao grupo representado pela cor vermelha e inferior ao grupo representado
pela cor azul.
•
O grupo representado pela cor azul tem a maioria dos candidatos com a pontuação
superior aos grupos representados pelas cores verde e vermelha.
a)
b)
Figura 5.7: Dispersão de dados tridimensional
representando resultado do algoritmo de agrupamento da base “UEM-2005” - (linguagem R).
Não se esgotaram as possibilidades de identificação de outras interpretações que podem ser
realizadas, até porque, esta visualização permite a sua projeção em diferentes ângulos.
b) Técnicas Iconográficas
De acordo com a avaliação das técnicas de visualização de informação que resultou na Tabela
4.1, as visualizações “faces de chernoff” e “Star Glyphs”, tiveram baixa pontuação na
característica escalabilidade e maior pontuação para dimensionalidade. Considerando que a
escabilidade analisada diz respeito à quantidade de grupos, após a aplicação de um algoritmo
de agrupamento, e que os centróides representam os grupos criados, ou seja, para cada grupo
86
existe um centróide que é um conjunto de valores calculados para cada atributo, mantendo o
mesmo número de atributos, é possível utilizar a visualização “faces de chernoff” ou “star
grlyphs” para representar os grupos.
A Figura 5.8 ilustra a visualização “faces de chernoff” representando os centróides dos
quatros grupos gerados pelo algoritmo K-médias, sendo que as variações nos valores dos
atributos determinam faces distintas. As alterações que ocorrem nas faces são realizadas pelo
mapeamento do atributo com as características de uma face (altura da face, altura da boca,
altura dos olhos, largura do cabelo e etc...).
A função da Linguagem R que implementa a geração da visualização “faces de chernoff” não
apresenta qualquer informação sobre como foi realizado o mapeamento de cada atributo com
as propriedades da face. Com a realização de alguns testes com o atributo total de pontuação,
pode-se verificar que este atributo está relacionado com as propriedades relativas a cabelo.
Somente a face quatro tem uma maior projeção do cabelo, sendo assim é possível afirmar que
o Grupo 4 contém os candidatos aprovados e o Grupo 1 os candidatos reprovados.
Figura 5.8: Faces de chernof representando os centróides dos grupos gerados
pelo algoritmo k-médias - (linguagem R).
5.3 CONSIDERAÇÕE FINAIS
A principal preocupação em relação à utilização das técnicas de visualização é a geração de
visualizações que não prejudiquem as interpretações, pois a compreensão incorreta de dados
pode levar à tomada de decisão incorreta. Portanto, é importante que sejam fornecidos
subsídios para a escolha correta da técnica de visualização.
Existem inúmeras visualizações de informação e a aplicação de cada visualização requer um
estudo particular com intuito de conhecer as suas vantagens e desvantagens. Assim, algumas
87
visualizações foram utilizadas tendo como dados de entrada uma base de dados real e a sua
análise foi apresentada neste capítulo.
Por meio dessa análise, foi possível verificar a utilidade da avaliação das técnicas de
visualização realizada e descrita no Capítulo 4, principalmente em relação à análise de
resultados obtidos na aplicação de um algoritmo de agrupamento que, por sua vez, pode ser
usado na mineração de dados.
88
6 CONCLUSÃO E TRABALHOS FUTUROS
Apesar do uso já bastante difundido de ferramentas de mineração de dados, ainda existe
grande dificuldade por parte do tomador de decisão no entendimento dos conhecimentos
gerados por essas ferramentas. Isto geralmente ocorre devido ao formato dos resultados
apresentados. Algumas dessas ferramentas não utilizam representações gráficas.
Existem técnicas de visualização de informação que podem contribuir para o melhor
entendimento dos resultados da mineração de dados. No entanto, ainda existem dificuldades
no uso dessas técnicas, principalmente por não haver um direcionamento sobre quais delas
são mais adequadas para a visualização de informação, tomando como base características das
informações a serem visualizadas e características das próprias técnicas que facilitam o
entendimento dessas informações.
Buscando amenizar essas dificuldades, neste trabalho é apresentada uma avaliação de técnicas
de visualização de informação geométricas e iconográficas. A técnica de avaliação utilizada
foi Análise de Características, onde foram identificadas características relevantes sobre as
técnicas de visualização de informação, tanto em relação às informações a serem visualizadas
quanto à capacidade de interpretação. Para cada técnica de visualização avaliada foi atribuída
uma pontuação em relação a cada característica identificada. No entanto, a Análise de
Características é uma técnica subjetiva, pois a avaliação reflete a tendência do avaliador.
Na avaliação realizada foram analisadas as vantagens, desvantagens e limitações de algumas
técnicas de visualização de informação por meio do uso de bases de dados fornecidas pelo
ambiente de programação, de matrizes de dados com valores gerados aleatoriamente e de base
de dados real. Além disso, as técnicas de visualização foram utilizadas para representação dos
resultados obtidos com a aplicação do algoritmo de agrupamento K-médias.
O principal objetivo da avaliação apresentada neste trabalho é fornecer subsídios para o uso
de técnicas de visualização de informação na análise de resultados obtidos com a aplicação de
técnicas de mineração de dados, contribuindo para um melhor entendimento desses
resultados. Portanto, a intenção não foi criar regras ou receitas sobre a utilização das
visualizações, por existir grande variedade de técnicas de visualização de informação e ser
difícil afirmar o quanto cada uma delas consegue representar o potencial analítico de
89
mineração de dados. Neste trabalho foram analisadas a tarefa de agrupamento e seis
visualizações de informação, classificadas em duas técnicas de visualização (projeção
geométrica e iconográfica).
Os resultados da avaliação realizada demonstraram o quanto cada técnica de visualização
analisada pode contribuir no entendimento tanto de dados originais existentes nas bases de
dados quanto de resultados obtidos com a aplicação de um algoritmo de agrupamento. Assim,
pode-se concluir que o uso adequado de técnicas de visualização facilita a análise de dados
em geral de resultados da mineração de dados.
A linguagem R, utilizada na aplicação do algoritmo de agrupamento e na geração das
visualizações mostrou ser um recurso viável apesar de fornecer um processo semi-automático
onde é necessário o envolvimento do analista na realização de determinadas tarefas. Nesta
linguagem existem diversas bibliotecas que contêm algoritmos para realização da tarefa de
MD, por exemplo, a biblioteca “R-WEKA” que permite a utilização dos algoritmos da
ferramenta WEKA5. Porém, os resultados desses algoritmos, quando possível, devem ser
adaptados para a sua utilização em outra função que projeta visualização.
Como trabalhos futuros podem ser citados:
•
Avaliação de outras técnicas de visualização, por exemplo: Técnicas Orientadas a
Pixel e Técnicas Hierárquicas.
•
Agregação de técnicas de interação nas funcionalidades de visualização existentes na
linguagem R, por exemplo: zoom e filtragem interativa na visualização de
coordenadas paralelas.
•
Construção de uma interface na linguagem R com recursos de manipulação, limpeza e
tratamento da base de dados.
•
Integração das funcionalidades que implementam algoritmos de mineração de dados e
técnicas de visualização de informação na linguagem R, como por exemplo, adaptar a
saída da função “k-means” (algoritmo de agrupamento) para a entrada da função
“parcoord” (visualização de coordenadas paralelas).
5
Weka (Waikato Environment for Knowledge Analisys) ferramenta especifica para mineração de dados escrita em java. Contemplando
conjuntos de algoritmos para realização das tarefas de agrupamento, classificação e associação.
90
•
Elaborar uma avaliação contemplando outras tarefas de MD (classificação, associação,
regressão e etc...), e verificar quais dentre as técnicas de visualização podem ser
integradas às tarefas de MD.
91
REFERÊNCIAS
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules Between Sets of
Itens in Large Databases. In: ACM SIGMOD INTERNATIONAL CONFERENCE ON
MANAGEMENT OF DATA, 1993, Washington, Proceedings... Washington, ACM, 1993. p.
207-216.
BARIONI, M. C. N. Visualização de operações de junção em sistemas de bases de dados
para mineração de dados. 2002. Dissertação (Mestrado)-Instituto de Ciências Matemáticas e
de Computação,Universidade de São Paulo, São Carlos, 2002.
BENDIX, F.; KOSARA, R.; HAUSER H. Parallel sets: visual analysis of categorical data. In:
IEEE SYMPOSIUM INFORMATION VISUALIZATION, 5., Washington, 2005,
Proceedings... Washington: IEEE Computer Society, 2005. p. 133–140.
CARD, S. K.; MACKINLAY, J. D.; Shneiderman, B. Readings in information
visualization: Using Vision to Think. San Francisco: Morgan Kaufmann, 1999.
CARLANTONIO, L. M. Novas metodologia para clusterização de dados. Dissertação
(Mestrado)-Engenharia Civil, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001.
CHERNOFF, H. The use of faces to represent points in K-Dimensional space graphically.
Journal of the American Statistical Association, New York, v. 68, no. 342, p. 361-367,
1973.
CHI, E. H.; RIEDL, J. T. An operator interaction framework for visualization spreadsheets.
In: IEEE SYMPOSIUM INFORMATION VISUALIZATION, 1998, Washington,
Proceedings... Washigton: IEEE Computer Society, 1998. p. 63-70.
CRESPO, A. A. Estatistística fácil. 17. ed. São Paulo: Saraiva, 1999.
DIAS, M. M. Um modelo de formalização do processo de sistema de descoberta de
Conhecimento em banco de dados. 2001. Tese (Doutorado)-Pós Graduação em Engenharia
de Produção, Universidade Federal de Santa Catarina. Florianópolis, Santa Catarina, 2001.
DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Acta
Scientiarum, Maringá, v. 24, n. 6, p. 1715-1725, 2002.
DOWNING, D.; CLARK, J. Estatística aplicada. 2. ed. São Paulo: Saraiva, 2002.
EBERT, D. S.; ROHRER, M. R.; SHAW D. C; PANDA P.; KUKLA M. J.; ROBERTS A.D.
Procedural shape generation for multi-dimensional data visualization. Computers &
Graphics, New York, v. 24, no. 3, p. 375-384, 2000.
ESTIVALET, L. F.; FREITAS, C. M. D. S. O Uso de ícones na visualização de
informações. 2000. Dissertação (Mestrado)-Instituto de Informática, Programa de Pós
Graduação em Computação, Universidade Federal do Rio Grande do Sul, Porto Alegre. 2000.
92
FAYYAD, U. M.; PIATESTKY SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery: an overview. In: FAYYAD, U. M. et al. (Ed.). Advances knowledge
discovery and data mining. Menlo Park: AAAI, 1996a. p. 1-36.
FAYYAD, U.; PIATETSKY S. G.; SMYTH, P. The KDD process for extracting useful
knowledge from volumes of data. Communications of the ACM, v. 39, no. 11, p. 27-35,
1996b.
FEKETE, J.; PLAISANT, C. Interactive information visualization of a million items. In:
IEEE SYMPOSIUM ON INFORMATION VISUALIZATION, 2., 2002, Boston.
Proceedings... Boston: IEEE, 2002. p. 117.
FREITAS, C. M. D. S. et al. Introdução à visualização de informações. Revista de
Informática Teórica e Aplicada, Porto Alegre, v. 8, n. 2, p. 143-158, 2001.
GERSHON, N.; EICK, S. G. Information visualization. IEEE Computer Graphics and
Applications, New York, v. 17, no. 4, p. 29-31, 1997.
GOEBEL, M.; GRUENWALD, L. A Survey of Data Mining and Knowledge Discovery
Software Tools. ACM SIGKDD Explorations, New York, v. 1, no. 1, p. 20-33, June. 1999.
GOLDSCHMIDT, R. Assistência inteligente à orientação do processo de descoberta de
conhecimento em bases de dados. 2003. Tese (Doutorado)-Programa de Pós-graduação em
Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2003.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pratico. 1. ed. Rio de Janeiro:
Campus, 2005.
HUANG, Z.; Clustering Large Data Sets with Mixed Numeric and Categorical Values
Proceedings… First Pacific-Asia: Conf. Knowledge Discovery and Data Mining, 1997. pages
21-34
HRUSCHKA, E. R.; EBECKEN, N. F. F. A genetic algorithm for cluster analysis. Intelligent
Data Analysis, Netherlands, v. 7, no.1, p.15-25, 2003.
INSELBERG, A. DIMSDALE, B. Parallel coordinates: a tool for visualizing
multidimensional geometry. In: CONFERENCE ON VISUALIZATION ’90, 1., 1990, San
Francisco. Proceedings… Los Alamitos: IEEE Computer Society, 1990. p. 23-26.
JOHNSON, A. R.; WICHNER, W. D. Applied multivariate statistical analysis. New
Jersey: Prentice-Hall, 1982.
KEIM, D. A.; KRIEGEL, H. P. Visualization techniques for mining large databases: a
comparion. IEEE Transactions on Knowledge and Data Engineering, Los Alamitos, v. 8,
no.6, p. 923-938, Dec. 1996.
KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on
Visualization and Computer Graphics, Los Alamitos, v. 8, no.1 p. 1-8, Jan. 2002.
93
KOSARA, R.; SAHLING, G.; HAUSER, H. Linking scientific and information visualization
with interactive 3D scatterplots. In: INTERNATIONAL CONFERENCE IN CENTRAL
EUROPE ON COMPUTER GRAPHICS, VISUALIZATION AND COMPUTER VISION
SHORT COMMUNICATION. 12., 2004, Proceedings... p. 133–140, 2004.
LEE, M. D.; REILLY, R. E.; BUTAVICIUS, M. A. An empirical evaluation of chernoff
faces, star glyphs, and spatial visualizations for binary data. In:
AUSTRALIAN
SYMPOSIUM ON INFORMATION VISUALIZATION, 24., 2003, Australia. Proceedings...
Austrália, 2003. p.1-10.
MACKINLAY, J. Automating the design of graphical presentations of relational information.
ACM Transactions on Graphics, New York, v. 5, no.2, p. 110–141. 1986.
MENEZES, E. M.; SILVA, E. L. Metodologia da pesquisa e elaboração de dissertação.
Santa Catarina: Ed. da UFSC, 2001.
NASCIMENTO, H.; FERREIRA, C. Visualização de Informação – uma abordagem prática.
In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 25., 2005, São
Leopoldo. Anais... São Leopoldo: Unisinos, 2005. p. 1262-1312.
PFLEEGER, L. S. Engenharia de software teoria e pratica. 2. ed. São Paulo: Pearson
Prentice Hall, 2004.
PRASS, F. S. Estudo comparativo entre algoritmos de análise de agrupamentos em data
mining. 2004. Dissertação (Mestrado)-Pós-graduação em ciência da computação,
Universidade Federal de Santa Catarina. Florianópolis, 2004.
PINHEIRO, L. C. Método de representaçăo espacial de clustering. 2006. Dissertação
(Mestrado)-Pós-Graduaçăo em Informática, Universidade Federal do Paraná, Curitiba, 2006.
PUNTAR, G. S. Métodos e Visualização de Grupamentos de Dados. 2003. Dissertação
(Mestrado)-Pós Graduação em Engenharia, Universidade Federal do Rio de Janeiro, Rio de
Janeiro, 2003.
THE R projetc for statistical computing. Disponível em: <http://www.r-project.org/.> Acesso
em: 27 jun. 2007.
RODRIGUES. J. F. Desenvolvimento de um framework para análise visual de
informação suportando data mining. 2003. Dissertação (Mestrado)-Instituto de Ciências
Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.
RUNDENSTEINER, E. A. et al. XmdvTool: visual interactive data exploration and trend
discovery of high-dimensional data sets. In: ACM SIGOD INTERNATIONAL
CONFERENCE ON MANAGEMENT OF DATA. 2002, Madison. Proceedigns... Madison:
ACM, 2002. p. 631.
94
RUSSO, S. C.; GROS, P.; ABEL, P. Visualização tridimensional de grandes volumes de
informação. In: CONGRESSO LUSO-MOÇAMBICANO DE ENGENHARIA, 1999.
Maputo. Proceedigns... Maputo: Eurocom, 1999. p. 73-87. v. 2.
SHIMABUKURU, H. M. Visualização temporal em uma plataforma software extensível
e adaptável. 2004. Tese (Doutorado)-Instituto de Ciência Matemática e de Computação.
Universidade de São Paulo, São Carlos, 2004.
SHIMAKURA,
E.
S.
“Tipo
de
dados”
Disponível
<http://leg.ufpr.br/~shimakur/CE001/node7.html>. Acesso em 20 mar. 2007.
em:
TRAINA, A. J. M.; BARIONI C. M.; BOTELHO E.; FALOUSTSOS C.; RAZENTE H. et al.
Data visualization in RDBMS. In: IASTED INTL. CONFERENCE ON INFORMATION
SYSTEMS AND DATABASES. 2002, Tóquio. Proceedings... Anaheim: ACTA, 2002. p.
264-269. v. 1.
VAZ, F. R. CARVALHO, L. C. Visualização de informação. Instituto de Informática,
Universidade Federal de Goiás, Goiás, 2004. Relatório Técnico.
WEGMAN, E. J.; LUO, Q. High Dimensional clustering using parallel coordinates and the
grand tour. Computing Science and Statistics, v. 28, p. 352-360, 1996.
WONG, P.C. Visual data mining. IEEE Computer Graphics and Applications, Los
Alamitos, v.19, no.5, p. 20-21, Sep./Oct. 1999.
95
APÊNDICE A - ALGORITMOS DE AGRUPAMENTO
A.1 - ALGORITMO K-MÉDIAS EM PORTUGOL
Numero de grupos (k);
Ler os registros que serão agrupado;
Enquanto existir objetos não agrupado faça
Calcule a distância entre o elemento e os centróides;
Adicione o elemento ao agrupamento que possuir a menor
distância;
Recalcule o centróide do agrupamento;
fim para
para Todos os k agrupamentos faça
Calcule a Soma de Quadrados Residual;
fim para
repita
para todos os n elementos faça
Mova o elemento para os outros agrupamentos;
Recalcule a Soma de Quadrados Residual;
se soma dos Quadrados Residual diminuiu então
O objeto passa a fazer parte do agrupamento que produzir maior
ganho;
Recalcule a Soma de Quadrados Residual dos agrupamentos
alterados;
fim se
fim para
até Número de interações = i ou Não ocorra mudança de objetos
96
A.2 - FUNÇÃO DO ALGORITMO DE AGRUPAMENTO K-MÉDIA NA
LINGUAGEM R
Obs: frases em itálico no código e precedidas do símbolo “#” são comentários.
> kmeans(x, centers, iter.max = 10, nstart = 1, method = "euclidean")
Exemplos de código:
# fonte:
documentação do R
> x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2),
matrix (rnorm (100, mean = 1, sd = 0.3), ncol = 2))
> colnames(x) <- c("x", "y")
> (cl <- kmeans(x, 2))
> plot(x, col = cl$cluster)
> points(cl$centers, col = 1:2, pch = 8, cex=2)
#agrupamento da base de dados USArrests
> library(amap)
>
x = USArrests
> x
>
# carrega o pacote em memória
# atribuir a base de dados numa variável
# exibir base de dados
cl<-Kmeans(x,5,method
=
armazena na variável “cl”
> cl
# exibir agrupamento
"euclidean")
#Agrupar
os
elementos
e
97
# agrupar base de dados uem
> library(amap) #carregar pacote na memória
> library(Rweka) #carregar pacote do weka
> x<-read.arff('D:/uem_medicina.arff') #carregar a base de dados uem
que esta formato de leitura do WEKA>
> cl<-Kmeans(x,5,method = "euclidean") # agrupar a base
> cl #exibir agrupamento
98
APÊNDICE B - VISUALIZAÇÃO DE INFORMAÇÃO UTILIZANDO
LINGUAGEM R
Obs: frases em itálico no código e precedidas do símbolo “#” são comentários.
B.1 - MATRIZ DE DISPERSÃO
Função:
plot(x, col, pch, type …)
Paramêtros:
•
x - base de dados;
•
col - propriedade cor para cada registro;
•
pch - propriedade tipo formato para cada registro;
•
type – tipo dos componentes utilizado na visualização, "p" pontos, "l" para linhas, "b"
pontos utilizando linhas, "h" para histograma, "s" linhas verticais e horizontais ligando
os pontos.
•
... – existência de outros parâmetros.
Exemplos de códigos:
#fonte: documentação do R
> plot(cars)
> lines(lowess(cars))
> plot(sin, -pi, 2*pi)
## Distribuição discreta
> plot(table(rpois(100,5)), type = "h", col = "red", lwd=10,
main="rpois(100,lambda=5)")
Projeção da visualização da matriz de dispersão representado o resultado do algoritmo “kmedias” aplicado na base de dados “USArrests
#Projeção da Figura 4.11 (matriz de dispersão)
> x = USArrests #carregar a base
> cl<-Kmeans(x,5,method = "euclidean") # agrupar os registros
99
> plot(x,col=cl$cluster) # projetar visualiação
#projeção da Figura 4.14 (matriz de dispersão com destaque para
característica correlação)
> ma_correlacao <- function(a,b, digits=2, prefix="", cex.cor)
{função para exibição da matriz}
{
u <- par("u"); on.exit(par(u))
par(u = c(0, 1, 0, 1))
r <- abs(cor(a,b))
txt <- format(c(r, 0.123456789), digits=digits)[1]
txt <- paste(prefix, txt, sep="")
if(missing(cex.cor)) cex <- 0.8/strwidth(txt)
test <- cor.test(a,b)
Signif <- symnum(test$p.value, corr = FALSE, na = FALSE,
cutpoints = c(0, 0.001, 0.01, 0.05, 0.1, 1),
symbols = c("***", "**", "*", ".", " "))
text(0.5, 0.5, txt, cex = cex * r)
text(.8, .8, Signif, cex=cex, col=2)
}
>pairs(USArrests, lower.panel= panel.smooth,upper.panel=
ma_correlacao)
B.2 - DISPERSÃO DE DADOS TRIDIMENSIONAL (SCATTER PLOT 3D)
Pacote: scatterplot3d
Função:
scatterplot3d(x, y=NULL, z=NULL, color=par("col"), pch=NULL,
main=NULL, sub=NULL, xlim=NULL, ylim=NULL, zlim=NULL,
xlab=NULL, ylab=NULL, zlab=NULL, scale.y=1, angle=40,
axis=TRUE, tick.marks=TRUE, label.tick.marks=TRUE,
grid=TRUE, box=TRUE, ...)
Parâmetros:
•
x – fonte de dados, caso utilize este parâmetros somente como coordenada é
necessário utilizar o parâmetro y e z;
•
y, z– coordenada y e z;
•
color – propriedade cor;
•
pch – uso de simbolos;
•
main – titulo da visualização;
•
sub – sub-titulo da visualização;
•
xlim, ylim, zlim – limites para as coordenadas;
100
•
xlab, ylab, zlab – títulos para os eixos;
•
scale.y – determinação escalas;
•
angle – projeção em diferentes ângulos;
•
axis – valor lógico que indica a remoção dos eixos;
•
tick.marks
–
valor
lógico
que
permite
a
remoção
das
linhas
tracejadas;
•
label.tick.marks – valor lógico para exibir layout dos valores das
linhas tracejadas;
•
grid – valor lógico que indica se as linhas devem ser visualizadas;
•
Box – valor lógica que indica a presença de um cubo na visualização
Exemplos de códigos:
#fonte: documentação do R
#visualização da figura b.1 – Mistura de cores
> library(scatterplot3d)# carregar pacote
> cc <- colors()
> crgb <- t(col2rgb(cc))
> par(xpd = TRUE)
> rr <- scatterplot3d(crgb, color = cc, box = FALSE, angle = 24,
xlim = c(-50, 300), ylim = c(-50, 300), zlim = c(-50, 300))
> cubedraw(rr)
> rbc <- rainbow(201)
> Rrb <- t(col2rgb(rbc))
> rR <- scatterplot3d(Rrb, color = rbc, box = FALSE, angle = 24,
xlim = c(-50, 300), ylim = c(-50, 300), zlim = c(-50, 300))
> cubedraw(rR)
> rR$points3d(Rrb, col = rbc, pch = 16)
Figura b.1 – Visualização dispersão de dados 3d
Representando um cubo com mistura de cores- Fonte: Documentação R
101
# projeção da Figura 5.7: Dispersão de dados tridimensional
representando resultado do algoritmo de agrupamento da base UEM2005”.
x <- read.table('D:/base_de_teste/uem_2005.txt') # carregar a base
de dados uem >
y <- x[-4]... # selecionar os atributos de interesse
> cl<-Kmeans(x,5,method = "euclidean") # agrupar a base
> library(scatterplot3d)# carregar pacote
> scatterplot3d(y, color=cl$cluster,type="h",angle=55, scale.y=0.7,
pch=16,
main="scatterplot3d
-
5")
#Projeção
da
base
de
dados
utilizando o atributo cor para representar os grupos
B.3 - COORDENADAS PARALELAS
Pacote: MASS
Função:
parcoord(x, col = 1, lty = 1, var.label = FALSE, ...)
Parâmetros:
•
x – base de dados;
•
col – propriedade cor (vetor);
•
lty – tipo de linhas (vetor);
•
var.label – valor lógico que indica a necessidade de layout.
Exemplos:
# Projeção da Figuras 5.5: Coordenadas paralelas gerado pelo
algoritmo K-means utilizando a base de dados “uem/2005”.
> x <- read.table('D:/base_de_teste/uem_2005.txt') #carregar a base
de dados uem
> y <- x[-4]... # selecionar os atributos de interesse
> cl<-Kmeans(x,5,method = "euclidean") #agrupar a base
> parcoord((x), col = cl$cluster)
# projeção da Figura 4.1a
x<-matrix(sample(1:10000,3400,),100,100)
102
cl<-Kmeans(x,3,method = "euclidean")
parcoord((x), col = cl$cluster)
B.4 - FACES DE CHERNOFF
Pacote: TeachingDemos
Função:
faces(xy, which.row, fill = FALSE, nrow, ncol, scale = TRUE, main, labels)
Parametros:
•
xy – x representa os registros e y os atributos (fonte de dados);
•
which.row –valor lógico que permite a permutação na linhas;
•
fill – se este valor é verdadeiro somente os atributos da base mapeado nas
propriedades da face sofrem transformação;
•
Nrow – número de colunas da face;
•
Scale- valor lógico que permite normalizar a escala das propriedades da face;
•
Main – titulo da visualização;
•
Labels – valor lógico que determina a projeção do layout para cada ícone.
Exemplos:
#fonte: documentação do R – figura b.2
faces(rbind(1:3,5:3,3:5,5:7))
data(longley)
faces(longley[1:9,])
set.seed(17)
faces(matrix(sample(1:1000,128,),16,8),main="random faces")
Figura b.2 – faces de chernof com valores aleatórios
103
Exemplos:
# Projeção da Figuras f.2: representa a faces de chernoff com todos
os registros da base de dados “USArrests”, o número acima da face,
significa
a qual grupo cada face pertence, agrupamento gerado pelo algoritmo
k-means.
> library(amap)
> library (TeachingDemos)
> x = USArrests
> cl<-Kmeans(x,5,method = "euclidean")
> faces(cl$centers)
> faces(x,labels=matrix(cl$cluster))
Figura F.2 – Faces de Chernoff, representando todos os registros da base de dados
“USArrests”, com o layout (número) representando o número do grupo a qual pertence.
B.5 - STAR PLOT
Pacote: graphics
Função:
stars(x, full = TRUE, scale = TRUE, radius = TRUE,
labels = dimnames(x)[[1]], nrow = NULL, ncol = NULL, len = 1,
key.loc = NULL, key.labels = dimnames(x)[[2]], key.xpd = TRUE,
...)
Paramêtros:
104
•
x- fonte de dados (matriz ou data frame)
•
full – parâmetro lógico, para o valor “True” é projeção é realizada em todo o circulo,
caso contrario é projetado na metade do circulo
•
scale – parâmetro lógico, para o valor “true” os dados são projetado numa escala de 0
a 1.
•
Radius - parâmetro lógico, habilita e desabilita os eixos emitidos, deixando apenas as
retas que conectam as pontas dos eixos.
•
Labels – layout de cada icone.
•
nrow,ncol – Numero de linhas e colunas
•
len - tamanho dos eixos.
Exemplo:
# Visualização da Figura 5.3
> x <- read.table('D:/base_de_teste/uem_2005.txt') #carregar a base de
dados uem
> library(graphics)# carregar biblioteca na memória
> y <- x[-13] #retirar o atributo class
> stars(y, key.loc = c(8, 2.5),main = "analise dos candidatos cluster" ,
flip. Labels=FALSE) #projetar visualização
# Visualização da Figura 4.7a
> stars(b,len = 0.8, key.loc = c(9, 1.5),draw.segments = TRUE)
Download