aplicação da mineração de dados para geração de conhecimento

Propaganda
2, 3 e 4 de Julho de 2009
ISSN 1984-9354
APLICAÇÃO DA MINERAÇÃO DE
DADOS PARA GERAÇÃO DE
CONHECIMENTO: UM EXPERIMENTO
PRÁTICO
Priscila Azarias
Universidade Tecnológica Federal do Paraná - Campus Ponta Grossa
Simone Nasser Matos
Universidade Tecnológica Federal do Paraná - Campus Ponta Grossa
Luciano Scandelari
Universidade Tecnológica Federal do Paraná - Campus Ponta Grossa
Resumo
A Gestão do Conhecimento está presente no cotidiano de qualquer
empresa e durante o processo de gestão é colhida uma grande
quantidade de dados, dificultando a obtenção da informação de forma
rápida e eficiente. Este artigo tem como objetivo apresentar a gestão
do conhecimento e uma de suas práticas, descrevendo seus principais
conceitos e como a tecnologia da informação pode auxiliar durante
este processo, assim como as principais ferramentas utilizadas. Este
trabalho realiza uma breve revisão bibliográfica sobre o assunto em
artigos relacionados ao tema, sendo classificado como uma pesquisa
qualitativa, realizando um experimento para a aplicação de uma das
tarefas da Mineração de Dados em uma base de exemplo.
Palavras-chaves: Mineração de Dados, Gestão do Conhecimento
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
1. INTRODUÇÃO
A informação é um recurso cada vez mais valorizado como viabilizador de decisões e
de processos de conhecimento/inteligência nos mais diferentes campos e demandam novas
teorias, novas habilidades de pensamento, novas capacidades para transformar dados caóticos
em informação útil e novos níveis de inovação que sejam capazes de desenvolver aplicações
práticas para informação obtida do ambiente interno ou externo à organização
(MARCONDES, 2001).
As empresas estão preocupadas com o valor da informação durante o seu processo
decisório, por isso, usam a Gestão do Conhecimento com o objetivo de estruturá-lo por meio
da utilização de diversas práticas, como a Inteligência Competitiva, que auxilia na coleta das
informações externas ao seu ambiente.
Estas práticas trabalham com uma grande quantidade de dados, armazenados nos
banco de dados da empresa, o que torna difícil seu processamento manual durante sua
transformação em informação que realmente agregue valor a organização.
Fayyad (1996) comenta que o ser humano não está preparado para interpretar uma
grande quantidade de dados e/ou espaços multidimenisonais. Uma das alternativas para o
gestor é utilizar ferramentas e técnicas, entre elas é possível destacar o Processo de descoberta
de Conhecimento – KDD (Knowledge Discovery in Database), em que uma de suas etapas
está a Mineração de Dados (Data Mining). A Mineração de Dados auxiliará as empresas na
análise das informações contidas em suas bases de dados. As informações descobertas serão
utilizadas para ajudar na tomada de decisão, otimizando os processos e retornando de forma
eficiente a informação para que se possa definir a estratégia mais adequada ao mercado e
clientes.
Este artigo tem como objetivo descrever os principais conceitos de Gestão do
Conhecimento e Inteligência Competitiva e um experimento prático da mineração de dados
em um banco de dados de exemplo. A Seção 2 apresenta a metodologia utilizada para o
desenvolvimento do trabalho. Na seção 3 relata os conceitos de Gestão do Conhecimento,
Inteligência Competitiva e as tecnologias utilizadas na Inteligência Competitiva. A seção 4
descreve a Mineração de Dados como umas das ferramentas a ser utilizada para a gestão do
conhecimento, assim como um experimento com uma base de dados de exemplo, aplicando a
Mineração de dados. A seção 5 relata as contribuições finais do trabalho.
102
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
2. METODOLOGIA
Este artigo possui uma abordagem qualitativa com relação ao tema Gestão do
Conhecimento e Mineração de Dados, uma vez que o ambiente natural é a fonte de coleta de
dados e o pesquisador é o instrumento, desde o desenvolvimento até a implantação nas
empresas (RICHARDSON, 1989).
Foram realizadas pesquisas científicas em normas técnicas, além da utilização de
material de orientação sobre os métodos descritos. Quanto aos fins a pesquisa é classificada
como descritiva, pois visa descrever as características de um determinado fenômeno para
estabelecer relações entre variáveis, e quanto ao meio, é bibliográfica, desenvolvida a partir
do material já elaborado, como: livros técnicos e artigos. (LAKATOS e MARCONI, 1991;
GIL, 1999).
3. GESTÃO DO CONHECIMENTO
Antes de definir a Gestão do Conhecimento (GC), é importante definir os tipos de
conhecimentos que estão relacionados em uma organização: o formal - contido nos livros,
manuais, documentos, periódicos, base de dados, repositórios, entre outros-; e o informal gerado e utilizado no processo de produção do conhecimento formal, constituído de idéias,
fatos, suposições, decisões, questões, conjecturas, experiências e pontos de vistas, sendo este
considerado como um ativo de patrimônio de grande valor.
A partir da definição proposta por Terra (2003), em que a Gestão do Conhecimento
(GC) nas organizações é vista como a capacidade que as mesmas possuem, por meio de seus
processos, de criar e utilizar o conhecimento. Para tal, é necessário o planejamento de
pessoas, cultura, processos e tecnologias de modo que trabalhem em conjunto para atender as
necessidades dos colaboradores, facilitando o aprendizado coletivo e o desenvolvimento de
uma organização mais estruturada na geração do conhecimento.
A GC é utilizada com o objetivo de fornecer a informação para as pessoas certas no
momento certo, auxiliando-as na tomada de decisão, de maneira a aumentar o desempenho da
organização (ROCHA, 2005). A GC deve ser vista como um conjunto de atividades que busca
desenvolver e controlar todo tipo de conhecimento contido em uma organização. Portanto, é
103
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
preciso estabelecer políticas, procedimentos e tecnologias que sejam capazes de coletar,
distribuir e utilizar efetivamente o conhecimento. (MORESI, 2001).
Moresi (2001) declara que um desafio enfrentado pelos gestores do conhecimento é
descobrir maneiras de transformar o estado atual da base de conhecimento da organização em
uma nova e poderosa ferramenta. Para auxiliar os gestores neste desafio, existem diversas
ferramentas desenvolvidas, entre elas Mineração de Dados (MD) ou Data Mining, que
descobre novas informações contidas em um grande conjunto de dados.
Um exemplo de aplicação da MD está relacionado às práticas de GC, que são técnicas
de gestão organizacional, voltada para a produção, retenção, disseminação, compartilhamento
e aplicação do conhecimento dentro da organização, citando como práticas utilizadas a
Inteligência Competitiva, Mapeamento de Competências, Aprendizagem Organizacional,
Benchmarking, Coaching, Comunicação Institucional, Comunidades de Prática, Educação
Corporativa/Universidade Corporativa, Gestão de Marcas e Patentes, Gestão do
Relacionamento com os Clientes, Lições Aprendidas, Mapeamento de Competências,
Mapeamento de Processos, Melhores Práticas, Memória Organizacional, Mentoring,
Normalização e Padronização e Portais Corporativos (LEUCH, 2006). No presente trabalho
será descrito apenas uma das práticas a Inteligência Competitiva (ALMEIDA et al., 2008).
3.1. INTELIGÊNCIA COMPETITIVA
A Inteligência Competitiva (IC) foca os processos responsáveis pela monitoração do
ambiente externo em que a organização está inserida, armazenando informações sobre a rede
de clientes, fornecedores e parceiros (TERRA & ALMEIDA, 2008). A IC por meio das
informações coletadas do ambiente competitivo da empresa e da análise dos resultados apóia
a tomada de decisão, gerando recomendações que consideram eventos futuros, auxiliando na
identificação de tendências de mercados em que a empresa atua, e não somente relatórios, os
quais justificam decisões passadas (GOMES & BRAGA, 2004).
Um ponto importante apresentado por LEUCH (2006) são algumas reflexões sobre os
processos de implementação da IC na empresa, composta de cinco fases:
 Planejar e identificar as necessidades de informação, onde está definição ocorrerá
a partir da estratégia da empresa e análise do mercado, e quais as principais
necessidades de informação.
104
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
 Coletar e tratar a informação, após a definição das necessidades de informação,
será identificado quais serão as fontes de informação e o modo como serão
coletadas e armazenadas.

Analisar e validar a informação, isto acontecerá por meio de uma equipe de
especialista, que efetuará uma análise e validação das informações armazenadas.
 Disseminar e utilizar estrategicamente a informação, onde será definido quem
deverá ter acesso as informações, de que modo e quando.

Avaliar, os responsáveis pela unidade de inteligência, embasados nos feedbacks
dos usuários e de maneira coerente com visão estratégica da empresa, avaliam as necessidades
de informação se mantiveram ou se alteraram.
O fluxo desses processos é descrito na Figura 1.
Figura 1. Processos de IC
Planejamento e
identificação
Coleta e
tratamento
Colaboradores
Análise e
validação
Disseminação
Avaliação
Fonte: Adaptado de Terra, 2003
Considerando a captura da informação utilizando uma ferramenta apropriada é
necessário que ocorra o processo de seleção da informação e também a sua organização,
gerando assim, o conhecimento que poderá ser divulgado e disseminado a todos os
colaboradores, conforme pode ser visualizado na Figura 1.
Para uma melhor codificação do conhecimento, ou seja, a transferência do
conhecimento entre os indivíduos, a utilização de tecnologias da informação adequadas
podem ser um facilitador, disseminando o conhecimento entre todos os interessados. Nesta
105
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
situação, a dependência da tecnologia é maior, já que são necessários sistemas mais
sofisticados para atender as necessidades das empresas (GHOSHAL & TANURE, 2004).
Estes sistemas devem oferecer subsídios para a criação do conhecimento, para tornar o
ambiente empresarial mais sistemático com relação aos seus processos, políticas e
ferramentas gerenciais, promovendo assim, a inovação e articulação da codificação, captura,
análise, validação, disseminação, compartilhamento e uso do conhecimento estratégico do
ambiente em que a organização se encontra inserida (TERRA, 2003).
3.2. TECNOLOGIA DA INFORMAÇÃO E IC
A IC é fundamentada em duas grandes bases: a informação e a velocidade de sua
utilização, essas duas características compõem a chave para o seu entendimento, já que a
mesma utiliza informações de diversos tipos de fontes que crescem rapidamente a cada dia,
dificultando o seu monitoramento e o processamento das informações armazenadas pelos
sistemas (BATTAGLIA, 1999).
Para atender a complexidade e as necessidades empresarias deve-se considerar a
utilização da tecnologia da informação e seus recursos disponíveis (REZENDE, 2006). A
Tecnologia da Informação (TI) pode apoiar os processos de IC, organizando o fluxo da
informação e auxiliando nos principais objetivos do sistema de inteligência competitiva:
alertar para possíveis oportunidades e ameaças, apoiar o processo de tomada de decisão
estratégica, avaliar e monitorar os concorrentes e clientes, a indústria e as tendências políticas
e sociais e ajudar no planejamento e no processo estratégico (GOMES & BRAGA, 2004).
Deve-se buscar uma tecnologia que seja capaz de impulsionar a estratégia da empresa
em vantagem competitiva sustentável. Todas as alternativas tecnológicas devem ser avaliadas
desta perspectiva. Segundo Mattos (2005), uma nova tecnologia deve criar algum tipo de
vantagem competitiva, que seja capaz de aumentar o valor de um produto para um cliente ou
reduzir os custos de levar um determinado produto ao mercado. A criação e aplicação de
novas tecnologias de produtos e processos são um constante desafio, e o entendimento destas
requer uma compreensão de todo o processo.
Para auxiliar estes processos existem diversas ferramentas de TI aplicadas ao apoio a
IC que devem atender os seguintes objetivos: a busca, a organização e a disseminação da
106
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
informação. As ferramentas devem possuir um ambiente que possibilite aos usuários acessar e
manter o conteúdo de maneira organizada.
Este artigo focará na utilização do MD como ferramenta de apoio a IC, que auxiliará
no processamento de uma grande quantidade de dados para a obtenção da informação.
4. UMA VISÃO GERAL SOBRE A MINERAÇÃO DE DADOS
A Mineração de Dados é uma das principais etapas da descoberta do conhecimento em
banco de dados, sendo conhecido Knowledge Discovery Database (KDD). Com base nas
definições de Quonian (2001), o KDD tem a finalidade de encontrar novas relações, padrões e
tendências significativas por meio de uma análise cuidadosa dos grandes conjuntos de dados
armazenados, que acabam por dificultar a abstração de informações dos mesmos. O processo
de descoberta do conhecimento nestes conjuntos de dados normalmente possui de acordo com
Goldschmidt & Passos (2005) as seguintes etapas:
 Pré-processamento: é responsável pela captação, organização e tratamento dos
dados. Tem como principal objetivo a preparação dos dados para os algoritmos da
etapa de mineração de dados.
 Data Mining (DM) ou Mineração de Dados (MD): realiza a busca real do
conhecimento no contexto da aplicação do KDD.
 Pós-processamento: compreende o tratamento do conhecimento obtido na MD,
objetivando viabilizar a avaliação da utilidade do conhecimento descoberto.
A MD consiste na aplicação de algoritmos específicos, os quais extraem padrões a
partir dos dados (FAYYAD& PIATETSKY-SHAPIRO & SMYTH, 1996). Esse processo de
extração normalmente é difícil de ser efetuado por uma pessoa, sendo viável sua
automatização.
A seguir será descrito as funcionalidades que as ferramentas de MD
normalmente apresentam são (FERREIRA, 2008):
 Predição: Classificar, estimar ou definir o valor ou o cluster referente a um objeto,
evento ou comportamento ainda não ocorrido.
 Classificação: Classificar e distribuir objetos e entidades em classes ou categorias
pré-definidas por meio do reconhecimento de padrões.
107
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
 Agrupamento: Identificar grupos lógicos de pessoas, objetos ou eventos de acordo
com seus atributos.
 Associações: Determinar qual seria o comportamento de um objeto ou entidade na
presença de outro objeto.
 Sequenciação: Prever sequências de eventos que possam conduzir a outros
eventos.
Segundo Ferreira (2008), a MD não elimina a necessidade do conhecimento do
negócio, é uma tecnologia difícil de entender e requer competências especializadas e não
remove a necessidade de competência da análise dos dados gerados durante a MD.
4.1. EXPERIMENTO COM A FERRAMENTA WEKA NA OBTENÇÃO
DO CONHECIMENTO DE UMA BASE DE DADOS
Para auxiliar no entendimento de como ocorre o processo da MD, foi desenvolvido um
experimento com uma base de dados de exemplo, com o objetivo de aplicar um algoritmo de
classificação, para identificar as principais características encontradas nesta base.
Para tal foi usado à ferramenta WEKA, que foi desenvolvida pela Universidade
Waikato, e possui uma coleção de algoritmos de aprendizagem de máquina para as tarefas de
MD. Onde os algoritmos poderão ser aplicados por meio de uma interface gráfica que auxilia
durante todo o processo.
4.1.1. CONHECENDO A BASE DE DADOS
A base selecionada para o experimento é uma base de domínio público disponível para
download, na qual os pesquisadores podem baixar e realizar teste da aplicação dos algoritmos
da MD na fonte de dados. A base escolhida contém informações referentes aos clientes que
solicitaram um cartão de crédito e seu pedido foi aprovado ou não. A partir dos atributos
informados. A tabela 1 descreve os atributos contidos na base e os respectivos valores que
cada atributo pode receber.
108
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
Tabela 1 - Descrição dos atributos
Atributo
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
A11
A12
A13
A14
A15
A16
Valores
b, a
Numérico
Numérico
u, y, l, t
g, p, gg
c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff
v, h, bb, j, n, z, dd, ff, o
Numérico.
t, f
t, f
Numérico
t, f
g, p, s
Numérico
Numérico
+,-
Conforme pode ser visualizado na tabela 1, os atributos são nomeados como A1, A2,
A3,..., An para proteger a confidencialidade das informações, onde n é igual a 16. O atributo
A1 é um atributo correspondente a um dos valores em uma tabela do banco de dados, como
exemplo, este atributo poderia ser referente ao Sexo do cliente podendo receber os valores M
(Masculino) e F (Feminino).
Cada registro em um banco de dados, consiste de um conjunto de atributos descritos
como previsores e um atributo denominado de meta, um algoritmo de MD é aplicado a um
conjunto de exemplos de treinamentos (registros) com uma classe conhecida, para então,
descobrir regras que localizem algum relacionamento entre os atributos previsores e o atributo
meta. Essa relação é utilizada para prever a classe de exemplos cuja classe é desconhecida, ou
seja, para prever o valor do atributo meta (FIDELIS et al., 1999).
Com a identificação dos atributos contidos na base o próximo passo é a definição de
qual tarefa de mineração será aplicada. A título de pesquisa escolheu-se a tarefa de
classificação, para agrupar os atributos comuns a partir de um atributo meta.
Antes da aplicação do algoritmo de mineração de dados, o conjunto de dados é de
difícil interpretação, conforme podemos visualizar na figura 2.
109
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
Figura 2 - Dados antes da aplicação da MD
Conforme pode ser visualizado na figura 2, a interpretação e abstração de qualquer
tipo de informação fica impossibilitada devido a forma como os dados são apresentados,
sendo uma tarefa difícil para o ser humano realizar.
4.1.2. Classificação e aplicação do algoritmo
Assumindo que o problema é delinear um procedimento que será aplicado em um
banco de dados em que as classes são predefinidas e cada novo dado deverá ser associado a
uma destas classes, este processo é conhecido como reconhecimento de padrões,
discriminação, aprendizagem supervisionada ou classificação (ROMÃO et al., 2000).
Segundo Romão (2000), existe diversas formas de representação do conhecimento em
um sistema de aprendizagem, muitas vezes, o conhecimento é expresso como um conjunto de
regras de classificação do tipo SE-ENTÃO, uma vez que está é intuitiva ao usuário. As regras
do tipo SE-ENTÃO são também conhecidas como regras de produção, sendo representada da
seguinte forma:
SE <antecedente> ENTÃO <conseqüente>
O antecedente contém uma combinação, normalmente um conjunto de condições que
irá prever à partir dos valores dos atributos. E o consequente contém o valor previsto para o
atributo-meta. Um exemplo desta regra é considerar uma carteira de clientes de um banco em
110
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
que se deseja localizar os clientes que poderão receber um empréstimo bancário, os quais são
avaliados os seguintes atributos: faixa salarial e idade, onde (FREITAS, 2002):
SE (Salário >= 2000) E (Idade > 25)
ENTÃO Cliente = “Empréstimo concedido”
SE (Salário < 1000) E (Idade < 25)
ENTÃO Cliente = “Empréstimo negado”
O algoritmo de mineração de dados tem as regras que acessam somente as regras
definidas, onde o algoritmo terá acesso aos valores de predição e ao atributo-meta de cada
exemplo no conjunto de treinamento. Portanto, a principal tarefa é descobrir regras de
classificação capazes de prever o valor de um atributo-meta a partir dos valores de atributos
previsores.
Para identificar estas regras utiliza-se um algoritmo que é responsável em identificar e
classificar estes atributos, dentre os vários algoritmos existentes o mais utilizado é o da árvore
de decisão.
As árvores de decisão são modelos estatísticos utilizados em problema de predição
supervisionado, em que um conjunto de atributos é usado para predizer o valor de um atributo
de saída (resultado), sendo o mapeamento destas entradas para as saídas denominadas de
modelo preditivo (ONODA et al., 2001). Elas consistem em nodos que representam os
atributos; de arcos, provenientes destes nodos e que recebem os valores possíveis para estes
atributos; e de nodos folhas, que representam as diferentes classes de um conjunto de
treinamento (SHIBA et al., 2005).
Os resultados retornados pelo algoritmo podem ser: discreto (modelo de árvore de
classificação) ou contínuo (árvore de regressão). O resultado discreto ocorre quando as folhas
fornecem a classe predita e sua probabilidade, já o contínuo fornece apenas uma predição de
valor do resultado (MONARD et al., 2005).
Normalmente o método utilizado no crescimento da árvore de decisão é baseado em
partições recursivas (algoritmo chamado de guloso descendente), começando pelo nó raiz, um
número de quebras pertinentes a um atributo de entrada é examinado.
O nó raiz é dividido de acordo com uma quebra selecionada, a divisão desta árvore é
repetida para cada nó filho como se ele fosse à raiz de uma nova árvore, a profundidade da
árvore irá depender de um critério de parada definido por Onoda et al. (2001).
Segundo Onada et al (2001), uma árvore de decisão poderá crescer até todo nó ser
puro (árvore máxima) quando conterá 100% de precisão nos dados de treinamento, enquanto
111
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
que uma árvore pequena com poucos ramos pode subaproveitar os dados e consequentemente
pode falhar na adaptação de novos atributos, resultando em uma generalização pobre.
Após concluir a construção da árvore é necessário avaliá-la, por meio da utilização de
dados que não tenham sido usados no treinamento, esta estratégia possibilita estimar como a
árvore generaliza os dados e se adapta a novas situações, podendo também estimar a
proporção de erros e acertos ocorridos na construção da mesma (SHIBA et al., 2005).
Diante deste contexto, foi utilizada a ferramenta WEKA para gerar uma árvore de
decisão a partir dos dados contidos na base selecionada. Para tal, primeiramente é necessário
gerar um arquivo, com a extensão ARRF, onde serão identificadas as classes conhecidas,
ficando o arquivo estruturado da seguinte maneira:
 Relação: Primeira linha do arquivo. Deve conter a variável @Relation seguida de
uma palavra-chave que identifique a relação ou tarefa que está sendo executada.
 Atributos: conjunto de linhas, em que cada linha é iniciada com @attribute seguida
do nome do atributo e seu tipo, que pode ser nominal – as alternativas devem
aparecer como uma lista separada por vírgulas e cercada por chave – ou numérico
– o nome deve ser seguido da palavra chave real –. Normalmente, em uma tarefa
de classificação supervisionada, em que as classes e instâncias usadas para o
treinamento são conhecidas, o último atributo é a classe para as instâncias (atributo
meta).
 Dados: Após uma linha contendo @data. Cada linha deve corresponder a uma
instância e deve ter valores separados por vírgula correspondentes dos atributos da
seção @attribute.
Neste arquivo, o atributo meta definido foi o A16 que é o atributo que informa se o
crédito foi aprovado ou não. A figura 3 mostra como o arquivo ficou formatado.
112
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
Figura 3 - Formatação Arquivo
Após a conclusão da formatação do arquivo, foi possível utilizar o WEKA para a
aplicação do algoritmo J48 que é um algoritmo de árvore de decisão. Este algoritmo constrói
um modelo de árvore de decisão baseado num conjunto de dados de treinamento e usa esse
modelo para classificar as instâncias do conjunto de testes, utilizando a técnica do guloso
descendente. O resultado da execução da mineração de dados pode ser visualizado na figura
4. Pode-se verificar que os dados gerados são mais fáceis de serem interpretados do que os
dados ilustrados na Figura 2, pois se geram a partir de dados e da aplicação de um algoritmo
de DM suas regras de conhecimento.
113
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
Figura 4- Saída algoritmo J48
=== Classifier model (full training set) ===
J48 pruned tree
-----------------A9 = t
| A10 = t: + (228.0/21.0)
| A10 = f
| | A15 <= 444
| | | A7 = v
| | | | A4 = u
| | | | | A14 <= 112: + (16.57/1.57)
| | | | | A14 > 112
| | | | | | A15 <= 70: - (30.0/10.0)
| | | | | | A15 > 70: + (2.0)
| | | | A4 = y
| | | | | A13 = g: - (12.0/2.0)
| | | | | A13 = p: - (0.0)
| | | | | A13 = s: + (3.0/1.0)
| | | | A4 = l: - (0.0)
| | | | A4 = t: - (0.0)
| | | A7 = h: + (27.24/8.24)
| | | A7 = bb
| | | | A3 <= 1.375: + (5.0/1.0)
| | | | A3 > 1.375: - (9.13/1.0)
| | | A7 = j: - (1.01)
| | | A7 = n: + (0.0)
| | | A7 = z: + (0.0)
| | | A7 = dd: + (1.01/0.01)
| | | A7 = ff: - (5.05/1.0)
| | | A7 = o: + (0.0)
| | A15 > 444: + (21.0/1.0)
A9 = f
| A3 <= 0.165
| | A7 = v
| | | A2 <= 35.58: - (18.72/3.44)
| | | A2 > 35.58: + (3.6/0.16)
| | A7 = h: - (0.0)
| | A7 = bb: + (1.24/0.08)
| | A7 = j: + (1.24/0.08)
| | A7 = n: + (1.24/0.08)
| | A7 = z: - (0.0)
| | A7 = dd: - (0.0)
| | A7 = ff: - (4.96/0.64)
| | A7 = o: - (0.0)
| A3 > 0.165: - (298.0/12.0)\
Number of Leaves :
Size of the tree :
30
42
A figura 4 mostra a saída do algoritmo J48, representando cada atributo que o banco
de dados créditos possui. Onde se interpreta que cada linha representa um nó da árvore. As
linhas que possui o caractere “ | ” são filhos dos nós principais, como ilustra a Figura 5.
Figura 5 - Parte do resultado do algoritmo
A9 = t  Nó Pai
| A10 = t: + (228.0/21.0)  Nó filho
E na próxima parte da linha é declarada a regra. Após a regra encontra-se o resultado,
que neste exemplo, tenta-se achar os atributos dos clientes que tem seu crédito aprovado ou
reprovado. A primeira parte dos valores entre parênteses indica quantas instâncias no conjunto
estudado são corretamente classificados para este nó, na figura 3, visualiza-se que foram
encontradas 228 instâncias e na segunda parte indica o número de instâncias incorretamente
classificados.
114
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
A partir dos dados da figura 2, é possível agora identificar como que cada atributo se
relaciona entre si, para alcançar o atributo meta, que no nosso experimento foi o atributo A 16
que identifica se o crédito foi ou não aprovado, no exemplo da figura 5, é possível identificar
que os clientes que possuem o atributo A9 igual a “t” e se o atributo A10 for igual “t” possui o
crédito como aprovado.
Ao final de toda a árvore são mostrados alguns dados de medição de erros sobre o
modelo gerado, como ilustra a Figura 6.
Figura 6 - Medição de Erros
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
594
86.087 %
Incorrectly Classified Instances
96
13.913 %
Kappa statistic
0.718
Mean absolute error
0.1924
Root mean squared error
0.3313
Relative absolute error
38.9417 %
Root relative squared error
66.6637 %
Total Number of Instances
690
Através destas estatísticas geradas é possível identificar a quantidade de erros
encontrados no conjunto de dados analisados, se a diferença entre as instâncias classificados
corretamente e as instâncias incorretas forem grandes, talvez seja necessária recomeçar todo o
processo e ajustá-lo para que o mínimo de erros seja encontrado.
Todo o processo é facilitado com a utilização da ferramenta WEKA, que corretamente
configurada pode ser uma ferramenta que agregue valor a empresa. Através dela é possível
tomar conhecimento de regras ainda desconhecidas, pois está é capaz de identificar com
certas facilidades novos padrões e tendências, que de outra forma poderia demandar muito
tempo, e quando finalmente a informação chegasse às mãos dos tomadores de decisão essas já
poderiam estar defasadas devido às mudanças dinâmicas do mercado.
5. CONTRIBUIÇÕES FINAIS
115
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
Um fator que diferencia as organizações é sua capacidade de transformar os dados
disponíveis em informação e conhecimento de valor agregado, que suportem a tomada de
decisões de negócio aos níveis estratégicos, táticos e operacionais.
Para tal as organizações hoje podem contar com uma grande variedade de ferramentas,
entre elas a DM, que tem como objetivo transformar os dados em informações que as
empresas poderão vir a utilizar na tomada de decisão e nas definições de suas estratégias no
mercado, buscando a melhoria contínua de seus processos, produtos e serviços prestados a
comunidade.
A Gestão do conhecimento tem um grande impacto nas organizações, tornando-as
mais competitiva no mercado, pois são empresas capazes de gerir seu conhecimento e
disseminá-lo. Conhecendo como desenvolver e incorporar novas informações de maneira
mais rápida, obtendo uma visão diferenciada de seus concorrentes.
Os resultados apresentados no presente artigo atingiram os objetivos desta pesquisa
evidenciando que a utilização de uma ferramenta capaz de descobrir novas informações em
banco de dados, onde contém uma grande quantidade de dados, pode ser um grande
diferencial para a empresa que consegue utilizar a ferramenta de forma correta. A ferramenta
facilita a interpretação e abstração dos dados que a empresa possui em seus bancos de dados.
É importante salientar que a ferramenta de mineração de dados não substitui o papel
do gestor. Para que a mineração de dados retorne um bom resultado é preciso uma constante
parceria entre os especialistas técnicos com os especialistas de negócio. Podendo assim, a
empresa criar realmente um diferencial perante seus concorrentes, por conseguir manipular
suas informações de forma rápida e eficiente, tomando uma posição estratégica no mercado.
Como sugestões de trabalhos futuros propõem-se: a ampliar o presente estudo com
vistas em seu aperfeiçoamento; desenvolver uma pesquisa com relação ao impacto das
informações geradas na gestão das empresas que utilizam a mineração de dados como
ferramenta de planejamento estratégico; elaborar um estudo sobre as demais tarefas de
mineração de dados.
REFERÊNCIAS
ALMEIDA, Adiel Teixeira and COSTA, Ana Paula Cabral Seixas. Sistemas de Informação
e Gestão do conhecimento. Introdução à Engenharia de Produção. 2008.
116
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
BATTAGLIA, Maria da Glória Botelho. A inteligência Competitiva modelando o Sistemas
de Informação de Clientes - FINEP. Ciência da Informaçào. 1999, vol. 29, pp. 200-214.
1999.
CARVALHO, Rodrigo Baroni de. Aplicações de Software de Gestão do Conhecimento:
Tipologia de Uso. Tese de Mestrado. Minas Gerais: Universidade Federal de Minas Gerais,
2000.
CASANOVA, Anderson Araújo. Mineração de Dados: Algoritmo da confiança inversa.
Dissertação. São Luís: Universidade do Maranhão: Curso de Pós-Graduação em engenharia
de eletricidade, 2005.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge
Discovery in Databases. AI MAGAZINE , 37-54. 1996.
FERREIRA, Antônio. Organizações Inteligentes do Data Mining às soluções Preditivas.
Lisboa : NovaBase, 2008.
FIDELIS, Marcos Vinicius, LOPES, Heitor Silvério e FREITAS, Alex Alves. Um algoritmo
genético para descobrir regras Data Mining. Anais do XIX Congresso Nacional da
Sociedade Brasileira de Computação. 1999, Vol. IV, pp. 17-29.
FREITAS, Alex Alves. A Survey of evolution algorithms for Data Mining and Knowledge
Discovery. Advances in Evolutionary Compution. 2002, pp. 819-845.
GHOSHAL, Sumantra e TANURE, Betania. Estratégia e Gestão Empresarial:
Construindo empresas brasileiras de sucesso. Rio de Janeiro : Elsevier, 2004.
GOMES, Elisabeth e BRAGA, Fabiane. Inteligência Competitiva: Como transformar
informação em um negócio lucrativo. Rio de Janeiro: Campus, 2004.
LAKATOS, E. M. MARCONI, M. A. Fundamentos de Metodologia científica. 4. ed. São
Paulo: Atlas, 2001.
LEUCH, Verônica. Gestão do conhecimento na empresa: elementos facilitadores e
possíveis barreiras. Programa de Pós-Graduação em Engenharia de Produção - Universidade
Tecnólogica Federal do Paraná. 2006.
MATTOS, João Loureiro de e GUIMARÃES, Leonam dos Santos. Gestão da Tecnologia e
Inovação: Uma abordagem prática. São Paulo : Saraiva, 2005.
MARCONDES, Carlos Henrique. Representação e economia da Informação. Ciência da
Informação. 30, 2001, Vol. 3, pp. 61-70.
117
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
MONARD, M. C. e BARANAUSKAS, J. A.
Aplicações. Baueri, SP : Manole, 2005.
Sistemas Inteligentes: Fundamentos e
MORESI, Eduardo Amadeu Dutra. Integração Organizacional: um referencial integrado.
Ciência da Informação. 2, 2001, Vol. 30, pp. 35-46.
ONODA, Mauricio e EBECKEN, Nelson F. F. Implementação em Java de um algoritmo
de árvore de decisão acoplado a um SGBD Relacional. Simpósio Brasileiro de Banco de
Dados. XVI, 2001, pp. 55-64.
QUONIAN, L. E.. Inteligência obtida pela aplicação de Data Mining em bases de teses
francesas sobre o Brasil. Ciência e Informação, 30, pp. 20-28. 2001.
REZENDE, Denis Alcides e ABREU, Aline França de. Tecnologia da Informação:
aplicada a sistema de informação empresariais. Rio de Janeiro: Atlas, 2006.
RICHARDSON, Roberto Jarry et al. Pesquisa social: métodos e técnicas. 2. ed. São Paulo:
Atlas, 1989.
ROCHA, Roberto Rego Vieira da. O Processo de Gestão do Conhecimento como uma
ferramenta estratégica duratora e eficaz para as organizações: desafios e barreiras para
a implementação. . ENEGEP. 2005.
ROMÃO, Wesley, FREITAS, Alex Alves e PACHECO, Roberto dos Santos. Uma revisão de
abordagens genético-difusas para descoberta de conhecimento em banco de dados. Acta
Scientiarum. 2000, pp. 1347-1359.
SHIBA, Marcelo Hiroshi, et al. Classificação de imagens de sensoriamento remoto pela
aprendizagem por árvore de decisão: Uma avaliação de desempenho. Anais XII Simpósio
Brasileiro Remoto pp. 16-21. 2005.
TARAPANOFF, Kira, JÚNIOR, Rogério Henrique Araújo e CORNIER, Patricia Marie
Jeanne. Sociedade da informação e inteligência em unidade de informação. Ciência da
Informação. n. 3, Vol. V. 29, pp. 91-100. 2000.
TERRA, José Cláudio Cyrineu e ALMEIDA, Carolina. Gestão do Conhecimento e
Inteligência Competitiva: duas faces da mesma moeda. Terra Forum Consultores.
Disponível em <http://www.terraforum.com.br/sites/terraforum/Biblioteca/Duas%20faces
%20da% 20mesma%20moeda.pdf>. Acessado em 12 de junho de 2008.
TERRA, José Cláudio Cyrineu. Gestão do Conhecimento e E-Learning na prática. Rio de
Janeiro : Elsevier, 2003.
118
V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
Gestão do Conhecimento para a Sustentabilidade
Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009
VALENTIM, Marta Lígia Pomim e MOLINA, Letícia Gorri. Prospecção e Monitoramento
informacional no processo de Inteligência Competitiva. Ciência da Informação. 2004.
WEKA. The University of Waikato: Software. Disponível em < http://www.cs.waikato.ac.nz/
ml/weka/>. Acesso em 24/11/2008.
119
Download