Agregando valor ao negócio com Data Mining: uma ferramenta de

Propaganda
Agregando valor ao negócio com Data Mining: uma ferramenta de apoio a
decisão
Adding value to the business with Data Mining: a tool to support the Decision
Sandra Santos Leodoro1
Victor Felipe Martins Catulino2
Rodrigo Vitorino Moravia3
Fabrício Pires Vasconcellos4
Resumo: As organizações vêm adotando ferramentas que auxiliem na tomada de decisão. O Data
Mining pode ser uma dessas ferramentas, pois tem como objetivo descobrir informações que agregam
valor ao negócio, buscando em massa de dados padrões que levam a descoberta de conhecimento,
gerando insumos aos gestores, resultando em minimização de desperdício, obtenção de lucro e base
para tomada de decisão. Este artigo tem como objetivo demonstrar o uso do Data Mining como uma
ferramenta estratégica de descoberta de informações que agregam valor ao negócio, apresentando
assim o processo de mineração, o funcionamento do algoritmo árvore de decisão, e exemplos de
empresas que aplicaram o Data Mining e os resultados obtidos.
Palavras-chave: Mineração de dados. Descoberta do Conhecimento. Árvore de decisão. Algoritmos.
Abstract: Organizations are adopting tools that assist in decision making. Data mining can be one of
these tools, it aims to discover information that adds value to the business, seeking mass data patterns
that lead to knowledge discovery, generating inputs to managers, resulting in minimization of waste,
making a profit and base for decision making. This article aims to demonstrate the use of data mining
as a strategic tool for discovering information that add value to the business, thus presenting the mining
process, the operation of the decision tree algorithm, and examples of companies that have
implemented the Data Mining and the obtained results.
Keywords: Data mining. Discovery Knowledge. Decision tree. Algorithms.
1 Graduanda do curso Bacharelado em Sistemas de Informação pela Faculdade Infórium de Tecnologia.
[email protected].
2 Graduando do curso Bacharelado em Sistemas de Informação pela Faculdade Infórium de Tecnologia.
[email protected].
3 Especialista em Gestão da Informação pelo Instituto de Educação Continuada da Pontifícia Universidade Católica de Minas
Gerais. Professor da Faculdade Infórium de Tecnologia. [email protected].
4 Professor da Faculdade Infórium de Tecnologia. Mestre em Sistemas de Informação e Gestão do conhecimento
[email protected]
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
1 INTRODUÇÃO
Este artigo tem como tema a utilização do Data Mining (DM) como uma
ferramenta de apoio à tomada de decisão.
Assim, delimitou-se este trabalho a uma análise do DM, para demonstrar
as fases, eficiência, os benefícios da ferramenta, na geração de informações úteis que
agregam valor ao negócio gerando insumos de apoio à tomada de decisão.
O objetivo geral é apresentar a mineração de dados na descoberta de
conhecimento e o resultado que essa ferramenta pode trazer. São objetivos
específicos identificar as fases de processamento; demonstrar as técnicas do DM;
expor alguns resultados do uso da tecnologia.
No contexto deste objetivo busca-se responder se: os dados armazenados
em um banco de dados interferem na tomada de decisão da gestão e na estratégia
da organização?
Justifica-se esta pesquisa tendo em vista que é possível através do
resultado do processo DM obter informações que podem ser usadas como base para
a tomada de decisão. (CARDOSO, 2008)
Quanto a metodologia trata-se de uma pesquisa do tipo exploratória
baseada na técnica de análise bibliográfica, onde buscou-se reunir uma base teórica
para explicitar o objeto de pesquisa.
2 ABORDAGEM TEÓRICA SOBRE O DATA MINING
Para se manterem competitivas no mercado, as organizações precisam ter
acesso às informações, geralmente "escondidas" entre os dados de seus sistemas,
bem como ter meios de utilizá-las no processo de tomada de decisões
(MARTINHAGO, 2005, p.9). Para tanto necessitam de técnicas e ferramentas de
análise de dados automatizadas.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Neste contexto, segundo Elmasri e Navathe (2005), há a descoberta de
conhecimento em bancos de dados chamada de Knowledge Discovery in Databases,
abreviada
de
KDD,
é
um
processo
que
se
fundamenta
em
3
áreas:
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
I - Data Warehouse (DW): oferece os dados com a visão histórica adequada
tanto à extração de conhecimento quanto à apresentação de resultados.
II - Data Mining (DM): agrupa os dados, otimiza classificações, estimativas
e previsões, faz associações e extrai o conhecimento implícito nos dados (regras do
negócio).
III - On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de
consulta que apresentam os resultados tanto das consultas diretas ao DW quanto das
respostas da mineração dos dados contidos no mesmo.
Ainda sobre o KDD, ele possui fases que devem ser executas para que
resulte na descoberta do conhecimento e podem ser compreendidas como:
a) Seleção: Neto (2012), descreve como sendo também chamada de
amostragem de dados, uma etapa de agrupamento dos dados, que
define quais serão os dados a serem minerados, os quais podem ser
selecionados de diversas fontes como: banco de dados relacional,
arquivos de textos legados, dentro outros;
b) Pré-processamento: o momento que os dados passam por uma
adequação. Neto (2012), apresenta como sendo o momento onde os
dados são organizados, as inconsistências são tratadas e ao final do
processo devem possuir o formato correto e não apresentar duplicidade,
entre outras características;
c) Transformação: é a etapa de armazenamento dos dados, de forma a
facilitar o uso das técnicas de DM. Esta fase transforma dados brutos
em dados transformados para a aplicação da técnica inteligente e
depende de algoritmos utilizados na fase de DM (NETO, 2012);
d) Mineração de Dados – DM: é a fase que Neto (2012) declara ser
conhecida como algoritmo de aprendizagem. É a principal atividade do
conhecimento aplicando, para este fim, técnicas inteligentes de
extração do conhecimento. Nesta fase são aplicados algoritmos
mineradores, como por exemplo: redes neurais, árvores de decisão,
análise
de
clustering,
dentre
outros;
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
e) Avaliação: descrita por Neto (2012) como sendo a fase de interpretação
e avaliação. Consiste em interpretar os dados gerados e verificar se
possuem alguma validade para o problema proposto, pois nessa fase
são validados todos os resultados obtidos na mineração.
A figura 1 demonstra essas fases e como elas se integram.
Figura 1 - Fases do processo KDD (Fonte: Fayyad et al., 1996a)
Fonte: Adaptado de: Fayyad et al., 1996
Este artigo tem foco na etapa II do KDD, o DM. Mas antes de tudo no
quadro 1 apresenta a definição de DM sob a visão de alguns autores.
Quadro 1 - Definições de Data Mining.
Autor:
Definição:
Elmasri e Navathe, (2005, p.624)
“Como o nome indica, data mining se refere à
mineração ou a descoberta de novas
informações em função de padrões ou regras
em grandes quantidades de dados. Para ser
útil, na prática, a data mining precisa ser
realizada eficientemente em grandes arquivos
e bancos de dados. Atualmente ela não possui
uma boa integração com os sistemas
gerenciadores de bancos de dados. “
Martinhago (2005, p.45)
“[...]considerada como o núcleo do processo
de descoberta de conhecimento em banco de
dados, consiste na efetiva aplicação da técnica
de Mineração de Dados através do algoritmo
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
escolhido sobre os dados a serem analisados
com o objetivo de localizar padrões.”
Jorge, (2007, p.8)
“Procura de padrões úteis em grandes
quantidades de dados”
Cardoso (2008, p.497)
“Data mining, ou mineração de dados, é uma
técnica que faz parte de uma das etapas da
descoberta de conhecimento em banco de
dados. Ela é capaz de revelar,
automaticamente, o conhecimento que está
implícito em grandes quantidades de
informações armazenadas nos bancos de
dados de uma organização. Essa técnica pode
fazer, entre outras, uma análise antecipada
dos eventos, possibilitando prever tendências
e comportamentos futuros, permitindo aos
gestores a tomada de decisões baseada em
fatos e não em suposições.”
Gonçalves (2011, p.4)
“Processo realizado através de estratégias
automatizadas que tem por objetivo a
descoberta de conhecimento valioso em
grandes bases de dados.”
Neto, (2012, p.11)
“Também conhecido como algoritmo de
aprendizagem, esta fase aplica a técnica
inteligente para extração do conhecimento. Na
fase seguinte, é aplicado o algoritmo
minerador, como por exemplo: redes neurais,
árvores de decisão, análise de clustering,
dentre outros”
Viana (2013, p.45)
“Data mining, ou mineração de dados trata-se
do processo de análise de dados utilizando se
de técnicas para exploração, de forma a
descobrir novos padrões e relações
interessantes podendo representar
informações de grande relevância. Devido ao
grande montante de dados esses padrões
dificilmente seriam descobertos com métodos
mais tradicionais como consultas a base de
dados ou relatórios.”
Fonte: elaboração do autor
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Conforme Neto (2012), é possível extrair informações relevantes como
padrões, associações, mudanças, anomalias e estruturas em grande quantidade de
dados armazenados em banco de dados, depósito de dados ou outros repositórios de
informação. A figura 2 é uma abstração para exemplificar que é possível transformar
massas de dados em informações valiosas.
Figura 2 - Um “pequeno diamante de informação” é extraído a partir de uma
verdadeira “montanha de dados”!
DADOS
DADOS
DADOS
DADOS
DADOS
Fonte: Adaptado de: Gonçalves e Corrêa, 2011
Sob a perspectiva de Faria (2014), explicita-se alguns termos utilizados na
seguinte citação “Extração de conhecimento em Base de Dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e compreensíveis
embutidos nos dados.” (REZENDE, 2003, p.309):
a) Dados: um repositório de dados do domínio da aplicação alvo que serão
analisados;
b) Padrões: denotam alguma abstração de um subconjunto dos dados em
alguma linguagem descritiva de conceitos;
c) Processo: uma atividade que envolve diversas etapas;
d) Válidos: padrões descobertos que devem possuir algum grau de certeza
(validade);
e) Novos: padrões encontrados que devem fornecer novidades sobre os
dados.
f) Úteis: padrões descobertos devem ser utilizáveis e compreensíveis,
onde os usuários devem entender os padrões descobertos e poder
analisá-los mais a fundo;
g) Conhecimento: relacionado a medidas de utilidade, originalidade e
compreensão
do
domínio
aplicado
(resultado
final).
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Antes de gerenciar o conhecimento, é necessário entender o que são
dados, informações e conhecimento. Cardoso e Machado (2008), conceituam esses
termos conforme descrito abaixo:
Dados são fatos, imagens ou sons que podem ou não ser úteis ou pertinentes
para uma atividade particular. São abstrações formais quantificadas, que
podem ser armazenadas e processadas por computador.
Informações são dados contextualizados, com forma e conteúdo apropriados
para um uso particular. São abstrações informais (não podem ser
formalizadas segundo uma teoria matemática ou lógica) que representam,
por meio de palavras, sons ou imagens, algum significado para alguém.
Conhecimento é uma combinação de instintos, ideias, informações, regras e
procedimentos que guiam ações e decisões; tem embutido em si valores
como sabedoria e insights. É a inteligência obtida pela experiência. Como
exemplo, pode-se citar a experiência que um funcionário possui por ter
trabalhado em determinadas atividades numa organização por muito tempo.
(CARDOSO e MACHADO, 2008, p.5).
DM tem como objetivo, através de mineração de dados processados
gerar informações úteis que forneçam insumos para a tomada de decisão da gestão,
agregando assim conhecimento a organização.
3 TÉCNICAS DE MINERAÇÃO DE DADOS E ALGORITMOS DA FASE
Conforme Guimarães (2010), dados brutos são inúteis e se faz necessário
a utilização de técnicas que extraiam informações desses dados.
“A mineração de dados baseia-se na utilização de algoritmos capazes de
vasculhar grandes bases de dados de modo eficiente e revelar padrões interessantes,
escondidos dentro da “montanha de dados”.” (GONÇALVES, 2011, p.5)
Mendes (2011), apresenta dois modelos aplicados em DM, os quais são
utilizados para extração de conhecimento:
a) O modelo preditivo: que são métodos capazes de prever valores futuros
ou desconhecidos por meio de algumas variáveis, antecipar o
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
comportamento ou valor futuro baseado no conhecimento passado.
Métodos do modelo preditivo: classificação, regressão e detecção de
desvios.
b) O modelo descritivo: são métodos capazes de descobrir padrões
interpretáveis que descrevam conjuntos de dados, para encontrar um
padrão que consiga explicar os resultados e os valores obtidos.
Métodos do modelo descritivo: agrupamento ou clustering, descoberta
de regras de associação, descoberta de padrões sequenciais.
Muniz (2008) faz uma breve descrição sobre as técnicas que são aplicadas
aos métodos e modelos aplicados ao DM:
a) Previsão: é um determinado item e um respectivo modelo. É a
capacidade de deduzir um valor para um atributo específico do item;
b) Regressão: um conjunto de itens; é a análise da dependência entre os
valores de atributos e, automaticamente, produzir um modelo que possa
prever valores de atributos para novos itens;
c) Classificação: é um conjunto de classes pré-definidas, podem
determinar qual classe um novo item pertence;
d) Agrupamento: um conjunto de itens que determina um conjunto de
classes, nos quais os itens são agrupados de acordo com suas
características;
e) Associação: um conjunto de itens e a identificação dos relacionamentos
existentes entre os atributos destes itens.
Existem regras na mineração, descritas conforme Muniz (2008), são elas:
a) Regras de associação: técnicas que estabelecem uma correlação
estatística entre certos itens de dados em um conjunto de dados. Um
exemplo dessa regra pode ser que 90% dos consumidores de
chocolate, também consomem pílulas de emagrecimento. Esse
percentual, 90%, é chamado de confiança da regra, chocolate => pílulas
é o número de ocorrências deste conjunto de itens na mesma
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
transação. Alguns algoritmos que utilizam esta técnica são: Apriori5,
AprioriTid6, entre outros.
b) Raciocínio baseado em memória: segundo Muniz (2008), esse é um
algoritmo que usa experiência passada, acumulando casos e tentando
descobrir por analogia soluções para outros problemas. Os principais
algoritmos representantes dessa técnica são: BIRCH7, CLARANS8,
CLIQUE9 e K-MEANS10.
c) Algoritmos genéticos: definido por Muniz (2008) como sendo algoritmos
que incorporam uma solução potencial para um problema específico,
numa estrutura semelhante a de um cromossomo, e aplicam
operadores de seleção e cross-over a essas estruturas, de forma a
preservar informações críticas relativas à solução do problema.
d) Redes neurais: Muniz (2008) afirma ser uma classe especial de
sistemas modelados análogos ao funcionamento do cérebro humano,
formadas de neurônios artificiais conectados de maneira similar aos
neurônios do cérebro humano.
e) Árvores de Decisão: são representações gráficas conforme Muniz
(2008), onde os nós representam amostras e as folhas representam
categorias.
4 ÁRVORE DE DECISÃO
Um dos objetivos desse artigo é demonstrar as técnicas do DM, foi
escolhido então o algoritmo de árvore de decisão, que Muniz (2008), declara ser um
dos modelos mais utilizados. Segundo Amorim (2006), árvore de decisão representa
um tipo de algoritmo de aprendizado de máquina que utiliza uma abordagem dividirpara-conquistar, ou seja, representar resultados de mineração de dados em forma de
área, parecido com uma árvore.
5 Algoritmo que busca por itens frequentes em banco de dados que ocorrem simultaneamente em transações de banco de
dados.
6 Algoritmo similar ao Apriori mas com a diferença que acessa a base de dados uma única vez.
7 BIRCH - Balanced Iterative Reducing and Clustering Using Hierarchies: Algoritmo de análise de agrupamento.
8 CLARANS - Clustering Large Applications based on RANdomized Search: algoritmo baseado em busca de grafo.
9 CLIQUE - Clustering In Quest: baseado em grade e em densidade, particiona o conjunto de dados em subespaços (grade de
células) para encontrar agrupamentos suficientemente densos.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
10 K-MEANS ou K-Médias: Algoritmo de técnica iterativa para particionar um conjunto de dados em grupos separados, onde o
valor K deve ser pré-determinado.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Conforme Muniz (2008), uma árvore de decisão designa uma classe
numérica (ou saída) para uma entrada padrão, filtrando-se a amostra através dos
testes na árvore. Cada teste possui reciprocamente resultados exclusivos e
exaustivos. Pichiliani (2006) descreve quatro passos básicos do funcionamento da
árvore de decisão:
Passo 1) Geração do nó raiz: cada classe do conjunto de treinamento
possui sua probabilidade calculada, criar um nó raiz contendo as probabilidades de
cada classe, já que ainda não há nenhum nó criado.
Passo 2) Encontrar nós a serem divididos: nesse passo é necessário
encontrar nós da árvore que ainda podem ser divididos para a geração de novos nós.
Basta obter nós que não são folhas, ou seja, nós que ainda não possuem divisões,
cuja distribuição das probabilidades não classifique a amostra totalmente. Classificar
a amostra totalmente quer dizer que o nó não deve possuir alguma classe que tenha
100% de probabilidade de classificar a amostra no seu nó. Se não houver mais
nenhum nó que possa ser dividido o algoritmo termina.
Passo 3) Divisão do nó: para cada nó do conjunto de nós que podem ser
divididos deve-se escolher um atributo que melhor classifica os dados. Esta escolha
deve excluir todos os atributos que ainda não foram utilizados no caminho que começa
deste nó raiz até o nó a ser dividido. Além de considerar os atributos que já foram
utilizados, também deve-se analisar a quantidade de nós não folhas escolhendo o
atributo que mais gera nós folha e que menos gera nós que podem ser divididos. Em
alguns casos, o nó não pode ser dividido devido às restrições, o que faz com que este
nó não seja armazenado no conjunto de nós a serem divididos.
Passo 4) Criação do nó: Com o atributo escolhido, basta criar e desenhar
o nó e as suas ramificações de acordo com todos os possíveis valores de atributo. A
criação de ramificações gera novos nos que devem ser analisados em seguida. O
algoritmo volta então ao passo 2. Algoritmos conhecidos do tipo árvore de decisão,
conforme Muniz (2008), são: CART11, CHAID12, C5.013, ID3 14, entre outros.
11 CART - Classification and Regression Trees: algoritmo de indução de árvore de decisão.
12 CHAID - Chi- Squared Automatic Detection: método estatístico para segmentação, ou crescimento de uma Árvore.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
13 Algoritmo utilizado para resolver tarefa de classificação em mineração de dados.
14 ID3 - Iterative Dichotomizer 3: processo de indução de árvore de decisão, recursivo.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
O exemplo de algoritmo de árvore de decisão que se apresenta nesta
seção foi extraído de Pichiliani15 (2006), adaptado com o intuito demonstrar os
resultados da mineração dessa técnica e expor como é gerado o conhecimento
através do DM.
No exemplo de Pichialini (2006), tem-se como análise um sistema de
contas a receber de um clube esportivo que envia para o banco no início de cada mês
um boleto contendo a mensalidade do clube a ser paga pelos associados. O banco
então envia pelo correio a fatura para os clientes e espera os recebimentos. No final
do mês, o banco retorna para o sistema do clube quais clientes pagaram o boleto,
quais não pagaram e quais clientes pagaram com o atraso, dentre outras informações.
Com o objetivo de diminuir a quantidade de clientes que pagam o boleto
com atraso, foi feita uma mineração de dados na base de associados para identificar
o perfil de quem paga com atraso o boleto.
Um pré-processamento dos dados separou as informações dos clientes em
alguns atributos, sendo essa a fase de seleção dos dados, que podem ser visualizados
na tabela da figura 3. Para este exemplo, 14 registros foram utilizados.
Figura 3 – Dados dos associados de um clube esportivo.
Pichialini (2006)
Fonte: Pichiliani, 2006
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
15 Teve-se Pichialini como referência para expor o algoritmo de árvore de decisão tendo-se em vista a simplicidade com que o
autor descreveu o funcionamento dessa técnica, facilitando a compreensão do funcionamento da mesma.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
As colunas apresentadas na tabela da figura 3 são descritas da seguinte
forma:
a) Idade: atributo que identifica a idade do associado, com indicação da
faixa de idade;
b) Salário: atributo que identifica o salário do associado, classificado em
Alto, Médio e Baixo;
c) Superior completo: atributo que indica se o associado possui ensino
superior ou não. Descrito pelos valores Sim e Não.
d) Dependentes: atributo que indica se o associado possui dependentes
que utilizam o clube com a sua carteirinha. Possui os valores Sim e Não.
e) Atrasou: apresenta se o cliente atrasou no pagamento, descrito também
pelos valores sim e não.
Para facilitar a visualização do conjunto de cliente que atrasaram o
pagamento foram marcados em vermelho e os clientes que não atrasaram foram
marcados em azul.
Para facilitar a explicação, Pichialini (2006) utilizou o software Decision
Tree Learning Applet, onde geraram as figuras presentes neste artigo. Como o
algoritmo é bem extenso somente os cálculos do primeiro nível da árvore serão
apresentados.
O primeiro passo é gerar o nó raiz da árvore. Primeiro deve-se calcular a
probabilidade para cada um dos valores do atributo de classificação, que no exemplo
é o atributo atrasou. As probabilidades do nó raiz são:
Probabilidade de atrasou=não: 5/14 = 0,36 e Probabilidade de atrasou=sim:
9/14 = 0,64. O nó raiz da árvore se apresenta conforme figura 4.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Figura 4 - Nó raiz da árvore de decisão Pichialini (2006)
Fonte: Pichiliani, 2006
Os valores são seguidos da contagem para este nó e da sua probabilidade,
que é apresentada numericamente e por uma barra. Este nó ainda não tem um atributo
e por isso é um nó que pode ser dividido.
O próximo passo é escolher atributos para os nós que podem ser divididos.
Como só há nó será analisado todos os atributos para verificar aquele que melhor
classifica os dados.
Para o atributo idade:
a) Valor <=30, probabilidade de atrasou=não: 3/14 = 0,214 e probabilidade
de atrasou=sim: 2/14 = 0,143;
b) Valor 31..40, probabilidade de atrasou=não: 0/14 = 0 e probabilidade de
atrasou=sim: 4/14 = 0,286. Este valor gera um nó folha, pois todos os
registros que tem o valor 31..40 são da classe atrasou=sim;
c) Valor >40, probabilidade de atrasou=não: 2/14 = 0,143 e probabilidade
de atrasou=sim: 3/14 = 0,214.
Para o atributo salário:
a) Valor alto, probabilidade de atrasou=não: 2/14 = 0,143 e probabilidade
de atrasou=sim: 2/14 = 0,143.
b) Valor
médio,
probabilidade de
atrasou=não: 2/14
= 0,143
e
probabilidade de atrasou=sim: 4/14 = 0,286.
c) Valor baixo, probabilidade de atrasou=não: 1/14 = 0,071 e probabilidade
de atrasou=sim: 3/14 = 0,214.
Para o atributo superior completo:
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
a) Valor não, probabilidade de atrasou=não: 4/14 = 0,286 e probabilidade
de atrasou=sim: 3/14 = 0,214.
b) Valor sim, probabilidade de atrasou=não: 6/14 = 0,428 e probabilidade
de atrasou=sim: 1/14 = 0,071.
Para o atributo dependentes:
a) Valor não, probabilidade de atrasou=não: 2/14 = 0,143 e probabilidade
de atrasou=sim: 5/14 = 0,357.
b) Valor sim, probabilidade de atrasou=não: 3/14 = 0,214 e probabilidade
de atrasou=sim: 4/14 = 0,286.
Pode ser visto que somente o atributo idade gerou um nó folha e por isso
ele deve ser escolhido como atributo de divisão do primeiro nó. Após escolher este
atributo deve-se calcular as probabilidades dos novos nós gerados pela ramificação
deste nó. Deste modo o primeiro nível da árvore de decisão ficará como a figura 5.
Figura 5- Primeiro nível da árvore de decisão Pichialini (2006)
Fonte: Pichiliani, 2006
O algoritmo volta para o passo de escolha de nós a serem considerados
para a divisão. Neste ponto, a árvore tem dois nós que podem ser divididos, que estão
marcados em azul na figura 6. O nó folha gerado pela divisão do valor 31..40 do
atributo idade não pode mais ser divido conforme figura 6 marcado em verde.
Seguindo o algoritmo deve-se calcular as probabilidades dos atributos salário,
superior completo e dependentes para cada um dos nós em azul e depois gerar outros
nós e assim sucessivamente até não restar mais nós a serem divididos. O resultado
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
final do algoritmo de árvores de decisão aplicado aos dados do conjunto de teste é
apresentado na figura 6.
Figura 6- Árvore de decisão final para o conjunto de testes de exemplo Pichialini (2006)
Fonte: Pichiliani, 2006
A Árvore de Decisão mostrada na figura 6 possui nós folha (em verde e
azul) que classificam os valores das classes de acordo com seus atributos. O atributo
salário não foi utilizado, pois o algoritmo não considerou este atributo como relevante
para a classificação.
Desta maneira fica um pouco mais fácil para extrair as regras de
classificação do tipo se… então da nossa árvore:
a) Se idade= <=30 e superior completo = não então a amostra é
classificada como atrasa=não.
b) Se idade = <=30 e superior completo = sim então a amostra é
classificada como atrasa=sim.
c) Se idade = 30..40 então a amostra é classificada como atrasa=sim.
d) Se idade >=40 e dependentes = não então a amostra é classificada
como atrasa=sim.
e) Se idade >=40 e dependentes = sim então a amostra é classificada
como atrasa=não.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Além de permitir a classificação de uma amostra desconhecida, a árvore
gerada pode permitir a classificação sem a necessidade da análise de todos os
atributos. Na árvore da figura 6 pôde ser classificado imediatamente como atrasa=sim
uma amostra possuir o valor 30..40 para o atributo idade.
Outra vantagem do algoritmo que gera a árvore de decisão é permitir
análises que filtram algum valor de um atributo. Pode-se fazer as seguintes afirmações
sobre a árvore da figura 6: mais da metade dos associados que possuem mais de
quarenta anos possuem dependentes e os associados que tem idade menor ou igual
a trinta anos, menos da metade desses possui ensino superior completo.
Deve-se considerar alguns detalhes antes do uso do algoritmo de árvores
de decisão. O algoritmo trabalha bem com valores discretos, pois caso contrário a
árvore pode se tornar imensa e de difícil compreensão, afirma Pichialini (2006).
Também é preciso dizer que em alguns casos os nós folhas não apresentam sempre
um valor correto e nestes casos deve-se classificar de acordo com a classe que
apresenta maior probabilidade.
Outro detalhe, conforme Pichialini (2006), é que para muitos atributos com
muitos valores o algoritmo pode levar algum tempo para montar a árvore, pois é
necessária uma grande quantidade de cálculos de probabilidade além de
armazenamento temporário de valores.
5 DM COMO ESTRATÉGIA PARA A TOMADA DE DECISÃO
Pode ser visto no exemplo de Pichialini (2006), através do processo de
árvore de decisão foi possível obter acesso a informações uteis para a tomada de
decisão. Há organizações que adotaram o DM em seus processos e conseguiram ir
muito bem, conforme exemplos reais descritos a seguir, onde demonstraram que o
uso de DM revelou resultados satisfatórios e interessantes para a tomada de decisão.
Berry (1997 apud Gonçalves, 2011) cita um caso talvez conhecido por
muitos, o caso das fraldas e cervejas onde a mineração do banco de dados de uma
grande loja de departamentos dos Estados Unidos, revelou que grande parte dos
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
consumidores que faziam compras a noite, costumavam adquirir dois produtos, fraldas
e
cerveja.
Revista Pensar Tecnologia, v.4, n.2, jul. 2015
Para entendimento do processo do DM e explanação das propriedades da
descoberta do conhecimento Gonçalves (2011) detalha alguns termos como: validade,
inesperabilidade, interpretabilidade, novidade e utilidade relacionados ao caso das
Fraldas e cervejas.
Descrito como sendo uma regra interessante e válida, já que possuía
expressividade
estatística,
segundo
Gonçalves
(2011),
uma
porcentagem
considerável das compras realizadas continha os produtos fraldas e cerveja, onde foi
encontrada uma informação nova, uma associação inesperada, pois analistas
imaginavam que cerveja estivesse associada apenas a produtos como salgados,
carne para churrasco e outras bebidas alcóolicas, mas nunca relacionada a produtos
de higiene infantil.
Gonçalves (2011) ressalta ainda que a regra era interpretável, pois pode
ser entendida por analistas, que sugeria que os casais jovens se preparavam para o
fim-de-semana estocando fraldas para os bebês e cerveja para o papai. A utilidade da
regra descoberta, propiciou aos gerentes da loja de departamentos tomar ações
capazes de aumentar as vendas de cerveja. Ex.: os produtos foram colocados em
prateleiras próximas. Quando foi minerada, a regra apresentou todas as propriedades
capazes e caracterizá-la como interessante para os analistas da loja de
departamentos.
Conforme afirma GSI (1998) a Wal-Mart16 aplicou essa regra e obteve como
resultado o crescimento de 30% de consumo com redefinição de lay-out baseada na
conexão de hipóteses desenvolvidas pela mineração de dados, no que diz respeito a
disposição de fraldas e cervejas.
Gurovitz (1997) afirma que outra rede varejista descobriu que a venda de
colírios aumentava na véspera dos feriados. Não foi revelado o porquê, mas após
constatar isso, passou a preparar seus estoques e promoções do produto com base
nesse
16 Rede de supermercados de atuação internacional fundado em 1962 nos EUA.
cenário.
Gurovitz (1997) também declara que o banco Itaú17, costumava enviar mais
de 1 milhão de malas diretas, para todos os correntistas. No máximo 2% deles
respondiam às promoções. O banco tem armazenado toda a movimentação financeira
de seus 3 milhões de clientes nos últimos 18 meses. A análise desses dados permitiu
que cartas fossem enviadas apenas a quem o perfil possuía a maior chance de
responder. A taxa de retorno subiu para 30% e a conta do correio foi reduzida a um
quinto.
Os casos demonstrados, são exemplos de aplicações bem sucedidas de
mineração de dados, mas é um ponto de cuidado, pois infere-se que uma análise
realizada erroneamente pode gerar informações falsas e o que poderia ser um retorno
de lucro pode vir a se tornar um grande prejuízo.
6 CONCLUSÃO
Para compreensão do tema de estudo, buscou-se inicialmente rever a base
conceitual, teórica sobre esta questão.
Assim, a fundamentação teórica selecionada para a pesquisa permitiu
verificar que o DM, é uma ferramenta estratégica, onde pode-se observar a relevância
do seu uso na aplicação de suas técnicas com finalidade de descobrir informações
essenciais que geram insumos para a tomada de decisão.
Desta forma, destaca-se que através do resultado do processo do DM
podem ser tratados perfis de consumidores, descobrir desperdícios, investimentos
perdidos, prever investimentos, prever lucro, entre outras opções, que se levadas em
consideração poderão aumentar de maneira considerável a receita de uma
organização.
Apesar de se considerar o DM uma ferramenta de auxílio à tomada de
decisão, os softwares para MD são ainda dispendiosos. Isto leva a afirmar que uma
análise antes da aplicação dessa tecnologia, em uma organização, deva-se levantar
a
real
necessidade
de
seu
uso,
17 Banco brasileiro, fundado em 1943 com sede em São Paulo.
avaliando-se
o
seu
custo
benefício.
Diante do exposto, pode-se afirmar que a pergunta de pesquisa do estudo
foi respondida e os objetivos alcançados.
Novas pesquisas necessitam ser empreendidas com o intuito de
demonstrar a implantação do DM em uma organização real para se verificar os
resultados obtidos.
REFERÊNCIAS
AMORIM, Thiago. Conceitos, técnicas, ferramentas e aplicações de Mineração
de Dados para gerar conhecimento a partir de bases de dados. Pernambuco,
2006. Disponível em: <http://www.cin.ufpe.br/~tg/2006-2/tmas.pdf> Acesso em: 09
nov. 2014.
BERRY, Michael. J. A.; LINOFF, Gordon S. Data Mining Techniques for
Marketing, Sales and Customer Support. Wiley Computer Publishing, 1997.
CARDOSO, Olinda Nogueira Paes & MACHADO, Rosa Teresa Moreira. Gestão do
conhecimento usando data mining: estudo de caso na Universidade Federal de
Lavras. Revista de Administração Pública do Rio de Janeiro, v.42, n.3, Mai./Jun.
2008
CARLOS, Hênio; MOTA, Lessa; COSTA, Mariana Caroline; BARBOSA, Marcela
Mayara; PEREIRA, Nilton Rodrigues. Data Mining. Montes Claros: SlideShare,
2012. Disponível em: <http://pt.slideshare.net/niltonrpereira/apresentao-data-mining>
Acesso em: 09 nov. 2014.
ELMASRI, Ramez E.; NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4ª
Ed. São Paulo: Addison Wesley, 2005.
FARIA, Fabio Augusto. Descobrindo Conhecimento no Mundo Real. Campinas,
SP: unicamp, 2014. Disponível em:
<http://www.ic.unicamp.br/~ffaria/files/ffaria_datamining_05_28_2014.pdf> Acesso
em: 18 out. 2014
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to
Knowledge Discovery in Databases. Artificial Intelligence Magazine, v. 17, n. 3, p.
37-54, 1996a. Disponível em: <http://www.csd.uwo.ca/faculty/ling/cs435/fayyad.pdf>
Acesso em: 09 nov. 2014.
GONÇALVES, Eduardo Corrêa. Data Mining com a Ferramenta Weka. Rio de
Janeiro, RJ: Escola Nacional de Ciências e Estatística (IBGE/ENCE), 2011.
Disponível em:
<http://forumsoftwarelivre.com.br/2011/arquivos/palestras/DataMining Weka.pdf>
Acesso em: 09 nov. 2014
GSI - Grupo de Sistemas Inteligentes – Mineração de Dados. 1998. Disponível em:
<http://www.din.uem.br/ia/mineracao/aplicacoes/exemplos.html> Acesso em: 09 nov.
2014.
GUIMARÃES, Alaine; POZO, Aurora. Mineração de Dados. Curitiba, PR: UFPR,
2010. Disponível em: <www.inf.ufpr.br/aurora/disciplinas/datamining/aula1.pptx>
Acesso em: 09 nov. 2014.
GUROVITZ, Helio. O que cerveja tem a ver com fraldas? Revista Exame Abril,
1997. Disponível em: <http://exame.abril.com.br/revista-exame/noticias/o-quecerveja-tem-a-ver-com-fraldas-m0053931> Acesso em: 09 nov. 2014.
JORGE, Alípio. Introdução ao Data Mining: Introdução e conceitos exemplos,
relação com outras áreas. Ceará: Doutorado em Informática – MAP I, 2007.
MARTINHAGO, Sergio. Descoberta do conhecimento sobre o processo seletivo
da UFPT. Curitiba, PR: ppgmne, 2005. Disponível em:
<http://www.ppgmne.ufpr.br/arquivos/diss/120.pdf>. Acesso em: 04 out. 2014.
MENDES, Luciana. Data Mining – Estudo de Técnicas e Aplicações na Área
Bancária. São Paulo, SP: FATEC – SP, 2011. Disponível em:
<http://www.fatecsp.br/dti/tcc/tcc0031.pdf> Acesso em: 08 nov. 2014.
MUNIZ, Vander Emiro. Data Mining: conceitos e casos de uso na área da saúde.
2008. Disponível em: <http://www.devmedia.com.br/data-mining-conceitos-e-casosde-uso-na-area-da-saude/5945>. Acesso em: 08 Nov. 2014
NETO, Rosalvo Ferreira de Oliveira. Descoberta de Conhecimento em Bancos de
Dados - KDD. Petrolina, PE: univasf, 2012. Disponível em:
<http://www.univasf.edu.br/~rosalvo.oliveira/Disciplinas/2012_1/IA/aulas/AULA09_R
FON_IA_PROCESSO_KDD.pdf> Acesso em: 18 out. 2014.
PICHILIANI, Mauro. Data Mining na Prática: Árvores de Decisão. IMASTER,
2006. Disponível em: <http://imasters.com.br/artigo/5130/sql-server/data-mining-napratica-arvores-de-decisao/> Acesso em: 08 set. 2014
REZENDE, Solange Oliveira. Sistemas Inteligentes - Fundamentos e Aplicações.
1ª Ed. São Paulo: Manole, 2003.
VIANA, Roger Pauer Rocha. Data Mining: Auxiliando na Tomada de Decisões
Estratégicas nas Empresas. 2013. Disponível em:
<http://pt.slideshare.net/AntonioEE256/monografia-roger-pauer-formatada-final>
Acesso em: 06 abr. 2014
Download