implementação de um módulo de mineração de dados em um erp

Propaganda
IMPLEMENTAÇÃO DE UM MÓDULO DE MINERAÇÃO
DE DADOS EM UM ERP
Luiz Paulo Rech Guindani <[email protected]>
Prof. Christiano Cadoná <[email protected]>
Universidade Luterana do Brasil (ULBRA) – Curso de Análise e Desenvolvimento de Sistemas – Campus Canoas
Av. Farroupilha, 8001 – Bairro São José – CEP 92425-900 – Canoas - RS
30 de novembro de 2011
RESUMO
Este artigo apresenta um estudo realizado com o objetivo de esclarecer conceitos ligados a gestão de
conhecimento, passando por tópicos como descoberta do conhecimento e mineração de dados, para auxiliar no
desenvolvimento de um módulo de mineração de dados para um sistema comercial já existente, com o objetivo de
disponibilizar para os usuários finais a descoberta de relações entre as operações comerciais executadas no sistema.
Palavras-chave: Mineração de Dados, Gestão do Conhecimento, Descoberta do Conhecimento.
ABSTRACT
Title: “IMPLEMENTATION OF A MODULE IN A DATA MININGERP”
This article presents a study aiming to clarify concepts related to knowledge management, through topics
such
as knowledge
discovery and
data
mining to assist
in
developing a data
mining module for an existing commercial system, with order to provide end users the discovery of relationships
between the business operations performed in the system.
Key-words: Data Mining, Knowledge Management, Knowledge Discovery.
1
INTRODUÇÃO
O mercado, cada vez mais competitivo entre as corporações, está obrigando gerentes e
administradores de empresas a utilizarem técnicas e metodologias que oportunizem diferenciais
competitivos, a fim de desenvolver ações que coloquem sua empresa em destaque, seja pela oferta de
produtos, seja pela excelência do atendimento. E um fator importante para elaboração de ações comerciais é
o conhecimento dos produtos envolvidos no processo de venda.
Em geral os responsáveis por tomar decisões e promover ações nesse sentido costumam valer-se de
relatórios estatísticos em que apresentam, por exemplo, relações de produtos mais vendidos, lista de clientes
que mais compraram em determinado período e outros, como ferramentas para a elaboração de ações e
melhorias. Estes relatórios estão presentes na maioria dos sistemas de gerenciamento comercializados.
Contudo, existem técnicas que possibilitam ir além do que relacionar alguns somatórios. Dentre
essas técnicas se destaca a mineração de dados, que busca descobrir informações em base de dados. A
ferramenta de mineração de dados desenvolvida é capaz de descobrir e apresentar informações gerenciais
que ajudem os tomadores de decisão a utilizar suas informações. A técnica de mineração de dados se baseia
num sistema já existente de ERP que visa a gerenciar os processos da organização
Este artigo descreve os processos envolvidos na elaboração e desenvolvimento do módulo de
mineração de dados em uma aplicação comercial já existente. Sendo assim, está dividido em cinco seções.
Na segunda seção, são apresentados os conceitos relativos ao tema, objetivo deste trabalho. A seção 3
apresenta o módulo desenvolvido, descrevendo suas funcionalidades. E a seção 4 apresenta uma avaliação do
módulo de mineração de dados realizada por um grupo de clientes que já possuíam o sistema comercializado.
Por fim, são apresentadas as conclusões e os futuros trabalhos relacionados à solução desenvolvida.
.
2
REFERENCIAL TEÓRICO
Como forma de apresentar os conceitos relacionados com o objetivo deste trabalho, estão sendo
abordados aqui temas como a situação do mercado comercial, a gestão de conhecimento como diferencial
competitivo, a descoberta de conhecimento em sistemas de informação, a aplicação da mineração de dados e
exemplos de ferramentas que promovem a mineração de dados.
2.1 SITUAÇÃO DO MERCADO COMERCIAL
Com o aquecimento do mercado e o advento da internet como forma de comunicação e propaganda,
as empresas de grande porte passaram a ter a concorrência de empresas de pequeno e médio porte, pela
atenção no atendimento e pela fidelização dos clientes. Os clientes, atentos a estas brigas, passaram a exigir
produtos com maior qualidade, produtos que atendam de forma direta as suas necessidades e expectativas.
Antes de comprarem um produto, passaram a prestar mais atenção a questões como praticidade,
beleza, preço e adequação.
Em geral as empresas estão sempre procurando desenvolver produtos e serviços que correspondam
às expectativas e comportamentos do mercado, investindo fortemente em tecnologia de gestão do
conhecimento, como forma de compreender o contexto em que os clientes vivem e, consequentemente, suas
necessidades.
Segundo Alvarenga (2005), para uma empresa ser bem sucedida é necessário que ela conheça seus
clientes. Se uma empresa não conhece seu público alvo, não conseguirá criar produtos e serviços sob medida
e atraentes eles. Desta forma, afrouxam-se os laços que os mantém unidos, facilitando a aproximação do seu
cliente ao seu concorrente.
Para estreitar esta relação empresa-cliente, muito tem sido investido na tentativa de conhecer o
cliente e de padronizar seus atos e estilo de vida. A informática tem exercido um papel muito importante
neste processo ao armazenar informação das mais variadas fontes sobre seus clientes, costumes, preferências
e até mesmo locais que frequentam.
Mas, só recursos tecnológicos não garantem o conhecimento sobre o cliente. Torna-se necessário um
capital humano bem treinado e com experiência de mercado para interpretar as informações e conhecimentos
disponibilizados pela tecnologia, para assim tomar as melhores decisões.
Todas as informações guardadas pelas empresas podem ser utilizadas para aprimorar o conhecimento
sobre os clientes. Algumas empresas utilizam enormes bancos de dados, com informações que, se analisadas,
podem gerar conhecimentos muito úteis, como as características regionais dos clientes e as tendências para o
futuro dos negócios, além de gerar uma vantagem competitiva invejável.
.
2.2 ERP
Segundo Davenport (1998), o ERP é um software com o objetivo de integrar todas as informações
que fluem pela organização. Esse sistema impõe sua própria lógica à estratégia, cultura e organização da
empresa, podendo ser considerado como uma solução genérica, pois procura atender a todo tipo de empresa.
Seu projeto se baseia em uma série de hipóteses sobre como operam as organizações e costuma ser adotar e
desenvolver as melhores praticas de negócio. Porém, do ponto de vista do autor, quem deveria definir essas
melhores práticas para a empresa são os próprios clientes que utilizam seu serviço.
O sistema ERP tem como principal objetivo a integração de toda uma organização em seus diversos
níveis funcionais, através do armazenamento de informações colhidas em todos os setores da organização
(LAUDON, 2004).
O ERP tem como função o monitoramento de todos os processos da organização, gerenciando
informações de todos os setores da organização, assim fazendo com que as informações fiquem armazenadas
em um único sistema, tornando mais fácil o processo de análise empresarial como um todo.
Por exemplo, podem ser detectados problemas na gestão de estoque da organização, ocasionados
pela não solicitação de reposição de determinados produtos com maior volume de venda.
É possível identificar como vantagens de um sistema ERP:
•
Integração dos processos – As informações antes dispersas pelos fluxos dos processos têm maior
visibilidade, desta forma os setores passam a ter uma noção maior se seu papel nas operações da
organização.
•
Melhorias no fluxo das informações – Identificação de problemas de comunicação entre setores
da organização para posterior análise de formas de correção dos problemas para que a
comunicação seja feita de forma satisfatória.
•
Melhorias no processo de decisão – Com as informações centralizadas torna-se mais fácil o
processo de tomada de decisão e avaliação das consequências.
•
Padronização dos processos – Com a adoção de padrões de dados e negócios entre os módulos,
percebe-se uma melhora na eficiência.
•
Redução de custos – Com o monitoramento de processos executados pela organização, torna-se
mais fácil a identificação dos processos que devem receber mais atenção e a avaliação do
impacto financeiro, caso este seja alterado. Neste âmbito, pode ser considerado também o fato de
ganho de escala, uma vez que o custo de licenças e manutenção de sistemas é reduzido, pois
trata-se de um único sistema padrão e não mais N sistemas.
•
Acessibilidade à informações – Com o fim do isolamento dos sistemas, torna-se mais simples a
consulta de informações a diferentes setores, pois os dados da organização passam a ser
integrados em uma única base de dados.
•
Velocidade da informação – As informações podem ser acessadas em tempo real, agilizando o
processo de tomada de decisões e eliminando o tempo de espera por informações, desta forma
tornando o processo mais eficiente.
•
Maior controle dos Processo – Os sistemas permitem o rastreio de deficiências e erros,
permitindo um maior controle sobre as operações.
É possível identificar como desvantagens de um sistema ERP os itens seguintes:
•
Custo de implantação – Para que seja realizada a implantação de um sistema de ERP, os custos
costumam ser elevados, e o consumo de tempo também.
•
Imposições de padrão – Os sistemas de ERP forçam as organizações a mudar suas rotinas e
práticas de trabalho para que os módulos possam ser implementados.
•
Erros com grande repercussão – Um registro incorretamente introduzido no sistema pode
ocasionar problemas em todos os demais processos, em cascata. Desta forma, se um módulo for
parado, todos os módulos da organização ficarão indisponíveis também.
•
Desmotivação – A redefinição dos processos da organização aos padrões do sistema pode gerar
desmotivação por parte dos usuário que o utilizam
2.3 GESTÃO DO CONHECIMENTO
Gestão do Conhecimento é um modo ou sistema usado para capturar, analisar, interpretar, organizar,
mapear e difundir a informação de forma que ela seja útil e esteja disponível como forma de conhecimento.
(Drucker, 1998),
Segundo Georg van Krogh (2002), Gestão do Conhecimento está relacionada a diversas áreas da
informação tais como Sistemas de Informação, Gestão Estratégica, Gestão da Tecnologia, Sociologia,
Marketing e Economia, entre outras.
Já Alvarenga (2005), define como sendo o conjunto de processos que governam a criação,
disseminação e utilização do conhecimento. O autor afirma que estes processos existem mesmo que não os
identifiquem em ações, e ainda têm grande impacto sobre as decisões e ações que são realizadas as quais, por
sua vez, são normalmente baseadas em conhecimento - ou seja, entender, compreender e avaliar os
processos, para que desta forma possam melhorar a qualidade dos mesmos.
Gestão do conhecimento não é uma questão tecnológica, ou necessariamente ligada à computação.
Entende-se a premissa de que a gestão do conhecimento está preocupada com todo o processo de descoberta,
criação, disseminação e utilização desse conhecimento, então é possível concluir que a gestão do
conhecimento é muito mais do que uma questão de tecnologia.
A importância estratégica na tomada de decisões para os negócios depende das informações
disponibilizadas aos gestores de uma organização, e também da capacidade dos mesmos para compreendêlas e da experiência para utilizá-las de maneiras convenientes para os negócios da companhia.
Segundo Santos et al (2001), Gestão do Conhecimento é o processo sistemático de identificação,
criação, renovação e aplicação dos conhecimentos que são estratégicos na vida de uma organização.
Ainda conforme Santos, a administração dos ativos de conhecimento das organizações permite a elas
gerenciar seu conhecimento, conduzindo-as a tomadas de decisão com relação à melhor estratégia a ser
adotada em relação aos seus clientes, concorrentes e ciclos de vida de produtos e serviços. Além disso,
permitem identificar as fontes de informação, a saberem administrar dados e informações e a gerenciar seus
conhecimentos. Trata-se da prática de agregar valor à informação e de distribuí-la.
Na Gestão do Conhecimento são utilizadas muitas técnicas de Inteligência Computacional, entre elas
destacam-se:
•
Lógica Fuzzy: a Lógica Fuzzy é baseada na teoria dos conjunto Fuzzy, que na verdade é uma
generalização da teoria dos conjuntos tradicionais para resolver os paradoxos gerados à partir da
classificação “verdadeiro ou falso” da lógica clássica. Tradicionalmente em uma proposição
lógica tem-se dois extremos, ou completamente verdadeiro ou completamente falso. Entretanto,
na lógica Fuzzy, uma premissa varia em grau de verdade de 0 a 1, o que leva a ser parcialmente
verdadeira ou parcialmente falsa.
•
Métodos Estatísticos: são adotados sistematicamente no meio acadêmico auxiliando na validação
de hipóteses, principalmente no processo de indução. O objetivo dos métodos estatísticos é
tornar as pesquisas cientificas o mais eficiente possível.
•
Redes Neurais Artificiais: são técnicas computacionais que apresentam um modelo matemático
inspirado na estrutura neural de organismos inteligentes e que adquirem conhecimento através da
experiência. Uma grande rede neural artificial pode ter centenas ou milhares de unidades de
processamento.
O foco comum entre os sistemas destinados à descoberta do conhecimento é a preocupação com a
melhora no desempenho das empresas, através da organização do conhecimento adquirido pelas mesmas,
utilizando processos de tratamento, identificação de padrões ou classes, extração, compartilhamento e
criação do conhecimento.
2.4 DESCOBERTA DO CONHECIMENTO
Segundo Thomé (2002), a Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery
in Databases – KDD) surgiu no ano de 1989, tendo como foco a representação do processo de descoberta de
conhecimento, através das aplicações de técnicas e algoritmos que fazem a extração sobre os dados buscando
encontrar relação entre os mesmos.
A extração do conhecimento é uma área dinâmica e evolutiva, envolvendo integrações com outras
áreas de conhecimento tais como Estatística, Inteligência Artificial e Banco de Dados. Os padrões extraídos
devem ser, além de confiáveis, compreensíveis e úteis, podendo empregar o conhecimento com utilidade e
tirar proveito de alguma vantagem, seja científica ou comercial.
Segundo FAYYAD (1996), o processo de KDD é constituído de diversas fases, explicadas a seguir,
e tem início na análise do entendimento do domínio da aplicação e dos objetivos a serem realizados. Desta
forma, antes de aplicar o processo, torna-se necessário que os objetivos estejam definidos. O especialista da
informação repassa os dados e os requisitos necessários para que o analista que irá desenvolver o KDD possa
entender melhor seu ambiente de atuação. Neste momento deve ser definido:
• Reconhecimento do ambiente
• Tipo de conhecimento desejado
• Verificação do conhecimento já existente.
A figura 1 apresenta o fluxo que deve ser executado para que dados de um repositório de informação
se tornem possíveis conhecimentos, que subsidiarão tomadores de decisão na elaboração de prováveis ações.
Figura 1 – Etapas do processo KDD (Fayyad et al. (1996))
Na etapa de seleção, os dados são centralizados em uma única base de dados com o objetivo de
facilitar e agilizar a execução de algoritmos, os quais tentarão localizar e identificar padrões que dividam os
dados em grupos por similaridade. Ainda nessa etapa, são identificados dados relevantes a serem analisados.
É comum nesse momento a criação de um novo banco de dados, tabelas e ou visões de dados contendo as
informações selecionadas, para facilitar e otimizar as demais etapas do processo.
Já na etapa de pré-processamento, existem várias tarefas que podem ou não ser executadas
dependendo do algoritmo de mineração de dados que irá ser aplicado na fase seguinte, mas basicamente é
executada uma limpeza dos dados, retirando-se possíveis inconsistências e dados sem importância.
Segundo Freitas (2001), o pré-processamento é formado de alguns processos: integração dos dados,
limpeza dos dados, fragmentação e seleção de atributos e suas respectivas motivações, que vão desde a
simples junção dos dados disponíveis até a transformação dos dados para torná-los mais compreensíveis.
•
•
•
No pré-processamento deve ser definido:
Verificação de inconsistência
Correção de erros
Preenchimento de valores desconhecidos
A etapa de transformação possui como objetivo a transformação linear ou até não linear nos dados,
identificando assim as informações com mais relevância aos negócios. Faz parte desta etapa a eliminação de
informações redundantes e a eliminação de valores não pertencentes ao domínio da aplicação. Esta etapa
muitas vezes acaba por ser diluída no processo de pré-processamento, contudo é evidenciada a diferença
entre cada uma das etapas. (Thomé, 2003)
Somente após os dados estarem devidamente preparados ocorre a etapa de mineração de dados.
Segundo Fernandes (2003), a Mineração de Dados (Data Mining - DM) é a principal etapa do KDD. Nesta
etapa o conhecimento é de fato extraído dos dados através da aplicação de um algoritmo de mineração de
dados. Todas as técnicas de Data Mining têm em comum a elaboração de um modelo para representar um
conjunto de dados, diferenciando-se pela maneira como esse modelo é construído.
A escolha da técnica de mineração de dados a ser utilizada está relacionada com a tarefa de
mineração que se deseja executar, já que são essas tarefas que definem o relacionamento entre os dados - ou
seja, o modelo.
Existem diversas tarefas de mineração de dados entre elas: classificação, clusterização e associação.
Em específico, a tarefa de classificação gera regras indutivas do tipo IF-THEN (SE-ENTÃO), o que em geral
facilita a compreensão do usuário.
Segundo Noda (1999), o ato de descobrir conhecimento compreensível pode ser facilitado quando se
utiliza algoritmos baseados em regras de indução. Por outro lado, a descoberta de conhecimento que
realmente possua valor interessante para a organização é uma tarefa considerada desafiadora, principalmente
pela sua subjetividade.
•
•
•
Segundo o autor, na etapa de mineração de dados devem ser definidos os seguintes itens:
Técnica e o algoritmo a serem utilizados.
Avaliação do algoritmo escolhido, no sentido de verificar a necessidade de adaptação do mesmo.
Aplicação do algoritmo com a modelagem necessária ao tipo de conhecimento a ser descoberto.
Os algoritmos de mineração de dados percorrem o banco de dados em busca de padrões que atendam
às condições pré-estabelecidas nas etapas anteriores.
A interpretação é a última etapa do processo. Nesta etapa são avaliados os resultados e o
desempenho da etapa de Mineração de Dados. Neste momento o especialista em KDD e o especialista da
informação analisam as novas descobertas e verificam a necessidade de novas alternativas de investigação
dos dados. A interpretação, em geral ocorre muitas vezes integrada à etapa de mineração. Neste momento
ocorre a consolidação dos conhecimentos extraídos e são elaborados, em geral, relatórios, gráficos e
diagramas que representam os conhecimentos adquiridos.
2.4.1 TAREFAS DO KDD
Segundo Schneider (2003), as tarefas estão ligadas ao interesse do usuário e ao software de
Mineração de Dados, pois cada tarefa do KDD extrai informações diferentes do banco de dados e desta
forma necessitam de algoritmos diferentes para extração. São exemplos de tarefas que podem ser aplicadas:
• Associação: a tarefa de associação percorre o banco de dados atrás de relações entre os itens
armazenados. Para identificar estas relações, os itens do banco de dados são identificados como
atributos binários. Neste caso, os itens podem assumir um valor verdadeiro ou falso. Assim é
possível compreender que o item X implica ou não no item Y. Esta regra pode ser visualizada da
seguinte forma: “se ((X = verdadeiro) e (Y = verdadeiro))” então os itens possuem relação. Como
forma deixar os dados mais consistentes, é realizada a soma de todas as incidências desta
condição presente no banco de dados - o resultado deste cálculo é chamado de suporte. Outro
valor importante ao processo é denominado confiança, que consiste na divisão do total de vezes
em que a incidência dos dois parâmetros testados é verdadeira, dividido pelo número de vezes em
que apenas uma das condições é verdadeira.
• Classificação: a classificação pode ser compreendida como a busca por uma função que permita
associar corretamente cada registro X de um banco de dados a um único rótulo categórico Y,
denominado classe. Na tarefa de classificação são elaboradas classes de atributos através do
mapeamento de dados de entrada. Estas classes são compostas de atributos preditivos e um
atributo objetivo que indica à qual classe o item pertence. O algoritmo aplicado nesta tarefa tem
com objetivo encontrar relações entre os itens do banco ainda não classificados e as classes
definidas, através da comparação dos atributos preditivos, para desta forma aprimorar a
classificação (Goldschmidt & Passos, 2005).
• Regressão: A tarefa de regressão é muito similar à de classificação, porém a única diferença é
que o atributo a ser predido é contínuo ao invés de discreto. A tarefa de regressão pode ser
caracterizada pela busca de uma função que represente de forma aproximada o comportamento
apresentado pelo fenômeno em estudo, onde a forma mais comum deste algoritmo é a linear,
quando, por exemplo, temos uma linha reta entre os valores de atributos estudados, desta forma
minimizando o erro médio entre todos os atributos estudados. O objetivo do algoritmo de
regressão é encontrar uma relação entre um item do banco de dados e itens já classificados
anteriormente.
• Agrupamento: No agrupamento (Clusterização) não existem classes pré-definidas, os itens do
banco de dados são agrupados considerando similaridade entre seus atributos. A principal
diferença entre esta abordagem e a classificação é que no agrupamento não se pode prever o
número de classes possíveis, nem a possível pertinência dos exemplos usados na modelagem.
Descobrir grupos homogênios de clientes pode ser uma de suas possíveis aplicações e pode ser
usada na definição das estratégias de marketing a serem utilizadas pela empresa. O agrupamento
costuma ser realizado antes da execução de alguma forma de Mineração de Dados, pois
considera-se que com os dados agrupados o algoritmo terá mais agilidade na execução.
A tabela 1 apresenta os métodos utilizados para implementação de algoritmos para o processo KDD
mostrando exemplos de algoritmos.
Estratégia
Associação
Classificação
Regressão
Agrupamento
Tabela 1 – Métodos atrelados a técnicas de Mineração
Algoritmo
Estatísticos e Teoria de Conjuntos
Árvores de Decisão e Redes Neurais
Regressão e Redes Neurais
Estatísticos e Redes Neurais
Exemplos
Apriori , Gri e Carma
Regras de Indução e Arvore
Regras Neurais , Predição e Detecção de Sequências
Kohonen , K-Mens e Two-Step
Dentre as técnicas listadas é possível perceber que os algoritmos de Redes Neurais são os que
apresentam maiores abrangências de aplicação, podendo ser aplicados em quase todos os exemplos
mencionados.
2.5 FERRAMENTAS DE KDD
A comercialização de aplicativos que executam a mineração de dados vem aumentando conforme
evolui a necessidade de adequação das empresas à necessidade de conhecer seus dados. Diferentemente do
que no principio era comercializado, estes sistemas estão possuindo um custo acessível e seu uso se tornado
mais comum entre as organizações.
Como forma de identificar e caracterizar algumas ferramentas comercializadas no mercado foi
realizada uma pesquisa e tabuladas suas características.
Foi realizada a análise das seguintes ferramentas:
• SPSS Clementine: Ferramenta de mineração de dados integrada desenvolvida pela empresa
DMSS, posteriormente vendida para a empresa IBM, fornece diversas técnicas de mineração de
dados, com um foco especial na visualização e facilidade de utilização. Possui como principal
característica a associação.
• PolyAnalyst: Sistema de mineração de dados que contempla diversas técnicas de mineração em
um único programa, apresenta seus conhecimentos na forma de relatórios e utiliza modelos
preditivos. Foi desenvolvido pela Megaputer e possui como principal característica a Mineração
de Textos e Mineração Web.
• Weka: O sistema Weka é uma ferramenta com enfoque acadêmico, e contempla uma série de
algoritmos de análise e modelagem de dados. Foi desenvolvida em 1997 pela Universidade de
Waikato, na Nova Zelândia, e possui como principal característica a classificação e o fato de ser
uma ferramenta open source.
• Darwin: Esta ferramenta desenvolvida pela Oracle é descrita em seu site como uma poderosa
ferramenta de mineração de dados que ajuda a transformar grandes massas de dados em
inteligência corporativa. Darwin ajuda a encontrar padrões significativos e correlações em dados
corporativos, padrões que permitem um melhor entendimento e previsão do comportamento de
clientes. Utiliza algoritmos de aprendizagem.
• Intelligent Miner: Aplica modelos de PMML (Predictive Model Markup Language) em grandes
bancos de dados e subconjuntos de bancos de dados. Desenvolvido pela IBM, possui como
principal característica a sumarização.
• WizRule: Com interface intuitiva de fácil utilização, o sistema executa limpeza e auditoria de
banco de dados, além de realizar análises complexas da base de dados com rapidez e facilidade
para identificar e apresentar as inconsistências do banco de dados. Desenvolvido pela WizSoft
Inc, possui como principal característica a detecção de erros.
• Bramining: desenvolvida pela Graal Corp, possui como principal característica a clusterização.
• SAS Enterprise Miner: Agiliza o processo de mineração através da criação de modelos preditivos
altamente descritivos e precisos, oferece um grande conjunto de funcionalidades de fácil
utilização com o objetivo de criar e compartilhar informações, costuma ser utilizado para
detecção de fraudes, antecipação de demandas de recurso, minimização de riscos e aumento das
respostas de campanhas de marketing, foi desenvolvido pela empresa SAS e possui como
principal característica a detecção de falhas.
• Oracle Data Mining: Uma ferramenta desenvolvida pela Oracle, conta com varias técnicas de
mineração de dados e algoritmos de análise de dados, fornece meios para gerenciamento, criação
e funcionamento dos modelos de mineração de dados dentro do ambiente de banco de dados,
possui como principal característica a mineração de textos e detecção de falhas.
A tabela 2 apresenta um comparativo das ferramentas avaliadas e alguns parâmetros que foram
considerados inportantes na análise.
Tabela 2 – Características de Ferramentas de Mineração de dados
Característica Analisada Clementine PolyAnalyst Weka Darwin Intelligent Miner WizRule Bramining SAS Enterprise Miner Oracle Data Mining
Associação
Classificação
Clusterização
Desvio
Sumarização
Regressão
Detecção de Erros
Mineração de Textos
Open Source
Ao observar a tabela 2, percebe-se que todas as ferramentas analisadas possuem técnicas de
classificação e em sua maioria também se aplicam técnicas de associação, porém apenas uma das
ferramentas possui técnicas de detecção de erros.
Assim, conclui-se que as técnicas menos utilizadas nas ferramentas analisadas são as técnicas de
mineração de textos e detecção de erros.
2.6 DATA WAREHOUSE
Podendo ser traduzido como “depósito de dados”, sua função principal é o armazenamento de
informações de um banco de dados referente a uma ou mais atividades de uma organização de forma
consolidada, voltada à tomada de decisões. É como um agrupamento inteligente de dados de diversas fontes
diferentes, tais como origem, formato, nomes, tipo de negócio, regras, conexões, entre outros dados.
Por definição, os dados armazenados em um Data Warehouse não mudam por serem dados
históricos, salvo quando é necessário executar correções em alguma informação específica. Um detalhe
importante é que esses dados estão disponíveis somente para consulta - uma base modificável deixa de ser
um Data Warehouse. O que faz a leitura dessa base histórica e inalterável é chamado de OLAP (On-line
Analytical Procesing), nada mais do que um processador das informações contidas no Data Warehouse. É
através dele que o usuário consegue visualizar resultados palpáveis, através de relatórios consistentes e
inteligentes (consolidando a possibilidade de tomada de decisão descrita acima).
Segundo William Immon (1999), um Data Warehouse é um conjunto de dados baseado em assuntos,
integrado, não volátil, e variável em relação ao tempo, de apoio às decisões gerenciais.
A figura 2 apresenta a estrutura e fluxo de dados de um Data Warehouse. Na figura, os processos à
esquerda mostram possíveis fontes de dados que compõem um Data Warehouse, que pode ser tanto um
sistema de ERP quanto outra base de dados e demais sistemas; já os processos à direita mostram a
apresentação destes dados através de relatórios ou de análise OLAP, como anteriormente mencionado.
Figura 2. Estrutura de um Data Warehouse
3
MÓDULO DE MINERAÇÃO DE DADOS EM UM ERP
Como já caracterizado no capítulo anterior, um ERP apresenta uma série de vantagens para empresas
que o utilizam, tendo em vista o gerenciamento das informações de maneira integrada e proporcionando
maior controle sobre as informações armazenadas. Este tipo de sistema também se destaca pelo número de
relatórios gerenciais que disponibiliza, facilitando a atividade dos tomadores de decisão de uma organização.
Também podem ser identificadas as vantagens competitivas da utilização de tecnologias que se
utilizam dos dados armazenados em sistemas, como insumo para aplicação de ações em busca de conquistar
novos clientes. Exemplo disto é a aplicação da técnica de mineração de dados, que consiste em encontrar
relações/padrões existentes entre as informações de um sistema.
Como forma de disponibilizar esta vantagem competitiva aos clientes de uma empresa que mantém
um sistema de ERP, foi elaborado um módulo de mineração de dados, que se utiliza das informações geradas
pelo próprio sistema de ERP como base de conhecimento para descoberta de informação. A empresa também
utilizará a solução desenvolvida como forma de proporcionar um diferencial competitivo em relação às
demais empresas fornecedoras de sistemas ERP. Atualmente a empresa possui em torno de 50 clientes, e
baseado no histórico de seu crescimento, estima-se um aumento anual de 30% em número de clientes.
O módulo desenvolvido segue os parâmetros pré-estabelecidos no processo de KDD, onde serão
identificados na exemplificação que segue cada uma das etapas do processo. Conforme o próprio processo
KDD salienta, a descoberta de conhecimento inicia na definição dos objetivos a serem alcançados na
aplicação do método.
O principal objetivo do módulo de mineração de dados desenvolvido para o ERP existente faz
referência à análise dos dados de produtos comercializados nos módulos de orçamento, pedido, ordem de
serviço e notas fiscais comercializadas. A ferramenta desenvolvida fará mineração em cada um dos módulos
em separado, tendo em vista o objetivo que cada um dos módulos se propõe.
3.1 SELEÇÃO, PRÉ-PROCESSAMENTO E TRANSFORMAÇÃO DE DADOS
Conforme já destacado na seção anterior, na etapa de seleção, pré-processamento e transformação
dos dados são identificadas e tratadas as informações relevantes para execução dos algoritmos de mineração
de dados. Ocorre também, durante estas etapas, a eliminação de valores não pertencentes ao domínio.
Para realização destas atividades, o módulo desenvolvido inicialmente executa uma cópia da base de
dados original, de forma a manter integridade e deixar os dados disponíveis às demais funcionalidades do
ERP. Em seguida, ocorre a criação de um Data Warehouse com o objetivo de ser o repositório de busca das
informações que receberão a aplicação do algoritmo de mineração de dados. A estrutura do Data Warehouse
desenvolvido varia de acordo com o módulo a ser utilizado (Orçamento, Pedido, Ordem de Serviço e Nota
Fiscal).
A figura 3 apresenta um exemplo da estrutura de uma das tabelas do módulo de orçamento, que é
utilizada pela ferramenta como base para mineração de dados sobre as marcas dos produtos comercializados.
Figura 3. Estrutura da tabela de mineração
Pode ser identificado na figura 3 que as informações foram armazenadas de forma linear, onde cada
registro da tabela refere-se a um único orçamento. Além disso, em cada registro (ou seja, em cada
orçamento) são armazenadas as informações relativas às quantidades orçadas para cada marca existente.
Para permitir o armazenamento das quantidades orçadas, foram criadas tantas colunas quantas são as
marcas disponíveis para orçamento. Essas colunas são identificadas através do prefixo ‘M’ acrescido do
código da marca cadastrada – por exemplo, para a marca cadastrada com o código 26, será criada a coluna
“M26”.
No exemplo apresentado na figura 3 a ferramenta criou 5 colunas, variando de “M1” a “M5”. Da
mesma forma, se existissem 40 marcas cadastradas seriam criadas 40 colunas para representá-las, variando
de “M1” a “M40”.
Também podem ser identificados na figura 3 atributos que fazem relação com atributos do resultado
da mineração desenvolvida. São eles:
• PkCodOrcamento; identificador único do número do orçamento realizado
• DataOrcamento: data em que ocorreu o orçamento
• ValorOrcamento: valor total do orçamento realizado
A figura 4 apresenta parte de um conteúdo armazenado na tabela gerada no Data Warehouse.
Figura 4. Exemplo de dados armazenados em tabela do Data Warehouse
No registro selecionado na figura 4 podem ser identificadas informações como o número do
orçamento, sua data de realização, o valor total do orçamento, além das quantidades de cada uma das marcas
existentes no orçamento. Neste exemplo, o orçamento de número “4”, que foi realizado no dia “09/11/2011”,
tendo um valor total igual a 10.000, possuiu 6 unidades da marca 2 (definido na coluna “M2”) e 1 unidade da
marca 4 (definido na coluna “M4”).
Também é identificado na figura 4 que os valores que representam o total de cada orçamento foram
tratados. Para que seja possível minerar informações referentes a valores, torna-se necessário que estes sejam
tratados de forma que estejam agrupados, de acordo com parâmetros pré-estabelecidos. Desta forma, foi
criada uma tabela contendo um intervalo de valores e o valor que se deseja armazenar como resultante na
tabela do Data Warehouse. A figura 5 apresenta a tabela base para a realização desta transformação.
Figura 5. Exemplo da tabela de valores
O valor total do registro que armazena o orçamento de número “4” da figura 4 é de R$ 35.336,00.
Ao avaliar os parâmetros definidos na tabela de tratamento criada (figura 5), o valor total do orçamento 4 foi
alterado para 10.000 conforme pode ser observado na figura 4. Os valores para tratamento de dados podem
variar entre os clientes que preparam seus dados para aplicação de uma ferramenta de mineração.
3.2 MINERAÇÃO DE DADOS
Somente após a criação e população da estrutura de Data Warehouse o sistema passará para o
próximo passo do processo, a mineração de dados.
Como já mencionado no item 2.4, uma das atividades importantes no desenvolvimento de um
aplicativo de mineração de dados refere-se na definição da técnica a ser aplicada na implementação do
algoritmo. Esta escolha deve ser baseada no objetivo do módulo e considerar o cenário disponível para
aplicação do algoritmo. Como o objetivo do módulo é a descoberta de relação entre itens armazenados no
Data Warehouse, a técnica escolhida foi a de associação, tendo em vista que esta tem como objetivo a
identificação de interconexões entre registros na tentativa de expor características e tendências.
No desenvolvimento da ferramenta de mineração a técnica de associação foi adaptada de forma a
atender a algumas necessidades da aplicação. A modificação ocorreu na troca do tipo de informação a ser
armazenada nos atributos que representam o grupo de informações-base que se deseja minerar. Segundo
capitulo 2.4.1, em geral a tarefa de associação utiliza dados binários (também conhecidos como booleanos ou
lógicos) para representar o grupo de informações a ser comparado. Contudo, este projeto armazena a
quantidade comercializada de cada grupo de informações. No exemplo apresentado na figura 4, o grupo de
informações está sendo representado por marcas, onde marcas iguais a 0 (zero) representam que não ocorreu
a comercialização da referida marca no orçamento, e valores maiores que zero representam a quantidade de
itens da referida marca que foram comercializados. Desta forma, além de executar a mineração, torna-se
possível aprimorar a técnica, como por exemplo, procurar informações relevantes somente em marcas que
representam mais do que 50% da quantidade de itens comercializados em cada orçamento.
Outra informação importante para aplicação da técnica de associação faz referencia à definição do
suporte e confiança que devem ser aplicados para encontrar e agrupar os dados como sendo informações
relevantes. Para implementação do suporte apenas foi gerada uma soma de todas as ocorrências existentes
nas relações pesquisadas. Já a confiança, que representa o grau de associatividade entre os parâmetros de
pesquisa, será definida pelo usuário através de uma caixa de texto específica onde o mesmo informa o grau
mínimo de associatividade desejado. O grau definido da confiança representa o grau mínimo de relação que
o usuário final quer que ocorra. Quanto maior foi o grau, maior deverá ser o nível de associação, e com isto
menor será o número de incidências da relação.
A figura 6 apresenta um exemplo da aplicação do suporte e da confiança, onde estão sendo
selecionados os registros resultantes da mineração de dados das marcas 3 e 11.
Figura 6. Exemplo da aplicação da confiança 50% nas Marcas 3 e 11
Neste exemplo, o cenário está configurado da seguinte forma:
• Existem 100 ocorrências de orçamentos comercializados;
• Deste total, 10 orçamentos possuem a marca 3 ou a marca 11 comercializados;
• Destes 10 registros, 6 formam comercializados com a marca 3 e a marca 11 ao mesmo tempo.
Com base nestas informações, foi gerada uma solicitação de mineração de dados nas marcas 3 e 11,
atribuindo um grau de confiança de 80%. A ferramenta definirá que o suporte será igual a 10, tendo em visa
a existência de 10 ocorrências de marcas 3 ou 11, e não retornará nenhum registro como sendo informação
relevante, pois não atende os 80% de confiança configurado pelo usuário. Caso a confiança seja alterada para
50%, a ferramenta novamente verificará que o suporte é 10 (uma vez que os dados não foram alterados) e
retornará uma relação de 60% de incidência da marca 3 sobre a marca 11 e vice-versa.
Outro parâmetro que foi adaptado no algoritmo de associação na ferramenta desenvolvida diz
respeito ao percentual de ocorrências existentes de um determinado grupo de informações em um único
registro. Este parâmetro foi definido na ferramenta como sendo o percentual de significância de um grupo
de informação. Assim que habilitado, o usuário pode definir o percentual mínimo existente de informações
sobre um determinado grupo de informação que se deseja minerar.
Por exemplo, na figura 7 é apresentada uma relação de ocorrências em uma tabela do Data
Warehouse de categorias de produtos comercializados nos Pedidos.
Figura 7. Percentual de Significância de um item
No exemplo da figura 7, quando aplicada à ferramenta desenvolvida para encontrar alguma possível
relação entre as categorias 1 e 3, com confiança de 50%, o sistema retornaria como resposta que o suporte
será de 3 registros (pois representa o número de registros que possuem as categorias 1 ou 3, não
necessariamente ao mesmo tempo no conjunto) e a relação existente é de, portanto, 66,66% uma vez que, dos
3 registros identificados, 2 deles possuem a incidência das duas categorias ao mesmo tempo. Contudo, se o
usuário habilitar a opção que define o percentual mínimo de significância de um item em um grupo de
informação, e este estiver definido como sendo 30%, os resultados da mineração serão alterados. Somente o
registro de número 553 será listado, pois a quantidade de produtos comercializados nas categorias 1 e 3
representam 55,55% do total do registro comercializado. Neste caso o sistema mostrará que o suporte é 3 e a
relação existente supera os 66,66% e deste total 50% dos registros analisados representam mais de 30% do
resultado total de cada orçamento.
Como o processo de mineração de dados não é um processo habitual para a maioria das empresas de
pequeno e médio porte (clientes do ERP já desenvolvido), foi elaborado um esquema que apresenta a ordem
em que deve ser executada para gerar os resultados da mineração de dados. Este esquema pode ser observado
na figura 8 que apresenta a interface de interação entre o usuário do sistema e o módulo desenvolvido.
Sabendo da possível necessidade da explicação de como utilizar o módulo de mineração de dados, foi
implementado um pequeno texto que é visualizado ao selecionar um dos itens constantes na “ordem de
execução”.
Foi elaborada a mineração de dados para os módulos de orçamento, pedido, ordem de serviço e notas
fiscais comercializadas, e para cada um destes módulos, foi elaborada uma interface contendo o mesmo
layout apresentado na figura 8.
Figura 8. Interface de mineração de dados
Como pode ser constatado, as informações apresentadas na interface de mineração de dados,
apresentada na figura 8, estão agrupadas em três grupos de informações.
O primeiro grupo faz referência ao padrão de configuração a ser aplicado como regra de mineração.
Neste grupo, são identificadas as informações:
• Item 1 – Minerar por: Define o grupo de informações a ser minerada, possibilitando minerar
dados por marca, categoria e ou produtos constantes em cada módulo(orçamento, pedido, ordem
serviço e Notas fiscais comercializadas);
• Item 2 – Grau de Confiança: Define o grau de confiança a ser aplicado nas relações entre o grupo
de informação informado. No exemplo apresentado na figura 2 o grau de confiança está setado
como 80% de relação entre cada uma das marcas “ARANYI” e “ARTCLUX” aplicadas as
marcas “AVANT, BIANCA e BRONZEART”. Como resposta, pode ser observado o item
selecionado como resultado da mineração que apresenta um percentual de 89,67% de relação
entre a marca “ARANYI” e “BRONZEARTE”.
• Item 3 – Relação: A relação apresenta a quantidade de implicações que serão realizadas entre as o
grupo de informações informadas. No exemplo 8 está sendo selecionado a relação 1x1 (um para
um), onde o sistema executa para cada marca selecionada no item 7 da interface, um teste de
relação em apenas um elemento selecionado no item 9 da figura 8. Neste caso, somente repostas
que envolvam 2 marcas serão analisadas. Caso tenha sido marcada a relação 1x2 (um para dois),
o sistema executará relações do tipo – para cada registro selecionado no item 7 da figura 8
verifique a incidência de até 2 grupos de informações selecionadas no item 9 da figura 8. É
normal deste caso a existência de resposta como “de um total de 13459 registros, 91,97% que
compraram ARANYI e não compraram BIANCA também não compraram AVANT, isto
representa 47,91% de todas as negociações realizadas”.
• Item 4 – Período de Busca: Foi acrescentada a possibilidade de definir o período de busca que a
ferramenta irá utilizar para minerar as informações. Esta funcionalidade, não é identificada na
maioria das ferramentas de mineração estudadas na seção 2.5. Em geral as ferramentas aplicam a
mineração de dados sobre todas as informações armazenadas. Caso seja necessário, a aplicação da
mineração de dados em uma amostra temporal de informação, a base de dados deve ser tratada de
modo que apenas possua as informações desejadas. Já utilizando o módulo desenvolvido, é
possível minerar apenas informando a data inicial e final que deseja que a ferramenta encontre
ocorrências de relações.
• Item 4 – Análise de datas: uma das informações armazenadas no Data Warehouse, de todos os
módulos desenvolvidos, faz referência a data em que ocorreu a operação. Um campo data em uma
ferramenta de mineração, pode ser explorada de diversas formas. Nesta ferramenta ao selecionar
o item 4 da figura 8, o sistema fará além da mineração já exemplificada, a associação desta com
informações temporais compreendias em dia da semana, dia do mês, quinzena, meses, bimestres,
trimestres, semestres e ano. Para cada uma das associações que a ferramenta executar sobre o
grupo de informações, esta fará mais 8 novas associações em busca de encontrar um novo padrão
de relação.
• Item 4 – Percentual de Significância: sabendo que para cada um dos registros armazenados no
Data Warehouse são identificadas as quantidades de cada grupo de informação, ao marcar o item
4 da interface apresentada na figura 8, a ferramenta aplicará um cálculo nas associações
encontradas como resposta da mineração que possuem sua quantidade comercializada em cada
um dos registros do banco, superior ao valor informado como parâmetro para este item. Desta
forma, além da relação encontrada na aplicação da mineração de dados, em cada uma das relações
de reposta, será testada o percentual de significâncias dos itens relacionados, em relação ao total
do módulo, seja ele orçamento, pedido, ordem de produção e ou nota fiscal comercializada.
O segundo grupo de informações presentes na interface faz referência à seleção de quais são os
conjuntos de informações que podem ser analisados. Estas informações estão vinculadas a seleção do item 1
da figura 8. A cada seleção diferente no item 1 é preenchido o conjunto de informações no item 7. No
exemplo apresentado na figura 8, estão sento listadas todas as marcas comercializadas nos orçamentos. A
ferramenta desenvolvida possui, outra característica. Sabendo do volume de informação armazenada na base
de dados, foi definido que a relação deveria ocorrer entre itens que já possuíssem relações. Desta forma após
selecionar um uma marca do item 7 da interface principal da ferramenta, o usuário deverá pressionar o botão
“avançar”, definido como o item 8 da interface. Será executada uma rotina que listará somente no item 9
outro grupo de informações que possui algum tipo de relação com o item selecionado na opção 7 da
interface. Um exemplo é identificado na figura 9, onde após selecionar a marca “ANTIQUA” e pressionar o
botão “Avançar”, o sistema listou apenas as categorias que fazem relação – a própria “ANTIQUA” e marca
“SÃO JOSÉ”.
Figura 9. Opções de relação entre o grupo de informações
Como ação, somente será possível encontrar uma relação entre as informações marcadas, no item 7
que implicam no item 9. Desta forma, o volume de trabalho do usuário da ferramenta de mineração, será
reduzido, pois, diminui significativamente a possibilidade de executar uma mineração de forma
desnecessária.
O último grupo de informação é responsável pela apresentação ou resultado da aplicação da
mineração de dados. É com base nestas informações que são adquiridos o conhecimento do processo KDD,
estas informações são apresentadas de forma textual, apresentando dados estatísticos sobre a informação
extraída da base de dados.
3.3 INTERPRETAÇÃO DOS DADOS
A última etapa do processo KDD é caracterizada pela avaliação dos dados apresentados. Somente
nesta etapa pode ser avaliada se a aplicação da técnica de mineração de dados resultou em informações que
caracterizaram novos conhecimentos. Quanto maior for o grau de conhecimento do negócio e a experiência
pessoal do usuário, maiores podem ser os conhecimentos adquiridos. A análise deve ser executada sobre a
relação de resultados obtidos da mineração de dados.
A figura 10 apresenta um exemplo de resultados gerados pela ferramenta.
Figura 10. Apresentação das informações resultantes
No exemplo o usuário pode encontrar informações relevantes de seu negócio, como por exemplo as
respostas 32 e 34. Quando avaliamos apenas estas condições, o usuário pode chegar a várias conclusões, o
que caracteriza conhecimento e com base nestas conclusões executar uma determinada ação.
Por exemplo, na resposta 32 a ferramenta retornou de 98,08% das vezes em que foi efetuada a
comercialização da marca “Alvorada”, não foi comercializado produtos da marca “FLC”,e o grau de suporte
é muito alto, pois representa 31% do total de todas as operações realizadas. Com base nestas informações o
usuário poderia verificar o porque, não ocorre a relação e propor por exemplo uma ação de marketing
aproximando os produtos destas categorias.
Na informação referente à resposta número 34 da figura 10, onde foi apresentado que no ano de 2011
foram encontradas apenas 2 relações entre a aquisição simultânea das marcas “Alvorada” e “Germanny”. Isto
representa que somente neste ano ocorreu a relação destes itens em uma quantidade insignificante. Desta
foram o usuário poderia tomar como ação a eliminação dos produtos ou tentar avaliar o motivo da da falta de
interesse na busca de produtos de ambas as marcas para verificar a real necessidade de telas no estoque ou
ainda buscar produtos de outras marcas com melhor aceitação comercial.
Sendo assim, todos os itens gerados pela ferramenta podem ser interpretados e avaliados como
importantes ou não, de forma a possibilitar ao usuário a tomada de ações embasadas em dados estatísticos
concretos.
4
AVALIAÇÃO DO MÓDULO DE MINERAÇÃO DE DADOS
Segundo a proposta apresentada, havia sido programada uma avaliação da implantação deste módulo
em pelo menos cinco clientes que utilizavam o ERP. Contudo, ocorreram atrasos no desenvolvimento da
ferramenta, o que inviabilizou a aplicação no número mínimo de clientes projetados. A ferramenta foi
implantada em um cliente que utiliza o ERP e atende o segmento de varejo com produtos para iluminação
residencial. Esta empresa possui duas unidades de negócio, ambas situadas na cidade de Gravataí.
Participaram quatro pessoas:
• Dois proprietários da empresa, um com formação superior em contabilidade e outro com nível
técnico em gerenciamento comercial, ambos com idade superior a 45 anos.
• Duas gerentes, ambas com nível superior incompleto e idade entre 25 e 30 anos.
Nenhum dos usuários possuía conhecimento sobre o funcionamento ou o tipo de resultado que uma
ferramenta de mineração disponibilizaria.
Inicialmente, todos os usuários tiveram um treinamento sobre como operar a ferramenta e que tipo
de informação é apresentado como reposta. Também ocorreu o processo de interpretação de resultados
gerados, como forma de exemplificar de forma prática os exemplos analisados. E foi promovida uma
discussão sobre um grupo de resultados, a fim de promover alguma ação a partir da informação gerada. Após
o treinamento, os usuários responderam um questionário com cinco perguntas objetivas, uma delas
envolvendo considerações sobre a ferramenta.
As questões avaliadas foram as que seguem:
• Questão 1 - A ferramenta retornou informações que você já conhecia?
• Questão 2 - A ferramenta retornou informações que você não possuía?
• Questão 3 - Com base nos resultados gerados, a ferramenta atendeu as expectativas a que se
propõe?
• Questão 4 - As informações apresentadas são relevantes?
• Questão 5 - Dê um conceito entre 0 a 5 para o módulo desenvolvido, sendo 0 completamente
insatisfeito e 5 completamente satisfeito.
O gráfico apresentado na Figura 11 demonstra a tabulação das respostas das questões 1 a 4, em que
são evidenciadas algumas conclusões relevantes.
Figura 11 – Tabulação das repostas das questões 1 à 4
A ferramenta obteve a média de 4,8 na questão 5, em que apenas um usuário deu um conceito 4 e o
restante definiu como conceito 5.
Algumas considerações foram apresentadas pelos usuários, entre elas está a lentidão na execução de
mineração pelo grupo de produtos. Outra consideração relevante está na melhor explicação na interface de
ajuda criada para cada um dos campos. Segundo um usuário, mesmo após o treinamento, alguns termos
existentes na interface ainda não estavam claros, o que ocasionou demora no entendimento e na execução das
atividades. Um usuário achou válida a discussão ocorrida no momento da interpretação da informação e
sugeriu que sempre seja realizado treinamento utilizando essa metodologia.
5
CONCLUSÃO
Vive-se a era da informação, e a análise correta de dados armazenados tem impacto direto nos
diferenciais competitivos dentro de uma organização. Poderosos sistemas de gerenciamento de grandes
volumes de dados estão disponíveis na maioria das grandes organizações. No entanto, estas ferramentas
necessitam de investimentos, muitas vezes elevados para empresas de pequeno porte, o que inviabiliza a
aquisição da tecnologia por parte destas empresas de menor faturamento.
Diante desse cenário, foi implementado o objetivo deste trabalho. Através da análise do problema,
foi desenvolvido um algoritmo de mineração de dados baseado no processo KDD utilizando tarefas de
associação de registros para tornar visíveis informações já existentes no banco de dados, porém ainda não de
forma acessível.
O módulo foi vinculado a um sistema comercial pré-existente de ERP, que o tornou mais completo e
lhe forneceu um grande diferencial competitivo, se comparado aos demais softwares de ERP existentes no
mercado.
Os testes realizados durante o processo de desenvolvimento levantaram diversas dúvidas com
relação aos algoritmos utilizados, o que gerou muitas horas de estudos e reestudos para compreender de
forma mais clara o funcionamento e as complexidades dos algoritmos envolvidos na ferramenta.
A definição do layout demandou várias trocas de avaliações e considerações com relação ao grau de
dificuldade na compreensão do preenchimento dos parâmetros necessários para a utilização do sistema.
Como mostrado na Figura 8, ao final, a ferramenta ficou com uma interface extremamente intuitiva e
simples, de forma que um usuário com conhecimentos mínimos de informática consiga operá-la de forma
confiável e precisa, necessitando apenas conhecer seu objetivo.
Havia ainda a necessidade de homologar e avaliar a ferramenta em clientes, para a apresentação dos
resultados neste trabalho. Porém, por questões burocráticas, o sistema foi implantado em apenas um cliente
da empresa fornecedora de ERP, as sugestões, impressões e informações prestadas pelo usuário foram
consideradas e avaliadas.
Outra questão abordada pelo trabalho foi o custo de investimento, que neste caso ficou
consideravelmente reduzido, uma vez que o sistema foi implementado usando banco de dados free e a
licença da interface de desenvolvimento já havia sido paga.
Como proposta de futuras melhorias a realizar, destaca-se a mineração de dados entre os módulos,
encontrando, por exemplo, cruzamentos de informações entre produtos orçados e vendidos, tornando o
sistema ainda mais completo e competitivo. Pode se considerar também customizações de código, com o
objetivo de melhorar o desempenho da ferramenta e a exportação das informações em um formato ainda não
estabelecido. Isso vai facilitar a utilização e a interpretação dos resultados obtidos.
6
REFERÊNCIAS
ALVARENGA NETO, R. C. D. de. Gestão do conhecimento em organizações: proposta de mapeamento
conceitual integrativo. 2005. 400 f. Tese (Doutorado em Ciência da Informação) – PPGCI, Escola de
Ciência da Informação da UFMG, Belo Horizonte.
DAVENPORT, T.; PRUSAK, L. Conhecimento empresarial. Rio de Janeiro: Campus, 1998.
DAVENPORT, T. H. Reengenharia de Processos. Rio de Janeiro: Campus,1994.
FAYYAD, U. M.et al (Eds.), Advances in knowledge discovery and data mining. [s.i.]. 1996.
FERNANDES, A. M. da R., COSTA Jr., I. Algoritmos Genéticos. In: Inteligência Artificial - noções gerais.
2003.
FERNANDES, A. M. da R., RAMPELOTTI, F. M. Data Mining. In: Inteligência Artificial - noções gerais.
2003.
FREITAS, A. A. A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery.
Curitiba, 2001.
GEORG VAN KROGH, Enabling Knowledge Creation. Oxford University Press, 2000.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: Um Guia Prático. Rio de Janeiro: Elsevier, 2005.
LAUDON, Kenneth C. Sistemas de Informações gerenciais: administrando a empresa digital. São Paulo:
Prentice Hall, 2004.
LINDEN, R. Algoritmos Genéticos. Uma importante ferramenta da Inteligência Computacional. Brasport,
2006.
MARCEL HOLSHEMIER & ARNO SIEBES. Lecture for Level 3 Students of the Faculty of Computing,
Engineering and Tecnology, Stanffordshire University, UK. 1994
NODA, E., FREITAS, A. A., LOPES, H. S. Discovering Interesting Prediction Rules with a Genetic
Algorithm. In: Proceedings of the Congress on Evolutionary Computation. Washington, D.C., USA, 1999.
SANTOS, ANTÔNIO R. dos (Org.). Gestão do Conhecimento: uma experiência para o sucesso empresarial.
Curitiba. Editora Universitária Champagnat. 2001.
SCHNEIDER, Luís F. (2009) Aplicação do processo de descoberta de conhecimento em
dados do poder judiciário do Rio Grande do Sul. Disponível em:
http://www.lume.ufrgs.br/bitstream/handle/10183/8968/000589810.pdf?sequence=1, acessado em
15/10/2011.
THOMÉ, ANTÔNIO C. G. Data Warehouse, Data Mining. In: Redes Neurais – Uma ferramenta para KDD e
Data Mining. [s.i.]. 2002
TURBAN, E.; SHARDA, R.; ARONSON, J.; KING, D. Business Intelligence: Um enfoque gerencial para a
inteligência do negócio. Porto Alegre, 2009.
UUSI-RAUVA, E., PARANKO, J., VILOMA, H. Activity-Based Costing. TTKK Teollisuustalous.
Opetusmonisteita 3/94. 1994.
WILLIAM H. INMON. Building the Data Warehouse, 4th Edition. 1999
WONG, K. Y. ; ASPINWALL, E. Development of a knowledge management initiative and system: A case
study. Expert Systems with Applications. May, 2006.
WU, J.-H.; WANG, Y.-M. Measuring KMS success: A respecification of the DeLone and McLean'
s model.
Information & Management. ABI/INFORM Global database, 2006.
Download