Importância da Mineração de Dados nas pequenas Empresas

Propaganda
1
Importância da Mineração de Dados nas pequenas Empresas
Osmir Ricardo Gonzales de Souza1, , Ricardo Bortolo Vieira1
Faculdade Cidade Verde (FCV )
[email protected], [email protected]
Maringá – PR – Brasil
Abstract: This work presents an analysis of techniques, tools and methodologies for
the practice of an important area of Data Administration in an organization, known as
Data Mining. It is aimed at improving data quality. The stages of the data mining
process are detailed too. Some techniques used during the process are focussed. The
use of data mining on different important areas of our society is analyzed. Tools that
assist this process are also analyzed.
Resumo: Neste trabalho apresenta uma análise de técnicas, ferramentas e
metodologias para praticar-se uma importante área da administração de dados em uma
organização, denominada de Mineração de Dados, visando à melhoria da qualidade
dos mesmos. As etapas do processo de mineração de dados são detalhadas. Algumas
técnicas utilizadas durante o processo são abordadas. É analisada a utilização da
mineração de dados atualmente em diversas áreas importantes de nossa sociedade. São
também analisadas ferramentas que auxiliam este processo, mostrando a importacao
da informação.
1. Introdução
Atualmente as empresa nao tem como ter valores em tempo real de custos, lucros e
despesas, visando isso temos o custo de uma má qualidade desses dados pode ser
decisivo para o sucesso de uma empresa. Com isso, é essencial o estudo da
Administração de Dados para garantir a qualidade dos dados que são inseridos e
recuperados em uma base de dados.
Na atualidade empresas estão investindo mais na automação do software, pelo fato de
agilizar os níveis estratégico e gerencial para as tomadas de decisões, pois esses
softwares armazenam os dados de forma duplicadas dentro do datawarehouse para
relatórios complexos.
Os softwares que possuem o BI (Business Intelligence) faz com que o setor que irá
tomar as decisões, consiga observar nos relatórios as informações necessárias para
poder avaliar o resultado que eles esperam, dependendo o grau de complexidade ou
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
2
quantidade de informações armazenadas dentro do banco, esses relatórios podem
demorar dias, semanas ou meses.
Será detalhada a ferramenta que é uma suíte que contem diversas técnicas para minerar
os dados e sendo open source, ele é quem faz a interação dos arquivos de dados ficarem
de forma visual.
Figura 1 - Busca por informações em sistemas converncionais ( SIG, OLAP, Query,
etcc)
Figura 2 - Buscar por informações em sistemas de mineração de dados.
Figura 3 - Etapas do Processo KDD
2. O que é a mineração de dados
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
3
A mineração de dados, basicamente, é a transformação de grandes quantidades de dados
em padrões e regras significativos. Além disso, ela pode ser dividida em dois tipos:
direcionada e não direcionada. Na mineração de dados direcionada tentamos prever um
ponto de dados em particular o preço de venda de uma casa baseado em informações
sobre outras casas à venda no bairro, por exemplo.
Na mineração de dados não direcionada tentamos criar grupos de dados, ou achar
padrões em dados existentes criando o grupo demográfico "Mãe de Futebol", por
exemplo. Com efeito, todo censo é mineração de dados, na medida em que o governo
busca reunir dados sobre todos os habitantes do país e transformar isto em informações
úteis.
Em nosso caso, a mineração de dados moderna começou em meados da década de 1990,
quando o poder de computação e o custo de seu processamento e armazenamento
finalmente alcançou um nível que permitia as empresas fazê-la internamente, sem
precisar recorrer a recursos de computação externos.
Além disso, o termo mineração de dados é muito abrangente, se referindo a dúzias de
técnicas e procedimentos usados para examinar e transformar dados. Então, esta série de
artigos só vai arranhar a superfície do que é possível fazer com a mineração de dados.
Os especialistas provavelmente tem doutorado em estatística e já passaram 10-30 anos
em campo. Isso pode dar a impressão de que a mineração de dados é algo que só as
grandes empresas podem pagar.
Esperamos esclarecer muitos destes conceitos errôneos sobre a mineração de dados, e
deixar claro que ela não é tão fácil quanto simplesmente rodar uma função em uma
planilha eletrônica contra uma grade de dados, mas não é tão difícil assim que ninguém
consiga fazer pelo menos uma parte dela sozinho. Este é um exemplo perfeito do
paradigma 80/20 talvez até mesmo chegando ao paradigma 90/10. É possível criar um
modelo de mineração de dados com uma efetividade de 90% com apenas 10 % dos
conhecimentos de um destes assim-chamados especialistas em mineração de dados.
Para incluir os 10% restantes no modelo e criar um modelo perfeito, seria preciso 90%
de tempo adicional e talvez mais 20 anos. Então, a menos que se planeje fazer carreira
na mineração de dados, é provável que o "razoável" seja tudo o que você precisa.
Olhando a coisa de outro modo, provavelmente o razoável é melhor do que aquilo que
está sendo feito agora.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
4
Em última instância, o objetivo da mineração de dados é criar um modelo, um modelo
que possa melhorar o modo pelo qual lemos e interpretamos nossos dados existentes e
futuros. Como há muitas técnicas de mineração de dados, o passo principal para criar
um bom modelo é determinar que tipo de técnica deve ser usada. Isso vem com a prática
e a experiência, e alguma orientação. A partir de então, o modelo precisa ser refinado
para ficar ainda mais útil. Depois de ler estes artigos devemos poder olhar nosso
conjunto de dados, determinar a técnica certa a ser usada, e então adotar as medidas
para refiná-la. Vamos poder então criar um modelo razoavelmente bom para nossos
próprios dados.
3. Mineração de Dados (Data Mining)
A mineração de dados é o processo de descoberta de informações acionáveis em
grandes conjuntos de dados.A mineração de dados usa análise matemática para derivar
padrões e tendências que existem nos dados.Normalmente, esses padrões não podem ser
descobertos com a exploração de dados tradicional pelo fato de as relações serem muito
complexas ou por haver muitos dados.
Existem diversas etapas de mineração de dados, pois o administrador dos dados é que
irá definir quais serão as etapas a serem seguidas, Carvalho [2005] definiu que a
mineração de dados possui as etapas as quais serão mostradas a seguir e que podemos
observar também na Figura 1
Entender o problema: é a primeira fase de um projeto, pois o mesmo tem como objetivo
principal identificar quais são os problemas que estão ocorrendo.
4.1 Entendendo o Problema
Observar quando a empresa estiver passando por um problema já que é necessário que o
mesmo passe pela fase de entendimento do problema que está ocorrendo em
determinado setor, será analisado o que está ocorrendo no setor para entender o motivo
do problema. [Carvalho 2005]
Será compreendido o porquê do problema ocorrido, por exemplo, qual foi o motivo pelo
qual levou o setor de produção ter produzido tão pouco em determinada época do ano.
Uma excelente prática de Administração de Dados é o enriquecimento dos dados,
gerando ainda mais informação e conhecimento, melhorando assim a sua qualidade.
Esta informação preciosa está na verdade implícita escondida sob uma grande massa de
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
5
dados, e não pode ser descoberta utilizando-se sistemas de gerenciamento 11 de banco
de dados convencionais.
4.2 Descobrindo o Conhecimento
Está fase é aonde irá começar a descoberta de relações que serão obtidas pelos danos já
armazenados, toda essa relação é encontrada da inteligência artificial, no caso existem
diversas ferramentas específicas. [Carvalho 2005]
4.3 Análise de Relações
Nesta fase será efetuada uma exaustiva análise das relações obtidas, pode-se observar
que através das relações obtidas com a mineração de dados às informações se
relacionam entre si, por exemplo, qual foi o produto mais vendido em determinada
época do ano entre outros. [Carvalho 2005]
Agora que as informações obtidas estão analisadas pode-se tomar decisões de forma que
o problema não venha acontecer novamente, caso não houvesse a mineração de dados,
seria muito complicado chegar até a decisão.
Depois destes procedimentos, a empresa cria padrões próprios para que esses problemas
não ocorram novamente, pois agora tem as informações cabíveis do problema ocorrido.
5. Ferramentas de mineração de dados
1) Weka
2) Rattle
3) RapidMiner
5.1 Weka
O Weka é um software desenvolvido em Java, formado por um conjunto de
implementações de algoritmos de diversas técnicas de Mineração de Dados com as
especificações GPL (General Public License) como podemos ver a ferramenta na
Figura 2, sendo utilizada por estudantes e professores de universidade, embora ela
também seja muito utilizada por profissionais que desejam aprender os conceitos
básicos de mineração de dados. Por ter sua interface gráfica, é possível conduzir
processos de mineração de dados de forma simples, realizando avaliações dos resultados
obtidos e a comparação de algoritmos.
Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de
associação e clusters de dados.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
6
Figura 1 - Ferramenta WEKA. Abernethy [2013]
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
7
Figura 2 - Ferramenta WEKA explorer. Abernethy [2013]
O Weka pode ser utilizado de três diferentes formas: interface gráfica, linha de comando
e através de sua API. A interface gráfica fornece as diversas ferramentas para seus
usuários através de janelas e seus elementos. A linha de comando é um meio utilizado
para dar mais agilidade a processos repetitivos e acesso direto a funcionalidades que
teriam mais passos a serem executados, caso fossem acessados via interface gráfica. A
opção de acesso via API é utilizada por desenvolvedores de software por fornecer um
meio prático para o uso das funcionalidades implementadas no Weka. Iremos
exemplificar os diferentes problemas utilizando a interface gráfica, especificamente a
ferramenta Explorer [Damasceno 2013].
5.2 Ratlle
Uma ferramenta que poucos conhecem, mas que vem fazendo um grande barulho na
comunidade de mineração de dados é o Rattle.O Rattle é biblioteca do R que faz a
geração de uma interface gráfica para mineração de dados e utiliza a engine e os
visualizadores do R como suporte.Em uma rápida exploração sobre a ferramenta o que
eu tenho a dizer que a ferramenta vem para bater de frente com diversas suítes de
mineração de dados (inclusive o WEKA) pelos seguintes motivos:

Tem integrado todas as suítes estatísticas do R;

Tem a parte de visualização do R que é uma das melhores do mercado;

GUI fácil de utilizar; e principalmente

Tem um livro de referência que é o Data Mining with Rattle and R: The Art
of
Excavating
Data
for
Knowledge
Discovery
do
Graham
Williams (Criador do Rattle) que seguramente junto com o livro do FRANK,
HALL e WITTEN é um dos melhores e mais práticos manuais sobre
mineração de dados.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
8
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
9
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
10


Figura 1 - Ferramenta Rattle. Abernethy [2015]
Figura 2 - Ferramenta WEKA graficos. Abernethy [2015]
5.3 RapidMiner
O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum
tempo, e antes do R se tornar o software Open Source mais popular em análise de dados
era o software de mineração de dados mais popular. O RapidMiner tem como principais
diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para
início dos trabalhos em mineração de dados, além de produzir gráficos de ótima
qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos
que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e
pouca documentação (livros) dirigidos para o seu uso prático.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
11

Figura 1 - Ferramenta RapidMiner. Abernethy [2016]
6. Relatórios que auxiliam tomada de descrição.
Por se tratar de uma descrição resumida, mas bem organizada e confiável, sobre
determinado domínio da entidade, o relatório contábil permite que os gestores analisem
e interpretem os dados, optando pelas melhores soluções para a situação do negócio.
Observe como alguns relatórios podem ser de grande auxílio na tomada de decisão.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
12

Figura 1 - Tomada de descisão.
6.1 Livro Razão
Exigido por lei, é vital nas empresas para o controle do movimento de todas as contas.
Esse controle é feito de forma separada, fornecendo indicadores como: saldos;
composição do patrimônio ativo e passivo; patrimônio líquido; fluxo de caixa (receitas,
despesas e custos). A partir dele são feitos outros demonstrativos.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
13

Figura 1 - Relatório gerencial.
6.2 Livro diário
Também exigido por lei, cronológico e fundamental ao processo contábil. Nesse livro,
são lançadas as operações diárias de uma empresa. Estão expressas em sua formatação a
data da operação, o título da conta débito e da conta crédito, o valor do crédito e do
débito e o histórico (sucinto, mas detalhado).
Todas as operações de débito e crédito que ocorrem na empresa devem ser lançadas no
livro diário.O livro possui este nome porque ele registra todas as operações diárias que
acontecem na empresa, ou seja, o seu lançamento deve ser diário, relacionado às
atividades que acontecerem no dia respectivo.
O livro diário deve ser autenticado e seu uso é de obrigatoriedade pelas empresas, sendo
o livro de maior importância, seja na apuração de todas as informações relacionadas ao
processamento das atividades inerentes ao negócio da empresa e outras, como mesmo
para fazer a demonstração das informações ao fisco, seja na entrega de declarações
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
14
obrigatórias, seja no momento em que acontece uma fiscalização governamental na
empresa.
Dessa forma, o livro diário necessita seguir algumas normas para o seu perfeito
preenchimento, que serão descritas abaixo:
•
Os registros devem ser lançados em ordem cronológica de acontecimento, ou
seja, devem ser lançados os eventos que aconteceram primeiro e depois os seguintes,
como sequência;
•
Todas as folhas do livro diário devem ser numeradas sequencialmente, ou seja,
em ordem numérica sequencial do menor para o maior (Art. 258 do RIR/1999);
•
O livro diário deve ter um termo de abertura e um termo de encerramento;
•
O livro diário deve ser submetido ao órgão competente, que pode ser a Junta
Comercial, dentro do prazo estabelecido pela legislação específica, para ser autenticado
e para ser conhecida a sua situação fiscal e contábil.
Sobre a forma de encadernação, não existe uma forma fixa para que se faça a
encadernação. No entanto, a maioria das empresas e sob orientação das Juntas
Comerciais, tem optado em encadernar o livro diário com o máximo de 500 páginas.
Se não for possível um único volume para o ano em exercício, é possível utilizar outros
volumes, desde que identificados. A identificação do livro diário deve ser feita de forma
que facilite o seu arquivamento e a sua identificação no momento em que seja
necessária a utilização do mesmo.
A inexistência do livro diário pelas empresas optantes pelo regime de tributação do
Lucro Real acarreta para a empresa o arbitramento do lucro, ou seja, a empresa passa a
ser enquadrada na legislação de lucro arbitrado, sendo regida pelo Governo. Esta
arbitrariedade se aplica à apuração do Imposto de Renda da Pessoa Jurídica (IRPJ) e
também à Contribuição Social sobre o Lucro (CSLL).
A escrituração do livro diário também pode ser feita por meio de escrituração digital,
por meio de softwares e sistemas de computação. Nesse caso, a empresa pode realizar a
impressão dos lançamentos e a encadernação das páginas correspondentes.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
15
6.3 Relatório Gerencial
1. Destinatários – Deve estar claro para quem elabora um Relatório Gerencial quem
terá acesso ao mesmo. Uma boa providência é relacionar – na capa do relatório – quem
são os destinatários – sem esquecer de destacar a palavra “confidencial” quando for o
caso.
2. Objetivo – Quem elabora um Relatório Gerencial deve saber muito bem o que se
espera dele – o que se deseja conseguir com a sua utilização. O objetivo mais comum é
controlar um determinado assunto, tomando as possíveis decisões e providências
necessárias perante objetivos determinados. Mas podem existir muitos outros, mais ou
menos específicos. Descrever ou relacionar os objetivos, apresentando-os ou não no
próprio relatório, pode ajudar bastante.
3. Conteúdo - Identifique e apresente o melhor possível as informações com maior
potencial de utilidade para as pessoas envolvidas e interessadas. Geralmente elas
abrangem três aspectos principais - custos, prazos e qualidade. Muito importante é
identificar e atender os aspectos de relatividade - em especial os relacionados ao tempo
e às referências ou metas. Mostrar apenas qual a despesa do mês não vai servir para
muita coisa se não se souber qual a meta, e quais os valores de meses anteriores, ou a
tendência. Para que serve informar que 70% da produção está pronta para quem não
sabe qual seria o valor adequado, ou quando terá que chegar aos 100% ?
Dependendo do tipo de Relatório Gerencial, pode ser importante a apresentação de
tópicos
como
Introdução,
Objetivos,
Sumários,
Glossários,
Recomendações,
Conclusões, Bibliografia ou Referências, Anexos, entre outros.
Relatórios periódicos devem estar assim identificados, preferencialmente já no título.
Datas e assinaturas nunca devem faltar onde necessárias – óbvio, porém é uma falha
comum.
4. Forma – Deve ser a mais prática e comunicativa possível. O uso de ilustrações,
desenhos, fotos, tabelas, gráficos, geralmente é de extrema valia. Merece destaque o uso
de gráficos, nas suas mais variadas formas possíveis (linhas, barras, pizza, etc.) –
softwares de planilhas, como o Excel, têm esses gráficos praticamente prontos – alguns
cliques, e eles são gerados em segundos.
Uma exposição bem estruturada (tópicos, capítulos, etc.), resumida e apresentada no
Índice, geralmente agrega um bom valor.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
16
A exposição deve seguir sempre o esquema de pirâmide – o mais importante acima das
explicações, justificativas, detalhes. Dados para eventuais conferências devem estar
preferencialmente em anexos.
As páginas devem ser sempre numeradas e, convém também que, além do título, o
Relatório Gerencial seja numerado como um documento. Isso facilitará muito qualquer
referência em outro documento, o arquivamento, buscas e pesquisas, entre outras coisas.
Relatórios informatizados devem estar adequadamente formatados para impressão –
tamanho de página, margens.
7. Metodologia
Para este artigo, foram utilizadas pesquisas em artigos científicos, sites da internet,
leitura de livros. Com o conhecimento adquirido, realizou-se este artigo científico, tendo
o fundamento de transmitir o conhecimento sobre o assunto pesquisado.
Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico,
bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade
da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração
de dados, desde o pré-processamento de dados até a visualização.No mercado há
diversas
ferramentas
proprietárias
de
excelente
qualidade
como
o SPSS
Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.Entretanto,
as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as
quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade
devido a possibilidade total de customização em alguns casos, robustez de soluções e
bibliotecas, e claro o preço de implementação.O objetivo desse post é fazer uma
pequena explanação sobre cada um dos mais populares softwares de mineração de
dados Open Source, e realizar alguns poucos comentários sobre algumas de suas
características.
8. Conclusão
Este artigo tem a finalidade de transmitir conhecimento para quem não entende sobre o
assunto de Mineração de Dados (Data Mining) e ferramentas de mineração de dados
juntamente com relatórios que auxiliam a tomada de descrição. Como era o objetivo do
artigo, foi apresentado com clareza o assunto abordado.
A mineração de dados não traz somente números em seus relatórios, traz números e
respostas como, porque o produto X vendeu mais no mês de janeiro do que no mês de
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
17
junho, porque o vendedor B vendeu mais no mês de abril do que no mês de janeiro. A
mineração de dados é a solução para as organizações tomarem decisões de forma mais
rápida.
10. Referências
CARVALHO, Luís Alfredo Vidal de. Datamining – A Mineração de Dados no
Marketing, Medicina, Economia, Engenharia e Administração. Rio de Janeiro:
Editora Ciência Moderna LTDA, 2005.
ABERNETHY, Michael. Mineração de Dados com WEKA, Parte 1: Introdução e
Regressão <http://www.ibm.com/developerworks/br/opensource/library/os-weka1/>.
Acesso em 26 de maio de 2016.
BRAGA, Luis Paulo Vieira. Introdução a Mineração de Dados. Rio de Janeiro: EPapers Serviços Editoriais, 2005.
DAMASCENO, Marcelo - Introdução a Mineração de Dados Utilizando o WEKA
<http://connepi.ifal.edu.br/ocs/anais/conteudo/anais/files/conferences/1/schedConfs/1/p
apers/258/public/258-4653-1-PB.pdf>. Acesso em 26 de maio de 2016.
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The
Morgan Kaufmann Series in Data Management Systems) – Ian H. Witten , Eibe Frank ,
Mark A. Hall
https://mineracaodedados.wordpress.com/tag/ferramentas/
https://msdn.microsoft.com/ptbr/library/ms174949%28v=sql.120%29.aspx?f=255&MSPPError=-2147217396
https://www.ibm.com/developerworks/br/opensource/library/os-weka1/
http://www.analyticbridge.com/profiles/blogs/4-open-source-data-mining
Acessado em 30 de Maio de 2016
FAVARETTO, Fabio e RHODEN, Carlos Alberto. Considerações Sobre Atividades de
Identificação, Localização e Tratamento de Dados na Construção de um Data
Warehouse, 2006.
Data Mining: Concepts and Techniques
Jiawei Han and Micheline Kamber. Morgan Kaufmann Publishers, 2001.
Data Mining
Ian H. Witten and Eibe Frank. Morgan Kaufmann Publishers, 2005.
Data Mining Cookbook: Modeling Data for Marketing, Risk and Customer Relationship
Management
Olivia Parr Rud. John Wiley & Sons, 2001.GONÇALVES, Eduardo Corrêa. Mineração
de Dados na Prática com Weka API, <http://www.devmedia.com.br/mineracao-dedados-na-pratica-com-weka-api-revista-sql-magazine-107/26841>. Acesso em 26 de
maio de 2016.
XI Ciclo de Estudos da Faculdade Cidade Verde
“Ciência, Tecnologia e Inovação”
12 a 17/05/2016
Download