1 Importância da Mineração de Dados nas pequenas Empresas Osmir Ricardo Gonzales de Souza1, , Ricardo Bortolo Vieira1 Faculdade Cidade Verde (FCV ) [email protected], [email protected] Maringá – PR – Brasil Abstract: This work presents an analysis of techniques, tools and methodologies for the practice of an important area of Data Administration in an organization, known as Data Mining. It is aimed at improving data quality. The stages of the data mining process are detailed too. Some techniques used during the process are focussed. The use of data mining on different important areas of our society is analyzed. Tools that assist this process are also analyzed. Resumo: Neste trabalho apresenta uma análise de técnicas, ferramentas e metodologias para praticar-se uma importante área da administração de dados em uma organização, denominada de Mineração de Dados, visando à melhoria da qualidade dos mesmos. As etapas do processo de mineração de dados são detalhadas. Algumas técnicas utilizadas durante o processo são abordadas. É analisada a utilização da mineração de dados atualmente em diversas áreas importantes de nossa sociedade. São também analisadas ferramentas que auxiliam este processo, mostrando a importacao da informação. 1. Introdução Atualmente as empresa nao tem como ter valores em tempo real de custos, lucros e despesas, visando isso temos o custo de uma má qualidade desses dados pode ser decisivo para o sucesso de uma empresa. Com isso, é essencial o estudo da Administração de Dados para garantir a qualidade dos dados que são inseridos e recuperados em uma base de dados. Na atualidade empresas estão investindo mais na automação do software, pelo fato de agilizar os níveis estratégico e gerencial para as tomadas de decisões, pois esses softwares armazenam os dados de forma duplicadas dentro do datawarehouse para relatórios complexos. Os softwares que possuem o BI (Business Intelligence) faz com que o setor que irá tomar as decisões, consiga observar nos relatórios as informações necessárias para poder avaliar o resultado que eles esperam, dependendo o grau de complexidade ou XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 2 quantidade de informações armazenadas dentro do banco, esses relatórios podem demorar dias, semanas ou meses. Será detalhada a ferramenta que é uma suíte que contem diversas técnicas para minerar os dados e sendo open source, ele é quem faz a interação dos arquivos de dados ficarem de forma visual. Figura 1 - Busca por informações em sistemas converncionais ( SIG, OLAP, Query, etcc) Figura 2 - Buscar por informações em sistemas de mineração de dados. Figura 3 - Etapas do Processo KDD 2. O que é a mineração de dados XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 3 A mineração de dados, basicamente, é a transformação de grandes quantidades de dados em padrões e regras significativos. Além disso, ela pode ser dividida em dois tipos: direcionada e não direcionada. Na mineração de dados direcionada tentamos prever um ponto de dados em particular o preço de venda de uma casa baseado em informações sobre outras casas à venda no bairro, por exemplo. Na mineração de dados não direcionada tentamos criar grupos de dados, ou achar padrões em dados existentes criando o grupo demográfico "Mãe de Futebol", por exemplo. Com efeito, todo censo é mineração de dados, na medida em que o governo busca reunir dados sobre todos os habitantes do país e transformar isto em informações úteis. Em nosso caso, a mineração de dados moderna começou em meados da década de 1990, quando o poder de computação e o custo de seu processamento e armazenamento finalmente alcançou um nível que permitia as empresas fazê-la internamente, sem precisar recorrer a recursos de computação externos. Além disso, o termo mineração de dados é muito abrangente, se referindo a dúzias de técnicas e procedimentos usados para examinar e transformar dados. Então, esta série de artigos só vai arranhar a superfície do que é possível fazer com a mineração de dados. Os especialistas provavelmente tem doutorado em estatística e já passaram 10-30 anos em campo. Isso pode dar a impressão de que a mineração de dados é algo que só as grandes empresas podem pagar. Esperamos esclarecer muitos destes conceitos errôneos sobre a mineração de dados, e deixar claro que ela não é tão fácil quanto simplesmente rodar uma função em uma planilha eletrônica contra uma grade de dados, mas não é tão difícil assim que ninguém consiga fazer pelo menos uma parte dela sozinho. Este é um exemplo perfeito do paradigma 80/20 talvez até mesmo chegando ao paradigma 90/10. É possível criar um modelo de mineração de dados com uma efetividade de 90% com apenas 10 % dos conhecimentos de um destes assim-chamados especialistas em mineração de dados. Para incluir os 10% restantes no modelo e criar um modelo perfeito, seria preciso 90% de tempo adicional e talvez mais 20 anos. Então, a menos que se planeje fazer carreira na mineração de dados, é provável que o "razoável" seja tudo o que você precisa. Olhando a coisa de outro modo, provavelmente o razoável é melhor do que aquilo que está sendo feito agora. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 4 Em última instância, o objetivo da mineração de dados é criar um modelo, um modelo que possa melhorar o modo pelo qual lemos e interpretamos nossos dados existentes e futuros. Como há muitas técnicas de mineração de dados, o passo principal para criar um bom modelo é determinar que tipo de técnica deve ser usada. Isso vem com a prática e a experiência, e alguma orientação. A partir de então, o modelo precisa ser refinado para ficar ainda mais útil. Depois de ler estes artigos devemos poder olhar nosso conjunto de dados, determinar a técnica certa a ser usada, e então adotar as medidas para refiná-la. Vamos poder então criar um modelo razoavelmente bom para nossos próprios dados. 3. Mineração de Dados (Data Mining) A mineração de dados é o processo de descoberta de informações acionáveis em grandes conjuntos de dados.A mineração de dados usa análise matemática para derivar padrões e tendências que existem nos dados.Normalmente, esses padrões não podem ser descobertos com a exploração de dados tradicional pelo fato de as relações serem muito complexas ou por haver muitos dados. Existem diversas etapas de mineração de dados, pois o administrador dos dados é que irá definir quais serão as etapas a serem seguidas, Carvalho [2005] definiu que a mineração de dados possui as etapas as quais serão mostradas a seguir e que podemos observar também na Figura 1 Entender o problema: é a primeira fase de um projeto, pois o mesmo tem como objetivo principal identificar quais são os problemas que estão ocorrendo. 4.1 Entendendo o Problema Observar quando a empresa estiver passando por um problema já que é necessário que o mesmo passe pela fase de entendimento do problema que está ocorrendo em determinado setor, será analisado o que está ocorrendo no setor para entender o motivo do problema. [Carvalho 2005] Será compreendido o porquê do problema ocorrido, por exemplo, qual foi o motivo pelo qual levou o setor de produção ter produzido tão pouco em determinada época do ano. Uma excelente prática de Administração de Dados é o enriquecimento dos dados, gerando ainda mais informação e conhecimento, melhorando assim a sua qualidade. Esta informação preciosa está na verdade implícita escondida sob uma grande massa de XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 5 dados, e não pode ser descoberta utilizando-se sistemas de gerenciamento 11 de banco de dados convencionais. 4.2 Descobrindo o Conhecimento Está fase é aonde irá começar a descoberta de relações que serão obtidas pelos danos já armazenados, toda essa relação é encontrada da inteligência artificial, no caso existem diversas ferramentas específicas. [Carvalho 2005] 4.3 Análise de Relações Nesta fase será efetuada uma exaustiva análise das relações obtidas, pode-se observar que através das relações obtidas com a mineração de dados às informações se relacionam entre si, por exemplo, qual foi o produto mais vendido em determinada época do ano entre outros. [Carvalho 2005] Agora que as informações obtidas estão analisadas pode-se tomar decisões de forma que o problema não venha acontecer novamente, caso não houvesse a mineração de dados, seria muito complicado chegar até a decisão. Depois destes procedimentos, a empresa cria padrões próprios para que esses problemas não ocorram novamente, pois agora tem as informações cabíveis do problema ocorrido. 5. Ferramentas de mineração de dados 1) Weka 2) Rattle 3) RapidMiner 5.1 Weka O Weka é um software desenvolvido em Java, formado por um conjunto de implementações de algoritmos de diversas técnicas de Mineração de Dados com as especificações GPL (General Public License) como podemos ver a ferramenta na Figura 2, sendo utilizada por estudantes e professores de universidade, embora ela também seja muito utilizada por profissionais que desejam aprender os conceitos básicos de mineração de dados. Por ter sua interface gráfica, é possível conduzir processos de mineração de dados de forma simples, realizando avaliações dos resultados obtidos e a comparação de algoritmos. Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 6 Figura 1 - Ferramenta WEKA. Abernethy [2013] XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 7 Figura 2 - Ferramenta WEKA explorer. Abernethy [2013] O Weka pode ser utilizado de três diferentes formas: interface gráfica, linha de comando e através de sua API. A interface gráfica fornece as diversas ferramentas para seus usuários através de janelas e seus elementos. A linha de comando é um meio utilizado para dar mais agilidade a processos repetitivos e acesso direto a funcionalidades que teriam mais passos a serem executados, caso fossem acessados via interface gráfica. A opção de acesso via API é utilizada por desenvolvedores de software por fornecer um meio prático para o uso das funcionalidades implementadas no Weka. Iremos exemplificar os diferentes problemas utilizando a interface gráfica, especificamente a ferramenta Explorer [Damasceno 2013]. 5.2 Ratlle Uma ferramenta que poucos conhecem, mas que vem fazendo um grande barulho na comunidade de mineração de dados é o Rattle.O Rattle é biblioteca do R que faz a geração de uma interface gráfica para mineração de dados e utiliza a engine e os visualizadores do R como suporte.Em uma rápida exploração sobre a ferramenta o que eu tenho a dizer que a ferramenta vem para bater de frente com diversas suítes de mineração de dados (inclusive o WEKA) pelos seguintes motivos: Tem integrado todas as suítes estatísticas do R; Tem a parte de visualização do R que é uma das melhores do mercado; GUI fácil de utilizar; e principalmente Tem um livro de referência que é o Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery do Graham Williams (Criador do Rattle) que seguramente junto com o livro do FRANK, HALL e WITTEN é um dos melhores e mais práticos manuais sobre mineração de dados. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 8 XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 9 XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 10 Figura 1 - Ferramenta Rattle. Abernethy [2015] Figura 2 - Ferramenta WEKA graficos. Abernethy [2015] 5.3 RapidMiner O RapidMiner é uma suíte de mineração de dados que vem se consolidando a algum tempo, e antes do R se tornar o software Open Source mais popular em análise de dados era o software de mineração de dados mais popular. O RapidMiner tem como principais diferenciais a parte de pré-processamento de dados, a baixa curva de aprendizado para início dos trabalhos em mineração de dados, além de produzir gráficos de ótima qualidade. O RapidMiner tem como desvantagem o “travamento” de diversos recursos que são liberados somente com a versão paga, não ter uma comunidade tão ativa, e pouca documentação (livros) dirigidos para o seu uso prático. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 11 Figura 1 - Ferramenta RapidMiner. Abernethy [2016] 6. Relatórios que auxiliam tomada de descrição. Por se tratar de uma descrição resumida, mas bem organizada e confiável, sobre determinado domínio da entidade, o relatório contábil permite que os gestores analisem e interpretem os dados, optando pelas melhores soluções para a situação do negócio. Observe como alguns relatórios podem ser de grande auxílio na tomada de decisão. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 12 Figura 1 - Tomada de descisão. 6.1 Livro Razão Exigido por lei, é vital nas empresas para o controle do movimento de todas as contas. Esse controle é feito de forma separada, fornecendo indicadores como: saldos; composição do patrimônio ativo e passivo; patrimônio líquido; fluxo de caixa (receitas, despesas e custos). A partir dele são feitos outros demonstrativos. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 13 Figura 1 - Relatório gerencial. 6.2 Livro diário Também exigido por lei, cronológico e fundamental ao processo contábil. Nesse livro, são lançadas as operações diárias de uma empresa. Estão expressas em sua formatação a data da operação, o título da conta débito e da conta crédito, o valor do crédito e do débito e o histórico (sucinto, mas detalhado). Todas as operações de débito e crédito que ocorrem na empresa devem ser lançadas no livro diário.O livro possui este nome porque ele registra todas as operações diárias que acontecem na empresa, ou seja, o seu lançamento deve ser diário, relacionado às atividades que acontecerem no dia respectivo. O livro diário deve ser autenticado e seu uso é de obrigatoriedade pelas empresas, sendo o livro de maior importância, seja na apuração de todas as informações relacionadas ao processamento das atividades inerentes ao negócio da empresa e outras, como mesmo para fazer a demonstração das informações ao fisco, seja na entrega de declarações XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 14 obrigatórias, seja no momento em que acontece uma fiscalização governamental na empresa. Dessa forma, o livro diário necessita seguir algumas normas para o seu perfeito preenchimento, que serão descritas abaixo: • Os registros devem ser lançados em ordem cronológica de acontecimento, ou seja, devem ser lançados os eventos que aconteceram primeiro e depois os seguintes, como sequência; • Todas as folhas do livro diário devem ser numeradas sequencialmente, ou seja, em ordem numérica sequencial do menor para o maior (Art. 258 do RIR/1999); • O livro diário deve ter um termo de abertura e um termo de encerramento; • O livro diário deve ser submetido ao órgão competente, que pode ser a Junta Comercial, dentro do prazo estabelecido pela legislação específica, para ser autenticado e para ser conhecida a sua situação fiscal e contábil. Sobre a forma de encadernação, não existe uma forma fixa para que se faça a encadernação. No entanto, a maioria das empresas e sob orientação das Juntas Comerciais, tem optado em encadernar o livro diário com o máximo de 500 páginas. Se não for possível um único volume para o ano em exercício, é possível utilizar outros volumes, desde que identificados. A identificação do livro diário deve ser feita de forma que facilite o seu arquivamento e a sua identificação no momento em que seja necessária a utilização do mesmo. A inexistência do livro diário pelas empresas optantes pelo regime de tributação do Lucro Real acarreta para a empresa o arbitramento do lucro, ou seja, a empresa passa a ser enquadrada na legislação de lucro arbitrado, sendo regida pelo Governo. Esta arbitrariedade se aplica à apuração do Imposto de Renda da Pessoa Jurídica (IRPJ) e também à Contribuição Social sobre o Lucro (CSLL). A escrituração do livro diário também pode ser feita por meio de escrituração digital, por meio de softwares e sistemas de computação. Nesse caso, a empresa pode realizar a impressão dos lançamentos e a encadernação das páginas correspondentes. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 15 6.3 Relatório Gerencial 1. Destinatários – Deve estar claro para quem elabora um Relatório Gerencial quem terá acesso ao mesmo. Uma boa providência é relacionar – na capa do relatório – quem são os destinatários – sem esquecer de destacar a palavra “confidencial” quando for o caso. 2. Objetivo – Quem elabora um Relatório Gerencial deve saber muito bem o que se espera dele – o que se deseja conseguir com a sua utilização. O objetivo mais comum é controlar um determinado assunto, tomando as possíveis decisões e providências necessárias perante objetivos determinados. Mas podem existir muitos outros, mais ou menos específicos. Descrever ou relacionar os objetivos, apresentando-os ou não no próprio relatório, pode ajudar bastante. 3. Conteúdo - Identifique e apresente o melhor possível as informações com maior potencial de utilidade para as pessoas envolvidas e interessadas. Geralmente elas abrangem três aspectos principais - custos, prazos e qualidade. Muito importante é identificar e atender os aspectos de relatividade - em especial os relacionados ao tempo e às referências ou metas. Mostrar apenas qual a despesa do mês não vai servir para muita coisa se não se souber qual a meta, e quais os valores de meses anteriores, ou a tendência. Para que serve informar que 70% da produção está pronta para quem não sabe qual seria o valor adequado, ou quando terá que chegar aos 100% ? Dependendo do tipo de Relatório Gerencial, pode ser importante a apresentação de tópicos como Introdução, Objetivos, Sumários, Glossários, Recomendações, Conclusões, Bibliografia ou Referências, Anexos, entre outros. Relatórios periódicos devem estar assim identificados, preferencialmente já no título. Datas e assinaturas nunca devem faltar onde necessárias – óbvio, porém é uma falha comum. 4. Forma – Deve ser a mais prática e comunicativa possível. O uso de ilustrações, desenhos, fotos, tabelas, gráficos, geralmente é de extrema valia. Merece destaque o uso de gráficos, nas suas mais variadas formas possíveis (linhas, barras, pizza, etc.) – softwares de planilhas, como o Excel, têm esses gráficos praticamente prontos – alguns cliques, e eles são gerados em segundos. Uma exposição bem estruturada (tópicos, capítulos, etc.), resumida e apresentada no Índice, geralmente agrega um bom valor. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 16 A exposição deve seguir sempre o esquema de pirâmide – o mais importante acima das explicações, justificativas, detalhes. Dados para eventuais conferências devem estar preferencialmente em anexos. As páginas devem ser sempre numeradas e, convém também que, além do título, o Relatório Gerencial seja numerado como um documento. Isso facilitará muito qualquer referência em outro documento, o arquivamento, buscas e pesquisas, entre outras coisas. Relatórios informatizados devem estar adequadamente formatados para impressão – tamanho de página, margens. 7. Metodologia Para este artigo, foram utilizadas pesquisas em artigos científicos, sites da internet, leitura de livros. Com o conhecimento adquirido, realizou-se este artigo científico, tendo o fundamento de transmitir o conhecimento sobre o assunto pesquisado. Com o crescimento no estudo da disciplina de mineração de dados no meio acadêmico, bem como a sua validação e aplicação prática no meio corporativo; surgiu a necessidade da construção de novas ferramentas e suítes, com finalidade exclusiva para mineração de dados, desde o pré-processamento de dados até a visualização.No mercado há diversas ferramentas proprietárias de excelente qualidade como o SPSS Clementine, SAS, Microsoft Analysis Services, STATISTICA, entre outros.Entretanto, as ferramentas Open Source vem apresentando muitos recursos e funcionalidades, as quais muitas vezes superam e muito os seus concorrentes pagos com maior flexibilidade devido a possibilidade total de customização em alguns casos, robustez de soluções e bibliotecas, e claro o preço de implementação.O objetivo desse post é fazer uma pequena explanação sobre cada um dos mais populares softwares de mineração de dados Open Source, e realizar alguns poucos comentários sobre algumas de suas características. 8. Conclusão Este artigo tem a finalidade de transmitir conhecimento para quem não entende sobre o assunto de Mineração de Dados (Data Mining) e ferramentas de mineração de dados juntamente com relatórios que auxiliam a tomada de descrição. Como era o objetivo do artigo, foi apresentado com clareza o assunto abordado. A mineração de dados não traz somente números em seus relatórios, traz números e respostas como, porque o produto X vendeu mais no mês de janeiro do que no mês de XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016 17 junho, porque o vendedor B vendeu mais no mês de abril do que no mês de janeiro. A mineração de dados é a solução para as organizações tomarem decisões de forma mais rápida. 10. Referências CARVALHO, Luís Alfredo Vidal de. Datamining – A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. Rio de Janeiro: Editora Ciência Moderna LTDA, 2005. ABERNETHY, Michael. Mineração de Dados com WEKA, Parte 1: Introdução e Regressão <http://www.ibm.com/developerworks/br/opensource/library/os-weka1/>. Acesso em 26 de maio de 2016. BRAGA, Luis Paulo Vieira. Introdução a Mineração de Dados. Rio de Janeiro: EPapers Serviços Editoriais, 2005. DAMASCENO, Marcelo - Introdução a Mineração de Dados Utilizando o WEKA <http://connepi.ifal.edu.br/ocs/anais/conteudo/anais/files/conferences/1/schedConfs/1/p apers/258/public/258-4653-1-PB.pdf>. Acesso em 26 de maio de 2016. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) – Ian H. Witten , Eibe Frank , Mark A. Hall https://mineracaodedados.wordpress.com/tag/ferramentas/ https://msdn.microsoft.com/ptbr/library/ms174949%28v=sql.120%29.aspx?f=255&MSPPError=-2147217396 https://www.ibm.com/developerworks/br/opensource/library/os-weka1/ http://www.analyticbridge.com/profiles/blogs/4-open-source-data-mining Acessado em 30 de Maio de 2016 FAVARETTO, Fabio e RHODEN, Carlos Alberto. Considerações Sobre Atividades de Identificação, Localização e Tratamento de Dados na Construção de um Data Warehouse, 2006. Data Mining: Concepts and Techniques Jiawei Han and Micheline Kamber. Morgan Kaufmann Publishers, 2001. Data Mining Ian H. Witten and Eibe Frank. Morgan Kaufmann Publishers, 2005. Data Mining Cookbook: Modeling Data for Marketing, Risk and Customer Relationship Management Olivia Parr Rud. John Wiley & Sons, 2001.GONÇALVES, Eduardo Corrêa. Mineração de Dados na Prática com Weka API, <http://www.devmedia.com.br/mineracao-dedados-na-pratica-com-weka-api-revista-sql-magazine-107/26841>. Acesso em 26 de maio de 2016. XI Ciclo de Estudos da Faculdade Cidade Verde “Ciência, Tecnologia e Inovação” 12 a 17/05/2016