Data mining ganha espaço na estratégia empresarial Obter vantagem competitiva. Essa premissa tem levado as companhias a investir em um conceito que vem crescendo no mercado: o data mining, ou a mineração de dados. Trata-se de um processo que utiliza métodos estatísticos para descobrir padrões. O modelo analisa e cruza grandes quantidades de dados em busca de amostras consistentes. De acordo com Carlos Eduardo Calegari, analista sênior de Software da consultoria IDC Brasil, o processo garante a extração de informações escondidas que não eram visualizadas até então. “A companhia não vai se deparar com informações óbvias e triviais”, resume. É um passo a mais naestratégia analítica, observa. Para ele, data mining começa com a gestão correta do dado pinçado de uma grande base e termina com Business Intelligence (BI), que dá ainda mais poder a essa cadeia. Calegari aponta que o processo não é novo, mas tem-se deparado com um desafio recente: a grande quantidade de dados, estruturados e não estruturados, que as organizações têm de lidar todos os dias. “Antes, a preocupação era guardar, hoje, além de armazenar, é preciso integrar as fontes e extrair informações no menor prazo possível”, avalia. O mercado de data mining, diz, salta na casa de dois dígitos justamente porque as companhias estão preocupadas com a competitividade. “Avaliar informações rapidamente é fator de diferenciação”, destaca. A IDC projeta que o setor advanced analytics, do qual data mining faz parte, terá crescimento composto de 20% até 2015. Data mining é um aditivo para as organizações. Assim define Alessandra Montini, coordenadora de projetos de pós-graduação da Fundação Instituto de Administração (FIA). “Com ele, é possível efetuar o cruzamento de dados e direcionar, por exemplo, uma comunicação adequada para cada tipo de público, saber e entender as necessidades dos consumidores, definir qual produto [ou serviço] tem mais retorno dos clientes e ainda estabelecer o modelo de precificação e planejar a capacidade de produção”, exemplifica. Além de entender melhor o perfil de consumo do público-alvo, Alessandra destaca que a aplicação da solução nos negócios possibilita benefícios como aumento do lucro e redução de custos. Esses atrativos têm seduzido as organizações. Segundo o instituto de pesquisas Gartner, o tema, ao lado de BI e software analítico, é o quinto na lista de prioridades dos CIOs da América Latina neste ano. “Ainda assim, acredito que poucas corporações hoje não estão colocando o modelo em prática de forma eficiente e estruturada”, avalia Fausto Novaes, consultor para a indústria na área de finanças da Teradata. Na visão dele, setores como finanças, varejo, telecom, transporte e internet saíram à frente no uso de data mining. “São segmentos que lidam com grandes bases de dados, estruturados e não estruturados, e que a competitividade é alta. Eles encontraram na TI uma forma de investigar comportamentos e mais do que isso: surpreender o cliente”, observa. Data mining, e agora? Mas por onde as companhias devem começar para obter resultados com a mineração de dados? De acordo com Alessandra, o coração do processo está na organização de dados. “Esse primeiro passo já uma tarefa desafiadora, porque as corporações contam com diversas fontes de informações e elas precisam de uma base única, limpa e de qualidade para realizar a análise”, explica. Novaes concorda. “A lição número um é acabar com os silos e criar uma governança de dados”, aconselha. Além disso, pontua, é preciso garantir a qualidade das informações. “Lixo entra, lixo sai. Isso também acontece com data mining.” Depois de definida a base consistente de dados, o próximo passo, diz Alessandra, é fazer uma amostragem adequada e, depois, usar alguma técnica [seja ela estatística, rede neural etc] para gerar o modelo. A última etapa do ciclo é montar um relatório para tomada de decisões. Essas etapas, diz, são parte de um curso de pós-graduação que a FIA criou em 2010 para ajudar companhias a lidar com data mining. Desde então, a instituição de ensino formou cerca de 25 profissionais de diferentes setores que buscam entender melhor esse universo. A próxima turma do curso “Análise de dados e Data Mining” se reunirá a partir deste mês para entender e selecionar dados, aprender técnicas aplicadas à mineração e conhecer modelos de data mining. A FIA estabeleceu parceria com o SAS para fornecer o software para possibilitar aos alunos contato com data mining durante o curso. A tecnologia conta com recursos como text parsing, filtragem de termos, agrupamento de documentos e gerenciamento e modelagem de tópicos. “Data mining para o SAS é a capacidade de utilizar métodos estatísticos avançados para seleção, exploração e modelagem descritiva ou preditiva de grandes quantidades de dados, possibilitando vantagens competitivas aos negócios”, define Márcio Gadaleta, gerente de pré-vendas para serviços Financeiros do SAS. Segundo ele, decisões baseadas em análises matemáticas dos dados são mais propensas a gerarem resultados positivos do que as baseadas em intuição ou em repetição de decisões passadas. Gadaleta aponta que o SAS conta com duas abordagens para ajudar empresas a lidar com o data mining: ferramentas e soluções de negócios. Ele explica. “O principal componente dessa oferta é o SAS Enterprise Miner, que facilita o processo de mineração que possui uma técnica e algoritmos para lidar com qualquer volume de dados”, detalha. Sobre as soluções, ele aponta que a fornecedora agrega ao ferramental analítico o conhecimento de negócios em verticais para acelerar os resultados e ampliar o retorno sobre o investimento (ROI, do inglês). Esses diferenciais e ainda a incerteza econômica [que tem impulsionado a necessidade por aumento de receita com eficiência operacional], avalia Gadaleta, fizeram com que no ano passado o SAS registrasse incremento de 30% no faturamento em razão da busca de data mining. “Na área operacional, temos como clientes empresas de telecomunicações, bancos e companhias de distribuição de energia, que utilizam mineração de dados para identificar consumidores propensos à inadimplência e para auxiliar na definição de estratégias de cobrança”, exemplifica. Outra aplicação é na identificação assertiva de oportunidades de negócios e ameaças, reduzindo o custo e aumentando as receitas, pontua. Contribuiu para formar esse cenário de grande procura, prossegue o executivo, o fato de que o SAS estabelece parcerias com os principais fornecedores de banco de dados, como GreenPlum e Teradata, para criar appliance capazes de suportar o desenvolvimento de modelos de mineração de dados diretamente sobre as bases de dados. “Nossa estratégia se baseia no conceito de Big Data e na capacidade de usar a totalidade dos dados, sem necessidade de realizar amostragens. Por isso as alianças são fundamentais”, observa Gadaleta. A Oracle aponta que nos últimos meses aumentou a busca pela solução Oracle Data Mining [software incorporado ao banco de dados Oracle, que permite às empresas descobrir novas relações ocultas em seus dados]. “Isso aconteceu pela mudança de mercado de exigir respostas mais rápidas às duas dúvidas e também pela maior maturidade das empresas em questões de análises dos dados”, afirma Priscila Siqueira, gerente de prévendas da Oracle para a América Latina. Além de achar padrões, Priscila afirma que com data mining é possível identificar e evitar fraudes, mapear os atributos mais influentes que afetam os principais indicadores de desempenho (KPIs) e descobrir novas e valiosas informações dos dados. Um banco, por exemplo, pode conhecer o padrão de um cliente de cartão de crédito e avaliar desvios, que podem indicar fraudes ou outros tipos de incidentes de segurança. Na Teradata, aponta Novaes, diversas tecnologias são usadas para compor o desenho do data mining, que pode variar de vertical para vertical. Faz parte dessa cadeia ainda, afirma, um profissional que vai manusear a base de dados, que ele chama de cientista de dados. “Esse novo especialista não só conhece a parte técnica do modelo, como investiga variáveis. Ele não tem a função de somente clicar em telas, ele cruza tabelas e investiga a fundo as informações”, analisa. Flavio Bolieiro, vice-presidente da MicroStrategy para América Latina, dá um exemplo tradicional de como data mining pode incrementar os negócios. “Já ouviu falar sobre uma rede de supermercados que descobriu que ao posicionar fraldas ao lado da cerveja, aumentaria a venda da bebida? Essa é uma descoberta de um padrão incomum.” O executivo aponta que a MicroStrategy tem em sua plataforma recurso de data mining e que o conceito está inserido ainda nas soluções para mapeamento de redes sociais e mobilidade. “A combinação dessas tecnologias emergentes é algo valioso para as empresas, ajudando-as a eliminar desafios que antes não estão no centro das atenções”, afirma. Como conselho, Bolieiro diz que é preciso, antes de mais nada, avaliar as necessidades do negócio antes de ingressar de cabeça nesse mundo. “Qual é meu real problema? Eu quero aumentar minhas vendas? Diminuiu o risco de inadimplência? Onde quero chegar? São perguntas que as companhias devem fazer antes de escolher a tecnologia”, aconselha. Fonte: Computer World Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas “modas” relacionados à BD. Para se ter uma noção do que seja, pense no provérbio “encontrar uma agulha no palheiro”, onde a agulha é uma peça única de inteligência das necessidades de seu negócio e o palheiro é o Data Warehouse (DW) que foi construído ao longo do tempo. Através do uso de técnicas de análise estática automatizada, ou seja, o Data Mining, as empresas estão descobrindo as tendências e padrões de comportamento que antes passava despercebidos. Uma vez descoberta essa inteligência vital, ela pode ser usada de forma preditiva para uma variedade de coisas. Brian James, assistente técnico do time de basquete Toronto Raptors, usa técnicas de mineração de dados para preparar o sua contra o resto dos times da NBA. O programa de Business Inteligence (BI) e de Descoberta do Conhecimento do Banco de Montrealeal usa para obter insights sobre o comportamento dos clientes. Com isso, dá pra perceber a potencialidade deste conceito. O modelo de mineração que um algoritmo cria pode assumir vários formatos, incluindo: Um conjunto de regras que descreve como são agrupados produtos em uma transação. Uma árvore de decisão que prevê se um determinado cliente comprará um produto. Um modelo matemático que prevê as vendas. Um conjunto de clusters que descreve como os casos em um conjunto de dados estão relacionados. Coleta de Dados Logicamente o primeiro passo de para construir um programa de Mineração de Dados é a Coleta de Dados. A maioria das empresas já realizam essas tarefas de coleta de dados, até certo ponto – a chave aqui é para localizar os dados críticos para o seu negócio, refiná-lo e prepará-lo para o processo de Mineração de Dados. Se você está atualmente rastreando os dados do cliente em um SGBD modernos, as chances são que você está quase pronto. Selecionando o Algoritmo Neste ponto, você tem um armazem de dados. O próximo passo é escolher um ou mais algoritmos de mineração de dados para aplicar para o seu problema. Se você está apenas começando, é provavelmente uma boa ideia para experimentar várias técnicaspara se dar uma idéia de como eles funcionam. Sua escolha do algoritmo irádepender dos dados que você recolheu, o problema que você está tentando resolver e as ferramentas de computação que você tem disponível para você.Vamos dar uma breve olhada em dois dos algoritmos mais popular: Regressão Esta técnica estática é a mais antiga e conhecida da comunidade que faz DM. Prevêem uma ou mais variáveis contínuas, como lucro ou perda, com base nos outros atributos do conjunto de dados. Basicamente, leva-se um conjunto de dados numéricos e desenvolve-se uma fórmula matemática que se ajusta aos dados. Quando está tudo pronto para prever os resultados do comportamento futuro, você simplesmente captura seus novos dados, conecta-o à fórmula desenvolvida e você tem uma previsão! A principal limitação desta técnica é que ela só funciona bem com dados contínuos quantitativos (peso, velocidade ou idade). Se você está trabalhando com dados categóricos onde a ordem não é importante (como nome, cor ou sexo) é melhor escolher uma outra técnica. Classificação Trabalhando com dados categóricos ou uma mistura de dados numéricos contínuos e categóricos? A análise de Classificação pode atender às suas necessidades também. Prevêem uma ou mais variáveis discretas, com base nos outros atributos do conjunto de dados. Esta técnica é capaz de processar uma variedade maior de dados do que de regressão e está crescendo em popularidade. Você também vai encontrar saída que é muito mais fácil de interpretar. Em vez da fórmula matemática complicada dada pela técnica de Regressão, você receberá uma árvore de decisão que requer uma série de decisões binárias. Um algoritmo de classificação popular é o Algoritmo de Agrupamento K-Means. Existe o algoritmo de Classificação Bayesiana recebe este nome por ser baseado no teorema de probabilidade de Bayes. Tem como objetivo calcular a probabilidade que uma amostra desconhecida pertença a cada uma das classes possíveis, ou seja, predizer a classe mais provável. Este tipo de predição é chamada de classificação estatística, pois é completamente baseada em probabilidades. Segmentação Os algoritmos dividem dados em grupos ou clusters de itens que têm propriedades semelhantes. Usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contenham características semelhantes. Esses agrupamentos são úteis para explorar dados, identificando anomalias nos dados e criar previsões. Modelos de clustering identificam as relações em um conjunto de dados que não podem ser derivados de forma lógica através de observação casual. Por exemplo, você pode discernir logicamente que pessoas que se vão para o trabalho de bicicleta normalmente não moram longe do local onde trabalham. Porém, o algoritmo pode encontrar outras características dos usuários de bicicleta que não são tão óbvias. No diagrama a seguir, o cluster A representa dados sobre pessoas que pretendem ir de carro para o trabalho, enquanto o cluster B representa dados sobre pessoas que pretendem ir de bicicleta para o trabalho. O algoritmo de clustering difere dos demais algoritmos de mineração de dados, como o algoritmo Árvores de Decisão da Microsoft, porque você não precisa designar uma coluna previsível para poder criar um modelo de clustering. O algoritmo de clustering treina o modelo estritamente a partir das relações existentes nos dados e a partir dos clusters que o algoritmo identifica. Associação Encontram correlações entre atributos diferentes em um conjunto de dados. A aplicação mais comum desse tipo de algoritmo é para criar regras de associação, que podem ser usadas em uma análise de cesta básica. É um algoritmo de associação é útil para mecanismos de recomendação. Um mecanismo de recomendação recomenda produtos aos clientes com base nos itens que eles já compraram ou pelos quais mostraram interesse. Modelos de associação são criados a partir de conjuntos de dados que contêm identificadores de casos individuais e de itens contidos em casos. Um grupo de itens de um caso é chamado de conjunto de itens. Um modelo de associação é formado por uma série de conjuntos de itens e regras que descrevem como esses itens são agrupados nos casos. As regras que o algoritmo identificar podem ser usadas para prever as prováveis compras futuras do cliente com base nos itens já existentes em seu carrinho de compras. O diagrama a seguir mostra uma série de regras em um conjunto de itens. Exemplo: A empresa Adventure Works Cycle está redesenhando a funcionalidade de seu site. A meta do redesenho é aumentar a venda direta de produtos. Como a empresa registra cada venda em um banco de dados transacional, pode usar o algoritmo Associação da Microsoft para identificar conjuntos de produtos que tendem a ser comprados juntos. Ela pode então prever outros itens pelos o quais o cliente poderia interessar-se com base nos itens que já estão no carrinho de compras. Espero que o texto tenha ajudado a entender a idéia do que seja o Data Mining. Abraços e até a próxima!