Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas “modas” relacionados à BD. Para se ter uma noção do que seja, pense no provérbio “encontrar uma agulha no palheiro”, onde a agulha é uma peça única de inteligência das necessidades de seu negócio e o palheiro é o Data Warehouse (DW) que foi construído ao longo do tempo. Através do uso de técnicas de análise estática automatizada, ou seja, o Data Mining, as empresas estão descobrindo as tendências e padrões de comportamento que antes passava despercebidos. Uma vez descoberta essa inteligência vital, ela pode ser usada de forma preditiva para uma variedade de coisas. Brian James, assistente técnico do time de basquete Toronto Raptors, usa técnicas de mineração de dados para preparar o sua contra o resto dos times da NBA. O programa de Business Inteligence (BI) e de Descoberta do Conhecimento do Banco de Montrealeal usa para obter insights sobre o comportamento dos clientes. Com isso, dá pra perceber a potencialidade deste conceito. O modelo de mineração que um algoritmo cria pode assumir vários formatos, incluindo: Um conjunto de regras que descreve como são agrupados produtos em uma transação. Uma árvore de decisão que prevê se um determinado cliente comprará um produto. Um modelo matemático que prevê as vendas. Um conjunto de clusters que descreve como os casos em um conjunto de dados estão relacionados. Coleta de Dados Logicamente o primeiro passo de para construir um programa de Mineração de Dados é a Coleta de Dados. A maioria das empresas já realizam essas tarefas de coleta de dados, até certo ponto – a chave aqui é para localizar os dados críticos para o seu negócio, refiná-lo e prepará-lo para o processo de Mineração de Dados. Se você está atualmente rastreando os dados do cliente em um SGBD modernos, as chances são que você está quase pronto. Selecionando o Algoritmo Neste ponto, você tem um armazem de dados. O próximo passo é escolher um ou mais algoritmos de mineração de dados para aplicar para o seu problema. Se você está apenas começando, é provavelmente uma boa ideia para experimentar várias técnicaspara se dar uma idéia de como eles funcionam. Sua escolha do algoritmo irádepender dos dados que você recolheu, o problema que você está tentando resolver e as ferramentas de computação que você tem disponível para você.Vamos dar uma breve olhada em dois dos algoritmos mais popular: Regressão Esta técnica estática é a mais antiga e conhecida da comunidade que faz DM. Prevêem uma ou mais variáveis contínuas, como lucro ou perda, com base nos outros atributos do conjunto de dados. Basicamente, leva-se um conjunto de dados numéricos e desenvolve-se uma fórmula matemática que se ajusta aos dados. Quando está tudo pronto para prever os resultados do comportamento futuro, você simplesmente captura seus novos dados, conecta-o à fórmula desenvolvida e você tem uma previsão! A principal limitação desta técnica é que ela só funciona bem com dados contínuos quantitativos (peso, velocidade ou idade). Se você está trabalhando com dados categóricos onde a ordem não é importante (como nome, cor ou sexo) é melhor escolher uma outra técnica. Classificação Trabalhando com dados categóricos ou uma mistura de dados numéricos contínuos e categóricos? A análise de Classificação pode atender às suas necessidades também. Prevêem uma ou mais variáveis discretas, com base nos outros atributos do conjunto de dados. Esta técnica é capaz de processar uma variedade maior de dados do que de regressão e está crescendo em popularidade. Você também vai encontrar saída que é muito mais fácil de interpretar. Em vez da fórmula matemática complicada dada pela técnica de Regressão, você receberá uma árvore de decisão que requer uma série de decisões binárias. Um algoritmo de classificação popular é o Algoritmo de Agrupamento K-Means. Existe o algoritmo de Classificação Bayesiana recebe este nome por ser baseado no teorema de probabilidade de Bayes. Tem como objetivo calcular a probabilidade que uma amostra desconhecida pertença a cada uma das classes possíveis, ou seja, predizer a classe mais provável. Este tipo de predição é chamada de classificação estatística, pois é completamente baseada em probabilidades. Segmentação Os algoritmos dividem dados em grupos ou clusters de itens que têm propriedades semelhantes. Usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contenham características semelhantes. Esses agrupamentos são úteis para explorar dados, identificando anomalias nos dados e criar previsões. Modelos de clustering identificam as relações em um conjunto de dados que não podem ser derivados de forma lógica através de observação casual. Por exemplo, você pode discernir logicamente que pessoas que se vão para o trabalho de bicicleta normalmente não moram longe do local onde trabalham. Porém, o algoritmo pode encontrar outras características dos usuários de bicicleta que não são tão óbvias. No diagrama a seguir, o cluster A representa dados sobre pessoas que pretendem ir de carro para o trabalho, enquanto o cluster B representa dados sobre pessoas que pretendem ir de bicicleta para o trabalho. O algoritmo de clustering difere dos demais algoritmos de mineração de dados, como o algoritmo Árvores de Decisão da Microsoft, porque você não precisa designar uma coluna previsível para poder criar um modelo de clustering. O algoritmo de clustering treina o modelo estritamente a partir das relações existentes nos dados e a partir dos clusters que o algoritmo identifica. Associação Encontram correlações entre atributos diferentes em um conjunto de dados. A aplicação mais comum desse tipo de algoritmo é para criar regras de associação, que podem ser usadas em uma análise de cesta básica. É um algoritmo de associação é útil para mecanismos de recomendação. Um mecanismo de recomendação recomenda produtos aos clientes com base nos itens que eles já compraram ou pelos quais mostraram interesse. Modelos de associação são criados a partir de conjuntos de dados que contêm identificadores de casos individuais e de itens contidos em casos. Um grupo de itens de um caso é chamado de conjunto de itens. Um modelo de associação é formado por uma série de conjuntos de itens e regras que descrevem como esses itens são agrupados nos casos. As regras que o algoritmo identificar podem ser usadas para prever as prováveis compras futuras do cliente com base nos itens já existentes em seu carrinho de compras. O diagrama a seguir mostra uma série de regras em um conjunto de itens. Exemplo: A empresa Adventure Works Cycle está redesenhando a funcionalidade de seu site. A meta do redesenho é aumentar a venda direta de produtos. Como a empresa registra cada venda em um banco de dados transacional, pode usar o algoritmo Associação da Microsoft para identificar conjuntos de produtos que tendem a ser comprados juntos. Ela pode então prever outros itens pelos o quais o cliente poderia interessar-se com base nos itens que já estão no carrinho de compras. Espero que o texto tenha ajudado a entender a idéia do que seja o Data Mining. Abraços e até a próxima!