Introdução ao Data Mining (Mineração de Dados)

Propaganda
Introdução ao Data Mining
(Mineração de Dados)
Quem é da área de TI, provavelmente já ouviu sobre Data
Mining, mesmo que não saiba o que é. É uma das últimas “modas”
relacionados à BD. Para se ter uma noção do que seja, pense no
provérbio “encontrar uma agulha no palheiro”, onde a agulha é
uma peça única de inteligência das necessidades de seu negócio
e o palheiro é o Data Warehouse (DW) que foi construído ao
longo do tempo.
Através do uso de técnicas de análise estática automatizada,
ou seja, o Data Mining, as empresas estão descobrindo as
tendências e padrões de comportamento que antes passava
despercebidos. Uma vez descoberta essa inteligência vital, ela
pode ser usada de forma preditiva para uma variedade de
coisas. Brian James, assistente técnico do time de basquete
Toronto Raptors, usa técnicas de mineração de dados para
preparar o sua contra o resto dos times da NBA. O programa de
Business Inteligence (BI) e de Descoberta do Conhecimento do
Banco de Montrealeal usa para obter insights sobre o
comportamento dos clientes. Com isso, dá pra perceber a
potencialidade deste conceito.
O modelo de mineração que um algoritmo cria pode assumir
vários formatos, incluindo:
Um conjunto de regras que descreve como são agrupados
produtos em uma transação.
Uma árvore de decisão que prevê se um determinado
cliente comprará um produto.
Um modelo matemático que prevê as vendas.
Um conjunto de clusters que descreve como os casos em um
conjunto de dados estão relacionados.
Coleta de Dados
Logicamente o primeiro passo de para construir um programa de
Mineração de Dados é a Coleta de Dados. A maioria das
empresas já realizam essas tarefas de coleta de dados, até
certo ponto – a chave aqui é para localizar os dados
críticos para o seu negócio, refiná-lo e prepará-lo para o
processo de Mineração de Dados. Se você está atualmente
rastreando os dados do cliente em um SGBD modernos, as
chances são que você está quase pronto.
Selecionando o Algoritmo
Neste ponto, você tem um armazem de dados. O próximo passo é
escolher um ou mais algoritmos de mineração de dados para
aplicar para o seu problema. Se você está apenas começando, é
provavelmente uma boa ideia para experimentar várias
técnicaspara se dar uma idéia de como eles funcionam. Sua
escolha do algoritmo irádepender dos dados que você
recolheu, o problema que você está tentando resolver e as
ferramentas de computação que você tem disponível para
você.Vamos dar uma breve olhada em dois dos algoritmos
mais popular:
Regressão
Esta técnica estática é a mais antiga e conhecida da
comunidade que faz DM. Prevêem uma ou mais variáveis
contínuas, como lucro ou perda, com base nos outros atributos
do conjunto de dados. Basicamente, leva-se um conjunto de
dados numéricos e desenvolve-se uma fórmula matemática que se
ajusta aos dados. Quando está tudo pronto para prever os
resultados do comportamento futuro, você simplesmente captura
seus novos dados, conecta-o à fórmula desenvolvida e você
tem uma previsão! A principal limitação desta técnica é que
ela só funciona bem com dados contínuos quantitativos (peso,
velocidade ou idade). Se você está trabalhando com dados
categóricos onde a ordem não é importante (como nome, cor
ou sexo) é melhor escolher uma outra técnica.
Classificação
Trabalhando com dados categóricos ou uma mistura de dados
numéricos contínuos e categóricos? A análise de
Classificação pode atender às suas necessidades também.
Prevêem uma ou mais variáveis discretas, com base nos outros
atributos do conjunto de dados. Esta técnica é capaz de
processar uma variedade maior de dados do que de regressão
e está crescendo em popularidade. Você também vai
encontrar saída que é muito mais fácil de interpretar. Em vez
da fórmula matemática complicada dada pela técnica de
Regressão, você receberá uma árvore de decisão que requer uma
série
de
decisões
binárias.
Um
algoritmo
de
classificação popular é o Algoritmo de Agrupamento K-Means.
Existe o algoritmo de Classificação Bayesiana recebe este nome
por ser baseado no teorema de probabilidade de Bayes. Tem como
objetivo calcular a probabilidade que uma amostra desconhecida
pertença a cada uma das classes possíveis, ou seja, predizer a
classe mais provável. Este tipo de predição é chamada de
classificação estatística, pois é completamente baseada em
probabilidades.
Segmentação
Os algoritmos dividem dados em grupos ou clusters de itens que
têm propriedades semelhantes. Usa técnicas iterativas para
agrupar casos em um conjunto de dados em clusters que
contenham características semelhantes. Esses agrupamentos são
úteis para explorar dados, identificando anomalias nos dados e
criar previsões.
Modelos de clustering identificam as relações em um conjunto
de dados que não podem ser derivados de forma lógica através
de observação casual. Por exemplo, você pode discernir
logicamente que pessoas que se vão para o trabalho de
bicicleta normalmente não moram longe do local onde trabalham.
Porém, o algoritmo pode encontrar outras características dos
usuários de bicicleta que não são tão óbvias. No diagrama a
seguir, o cluster A representa dados sobre pessoas que
pretendem ir de carro para o trabalho, enquanto o cluster B
representa dados sobre pessoas que pretendem ir de bicicleta
para o trabalho.
O algoritmo de clustering difere dos demais algoritmos de
mineração de dados, como o algoritmo Árvores de Decisão da
Microsoft, porque você não precisa designar uma coluna
previsível para poder criar um modelo de clustering. O
algoritmo de clustering treina o modelo estritamente a partir
das relações existentes nos dados e a partir dos clusters que
o algoritmo identifica.
Associação
Encontram correlações entre atributos diferentes em um
conjunto de dados. A aplicação mais comum desse tipo de
algoritmo é para criar regras de associação, que podem ser
usadas em uma análise de cesta básica. É um algoritmo de
associação é útil para mecanismos de recomendação. Um
mecanismo de recomendação recomenda produtos aos clientes com
base nos itens que eles já compraram ou pelos quais mostraram
interesse.
Modelos de associação são criados a partir de conjuntos de
dados que contêm identificadores de casos individuais e de
itens contidos em casos. Um grupo de itens de um caso é
chamado de conjunto de itens. Um modelo de associação é
formado por uma série de conjuntos de itens e regras que
descrevem como esses itens são agrupados nos casos. As regras
que o algoritmo identificar podem ser usadas para prever as
prováveis compras futuras do cliente com base nos itens já
existentes em seu carrinho de compras. O diagrama a seguir
mostra uma série de regras em um conjunto de itens.
Exemplo: A empresa Adventure Works Cycle está redesenhando a
funcionalidade de seu site. A meta do redesenho é aumentar a
venda direta de produtos. Como a empresa registra cada venda
em um banco de dados transacional, pode usar o algoritmo
Associação da Microsoft para identificar conjuntos de produtos
que tendem a ser comprados juntos. Ela pode então prever
outros itens pelos o quais o cliente poderia interessar-se com
base nos itens que já estão no carrinho de compras.
Espero que o texto tenha ajudado a entender a idéia do que
seja o Data Mining. Abraços e até a próxima!
Download