Mineração de Dados

Propaganda
Data mining ganha espaço na
estratégia empresarial
Obter vantagem competitiva. Essa premissa tem levado as
companhias a investir em um conceito que vem crescendo no
mercado: o data mining, ou a mineração de dados. Trata-se de
um processo que utiliza métodos estatísticos para descobrir
padrões. O modelo analisa e cruza grandes quantidades de
dados em busca de amostras consistentes.
De acordo com Carlos Eduardo Calegari, analista sênior de
Software da consultoria IDC Brasil, o processo garante a
extração de informações escondidas que não eram visualizadas
até então. “A companhia não vai se deparar com informações
óbvias e triviais”, resume. É um passo a mais naestratégia
analítica, observa. Para ele, data mining começa com a gestão
correta do dado pinçado de uma grande base e termina com
Business Intelligence (BI), que dá ainda mais poder a essa
cadeia.
Calegari aponta que o processo não é novo, mas tem-se deparado
com um desafio recente: a grande quantidade de dados,
estruturados e não estruturados, que as organizações têm de
lidar todos os dias. “Antes, a preocupação era guardar, hoje,
além de armazenar, é preciso integrar as fontes e extrair
informações no menor prazo possível”, avalia.
O mercado de data mining, diz, salta na casa de dois dígitos
justamente porque as companhias estão preocupadas com a
competitividade. “Avaliar informações rapidamente é fator de
diferenciação”, destaca. A IDC projeta que o setor advanced
analytics, do qual data mining faz parte, terá crescimento
composto de 20% até 2015.
Data mining é um aditivo para as organizações. Assim define
Alessandra Montini, coordenadora de projetos de pós-graduação
da Fundação Instituto de Administração (FIA). “Com ele, é
possível efetuar o cruzamento de dados e direcionar, por
exemplo, uma comunicação adequada para cada tipo de público,
saber e entender as necessidades dos consumidores, definir
qual produto [ou serviço] tem mais retorno dos clientes e
ainda estabelecer o modelo de precificação e planejar a
capacidade de produção”, exemplifica.
Além de entender melhor o perfil de consumo do público-alvo,
Alessandra destaca que a aplicação da solução nos negócios
possibilita benefícios como aumento do lucro e redução de
custos.
Esses atrativos têm seduzido as organizações. Segundo o
instituto de pesquisas Gartner, o tema, ao lado de BI e
software analítico, é o quinto na lista de prioridades dos
CIOs da América Latina neste ano. “Ainda assim, acredito que
poucas corporações hoje não estão colocando o modelo em
prática de forma eficiente e estruturada”, avalia Fausto
Novaes, consultor para a indústria na área de finanças da
Teradata.
Na visão dele, setores como finanças, varejo, telecom,
transporte e internet saíram à frente no uso de data mining.
“São segmentos que lidam com grandes bases de dados,
estruturados e não estruturados, e que a competitividade é
alta. Eles encontraram na TI uma forma de investigar
comportamentos e mais do que isso: surpreender o cliente”,
observa.
Data mining, e agora?
Mas por onde as companhias devem começar para obter resultados
com a mineração de dados? De acordo com Alessandra, o coração
do processo está na organização de dados. “Esse primeiro passo
já uma tarefa desafiadora, porque as corporações contam com
diversas fontes de informações e elas precisam de uma base
única, limpa e de qualidade para realizar a análise”, explica.
Novaes concorda. “A lição número um é acabar com os silos e
criar uma governança de dados”, aconselha. Além disso, pontua,
é preciso garantir a qualidade das informações. “Lixo entra,
lixo sai. Isso também acontece com data mining.”
Depois de definida a base consistente de dados, o próximo
passo, diz Alessandra, é fazer uma amostragem adequada e,
depois, usar alguma técnica [seja ela estatística, rede neural
etc] para gerar o modelo. A última etapa do ciclo é montar um
relatório para tomada de decisões.
Essas etapas, diz, são parte de um curso de pós-graduação que
a FIA criou em 2010 para ajudar companhias a lidar com data
mining. Desde então, a instituição de ensino formou cerca de
25 profissionais de diferentes setores que buscam entender
melhor esse universo. A próxima turma do curso “Análise de
dados e Data Mining” se reunirá a partir deste mês para
entender e selecionar dados, aprender técnicas aplicadas à
mineração e conhecer modelos de data mining.
A FIA estabeleceu parceria com o SAS para fornecer o software
para possibilitar aos alunos contato com data mining durante o
curso. A tecnologia conta com recursos como text parsing,
filtragem de termos, agrupamento de documentos e gerenciamento
e modelagem de tópicos.
“Data mining para o SAS é a capacidade de utilizar métodos
estatísticos avançados para seleção, exploração e modelagem
descritiva ou preditiva de grandes quantidades de dados,
possibilitando vantagens competitivas aos negócios”, define
Márcio Gadaleta, gerente de pré-vendas para serviços
Financeiros do SAS.
Segundo ele, decisões baseadas em análises matemáticas dos
dados são mais propensas a gerarem resultados positivos do que
as baseadas em intuição ou em repetição de decisões passadas.
Gadaleta aponta que o SAS conta com duas abordagens para
ajudar empresas a lidar com o data mining: ferramentas e
soluções de negócios. Ele explica. “O principal componente
dessa oferta é o SAS Enterprise Miner, que facilita o processo
de mineração que possui uma técnica e algoritmos para lidar
com qualquer volume de dados”, detalha.
Sobre as soluções, ele aponta que a fornecedora agrega ao
ferramental analítico o conhecimento de negócios em verticais
para acelerar os resultados e ampliar o retorno sobre o
investimento (ROI, do inglês). Esses diferenciais e ainda a
incerteza econômica [que tem impulsionado a necessidade por
aumento de receita com eficiência operacional], avalia
Gadaleta, fizeram com que no ano passado o SAS registrasse
incremento de 30% no faturamento em razão da busca de data
mining.
“Na área operacional, temos como clientes empresas de
telecomunicações, bancos e companhias de distribuição de
energia, que utilizam mineração de dados para identificar
consumidores propensos à inadimplência e para auxiliar na
definição de estratégias de cobrança”, exemplifica. Outra
aplicação é na identificação assertiva de oportunidades de
negócios e ameaças, reduzindo o custo e aumentando as
receitas, pontua.
Contribuiu para formar esse cenário de grande procura,
prossegue o executivo, o fato de que o SAS estabelece
parcerias com os principais fornecedores de banco de dados,
como GreenPlum e Teradata, para criar appliance capazes de
suportar o desenvolvimento de modelos de mineração de dados
diretamente sobre as bases de dados. “Nossa estratégia se
baseia no conceito de Big Data e na capacidade de usar a
totalidade dos dados, sem necessidade de realizar amostragens.
Por isso as alianças são fundamentais”, observa Gadaleta.
A Oracle aponta que nos últimos meses aumentou a busca pela
solução Oracle Data Mining [software incorporado ao banco de
dados Oracle, que permite às empresas descobrir novas relações
ocultas em seus dados]. “Isso aconteceu pela mudança de
mercado de exigir respostas mais rápidas às duas dúvidas e
também pela maior maturidade das empresas em questões de
análises dos dados”, afirma Priscila Siqueira, gerente de prévendas da Oracle para a América Latina.
Além de achar padrões, Priscila afirma que com data mining é
possível identificar e evitar fraudes, mapear os atributos
mais influentes que afetam os principais indicadores de
desempenho (KPIs) e descobrir novas e valiosas informações dos
dados. Um banco, por exemplo, pode conhecer o padrão de um
cliente de cartão de crédito e avaliar desvios, que podem
indicar fraudes ou outros tipos de incidentes de segurança.
Na Teradata, aponta Novaes, diversas tecnologias são usadas
para compor o desenho do data mining, que pode variar de
vertical para vertical. Faz parte dessa cadeia ainda, afirma,
um profissional que vai manusear a base de dados, que ele
chama de cientista de dados. “Esse novo especialista não só
conhece a parte técnica do modelo, como investiga variáveis.
Ele não tem a função de somente clicar em telas, ele cruza
tabelas e investiga a fundo as informações”, analisa.
Flavio Bolieiro, vice-presidente da MicroStrategy para América
Latina, dá um exemplo tradicional de como data mining pode
incrementar os negócios. “Já ouviu falar sobre uma rede de
supermercados que descobriu que ao posicionar fraldas ao lado
da cerveja, aumentaria a venda da bebida? Essa é uma
descoberta de um padrão incomum.”
O executivo aponta que a MicroStrategy tem em sua plataforma
recurso de data mining e que o conceito está inserido ainda
nas soluções para mapeamento de redes sociais e mobilidade. “A
combinação dessas tecnologias emergentes é algo valioso para
as empresas, ajudando-as a eliminar desafios que antes não
estão no centro das atenções”, afirma.
Como conselho, Bolieiro diz que é preciso, antes de mais nada,
avaliar as necessidades do negócio antes de ingressar de
cabeça nesse mundo. “Qual é meu real problema? Eu quero
aumentar minhas vendas? Diminuiu o risco de inadimplência?
Onde quero chegar? São perguntas que as companhias devem fazer
antes de escolher a tecnologia”, aconselha.
Fonte: Computer World
Introdução ao Data Mining
(Mineração de Dados)
Quem é da área de TI, provavelmente já ouviu sobre Data
Mining, mesmo que não saiba o que é. É uma das últimas “modas”
relacionados à BD. Para se ter uma noção do que seja, pense no
provérbio “encontrar uma agulha no palheiro”, onde a agulha é
uma peça única de inteligência das necessidades de seu negócio
e o palheiro é o Data Warehouse (DW) que foi construído ao
longo do tempo.
Através do uso de técnicas de análise estática automatizada,
ou seja, o Data Mining, as empresas estão descobrindo as
tendências e padrões de comportamento que antes passava
despercebidos. Uma vez descoberta essa inteligência vital, ela
pode ser usada de forma preditiva para uma variedade de
coisas. Brian James, assistente técnico do time de basquete
Toronto Raptors, usa técnicas de mineração de dados para
preparar o sua contra o resto dos times da NBA. O programa de
Business Inteligence (BI) e de Descoberta do Conhecimento do
Banco de Montrealeal usa para obter insights sobre o
comportamento dos clientes. Com isso, dá pra perceber a
potencialidade deste conceito.
O modelo de mineração que um algoritmo cria pode assumir
vários formatos, incluindo:
Um conjunto de regras que descreve como são agrupados
produtos em uma transação.
Uma árvore de decisão que prevê se um determinado
cliente comprará um produto.
Um modelo matemático que prevê as vendas.
Um conjunto de clusters que descreve como os casos em um
conjunto de dados estão relacionados.
Coleta de Dados
Logicamente o primeiro passo de para construir um programa de
Mineração de Dados é a Coleta de Dados. A maioria das
empresas já realizam essas tarefas de coleta de dados, até
certo ponto – a chave aqui é para localizar os dados
críticos para o seu negócio, refiná-lo e prepará-lo para o
processo de Mineração de Dados. Se você está atualmente
rastreando os dados do cliente em um SGBD modernos, as
chances são que você está quase pronto.
Selecionando o Algoritmo
Neste ponto, você tem um armazem de dados. O próximo passo é
escolher um ou mais algoritmos de mineração de dados para
aplicar para o seu problema. Se você está apenas começando, é
provavelmente uma boa ideia para experimentar várias
técnicaspara se dar uma idéia de como eles funcionam. Sua
escolha do algoritmo irádepender dos dados que você
recolheu, o problema que você está tentando resolver e as
ferramentas de computação que você tem disponível para
você.Vamos dar uma breve olhada em dois dos algoritmos
mais popular:
Regressão
Esta técnica estática é a mais antiga e conhecida da
comunidade que faz DM. Prevêem uma ou mais variáveis
contínuas, como lucro ou perda, com base nos outros atributos
do conjunto de dados. Basicamente, leva-se um conjunto de
dados numéricos e desenvolve-se uma fórmula matemática que se
ajusta aos dados. Quando está tudo pronto para prever os
resultados do comportamento futuro, você simplesmente captura
seus novos dados, conecta-o à fórmula desenvolvida e você
tem uma previsão! A principal limitação desta técnica é que
ela só funciona bem com dados contínuos quantitativos (peso,
velocidade ou idade). Se você está trabalhando com dados
categóricos onde a ordem não é importante (como nome, cor
ou sexo) é melhor escolher uma outra técnica.
Classificação
Trabalhando com dados categóricos ou uma mistura de dados
numéricos contínuos e categóricos? A análise de
Classificação pode atender às suas necessidades também.
Prevêem uma ou mais variáveis discretas, com base nos outros
atributos do conjunto de dados. Esta técnica é capaz de
processar uma variedade maior de dados do que de regressão
e está crescendo em popularidade. Você também vai
encontrar saída que é muito mais fácil de interpretar. Em vez
da fórmula matemática complicada dada pela técnica de
Regressão, você receberá uma árvore de decisão que requer uma
série
de
decisões
binárias.
Um
algoritmo
de
classificação popular é o Algoritmo de Agrupamento K-Means.
Existe o algoritmo de Classificação Bayesiana recebe este nome
por ser baseado no teorema de probabilidade de Bayes. Tem como
objetivo calcular a probabilidade que uma amostra desconhecida
pertença a cada uma das classes possíveis, ou seja, predizer a
classe mais provável. Este tipo de predição é chamada de
classificação estatística, pois é completamente baseada em
probabilidades.
Segmentação
Os algoritmos dividem dados em grupos ou clusters de itens que
têm propriedades semelhantes. Usa técnicas iterativas para
agrupar casos em um conjunto de dados em clusters que
contenham características semelhantes. Esses agrupamentos são
úteis para explorar dados, identificando anomalias nos dados e
criar previsões.
Modelos de clustering identificam as relações em um conjunto
de dados que não podem ser derivados de forma lógica através
de observação casual. Por exemplo, você pode discernir
logicamente que pessoas que se vão para o trabalho de
bicicleta normalmente não moram longe do local onde trabalham.
Porém, o algoritmo pode encontrar outras características dos
usuários de bicicleta que não são tão óbvias. No diagrama a
seguir, o cluster A representa dados sobre pessoas que
pretendem ir de carro para o trabalho, enquanto o cluster B
representa dados sobre pessoas que pretendem ir de bicicleta
para o trabalho.
O algoritmo de clustering difere dos demais algoritmos de
mineração de dados, como o algoritmo Árvores de Decisão da
Microsoft, porque você não precisa designar uma coluna
previsível para poder criar um modelo de clustering. O
algoritmo de clustering treina o modelo estritamente a partir
das relações existentes nos dados e a partir dos clusters que
o algoritmo identifica.
Associação
Encontram
correlações
entre
atributos
diferentes
em
um
conjunto de dados. A aplicação mais comum desse tipo de
algoritmo é para criar regras de associação, que podem ser
usadas em uma análise de cesta básica. É um algoritmo de
associação é útil para mecanismos de recomendação. Um
mecanismo de recomendação recomenda produtos aos clientes com
base nos itens que eles já compraram ou pelos quais mostraram
interesse.
Modelos de associação são criados a partir de conjuntos de
dados que contêm identificadores de casos individuais e de
itens contidos em casos. Um grupo de itens de um caso é
chamado de conjunto de itens. Um modelo de associação é
formado por uma série de conjuntos de itens e regras que
descrevem como esses itens são agrupados nos casos. As regras
que o algoritmo identificar podem ser usadas para prever as
prováveis compras futuras do cliente com base nos itens já
existentes em seu carrinho de compras. O diagrama a seguir
mostra uma série de regras em um conjunto de itens.
Exemplo: A empresa Adventure Works Cycle está redesenhando a
funcionalidade de seu site. A meta do redesenho é aumentar a
venda direta de produtos. Como a empresa registra cada venda
em um banco de dados transacional, pode usar o algoritmo
Associação da Microsoft para identificar conjuntos de produtos
que tendem a ser comprados juntos. Ela pode então prever
outros itens pelos o quais o cliente poderia interessar-se com
base nos itens que já estão no carrinho de compras.
Espero que o texto tenha ajudado a entender a idéia do que
seja o Data Mining. Abraços e até a próxima!
Download