Sistema de Análise de Comportamento de Clientes Baseado em

Propaganda
Sistema de Análise de Comportamento de Clientes Baseado
em Rede Neural Artificial
Thamires Charbaje de Oliveira1, Maury Meirelles Gouvêa Jr.2
1
Instituto de Ciências Exatas e Informática
2
Instituto Politécnico
Pontifícia Universidade Católica de Minas Gerais
Belo Horizonte, Brasil
1
[email protected], [email protected]
Abstract. Computerizing the commercial sector provides features that boost
sales and attract new customers. However, the large amount of information
stored in databases must be handled intelligently; otherwise, companies will
have difficulty in using the information they hold. Analyzing and predicting
customer behavior from large databases are tasks which require methods to
become more and more efficient. This paper presents a method for analyzing
the behavior of a beverage distributor’s customers which is based on a neural
network. The purpose is to classify the type of customer automatically based
on his/her purchase history. The results of experiments with several neural
network topologies showed that the proposed method is efficient, because it
presented an acceptable error rate.
Resumo. A informatização dos setores comerciais trás agilidades que
favorecem as vendas e a captação de novos clientes. Entretanto, a grande
quantidade de informações armazenadas nos bancos de dados deve ser
tratada de forma inteligente; caso contrário, as empresas terão dificuldades
para aproveitar suas informações. Analisar e prever o comportamento de
clientes em uma grande base de dados são tarefas que requerem métodos
cada vez mais eficientes. Este trabalho propõe um método para análise de
comportamento de clientes de uma distribuidora de bebidas baseado em redes
neurais. A proposta é classificar de forma automática o tipo de cliente,
baseado no seu histórico de compras. Os resultados de experimentos com
várias topologias de redes neurais mostraram que o método é eficiente, pois
apresentou uma taxa de acerto aceitável.
1. Introdução
As organizações contemporâneas vêm exigindo cada vez mais recursos tecnológicos
para análise das informações nas tomadas de decisões. Premidos pela necessidade de
tomar decisões em um tempo cada vez mais curto, os executivos precisam dispor de
informações rápidas e precisas que lhes sirvam de suporte. Com essa necessidade surgiu
o conceito de Business Intelligence (CARVALHO, 2001).
Os sistemas de Bussiness Intelligence (BI) têm como característica procurar
relações de causa e efeito, extrair e explorar informações contidas em grandes bancos de
dados. A inteligência do negócio está associada a proporcionar vantagem competitiva às
organizações com informações que assumem papel fundamental no sucesso dos
investimentos (CARVALHO, 2001).
Um sistema de BI envolve ferramentas que realizem análises preditivas, como,
por exemplo, Data Mining que além de buscar interpretação dos dados existentes visa
fundamentalmente inferir e generalizar possíveis fatos e correlações não percebidas nem
facilmente deduzidas por analistas (PASSARI, 2003).
Data Mining é o processo de selecionar informação de grandes bancos de dados
em busca de padrões escondidos e informação preditiva utilizando algoritmos de
aprendizagem ou classificação baseados em redes neurais, análise estatística,
modelagem e máquinas de aprendizagem (ELMASRI; NAVATHE, 2002). Os métodos
de data mining podem, a partir de um conjunto de dados, identificar ocorrências e
similaridades, associar eventos ou prever o comportamento de uma determinada
variável (CARVALHO, 2001). Dentre as áreas estratégicas que mais têm explorado o
uso de data mining encontramos o marketing, as vendas, finanças a manufatura e saúde
(GOLDSCHMIDT; PASSOS, 2005).
A partir da definição dos objetivos e da avaliação dos dados, é possível escolher
o método de data mining que será utilizado. Quando objetiva-se, por exemplo, analisar
questões relativas ao comportamento de certas variáveis, pode-se utilizar redes neurais.
Trata-se de uma estrutura formada por unidades de processamento, ou neurônios,
funcionalmente muito simples, mas que por serem altamente interconectados, formam
um sistema de processamento maciçamente paralelo que pode ser utilizado para tarefas
como reconhecimento de padrões e aproximação de funções (PASSARI, 2003). As RN
são técnicas que fornecem métodos de aprendizagem, pois são conduzidas a partir de
amostragens de testes. Com esses métodos de aprendizagem, respostas a novas entradas,
inéditas, podem ser interpoladas a partir das amostras conhecidas (PASSARI, 2003).
Nas últimas décadas, com a alta competição empresarial, clientes mudam de
empresas com mais frequência. O data mining pode ser utilizado para verificar por que
os clientes trocam uma empresa por outra; pode-se localizar ofertas e oferecer vantagens
para evitar a fuga de clientes; ou mesmo localizar clientes que podem sair da empresa
sem representar prejuízo (CARVALHO, 2001).
No mercado de bebidas, por exemplo, o surgimento de novas marcas e
fabricantes abalam a garantia de manter o cliente fiel, exigindo das organizações um
estudo tático e estratégico do mercado. No ramo de distribuição de bebidas, um sistema
de BI pode avaliar a viabilidade mercadológica e gerir todas as informações ao nível
gerencial, adquirindo vantagem competitiva para adquirir mercado e consumidores.
Essa análise envolve o estudo de informações que, se devidamente tratadas, podem
gerar resultados de significativa relevância para a proposição, elaboração e/ou avaliação
dos mais diversos processos.
Este trabalho propõe um sistema baseado em data mining para solucionar o
problema de inatividade dos clientes em uma distribuidora de bebidas, que normalmente
desconhece a inatividade dos seus clientes, pois os relatórios de positivação apontam
que apenas 50% dos clientes cadastrados são atendidos por mês. Assim, a empresa não
consegue avaliar o motivo que a leva a não conseguir atender todos os clientes.
Ao analisar os dados históricos da empresa, pode-se identificar o cliente que
deixou de ser tornar ativo. A avaliação dos resultados deve indicar a origem do
problema, podendo ser relacionado ao vendedor responsável ao giro do produto
comercializado, ou até mesmo à logística comercial que interfere no tempo de entrega
do produto.
O restante deste artigo está estruturado como segue. Na Seção 2, é apresentado o
mecanismo e operação comercial da empresa. A Seção 3 contempla o modelo proposto,
com o critério e características de classificação e políticas comerciais da distribuidora de
bebidas. A análise detalhada deste trabalho ocorre na Seção 4, no estudo experimental
com os testes, resultados, interpretações e definições. Por fim, as considerações finais
deste trabalho são apresentadas na Seção 5.
2. Mecanismo Operacional de Uma Distribuidora de Bebidas
Nas últimas décadas, com a alta competição empresarial, clientes mudam de empresas
com mais frequência devido a vários fatores, como preço, qualidade, promoções, dentre
outros. Assim, o Bussiness Intelligence pode ser utilizado para verificar o motivo desse
comportamento, localizando ofertas e oferecendo vantagens para evitar a fuga de
clientes, ou mesmo localizando clientes que possam sair da empresa sem representar
prejuízo. É mais fácil manter um cliente do que adquirir um novo (CARVALHO, 2001).
Uma empresa do mercado de refrigerantes em Minas Gerais tem como objetivo
expandir e consolidar sua atuação no interior. Identificou-se nessa empresa há
necessidade de integrar informações aos negócios para maximizar seus resultados, isto
é, além de aumentar o número de clientes deve-se mantê-los fiéis.
No setor comercial dessa empresa, as metas de cada equipe são definidas pelo
corpo diretor – em função do crescimento – sem um estudo prévio de crescimento de
mercado e perspectivas dos consumidores. Assim, a cada início de período inicia-se
uma busca desenfreada para atingir as metas, sem identificar se as vendas serão para
novos ou para velhos clientes. A carência de informações acerca do acompanhamento
dos clientes reflete em perda de potencial do setor comercial e consequente abertura
para concorrência.
Entende-se que nem sempre o cliente que possui mais frequência de pedidos é o
melhor cliente, pois há tratamentos comerciais e contratos de bonificações que
interferem nesta avaliação. Por exemplo, um cliente realiza pedidos toda semana, mas
há desconto financeiro que diminui a margem de lucro da empresa. Por outro lado, um
outro cliente que realiza pedidos a cada vinte dias sem descontos ou benefícios
proporciona uma margem de lucro maior.
Atualmente, não há critérios para acompanhamento de clientes nessa
distribuidora de bebidas. Diante de uma análise do pedido, o analista de crédito que
deseja conhecer o último pedido de um cliente precisa gerar um relatório de vendas na
hora da aprovação do pedido. Esse tratamento manual é vulnerável a erros e atrasa a
rotina diária do funcionário. Considerando que a distribuidora de bebidas possui um
fluxo de pedido diário de aproximadamente 1.000 pedidos, o analista provavelmente
deixará de criticar alguns pedidos da maneira correta.
Com critérios de perfil comercial definidos para cada cliente, o método proposto
poupará tarefas manuais, proporcionando confiança para ações comerciais, como
promoção de vendas, e financeiras, como análise de limite de crédito. Conhecer o
cliente é fundamental para estimulá-lo a comprar mais. Com uma base de dados
consolidada e atualizada diariamente, a distribuidora de bebidas poderá usufruir
informações de seus clientes para implantar algumas rotinas, como sugestões de pedidos
e acompanhamento de estoque. Como benefício direto, a distribuidora de bebidas
conhecerá o perfil comercial de cada cliente, poderá reestruturar as rotinas de visitas e
rotas dos vendedores com mais frequência. Assim, os custos serão reduzidos e os
recursos disponíveis serão otimizados.
3. Análise de Comportamento de Clientes Baseado em Rede Neural
O modelo proposto tem como objetivo automatizar a análise de comportamento de
clientes de uma distribuidora de bebidas a partir da sua base de dados. Os resultados das
atividades dos clientes são estimados por uma rede neural feedforward multicamadas
(HAYKIN, 2001).
Os relatórios de vendas da distribuidora de bebidas mostram que apenas 25 mil
dos 50 mil clientes cadastrados são atendidos por mês, i.e., apenas 50% dos clientes são
ativos. A empresa não consegue identificar o motivo que a leva a não conseguir atender
todos os clientes, e ainda sofre com rupturas, i.e., há uma interrupção na relação
comercial entre a empresa e o cliente. Sem a informação do comportamento dos seus
clientes, a empresa opera no escuro e não consegue avaliar sua participação no mercado.
A distribuidora de bebidas disponibiliza uma rota com N clientes por vendedor.
O objetivo é saber quantos desses clientes estão ativos ou compram em períodos
regulares. Sem as informações das atividades de seus clientes, a distribuidora não
consegue atuar com metas justas para atender o mercado de acordo com suas
necessidades. É necessário, ainda, avaliar se os recursos (PDA, telefone, combustível,
etc.) disponibilizados para atender uma determinada rota possuem retornos desejados.
Aproveitando a capacidade de classificação de uma rede neural, pode-se definir
o potencial de compra de um determinado cliente a partir de exemplos de
comportamentos passados. A avaliação dos resultados deve indicar a origem do
problema – vendedor responsável pelo giro do produto comercializado ou a logística
comercial que interfere no tempo de entrega do produto.
Utilizando uma base extraída do banco de dados da distribuidora de bebidas,
inicia-se a tarefa de organização e classificação dos dados. A Figura 1 mostra alguns
exemplos de registros utilizados para a análise, que utilizou os campos valor do item
comercializado, preço médio do item, data da última compra, em dias, tipo de negócio e
tipo de cliente.
No método proposto, a função da rede neural é classificar o tipo de cliente, em
função do número de dias sem efetuar nenhuma compra e do tipo de negócio efetuado.
Portanto, a rede neural possui duas entradas – número de dias sem compras e tipo de
negócio – e uma saída – tipo de cliente. Para essa tarefa, as vendas e os clientes de cada
registro são classificados simbolicamente. Em seguida, o registro é normalizado para ser
apresentado à rede neural no treinamento. Finalmente, após o treinamento, a rede neural
está apta para classificar os clientes da distribuidora de bebidas. As próximas subseções
descrevem os passos do método proposto.
Figura 1. Tabela da base de dados: registros de vendas e classificações
3.1. Classificação da venda
Para classificar a venda, no campo tipo de negócio, adotou-se como referência o preço
médio e o valor de venda do item. Dentro dos procedimentos comerciais da
distribuidora de bebidas, o vendedor possui uma margem de negociação de até 3% do
preço médio do item. Assim, a venda pode ser classificada como:
• Mau negócio: se o valor de venda do item for inferior ao seu valor mínimo de
negociação. Entende-se como um mau negócio quando a margem de negociação
ultrapassa 3%;
• Venda padrão: se o valor de venda do item for maior ou igual ao seu valor
mínimo de negociação e menor ou igual ao seu preço médio. Entende-se como venda
padrão quando o item é negociado dentro da margem de negociação de 3%; ou
• Bom negócio: se o valor de venda do item for maior do que o seu preço
médio. Entende-se como um bom negócio quando o valor do item for negociado acima
do seu preço médio.
3.2 Classificação do Cliente
A classificação do cliente, no campo tipo de cliente, tem como referência o tipo da
venda e a data da compra – quantidade de dias de 1o de janeiro até 31 de dezembro de
2010. A frequência de compra do cliente deve ser de no máximo 30 dias para ser um
cliente regular (pela política de rotas o cliente é visitado e deve ser positivado toda
semana). A tolerância máxima é de 60 dias; se dentro desse período o cliente não foi
positivado, ele é um cliente suscetível à ruptura. Assim, o cliente pode ser classificado
como:
• Ótimo cliente: se a data da compra for inferior ou igual a 30 dias e o tipo da
venda for bom negócio;
• Bom cliente: se a data da compra for inferior a 30 dias e o tipo da venda for
venda padrão; ou se a data da compra for superior a 30 dias e menor ou igual a 60 dias e
a venda for bom negócio ou venda padrão;
• Mau cliente: se a data da compra for inferior a 30 dias e o tipo da venda for
mau negócio; ou se a data da compra for superior a 30 dias e menor ou igual a 60 dias e
a venda for mau negócio; ou se a data da compra for superior a 60 dias.
3.3. Normalização dos Dados
A Tabela 1 apresenta os rótulos utilizados para a normalização da base de treinamento
da rede neural. Foram utilizados três valores para os padrões de negócio e cliente.
Tabela 1. Rótulos padronizados das classificações
Valor Simbólico
MAU NEGÓCIO
MAU CLIENTE
VENDA PADRÃO
BOM CLIENTE
BOM NEGÓCIO
ÓTIMO CLIENTE
Valor Numérico
0.0
0.5
1.0
A Tabela 2 mostra os dados da base de vendas, após a normalização, para o
treinamento da rede neural. As duas primeiras colunas são as entradas da rede neural, a
última coluna a saída, isto é, a classificação do tipo de cliente.
Tabela 2. Base de treinamento da rede neural
4. Estudo Experimental
Para o desenvolvimento do modelo de análise de comportamento de clientes foi
utilizada uma rede neural feedforward multicamadas com apenas uma camada oculta e o
algoritmo backpropagation (RUMELHART; HINTON; WILLIAMS, 1986) para seu
treinamento. A base de dados da empresa possui 325.470 registros de venda de todo o
ano de 2010. Foram utilizados 2.195 registros como exemplos de comportamento dos
clientes para composição da base de treinamento da rede neural, divididos como segue:
• 1.141 exemplos para treinamento;
• 541 exemplos para validação; e
• 513 exemplos para teste.
Para encontrar a melhor configuração da rede neural, foram executados quatro
treinamentos com topologias de 10, 20, 30 e 50 neurônios na camada oculta. Para cada
treinamento, foram executadas 1.000 épocas. A taxa de aprendizagem foi fixada em 0,5
e o fator de momento em 0,01. No treinamento, a configuração de pesos sinápticos
escolhida foi aquela que produziu o menor erro quadrático médio (EQM) da base de
validação durante o treinamento, i.e., a configuração que se supõe ter a melhor
capacidade de generalização. Em seguida, calculou-se o erro quadrático médio (EQM)
da base de teste. Se esse erro de teste fosse menor que 0,1 (10%), a rede neural estaria
aprovada no treinamento; caso contrário, repetir-se-ia o treinamento com novos
parâmetros, e.g., diferentes pesos iniciais e/ou taxa de aprendizagem.
A Figura 2 mostra os erros de treinamento e validação das quatro topologias das
redes neurais treinadas. Em quase todos os casos, os erros de treinamento, em azul,
declinaram rapidamente e se mantiveram em valores baixos durante todo o treinamento.
Apenas no treinamento da rede neural com topologia de 50 neurônios ocultos, Figura
2(d), houve oscilação do erro de treinamento. Os erros de validação, em verde, das redes
neurais com topologias de 10 e 20 neurônios ocultos, Figuras 2(a) e 2(b), foram os mais
estáveis, sendo que a última topologia teve um EQM significativamente menor que as
demais. Conclui-se que, considerando estabilidade e magnitude do EQM, a rede neural
com topologia de 20 neurônios ocultos, Figura 2(b), obteve o melhor desempenho no
treinamento.
Figura 2(a). Topologia com 10 neurônios ocultos
Figura 2(c). Topologia com 30 neurônios ocultos
Figura 2(b). Topologia com 20 neurônios ocultos
Figura 2(d). Topologia com 50 neurônios ocultos
Figura 2. Erros de treinamento e validação das quatro topologias das redes neurais
A Figura 3 mostra os gráficos de barras dos erros absolutos da base de teste das
quatro redes neurais treinadas. Esses erros simulam a rede neural operando uma
situação real, onde as entradas representam padrões não apresentados no treinamento.
Na Figura 3(b), observa-se que com a rede neural com topologia de 20 neurônios
ocultos o maior erro de teste absoluto não atinge 0,4, e que a maioria dos erros
concentra-se entre 0 e 0,05. Nas topologias com 10 e 30 neurônios na camada oculta,
Figuras 3(a) e 3(c), os erros absolutos também concentram-se em uma faixa de valores
baixos, entre 0 e 0,3, mas tiveram erros próximos ou iguais a 1. A topologia com 50
neurônios na camada oculta, Figura 3(d), teve o pior desempenho com a base de teste,
com muitos erros absolutos variando entre 0 e 0,45.
Figura 3(a). Topologia com 10 neurônios ocultos
Figura 3(b). Topologia com 20 neurônios ocultos
ocultos
Figura 3(c). Topologia com 30 neurônios ocultos
Figura 3(d). Topologia com 50 neurônios ocultos
Figura 3. Erro com os exemplos da base de teste
Para todas as redes neurais treinadas, foram produzidos histogramas para avaliar
a frequência dos erros absolutos na base de teste, como mostra a Figura 4. Observa-se
que todas as topologias tiveram a maioria das ocorrências abaixo de 0,05. A topologia
com 20 neurônios ocultos, Figura 4(b), foi a que teve a maior distribuição dos erros
absolutos; entretanto, a maior densidade, 219 exemplos da base de teste ou 42,7% do
total, foi de erros absolutos muito próximos de 0. Essa mesma topologia teve cerca de
90% dos erros de teste menores que 0,05.
Figura 4(a). Topologia com 10 neurônios ocultos
Figura 4(c). Topologia com 30 neurônios ocultos
Figura 4(b). Topologia com 20 neurônios ocultos
Figura 4(d). Topologia com 50 neurônios ocultos
Figura 4. Histograma dos erros de teste das quatro topologias das redes neurais
Finalmente, a Tabela 3 mostra resultados estatísticos das quatro redes neurais na
base de teste. Em geral, todas as topologias chegaram a resultados estatísticos
satisfatórios, mas a topologia que apresentou o melhor desempenho foi aquela com 20
neurônios na camada oculta. Essa topologia obteve os menores EQM, desvio padrão e
erros mínimo e máximo. Conclui-se que a rede neural com topologia de 20 neurônios
alcançou o melhor desempenho e, portanto, é a escolhida para a implantação. No
treinamento, a topologia com 20 neurônios ocultos teve os menores e mais estáveis
EQMs de treinamento e validação. No teste da rede neural, utilizando uma base com
513 exemplos, a topologia com 20 neurônios ocultos teve também o melhor
desempenho. Os erros absolutos, Figura 3(b), foram os menores com essa topologia, a
maioria deles variando entre 0 e 0,05, e o maior deles igual a 0,4. No histograma, Figura
4(b), observou-se que a topologia com 20 neurônios ocultos concentrou
aproximadamente 90% dos erros absolutos em até 0,05 (5%).
Tabela 3. Tabela de resultados dos testes das topologias
Teste
Neurônios
Ocultos
EQM
Desvio
Padrão
1
10
0.064348
0.107748
0.000000
1.000000
2
20
0.050104
0.081755
0.000000
0.372500
3
30
0.061059
0.110728
0.000000
1.000000
4
50
0.070615
0.144924
0.000000
1.000000
Menor Erro Maior Erro
A partir dos resultados da topologia escolhida, com 20 neurônios na camada
oculta, pode-se estimar que, em uma base com 50 mil registros, 2.500 clientes serão
classificados de maneira equivocada. Esse número, considerando o cenário atual, onde
não há uma política de análise de comportamento de clientes, pode ser considerado
muito satisfatório.
5. Conclusões
Este trabalho desenvolveu um método para automatizar a análise de comportamento de
clientes de uma distribuidora de bebidas. A metodologia, que utilizou conceitos de
Business Intelligence, foi baseada em redes neurais.
A partir de uma metodologia de treinamento e teste de redes neurais, foram
realizados alguns experimentos com uma base de pedidos de todo o ano de 2010. Foram
testadas quatro topologias de redes neurais com 10, 20, 30 e 50 neurônios na camada
oculta. A topologia escolhida foi aquela com 20 neurônios ocultos, pois apresentou o
melhor desempenho de treinamento e os melhores resultados estatísticos com a base de
teste – caracterizando melhor capacidade de generalização. A topologia com 20
neurônios ocultos obteve a curva do erro de treinamento mais estável e os menores erros
de validação. As demais topologias, em especial aquelas com 30 e 50 neurônios ocultos,
apresentaram curvas do erro de validação mais instáveis.
Utilizando a metodologia proposta, a distribuidora de bebidas conhecerá melhor
o perfil de seus clientes e estará apta a operar no mercado de maneira eficiente,
buscando a fidelidade dos seus clientes. Além de aumentar o faturamento da empresa, a
análise de pedidos se tornará mais confiável e otimizada. As rotas dos vendedores
poderão ser avaliadas de acordo com sua rentabilidade, proporcionando à distribuidora
um melhor conhecimento da sua participação no mercado.
Referências Bibliográficas
CARVALHO, Luís Alfredo Vidal. Data Mining, a mineração de dados no
marketing; medicina, economia, engenharia e administração. 1a. ed. São Paulo,
2001.
ELMASRI, R.; Navathe, S.B. Sistemas de banco de dados: fundamentos e
aplicações. 3. ed. Rio de Janeiro:LTC, 2002.
FREIMAN, J. P.; PAMPLONA, E. de O. Redes neurais artificiais na previsão do
valor de commodity do agronegócio. In: Encuentro Internacional de Finanzas, 5,
Santiago, Chile, 2005.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel Lopes. Data mining: um guia
prático: conceitos, técnicas, ferramentas, orientações e aplicações. Rio de
Janeiro:Elsevier, 2005.
HAYKIN, Simon. Redes Neurais: princípios e prática. Porto Alegre:Bookman, 2001.
LAZZAROTTO, Lissandra; OLIVEIRA, Alcione; LAZZAROTTO, Joelsio. Aspectos
Teóricos do data mining e aplicações da redes neurais em previsões de preços
agropecuários.
PASSARI, A. F. L. Exploração de dados atomizados para previsões de vendas no
varejo utilizando redes neurais. São Paulo:USP, 2003. (Dissertação de Mestrado).
RUMELHART, D.; HINTON, G; WILLIAMS, R. Learning Internal Representations
by Error Propagation. Parallel Distributed Processing: Explorations in the
Microstructure of Cognition. Cambridge: MIT Press. 1986.
SMITH, K. A.; GUPTA, J. N. D. Neural networks in business: techniques and
applications for the operations researcher. Computers & Operations Research,
1023-1044. Set. 2000.
THOMÉ, Antônio Carlos Gay. Redes neurais – uma ferramenta para KDD e Data
Mining.
Download