Sistema de Análise de Comportamento de Clientes Baseado em Rede Neural Artificial Thamires Charbaje de Oliveira1, Maury Meirelles Gouvêa Jr.2 1 Instituto de Ciências Exatas e Informática 2 Instituto Politécnico Pontifícia Universidade Católica de Minas Gerais Belo Horizonte, Brasil 1 [email protected], [email protected] Abstract. Computerizing the commercial sector provides features that boost sales and attract new customers. However, the large amount of information stored in databases must be handled intelligently; otherwise, companies will have difficulty in using the information they hold. Analyzing and predicting customer behavior from large databases are tasks which require methods to become more and more efficient. This paper presents a method for analyzing the behavior of a beverage distributor’s customers which is based on a neural network. The purpose is to classify the type of customer automatically based on his/her purchase history. The results of experiments with several neural network topologies showed that the proposed method is efficient, because it presented an acceptable error rate. Resumo. A informatização dos setores comerciais trás agilidades que favorecem as vendas e a captação de novos clientes. Entretanto, a grande quantidade de informações armazenadas nos bancos de dados deve ser tratada de forma inteligente; caso contrário, as empresas terão dificuldades para aproveitar suas informações. Analisar e prever o comportamento de clientes em uma grande base de dados são tarefas que requerem métodos cada vez mais eficientes. Este trabalho propõe um método para análise de comportamento de clientes de uma distribuidora de bebidas baseado em redes neurais. A proposta é classificar de forma automática o tipo de cliente, baseado no seu histórico de compras. Os resultados de experimentos com várias topologias de redes neurais mostraram que o método é eficiente, pois apresentou uma taxa de acerto aceitável. 1. Introdução As organizações contemporâneas vêm exigindo cada vez mais recursos tecnológicos para análise das informações nas tomadas de decisões. Premidos pela necessidade de tomar decisões em um tempo cada vez mais curto, os executivos precisam dispor de informações rápidas e precisas que lhes sirvam de suporte. Com essa necessidade surgiu o conceito de Business Intelligence (CARVALHO, 2001). Os sistemas de Bussiness Intelligence (BI) têm como característica procurar relações de causa e efeito, extrair e explorar informações contidas em grandes bancos de dados. A inteligência do negócio está associada a proporcionar vantagem competitiva às organizações com informações que assumem papel fundamental no sucesso dos investimentos (CARVALHO, 2001). Um sistema de BI envolve ferramentas que realizem análises preditivas, como, por exemplo, Data Mining que além de buscar interpretação dos dados existentes visa fundamentalmente inferir e generalizar possíveis fatos e correlações não percebidas nem facilmente deduzidas por analistas (PASSARI, 2003). Data Mining é o processo de selecionar informação de grandes bancos de dados em busca de padrões escondidos e informação preditiva utilizando algoritmos de aprendizagem ou classificação baseados em redes neurais, análise estatística, modelagem e máquinas de aprendizagem (ELMASRI; NAVATHE, 2002). Os métodos de data mining podem, a partir de um conjunto de dados, identificar ocorrências e similaridades, associar eventos ou prever o comportamento de uma determinada variável (CARVALHO, 2001). Dentre as áreas estratégicas que mais têm explorado o uso de data mining encontramos o marketing, as vendas, finanças a manufatura e saúde (GOLDSCHMIDT; PASSOS, 2005). A partir da definição dos objetivos e da avaliação dos dados, é possível escolher o método de data mining que será utilizado. Quando objetiva-se, por exemplo, analisar questões relativas ao comportamento de certas variáveis, pode-se utilizar redes neurais. Trata-se de uma estrutura formada por unidades de processamento, ou neurônios, funcionalmente muito simples, mas que por serem altamente interconectados, formam um sistema de processamento maciçamente paralelo que pode ser utilizado para tarefas como reconhecimento de padrões e aproximação de funções (PASSARI, 2003). As RN são técnicas que fornecem métodos de aprendizagem, pois são conduzidas a partir de amostragens de testes. Com esses métodos de aprendizagem, respostas a novas entradas, inéditas, podem ser interpoladas a partir das amostras conhecidas (PASSARI, 2003). Nas últimas décadas, com a alta competição empresarial, clientes mudam de empresas com mais frequência. O data mining pode ser utilizado para verificar por que os clientes trocam uma empresa por outra; pode-se localizar ofertas e oferecer vantagens para evitar a fuga de clientes; ou mesmo localizar clientes que podem sair da empresa sem representar prejuízo (CARVALHO, 2001). No mercado de bebidas, por exemplo, o surgimento de novas marcas e fabricantes abalam a garantia de manter o cliente fiel, exigindo das organizações um estudo tático e estratégico do mercado. No ramo de distribuição de bebidas, um sistema de BI pode avaliar a viabilidade mercadológica e gerir todas as informações ao nível gerencial, adquirindo vantagem competitiva para adquirir mercado e consumidores. Essa análise envolve o estudo de informações que, se devidamente tratadas, podem gerar resultados de significativa relevância para a proposição, elaboração e/ou avaliação dos mais diversos processos. Este trabalho propõe um sistema baseado em data mining para solucionar o problema de inatividade dos clientes em uma distribuidora de bebidas, que normalmente desconhece a inatividade dos seus clientes, pois os relatórios de positivação apontam que apenas 50% dos clientes cadastrados são atendidos por mês. Assim, a empresa não consegue avaliar o motivo que a leva a não conseguir atender todos os clientes. Ao analisar os dados históricos da empresa, pode-se identificar o cliente que deixou de ser tornar ativo. A avaliação dos resultados deve indicar a origem do problema, podendo ser relacionado ao vendedor responsável ao giro do produto comercializado, ou até mesmo à logística comercial que interfere no tempo de entrega do produto. O restante deste artigo está estruturado como segue. Na Seção 2, é apresentado o mecanismo e operação comercial da empresa. A Seção 3 contempla o modelo proposto, com o critério e características de classificação e políticas comerciais da distribuidora de bebidas. A análise detalhada deste trabalho ocorre na Seção 4, no estudo experimental com os testes, resultados, interpretações e definições. Por fim, as considerações finais deste trabalho são apresentadas na Seção 5. 2. Mecanismo Operacional de Uma Distribuidora de Bebidas Nas últimas décadas, com a alta competição empresarial, clientes mudam de empresas com mais frequência devido a vários fatores, como preço, qualidade, promoções, dentre outros. Assim, o Bussiness Intelligence pode ser utilizado para verificar o motivo desse comportamento, localizando ofertas e oferecendo vantagens para evitar a fuga de clientes, ou mesmo localizando clientes que possam sair da empresa sem representar prejuízo. É mais fácil manter um cliente do que adquirir um novo (CARVALHO, 2001). Uma empresa do mercado de refrigerantes em Minas Gerais tem como objetivo expandir e consolidar sua atuação no interior. Identificou-se nessa empresa há necessidade de integrar informações aos negócios para maximizar seus resultados, isto é, além de aumentar o número de clientes deve-se mantê-los fiéis. No setor comercial dessa empresa, as metas de cada equipe são definidas pelo corpo diretor – em função do crescimento – sem um estudo prévio de crescimento de mercado e perspectivas dos consumidores. Assim, a cada início de período inicia-se uma busca desenfreada para atingir as metas, sem identificar se as vendas serão para novos ou para velhos clientes. A carência de informações acerca do acompanhamento dos clientes reflete em perda de potencial do setor comercial e consequente abertura para concorrência. Entende-se que nem sempre o cliente que possui mais frequência de pedidos é o melhor cliente, pois há tratamentos comerciais e contratos de bonificações que interferem nesta avaliação. Por exemplo, um cliente realiza pedidos toda semana, mas há desconto financeiro que diminui a margem de lucro da empresa. Por outro lado, um outro cliente que realiza pedidos a cada vinte dias sem descontos ou benefícios proporciona uma margem de lucro maior. Atualmente, não há critérios para acompanhamento de clientes nessa distribuidora de bebidas. Diante de uma análise do pedido, o analista de crédito que deseja conhecer o último pedido de um cliente precisa gerar um relatório de vendas na hora da aprovação do pedido. Esse tratamento manual é vulnerável a erros e atrasa a rotina diária do funcionário. Considerando que a distribuidora de bebidas possui um fluxo de pedido diário de aproximadamente 1.000 pedidos, o analista provavelmente deixará de criticar alguns pedidos da maneira correta. Com critérios de perfil comercial definidos para cada cliente, o método proposto poupará tarefas manuais, proporcionando confiança para ações comerciais, como promoção de vendas, e financeiras, como análise de limite de crédito. Conhecer o cliente é fundamental para estimulá-lo a comprar mais. Com uma base de dados consolidada e atualizada diariamente, a distribuidora de bebidas poderá usufruir informações de seus clientes para implantar algumas rotinas, como sugestões de pedidos e acompanhamento de estoque. Como benefício direto, a distribuidora de bebidas conhecerá o perfil comercial de cada cliente, poderá reestruturar as rotinas de visitas e rotas dos vendedores com mais frequência. Assim, os custos serão reduzidos e os recursos disponíveis serão otimizados. 3. Análise de Comportamento de Clientes Baseado em Rede Neural O modelo proposto tem como objetivo automatizar a análise de comportamento de clientes de uma distribuidora de bebidas a partir da sua base de dados. Os resultados das atividades dos clientes são estimados por uma rede neural feedforward multicamadas (HAYKIN, 2001). Os relatórios de vendas da distribuidora de bebidas mostram que apenas 25 mil dos 50 mil clientes cadastrados são atendidos por mês, i.e., apenas 50% dos clientes são ativos. A empresa não consegue identificar o motivo que a leva a não conseguir atender todos os clientes, e ainda sofre com rupturas, i.e., há uma interrupção na relação comercial entre a empresa e o cliente. Sem a informação do comportamento dos seus clientes, a empresa opera no escuro e não consegue avaliar sua participação no mercado. A distribuidora de bebidas disponibiliza uma rota com N clientes por vendedor. O objetivo é saber quantos desses clientes estão ativos ou compram em períodos regulares. Sem as informações das atividades de seus clientes, a distribuidora não consegue atuar com metas justas para atender o mercado de acordo com suas necessidades. É necessário, ainda, avaliar se os recursos (PDA, telefone, combustível, etc.) disponibilizados para atender uma determinada rota possuem retornos desejados. Aproveitando a capacidade de classificação de uma rede neural, pode-se definir o potencial de compra de um determinado cliente a partir de exemplos de comportamentos passados. A avaliação dos resultados deve indicar a origem do problema – vendedor responsável pelo giro do produto comercializado ou a logística comercial que interfere no tempo de entrega do produto. Utilizando uma base extraída do banco de dados da distribuidora de bebidas, inicia-se a tarefa de organização e classificação dos dados. A Figura 1 mostra alguns exemplos de registros utilizados para a análise, que utilizou os campos valor do item comercializado, preço médio do item, data da última compra, em dias, tipo de negócio e tipo de cliente. No método proposto, a função da rede neural é classificar o tipo de cliente, em função do número de dias sem efetuar nenhuma compra e do tipo de negócio efetuado. Portanto, a rede neural possui duas entradas – número de dias sem compras e tipo de negócio – e uma saída – tipo de cliente. Para essa tarefa, as vendas e os clientes de cada registro são classificados simbolicamente. Em seguida, o registro é normalizado para ser apresentado à rede neural no treinamento. Finalmente, após o treinamento, a rede neural está apta para classificar os clientes da distribuidora de bebidas. As próximas subseções descrevem os passos do método proposto. Figura 1. Tabela da base de dados: registros de vendas e classificações 3.1. Classificação da venda Para classificar a venda, no campo tipo de negócio, adotou-se como referência o preço médio e o valor de venda do item. Dentro dos procedimentos comerciais da distribuidora de bebidas, o vendedor possui uma margem de negociação de até 3% do preço médio do item. Assim, a venda pode ser classificada como: • Mau negócio: se o valor de venda do item for inferior ao seu valor mínimo de negociação. Entende-se como um mau negócio quando a margem de negociação ultrapassa 3%; • Venda padrão: se o valor de venda do item for maior ou igual ao seu valor mínimo de negociação e menor ou igual ao seu preço médio. Entende-se como venda padrão quando o item é negociado dentro da margem de negociação de 3%; ou • Bom negócio: se o valor de venda do item for maior do que o seu preço médio. Entende-se como um bom negócio quando o valor do item for negociado acima do seu preço médio. 3.2 Classificação do Cliente A classificação do cliente, no campo tipo de cliente, tem como referência o tipo da venda e a data da compra – quantidade de dias de 1o de janeiro até 31 de dezembro de 2010. A frequência de compra do cliente deve ser de no máximo 30 dias para ser um cliente regular (pela política de rotas o cliente é visitado e deve ser positivado toda semana). A tolerância máxima é de 60 dias; se dentro desse período o cliente não foi positivado, ele é um cliente suscetível à ruptura. Assim, o cliente pode ser classificado como: • Ótimo cliente: se a data da compra for inferior ou igual a 30 dias e o tipo da venda for bom negócio; • Bom cliente: se a data da compra for inferior a 30 dias e o tipo da venda for venda padrão; ou se a data da compra for superior a 30 dias e menor ou igual a 60 dias e a venda for bom negócio ou venda padrão; • Mau cliente: se a data da compra for inferior a 30 dias e o tipo da venda for mau negócio; ou se a data da compra for superior a 30 dias e menor ou igual a 60 dias e a venda for mau negócio; ou se a data da compra for superior a 60 dias. 3.3. Normalização dos Dados A Tabela 1 apresenta os rótulos utilizados para a normalização da base de treinamento da rede neural. Foram utilizados três valores para os padrões de negócio e cliente. Tabela 1. Rótulos padronizados das classificações Valor Simbólico MAU NEGÓCIO MAU CLIENTE VENDA PADRÃO BOM CLIENTE BOM NEGÓCIO ÓTIMO CLIENTE Valor Numérico 0.0 0.5 1.0 A Tabela 2 mostra os dados da base de vendas, após a normalização, para o treinamento da rede neural. As duas primeiras colunas são as entradas da rede neural, a última coluna a saída, isto é, a classificação do tipo de cliente. Tabela 2. Base de treinamento da rede neural 4. Estudo Experimental Para o desenvolvimento do modelo de análise de comportamento de clientes foi utilizada uma rede neural feedforward multicamadas com apenas uma camada oculta e o algoritmo backpropagation (RUMELHART; HINTON; WILLIAMS, 1986) para seu treinamento. A base de dados da empresa possui 325.470 registros de venda de todo o ano de 2010. Foram utilizados 2.195 registros como exemplos de comportamento dos clientes para composição da base de treinamento da rede neural, divididos como segue: • 1.141 exemplos para treinamento; • 541 exemplos para validação; e • 513 exemplos para teste. Para encontrar a melhor configuração da rede neural, foram executados quatro treinamentos com topologias de 10, 20, 30 e 50 neurônios na camada oculta. Para cada treinamento, foram executadas 1.000 épocas. A taxa de aprendizagem foi fixada em 0,5 e o fator de momento em 0,01. No treinamento, a configuração de pesos sinápticos escolhida foi aquela que produziu o menor erro quadrático médio (EQM) da base de validação durante o treinamento, i.e., a configuração que se supõe ter a melhor capacidade de generalização. Em seguida, calculou-se o erro quadrático médio (EQM) da base de teste. Se esse erro de teste fosse menor que 0,1 (10%), a rede neural estaria aprovada no treinamento; caso contrário, repetir-se-ia o treinamento com novos parâmetros, e.g., diferentes pesos iniciais e/ou taxa de aprendizagem. A Figura 2 mostra os erros de treinamento e validação das quatro topologias das redes neurais treinadas. Em quase todos os casos, os erros de treinamento, em azul, declinaram rapidamente e se mantiveram em valores baixos durante todo o treinamento. Apenas no treinamento da rede neural com topologia de 50 neurônios ocultos, Figura 2(d), houve oscilação do erro de treinamento. Os erros de validação, em verde, das redes neurais com topologias de 10 e 20 neurônios ocultos, Figuras 2(a) e 2(b), foram os mais estáveis, sendo que a última topologia teve um EQM significativamente menor que as demais. Conclui-se que, considerando estabilidade e magnitude do EQM, a rede neural com topologia de 20 neurônios ocultos, Figura 2(b), obteve o melhor desempenho no treinamento. Figura 2(a). Topologia com 10 neurônios ocultos Figura 2(c). Topologia com 30 neurônios ocultos Figura 2(b). Topologia com 20 neurônios ocultos Figura 2(d). Topologia com 50 neurônios ocultos Figura 2. Erros de treinamento e validação das quatro topologias das redes neurais A Figura 3 mostra os gráficos de barras dos erros absolutos da base de teste das quatro redes neurais treinadas. Esses erros simulam a rede neural operando uma situação real, onde as entradas representam padrões não apresentados no treinamento. Na Figura 3(b), observa-se que com a rede neural com topologia de 20 neurônios ocultos o maior erro de teste absoluto não atinge 0,4, e que a maioria dos erros concentra-se entre 0 e 0,05. Nas topologias com 10 e 30 neurônios na camada oculta, Figuras 3(a) e 3(c), os erros absolutos também concentram-se em uma faixa de valores baixos, entre 0 e 0,3, mas tiveram erros próximos ou iguais a 1. A topologia com 50 neurônios na camada oculta, Figura 3(d), teve o pior desempenho com a base de teste, com muitos erros absolutos variando entre 0 e 0,45. Figura 3(a). Topologia com 10 neurônios ocultos Figura 3(b). Topologia com 20 neurônios ocultos ocultos Figura 3(c). Topologia com 30 neurônios ocultos Figura 3(d). Topologia com 50 neurônios ocultos Figura 3. Erro com os exemplos da base de teste Para todas as redes neurais treinadas, foram produzidos histogramas para avaliar a frequência dos erros absolutos na base de teste, como mostra a Figura 4. Observa-se que todas as topologias tiveram a maioria das ocorrências abaixo de 0,05. A topologia com 20 neurônios ocultos, Figura 4(b), foi a que teve a maior distribuição dos erros absolutos; entretanto, a maior densidade, 219 exemplos da base de teste ou 42,7% do total, foi de erros absolutos muito próximos de 0. Essa mesma topologia teve cerca de 90% dos erros de teste menores que 0,05. Figura 4(a). Topologia com 10 neurônios ocultos Figura 4(c). Topologia com 30 neurônios ocultos Figura 4(b). Topologia com 20 neurônios ocultos Figura 4(d). Topologia com 50 neurônios ocultos Figura 4. Histograma dos erros de teste das quatro topologias das redes neurais Finalmente, a Tabela 3 mostra resultados estatísticos das quatro redes neurais na base de teste. Em geral, todas as topologias chegaram a resultados estatísticos satisfatórios, mas a topologia que apresentou o melhor desempenho foi aquela com 20 neurônios na camada oculta. Essa topologia obteve os menores EQM, desvio padrão e erros mínimo e máximo. Conclui-se que a rede neural com topologia de 20 neurônios alcançou o melhor desempenho e, portanto, é a escolhida para a implantação. No treinamento, a topologia com 20 neurônios ocultos teve os menores e mais estáveis EQMs de treinamento e validação. No teste da rede neural, utilizando uma base com 513 exemplos, a topologia com 20 neurônios ocultos teve também o melhor desempenho. Os erros absolutos, Figura 3(b), foram os menores com essa topologia, a maioria deles variando entre 0 e 0,05, e o maior deles igual a 0,4. No histograma, Figura 4(b), observou-se que a topologia com 20 neurônios ocultos concentrou aproximadamente 90% dos erros absolutos em até 0,05 (5%). Tabela 3. Tabela de resultados dos testes das topologias Teste Neurônios Ocultos EQM Desvio Padrão 1 10 0.064348 0.107748 0.000000 1.000000 2 20 0.050104 0.081755 0.000000 0.372500 3 30 0.061059 0.110728 0.000000 1.000000 4 50 0.070615 0.144924 0.000000 1.000000 Menor Erro Maior Erro A partir dos resultados da topologia escolhida, com 20 neurônios na camada oculta, pode-se estimar que, em uma base com 50 mil registros, 2.500 clientes serão classificados de maneira equivocada. Esse número, considerando o cenário atual, onde não há uma política de análise de comportamento de clientes, pode ser considerado muito satisfatório. 5. Conclusões Este trabalho desenvolveu um método para automatizar a análise de comportamento de clientes de uma distribuidora de bebidas. A metodologia, que utilizou conceitos de Business Intelligence, foi baseada em redes neurais. A partir de uma metodologia de treinamento e teste de redes neurais, foram realizados alguns experimentos com uma base de pedidos de todo o ano de 2010. Foram testadas quatro topologias de redes neurais com 10, 20, 30 e 50 neurônios na camada oculta. A topologia escolhida foi aquela com 20 neurônios ocultos, pois apresentou o melhor desempenho de treinamento e os melhores resultados estatísticos com a base de teste – caracterizando melhor capacidade de generalização. A topologia com 20 neurônios ocultos obteve a curva do erro de treinamento mais estável e os menores erros de validação. As demais topologias, em especial aquelas com 30 e 50 neurônios ocultos, apresentaram curvas do erro de validação mais instáveis. Utilizando a metodologia proposta, a distribuidora de bebidas conhecerá melhor o perfil de seus clientes e estará apta a operar no mercado de maneira eficiente, buscando a fidelidade dos seus clientes. Além de aumentar o faturamento da empresa, a análise de pedidos se tornará mais confiável e otimizada. As rotas dos vendedores poderão ser avaliadas de acordo com sua rentabilidade, proporcionando à distribuidora um melhor conhecimento da sua participação no mercado. Referências Bibliográficas CARVALHO, Luís Alfredo Vidal. Data Mining, a mineração de dados no marketing; medicina, economia, engenharia e administração. 1a. ed. São Paulo, 2001. ELMASRI, R.; Navathe, S.B. Sistemas de banco de dados: fundamentos e aplicações. 3. ed. Rio de Janeiro:LTC, 2002. FREIMAN, J. P.; PAMPLONA, E. de O. Redes neurais artificiais na previsão do valor de commodity do agronegócio. In: Encuentro Internacional de Finanzas, 5, Santiago, Chile, 2005. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel Lopes. Data mining: um guia prático: conceitos, técnicas, ferramentas, orientações e aplicações. Rio de Janeiro:Elsevier, 2005. HAYKIN, Simon. Redes Neurais: princípios e prática. Porto Alegre:Bookman, 2001. LAZZAROTTO, Lissandra; OLIVEIRA, Alcione; LAZZAROTTO, Joelsio. Aspectos Teóricos do data mining e aplicações da redes neurais em previsões de preços agropecuários. PASSARI, A. F. L. Exploração de dados atomizados para previsões de vendas no varejo utilizando redes neurais. São Paulo:USP, 2003. (Dissertação de Mestrado). RUMELHART, D.; HINTON, G; WILLIAMS, R. Learning Internal Representations by Error Propagation. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. 1986. SMITH, K. A.; GUPTA, J. N. D. Neural networks in business: techniques and applications for the operations researcher. Computers & Operations Research, 1023-1044. Set. 2000. THOMÉ, Antônio Carlos Gay. Redes neurais – uma ferramenta para KDD e Data Mining.