À Linda Ao Francisco e à Catarina i Agradecimentos Realizar um trabalho como este implica empenhamento, concentração, rigor, e o acompanhamento e estímulo das pessoas que estão mais próximas. Na conclusão desta etapa da minha formação académica fico muito grato ao Professor Manuel Filipe Santos, orientador, amigo e solidário. Ao meu colega e amigo Pedro Gago, um agradecimento muito especial pelas ajudas, conselhos e disponibilidade incondicional que sempre demonstrou – com um companheiro assim as coisas ficam e são mais fáceis. Não posso deixar neste momento de agradecer à minha esposa, mulher de M grande que suportou com paciência cada fase desta caminhada as minhas ausências e as minhas falhas. Muito Obrigado Linda. ii Resumo Resumo A existência de bases de dados nas empresas nunca foi tão relevante como nos últimos anos, sendo fácil constatar a sua presença em qualquer projecto ou investimento desenvolvido. Uma base de dados poderá ainda ser considerada, como um repositório de conhecimento potencialmente relevante, mas escondido. De facto o seu conteúdo muitas vezes não é explorado em profundidade, pese embora existam numerosas actividades desenvolvidas sobre elas, como é o caso do marketing directo ou do marketing relacional. As diversas contribuições e trabalhos realizados no âmbito da exploração de bases de dados com recurso a procedimentos estatísticos e a processos de interrogação, têm-se revelado insuficientes pelo facto dos modelos desenvolvidos não captarem convenientemente o conhecimento implícito nem revelaram as acuidades desejáveis. As técnicas de Descoberta de Conhecimento em Bases de Dados surgem assim como alternativa a explorar, uma vez que apresentam características que permitem o estudo de problemas complexos, de difícil resolução através das abordagens mais convencionais, sendo por isso cada vez mais utilizadas nas diferentes áreas da gestão, em particular no marketing. Neste trabalho é apresentada uma proposta para a sistematização das actividades de Descoberta de Conhecimento em Bases de Dados como suporte às actividades de Business Intelligence, com aplicação concreta num caso na área da distribuição. iii Abstract Abstract Databases have never been as relevant for organizations as they are nowadays. It is easy to see how widespread they are, being used in every project or investment. A database may also be seen as a repository for hidden but potentially useful knowledge. In fact, its contents are seldom thoroughly explored even though there are a number of activities like direct marketing that depend on the information in the database. Past approaches to database contents study by means of database queries or statistical procedures have been proven unsatisfactory as the resulting models often not only lack the ability to uncover the implicit hidden knowledge but also present low predictive accuracies. Thus, Knowledge Discovery in Databases techniques present an interesting alternative as they can be used on complex problems where the more conventional approaches usually fail and their use is growing especially in marketing. In this work a framework systematizing the Knowledge Discovery in Databases activities for Business Intelligent activities support is presented. This framework is show in action through a case study. iv Abstract Conteúdo RESUMO....................................................................................................................................III ABSTRACT ...............................................................................................................................IV ÍNDICE DE FIGURAS .........................................................................................................XI ÍNDICE DE TABELAS ......................................................................................................XIII ACRÓNIMOS E ABREVIATURAS ...............................................................................XIV ACRÓNIMOS E ABREVIATURAS ...............................................................................XIV 1 INTRODUÇÃO ......................................................................................................................... 1 1.1 MOTIVAÇÃO .......................................................................................................................... 6 1.2 OBJECTIVOS .......................................................................................................................... 8 1.3 ORGANIZAÇÃO DA DISSERTAÇÃO ..................................................................................... 10 2 BUSINESS INTELLIGENCE E DATABASE MARKETING ............................................... 13 2.1 BUSINESS INTELLIGENCE .................................................................................................. 13 2.1.1 Definição........................................................................................................................ 14 2.1.2 Aplicações organizacionais de BI ......................................................................... 16 2.1.3 Formalização da actividade Business Intelligence......................................... 17 2.1.4 Suporte tecnológico de BI....................................................................................... 19 v Abstract 2.1.5 Sistemas de Apoio à Decisão................................................................................. 21 2.2 DATABASE MARKETING ..................................................................................................... 24 2.2.1 Definição de Database Marketing ........................................................................ 25 2.2.2 Estrutura do Database Marketing ........................................................................ 26 2.2.2.1 Componente Operativa do DBM ........................................................................ 27 2.2.2.2 Componente Analítica do DBM........................................................................... 28 2.2.3 Catalisadores e Obstáculos do Database Marketing..................................... 33 2.3 BUSINESS INTELLIGENCE VERSUS DATABASE MARKETING .......................................... 36 3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ......................................... 39 3.1 INTRODUÇÃO ...................................................................................................................... 39 3.2 HIERARQUIA DO CONHECIMENTO EM BASES DADOS .................................................... 40 3.3 PRINCÍPIOS DA DESCOBERTA DE CONHECIMENTO EM BASE DADOS .......................... 41 3.4 FASES DO PROCESSO DE DCBD...................................................................................... 46 3.4.1 Exploração e Selecção de dados .......................................................................... 46 3.4.2 Pré-Processamento.................................................................................................... 48 3.4.2.1 Tratamento de valores omissos......................................................................... 49 3.4.2.2 Avaliação de excepções (outliers) .................................................................... 50 3.4.2.3 Derivação de novos atributos............................................................................. 51 3.4.2.4 Dispersão de valores.............................................................................................. 51 3.4.2.5 Integridade da informação do registo............................................................. 53 3.4.2.6 Identificação de atributos duplicados e redundantes................................ 53 3.4.2.7 Identificação de inconsistências ........................................................................ 54 3.4.2.8 Identificação de ruído ou poluição dos dados .............................................. 54 3.4.2.9 Identificação de valores atribuídos por definição (defaults) .................. 54 3.4.3 Transformação dos dados....................................................................................... 55 3.4.3.1 Normalização dos Dados ...................................................................................... 55 3.4.3.2 Discretização de atributos quantitativos em qualitativos........................ 56 3.4.3.3 Discretização de atributos qualitativos em quantitativos........................ 56 3.4.3.4 Transposição de tabelas ....................................................................................... 57 vi Abstract 3.4.4 Data Mining .................................................................................................................. 58 3.5 METODOLOGIAS DE DATA MINING .................................................................................. 60 3.5.1 CRISP-DM...................................................................................................................... 60 3.5.2 SEMMA............................................................................................................................ 61 4 PROBLEMAS E ABORDAGENS EM DATA MINING ........................................................ 63 4.1 INTRODUÇÃO ...................................................................................................................... 63 4.2 TIPOS DE OBJECTIVOS EM DATA MINING ....................................................................... 64 4.2.1 Previsão ......................................................................................................................... 64 4.2.1.1 Classificação .............................................................................................................. 64 4.2.1.2 Regressão................................................................................................................... 65 4.2.2 Descrição ....................................................................................................................... 66 4.2.2.1 Segmentação ............................................................................................................ 66 4.2.2.2 Associação ou análise de dependências ......................................................... 67 4.2.2.3 Sumariação................................................................................................................ 67 4.2.2.4 Visualização ............................................................................................................... 67 4.3 MÉTODOS DE ABORDAGEM EM DATA MINING ................................................................ 68 4.3.1 Regras de Associação – Indução de regras ..................................................... 69 4.3.2 Redes Neuronais......................................................................................................... 74 4.3.3 Árvores de Decisão.................................................................................................... 88 4.4 AVALIAÇÃO DOS RESULTADOS ......................................................................................... 98 5 DM4DBM - PROPOSTA DE UMA METODOLOGIA DE DATA MINING PARA DATABASE MARKETING ........................................................................................................ 101 5.1 INTRODUÇÃO .................................................................................................................... 101 5.2 CARACTERÍSTICAS DAS ACTIVIDADES DE MARKETING ................................................ 102 5.3 SUPORTE ÀS ACTIVIDADES DE MARKETING COM MODELOS DE DATA MINING ......... 104 5.4 DATA MINING PARA DATABASE MARKETING ................................................................ 106 5.4.1 Recolha de Informação .......................................................................................... 108 5.4.1.1 Recolha de Dados.................................................................................................. 108 5.4.1.2 Constituição da Base de dados de Marketing............................................. 110 vii Abstract 5.4.2 Extracção de Conhecimento................................................................................. 112 5.4.2.1 Análise e Selecção dos Dados .......................................................................... 113 5.4.2.2 Pré-processamento e Transformação de Dados........................................ 114 5.4.2.3 Modelação ................................................................................................................ 117 5.4.2.4 Exemplos de Aplicação em projectos de DCBD em Acções de Marketing................................................................................................................................. 118 5.4.3 Desenvolvimento de Acções de Marketing ..................................................... 122 5.4.3.1 Medição dos Resultados e da Eficácia dos Modelos ................................. 125 5.5 DM4DBM VERSUS CRISP-DM ..................................................................................... 126 6 DATABASE MARKETING APLICADO À DISTRIBUIÇÃO ............................................ 131 6.1 INTRODUÇÃO .................................................................................................................... 131 6.2 (A) OBJECTIVOS DE NEGÓCIO E DE MARKETING ........................................................ 134 6.2.1 (a1) Enquadramento............................................................................................... 134 6.2.2 (a2) Objectivos do Estudo e Abordagens Consideradas ........................... 135 6.2.3 (a3) Recolha e Exploração dos Dados ............................................................. 136 6.2.3.1 Avaliação dos dados internos disponíveis.................................................... 136 6.2.3.2 Importação e criação da BD inicial................................................................. 137 6.2.3.3 Filtragem e Limpeza de dados ......................................................................... 140 6.2.4 Constituição da Base Dados de Marketing ..................................................... 141 6.2.4.1 Sistematização da Angariação de dados...................................................... 142 6.2.4.2 Selecção dos registos elegíveis........................................................................ 142 6.3 (B)DESCOBERTA DE CONHECIMENTO EM BASES DADOS ........................................... 144 6.3.1 (b1) Compreensão dos dados ............................................................................. 144 6.3.2 (b2) Análise dos dados .......................................................................................... 145 6.3.3 Pré-Processamento dos Dados (b3) ................................................................. 146 6.3.4 (b4) Modelação ......................................................................................................... 164 6.3.4.1 Selecção de dados para treino......................................................................... 164 6.3.4.2 Aplicação de Algoritmos ..................................................................................... 165 6.3.5 (C) Desenvolvimento de Acções de Marketing ............................................. 179 viii Abstract 6.3.6 (D) Discussão de resultados ................................................................................ 182 7 CONCLUSÕES E TRABALHO FUTURO ............................................................................ 185 7.1 SINOPSE ............................................................................................................................ 185 7.2 CONCLUSÕES .................................................................................................................... 187 7.3 TRABALHO FUTURO .......................................................................................................... 189 ANEXO A................................................................................................................................. 192 8 METODOLOGIA CRISP-DM .......................................................................................... 192 ANEXO B................................................................................................................................. 200 9 METODOLOGIA SEMMA................................................................................................. 200 ANEXO C................................................................................................................................. 203 10 PSEUDO CÓDIGO PARA TRANSPOSIÇÃO DE TABELAS .......................................... 203 ANEXO D ................................................................................................................................ 205 11 MODELOS DE DATA MINING: MODELO 1 ................................................................ 205 ANEXO E ................................................................................................................................. 209 12 MODELOS DE DATA MINING: MODELO 2 ................................................................ 209 ANEXO F ................................................................................................................................. 212 13 MODELO DE DATA MINING: MODELO 3................................................................... 212 ANEXO G ................................................................................................................................ 221 14 MODELO DE DATA MINING : MODELO 4 ................................................................ 221 ANEXO H ................................................................................................................................ 225 ix Abstract 15 MODELO ENTIDADE RELACIONAMENTO DA BD ..................................................... 225 ANEXO I ................................................................................................................................. 230 16 DESCRIÇÃO DOS DADOS .............................................................................................. 230 ANEXO J ................................................................................................................................. 234 17 COMPREENSÃO DOS DADOS ......................................................................................... 234 ANEXO K................................................................................................................................. 239 18 MODELO DE DADOS ....................................................................................................... 239 BIBLIOGRAFIA ................................................................................................................... 240 GLOSSÁRIO DE TERMOS............................................................................................... 255 x Índice de Figuras Índice de Figuras FIGURA 1 – MARKETING TRADICIONAL (ADAPTADO DE [DROZDENKO ET AL., 2002]). 3 FIGURA 2 - PROCESSO DE MARKETING RELACIONAL. 4 FIGURA 3 - ESTRUTURA DA DISSERTAÇÃO 10 FIGURA 4 – SUPORTE TECNOLÓGICO DA ACTIVIDADE DE BUSINESS INTELLIGENCE 19 FIGURA 5 - BUSINESS INTELLIGENCE EM SISTEMAS DE APOIO À DECISÃO. 22 FIGURA 6- CONSTITUIÇÃO DO DBM [ADAPTADO DE [SIQUEIRA ET AL., 2002]). 27 FIGURA 7 - FASES DO PROCESSO DE DCBD (ADAPTADO DE [FAYYAD ET AL., 1996]). 43 FIGURA 8 - PERCENTAGEM DE TEMPO DESPENDIDO EM CADA FASE DO PROCESSO DE DCBD. 44 FIGURA 9 - RELAÇÃO ENTRE O NÚMERO DE MAILINGS E O NÚMERO DE RESPOSTAS. 45 FIGURA 10– REPRESENTAÇÃO DAS TABELAS INICIAS. 57 FIGURA 11 – REPRESENTAÇÃO DA TABELA FINAL APÓS TRANSPOSIÇÃO. 57 FIGURA 12 – METODOLOGIA CRISP-DM (ADAPTADO DE [CHAPMAN ET AL., 2000]). 61 FIGURA 13 – METODOLOGIA SEMMA (ADAPTADO DE [SAS, 2005]). 62 FIGURA 14 – MATRIZ PARA CLASSIFICAÇÃO (ADAPTADO DE [RODRIGUES, 2000]). 63 FIGURA 15 – ESTRUTURA DO NEURÓNIO ARTIFICIAL (NODO) [QUINTELA, 2005]. 76 FIGURA 16 – ESQUEMAS COM AS FUNÇÕES DE ACTIVAÇÃO. 77 FIGURA 17 – REDE DE UMA SÓ CAMADA. 78 FIGURA 18 – ARQUITECTURA DE UMA REDE FEEDFORWARD MULTICAMADA 79 FIGURA 19 – ARQUITECTURA DE UMA REDE COMPETITIVA OU RECORRENTE. 79 FIGURA 20 – PARADIGMA DE APRENDIZAGEM SUPERVISIONADA. 81 FIGURA 21 – PARADIGMA DA APRENDIZAGEM NÃO SUPERVISIONADA. 81 FIGURA 22 – REDE PERCEPTRON. 82 FIGURA 23 – ESQUEMA DAS REDES DE KOHONEN [KOHONEN, 1989]. 87 FIGURA 24 EXEMPLO DE UMA ÁRVORE DE DECISÃO. 89 FIGURA 25 - ÁRVORE DE DECISÃO OBTIDA PELO ALGORITMO ID3. 94 FIGURA 26 - ENQUADRAMENTO DO DBM NA ORGANIZAÇÃO (ADAPTADO [HUGHES, 1995]). xi 102 Índice de Figuras FIGURA 27 – PROPOSTA DA METODOLOGIA DE DATA MINING PARA DATABASE MARKETING 107 FIGURA 28 – RECOLHA DE INFORMAÇÃO DE FONTES DIVERSAS 111 FIGURA 29 - PROCESSO DE DCBD (ADAPTADO DE [FAYYAD ET AL., 1996]) 112 FIGURA 30 – ORGANIZAÇÃO ACTIVIDADES PRÉ-PROCESSAMENTO E TRANSFORMAÇÃO DE DADOS115 FIGURA 31 - RECOMPENSAS DA APLICAÇÃO DE DBM 123 FIGURA 32 – PARALELISMO ENTRE AS METODOLOGIAS DM4DBM E CRISP-DM 128 FIGURA 33 - FLUXO DE INFORMAÇÃO RELATIVO AO PROJECTO DE MARKETING RELACIONAL 132 FIGURA 34 – CRIAÇÃO DA BD INICIAL – IMPORTAÇÃO DE DADOS 137 FIGURA 35 – DUPLICAÇÃO NA CODIFICAÇÃO PARA O MESMO ATRIBUTO. 139 FIGURA 36 - REPRESENTAÇÃO ESQUEMÁTICA DA FORMAÇÃO DA BD DO PROJECTO. 146 FIGURA 37 - DISTRIBUIÇÃO APÓS A REDUÇÃO DE CLASSES 152 FIGURA 38 - TRANSPOSIÇÃO DA TABELA VALE PARA UMA NOVA TABELA CLIENTE-VALE. 153 FIGURA 39 – REPRESENTAÇÃO DA TRANSPOSIÇÃO DAS TABELAS PERGUNTA E QUESTIONÁRIO. 154 FIGURA 40 - ORGANIZAÇÃO DOS DADOS DAS TABELAS QUESTIONÁRIOS E QUESTÕES. 155 FIGURA 41 - TABELA RESULTANTE DA TRANSPOSIÇÃO DAS TABELAS. 155 FIGURA 42 - DISTRIBUIÇÃO DE CASOS DENTRO DE CADA CLUSTER. 176 FIGURA 43 - CLUSTERS VS REBATE DE VALES. 178 xii Índice de Tabelas Índice de Tabelas TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA TABELA 1- RESULTADOS DE ACTIVIDADES DE DBM EM MARKETING 33 2- EXEMPLIFICAÇÃO DE CODIFICAÇÕES DISTINTAS PARA O MESMO REGISTO. 47 3- EXEMPLO DE TABELA DE FREQUÊNCIAS PARA O VALOR DE UM ATRIBUTO. 49 4- CODIFICAÇÃO DISTINTA PARA O MESMO ATRIBUTO [PINTO ET AL., 2005]. 53 5- ALGUMAS DAS TÉCNICAS DISPONÍVEIS PARA CADA TIPO DE PROBLEMA EM DM. 69 6 - EVOLUÇÃO DO ALGORITMO ID3. 90 7 - DADOS USADOS PELO ALGORITMO. 92 8 - MATRIZ DE CONFUSÃO DE UM CLASSIFICADOR. 98 9 - ACTIVIDADES DE DM APLICADAS A QUESTÕES DE MARKETING. 105 10 – EXEMPLOS DE APLICAÇÃO EM CASOS DE MARKETING 117 11 - EXEMPLIFICAÇÃO DE CODIFICAÇÕES DISTINTAS PARA O MESMO REGISTO. 139 12 – INCONGRUÊNCIA NA CODIFICAÇÃO DO MESMO OBJECTO. 140 13 - EXEMPLO DE VIOLAÇÃO DE DOMÍNIO NO ATRIBUTO SEXO. 141 14 - CLASSIFICAÇÃO EM FUNÇÃO DO VOLUME DE QUESTIONÁRIOS E VALES. 143 15 - CLASSIFICAÇÃO EM FUNÇÃO DA DIMENSÃO DA FAMÍLIA E ACESSÓRIOS CONFORTO. 143 16 – ATRIBUTOS UTILIZADOS NA MODELAÇÃO 144 17 – DOMÍNIO DOS ATRIBUTOS DE TRABALHO 145 18 – QUANTIDADE DE RESPOSTAS OBTIDAS PARA A QUESTÃO TÊM FILHOS? 149 19 – QUANTIDADE DE RESPOSTAS À QUESTÃO NÚMERO DE FILHOS? 149 20 - RESPOSTAS ÀS QUESTÕES TÊM FILHOS E NÚMERO DE FILHOS 150 21 - RESPOSTAS ÀS QUESTÕES APÓS COERÊNCIA DE DADOS. 151 22 – TABELA DE FREQUÊNCIA PARA O ATRIBUTO Nº FILHOS. 151 23 - ESTABELECIMENTO DA RELAÇÃO CLIENTE – VALE. 154 24 – TAXA DE REBATIMENTO DE CADA VALE EMITIDO. 158 25 - DERIVAÇÃO DE NOVAS VARIÁVEIS. 159 26 – CLASSIFICAÇÃO DE CLIENTES. 160 27 - ORDENAÇÃO DE CLIENTES EM FUNÇÃO DO VOLUME DE QUESTÕES RESPONDIDAS: 162 28 – NÚMERO DE CASOS POR CADA ESCALA DE CLASSIFICAÇÃO. 163 29 – RESULTADOS DA APLICAÇÃO DO ALGORITMO PARA DE INDUÇÃO DE REGRAS GRI. 170 30 – DISTRIBUIÇÃO DE INDIVÍDUOS PARA CADA CLUSTER. 177 xiii Acrónimos e Abreviaturas Acrónimos e Abreviaturas AD Árvores de Decisão BD Base de Dados BP Back-Propagation BDM Bases de Dados de Marketing CRISP-DM Cross Industry Standard Process for Data Mining CRM Customer Relationship Management DCBD Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Databases) DM Data Mining DW Data Warehouse IA Inteligência Artificial ODBC On-line DataBase Connectivity OLAP On-Line Analytic Processing RNA Redes Neuronais Artificiais RMFC Redes Feedforward Multicamada SEMMA Sample, Explore, Modify, Model, Assessement SGBD Sistema de Gestão de Base de Dados SQL Structured Query Language W3C World Wide Web WWW World Wide Web xiv Capítulo 1 Introdução Capítulo 1 1 Introdução O marketing é o conjunto de meios de que dispõe uma organização1 para vender os seus produtos aos seus clientes com rendibilidade2 [Angelmar et al., 1975]. O termo marketing surge da conjugação das palavra inglesas market e thinking, representando uma preocupação desta ciência em auxiliar as organizações na abordagem aos mercados [Bartels, 1976], [Angelmar et al., 1975]. Outros autores definiram o marketing como “o conjunto dos métodos e dos meios de que uma organização dispõe para promover, nos públicos pelos quais se interessa, os comportamentos favoráveis à realização dos seus próprios objectivos" [Lindon et al., 2000]. A investigação realizada em torno da escolha de mercados-alvo ou da integração de funções como captação, manutenção e fidelização de clientes3 por meio da criação, da entrega e da comunicação de um valor superior para o cliente, confere ao marketing um carácter científico [Kotler, 2002]. Na mesma linha de orientação, a American Marketing Association define o marketing enquadrado com as actividades de negócios das organizações que dirigem o fluxo de bens e serviços do produtor ao consumidor: “ é o processo de planeamento e execução da estratégia, estabelecimento do preço, promoção e 1 Uma organização consiste numa unidade social deliberadamente construída para alcançar objectivos específicos num determinado contexto social [Etzioni, 1980]. Considerando de modo igual uma empresa como uma unidade social organizada com objectivos, e tendo em atenção os objectivos deste trabalho, ambos os termos, organização e empresa, serão usados indiferentemente para designar o mesmo tipo de actividade. 2 A rendibilidade de um cliente em marketing traduz-se pelo retorno que a empresa obtém em resultado do seu investimento e.g., vendas realizadas ou resposta a acções de marketing. 3 Cliente – indivíduo que, num espaço de tempo definido, tem por objectivo adquirir um bem ou um serviço [ Montcel, 1972]. 1 Capítulo 1 Introdução distribuição de ideias, produtos e/ou serviços, com vista a desenvolver os intercâmbios que irão satisfazer as necessidades dos indivíduos e organizações” [AMA, 2005]. Num sentido mais lato é possível afirmar que o marketing consiste em gerir a relação entre uma empresa e os seus clientes, no sentido de atingir os objectivos dos primeiros satisfazendo as necessidades dos segundos. O conceito de marketing não é recente, havendo na sua prática e nos seus fundamentos um desenvolvimento ao longo dos anos, sendo possível identificar quatro períodos distintos na sua evolução [Rodrigues, 2000]: Produção: desde a revolução industrial, as organizações, em geral, enfatizavam a eficiência do processo produtivo. Existia uma premissa subjacente a esta filosofia: “um bom produto venderá por si mesmo” [Munhoz, 2005]; Vendas: a eficácia dos processos produtivos (equipamentos, tecnologias e recursos humanos) conduziu a uma optimização da capacidade produtiva – oferta - e esta tornou-se superior à procura, pelo que as preocupações das organizações passaram a centrar-se nas vendas [Lindon et al., 2000]; Mercado: Os esforços de vendas, desenvolvidos e introduzidos no período anterior, necessitavam de uma adequação dos produtos aos mercados onde eram comercializados. Esta necessidade fez surgir nas organizações a preocupação de se orientarem para o mercado, para o seu conhecimento e mesmo, por algumas vezes, para a diversificação do tipo de produtos [Munhoz, 2005]; Cliente: o desenvolvimento exponencial da concorrência entre empresas, com a natural diferenciação dos seus produtos, promoveu a exigência nos consumidores4, surgindo assim os denominados segmentos de mercado [Kotler, 2002]. O marketing 4 Consumidor – indivíduo com informação do mercado de determinado(s) produto(s) ou serviço(s), com potencial de vir a tornar-se cliente [Montcel, 1972]. 2 Capítulo 1 Introdução centrado no cliente desenvolve estratégias de comunicação dirigidas a subconjuntos de consumidores com características comuns [Lindon et al., 2000]. Não obstante a evolução registada, as práticas do marketing tradicional eram todavia mais orientadas para o produto e para a transacção (Figura 1) do que para o cliente e para a relação com este. Na perspectiva da organização, a relação com o cliente resumiase à transacção de produtos ou serviços como meio a seguir para a obtenção dos seus objectivos (na maioria dos casos, o lucro), sendo a preocupação com o cliente apenas ao nível da satisfação das necessidades do momento [Drozdenko et al., 2002]. Figura 1 – Marketing Tradicional (adaptado de [Drozdenko et al., 2002]). A constatação da insuficiência das abordagens expostas deu lugar a novas formas de pensar e agir, com as organizações a procurarem não só políticas de marketing mas antes políticas de relacionamento com os seus clientes – o marketing relacional. O marketing relacional caracteriza-se por um fluxo significativo de comunicação entre a organização e o cliente (Figura 2), com o objectivo explícito de obter informação actualizada nas suas Bases de Dados (BD). Os meios privilegiados para o conhecimento dos seus clientes são tão diversos como, e.g., a imprensa, a Internet ou correspondência directa. Os dados entretanto registados actualizam os anteriores e são utilizados nas interacções subsequentes para uma optimização dos novos contactos, tendo em vista o reforço da relação entre a organização e os clientes. 3 Capítulo 1 Introdução Base de Dados Actualização e Análise da Base de Dados Media Mail Internet Telefone Outros Feedback Contacto do cliente Compra Uso do feedback recebido Contacto com as vendas Personalizar a relação com cliente Fornecer informação Cliente Figura 2 - Processo de Marketing Relacional (adaptado de [Drozdenko et al., 2002]). Alguns autores apresentam o marketing relacional como a evolução do marketing tradicional (cuja filosofia de desenvolvimento assenta em 4 Ps – Place (Mercado), Promotion (Promoção), Product (Producto) e Price (Preço) [Kotler, 2002]), abrindo espaço para uma nova abordagem, com novas variáveis de acção, menos rígidas, em torno das quais são Fórmuladas as estratégias de marketing. Essas variáveis são [Schewe et al., 1995]: Sensibilidade ao consumidor – Preocupação na qualidade do atendimento ao cliente; registo das respostas; cuidado no tratamento das reclamações, entre outros aspectos relacionados; Produto – Definição das diferentes características do produto em função das necessidades e desejos dos consumidores; Conveniência do consumidor – Tornar a oferta do produto num modo atractivo, apresentando-o em função da conveniência do consumidor (e.g., dimensão e tipologia das embalagens dos produtos); 4 Capítulo 1 Introdução Serviço – Assegurar serviços ao longo da relação com o cliente, como sejam a prévenda (informações sobre detalhes e características dos produtos), assistência na venda (e.g., facilidades de pagamento ou de entrega) e pós-venda (serviço de manutenção e garantia dos produtos); Preço – Definição da política de preços em função das empresas concorrentes e dos mercados onde são comercializados os produtos; Distribuição e acessibilidade – Facilitar o acesso aos produtos em termos de locais de oferta (distribuição geográfica de pontos de venda ), prazos de entrega e acessibilidade (e.g., loja generalista ou especializada); Comunicação – Utilização dos meios de comunicação em função do perfil dos consumidores (e.g., definição dos veículos publicitários) e dos clientes (e.g., envio de comunicações personalizadas). Este novo conceito de marketing, preocupado em conhecer e em compreender os mercados e os seus consumidores, expande a visão relativamente ao que representa um programa de marketing centrando-se o seu desenvolvimento na utilização das Tecnologias de Informação (TI) [Gonçalves et al., 2002] e, em particular, nas tecnologias orientadas para a utilização de BD [Drozdenko et al., 2002]. Entretanto, graças ao desenvolvimento tecnológico e à diminuição dos custos de armazenamento, as BD aumentaram em número (em qualquer departamento de uma qualquer empresa, o registo da sua actividade é guardado em BD) e no volume de registos guardados (e.g., a BD de clientes de uma cadeia de hipermercados é actualmente na ordem dos Terabytes), abrindo espaço para o aparecimento de uma abordagem sistemática na sua utilização, centrada no processo de preparação dos dados, que permitisse aumentar a confiança no resultado final [Linoff et al., 2000], [Han et al., 2001], [Gago, 2001]. Essa abordagem sistemática, integrando fases de préprocessamento dos dados e pós-processamento dos resultados, é denominada por 5 Capítulo 1 Introdução Knowledge Discovery in Databases (KDD), termo que neste texto é traduzido para Descoberta de Conhecimento em Bases de Dados (DCBD). A DCBD consiste numa série bem definida de passos que vão desde a preparação dos dados até à extracção de padrões sobre esses dados e à avaliação dos mesmos e é aqui apresentada como uma alternativa aos processos tradicionais de utilização de BD (e.g., processos clássicos de inferência estatística ou processos simples de interrogação a BD) para o suporte à definição de estratégias de marketing, uma vez que permitem o estudo/resolução de problemas mais complexos. 1.1 Motivação As actividades de marketing são muitas e diversas, permitindo o seu desenvolvimento em diferentes perspectivas e contextos variados. Contudo, na elaboração deste trabalho, assume particular relevância a utilização de BD no suporte às actividades de marketing no decorrer de acções de marketing relacional. Numa perspectiva científica, o marketing pode ser colocado entre as Tecnologias de Informação e a Gestão [Hughes, 1994], [Shepard, 1998], suportando a tese que o indica como uma das áreas de maior interesse para a aplicação de técnicas de DCBD [Linoff et al., 1997]. Como contributo para esta motivação adicione-se o facto de até ao momento serem desconhecidos casos de sucesso da aplicação desta metodologia em casos de marketing. A existência de BD na maioria das organizações é actualmente um facto inquestionável. Contudo, a sua utilização limita-se às abordagens tradicionais, sugerindo um enorme potencial ainda por explorar [Welge et al., 2001]. Alguns autores, perspectivando uma visão de futuro para o marketing apontam cinco vectores chave para o seu desenvolvimento [McKenna, 2002]: 6 Capítulo 1 Introdução Subestrutura digital - o novo paradigma tecnológico provoca mudanças em toda a cadeia produtiva [Zorrinho, 1991]. A estrutura digital auxilia a comunicação e facilita o acesso da empresa ao cliente e, vice-versa; Desaparecimento da fidelidade à marca – a revolução digital estimulou a infidelidade às marcas [Lindon et al., 2000]. A facilidade de acesso à informação (em particular através da internet) tornou o consumidor mais pró-activo com maior volume de informação para poder decidir sobre a aquisição de determinado produto ou serviço; Redefinição do conceito de imagem – face à necessidade de adaptação a mercados cada vez mais competitivos, a imagem da empresa ou dos seus produtos tornou-se dinâmica e perdeu o seu carácter mais estático [Lindon et al., 2000]. A imagem passou a ser definida pelos meios de comunicação e nas experiências interactivas com os consumidores; Alteração do papel do Cliente - O cliente deixou de ser um elemento passivo (simples consumidor) para se tornar num elemento activo (consome, analisa e reage) [McKenna, 2002] ; O marketing suportado nas tecnologias da informação – são abundantes os indícios de convergência entre a área das tecnologias de informação e as actividades de marketing, e.g,. o marketing directo 5 [Lindon et al., 2000]. A dificuldade em conquistar e manter a fidelidade dos clientes gerou nas empresas a necessidade de adoptarem novas estratégias de relacionamento baseadas em sistemas de informação, que a operar na retaguarda, são capazes de registar toda a informação libertada durante a relação em BD [McKenna, 2002]. 5 O marketing directo pode ser considerado como uma ferramenta de comunicação de marketing utilizada para estabelecer o relacionamento directo entre as empresas e seus consumidores e prospects (tanto pessoas físicas quanto outras empresas) 7 Capítulo 1 Introdução O sistema aglutinador de um conjunto de ferramentas que viabilizam a obtenção, análise e manutenção de dados, possibilitando a obtenção da informação adequada, para a pessoa ideal, no tempo certo, denomina-se por Business Intelligence Systems (BIS) [Negash et al., 2003]. Aproveitar as funcionalidades e conhecimentos que o Business Intelligence (BI) proporciona não é apenas um factor de sucesso, mas essencialmente um factor de sobrevivência [Jackson, et al., 1997]. A expressão da prática do BI em contextos do marketing encontra reflexo nas actividades de utilização das BD de marketing com vista ao suporte e definição das estratégias – estas actividades são definidas como processos de DataBase Marketing (DBM), os quais consideram não só as fases do BI como também prevêem a sua aplicação prática. A viabilização de um projecto de DBM depende essencialmente de dois factores: dos dados disponíveis e da sua exploração (suportada pelo processo de DCBD) [Shepard, 1998]. O DBM vem sendo apontado como a ferramenta que permite aos profissionais do marketing obter a informação necessária à formulação das suas estratégias [Shepard, 1998], [Hughes, 1994], [Jackson, et al., 1997], [Drozdenko et al., 2002]. Contudo verifica-se ainda, a falta de um processo sistematizado que explicite todas as fases e requisitos de informação em função dos objectivos estabelecidos e que formalize os modelos para uso posterior. 1.2 Objectivos Tendo sido constatada a ausência de uma metodologia ou um sistema explícito para o desenvolvimento de processos de BIS em marketing. Procura-se com este trabalho preencher esse vazio e apresentar uma sistematização de actividades de DCBD em actividades de BI, com uma aplicação prática na área do DBM. Esta sistematização permitirá uma abordagem eficiente e generalizada no âmbito do desenvolvimento de 8 Capítulo 1 Introdução projectos na área de DBM em diferentes acções de marketing, cujas características e requisitos mais importantes, são: Inclusão de processos de angariação e recolha de dados com vista à criação de BD de marketing, específicas em função dos objectivos de negócio previamente definidos; Função integradora das actividades de DCBD em processos de Marketing, com a consideração de tarefas específicas para o seu desenvolvimento; Alinhamento de técnicas de Data Mining (DM) com as actividades de marketing; Desenvolvimento das acções de marketing suportadas pelo conhecimento extraído em BD após determinação dos modelos de DM para as actividades em estudo; Estabelecimento de limites na utilização dos conceitos propostos na sistematização: a aplicação de acções de DBM varia consoante os objectivos de marketing propostos para o sistema; Caracterização das técnicas a utilizar em função dos objectivos de DCBD propostos. A principal contribuição da dissertação concretiza-se por: (i) propor um sistema para o desenvolvimento do processo de DBM que integre as técnicas de DCBD, e (ii) seguir os passos do sistema proposto no âmbito deste trabalho, demonstrando a sua adequação num contexto real aplicado ao sector da distribuição. A sistematização desenvolvida foi denominada como DM4DBM (Data Mining For Database Marketing) Este sistema é suficientemente genérico, podendo ser utilizado nas mais diversas diferentes áreas do marketing. O estudo de caso levado a cabo situa-se no domínio comercial (retalho), pretendendo-se aproveitar a oportunidade surgida de um caso real e uma vez que neste domínio se pode facilmente evidenciar a sistematização dos passos desenvolvidos e a sua aplicação prática. 9 Capítulo 1 Introdução 1.3 Organização da dissertação A dissertação, para além deste capítulo introdutório, apresenta mais cinco capítulos e um conjunto de anexos considerados de interesse, quer para o trabalho desenvolvido, quer para trabalhos futuros que sobre ele possam vir a ser desenvolvidos. 1. Introdução Revisão de Literatura 2. Business Intelligence Database Marketing 3. Descoberta Conhecimento em Bases de Dados A contribuição da dissertação 4. Metodologia IUBDM 5. Aplicação prática da metodologia IUBDM 6. Conclusões e Trabalho futuro Figura 3 - Estrutura da dissertação Num primeiro grupo (Figura 3), intitulado Revisão da literatura, composto pelos capítulos 2 e 3, existe a preocupação de contextualizar o trabalho desenvolvido quer analisando a posição dos diferentes investigadores da área quer fazendo uma exploração tecnológica da lacuna existente no domínio da DCBD em Marketing. Considera-se que só assim é possível atribuir valor ao trabalho presente. No capítulo 2 é realizada uma revisão da literatura numa abordagem prática aos conceitos de Business Intelligence e Database Marketing, referindo ambos os assuntos numa perspectiva tecnológica. 10 Capítulo 1 Introdução O capítulo 3 é dedicado à Descoberta de Conhecimento em Bases de Dados, onde se faz uma exposição das diferentes definições e os métodos disponíveis, para aplicações em marketing. O capítulo 4 denominado como DM4DBM – Proposta de uma Metodologia para o Desenvolvimento de Data Mining Para Database Marketing serve para a apresentação do grande objectivo da dissertação que consiste em estruturar a utilização de BD num contexto de Marketing. O trabalho de investigação é desenvolvido no sentido de propor um conjunto de actividades que, de um modo sistematizado, suportem o desenvolvimento de projectos de Database Marketing baseados na Descoberta de Conhecimento em Bases de Dados. Aplicação prática do sistema apresentado é concretizado no capítulo 5 com a sua utilização na área da distribuição, com exposição de um caso de demonstração real e discussão dos resultados obtidos. Por último, no capítulo 6 são apresentadas as conclusões ao trabalho desenvolvido, identificando-se as principais contribuições para as áreas das Tecnologias e Sistemas de Informação, nomeadamente no âmbito da utilização Descoberta de Conhecimento em Bases de Dados de marketing, sendo lançadas linhas orientadoras para o trabalho a desenvolver no futuro 11 Capítulo 1 Introdução . 12 Capítulo 2 Business Intelligence e Database Marketing Capítulo 2 2 Business Intelligence e Database Marketing É realizada uma apresentação dos conceitos fundamentais sobre Business Intelligence e Database Marketing, bem como dos conceitos gerais e enquadramento destas disciplinas em actividades de Marketing. 2.1 Business Intelligence As alterações que continuamente surgem nos mercados, forçam as organizações a operar quase por completo em situações novas e por vezes desconhecidas. O processo de decisão considera-se portanto um acto de gestão cujo suporte se encontra cada vez mais dependente das Tecnologias de Informação(TI) [Turban et al., 2001]. Encontramo-nos num período denominado por alguns como “a era da informação”. A competitividade entre empresas é maior do que nunca, os consumidores são mais exigentes e os produtos mais variados, complexos e com ciclos de vida mais curtos [Kotler, 2002]. A abordagem à realidade social é assim muito complexa e profunda, pelo que apenas com a ajuda dos meios tecnológicos se pode ambicionar reter e tratar os dados relativos aos mercados e seus actores [Stone et al., 2004]. Business Intelligence Systems (BIS) define-se, como um sistema que viabiliza a tomada de decisão e integra actividades Business Intelligence (BI). BI assume-se neste contexto como um conjunto 13 Capítulo 2 Business Intelligence e Database Marketing de ferramentas que viabilizam a obtenção, análise e manutenção de dados, que possibilitam obter a informação adequada, para a pessoa ideal, no tempo certo [Negash et al., 2003], [Moss et al., 2003] [Stone et al., 2004] e [Adelman et al., 2002]. Aproveitar as funcionalidades e conhecimentos que o BI proporciona é não somente um factor de sucesso, mas essencialmente um factor de sobrevivência. Na vertente dos gestores, a actividade de BI permite-lhes a tomada de decisão suportada por um conhecimento eficaz da organização e do seu meio envolvente [Jackson, et al., 1997]. 2.1.1 Definição O termo de Business Intelligence (BIS) pode ser referido como sendo abrangente, uma vez que engloba um leque variado de software analítico e soluções para recolha, consolidação, análise e acesso a informação permitindo ao gestor tomar decisões fundamentadas [Adelman et al., 2002]. Nesta designação inclui-se também todo o software para extracção, transformação e povoamento de DataWarehouses6 (DW) [Hall, 1999], Processamento On-Line dos Dados (OLAP), análise de dados, Data Mining (DM) e visualização [Berson et al., 2001]. Outros autores apontam diferentes definições para BI em diferentes áreas de aplicação. Para alguns investigadores na área do CRM7 (Customer Relationship Management), BI consiste simplesmente na integração das aplicações de Frontoffice8 com as aplicações mais operativas dos sistemas em Backoffice9. No domínio dos DW, alguns autores 6 O termo Datawarehouse serve para referir o repositório central (Armazém de Dados) onde se guardam todos os dados considerados relevantes para a organização. 7 A estratégia do CRM consiste em adquirir melhor conhecimento sobre os clientes, antecipar as suas expectativas e necessidades, fornecer serviços personalizados, e diferenciar-se dos concorrentes [Bretzke, 2005]. Através de uma melhor compreensão das necessidades dos clientes, é possível realizar a segmentação do mercado, identificando onde podem ser construídas relações lucrativas permanentes [Linoff et al., 2000]. A principal premissa do CRM é de que os clientes tomarão as suas decisões de compra baseadas no relacionamento que têm com os seus fornecedores, e que em troca da sua preferência desejam reconhecimento, valor, qualidade e respeito. O objectivo é portanto, reconhecer, atender e fidelizar o cliente em tempo útil 8 Entende-se por frontoffice as aplicações informáticas que permitem a interacção entre o sistema de informação e o utilizador. 9 Os sistemas de backoffice são referidos no texto como o conjunto dos sistemas informáticos que suportam todo o sistema de informação de uma empresa. 14 Capítulo 2 Business Intelligence e Database Marketing encaram BI como apenas mais um termo para DW, ou seja, novas aplicações de suporte à decisão em novas plataformas tecnológicas suportadas nos dados armazenados [Moss et al., 2003]. Numa perspectiva organizacional, salientam-se ainda contribuições que indicam o BI como utilizador da informação que diz respeito ao ambiente do negócio onde a organização opera. Quando desenvolvido, o BI permite à empresa sustentar a tomada de decisões, conferindo-lhe vantagem competitiva [Prior, 1998]. A Society of Competitive Intelligence Professionals coloca BI entre a Inteligência Competitiva (Competitive Intelligence10) e a Gestão do Conhecimento, abordando BI como uma combinação de dados, informação e conhecimento acerca do ambiente de negócio, capaz de conferir uma significativa vantagem competitiva ou facilitar as decisões a tomar [Arnett et al., 2000]. Outros autores apontam BI como um método organizado e sistemático para a recolha de informação sobre o mundo envolvente, funcionando como indicador de alerta para as organizações se anteciparem e adaptarem para as mudanças das condições dos mercados (tecnologias emergentes, nova regulamentação, mercado) [O´Guin et al., 2001] [Moss et al., 2003]. Em síntese, é possível definir BI como uma actividade de BIS que combina actividades de recolha, armazenamento de dados (e.g., DW ou OPLAP) e extracção de conhecimento (e.g., DM), tornando a organização mais competitiva. Como ilustração descritiva de BIS, num sistema ideal, todos os funcionários teriam no monitor do seu computador, a informação de que necessitam, em tempo real (relativa aos mercados, aos consumidores, aos produtos ou mesmo financeira), de modo a poderem analisar, partilhar com outros utilizadores e tomar as decisões necessárias. 10 Competitive intelligence desenvolve-se na tecnologia. As actividades neste campo incluem a recolha e análise de informação do mercado e capacidades e vulnerabilidades dos concorrentes no mercado.” [Johnson, 1998] 15 Capítulo 2 Business Intelligence e Database Marketing 2.1.2 Aplicações organizacionais de BI As aplicações de BIS são vastas [Adelman et al., 2002] e têm aplicação em diferentes níveis da estrutura organizativa [O´Guin et al., 2001]. Segundo a Society of Competitive Intelligence Professionals, o envolvimento nas operações de BIS permite à organização [Arnett et al., 2000]: Antecipar e gerir o risco, analisando as potenciais evoluções que se vão verificar no meio envolvente, através duma análise criativa dos pontos fortes e fracos do ambiente económico, extraindo assim potenciais ameaças e minimizando os potenciais riscos, ligados à incerteza; Organizar as informações dispersas, extraindo somente as que possam ser relevantes para a empresa, e construir cenários para ajudar os gestores na tomada das decisões; Inovar pela detecção de oportunidades e de novos mercados, analisando de forma criativa os dados recolhidos durante a pesquisa e que se tenham tornado pertinentes para a organização; Agir oportunamente face aos concorrentes, conhecer o mercado, analisando quais as potencialidades de crescimento, quais os produtos que mais se adaptem às necessidades dos clientes; Posicionar-se estrategicamente no mercado adquirindo um conhecimento aprofundado do meio envolvente à organização. É necessário conhecer bem os actores em todas as suas dimensões: nível de competitividade, o número de concorrentes e respectiva quota de mercado, capacidade financeira, produtos concorrentes, procedimentos, tecnologia de que dispõem, e, se possível, estratégia. É viável deste modo explorar as fraquezas dos concorrentes, através do seu acompanhamento contínuo; 16 Capítulo 2 Business Intelligence e Database Marketing Criação de BD com toda a informação relativa à actividade interna e externa da organização, relativo a concorrentes, a histórico de acções e resultados anteriores; Antecipar as mudanças nos mercados assegurando as informações relevantes sobre as mudanças em curso e determinar sobre elas, quais representam ameaças ou oportunidades. Em resumo, as organizações onde se desenvolvem e aplicam as actividades BI, beneficiam de um sistema capaz de as integrar no meio envolvente onde operam (processos de auscultação e recolha de informações do exterior) e antecipar o comportamento dos mercados permitindo a adopção de estratégias competitivas (processos de detecção de oportunidades e análise de concorrência). 2.1.3 Formalização da actividade Business Intelligence A finalidade do processo de BI define a necessidade de um enquadramento organizativo, seja numa perspectiva interna (compreensão da própria estrutura) seja numa lógica de meio envolvente da organização (reacção à mudança de factores externos). A formalização de um plano para o desenvolvimento de um projecto de BI vai desde a monitorização do meio envolvente, passando pelo levantamento de necessidades de actuação até ao processo de análise de dados e extracção de informação. Num modo sistematizado é possível definir como fases formais do plano de BI as seguintes [O´Guin et al., 2001]: Monitorização do meio envolvente - Avaliação e análise do meio envolvente da organização, por recurso a vectores de informação11, em termos operacionais ou estratégicos; 11 Podem-se definir como vectores de informação as estruturas funcionais de dados, com a finalidade de registo de informação que funcionam como indicadores (e.g., evolução da concorrência ou aparecimento de novos produtos no mercado). 17 Capítulo 2 Business Intelligence e Database Marketing Detecção e avaliação de desvios - A monitorização do meio envolvente permite detectar eventuais diferenças entre a observação recolhida e a esperada; Avaliação do problema e ponderação de questões específicas - Uma vez evidenciados os novos factos, o analista deverá averiguar quais são as informações que necessário recolher (directamente do meio envolvente ou a partir das bases dados próprias), equacionar as questões e necessidade de respostas. Operacionalmente, esta fase consiste em definir exactamente que informação é necessário recolher para tomar uma acção decisiva; Formulação de cenários - Para cada questão problemática específica deverá ser desenvolvido um conjunto de hipóteses alternativas de acordo com a observação do meio envolvente bem como avaliar eventuais reacções do mercado, como e.g., os sinais emitidos pelos clientes e concorrentes retractam as suas intenções relativamente à organização, aos seus produtos ou serviços; Identificar focos de interesse e promover interacção - Para cada tipo de problema, existe um conjunto de entidades que intervêm de modo diverso, seja pela sua actividade seja pela sua importância. Estas entidades deverão então estar sob análise devendo-se fomentar o intercâmbio de informações e registar os resultados dessa interactividade; Recolha de informação - Existem três factos que se devem ter em linha de conta: pertinência das observações registadas em função das hipóteses;(1) não podem ser contraditórias, (2) e podem introduzir novas possibilidades, ou, (3) sugerir novas hipóteses; Desenvolvimento tecnológico de BI - Uma vez recolhida a informação necessária, é possível desencadear o estudo e análise dos dados em função de cada Fórmulação inicialmente estabelecida. 18 Capítulo 2 Business Intelligence e Database Marketing A formalização do plano não assegura o sucesso do BI, é necessário que a execução das etapas consideradas sejam estruturadas e coordenadas por órgãos com capacidade de avaliar e auditar a sua execução. 2.1.4 Suporte tecnológico de BI O desenvolvimento do processo tecnológico de BI encerra duas fases interdependentes entre si mas distintas (Figur 4): a primeira consiste na recolha e angariação e de dados (constituição de um DW); a segunda fase engloba um conjunto de procedimentos com os quais se exploram e analisam os dados disponíveis, alcançando informações relevantes, as quais, irão suportar o processo de tomada de decisão. A sistematização de ambas as fases encontra-se representada na Figura 4, onde se evidenciam os passos e as actividades desenvolvidas numa filosofia de BI como suporte à decisão. Dados Internos Dados Externos Datawarehouse Analise Descoberta Conhecimento Bases Dados Dados Modelação Figura 4 – Suporte tecnológico da actividade de Business Intelligence Recolha de dados e Datawarehousing O sucesso do BI depende directamente dos dados disponíveis e sobre os quais se irá desenvolver. Estes dados podem entre outros aspectos podem ter naturezas distintas: 19 Capítulo 2 Business Intelligence e Database Marketing internos (dados da própria organização, dados de clientes, fornecedores, acções promocionais, registo de vendas, etc..) ou externos (aluguer de Bases de Dados - BD, realização de programas conjuntos, etc...). A recolha de dados depende de um conjunto de aspectos que condicionam disponibilidade e qualidade dos mesmos. Datawarehousing A prática de datawarehousing engloba todas as actividades (e.g., pesquisa, selecção e importação dados) relacionadas com a recolha e angariação de dados com vista à criação do repositório central. Um DW consiste então num armazém de dados consolidados, optimizados para relatórios e análises [Inmon, 2003]. Os dados e as informações agregadas num DW são extraídos das suas origens (internas e externas) com o objectivo de fornecer respostas a questões provenientes de diferentes níveis da organização em qualquer momento [Stegwee et al., 2002]. A sua actualização deve ser constante e completa, pois a tendência é para a desactualização da informação com o passar do tempo, prevenindo-se assim, erros estratégicos [Dataflux, 2005]. Recorrendo a uma definição mais formal, considera-se um DW como uma BD para o apoio ao processo de tomada de decisão, na qual os dados possuem as seguintes características [Inmon, 1996]: Orientados, por tópicos, por departamentos ou outras funções organizacionais; Íntegros, os dados, embora provenientes de sistemas ou plataformas heterogéneas são registados de um modo padronizado, sem duplicação. Neste pressuposto, permite inclusive, a integração de dados externos à organização; Constantes, Os dados num DW possuem um horizonte temporal mais alargado não sendo actualizados com a frequência dos dados e.g., operacionais em modo on-line; Não voláteis, existem apenas duas acções permitidas num DW, carregamento ou consulta. 20 Capítulo 2 Business Intelligence e Database Marketing Em síntese é possível indicar como a maior virtude de DW a sua orientação à utilização dos dados de um modo simplificado, auxiliando, e.g., o apoio à tomada de decisão. Análise e processamento de dados Uma das vertentes da aplicação do BI consiste na disponibilização de informação com vista ao apoio à tomada de decisão [Prior, 1998], [O´Guin et al., 2001] e [Arnett et al., 2000]. A necessidade da já referida informação pertinente, actual e diversa coloca a DCBD como a solução mais adequada para uma satisfação deste requisito. O processo para a DCBD é actualmente aceite como sendo um “processo não trivial de identificação de padrões presentes nos dados, novos, válidos, potencialmente úteis e compreensíveis” [Fayyad et al., 1996] e é descrito em detalhe no capítulo seguinte. 2.1.5 Sistemas de Apoio à Decisão Os Sistemas de Apoio à Decisão (SAD) são sistemas que possibilitam aos gestores a sustentação do processo de tomada de decisão com base num conjunto de tarefas que vão desde a recolha de dados, passando pela sua organização e extracção de conhecimento [Turban et al., 2001]. Outros autores definem SAD como sistemas informáticos interactivos, com as características genéricas como sejam: grau de incerteza; complexidade (do problema a resolver); existência de múltiplos objectivos e, diferentes perspectivas de resolução [Santos, 2001]. Numa perspectiva tecnológica, existem referências a SAD como sistemas de informação com capacidade de modelagem científica, dotados de ferramentas para manipulação e de análise de dados, configurados para responder a processos de tomada de decisão sobre problemas complexos ou mal estruturados [Bonczek et al., 1980]. Os objectivos gerais consistem em melhorar a eficácia das decisões e a eficiência do processo de tomada de decisão, quer a nível de planeamento, como ao nível da gestão de topo num processo 21 Capítulo 2 Business Intelligence e Database Marketing conhecido por “desenho adaptativo”, em que os elementos chave são: o sistema, o utilizador e a organização (o gestor – utilizador- recorre ao SAD para poder dar continuidade à actividade da organização) [Keen, 1987]. Resumidamente é possível definir os SAD como sistemas de suporte à actividade dos gestores das organizações, onde a sua capacidade decisória é fundamentada na utilização das tecnologias de informação - as quais sistematizam a recolha de dados, sua análise e extracção de conhecimento, traduzido em linguagem interpretável para o utilizador. A constatação demonstrada nas relações existentes entre actividade dos gestores, tecnologias de informação e tomada de decisão permite neste trabalho indicar a utilização de BI como suporte ao desenvolvimento de SAD. Conforme já exposto anteriormente, o desenvolvimento de um processo de BI faz sentido se este decorrer num contexto organizativo; noutra vertente, os SAD apenas funcionam eficazmente se em seu suporte existir um sistema tecnológico capaz de receber como input as questões dos gestores e dar como output, resultados sob a forma de regras ou classificações (Figura 5). BUSINESS INTELLIGENCE Descoberta Conhecimento Base Dados Recolha Dados Declaração De Necessidade Dados Internos Análise Dados Dados Externos Pré Processamento Problema do Negócio Definição Actividades Valor de negócio datawarehouse Modelação Organização Análise estrutura Avaliação Tomada Decisão Figura 5 - Business Intelligence em Sistemas de Apoio à Decisão (adaptado de [Haley, 1998]). 22 Capítulo 2 Business Intelligence e Database Marketing Uma vez declarada a necessidade de fundamentar e suportar uma decisão a tomar pelos gestores da organização, as etapas de desenvolvimento um SAD com recurso a BI são as seguintes [Haley, 1998]: Definição do problema do negócio: Determinada empresa necessita de resolver um problema ou tomar uma decisão com elevado grau de risco (ex. remodelação de um produto). Os responsáveis que detêm o poder de decisão dentro da empresa deverão reunir-se e debater o tema intensivamente para definir de forma objectiva e não intuitiva quais as informações que se pretendem retirarem da base de dados para possibilitar a sua leitura e análise; Definição de actividades: A especificação das actividades, como sejam, a locação de recursos ou a disponibilização de dados, depende da estratégia adoptada, a qual neste trabalho se é orientada para a utilização de BD; Business Intelligence: Traduz a necessidade de manipular e interpretar grandes volumes de dados capazes de fornecer soluções múltiplas para cenários diversos. Neste domínio o BI incorpora todas as actividades que vão desde a recolha e angariação de dados até à sua utilização em acções de DCBD; Tomada de Decisão: A assunção do processo de recolha, análise e processamento da informação disponível, traduz-se na tomada de decisão por parte do gestor, segundo os resultados obtidos no final das actividades de BI; Valor de Negócio: A contabilização dos resultados obtidos face aos esperados ou a avaliação do impacto das soluções adoptadas. Esta avaliação servirá de matéria prima para uma análise contínua em termos de BI. Trata-se de um processo que se deseja vicioso, sempre que um problema ou oportunidade surja, dado permitir às organizações criar um historial de informações, conhecimento e experiência que se poderá transformar em vantagens competitivas. 23 Capítulo 2 Business Intelligence e Database Marketing A integração das actividades de BI em sistemas de apoio à decisão dependem sempre da Fórmulação inicial que derivam quer do problema de negócio quer da definição de actividades propostas, tornando o resultado das actividades BI directamente dependentes destes requisitos 2.2 Da tabase Marketing O elevado grau tecnológico ao dispor das organizações, promoveu o aparecimento de enormes bases de Dados (BD) com grandes quantidades de dados, transaccionais ou meramente descritivos de clientes ou fornecedores. Muitas das organizações perceberam a pertinência dos dados muito para além do mero suporte a sistemas contabilísticos ou financeiros, compreenderam que o conhecimento presente nas suas bases dados é a chave para o suporte à tomada de decisão, em particular no âmbito de marketing [Welge et al., 2001]. O foco nas BD organizacionais passou da simples angariação dos dados, para a sua utilização e rentabilização, através de processos baseados nas tecnologias de bases dados, como é o caso do Database Marketing (DBM) A adopção de projectos de DBM tem apresentado uma crescente adesão por parte das empresas, na medida em que necessitam de conhecer melhor os seus clientes (cada vez mais voláteis e exigentes), para assim se diferenciarem dos seus concorrentes (crescentemente competitivos), bem como adoptar uma atitude pró-activa e posição mais competitiva no mercado, oferecendo produtos e serviços aos clientes, que necessitam e desejam. 24 Capítulo 2 Business Intelligence e Database Marketing 2.2.1 Definição de Database Marketing Na revisão de literatura efectuada verificam-se diferentes contribuições de diferentes autores. Cada autor aborda o DBM numa perspectiva diferente, pelo que é possível também estabelecer um carácter evolutivo na definição do conceito, que coincide com a evolução cronológica das mesmas. Alguns sugerem que é o estabelecimento de uma BD de clientes e prospects12 que permite às organizações enviar mensagens diferenciadas para cada um dos indivíduos registados baseadas nas suas características e preferências e acompanhar a actividade de cada um deles durante a sua relação com a organização [Wolf et al., 1999]. Por outro lado, existem outros que consideram DBM como um modo de utilizar as informações sobre os consumidores, com a finalidade de aumentar a eficiência das actividades de marketing, através do isolamento de grupos de consumidores (segmentação), a análise dos seus perfis [Cooke, 1994] e [Roberts, 1997]. O DBM consiste também no armazenamento utilização do conhecimento sobre clientes para o benefício deles e lucro da organização [Berson et al. 2001], [Schoenbachler, 1997], pois viabiliza o desenvolvendo técnicas de marketing que permitem prolongar a relação o cliente e estimular as vendas [Jutkins, 1994]. A orientação do processo voltado para o cliente, baseado nas BD, é utilizado correntemente para interligar e orientar os esforços de marketing, assim como para construir uma base completa de informações, de modo a orientar futuros projectos [Jackson, 1997]. A estratégia de utilizar as tecnologias de informação com vista à manutenção de informação detalhada dos consumidores, permite aos marketers diferenciar e desenvolver de acções de marketing directo personalizadas [Drozdenko et al., 2002], [Wiersema et al., 1993]. Como resultado da prática de DBM é possível o planeamento da comunicação com todos os clientes, durante um período de tempo 12 Prospect – Individuo não-consumidor de um determinado produto ou serviço que tem potencial de vir tornar-se num consumidor, se devidamente motivado. Indivíduos consumidores de produtos concorrentes idênticos aos da empresa [Kotler, 2002] 25 Capítulo 2 Business Intelligence e Database Marketing suficiente para promoção da repetição da compra de determinados produtos e serviços [Roberts, 1997]. As informações relativas à actividade dos clientes (quer transaccionais, quer descritivas) recolhidas durante a relação cliente – organização são analisadas com técnicas de DBM e o conjunto resulta em informações sobre os clientes [Berson et al. 2001], [Drozdenko et al., 2002]. Em comum, todas as definições apresentadas acima dão ênfase ao facto de o DBM referir as tecnologias de BD para suporte às actividades de marketing através da procura de informações existentes nos dados. Em síntese, é possível afirmar então que o DBM consiste num conjunto de processos que se baseiam num sistema que engloba BD (clientes e prospects) e recursos tecnológicos para análise e exploração desses dados – DCBD -, permitindo conhecer e prever o comportamentos dos clientes. 2.2.2 Estrutura do Database Marketing O DBM assume-se como um processo de natureza analítica e operativa (Figura 6) [Siqueira et al., 2002]. A componente operativa caracteriza-se pelo seu carácter pragmático, considerando como actividades todas aquelas que traduzem o resultado final do processo. A componente analítica caracteriza-se pela sua função de análise consistindo em acções com vista à preparação de todas as componentes susceptíveis de estudo (e.g., dados de clientes, mercados), de modo a viabilizar a análise das características dos consumidores (e.g., comportamentos e condutas), permitindo planificar e executar as actividades ao nível operacional. A organização das actividades de carácter operacional e analítico, ao longo de todo o processo de DBM, obriga à sua implementação em programas distintos, contudo, com interfaces nítidas, objectivos especiais e actividades (e.g., de marketing directo) adequadas – programas de fidelização e recuperação [Arndt, 2001]. Por exemplo, os clientes com uma elevada probabilidade de deixarem de o ser, podem ser detectados no 26 Capítulo 2 Business Intelligence e Database Marketing programa de fidelização, se existir uma BD sobre outros que já abandonaram a organização. Em ambas as vertentes, o objectivo do DBM consiste em fornecer toda a informação necessária para criar um canal de diálogo cruzado, feito à medida de cada cliente e baseado nas suas reacções actuais. DBM Analítico Operacional Figura 6- Constituição do DBM [adaptado de [Siqueira et al., 2002]). 2.2.2.1 Componente Operativa do DBM A natureza operativa do DBM coincide com os objectivos traçados pela estratégia de marketing no qual se insere o seu desenvolvimento Entre os objectivos da componente operativa do DBM é possível distinguir os relacionados com programas singulares (objectivos de marketing) e os que implicam a sobreposição de objectivos (objectivos de negócio) [Fayerman, 2002]: Objectivos de Negócio: O alinhamento da estratégia da organização reflecte-se nas suas actividades e na sua actuação no mercado onde se insere. Os projectos desenvolvidos no âmbito do marketing, onde normalmente se inserem os projectos de DBM, orientam-se por objectivos de negócio que podem ser [Wright, 1998]: - Aumentar as vendas; - Optimizar recursos; - Performance da organização; 27 Capítulo 2 Business Intelligence e Database Marketing Objectivos de marketing: Em qualquer organização o departamento de marketing procura constantemente meios de aumentar o seu conhecimento acerca dos consumidores de um modo individual, com o objectivo de formar novos segmentos estratégicos, de clientes. Esta segmentação, utilizada geralmente para fins de marketing, permitirá não só o desenvolvimento de novas promoções ou campanhas direccionadas como também actualizar a informação disponível para os serviços de apoio a clientes. O DBM na sua componente operativa permite o suporte a actividades de marketing tais como: - Marketing Directo; - Segmentação de mercados; - Classificação de clientes; - Estabelecimento de relacionamento com o consumidor Os objectivos de negócio definem o alinhamento dos objectivos de marketing, sendo estes muitas vezes vistos como um meio para a seguir para alcance dos outros. 2.2.2.2 Componente Analítica do DBM A natureza analítica engloba todo os requisitos de carácter mais técnico que vão desde a acções com vista à recolha integração de dados num repositório central até à sua utilização em diferentes técnicas de análise e exploração. O fluxo de informação proveniente da componente operativa é considerado também ao nível analítico, dado possibilitar a consolidação da informação sobre, e.g., o padrão de comportamento do consumidor que se pretende determinar. 28 Capítulo 2 Business Intelligence e Database Marketing O objectivo da componente analítica é desenvolver uma visão estruturada do consumidor, em função do objectivo traçado. A falha desta componente compromete definitivamente todo o processo de DBM [Fayerman, 2002]. de DBM em função dos processos analíticos Estruturalmente a componente analítica do DBM processa-se a três níveis [Drozdenko et al., 2002]: i) Recolha, preparação e uniformização dos dados Os dados podem ser de naturezas distintas (e.g., dados de marketing ou contabilisticos), fornecidos por sistemas próprios ou externos, ou mesmo serem recolhidos em suportes variados (e.g., digitais ou papel) . Uma vez na posse dos dados é necessário proceder-se à sua preparação e uniformização, aplicando técnicas uniformização dos registos (e.g., aplicação de regras de codificação) ou a limpeza de registos duplicados (o mesmo registo pode estar em locais diversos) ou ainda a validação de domínios dos atributos (e.g. o atributo sexo apenas com 2 valores possíveis). ii) Aplicação de técnicas de previsão ou segmentação As BD permitem aos profissionais de marketing uma utilização directa no planeamento e no suporte das campanhas, sendo a sua utilização enquadrada com os objectivos a atingir. No planeamento das campanhas importa definir com a maior precisão possível as taxas de retorno, recorrendo para isso as técnicas de regressão linear simples ou múltipla. Quando, noutras situações, o objectivo é suportar as acções de marketing a desenvolver, recorre-se a técnicas de segmentação das BD como sejam análise univariada dos dados, análise RFM; análise CHAID ou, análise factorial (clustering). encontram-se expostas em seguida. 29 Estas técnicas Capítulo 2 Business Intelligence e Database Marketing Regressão linear Simples: a análise de regressão é usada para prever o valor da variável dependente ou explicada (Y), tendo em conta o valor de uma ou várias variáveis independentes ou explicativas (X), a partir de exemplos. Funcionalmente, caracteriza-se pela atribuição de um peso relativo a cada variável (e.g., valor numérico), permitindo valorizar cada registo, em função do seu conteúdo e relativizá-lo face aos outros, através dos coeficientes de regressão α e β. Perante n casos com sob a forma de (x1, y1), (x2, y2)…(xn, yn) onde xi Є X e yi Є Y a equação da regressão linear pode ser expressa sob a forma: Y= α + β. X (Fórmula 1) Regressão linear Múltipla : No modelo de regressão simples o comportamento de uma única variável independente é usado para explicar o comportamento da variável dependente, revelando-se insuficiente para os casos onde a variável dependente é influenciada por várias variáveis independentes. Como exemplo, as vendas de um determinado produto dependem não só da quantidade de pontos de venda, como também do preço, ou do nº de vendedores. Quando se passa de um modelo com várias variáveis explicativas para um modelo estatístico linear, obtém-se o modelo de regressão múltipla, onde o objectivo consiste em calcular o valor esperado da variável independente condicionado no valor das variáveis explicativas. Admitindo a existência k variáveis explicativas, o modelo de regressão da múltipla na população será: Yi= α + β1x1i + β2x2i +…+ βkxki + εi (Fórmula 2) onde o índice i diz respeito à observação i. A interpretação dos parâmetros α, β1, β2,…, e βk é semelhante à dos parâmetros no modelo de regressão linear simples, ou seja, são os coeficientes de regressão. O parâmetro α indica-nos o valor esperado da variável explicada quando as variáveis explicativas são todas iguais a zero (x1 = 0, x2 = 0, …, xk = 0). O εi representa os erros da regressão para cada um dos n casos considerados. 30 Capítulo 2 Business Intelligence e Database Marketing Análise RFM: Esta análise utiliza um algoritmo de análise baseado no comportamento do consumidor, descrito pelos parâmetros: o aspecto Recente de encomendas/compras; a Frequência de encomendas/compras e o valor Monetário dos seus gastos. A segmentação RFM pode ser desenvolvida por dois métodos [Hughes, 1995] Hard coding: consiste na criação de um sistema de pontuação para cada registo individual. A pontuação obtida é baseada no valor RFM atribuído em cada registo (consumidor). Os registos com maior pontuação, corresponderão aqueles consumidores mais desejados, e pelo contrário, os menos pontuados, correspondem aos consumidores menos activos. Sort five: Consiste na partição da BD, em cinco partes iguais por cada um dos valores RFM, da compra mais antiga para a compra mais recente; do frequência mais baixa para o valor de frequência mais elevado e do menor valor de consumo para o maior valor. Os consumidores com maior nível de frequência, valor de consumo mais elevado e compra mais recente, serão os mais desejados os consumidores opostos serão os menos desejados. Análise CHAID: A análise CHAID (abreviatura de Chi-square Automatic Interaction Detector) serve fundamentalmente para testar se as segmentações operadas são estatisticamente significantes, e.g., se estes segmentos maximizam a separação dos consumidores em função do seu potencial. O resultado final de uma análise chi-quadrado consiste basicamente num gráfico radar (“aranha”) ou num diagrama em árvore. Análise Factorial e Clustering: A análise factorial, como técnica estatística que permite isolar e medir o significado de factores individuais em situações complexas, e a análise de clusters que pesquisa a existência de grupos naturais de indivíduos ou de variáveis, são modelos de natureza exploratória, sendo por isso comum o uso de ambas as técnicas em simultâneo. 31 Capítulo 2 Business Intelligence e Database Marketing A análise factorial caracteriza-se como um procedimento que analisa um grande número de variáveis ou objectos e verifica se existem factores comuns (em menor número) que justifiquem as suas inter-relações. A análise por clusters consiste num conjunto de metodologias cujo objectivo é a classificação automática de exemplos num determinado número de grupos, recorrendo a medidas de associação de modo a que os casos de um grupo sejam similares e os restantes, não pertencentes a esse grupo, sejam diferentes. A aplicação da análise de clusters não pressupõe qualquer característica da estrutura do agrupamento; apenas se baseia em medidas de semelhança ou de distância entre objectos e na escolha de critérios de agregação, os quais podem ser: o critério do vizinho mais próximo (single linkage), o critério do vizinho mais afastado (complete linkage), o critério da média dos grupos (average linkage), o critério do centróide e o critério de Ward (comparação entre a soma dos quadrados dos desvios das observações em relação à média dos grupos). iii) Avaliação dos resultados obtidos: Os modelos de marketing num contexto de DBM são avaliados com base em métodos já definidos como sejam, modelos de análise do Ciclo de Vida do Cliente (CVC), execução de gráficos de resposta, determinação de ganhos e ainda estatísticas de contagem de clientes chave ou de vitalidade de clientes. Na Tabela 1 apresentam-se algumas aplicações de DBM em função da sua capacidade analítica, sendo possível constatar cinco de aplicação tradicional dos resultados de DBM em Marketing: Mapas resumo de dados; previsão de resultados; gestão de acções de marketing directo; suporte à decisão e segmentação de clientes. Para cada um dos resultados que se desejam, existem um conjunto de técnicas analíticas que permitem a sua concretização. 32 Capítulo 2 Business Intelligence e Database Marketing Tabela 1- Resultados de actividades de DBM em Marketing Actividades analíticas de DBM Agregação de dados, derivação de informação e interrogação às fontes de dados Processamento em tempo real Criação de modelos de resposta Identificação de situações de cross-sell e up-sell Avaliação de consumidores Técnicas de visualização de dados Análise de dependências para utilizadores Validação de resultados Análise de respostas a contactos Balanceamento entre restrições e frequência de contactos com os consumidores Criação, teste e gestão de estratégias de interacção Teste e segmentação, por custos, de modelos de resposta dos consumidores Segmentação dos dados por características dos consumidores com sejam e.g., o sexo ou idade Optimização das ofertas Aplicações em Marketing Acesso e manipulação dos dados em diferentes fontes – mapas resumo dos dados Previsão de resultados Análise e avaliação ad-hoc da informação Suporte à decisão em Marketing Gestão de acções marketing directo Segmentação de Clientes Optimização das acções de marketing A análise da Tabela 1 evidencia uma constatação comum entre as actividades analíticas de DBM e as aplicações que estas possuem em Marketing: as actividades de DBM em marketing derivam de um conjunto de hipóteses Fórmuladas à partida pelo analista, sendo todo o trabalho de exploração e análise de dados realizado de acordo com resultados que se pensam obter logo à priori. Este facto, como já foi referido e tal como se poderá verificar mais adiante, torna-se limitador das possibilidades de utilização das BD em marketing. 2.2.3 Catalisadores e Obstáculos do Database Marketing Em situações de dificuldades económicas, são frequentes os cortes nos investimentos realizados em marketing, pelo que a eficácia das suas acções de marketing desenvolvidas estão sempre sob pressão. Por outro lado, a necessidade do aumento da referida eficácia funciona como alavanca para o recurso ao desenvolvimento de acções de DBM, permitindo às empresas conhecer melhor os seus clientes e oferecer-lhes numa base 33 Capítulo 2 Business Intelligence e Database Marketing individual cada produto/serviço adaptado às suas exigências, preferências e necessidades [Gonçalves et al., 2002]. Os factores que contribuem para a adopção de processos de DBM organizam-se em quatro factores [Fletcher et al.,1996]: as alterações no papel do marketing directo, a mudança nos custos estruturais, a evolução da tecnologia e as variações das condições económicas. No que respeita à mudança do papel do marketing directo, este apresenta quatro factores que demonstram essa mudança: a iniciativa de uma relação de marketing para garantir vantagens competitivas [Drozdenko et al., 2002]; o declínio efectivo dos media tradicionais; o congestionamento dos canais de vendas; e a necessidade de se contabilizarem as acções de marketing; Relativo à alteração dos custos estruturais nas actividades de marketing surgem pelo declínio dos custos em processamento electrónico e ao aumento dos custos de marketing tradicional, como seja a evolução dos custos de produção de material de comunicação publicitária; A evolução da tecnologia potenciou o registo em BD, de toda a informação relativa à relação com o cliente, permitindo acesso a informações importantes para a compreensão do comportamento dos consumidores [Piatetsky-Shapiro et al., 2000]; Quanto às mudanças nas condições económicas, esta reflectem-se na fragmentação do consumidor e dos mercados de negócio, à redução do tempo de lazer das pessoas, ao crescimento da informação disponível na sociedade, e à redução do ciclo de vida do produto. Este cenário introduz alterações profundas nas variáveis de marketing e para tratamento das quais é necessário recorrer com maior frequência às tecnologias de informação; 34 Capítulo 2 Business Intelligence e Database Marketing Numa outra vertente, os obstáculos ao desenvolvimento do DBM, estes classificam-se em quatro classes [Fletcher et al.,1996]: pela sua origem; carácter técnico; âmbito de marketing e estratégia. A origem dos obstáculos pode ser de natureza interna ou externa. Os obstáculos internos relacionam-se com a cultura interna das organizações e os recursos existentes, que impedem a implementação do DBM. Relativamente à cultura interna das organizações, os factores que limitam a realização de DBM são: a falta de realização de objectivos e desconhecimento dos benefícios [Fletcher et al.,1996]; a falta de cooperação e compromisso entre departamentos da mesma empresa [Hughes, 1995]; [Haynes et al. 1992]; a estrutura organizacional e a resistência à mudança [Glazer et al. 1994]; Quanto aos recursos, destacam-se os financeiros, insuficientes para investimentos em novas tecnologias [Fletcher et al.,1996]; Quanto aos obstáculos externos apresentam como principais factores a constituição de BD (recolha de dados e privacidade do consumidor [Evfimievski et al., 2003]) e as relações com fornecedores. A constituição de BD é um aspecto muito importante em DBM, de modo que as dificuldades em as constituir afectam significativamente o seu desenvolvimento. As empresas que pretendam vantagens competitivas do DBM precisam de assegurar que têm dados concretos acerca dos consumidores. No que respeita à privacidade do consumidor, face à ameaça da utilização indevida dos dados, tornou a actividade da recolha de dados mais difícil, verificando-se uma crescente solicitação de indivíduos para a remoção dos seus dados das BD [Bloom et al. 2004], [Drozdenko et al., 2002]. As relações com os fornecedores influenciam na adopção de DBM na perspectiva em que muitos dos requisitos tecnológicos são adquiridos em regime de outsourcing, gerando uma necessidade de uma abertura ou cedência dos dados da organização para o exterior [Fletcher et al.,1996], o que muitas administrações, frequentemente, não admite; 35 Capítulo 2 Business Intelligence e Database Marketing Já os obstáculos técnicos reflectem o desconhecimento, predominante em muitas organizações, das potencialidades das tecnologias de informação ao serviço das BD. Este desconhecimento revela a falta de compreensão crítica de como as BD devem ser desenhadas, mantidas e aplicadas para ajudar e construir , como e.g., as relações com os consumidores [DeTienne et al. 1996]; Os obstáculos no âmbito do marketing revelam-se nas barreiras organizacionais e manifestam-se frequentemente na incapacidade para desenhar e implementar os programas de DBM, uma vez que estes não fazem dos planos de marketing mais tradicionais [Stone et al. 2004]; A falta de visão das organizações em optar por manter registado nas suas BD toda a actividade relacional com o seu meio envolvente (e.g., clientes, fornecedores, concorrentes) geram os denominados obstáculos de natureza estratégica [Roberts, 1997]. Este desconhecimento para lidar com grandes volumes de dados, tem como consequência frequente, a redução da utilização das BD para um nível meramente operacional [Fletcher et al.,1996], [Haynes et al. 1992] e [Cooke, 1994]. 2.3 Business Intelligence versus Database Marketing Assumindo o BI como um processo que funciona sobre uma arquitectura de sistemas integrados, consistindo na recolha e análise de informação do meio envolvente (com recurso às tecnologias de informação), contribuindo para o apoio à tomada de decisões (suportadas por actividades de, e.g., Descoberta de Conhecimento em Bases de Dados DCBD), possibilitando, em última análise, que a organização se torne mais competitiva. Sustentanto o facto do DBM referir as tecnologias de BD para suporte às actividades de marketing através da procura de informações existentes nos dados, define-se DBM como um conjunto de processos que se baseiam num sistema que engloba BD (clientes e 36 Capítulo 2 Business Intelligence e Database Marketing prospects) e recursos tecnológicos para análise e exploração desses dados – DCBD -, permitindo conhecer e prever o comportamentos dos clientes. É possível posicionar o DBM como uma actividade de BI, uma vez que desenvolve todas actividades dos sub-sistemas de BI mas orientado para actividades especificas de marketing. Ilustrando descritivamente o BI instanciado num processo de DBM: os marketers após o desenvolvimento de um projecto de DBM terão como resultado toda a informação de que necessitam em tempo real (sistema DW relativo aos mercados, aos concorrentes, aos consumidores ou aos produtos), de modo a poderem analisar (extracção de conhecimento sobre BD), partilhar com outros utilizadores e tomar as decisões necessárias sobre as actividades de marketing a desenvolver. 37 Capítulo 2 Business Intelligence e Database Marketing 38 Capítulo 3 Descoberta de Conhecimento em Bases de Dados Capítulo 3 3 Descoberta de Conhecimento em Bases de Dados São apresentados os objectivos, conceitos, tipos de abordagem, áreas relacionadas, metodologias e especificações, para a Descoberta de Conhecimento em Bases de Dados, com particular ênfase naquelas que foram usadas para a aquisição de conhecimento na aplicação prática da metodologia DM4DBM. 3.1 Introdução O avanço das Tecnologias de Informação (TI) bem como a sua penetração nas organizações, proporcionou o armazenamento e acesso a grandes volumes de dados, criando uma excelente oportunidade para a obtenção de conhecimento. Contudo, a transformação dos dados em conhecimento útil é um passo moroso e difícil. As primeiras abordagens na aplicação de técnicas para a extracção de conhecimento em Bases de Dados (BD) enfrentaram bastantes dificuldades devidas, principalmente, ao facto de os algoritmos existentes terem sido desenhados para aplicações de laboratório, onde, em geral, a qualidade dos dados era garantida e a quantidade de dados bastante reduzida. Tornaram ainda evidente a necessidade de se seguir uma abordagem sistemática e fortemente centrada no processo de preparação dos dados, que permitisse aumentar a confiança no resultado final. Essa abordagem sistemática, integrando fases de 39 Capítulo 3 Descoberta de Conhecimento em Bases de Dados pré-processamento dos dados e pós-processamento dos resultados, foi denominada Knowledge Discovery in Databases (KDD), termo que é traduzido para Descoberta de Conhecimento de Bases de Dados (DCBD). A DCBD consiste numa série bem definida de passos que vão desde a preparação dos dados até à extracção de padrões sobre esses dados e à avaliação dos mesmos. A DCBD vai buscar conhecimento a outras áreas, como a Estatística, as BD, a Inteligência Artificial, a Visualização de Dados e o Reconhecimento de Padrões. As técnicas desenvolvidas nestas áreas de estudo são utilizadas em DCBD com o objectivo de extrair conhecimento das BD. 3.2 Hierarquia do Co nhecimento em Bases Da do s Partindo da premissa que existe mais informação numa BD do que a perceptível numa análise simples, é possível enunciar quatro tipos de conhecimento, que correspondem igualmente ao nível da sua profundidade relativa nas BD. Conhecimento tácito: representa a informação que pode facilmente ser retirada das BD, com recurso a processos de interrogação em BD simples (Strutured Query Language - SQL) ou cálculos estatísticos básicos; Conhecimento multi-dimensional: Consiste na informação que pode ser analisada por recurso a ferramentas de processamento analítico online (On-Line Analitical Process - OLAP). Traduz-se em representações de dados adequados à obtenção expedita de perspectivas multidimensionais, com vista ao apoio na tomada de decisão e estratégia das organizações. Estas ferramentas são meramente descritivas não permitindo a procura de soluções óptimas; Conhecimento escondido: Corresponde ao conhecimento facilmente determinado, por recurso a técnicas de reconhecimento de padrões ou algoritmos de aprendizagem automática simbólica (machine learning). Estes algoritmos de reconhecimento de 40 Capítulo 3 Descoberta de Conhecimento em Bases de Dados padrões permitem encontrar regularidades na BD em muito menos tempo do que o necessário recorrendo a outros processos mais tradicionais, e.g., SQL; Conhecimento profundo: Esta classificação está associada àquele tipo de conhecimento existente nas BD e que apenas é localizado através de pistas que indicam ao analista onde ou sob que forma, possivelmente se pode obter. Um exemplo deste tipo de informação é a informação encriptada – na qual é praticamente impossível decifrar a mensagem a menos que se conheça a chave. 3.3 Princípios da Descoberta de Conhecimento em Ba se Dados Descobrir conhecimento significa extrair, de grandes volumes de dados, informações relevantes e até então desconhecidas, que se revelam úteis e válidas para processos de tomada de decisão. Recorrendo à definição elaborada por Usama Fayyad, DCBD pode ser definida como “um processo interactivo não trivial de identificar novos padrões nos dados que sejam válidos, potencialmente úteis e interpretáveis” [Fayyad et al. 1996]: O termo processo não trivial encontra-se associado à execução de diversos passos interactivos (requer a intervenção do analista em cada uma das fases do processo) e iteractivos (em cada fase do processo existe sempre a possibilidade de retrocesso para fases anteriores); Os dados representam um conjunto de factos F, casos de uma BD, na qual subconjuntos do mesmo são responsáveis pela caracterização de diversos padrões. Um padrão pode ser caracterizado por modelos, relações ou estruturas existentes nos dados, que se revelam perceptíveis após o processamento. Um padrão é uma 41 Capítulo 3 Descoberta de Conhecimento em Bases de Dados expressão E numa linguagem L que descreve um sub-conjunto de factos FE do conjunto F. Por exemplo em relação aos dados sobre empréstimos bancários, o padrão E1=“Se Salário<T Então a pessoa faltou ao pagamento” poderia ser um padrão para uma escolha apropriada de T; Os padrões encontrados devem manter-se válidos quando aplicados sobre novos dados, com algum grau de confiança (C) ou probabilidade. O grau de confiança associado a um padrão E pode ser definido como a função C(E,F) que pode ser lógica ou real; A novidade (N) dos padrões (pelo menos para o sistema em estudo) é definida sempre que o conhecimento obtido ainda não foi detectado por nenhuma outra abordagem, podendo ser representado como função N(E,F); A utilidade dos padrões representa o seu grau de utilização (U), isto é, até que ponto o padrão contribui para os objectivos inerentes ao processo, como por exemplo o esperado aumento de lucro de um banco por aplicação da regra de decisão E1. A utilidade pode ser definida pela função U(E,F); Um dos objectivos da DCBC é gerar padrões que sejam compreendidos pelos humanos na perspectiva de contribuir para uma melhor compreensão dos dados. Assume-se que o grau de interpretação (S) de um padrão é definido pela função S(E,F). O conhecimento descoberto pode também ser quantificado, seja i=I(E,F,C,N,U,S) o grau de interesse (I) num dado padrão E, diz-se que o padrão E é conhecimento se para um valor dado i, I(E,F,C,N,U,S)>i. Pese embora as funções de avaliação apresentadas, a validade do processo de DCBD depende directamente da acção do analista, dado o facto de não existir ainda nenhuma 42 Capítulo 3 Descoberta de Conhecimento em Bases de Dados solução tecnológica capaz determinar autonomamente se os padrões encontrados são de facto novos ou válidos. Interpretação Data Mining Conhecimento Transformação Padrões Pré-Processamento Dados Tratados Selecção Dados Dados PréProcessados Dados a Analisar Figura 7 - Fases do processo de DCBD (adaptado de [Fayyad et al., 1996]). A Figura 7 expõe uma representação do processo de DCBD a partir do momento em que os objectivos estão definidos. O processo normalmente não é linear, e envolve uma forte interacção com o utilizador e várias iterações entre as suas fases constituintes (e.g., ao analisar os padrões obtidos, o analista pode concluir de que não são válidos e fazer com que o processo volte à fase de pré-processamento). Essas iterações estão representadas, na figura, pelas setas a tracejado e podem inclusivamente fazer o processo voltar à fase de especificação dos objectivos. O tempo gasto num processo de DCBD não é distribuído equitativamente entre as várias fases, conforme se pode ilustrar com a Figura 8. Ao contrário do que seria de esperar, a fase onde é despendido menos tempo é normalmente a fase de DM, a qual, é contudo uma fase que exige um bom conhecimento dos algoritmos disponíveis. Este conhecimento é determinante para a afinação dos algoritmos, ajustando os parâmetros destes com vista ao sucesso do processo de extracção de padrões [Gago, 2001]. 43 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 60 50 Esforço (%) 40 30 20 10 0 Definição dos Objectivos Pré-Processamento Data Mining Pós-Processamento Fase do processo de DCBD Figura 8 - Percentagem de tempo despendido em cada fase do processo de DCBD (adaptado de [Cabena et al., 1998]). A DCBD fornece métodos e ferramentas que permitem descobrir o conhecimento contido em grandes BD. Um exemplo típico da utilização da DCBD encontra-se nas acções de envio de correio publicitário [Adriaans et al., 1996]. O problema pode, genericamente, ser descrito do seguinte modo: uma empresa pretende desenvolver uma acção de marketing directo procedendo ao envio de correio publicitário para casa de cada um dos seus clientes, mas devido ao custo unitário, deseja realizar o contacto apenas com aqueles indivíduos mais receptivos, maximizando a taxa de respondentes (relação entre cartas enviadas e respostas obtidas). Partindo então das BD onde se encontram registados os comportamentos em campanhas publicitárias realizadas no passado, é possível através desses elaborar um modelo descritivo dos indivíduos com maior propensão para reagir positivamente; i.é., recorrendo à indução de regras, será possível extrair das BD regras que indiquem as características dos indivíduos que responderam à publicidade remetida no passado e com as mesmas seleccionar indivíduos com características semelhantes (supostamente mais susceptíveis de responder positivamente a novas campanhas) [Gago, 2001]. Na Figura 9 encontra-se uma representação gráfica que relaciona o número de mailings enviados e o número de 44 Capítulo 3 Descoberta de Conhecimento em Bases de Dados respostas obtidas (com e sem DCBD). Normalmente a percentagem de respostas a campanhas deste género é extremamente baixa, rondando 1%. São citados casos na literatura em que pelo recurso à DCBD, foi possível obter mais de 2% de respostas. Para mais facilmente se compreender o impacto dos ganhos obtidos com estes métodos, considere-se o cenário de existir um orçamento global de 6.000€ para a remessa de correio publicitário, pelo que com o custo de cerca de 0.15€ por carta enviada, seria possível contactar aproximadamente 40.000 indivíduos. Seguindo o exemplo bibliográfico referido, não existindo recurso a métodos de DCBD será previsível que se obtenham cerca de 400 respostas, pelo contrário, no caso de serem utilizados métodos de DCBD para seleccionar quem vai receber a publicidade, será provável que as mesmas 40.000 cartas dêem origem a cerca de 900 respostas (Figura 9). Número de respostas Com DCBD Sem DCBD 1000 800 600 400 200 0 20000 40000 60000 80000 100000 Número de mailings enviados Figura 9 - Relação entre o número de mailings e o número de respostas (adaptado de [Adriaans et al., 1996]). 45 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 3.4 Fases do Processo de DCBD Conforme já ilustrado na Figura 7 as fase do processo de DCBD incluem: Exploração e Selecção de dados; Pré – Processamento Transformação dos dados; Data Mining; Interpretação dos resultados alcançados. 3.4.1 Exploração e Selecção de dados A fase de selecção compreende duas componentes: estudo e compreensão do domínio da aplicação, e selecção dos dados a analisar. No estudo e compreensão do domínio, pretende-se enquadrar o trabalho a desenvolver com a área de negócio da organização, através da aquisição de conceitos fundamentais e da definição clara dos objectivos para o projecto. O conhecimento do domínio é determinante em qualquer processo de DCBD servindo como elemento condutor, podendo o conhecimento existente ser complementado com o conhecimento obtido no processo de descoberta [Quintela, 2005]. Por este facto, torna-se necessária a presença, na equipa de desenvolvimento do processo de DCBD, de especialistas na área de aplicação. Estas equipas são por norma multi-disciplinares, integrando especialistas, e.g., da área de negócio, técnicos de BD ou especialistas em técnicas de DM. 46 Capítulo 3 Descoberta de Conhecimento em Bases de Dados Antes de se proceder à selecção dos dados é necessário explorá-los e interpretá-los. A exploração e interpretação visa o conhecimento dos dados disponíveis para a realização do processo de DCBD. O acesso aos registos das tabelas não garante que os dados sejam acessíveis sem que se compreenda o contexto das tabelas e o significado de cada atributo, advindo daí a necessidade compreensão quer das estruturas (e.g., significado da designação atribuída a tabelas e atributos) quer dos conteúdos (e.g., significado dos valores de cada atributo). A origem dos dados pode ser interna (e.g., sistemas da empresa ou de outra da mesma organização) ou externa (e.g., BD alugadas a empresas especializadas), podendo a fonte ser documental (e.g., formulários, fichas de cliente) ou digital (e.g., sistemas informáticos de vendas). Após uma compreensão dos dados, será então possível proceder à selecção dos que irão a ser utilizados no processo de DCBD, tendo em vista a limitação do espaço de pesquisa, direccionando o foco para subconjuntos de variáveis ou de dados. A selecção de dados incorpora ainda a função de filtragem de dados duplicados (normalmente ocorrem sempre que existem diversas fontes de dados envolvidas), e.g., um indivíduo cujo registo se encontra duplicado porque havia participado em duas ou mais campanhas de marketing distintas ou porque o seu contacto proveio de BD distintas (Tabela 2). Tabela 2- Exemplificação de codificações distintas para o mesmo registo [Pinto et al., 2005]. ID 001127 ... 584012 ... 221762 Nome João Apelido Martins Ruas João Martins Ruas João Martins Ruas Contacto 917766116 ... 917766116 ... 917766116 47 Data Nascimento 17-05-1970 17-05-1970 17-05-1970 Sexo M ... M ... M N filhos 1 1 1 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 3.4.2 Pré-Processamento Como acontece na maioria dos processos informáticos (e não só), o resultado final é bastante dependente do que é fornecido à entrada. A conhecida regra GIGO (Garbage In, Garbage Out) [Feelders, 2002] aplica-se em pleno ao processo de DCBD. O sucesso deste depende directamente da qualidade dos dados sobre os quais de desenrola. Os dados, tal como a sua qualidade, são conceitos multidimensionais [Klein, 1999], [Juran et al., 1999], [Laudon, 1986]. Uma das perspectivas mais interessante acerca da qualidade dos dados adoptada pela literatura evidencia o carácter de utilização dos dados “data that is fit for use” [Strong et al., 1997], [Brown, 2002], [DDUS, 2003], [Wang et al., 1996], ou por outras palavras, “a elevada qualidade dos dados depende da sua utilização operacional, suporte a acções de tomada de decisão ou de planeamento, para as quais foram pensados. Os dados estão preparados para serem utilizados se estiverem livres de defeitos e possuírem as características desejadas” [Tayi, 1998]. A qualidade dos dados no âmbito do processo de DCBD é determinante, havendo autores que defendem apenas ser possível prosseguir com o processo de DCBD se existirem dados limpos de erros e prontos a serem usados [Shepard, 1998], [Drozdenko et al., 2002], isto é por demais evidente na fase de modelação, devendo por isso estar disponíveis numa forma que permita que sobre eles sejam aplicados algoritmos de DM [Fayyad et al., 2002]. Esta fase deve ser repetida várias vezes, até que se possa assegurar a qualidade e utilidade dos resultados obtidos [Pinto et al., 2004]. O pré-processamento dos dados é considerada por muitos autores como fase a crucial para o sucesso do processo de DCBD, tal como as estatísticas frequentemente a indicam como a fase mais demorada, chegando a consumir cerca de 80% do tempo total [Fayyad et al., 1996], [Cabena et al., 1998] e inclui como actividades [Pinto et al., 2004]: Tratamento de valores omissos; Avaliação de excepções (outliers); Derivação de novos 48 Capítulo 3 Descoberta de Conhecimento em Bases de Dados atributos; Dispersão de valores; Identificação de atributos duplicados e redundantes; Integridade da informação do registo; Identificação de ruído ou poluição dos dados; Discretização de atributos qualitativos em quantitativos; Identificação de inconsistências; Normalização dos dados; Identificação de valores atribuídos por definição (defaults) e Transposição de tabelas. Estas actividades são descritas são de seguida descritas em pormenor. 3.4.2.1 Tratamento de valores omissos A existência de valores em branco (Tabela 3) num determinado atributo suscita o tratamento desse atributo, através de técnicas diversas, com origens na estatística e matemática, e.g., métodos Bayesianos [Gelman et al., 1995], métodos de imputação, [Schafer, 1997], [Little, 1992]. Tabela 3- Exemplo de tabela de frequências para o valor de um atributo [Quintela, 2005]. Valor Em branco Não Responde/Resposta inválida Não Sim Total Frequência 1952 492 2052 4464 8960 Percentagem 21,8% 5,5% 22,9% 49,8% 100% A eliminação de registos com valores omissos é uma das soluções indicadas por um dos métodos de imputação [Rubin, 1996], contudo, esta atitude pode introduzir na BD alterações significativas relativamente ao universo em estudo e conduzir a amostras muito pequenas [Pinto et al., 2004]. Na bibliografia encontramos outros métodos de imputação mais refinados: Substituição pelo valor mais comum do atributo13; 13 Moda – Corresponde ao valor que ocorre com maior frequência no conjunto de valores que um atributo possui: ou seja, é o valor mais comum. A moda pode não existir, e caso exista pode não ser única [Reis, 1998] . 49 Capítulo 3 Descoberta de Conhecimento em Bases de Dados Substituição pelo seu valor médio14 ou mediana15; Substituição por um valor resultante da aplicação do método do vizinho mais próximo. A determinação da técnica a adoptar depende do volume de registos com valores omissos e a sua representatividade em termos da BD geral. Uma adopção incorrecta de técnicas para tratamento de valores omissos pode introduzir inconsistências na BD e afectar o desempenho dos algoritmos durante a fase de aprendizagem [Quintela, 2005]. As razões mais frequentes para a existência de valores omissos nos dados resultam normalmente de factores processuais ou quando se tratam de dados recolhidos a partir de questionários, os problemas podem também advir de recusa de resposta , e/ou opções de resposta inadequadas [Pinto et al., 2004]. 3.4.2.2 Avaliação de excepções (outliers) Verificam-se com alguma frequência nas BD valores anormais para alguns atributos, violando os domínios (conjunto de valores aceites para esse atributo). O tratamento de excepções resolve-se por recurso a um tratamento manual ou por recurso a valores estatísticos (aplicação de métodos Bayesianos ou métodos de imputação, apresentados na alínea anterior). A avaliação de excepções permite um conhecimento genérico sobre os dados, com o qual se desprezam eventos particulares (e.g., registo de casos pontuais fora do comum) não afectando outras análises que estejam a ser realizadas. Como exemplo geral, considere-se quando num determinado dia uma empresa vende a um cliente, em particular uma grande quantidade de produto. Deste facto apenas se pode concluir que 14 Média – È o valor típico ou representativo de um conjunto de dados. Como os valores representativos têm tendência a estar no centro do conjunto de dados, as médias são muitas vezes denominadas medidas de tendência central [Reis, 1998] 15 Mediana - A mediana de um conjunto de números ordenados relativamente à sua grandeza é o valor central (no caso de o número de observações ser ímpar) ou a média aritmética dos dois valores centrais (quando o número de observações é par) [Reis , 1998]. 50 Capítulo 3 Descoberta de Conhecimento em Bases de Dados esse cliente, em particular, procurava uma grande quantidade desse produto, naquele exacto momento não indicando, provavelmente, nenhuma tendência de mercado. Esta informação, em particular, não possui um carácter relevante para que no futuro a empresa lucre mais, ou altere o seu processo de comercialização dado não ser viável a extracção de conhecimento a partir de eventos isolados. 3.4.2.3 Derivação de novos atributos A qualidade dos resultados obtidos na extracção de informação em BD depende directamente dos atributos sobre os quais são aplicados [Baranauskas et al., 2003]. Os resultados podem ser imprecisos ou excessivamente complexos, caso não sejam devidamente avaliados e preparados para serem usados. A derivação de atributos consiste num processo de composição de atributos primitivos16, cujo resultado se traduz em novos atributos, possivelmente relevantes para a descrição de um conceito ou objecto. A combinação pode ser resultado de cálculos aplicados sobre os atributos, e.g., o atributo data de nascimento permite uma informação potencialmente mais relevante se derivar um novo atributo, a idade [Santos et al., 2005]). 3.4.2.4 Dispersão de valores A dispersão de valores em atributos acontece: (i) porque a natureza assim o determina e.g., peso, idade, altura; ou, (ii) embora seja um atributo cujo domínio esteja sujeito a uma regra de classes, verifica-se uma dispersão de classes indesejada, e.g., nº filhos, nº de carros. Muitas destas situações geram uma tendência na amostra e dificultam o trabalho de alguns algoritmos de aprendizagem automática. Para resolução desta situação, as metodologias recomendadas são: Redução do número de classes através de agrupamento [Quintela, 2005]; 16 Entende-se por atributos primitivos, os atributos pertencentes ao conjunto de dados inicial. 51 Capítulo 3 Descoberta de Conhecimento em Bases de Dados Categorização dos valores [Pinto et al., 2004]; Criação de um novo atributo resultado da aplicação de funções logaritmo a atributos numéricos [Quintela, 2005]; Os classificadores gerados a partir de um conjunto de dados com uma desproporção evidente de classes, apresentam um pior desempenho na classificação da classe minoritária em comparação com os classificadores gerados a partir do mesmo conjunto de dados, mas com uma proporção mais equilibrada de classes [Weiss et al., 2001]. Como justificação, encontram-se duas razões [Quintela, 2005]: a primeira deriva do facto das regras geradas para a classe minoritária serem baseadas em menos exemplos e consequentemente mais sobreajustadas – o classificador tenderá a aprender limites mais rígidos do conceito. Este comportamento está relacionado com um problema já bem referenciado na área da aprendizagem: small-disjuncts. A segunda razão, tem a ver com o facto de dadas as características do domínio existirem mais exemplos de teste da classe minoritária. A classe mais frequentemente prevista será a maioritária, existindo uma maior probabilidade de classificar incorrectamente exemplos da classe minoritária. Para tornar a distribuição de classes mais equilibrada, existem dois métodos básicos: under-sampling - cria uma amostra mais pequena do conjunto de exemplos da classe maioritária; over-sampling - consiste em gerar casos a partir dos casos iniciais do conjunto, de forma a aumentar o número de casos da(s) classe(s) minoritária(s). Estes dois métodos têm associadas desvantagens, como o desprezar de dados potencialmente úteis no primeiro caso, ou o aumento do tamanho do conjunto de treino e portanto o tempo de computação, proporcionando um maior sobre-ajustamento aos dados no segundo. Este balanceamento acontece apenas no conjunto de treino, devendo ser respeitada a distribuição original no conjunto de teste. 52 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 3.4.2.5 Integridade da informação do registo Analisar a integridade dos dados consiste na verificação da coerência da informação ao longo dos registos e envolve, com alguma frequência, uma análise subjectiva de alguns atributos, tornando esta actividade como uma das mais morosas de todo o préprocessamento. Como exemplo considere-se que quando no atributo nome aparece Joaquim, no atributo sexo, deverá constar, em condições normais, masculino [Pinto et al., 2004]. Um caso especial de verificação dos dados consiste na identificação de casos extremos, os quais não são mais do que combinações de valores raros, mas válidos, que se verificam em simultâneo e estão dentro dos valores dos domínios para um grupo de atributos. 3.4.2.6 Identificação de atributos duplicados e redundantes A redundância ocorre com armazenamento em diversos atributos de informação idêntica, e.g., codificação diferente para conteúdos iguais em tabelas diferentes (Tabela 4). Tabela 4- Codificação distinta para o mesmo atributo [Pinto et al., 2005]. ID Nome DataNasc Cod CliNom DN Num Descrição Data A informação torna-se ainda redundante quando o conteúdo de alguns atributos é explicado pela combinação de outros, e.g., havendo os atributos preço unitário e quantidade comprada, o conteúdo do atributo total de compra poderá ser redundante uma vez que se consegue obter pela conjugação dos dois anteriores. 53 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 3.4.2.7 Identificação de inconsistências As inconsistências podem ocorrer quando dados diferentes são representados sob a mesma codificação ou quando o mesmo para o mesmo dado existem codificações distintas, e.g., o atributo nome_empresa, destinado a receber nome de empresas pode assumir os valores UM, Uminho ou Universidade do Minho, sendo que todos estes representam uma mesma instituição. 3.4.2.8 Identificação de ruído ou poluição dos dados Entende-se aqui como ruído ou poluição dos dados a presença de dados distorcidos, os quais não representam valores verdadeiros. Existem diversas fontes de ruído ou poluição dos dados, uma delas consiste na introdução de valores estranhos (fora do conjunto de valores esperados) em atributos, por vezes com a expectativa de forçar o registo de informação para além do seu contexto, e.g., verifica-se para o atributo sexo o registo dos valores normais m e f mas também o valor e (supostamente descrevendo que se trata de uma empresa) [Pinto et al., 2004]. Outra fonte de ruído ou poluição dos dados advém da resistência humana em introduzir os dados correctamente, seja deixando os campos em branco, incompletos ou simplesmente com valores incorrectos, e.g., o preenchimento de questionários [Pinto et al., 2004]. 3.4.2.9 Identificação de valores atribuídos por definição (defaults) A maioria dos sistemas gestores de BD permitem a especificação de valores prédefinidos para alguns atributos. Estes valores poderão, mais tarde, vir a gerar padrões significativos e como tal originarem alguns enviesamentos na interpretação dos dados, caso o analista não se encontre informado da sua existência. Os valores pré-definidos normalmente representam falta de informação em vez de informação relevante, e.g., no 54 Capítulo 3 Descoberta de Conhecimento em Bases de Dados preenchimento de questionários quando o inquirido não responde, coloca-se normalmente não respondeu, contudo este valor é facilmente confundido com o valor não sabe. A utilização dos valores pré-definidos pode ser comprometedora na análise de dados em particular quando o resultado final da análise pretende ser a previsão. 3.4.3 Transformação dos dados A transformação dos dados consiste no tratamento dos dados com vista à aplicação dos algoritmos de DM, colmatando assim eventuais limitações que estes possuam. As transformações mais comuns são apresentados de seguida. 3.4.3.1 Normalização dos Dados Este procedimento, à semelhança de outros referidos, consiste em realizar uma transformação nos dados de modo a acelerar ou melhorar o processo de aprendizagem dos algoritmos e visa colmatar um aspecto importante nos dados como é a sua escala de valores, e.g., no tratamento de dois atributos altura e distância, o razão entre eles será diferente consoante a escala de medida utilizada em cada um deles. Numa outra perspectiva, os atributos ao estarem em escalas ou domínios diferentes provocam problemas nos métodos de aprendizagem, pois podem eventualmente dar demasiada importância a um atributo com um domínio mais alargado, e.g., no caso do atributo a1 ∈ ¸ {0…10} e o atributo a2 ∈ {2100…4010},, o algoritmo de aprendizagem utilizado pode atribuir uma importância inadequada ao atributo a2 em consequência deste apresentar um domínio alargado de valores. O escalonamento depende do tipo de dados [Quintela, 2005]: 55 Capítulo 3 Descoberta de Conhecimento em Bases de Dados Entradas - o escalonamento das variáveis de entrada tem efeitos diversos conforme os algoritmos de aprendizagem considerados, de um modo particular, os algoritmos de gradiente descendente (e.g., Back-Propagation), são bastante sensíveis ao escalonamento. Saídas – sempre que se usa mais do que uma saída e se a função de erro é sensível à escala, como acontece no caso da aprendizagem do gradiente descendente, então a diferença de escalas entre as saídas pode afectar a forma como, por exemplo, uma rede neuronal aprende. No caso de uma saída possuir valores entre 0 e 1, enquanto outra tem valores entre 0 e 1000000, o algoritmo irá despender a maior parte do esforço de aprendizagem na segunda saída. Assim, as saídas com a mesma importância devem ser transformadas para a mesma escala de valores. 3.4.3.2 Discretização de atributos quantitativos em qualitativos Alguns algoritmos possuem como limitação o facto de apenas trabalharem com dados do tipo qualitativo, implicando que na presença de dados do tipo quantitativo seja necessário proceder a transformação dos valores. A transformação de dados realiza-se pela aplicação de correspondências entre grupos de valores quantitativos a valores qualitativos, e.g., ao atributo rendimento per capita, seria possível atribuir classe social para valores como sejam, para intervalos até 1000€, classe baixa; entre 1000€ e 2500€, classe média; mais de 2500€, classe alta. 3.4.3.3 Discretização de atributos qualitativos em quantitativos Ao contrário do caso anterior, existem algoritmos que apenas aceitam valores quantitativos na entrada, forçando a transformação dos valores qualitativos iniciais em valores aceitáveis. A transformação desses valores ocorre através do estabelecimento de correspondências entre os dois tipos de valores, e.g., para o atributo prioridade, cujos 56 Capítulo 3 Descoberta de Conhecimento em Bases de Dados valores sejam grande, média e baixa poder-se-ia fazer corresponder, respectivamente os valores 1,2 e 3. 3.4.3.4 Transposição de tabelas A utilização dos dados pelos algoritmos durante a fase de modelação, ocorre normalmente sobre uma tabela só. Este facto implica a importação dos dados de várias tabelas para uma única, forçando que todos estejam ao mesmo nível, na mesma tabela e que cada registo possua todos os dados relativos ao objecto em estudo. O recurso à transposição acontece sempre que seja necessário relacionar o conteúdo de um atributo numa tabela com registos de outra, e.g., quando se pretende associar num só registo a todas as promoções em que um cliente participou, passa-se de uma situação de 3 tabelas (Figura 10) para uma só tabela (Figura 11): T_ Cliente ID Nome T_ Participação Código Cliente Cod Promoção T_ Promoções Identificação Nome Promoção 100 101 102 100 100 100 101 101 102 P1 P2 P3 João Maria Rui P1 P2 P3 P2 P3 P2 Natal Ano Novo Dia Namorados Figura 10– Representação das tabelas inicias. Tabela Cliente/Participação em promoções ID Cliente Nome ID_Prom1 ID_Prom2 … ID_Prom3 100 João Sim Sim … Sim 101 Maria Não Sim Sim 102 Rui Não Sim Não Figura 11 – Representação da tabela final após transposição. 57 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 3.4.4 Data Mining Data Mining (DM) é o processo de exploração e análise de grandes quantidades de dados por forma a descobrir padrões e regras que possam ser importantes para a resolução de determinado problema [Linoff et al., 2000]. O DM é visto por alguns autores como o núcleo do processo de DCBD, sendo a fase deste que tem recebido mais atenção por parte dos investigadores. A escolha das abordagens a aplicar sobre os dados depende directamente dos objectivos de marketing, definidos inicialmente e deverá começar pela expressão das tarefas de alto nível [Shepard, 1998] [Drozdenko et al., 2002]. Normalmente o DM distingue-se das outras técnicas de análise de dados na forma como explora as relações entre os dados. Enquanto que nas diversas ferramentas de análise disponíveis o utilizador constrói hipóteses sobre relações específicas e então corrobora-as ou refuta-as através das saídas da ferramenta utilizada. O processo de DM é responsável pela geração de hipóteses, o que potencia maior rapidez, aperfeiçoamento, autonomia e fiabilidade aos resultados. Observe-se entretanto, que todo este processo sugere uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e termina num ponto relativamente concentrado, mas bastante importante – o conhecimento. Este é um dos conceitos importantes na DCBD: encontrar padrões requer que os dados em bruto sejam sistematicamente "simplificados" de modo a desvalorizar aquilo que é específico e privilegiar aquilo que é genérico. Numa perspectiva orientada para os processos, as actividades do DM podem-se agrupar em três classes [Ramachandran, 2001]: 58 Capítulo 3 Descoberta de Conhecimento em Bases de Dados Descoberta de padrões – processo de procura de padrões escondidos na BD sem ideias ou hipóteses pré-concebidas acerca daquilo que os padrões poderão ser, ou seja, os algoritmos tem a iniciativa de realizar a pesquisa sem qualquer orientação especifica do utilizador, e.g., tendências e variações ou associações ou afinidades entre elementos; Modelação predictiva – esta classe de actividades aplica na prática o resultado da descoberta de padrões e consiste na sua utilização para previsão do futuro. A modelação preditiva permite ao utilizador submeter registos com valores desconhecidos em alguns dos seus atributos ao sistema, e este baseando-se unicamente nos padrões entretanto descobertos irá prever os valores então desconhecidos para esses campos, e.g., previsão de resultados; Análise exploratória – Trata-se do processo de aplicar os padrões entretanto extraídos com o objectivo de detectar dados anómalos ou pelo menos pouco habituais. Para a descoberta de elementos pouco habituais, primeiro define-se o padrão normal e então, com uma determinada margem de desvio, detectam-se os elementos que se afastam desse padrão. Por contraste com as actividades de descoberta de padrões que ajudam a determinar “conhecimento normal”, a análise exploratória procura elementos pouco habituais e casos específicos dentro da BD, e.g., detecção de desvios. A investigação desenvolvida no âmbito do DM viabilizou quer o surgimento de metodologias de implementação, quer o surgimento de algoritmos de aprendizagem que se distinguem na forma como traduzem a informação descoberta e no processo como é realizada essa descoberta, havendo alguns mais adequados a determinados tipos de problemas e de dados. Como uma etapa do processo de DCBD, o DM é sustentado por três pilares fundamentais, dos quais depende o sucesso do projecto [Linoff et al., 2000] : dados; modelos e técnicas; e modelação. 59 Capítulo 3 Descoberta de Conhecimento em Bases de Dados 3.5 Metodologias de Da ta Mining Actualmente encontram-se disseminadas e bem definidas duas metodologias para o desenvolvimento do DM: metodologia CRISP-DM (CRoss-Industry Standard Process for Data Mining) e a metodologia SEMMA (Sample, Explore, Modify Model, Assessment). Estas metodologias foram desenvolvidas em ambientes diferentes, a primeira por um consórcio composto por organizações de diferentes sectores de actividade (e.g., indústria, serviços, fornecedores de tecnologia), e a segunda por uma organização fornecedora de soluções de suporte à decisão e BI. 3.5.1 CRISP-DM A metodologia CRISP-DM foi concebida em finais de 1996 e o seu desenvolvimento foi motivado pelo interesse crescente e generalizado, por um lado pelo mercado de DM, e por outro, pelo consenso de que a industria necessitava de um processo padronizado [Wirth 2000]. Os fundamentos desta metodologia para além dos princípios académicos e teóricos baseiam-se na prática, na experiência daqueles que desenvolvem de facto, projectos de DM. O conhecimento prático foi assim incorporado de forma a dar resposta aos requisitos dos utilizadores, não se centrando unicamente na tecnologia, mas antes na resolução de problemas do negócio [Han et al., 2001]. A metodologia CRISP-DM é descrita em termos de um processo hierárquico, com um ciclo de vida que se desenvolve em seis fases: Estudo do Negócio; Estudo dos dados; Preparação dos dados; Modelação; Implementação; Avaliação. 60 Capítulo 3 Descoberta de Conhecimento em Bases de Dados As fases não têm uma sequência fixa, dependendo do resultado e do desempenho das outras fases ou das tarefas particulares de determinada fase [Chapman et al., 2000]. A Figura 12 apresenta o ciclo de vida da metodologia CRISP-DM, em que as setas indicam a sequência, ligações e interligação entre as fases. Figura 12 – Metodologia CRISP-DM (adaptado de [Chapman et al., 2000]). A caracterização mais completa das etapas da metodologia CRISP-DM, é apresentada no anexo A. 3.5.2 SEMMA A metodologia SEMMA foi proposta pelo Instituto SAS17, que se dedica ao desenvolvimento de soluções para estatística, análise de dados, BI, DM e SAD [SAS, 2005]. Esta metodologia surge como resposta à necessidade de definição, padronização e de integração dos processos de DM nos ciclos de produção, para que a solução seja aceite mais facilmente no ambiente do negócio [Groth, 2000]. Mais do que uma metodologia de DM, é considerada como um auxiliar para conduzir um projecto em todas as suas etapas, desde a especificação do problema do negócio até à sua implementação. 17 SAS – SAS Institute Inc. http://www.sas.com 61 Capítulo 3 Descoberta de Conhecimento em Bases de Dados O DM é definido pelo Instituto SAS como o “processo de extrair informação valiosa e relações complexas de um grande volume de dados” e foi neste sentido, que dividiram o processo de DM em 5 etapas (Figura 13) – dando origem ao acrónimo SEMMA [SAS, 2005][Groth, 2000]: Figura 13 – Metodologia SEMMA (adaptado de [SAS, 2005]). Numa forma resumida é possível apresentar esta metodologia como um processo com 5 fases, que se inicia com uma amostra (Sample) representativa dos dados à qual se aplicam técnicas estatísticas de exploração e de visualização dos dados (Explore). Posteriormente são seleccionadas e transformadas as variáveis (Modify) consideradas mais significativas (as variáveis que sobressaíram na fase anterior), as que são mais relevantes em termos de projecto, e sobre as quais se constroem os modelo (Model) (aplicam-se algoritmos no sentido de alcançar os objectivos) e por fim se avalia o modelo (Assess). Cada uma das etapas é distinta e corresponde a um ciclo, e as suas tarefas internas podem ser executadas repetidamente sempre que necessário, i.e, pode-se actualizar e ajustar quando surgir nova informação. A caracterização mais completa das etapas da metodologia SEMMA, é apresentada no anexo B. 62 Capitulo 4 Problemas e Abordagens em Data Mining Capitulo 4 São apresentados os principais problemas e abordagens utilizados no processo de Data Mining, evidenciando as propriedades associadas, com particular ênfase naqueles que foram usados na aquisição de conhecimento no âmbito do caso de experimentação de Database Marketing. 4 Problemas e Abordagens em Data Mining 4.1 Introdução Recorrendo à sistematização é possível indicar (Figura 14) os tipos de problemas (objectivos) mais frequentes num contexto de Descoberta de Conhecimento em Bases Dados (DCBD), bem como as abordagens (algoritmos) mais adequadas. Figura 14 – Matriz para Classificação (adaptado de [Rodrigues, 2000]). 63 Capitulo 4 Problemas e Abordagens em Data Mining 4.2 Tipos de Objectivos em Data Mining Existem vários objectivos de Data Mining (DM), apresentados na Figura 14, os quais normalmente se enquadram nas categorias de Previsão e Descrição. 4.2.1 Previsão A Previsão envolve o uso de algumas variáveis ou campos numa Base de Dados (BD) no sentido de prever valores desconhecidos ou valores para outras variáveis de interesse. O objectivo principal do DM predictivo consiste em automatizar o processo de tomada de decisão, criando um modelo capaz de prever ou estimar um valor. Normalmente, os resultados do modelo são utilizados directamente nos dados, tornando a acuidade do modelo como a medida desempenho mais importante para a sua avaliação, tanto nos de classificação como nos casos de regressão: 4.2.1.1 Classificação Trata-se do tipo de problema mais frequente em DM [Drozdenko, 2002] e consiste basicamente na análise das características de um objecto e através de um classificador18, associar a essas características classes predeterminadas. A classificação pressupõe a existência de um número de categorias definido à priori pelo analista, pelo que o objectivo do processo é a aprendizagem de uma função que faça o mapeamento de um elemento dos dados numa ou várias classes. 18 Um Classificador classifica um conjunto de dados num número de possíveis categorias, definidas à priori pelo analista. 64 Capitulo 4 Problemas e Abordagens em Data Mining O processo de classificação é supervisionado, o que significa ser necessária quer a especificação de características com os respectivos valores (número ou classificação correspondente) para cada categoria, quer proporcionar ao sistema um conjunto de dados preparado – estes dados devem pertencer a diferentes categorias – permitindo assim ao sistema aprender, generalizar e classificar novos padrões. A classificação pode ser binária ou múltipla [Rodrigues, 2000]: Binária: Consiste na partição de um conjunto de dados em duas categorias que reflictam a presença ou ausência de uma característica particular. A classificação binária possui uma aplicação muito útil para problemas onde se procuram agrupar dados por observação de registos anteriores, e.g., realização mailings selectivos para respostas do género sim/não sobre um determinado produto; Múltipla: A classificação múltipla consiste em identificar a classe de um determinado estudo pela partição do conjunto de dados em n categorias, como exemplo geral, diagnóstico médico, classes de clientes Uma vez treinado, o classificador cria, com base nos dados apresentados, uma estrutura própria ou regras que permitem vir a generalizar para os novos casos. 4.2.1.2 Regressão A regressão, frequentemente referida como previsão, consiste em prever valores futuros ou desconhecidos de uma variável dependente, a partir de exemplos. Funcionalmente, caracteriza-se pela atribuição de um peso relativo a cada variável (e.g., valor numérico), permitindo valorizar cada registo, em função do seu conteúdo e relativizá-lo face aos outros. 65 Capitulo 4 Problemas e Abordagens em Data Mining 4.2.2 Descrição O objectivo primário do DM descritivo consiste em aumentar o conhecimento e a compreensão sobre os dados, focando a procura de padrões descritivos reconhecidos ou interpretáveis pelos humanos. Os resultados obtidos nem sempre se traduzem em acções com aplicação directa. As novas perspectivas e os conhecimentos adquiridos sobre os dados durante a construção do modelo, são o aspecto mais importante do processo, podendo mesmo ocorrer que os resultados obtidos pelos modelos nunca venham a ser utilizados. Os problemas mais comuns definidos como descrição são (Figura 14): Segmentação; Associação ou Análise de Dependências; Sumariação; Visualização. 4.2.2.1 Segmentação A segmentação consiste na identificação de um conjunto finito de categorias ou clusters usados para descrição dos dados de acordo com uma métrica, segundo a qual se procura maximizar as semelhanças e minimizar as diferenças entre si. A aprendizagem neste modelo é do tipo não supervisionado, ao que corresponde na prática, a inexistência de qual a informação inicial no sistema, assume-se que este aprende por si mesmo. Nesta técnica, a pesquisa é realizada sobre os dados tendo em conta todas as características de cada dado. 66 Capitulo 4 Problemas e Abordagens em Data Mining Ao contrário do que acontece na classificação, não existe um conjunto predefinido de categorias. Estas são descobertas em função da análise dos dados e da sua natureza. Esta técnica permite o agrupamento de dados em diferentes categorias. Uma vez realizada esta operação, obtém-se um agrupamento de dados sobre os quais se poderão realizar estudos mediante o recurso a técnicas estatísticas, a árvores de decisão ou a redes neuronais. 4.2.2.2 Associação ou análise de dependências Esta técnica permite ao analista definir um modelo que descreva possíveis dependências significativas entre variáveis, através da identificação de grupos de dados fortemente correlacionados. As associações detectam-se quando se verificam várias ocorrências num único evento, podendo surgir a nível estrutural (i.é., o modelo é representado de uma forma gráfica e com variáveis localmente dependentes em relação a outras) ou quantitativo (i.é., o modelo especifica o peso das dependências segundo uma escala numérica). 4.2.2.3 Sumariação O objectivo da sumariação consiste em determinar uma descrição compacta para um subconjunto de dados, através da aplicação de métodos próprios. Os métodos de sumariação mais sofisticados derivam de regras de resumo e descobertas de relações funcionais entre variáveis (e.g., relação entre o sexo e a preferência de cor). As técnicas de sumariação são sempre aplicadas à análise exploratória de dados e à geração automática de relatórios. 4.2.2.4 Visualização A visualização possibilita a representação gráfica dos resultados (finais ou intermédios) de DM recorrendo a formas visuais facilmente perceptíveis. O objectivo da visualização consiste em descrever as informações complexas através de diagramas, permitindo uma 67 Capitulo 4 Problemas e Abordagens em Data Mining melhor representação de padrões e tendências. Quanto melhor for a descrição de um conjunto de dados, maior é a possibilidade de o entender e de compreender o domínio em que está inserido. 4.3 Métodos de Abordagem em Data Mining São agora referidos os principais métodos de abordagem em DM. Entende-se como método de abordagem, os modelos e técnicas, provenientes de diferentes áreas científicas, empregues no processo de Descoberta de Conhecimento. Um modelo é definido como uma função (mapa) que atribui a cada exemplo possível, no domínio definido pelos atributos de entrada, um valor contido no domínio do atributo de saída, contendo cada modelo um conjunto de parâmetros que têm de ser ajustados (ou estimados) a partir de um conjunto de dados, através de um algoritmo, na fase de aprendizagem. Após a aprendizagem, é possível extrapolar novas saídas, alimentando o modelo com novas entradas (utilização de um modelo) [Cortez, 2004]. Como técnica compreende-se o conjunto de processos baseados em conhecimentos científicos, de cálculo ou experimentação, utilizados para a obtenção de um resultado [Quintela, 2005]. Na construção de um modelo definem-se as principais características do sistema, que devem representar o mais fielmente possível a realidade, recolhem-se os dados necessários para a construção do modelo e para a consequente validação, sendo necessária uma divisão do conjunto de dados em dois subconjuntos, um para geração do modelo, chamado o conjunto de treino, e outro para validação do modelo, chamado o conjunto de teste. Regra geral, o maior número de exemplos da amostra é colocado no conjunto de treino, em proporções variáveis dependente de vários factores (e.g., natureza do problema, número de casos da amostra, técnica a utilizar). Aos dados são aplicados algoritmos para a identificação de padrões e relacionamentos. 68 Capitulo 4 Problemas e Abordagens em Data Mining Saliente-se o facto de não existir um modelo universal de DM capaz de resolver todos os problemas [Harrison, 1998]. A escolha de um determinado algoritmo é uma tarefa que compete ao analista e, de certa forma, é uma arte [Fayyad et al., 1996], uma vez que existem diferentes modelos para as mesmas tarefas de DM com vantagens e desvantagens intrínsecas. A Tabela 5 esquematiza algumas das técnica de DM disponíveis para cada tipo de problema que foram empregues neste trabalho. Tabela 5- Algumas das Técnicas disponíveis para cada tipo de problema em DM. Classificação Segmentação Visualização Sumariação Associação Previsão Árvores de Decisão ; ; ; ; ; Regras de Associação ; ; Redes Neuronais ; ; ; ; ; ; RNA Kohonen (SOM) ; ; 4.3.1 Regras de Associação – Indução de regras As regras de associação derivam de um tipo de análise que procura extrair informação de padrões que se repetem ou de coincidências dentro da BD. O exemplo clássico deste tipo de análise é a determinação de padrões de consumo em supermercados. As regras de associação são obtidas através de uma matriz de inter-relação, onde é calculada a probabilidade de acontecimento de cada evento conjunto. O domínio de maior aplicação das regras de associação é nos processos de análise exploratória de dados, onde se procuram relações interessantes que possam existir no conjunto de dados. As regras identificadas como úteis poderão então ser utilizadas na previsão (e.g., a previsão de padrões de consumo e incorporação nas estratégias de marketing). No entanto, o facto de se detectarem eventos que ocorrem simultaneamente, não significa necessariamente que essa relação seja válida ou possa ser generalizada. 69 Capitulo 4 Problemas e Abordagens em Data Mining Como exemplo de técnica para indução de regras é de referir, o algoritmo Generalized Rule Induction (GRI) [Smyth et al., 1992] que gera regras para sumariar padrões encontrados nos dados, usando uma medida quantitativa para avaliar o interesse das regras obtidas. Esta métrica, sendo quantitativa, disponibiliza um método para a ordenação de regras e permite ao sistema a confinação do espaço de procura para regras úteis (através dos próprios limites criados pela sua aplicação). Permite ainda identificar, o melhor, ou o conjunto de regras mais interessante para descrever a BD. Sucintamente, denomine-se a medida quantitativa por J, que maximiza a simplicidade/adequação da utilização de carácter teórico no cálculo de uma entropia cruzada. Uma regra no contexto GRI toma a forma de: Se Y=y então X=x, com a probabilidadde de p Onde o X e o Y são dois atributos e x e y são valores desses atributos. O consequente (correspondente ao “então” da regra) é constrangido para a forma de uma expressão de atribuição de um valor único enquanto que o antecedente (correspondente à parte “se” da regra) poderá ser a conjunção de tais expressões, como por exemplo: se Y=y e Z=z então X=x , com a probabilidade de p. A complexidade da regra é definida pelo número de conjuntos que surgem como antecedentes da regra. A geração de regras pelo método GRI percorre os seguintes passos: Orientado aos atributos de saída Yi (i є N) processando individualmente cada um dos atributos. O GRI deriva todas as regras possíveis para cada atributo em análise antes de passar ao próximo. O GRI realiza uma primeira pesquisa em profundidade para gerar o primeiro conjunto de regras; Orientado aos valores de saída: para cada atributo de saída, o algoritmo selecciona cada valor de saída, yk (k є N) possível. Tal como anteriormente, todos os atributos 70 Capitulo 4 Problemas e Abordagens em Data Mining de saída são processados de modo a que todas as regras que prevejam o atributo em análise sejam geradas antes de passar para o próximo atributo; Para cada valor de saída é seleccionado um atributo de entrada Xm (k є N); Para cada atributo de entrada o algoritmo selecciona cada condição possível, xq (q є N). As condições dependem do tipo de dados do atributo de entrada: - Para atributos simbólicos, cada valor desse atributo representa uma condição possível; - Para atributos discretos, o conjunto de valores que assume é ordenado e cada um deles testado individualmente, como sendo um potencial valor de referência (critério). Para cada critério de divisão é determinado o valor estatístico J19, e o critério que obter um valor de J mais alto é definido como o factor divisor para a regra. Ocorrem então duas possibilidades: maior que o critério de referência ou, menor ou igual que o critério. Sempre que a regra Xm=xq => Yi = yk ocorre é calculado o valor estatístico Js (valor J mais elevado); Se o valor de Jz obtido é superior ao valor Jw (z,w є N, e z≠w) de qualquer outra regra na tabela em análise que tenha sido criada para prever a mesma saída (Yi=yk), ou se o número de regras na tabela é menor que o número máximo de regras na tabela e os mínimos para os critérios de suporte e confiança foram atingidos, a regra correspondente é então introduzida na tabela (substituindo o valor o J mais baixo 19 ⎛ p( x | y ) (1 − p ( x | y )) ⎞ ⎟ , onde J ( x | y ) = p ( y )⎜⎜ p ( x | y ) log + (1 − p ( x | y )) log p( x) (1 − p ( x)) ⎟⎠ ⎝ p(y) corresponde à probabilidade dos antecedentes da regra se verificarem num exemplo a partir do conjunto de dados; p(x) corresponde à probabilidade dos consequentes da regra ocorrerem num exemplo a partir do conjunto de dados; p(x | y) corresponde à probabilidade condicionada de ocorrer o consequente da regra condicionado pelo antecedente 71 Capitulo 4 Problemas e Abordagens em Data Mining caso necessário) e recalculam-se os Js20(especialização da regra). Caso contrário prossegue-se a análise para o próximo atributo de entrada; Caso ocorra J>Js a regra é especializada, tal como referido mais abaixo; Repetir até que todos os valores possíveis para cada um dos atributos de entrada, e os valores possíveis para cada um atributos de saída tenham sido considerados. Uma vez determinada uma regra e inserida na tabela, é necessário avaliar se existe algum beneficio em especializar a regra ou adicionar mais condições aos antecedentes da mesma. O limite superior para a quantidade de informação que poderá vir a ser ganha pela especialização da regra, calculada como Js Caso o limite superior seja maior do que a menor medida J para as regras na tabela que prevêem o mesmo resultado, poderá existir algum beneficio na especialização da mesma, pelo que se irão adicionar algumas condições. Caso contrário, se o limite superior é menor que o menor dos J, significa não existir ganho de informação na especialização da regra e como tal o algoritmo deverá prosseguir para a próxima regra. A regra é especializada por via da adição de condições aos antecedentes, da mesma maneira que foram usadas na criação original das regras. Os atributos de entrada que já haviam sido avaliados como antecedentes para o valor se saída em análise não são considerados como condições para potenciar a especialização. Cada regra especializada é avaliada através do seu valor J face aos outros valores de outras regras na tabela com o mesmo valor de saída e caso o seu valor seja superior ao menor J dessas regras, a regra especializada substitui então a regra cujo J seja o mínimo da tabela. 20 Js = max[ p ( y ) p ( x | y ) log( 1 1 ); p ( y )(1 − p ( x | y )) log( )] p( x) 1 − p( x) 72 Capitulo 4 Problemas e Abordagens em Data Mining Sempre que uma regra especializada é adicionada à tabela, é de novo avaliado se são necessárias outras especializações e, caso tal se verifique, todo o processo é reiniciado até que uma das seguintes condições se verifique: Não existir qualquer benefício na especialização de regras determinado pelo cálculo da medida J; Não existem mais atributos de entrada disponíveis para ser usados em regras de especialização; O número de condições antecedentes na regra corrente é igual ao número máximo de antecedentes definidos para o modelo. Cada regra presente no conjunto final de regras tem associado um número de instâncias, de suporte e de confiança, baseados no número de registos para os quais os antecedentes e a regra por completo se verificam por completo. As instâncias correspondem ao número de registos para os quais os antecedentes são verdadeiros; O suporte (S) é calculado como as instancias dividido pelo número total de registos, ou S= Na N (Fórmula 3) onde Na é o número total de registos onde os antecedentes ocorrem (instancias) e N é o número total de registos do conjunto de treino; A confiança ( C ) é calculada pelo quociente entre o número de registos para os quais a regra inteira ocorre (Nr) e o número de instancias (Na) , ou 73 Capitulo 4 Problemas e Abordagens em Data Mining C= Nr Na (Fórmula 4) Uma regra poderá ainda ser avaliada em termos do seu desempenho, através do quociente entre o nível de confiança da regra e o suporte respectivo. Caso este valor seja superior a 1, significa que a regra poderá produzir melhores resultados do que uma previsão puramente aleatória. 4.3.2 Redes Neuronais As Redes Neuronais Artificiais (RNA) têm um funcionamento análogo ao do sistema nervoso central nos humanos, sendo constituídas por um conjunto de unidades básicas de processamento fortemente interligadas – denominadas também aqui, por neurónios ou nodos. Cada nodo recebe uma série de valores e, em função deles, determina um valor a apresentar como saída. Os valores de saída de alguns nodos, são em alguns casos valores de entrada de outros, dependendo da interligação existente entre eles. A forma como esta interligação se encontra estabelecida é importante também para o tipo de resultados obtidos [Groth, 2000],[Gago, 2001]. As RNA tem como características mas relevantes [Hagan et al., 1996]: Aprendizagem e generalização: conseguindo descrever o todo a partir de algumas partes, constituindo-se como formas eficientes de aprendizagem e armazenamento de conhecimento; Processamento paralelo: permitindo que tarefas complexas sejam realizadas num curto espaço de tempo; 74 Capitulo 4 Problemas e Abordagens em Data Mining Não linearidade: atendendo a que a maioria dos problemas reais são de natureza não linear; Adaptabilidade: podendo adaptar a sua topologia de acordo com mudanças do ambiente; Robustez e degradação suave: permitindo processar o ruído ou informação incompleta de forma eficiente, sendo capazes de manter o seu desempenho quando acontece a desactivação de algumas conexões e/ou nodos; Flexibilidade: com um grande domínio de aplicabilidade. Para se construir uma RNA é necessário determinar o número de neurónios, definir o seu tipo, como é que estes vão estar ligados, iniciar os pesos da rede e proceder ao treino da rede por aplicação de um algoritmo [Groth, 2000]. Durante o processo de aprendizagem, dado por um algoritmo de aprendizagem ou de treino, os pesos das conexões são ajustados de forma a se atingir um determinado objectivo; e.g., o estado de conhecimento da rede. Embora seja esta a forma tradicional de construir RNA, também é possível modificar a sua própria estrutura interna (ou topologia). Um neurónio artificial, denominado nodo (Figura 15), é a unidade de processamento chave para a operação de uma RNA. Embora existam diversos tipos de nodos, normalmente, comporta-se como um comparador que produz uma saída quando o efeito cumulativo das entradas excede um dado valor limite pré-definido. Um nodo é constituído por três elementos fundamentais [Hagan et al., 1996]: Um conjunto de conexões que representam as sinapses ou conexões entre neurónios. Cada conexão tem associado um peso, i.e., um número real ou binário (wij). que tem um efeito excitatório (valores positivos) e inibitório (valores negativos). Assim, o sinal ou estímulo (xj) como entrada da conexão é multiplicado pelo correspondente peso wij, onde i representa o nodo objecto de estudo e j o nodo emissor do sinal. Em 75 Capitulo 4 Problemas e Abordagens em Data Mining algumas situações pode ainda existir uma conexão extra, denominada de bias, cuja entrada é fixada no valor +1, que estabelece uma certa tendência ou inclinação no processo computacional (i.e., adiciona uma constante para que se estabeleçam as correctas condições operacionais para o nodo). Um integrador (g), que reduz os n argumentos de entrada (estímulos) a um único valor. Frequentemente, é utilizada a função adição ( Σ ), pesando todas as entradas numa combinação linear. Uma função de activação (f), que pode condicionar o sinal de saída, introduzindo uma componente de não linearidade no processo computacional. Figura 15 – Estrutura do neurónio artificial (nodo) [Quintela, 2005]. Em termos formais tem-se que este neurónio artificial ou nodo, é descrito pelas seguintes equações: Ui=g(wi0 , x1* wi1 , x2 wi2 ,..., xn*win ) (Formula 5) Si= f (ui) (Formula 6) 76 Capitulo 4 Problemas e Abordagens em Data Mining Para um nodo i com n entradas e uma saída, onde ui representa o ganho do nodo i e Si a saída do nodo. As três funções de activação (Figura 16) mais utilizadas são: (i) degrau ou step, (ii) sinal e (iii) logística ou sigmóide. Figura 16 – Esquemas com as funções de activação. A função (i) é normalmente utilizada quando se pretende que os nodos adoptem valores de saída +1 apenas se o ganho for não-negativo, de acordo com a filosofia tudo ou nada. Em seguida, aparecem duas outras funções lineares. A função (ii) cuja o modo de funcionamento é similar a um interruptor (ligado/desligado),adopta apenas valores +1 ou -1 consoante a entrada. Quanto à função (iii) cuja forma é similar a um S, é a mais utilizada no uso de RNA. Trata-se de uma função crescente que exibe um balanceamento gracioso entre um comportamento linear e não linear. Quando se varia a inclinação (k) obtêm-se funções com diferentes declives. 77 Capitulo 4 Problemas e Abordagens em Data Mining Os nodos interligam-se numa estrutura de rede denominada por arquitectura ou topologia. Existem vários tipos de arquitecturas ou topologias de RNA, organizando-se em três categorias [Groth, 2000] [Rodrigues, 2000]: Redes Feedforward de uma Só Camada (Figura 17). Uma RNA feedforward pode ser organizada por camadas, uma vez que não existem ciclos, dado que as conexões são unidireccionais (convergentes ou divergentes). A topologia mais simples é composta por uma camada de entrada, cujos valores de saída são fixados externamente, e por uma camada de saída. A camada de entrada não é contabilizada como camada numa RNA devido ao facto de nesta não serem efectuados cálculos. Figura 17 – Rede de uma só camada. Redes Feedforward MultiCamada (Figura 18). Esta classe de redes feedforward distingue-se por possuir uma ou mais camadas intermédias, cujos nodos são designados por nodos intermédios, sendo a sua função intervir de forma útil entre a entrada e a saída da rede. O aumento do número de camadas intermédias, eleva a capacidade da rede em modelar funções de maior complexidade. No entanto, este acréscimo implica o aumento de forma exponencial do tempo necessário para a aprendizagem. 78 Capitulo 4 Problemas e Abordagens em Data Mining Figura 18 – Arquitectura de uma rede feedforward multicamada Redes Competitivas ou Recorrentes (Figura 19). A recorrência existe em sistemas dinâmicos quando uma saída de um elemento influencia de algum modo a entrada para esse mesmo elemento, criando-se assim um ou mais circuitos fechados. Ao se incluirem uma ou mais conexões cíclicas numa rede, esta passa a ter um comportamento não linear, de natureza espacial e/ou temporal. Estas redes podem formar topologias arbitrárias. Figura 19 – Arquitectura de uma rede competitiva ou recorrente. Uma das propriedades das RNA é a sua capacidade para aprender a partir do seu ambiente. O processo de aprendizagem envolve a seguinte sequência de eventos [Quintela, 2005]: A RNA é estimulada por um dado ambiente; 79 Capitulo 4 Problemas e Abordagens em Data Mining Alguns parâmetros livres (e.g., pesos das conexões) são alterados em resultado do estímulo recebido; A RNA responde de uma nova forma ao ambiente em virtude das alterações na sua estrutura interna. A aprendizagem é executada a partir de um algoritmo de aprendizagem. Este consiste num conjunto de regras bem definidas para resolver um problema de aprendizagem. Os algoritmos de aprendizagem relacionam-se com o ambiente, e neste contexto está-se a falar de um paradigma (i.e., o modelo do ambiente em que a rede opera). Existem três paradigmas fundamentais de aprendizagem [Groth, 2000]: (i) Supervisionada, (ii) De Reforço e, (iii) Não Supervisionada. O paradigma de aprendizagem Supervisionada (Figura 20) é bastante popular envolvendo a presença de um “professor”, sendo fornecidas respostas correctas à rede. Perante uma configuração que é apresentada a RNA produz uma resposta, que é comparada com a resposta correcta. A rede aprende a partir de um conjunto de padrões (P), onde cada exemplo ou caso de treino é composto por um vector de entrada e por um vector de resposta ou saída. Durante o processo de aprendizagem é efectuada uma comparação entre o valor desejado com o valor de saída da rede, originando um erro. O erro é utilizado para ajustar os pesos das conexões, de forma a que o erro seja reduzido. Cada iteração do algoritmo de treino é composta por ajustamentos para os casos de treino. A aprendizagem é conseguida quando o erro é minimizado. Idealmente a RNA sabe mais sobre o seu ambiente após cada iteração. 80 Capitulo 4 Problemas e Abordagens em Data Mining Figura 20 – Paradigma de aprendizagem supervisionada. O paradigma de aprendizagem De Reforço, envolve tal como o anterior a presença de um “professor”. No entanto, a resposta correcta não é apresentada à rede. Apenas se fornece uma indicação sobre se a resposta da rede é correcta ou errada. A partir desta informação a rede ajusta-se por forma a melhorar a sua eficácia. Um prémio é dado pelo reforço dos pesos das conexões que dão uma resposta correcta e uma penalidade é dada na situação oposta. O paradigma de aprendizagem não supervisionada (Figura 21), segue uma abordagem diferente, onde não é fornecida ao sistema uma indicação externa acerca da resposta correcta. A aprendizagem é realizada através da identificação de características nos dados de entrada, adaptando-se a regularidades estatísticas ou agrupamentos de padrões dos exemplos de treino (e.g., Redes de Kohonen). Figura 21 – Paradigma da aprendizagem não supervisionada. 81 Capitulo 4 Problemas e Abordagens em Data Mining Existem várias classes de RNA, tendo as primeiras surgido nos anos 50. As redes do tipo Perceptron (Figura 22) são redes feedforward com apenas uma camada de nodos com várias entradas e saídas. Cada nodo calcula a soma pesada das suas entradas, sendo o valor de saída do tipo binário (0 ou 1) de acordo com determinado limite. A função de activação deste tipo de redes é a função Step. Estas redes Perceptron destacam-se pela simplicidade de utilização, derivada de um número reduzido de parâmetros a ajustar, e ao facto do conjunto de padrões (P) de entrada não necessitar de um pré-processamento elaborado. Devido a estas características a aplicação resume-se contudo a padrões de complexidade não muito elevada, linearmente separáveis (separáveis por uma linha recta) Figura 22 – Rede perceptron. No final da década de 60 Minsky e Papert demostraram que uma rede feedforward com duas camadas pode solucionar muitas das restrições até aí encontradas na utilização das redes do tipo Perceptron [Quintela, 2005]. Contudo não apresentaram nenhuma solução para o problema do ajustamento dos pesos para as camadas escondidas. Só em 1986, Rumelhart, Hinton e Williams apresentaram uma solução para este problema, o algoritmo de Back-Propagation (BP) - Retropropagação. As Redes Feedforward Multicamada (RMFC), ou Redes Perceptrão Multicamada, constituem uma das mais importantes e populares classes de RNA, sendo utilizadas em múltiplos domínios de aplicação, em problemas de memória associativa, classificação, 82 Capitulo 4 Problemas e Abordagens em Data Mining reconhecimento de padrões, optimização e regressão. A não linearidade, a existência de nodos intermédios e o alto grau de conectividade tornam esta arquitectura muito poderosa como máquina de aprendizagem. No entanto estas características dificultam uma análise teórica ao processo de aprendizagem. As RFMC são compostas por: um conjunto de nodos de entrada, onde surgem os estímulos do ambiente; um conjunto de nodos intermédios, unidades internas de processamento que aumentam a capacidade de aprendizagem de tarefas complexas, através da extracção progressiva de mais características; um conjunto de conexões pesadas unidireccionais; um conjunto de funções de activação, normalmente do tipo não linear e diferenciável sendo a função logística uma das mais utilizadas. O sinal de entrada propaga-se para a frente através da rede, camada por camada, não existindo ciclos. O primeiro algoritmo de aprendizagem por correcção de erros e aprendizagem supervisionada foi desenvolvido por Widrow e Hoff, sendo conhecido por Delta Rule, Least Mean Square (LMS) ou Adaptive Linear Neuron [Quintela, 2005]. Trata-se de uma generalização do Perceptron, estendendo a técnica para entradas e saídas contínuas, apresentando uma única camada de neurónios. O erro é calculado como a diferença entre a resposta desejada e a resposta produzida pela RNA, ajustando-se o peso de forma a que se torne zero. O algoritmo mais popular usado na aprendizagem supervisionada é o algoritmo de BP, ou os seus derivados, uma variação da regra de Widrow-Hoff. Trata-se de um algoritmo de referência, já que constitui um método eficiente de computação para o treino de RFMCs, procurando o mínimo da função de erro no espaço de procura dos pesos, baseando-se em métodos de gradiente descendente. A combinação dos pesos que minimiza a função do erro 83 Capitulo 4 Problemas e Abordagens em Data Mining O algoritmo de BP utiliza dois passos [Cortez, 2002]: Em frente, o vector de entrada é fornecido aos nodos de entrada, propagando-se em frente, camada por camada, estando neste passo os pesos da rede fixos. Retropropagação, onde o erro é propagado para trás, desde a saída até aos nodos de entrada. De seguida, os pesos são ajustados segundo a regra de Widrow-Hoff. Antes de se proceder ao inicio do treino de uma rede procede-se à escolha dos valores iniciais dos pesos associados às conexões entre os nodos, devendo ser pequenos e gerados de forma aleatória. Inicia-se então o treino da rede, seleccionando-se um caso de treino, de forma iterativa ou em lote. Em seguida, calcula-se o gradiente e ajustam-se os pesos. Uma iteração termina quando todos os casos disponíveis tiverem sido considerados. O processo é terminado por critérios de paragem, por exemplo quando as mudanças nos pesos e na função de erro foram insignificantes. O algoritmo de aprendizagem pode convergir para um mínimo local, porém constata-se que quando se parte de um número elevado de casos de treino esta questão não assume relevância. O surgimento do algoritmo de BP, influenciou de forma decisiva a investigação na área das RMFC, o que motivou o aparecimento de novos algoritmos de treino, devido a dois factores [Cortez, 2002]: (i) o algoritmo de BP apresenta uma convergência lenta, e (ii) baseia-se no gradiente descendente, pelo que todas as técnicas de optimização não linear do gradiente podem ser aplicadas. Diversas variantes baseadas no algoritmo de BP têm sido propostas, tendo como base o uso de uma topologia fixa. No entanto, as melhorias mais significativas advêm da utilização de algoritmos que adaptam não só os pesos mas também a topologia interna da rede a uma dada tarefa. Estas variantes podem ser classificadas em duas categorias [Cortez, 2002]: de adaptação global ou local. A primeira utiliza um conhecimento global do estado completo da rede, como a direcção de todo o vector de actualização dos pesos. Os últimos são baseados na informação específica de um peso, como o comportamento 84 Capitulo 4 Problemas e Abordagens em Data Mining temporal da sua derivada parcial. Esta estratégia é mais próxima ao conceito das RNA sendo mais facilmente paralelizável, e tendendo a ser mais eficazes e robustas, apesar de usarem menos informação [Quintela, 2005]. Uma RFMC treinada por BP pode ser vista como uma forma prática para efectuar uma qualquer correspondência não linear, conseguindo com uma camada intermédia computar uma aproximação de uma qualquer função contínua. Com duas camadas intermédias é possível representar até funções descontínuas [Cortez, 2002]. Na utilização de RMFC um dos aspectos mais importantes é também o tempo de aprendizagem. De uma forma geral, a aprendizagem implica a procura dos elementos desconhecidos de uma RNA, normalmente pelo ajuste dos pesos. A aprendizagem numa rede com 100 pesos é bastante mais pesada em termos computacionais do que a de uma rede com 10 pesos, sendo uma relação bem maior que o factor 1:10 poderia sugerir. Seria muito útil que o tempo de aprendizagem fosse limitado por uma função polinomial sobre o número de variáveis, o que não acontece em termos práticos. O problema geral de aprendizagem em RNA não pode ser resolvido eficientemente para todas as instâncias. Não é conhecido um algoritmo que consiga realizar a aprendizagem num tempo polinomial, sendo até muito pouco provável que tal possa vir a existir. Com estes constrangimentos, diz-se que em geral o problema de aprendizagem em RNA é Não Polinomial (NP)-completo. Uma das possibilidades para ultrapassar a aprendizagem NPcompleta das RNA reside no uso de arquitecturas adaptativas [Cortez, 2002]. Na classe de RNA de aprendizagem não supervisionada, existem dois algoritmos com grande utilização: as redes competitivas e as redes de Kohonen. Nas redes competitivas quando um exemplo é processado pela rede, todas as unidades de saída vão concorrer pelo direito à resposta. Aquela que responde mais fortemente é a célula mais activa, assim, os pesos das ligações existentes nesta unidade são ajustados de forma a que a sua resposta seja reforçada, tornando assim mais provável que a identificação dessa qualidade da entrada seja efectuada por esta unidade. 85 Capitulo 4 Problemas e Abordagens em Data Mining As redes de Kohonen [Kohonen, 1989] também denominadas por mapas autoorganizativos (Self-Organizing Maps - SOM) têm sido utilizadas com bastante sucesso não só em análise de dados como também em reconhecimento de voz. Estas redes são constituídas por duas camadas, uma de entrada e outra de saída, não possuindo níveis intermédios. O número de nodos no nível de entrada é calculado em função dos atributos de entrada, sendo o número de nodos no nível de saída igual ao número de segmentos obtidos na fase de aprendizagem. Nesta fase cada nodo de saída compete com os outros nodos para ganhar a classificação de um dado registo. Os pesos das conexões são ajustados em função do sucesso (ou insucesso) de cada nodo. O processo de modelação conduz ao agrupamento dos nodos em vectores, que representam as classes identificadas. Os pesos obtidos para as conexões permitem verificar a influência que cada atributo teve na identificação das classes [Santos, 1999]. Este tipo de RNA corresponde frequentemente a redes de camada única que se autoorganizam através do mecanismo de competição [Chester, 1993], por forma a considerar todos os casos da amostra. Neste mecanismo quando um objecto é processado pela rede, todas as unidades de saída vão concorrer pelo direito à resposta. Aquela que responde mais fortemente é a célula mais activa, assim, os pesos das ligações existentes nesta unidade são ajustados de forma a que a sua resposta seja reforçada, tornando assim mais provável que a identificação dessa qualidade da entrada seja efectuada por esta unidade (Figura 23). 86 Capitulo 4 Problemas e Abordagens em Data Mining Figura 23 – Esquema das redes de Kohonen [Kohonen, 1989]. As redes de Kohonen permitem a identificação de similaridades entre vários sinais, agrupando-os em segmentos, tornando-se eficientes quando utilizadas sobre padrões com alguma relação entre si, podendo desta forma ser segmentados. Por outro lado, este modelo é complexo em comparação com outros, pois (i) a variável do raio de vizinhança deve ser ajustada adequadamente e, (ii) o número mínimo de iterações necessárias é de 500 vezes o número de neurónios de saída. As RNA apresentam-se como uma solução válida para a resolução de problemas de regressão não linear pois os seus resultados produzem normalmente taxas de erros baixas, embora o seu resultado não seja uma função matemática que possa ser facilmente utilizada. Na resolução deste tipo de problemas são normalmente utilizadas redes com uma única saída (correspondente à variável cujo valor se pretende conhecer). Nos problemas de classificação por recurso a RNA, a arquitectura da rede comporta tantas saídas quantas as classes existentes. A saída com valor mais elevado determina a classificação feita pela rede. As maiores dificuldades encontradas na utilização das RNA decorrem do facto de exigirem dados numéricos, de preferência na gama de valores [0,1] ou [-1,1] dependendo da função de activação. Este género de problemas deverá ser tratado na fase de préprocessamento de dados, contudo após a preparação dos dados ainda existe o problema 87 Capitulo 4 Problemas e Abordagens em Data Mining do treino da rede, o qual se revela normalmente moroso. Embora a capacidade de processamento dos computadores não pare de aumentar não será de estranhar se uma rede neuronal necessitar de um período de treino longo, de algumas horas ou mesmo dias, quando são utilizadas quantidades consideráveis de dados, dando origem à sugestão de várias alterações do método de treino. Finalmente, a acompanhar todas estas dificuldades existe uma outra que decorre da selecção da arquitectura a utilizar para a RN. 4.3.3 Árvores de Decisão Comparativamente com os resultados da aplicação de uma RN, normalmente de difícil compreensão, o resultado da aplicação de um algoritmo de indução de Árvores de Decisão (AD) é normalmente de fácil compreensão [Linoff et al., 1997]. Este facto justifica a grande popularidade dos métodos de geração de árvores de decisão junto dos utilizadores de programas de apoio à decisão. Existem diversos algoritmos capazes de produzir AD, mas o seu funcionamento é basicamente o mesmo [Gago, 2001]. Partindo do conjunto inicial de dados, usam-se os valores de um dos atributos para efectuar a partição dos mesmos em vários subconjuntos. O processo de partição é recursivamente aplicado a cada um dos subgrupos até que cada um dos subgrupos obtidos seja constituído por registos de uma só classe [Quinnlan, 1996]. A forma como é escolhido o atributo que vai gerar a próxima partição é algo que varia de algoritmo para algoritmo. Os diversos algoritmos podem também apresentar algumas diferenças ao nível da condição de paragem. Na Figura 24 é apresentada parte de uma AD para classificação dos clientes de um banco. Conhecendo o rendimento e a composição do agregado familiar do cliente, o banco pretende saber se lhe deve conceder um empréstimo. O banco tem uma BD contendo o historial das transacções com os seus clientes. Partindo dessas BD pode ser 88 Capitulo 4 Problemas e Abordagens em Data Mining possível construir uma AD como a apresentada na Figura 24 que permitirá decidir sobre a atribuição de empréstimo a novos clientes. Com base nesta AD o banco recusaria o empréstimo a todos os clientes com um agregado familiar com mais de dois elementos e cujos rendimentos fossem inferiores a 500. Rendimento > 500 ? Não Agregado <= 2 ? Não Recusar Sim Emprestar Sim Emprestar Figura 24 Exemplo de uma árvore de decisão. Os algoritmos de indução de AD trabalham com os dados na forma de folha de cálculo, sem existir a necessidade de normalização dos valores pelo que se revelam rápidos quando comparados com outros métodos como as redes neuronais artificiais, que necessitam de muito tempo de aprendizagem [Quinnlan, 1996]. Uma das suas maiores vantagens é o facto de as árvores serem facilmente interpretadas pelos humanos, embora, quando a árvore se torna muito grande, essa vantagem se comece a desvanecer [Linoff et al., 1997]. Outra vantagem consiste na facilidade que têm no tratamento de dados não numéricos. Os algoritmos como o C5.0 [Quinnlan, 2004], apresentado mais à frente, conseguem tratar tanto dados numéricos como simbólicos. Formalmente uma AD consiste numa estrutura arborescente em que cada nó define uma condição lógica sobre um atributo duma instância. Denominado um conjunto de instâncias S e o conjunto de atributos considerado por A={a1,….an} então para x є S temse x ≡ {a1(x),…,a2(x)}, sendo a1(x) o valor assumido pelo atributo a1 na instância x. 89 Capitulo 4 Problemas e Abordagens em Data Mining Assim, o nó i duma árvore contém uma condição sobre algum elemento de A, por exemplo ak>4,8 ou ak=alto. Cada ramo derivado dum nó consiste num possível valor do atributo considerado no nó. Cada folha da árvore representa um elemento duma classe.21 Cada caminho, desde a raiz até uma folha corresponde a uma regra de decisão ou classificação. Uma AD é traduzível numa disjunção de conjunções lógicas de condições sobre os valores de A, sendo cada ramo da árvore uma conjunção de condições e o conjunto dos ramos disjuntos. As AD são essencialmente utilizadas em problemas de classificação, são uma forma de representação de um conjunto de regras que seguem uma hierarquia de classes ou valores, expressando uma lógica simples condicional. Graficamente, são semelhantes a uma árvore, consistindo numa estrutura que interliga um conjunto de nós através de ramos resultantes de uma partição recursiva dos dados, desde o nó raiz até aos nós terminais (folhas), que fornecem a classificação para a instância [Santos, 1999]. As regras utilizadas no caso de estudo apresentado nesta tese foram geradas usando o algoritmo C5.0 (Tabela 6), o qual é uma evolução do algoritmo C4.5 que por sua vez é um melhoramento ao algoritmo ID3 [Quinnlan, 1986]. Todos têm como objectivo comum a criação de AD a partir das quais permitem também a derivação de regras. Tabela 6 - Evolução do algoritmo ID3. Algoritmo ID3 C 4.5 C 5.0 21 Características Variáveis discretas Critério de entropia Variável mais informativa em cada nodo Uso de valores contínuos Utilização de dados com valores omissos Poda árvores de decisão Derivação de regras Boosting Na aprendizagem supervisionada, cada instância possui um atributo especial denominado classe, que descreve o fenómeno de interesse. Em casos de classificação, as classes pertencem a um conjunto discreto . nominal de valores, enquanto que nos casos de regressão pertencem a um conjunto de valores reais 90 Capitulo 4 Problemas e Abordagens em Data Mining Quando é necessária a classificação de um conjunto de registos, o algoritmo ID3 começa por procurar qual o atributo que deve ser utilizado para efectuar a primeira divisão. São testados todos os atributos e é escolhido aquele que, segundo um critério que será explicado à frente, permite uma melhor divisão dos registos. Depois deste primeiro passo é criado um ramo da árvore para cada valor possível do atributo escolhido. Os registos são distribuídos pelos ramos a que pertencem e cada um dos grupos de registos assim obtidos sofre depois um processo semelhante (é escolhido o atributo que faz a melhor divisão...). O algoritmo pára quando o conjunto a classificar é composto por registos todos pertencentes à mesma classe [Quinnlan, 2004]. A medida que o ID3 utiliza para fazer a divisão dos casos é o ganho de informação [Quinnlan, 1986]. O ganho de informação corresponde à redução da entropia22 obtida através da partição dos registos da base de dados pelos valores de um dado atributo. Para um conjunto S de registos, em que cada registo pode pertencer a uma de n classes, a entropia é definida como: n (Fórmula 7) Entropia ( S ) = − ∑ pi ⋅ log 2 ( pi ) i =1 O valor de pi é dado pelo número de registos de S que pertencem à classe i sobre o número total de registos de S, e representa a probabilidade de um registo, escolhido ao acaso, pertencer à classe i. 22 A entropia é usada como representação “da ordem interna” de um conjunto de registos. Um conjunto de registos todos da mesma classe terá entropia zero. Se no conjunto, 50% dos registos forem de uma classe e os restantes 50% forem de outra, a entropia será um. 91 Capitulo 4 Problemas e Abordagens em Data Mining Considere-se o exemplo, adaptado de [Quinnlan, 1986], apresentado na Tabela 7. Nessa tabela encontram-se 14 registos que serão usados para a construção de uma AD. Cada registo tem 5 atributos, sendo que o último (jogar?) indica a classe a que o registo pertence, jogar є {sim , não}. Usando as equações acima, verifica-se que a entropia do conjunto dos 14 registos que compõem a tabela é de 0,940. Este valor é calculado verificando que, num total de 14 registos, existem 9 pertencentes a uma classe (a classe sim) e 5 pertencentes a outra (a classe não). Assim, Entropia( S ) = − (Fórmula 8) 9 9 5 5 log 2 ( ) − log 2 ( ) = 0,940 14 14 14 14 Tabela 7 - Dados usados pelo algoritmo. Aspecto do dia Temperatura Humidade Vento Jogar? Sol Quente Alta Fraco Não Sol Quente Alta Forte Não Nublado Quente Alta Fraco Sim Chuva Normal Alta Fraco Sim Chuva Frio Normal Fraco Sim Chuva Frio Normal Forte Não Nublado Frio Normal Forte Sim Sol Normal Alta Fraco Não Sol Frio Normal Fraco Sim Chuva Normal Normal Fraco Sim Sol Normal Normal Forte Sim Nublado Normal Alta Forte Sim Nublado Quente Normal Fraco Sim Chuva Normal Alta Forte Não A partir da entropia, define-se uma medida da qualidade da classificação de um conjunto de registos a partir de um atributo. A medida usada no ID3 é o ganho de informação que é uma medida da redução de entropia que se obtém aquando da partição dos registos pelos valores do atributo escolhido. 92 Capitulo 4 Problemas e Abordagens em Data Mining O ganho de informação que se obtém a partir da partição dos registos de um conjunto S com base nos valores de um atributo A é dado por: m (Fórmula 9) Ganho( S , A) = Entropia( S ) − ∑ pi ⋅ Entropia( S i ) i =1 Nesta equação, m é o número de valores diferentes que o atributo A pode tomar, Si é o número de elementos de S em que o atributo A toma o valor de ordem i e pi é o quociente entre o número total de registos em S e o número daqueles em que o atributo A toma o valor de ordem i. O ganho é então a diferença entre a entropia do conjunto inicial e a soma ponderada das entropias de cada um dos conjuntos obtidos na partição. Para exemplo, calcule-se o ganho de informação obtido pela partição dos registos da Tabela 7 pelos valores do atributo Vento (Forte ou Fraco). Acima mostrou-se que a entropia inicial do conjunto é de 0,940. É necessário agora completar os cálculos. Seja SFraco o conjunto dos registos de S em que o atributo Vento tem o valor Fraco e SForte o conjunto de registos de S em que o atributo Vento tem o valor Forte. Por observação da tabela verifica-se que SFraco tem 6 elementos da classe sim e 2 elementos da classe não. A sua entropia é, portanto, de 0,811. O conjunto SForte tem 3 registos da classe sim e 3 registos da classe não, o que vai corresponder a uma entropia de 1,000. Estes valores permitem efectuar o cálculo do ganho de informação: Ganho ( S ,Vento ) = 0,940 − ( 6 8 ) ⋅ 0,811 − ( ) ⋅ 1,000 = 0,048 14 14 De forma análoga, podem ser calculados os ganhos de informação resultantes da partição dos 14 registos pelos restantes atributos. Os valores resultantes são apresentados: Ganho (S, aspecto_do_dia) = 0,246 Ganho (S, Humidade) = 0,151 Ganho (S, Temperatura) = 0,029 93 Capitulo 4 Problemas e Abordagens em Data Mining A partir destes valores conclui-se que a melhor escolha para a partição é pelos valores do atributo Aspecto_do_dia. Voltando a repetir o mesmo procedimento para cada um dos três ramos que se obtêm pela partição do conjunto pelos valores do atributo Aspecto_do_dia, vai-se construindo o resto da árvore. A árvore completa é apresentada na Figura 25. Figura 25 - Árvore de decisão obtida pelo algoritmo ID3. O ganho de informação é uma medida que apresenta alguns problemas, nomeadamente ao favorecer a escolha de atributos com uma grande variedade de valores, originando árvores com muitos ramos em cada nodo. Para evitar essa situação, Quinnlan sugere a utilização de uma razão entre o ganho de informação (RazãoGanho) e a entropia dos conjuntos resultantes da partição [Quinnlan, 2004]. Esta nova medida é chamada de Razão de Ganho (gain ratio) e foi introduzida no algoritmo C4.5. RazãoGanho( D, T ) = Ganho( D, T ) InfoDivisão( D, T ) (Fórmula 10) Onde a Infodivisão(D,T) corresponde à informação devida à partição do conjunto T pelos valores do atributo D. Considerando o exemplo apresentado e utilizando a razão do ganho para a primeira divisão dos registos, obtemos os seguintes valores, ara o atributo Vento: RazãoGanho (Vento, T ) = Ganho (Vento, T ) InfoDivisã o(Vento, T ) (Fórmula 11) 94 Capitulo 4 Problemas e Abordagens em Data Mining Existem seis registos em que o atributo Vento tem o valor Forte e oito em que o valor é Fraco. O valor de Ganho(Vento,T) já foi calculado e é de 0.048. Falta apenas calcular InfoDivisão(Vento,T). InfoDivisão(Vento, T ) = − 6 6 8 8 log 2 ( ) − log 2 ( ) = 0.985 14 14 14 14 (Fórmula 12) Finalmente calcula-se RazãoGanho(Vento, T ) = 0.048 = 0.049 0.985 (Fórmula 13) De forma análoga é possível fazer os cálculos para os restantes atributos. O algoritmo C4.5 permite também o tratamento de registos com valores em falta. No caso de existirem registos com valores em falta, o cálculo da RazãoGanho é feito com base nos registos onde esse valor é conhecido. Quando se pretende utilizar a árvore para classificar registos com valores em falta, estima-se a probabilidade das várias classificações. Para permitir tratar atributos com valores numéricos, o algoritmo C4.5 analisa todos os valores presentes na base de dados para esse atributo. Para cada um desses valores é efectuada a partição do conjunto de registos e calculada a RazãoGanho. Embora permita tratar atributos cujos valores pertencem a um intervalo contínuo, esse tratamento vai implicar um grande número de cálculos. É teoricamente possível treinar a AD por forma a obter uma taxa de sucesso de cem por cento nos casos de treino. Esse resultado é indesejável pois obtém-se uma árvore muito mais complexa, muito adaptada aos dados de treino e que terá resultados maus quando aplicada a novos conjuntos de dados. Nesse caso diz-se que se deu a sobre-especialização da árvore. 95 Capitulo 4 Problemas e Abordagens em Data Mining Uma forma de evitar o problema da sobre-especialização e simultaneamente reduzir o tamanho da árvore, é através da poda da árvore. Para efectuar a poda de um ramo da árvore, compara-se o erro que se obtém usando a árvore completa com aquele que se obtém substituindo esse ramo por uma folha (atribuindo essa folha à classe mais comum no ramo a eliminar). Se a árvore podada tiver um desempenho igual ou melhor que a árvore original a eliminação do ramo é confirmada [Santos, 1999]. Pese embora não exista documentação a partir da qual seja possível explicitar o modo de funcionamento do algoritmo C5.0, este é uma evolução dos apresentados anteriormente [Quinnlan, 1996]. O grande salto foi dado em termos de eficiência, quer a nível de tempo de processamento e de memória utilizada [Quinnlan, 2004]. Por outro lado, os classificadores gerados são normalmente mais pequenos e precisos. Para além do salto em eficiência o sistema C5 oferece mais alguns melhoramentos como: novos tipos de dados incorporados (ex: pode trabalhar com o tipo “não a aplicável” N/A); atributos definidos a partir de combinações funcionais doutros atributos; utilização de custos diferenciados para os erros de classificação. Uma outra característica que permite diminuir a taxa de erro dos classificadores, no C5, é a utilização de Boosting [Schapire, 2002]. Esta técnica consiste em gerar vários classificadores, a partir dos mesmos dados de treino, e depois combiná-los num classificador final no qual cada classificador inicial participa votando com um certo peso. Este peso é ajustado durante o processo de treino [Quinnlan 1996]. Nalguns casos a redução dos erros de classificação pode atingir 40% [Quinnlan, 2004]. É simples passar de uma AD para um conjunto de regras que lhe sejam equivalentes. Para tal, basta seguir o caminho desde a raiz da árvore até cada uma das folhas. Cada um desses caminhos representa uma regra. Para a árvore de decisão da Figura 25, as regras resultantes são as seguintes: SE Aspecto dia = Sol E Humidade = Alta ENTÃO Não 96 Capitulo 4 Problemas e Abordagens em Data Mining SE Aspecto dia = Sol E Humidade = Normal ENTÃO Sim SE Aspecto dia = Nublado ENTÃO Sim SE Aspecto dia = Chuva E Vento = Forte ENTÃO Não SE Aspecto dia = Chuva E Vento = Fraco ENTÃO Sim Quando as AD são muito grandes, a sua interpretação torna-se mais difícil sendo normalmente mais conveniente trabalhar com as regras. Existe um procedimento, usado com o C5.0 que, além de transformar a árvore em regras, tenta ainda simplificá-las. Para cada regra tenta-se a sua generalização, removendo condições. Se a taxa de erro da nova regra não for superior à da regra original, a nova regra substitui a anterior. Este procedimento dá origem a regras não mutuamente exclusivas e a casos em que existem registos que não são cobertos por nenhuma regra. Para obviar a estes problemas, ordenam-se as regras, para que apenas a primeira regra aplicável a um registo seja utilizada e cria-se uma classe “default” (por omissão) que será a classe a que pertencem todos os registos que não são classificados pelas restantes regras. Numa última fase, as regras são agrupadas pela classe a que pertencem e são eliminadas aquelas que parecem contribuir pouco para a diminuição da taxa de erro do conjunto. O processo de DCBD utiliza diversos algoritmos que processam os dados e permitem determinar padrões válidos, novos e valiosos, contudo a aplicação destes e a sua utilização requer uma interacção muito forte com os analistas, que são, em última instância, os principais responsáveis pela determinação do seu valor. Além disso, a condução da exploração de dados é também uma tarefa fundamentalmente confiada a analistas, um aspecto que não pode ser desprezado em nenhum projecto que se deseje bem sucedido [Rodrigues, 2000]. 97 Capitulo 4 Problemas e Abordagens em Data Mining 4.4 Avaliação dos Resultado s Uma vez aplicados os algoritmos de DM é necessário efectuar a análise dos resultados obtidos por forma a verificar a sua validade e utilidade. Caso esta análise não seja efectuada, existe o risco de serem apresentados resultados errados ou sem interesse. Um exemplo citado na literatura [Cabena et. al. 1998] é o de um estudo realizado para uma seguradora que concluiu que o número de acidentes de viação era mais elevado entre clientes com o signo Peixes. Uma análise dos resultados permitiu verificar que a companhia tinha mais clientes desse signo que dos outros, e portanto, se os clientes desse grupo eram mais, era natural que existisse um número mais elevado de acidentes. Existem vários métodos de amostragem para estimar a capacidade de generalização de um modelo: Estatística Simples, Validação com Divisão da Amostra, Validação Cruzada e Bootstrapping. O método mais popular para a estimação do erro de generalização é a Validação com Divisão da Amostra23, que se baseia numa divisão dos dados do problema em casos de treino para a aprendizagem do modelo, e em casos de validação, para estimar o erro de validação. Como pontos fortes temos a sua simplicidade e rapidez, embora produza uma redução efectiva dos dados disponíveis para treino. Quando se trata de problemas de classificação, uma das técnicas mais usadas é a matriz de confusão [Kohavi et al., 1998]. A matriz de confusão ou de erros (Tabela 8) é usada para avaliar o resultado de uma classificação, mapeando os valores previstos por um modelo com os valores desejados. Tabela 8 - Matriz de confusão de um classificador. ↓ Desejado / PrevistoÆ Negativo Positivo 23 Negativo TN FN Positivo FP TP Método validação com divisão da amostra é conhecido em inglês por hold-out 98 Capitulo 4 Problemas e Abordagens em Data Mining A matriz de confusão reflecte a quantidade de classificações correctas e erradas sobre um conjunto de exemplos T. O número de acertos, para cada classe, é indicado na diagonal principal da matriz M(Ci,Cj), estes acertos podem ser verdadeiros positivos (correspondem ao número de exemplos positivos classificados como tal, também designados por TP – true positive ) e verdadeiros negativos (correspondem ao número de exemplos negativos classificados como tal, também designados por TN – true negative). Os restantes elementos M(Ci,Cj), para i≠j, representam erros na classificação que podem ser falsos positivos (correspondem ao número de exemplos positivos classificados como negativos, também designados por FP – false positive) ou falsos negativos (correspondem ao número de exemplos negativos classificados como positivos, também designados por FN – false negative). A matriz de confusão ideal possui todos os elementos classificadores a nulo, representando a inexistência de erros. A partir da matriz de confusão da Tabela 8 é possível derivar as seguintes medidas: Precisão (acuidade), indica determina a percentagem de respostas certas (TP+TF) em função de todos os casos equacionados (TP+TF+FP+FN): acuidade = TN + TP *100(%) TN + FP + FN + TP (Fórmula 14) Especificidade (erro tipo I), calcula a percentagem de acertos negativos correctos (TN) relativamente a todos os casos classificados como negativos (TN+FP): especificidade = TN *100(%) TN + FP (Fórmula 15) Sensibilidade (erro tipo II), reflecte a percentagem de acertos positivos correctos (TP) face a todos os resultados apresentados como positivos (TP+FN). sensibilidade = TP * 100(%) FN + TP 99 (Fórmula 16) Capitulo 4 Problemas e Abordagens em Data Mining Estas três medidas de desempenho são independentes do custo e das probabilidades das classes. 100 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Capítulo 5 DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing 5 É apresentada uma proposta de metodologia para o desenvolvimento de projectos de Database Marketing suportados pelo processo de Descoberta de Conhecimento em Bases de Dados. 5.1 Introdução A noção de metodologia ao longo deste trabalho pressupõe um conjunto de passos (fases) formado por subconjuntos (actividades) ligados entre si de forma necessária e condicionante. Esta definição permite assumir o conceito de metodologia como o modo particular de organizar ou compor as partes de um conjunto de tal forma que as relações que mantêm entre si sejam as necessárias e suficientes para garantir a integridade e harmonia intrínseca desse conjunto. Em síntese a metodologia é o princípio que organiza a forma [Marcolli, 1986]. O desenvolvimento de um projecto de DataBase Marketing (DBM) acontece integrado num contexto de estrutura organizacional (Figura 26), a partir do qual são definidas os objectivos de marketing e então colocado em prática o desenvolvimento das suas actividades [Drozdenko et al., 2002], [Zwick et al., 2004]. Os resultados obtidos têm 101 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing aplicação directa em actividades de marketing sendo então avaliados por forma a permitir uma aprendizagem para acções futuras. Figura 26 - Enquadramento do DBM na organização (adaptado [Hughes, 1995]). A estratégia de desenvolvimento de um projecto de DBM obedece a um conjunto de premissas que vão desde a necessidade de fixação dos objectivos para as actividades de marketing [Drozdenko et al., 2002] [Hughes, 1995], a determinação das fontes de dados [Seller et al. 1999],[Huges, 1995] internas e externas à organização [Cooke, 1994] e da capacidade tecnológica de processamento de grandes volumes de dados, capazes de suportar actividades de Descoberta de Conhecimento em Bases de Dados (DCBD) [Lo, 2002] [Zwick et al., 2004]. A proposta de metodologia apresentada neste trabalho tem por objectivo auxiliar os marketers a utilizar o conhecimento extraído das Bases de Dados (BD) nas suas actividades de marketing, as quais se encontram associadas a objectivos de marketing mais vastos, que por sua vez correspondem ao reflexo da estratégia organizacional. 5.2 Ca racterísticas das actividades de Marketing As actividades de marketing são referidas ao longo desta dissertação como o conjunto de tarefas necessárias para o alcance de uma actividade integradora que expressa directamente os objectivos de marketing. 102 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing As actividades de marketing na sua generalidade envolvem a troca de produtos e serviços e são, como referido, orientadas pelos os objectivos de maior dimensão do marketing. Existem cinco questões importantes para as quais as actividades de marketing têm de possuir resposta [Suther, 1999]: Como deve ser desenvolvida a promoção? – reflecte toda a definição da actividade de marketing, tal como estratégia promocional, políticas de preço ou outras; Qual o meio de alcançar o público alvo? – numa relação de troca a organização deve oferecer algum produto ou serviço. Esta questão identifica neste contexto o produto ou o serviço que se deve oferecer para que a relação se estabeleça; Quem é o público alvo? – como um processo que envolve um ou mais parceiros, a questão “Quem”, representa aqui o alvo das actividades de marketing; Quando se deve fazer? – uma actividade de marketing é desenvolvida num intervalo de tempo específico. A questão “Quando” é o reflexo do aspecto temporal na BD de Marketing e representa o momento da acção; Que meio de promoção se deve usar? – reflecte o canal de comunicação escolhido pelo marketer para alcançar o público alvo. Este “Que” representa ainda a definição clara do método escolhido para promover a transacção do produto ou serviço; Uma vez definidas as respostas para cada uma das cinco questões, o profissional de marketing está apto para colocar em prática todas as actividades em estudo. 103 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing 5.3 Suporte à s actividades de Marketing com modelos de Data Mining O processo de DBM é orientado para os objectivos de marketing [Pinto et al., 2004], os quais irão determinar todo o processo de recolha de informação necessário. Partindo daqui e adoptando o modelo das cinco questões referido anteriormente é possível sugerir pelo menos uma tarefa de Data Mining (DM) para cada um desses objectivos expostos: Questão “Como”: Associado a este objectivo existe um conjunto de actividades de previsão como objectivos de marketing, tais como, a previsão de como irão evoluir as vendas num determinado período de tempo, ou então, como e em que condições é que os clientes poderão abandonar a organização. A questão “Qual” sugere a determinação das características principais dos clientes da organização (perfil dos clientes). Este objectivo pode ser alcançado pela análise dos dados acerca dos produtos que adquirem ou do comportamento dos consumidores; Efectivamente, encontrar a resposta “Quem” significa em termos de DM segmentar os indivíduos mais propensos a responder a uma determinada acção promocional, identificar os utilizadores frequentes, seleccionar os clientes com maior rentabilidade ou mesmo identificar aqueles indivíduos que podem vir a deixar de ser clientes; A variável temporal nas actividades de marketing é representada pela questão “Quando” e inclui todas as actividades de marketing que incorporam tarefas temporais, e.g., quando é que a organização deveria remeter um e-mail para os seus clientes. Estas actividades combinadas com conhecimento à priori permitem aos marketers levar o seu público alvo a ter o comportamento desejado; 104 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing O objectivo “Que” corresponde a uma das palavras-chave mais frequente na definição das actividades de marketing, dada a sua característica associada de selecção, e.g., na análise do cabaz de compras o marketer pretende determinar “Que” produto está associado com o quê; Dada a sua natureza interrogatória, todas as questões de marketing incluem alguma previsão nos seus resultados, derivando deste facto a possibilidade de atribuir a cada uma delas actividades de DM de previsão. Tal generalização não é possível aplicar às restantes questões motivo pelo qual se indicam as técnicas de DM mais relevantes para cada uma. Os modelos de DM são os mais adequados para responder às questões de “Quem” e “Que” não apenas pelas suas características de classificação, como também pelo tipo de resultados desejados. Os modelos de análise de dependências possuem uma vasta aplicação nas actividades de marketing sendo possível incluí-las nos objectivos das actividades de marketing “Quando”, “Quem” e “Que”. Finalmente, a modelação por análise de desvios tem utilização para responder às questões de marketing “Como”, “Quando” e “Quem”. A Tabela 9 apresenta a combinação das actividades de marketing, representadas pelas suas questões, com as actividades de DM. Marketing Questões Tabela 9 - Actividades de DM aplicadas a questões de marketing. Como Qual Quem Quando Que Previsão ; ; ; ; ; Actividades de Data Mining Descrição Dependência Desvios ; ; ; ; ; ; A utilização das actividades DM pode ser útil para responder às questões “Quem”, “Qual”, “Quando”, “Que” e “Como”, necessitando contudo de um conjunto de outras actividades associadas que possam garantir a qualidade dos resultados. 105 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing 5.4 Da ta Mining Para Database Marketing Considerando o DBM caracterizado pelas estratégias de marketing baseadas no estudos de grandes volumes de dados disponíveis nas BD de clientes, é possível indicar um conjunto de áreas como principais candidatas para a aplicação de DCBD para acções de DBM [Povel, 2001 ]. Aquisição de cliente: Desenvolvendo acções que tenham como público alvo os potenciais clientes com maior possibilidade de se tornarem clientes; Cross-Selling e Up-selling: Identificando e dirigindo acções para aqueles clientes com maior propensão para comprar mais ou responder positivamente a uma oferta especifica; Desenvolvimento de Produtos: Segmentando e determinando o perfil dos clientes ou de potenciais clientes para a definição de novas ofertas de produtos ou serviços relevantes; Previsão de abandono (churn): Prevendo como é que os clientes se comportam quando mudam para o concorrente; Detecção de Fraudes: Detecção de actividades ou comportamentos fraudulentos, como seja na utilização de cartões de crédito ou em falsas reclamações; Análise do Cabaz de compras: Procurando associações entre os dados relativos a compras dos clientes, e.g., produtos adquiridos numa só compra; Determinação do Risco: o cálculo do nível do risco associado a uma decisão, e.g., assegurar a liquidez para o pagamento de compromissos financeiros associados a um investimento; 106 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Análise de tendências: actividades predictivas como sejam previsão ou estimativa de tendências ou comportamentos dos consumidores. A metodologia DM4DBM é proposta para o desenvolvimento do DBM recorrendo à exploração dos conceitos e características do CRISP-DM, cruzando-o quer com as actividades de marketing, quer com as questões inerentes à integração dos modelos de DM (referido aqui como componente integrante do processo de DBCD). A sistematização destas componentes, integradas numa perspectiva organizacional, permite definir uma estratégia para desenvolvimento de projectos de DBM representada esquematicamente pela Figura 27. A metodologia DM4DBM possui três fases: Recolha de informação, Extracção de conhecimento e Aplicação no desenvolvimento de acções de Marketing. Primeiro, os dados são recolhidos a partir de diferentes fontes. Após o seu registo e análise é então criada a BD de Marketing, com vista ao suporte de toda a fase seguinte, correspondente à extracção de conhecimento. A aplicação dos resultados obtidos é concretizada na fase de aplicação a actividades de Marketing. RECOLHA INFORMAÇÃO EXTRACÇÃO CONHECIMENTO APLICAÇÃO E AVALIAÇÃO DE RESULTADOS Modelos de Marketing Objectivos Marketing Objectivos Data Mining Segmentação clientes Origem Dados Internas Origem Dados Externas Classificação Clientes Registo e Análise De Dados BD Marketing Selecção Dados Processameto Dados Estudos Investigação Mercado Modelação Determinação de perfis Detecção Desvios Aplicação Resultados - Perfil clientes - Análise Cabaz Compras - Cross-sell e up-selling - Definição Produtos/Serviços - Previsão/Estimativa resultados - Programas fidelização - Avaliação risco - Monitorização - Programa Fidelização Clientes - Programa de captação clientes Análise Respostas AVALIAÇÃO RESULTADOS OBTIDOS vs ESPERADOS Figura 27 – Proposta da metodologia de Data Mining para Database Marketing 107 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing 5.4.1 Recolha de Informação O DBM tem origem e destino nas estratégias de marketing das organizações [Hughes, 1994] servindo de meio para alcançar os objectivos aí determinados. Neste contexto, a fixação dos objectivos de marketing define, em primeira instância, a orientação para todo o projecto, permitindo aos analistas organizar a recolha de dados de diversas fontes e a constituição das BD de marketing. 5.4.1.1 Recolha de Dados Englobado no processo de recolha de informação, esta actividade consiste em proceder à recolha dos dados, os quais normalmente se podem encontrar em sistemas diversos, em locais desconhecidos do analista, ou mesmo em suportes que não sejam digitais (e.g., papel). Esta fase de recolha é morosa e os desafios na sua execução podem ser descritos da seguinte forma [Pyle, 1999]: Problemas legais e éticos - podem existir barreiras legais ou éticas que impeçam que os dados sejam disponibilizados para análise, e.g., no caso das instituições financeiras o acesso aos dados encontra-se regulamentado pela legislação portuguesa. É possível que existam também limitações de ordem ética que restrinjam o acesso aos dados como ocorre, por exemplo, nos dados relativos a informações clínicas; Motivos organizacionais e estratégicos - a existência de motivos de natureza organizacional e estratégicos que condicionem o acesso aos dados verifica-se sempre que os mesmos possam revelar segredos da actividade da organização, como e.g., o caso dos dados relativos ao uso fraudulento de cartões de crédito, trata-se de uma informação sobre a qual os emissores de cartões de crédito pretendem o máximo sigilo; 108 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Razões políticas - o acesso aos dados ou a sua titularidade pode estar ligado a pessoas, departamentos ou organizações as quais, pelas mais diversas razões, podem não apoiar as iniciativas de utilização desses dados; Formato dos dados - a evolução dos sistemas tem proporcionado ao longo dos anos diferentes formas e formatos para armazenamento e codificação dos dados. Esta heterogeneidade de formatos condiciona o processo de recolha, na medida que obriga a processos específicos para cada formato, e.g., os dados que ainda podem estar guardados em sistemas operativos antigos e descontinuados como seja o CP/M24; Acesso aos dados - Para que os dados possam ser utilizados é necessário que os mesmo estejam acessíveis pelo sistema onde se desenvolverá o trabalho de análise. Este facto obriga à colocação dos dados num sistema ao qual as estações de trabalho possam aceder on-line, forçando por vezes a duplicação dos dados; Sistemas legados - Como já referido anteriormente, a evolução dos sistemas promoveu, com alguma frequência, a coexistência de legados com sistemas contemporâneos nas organizações. Os sistemas mais antigos, no tempo em que foram desenvolvidos ou porque se perderam com o tempo, não estão dotados de documentação que permita uma extracção fácil da informação neles contida. Além disso, é possível a ocorrência de problemas de compatibilidade ao nível dos dados, como seja o caso entre de algumas aplicações proprietárias e os sistemas gestores de BD que não possuam equivalência para todos os tipos de dados existentes, levando a que a unificação dos mesmos seja mais uma tarefa que o analista terá que realizar; Granularidade dos dados - Representa o nível de detalhe em que os dados são armazenados. Os sistemas tradicionais, para que possam assegurar as suas tarefas, armazenam os dados com o maior detalhe possível (também denominado como registo de transacção). No povoamento dos DataWarehouses (DW), por motivos de 24 CP/M Control Program For Microcomputers . primeiro sistema operativo padronizado para microcomputadores, criado por Gary Kildall e John Torode em 1975. 109 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing desempenho, e.g., é comum a totalização ou sumariação de dados, isto é, os dados relativos a vendas de produtos são armazenadas de uma só vez em lugar de se guardar o valor referente a cada transacção (data, hora, quantidade e preço). Uma vez resumidos e armazenados no DW os dados dificilmente podem voltar a representar detalhe; 5.4.1.2 Constituição da Base de dados de Marketing As fontes de informação traduzem-se, num contexto de DBM, em todos os locais onde existe informação sobre clientes e prospects25, seja relativo à actividade dos clientes (natureza transaccional – vendas), seja relativo à relação estabelecida entre a organização e os clientes (registo de reclamações, participação em promoções). A criação de BD de marketing é orientada pelos objectivos de marketing, aos quais irão servir como elemento de suporte.O objectivo da utilização das BD em marketing consiste, de entre outros objectivos, na identificação de prospects, no reforço da imagem de marca, na criação de interacção com o consumidor, ou na contabilização dos resultados de uma acção de marketing [Hughes, 1995]. No momento da constituição das BD são considerados todos os tipos de suportes, havendo para os casos de informação em papel (e.g., formulários, inquéritos ou cupões de desconto) necessidade de se proceder à sua recolha manual [Pinto et al., 2004]. A natureza das fontes de informação (Figura 28) pode ser de três tipos distintos: interna, externa ou de documentos relativos a estudos de mercado e indicadores estatísticos [Drozdenko et al., 2002]. Angariação de dados internos, presentes nos diversos sistemas da empresa ou de empresas pertencentes à mesma organização; dados internos mas registados em 25 Prospect – Individuo não-consumidor de um determinado produto ou serviço que tem potencial de vir tornar-se num consumidor, se devidamente motivado. Indivíduos consumidores de produtos concorrentes idênticos aos da empresa [Kotler, 2002]. 110 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing suportes não tecnológicos e como tal sujeitos à recolha manual dos mesmos (e.g., formulários, reclamações, sugestões); Dados externos, provenientes de empresas do mesmo grupo organizacional ou adquiridas a empresas externas; Dados recolhidos a partir de indicadores estatísticos ou estudos de mercado Estudos Interno Externo realizados. Figura 28 – Recolha de informação de fontes diversas Uma vez recolhidos os dados, existe uma etapa intermédia, bastante importante e consumidora de muito do tempo dos analistas, que consiste na selecção dos registos. Face à heterogeneidade das fontes de dados é necessário proceder a uma uniformização dos mesmos, no sentido de evitar a duplicação de registos, incongruências, inconsistências e violações de domínio. A definição de uma BD de marketing activa é divida em três fases [Shepard, 1998]. A primeira, já referida anteriormente, consiste na aquisição dos dados. A segunda refere-se à gestão e manutenção da própria BD, que irá servir de base para a realização das acções 111 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing de marketing; finalmente, a terceira consiste na actualização das BD com base em acções de marketing desenvolvidas ou simplesmente em rotinas de actualizações ou inserções de dados. As BD de marketing funcionam como armazém central de dados que servirá de base ao desenvolvimento de todas as acções de DBM [Shepard, 1998], nomeadamente aquelas que envolvem a extracção de conhecimento em BD. 5.4.2 Extracção de Conhecimento O desenvolvimento do processo de DBM suportado na DCBD concretiza-se pela realização das actividades de análise e exploração dos dados, pré-processamento, modelação e avaliação de resultados [Uthurusamy et al., 2002] (Figura 29). A extracção de conhecimento surge, neste contexto, como um processo que ajuda a descodificar as relações existentes entre os dados e que estão para além da capacidade cognitiva do analista [Drozdenko et al., 2002] Figura 29 - Processo de DCBD (adaptado de [Fayyad et al., 1996]) 112 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing O objectivo da DCBD no âmbito da sua aplicação em projectos de DBM é transformar dados em resultados práticos permitindo numa fase seguinte actuar com a informação obtida. As fases que compõem a DCBD são expostas em seguida. 5.4.2.1 Análise e Selecção dos Dados A análise dos dados disponíveis torna-se numa fase relevante que irá permitir ao analista a compreensão dos dados, através da sua análise e descrição, assim como a selecção dos dados (definição de conjunto treino e conjunto teste) sobre os quais irá desenvolver todo o trabalho de extracção de conhecimento. A identificação de todos os atributos utilizados na análise deve ser realizada com o auxílio de um especialista no domínio do negócio (e.g., profissional de marketing directo), havendo contudo o risco desse procedimento limitar a originalidade do conhecimento descoberto caso sejam considerados pressupostos errados [Santos et al, 2005]. Sempre que possível, o analista de dados deverá trabalhar isoladamente (pese embora o custo de tempo desta opção) e adicionar ou retirar atributos aos modelos, verificando a importância destes no conhecimento descoberto. A selecção de atributos consiste em encontrar um subconjunto sobre o qual os algoritmos utilizados na modelação irão trabalhar. As razões que justificam o uso de métodos para a selecção de atributos são [Lee et al., 1999]: Muitos dos algoritmos não funcionam bem com grandes quantidades de atributos, pelo que a selecção dos atributos pode melhorar o seu desempenho; O conhecimento induzido por alguns algoritmos é frequentemente mais compreensível quando o número de atributos é mais reduzido; 113 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Vertente económica dos dados - deve considerar a substituição de atributos mais dispendiosos (e.g., dados de BD especializadas) por outros mais económicos (e.g., dados de BD de empresas do mesmo sector de actividade). Na bibliografia encontram-se diversas abordagens propostas para seleccionar um subconjunto de atributos, nomeadamente [Kohavi, 1997], [Baranauskas et al., 2003]: Encapsulada – esta abordagem consiste na selecção de atributos realizada como parte do processo de criação do modelo por parte de um algoritmo de DM; Filtro – consiste na aplicação de um método para a selecção de atributos anterior à aplicação de algoritmos de DM. Normalmente desenvolve-se pela análise das características do conjunto de exemplos disponíveis, permitindo seleccionar alguns e excluir outros; Wrappers – esta abordagem consiste em seleccionar um subconjunto de atributos e medir a precisão do classificador induzido sobre esse subconjunto. Dentro do próprio subconjunto é realizada uma pesquisa que gera menor erro. Essa pesquisa avalia o subconjunto candidato, até que o critério de paragem, relacionado com a precisão do classificador induzido, seja satisfeito; Para além dos métodos enunciados existe ainda a sensibilidade do analista, segundo a sua experiência e com conhecimento adquirido ao longo do processo confere-lhe uma capacidade de perspectivar o tipo e a quantidade de dados que melhor se adapta a cada situação. 5.4.2.2 Pré-processamento e Transformação de Dados O pré-processamento e a transformação de dados é tido na literatura como uma fase que envolve uma grande quantidade de conhecimento do domínio e de tempo. Muitos investigadores têm citado o facto dos dados recolhidos directamente a partir de BD serem 114 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing de má qualidade, ou seja, possuírem informações incorrectas e imprecisas, além de uma grande quantidade de valores desconhecidos. Pese embora o facto de muitos dos algoritmos utilizados na fase de modelação terem sido projectados para manipular dados em tais situações, é expectável que esses mesmos algoritmos gerem resultados mais precisos caso a maioria dos problemas presentes nos dados hajam sido removidos ou corrigidos. A Figura 4 esquematiza e distingue as actividades relacionadas com o pré-processamento de dados das actividades relacionadas com a transformação de dados. Tratamento Dados Pré-Processamento Omissos Transformação Outliers Qualitativos Novos atributos Normalização Dispersão valores Discretização Integridade Transposição Redundância Inconsistências Ruído Defaults Figura 30 – Organização das actividades de pré-processamento e transformação de dados De um modo geral, o pré-processamento dos dados é um processo semi-automático, dependendo da capacidade do analista em identificar os problemas presentes nos dados e de seleccionar os métodos mais apropriados para solucionar cada um dos casos. 115 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing As actividades mais comuns de pré-processamento, conforme já foi referido no capítulo 3 secção 3.4.2 (Figura 30) são: Tratamento de valores omissos; Avaliação de excepções (outliers); Derivação de novos atributos; Dispersão de valores; Integridade da informação do registo; Identificação de atributos duplicados e redundantes; Identificação de inconsistências; Identificação de ruído ou poluição dos dados; Identificação de valores atribuídos por definição (defaults). A transformação de dados, conforme já abordado em detalhe no capítulo 3, consiste em trabalhar a representação dos dados a fim de superar quaisquer limitações existentes nos algoritmos empregues na modelação. As transformações mais comuns são (Figura 30): Normalização de valores; Discretização de atributos quantitativos; Transformação de atributos qualitativos em quantitativos; Transposição de tabelas. 116 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing A fase de pré-processamento e transformação de dados é como já foi referido anteriormente, responsável por grande parte do tempo consumido num projecto de extracção de conhecimento em BD [Cabena et al., 1998]. 5.4.2.3 Modelação A fase de modelação consiste na selecção de técnicas que permitam alcançar os objectivos propostos para a DCBD e que devem encontrar-se enquadrados com os objectivos da organização e de marketing. Contudo a especificação dos objectivos de DM depende ainda da especificidade da actividade de marketing (definida no âmbito dos objectivos de marketing) a que se encontra ligada. Procurando sistematizar a utilização dessas técnicas num contexto de projectos de DBM, apresentam-se na Tabela 10 alguns casos de utilização havendo para cada um, tipologia relativa aos objectivos de DM, respectiva descrição e uma lista de técnicas disponíveis. Tabela 10 – Exemplos de aplicação em casos de marketing Questão Como Qual Quem Quando Que Exemplo Actividades DM Detecção de Fraudes Detecção de Desvios Previsão de abandonos Desenvolvimento de produto Previsão Previsão Segmentação de clientes Descrição Cross-Selling Determinação de tendências Análise de risco Previsão Previsão Análise de Desvios Detecção Desvios Aquisição de Clientes Previsão Análise do Cabaz de Compras Análise do perfil de clientes Análise de dependências Tarefas DM Árvores de Decisão Redes neuronais artificiais Árvores de Decisão Redes neuronais artificiais Indução de Regras Redes neuronais artificiais Árvores de Decisão Árvores de Decisão Redes neuronais artificiais Indução de Regras Indução de Regras Redes neuronais artificiais Árvores de Decisão Árvores de Decisão Redes neuronais artificiais Indução de Regras Análise de dependências Indução de Regras Descrição Redes neuronais artificiais Árvores de Decisão 117 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Pela análise da Tabela 10 é possível constatar para um objectivo de marketing e.g., a questão “Quando”, é possível indicar três actividades de marketing (determinação de tendências, análise de risco e análise de desvios) fazendo corresponder a cada uma outros tantas actividades de DM. Uma vez identificada a actividade de marketing com a actividade de DM, determina-se o conjunto de técnicas ou tarefas de DM que melhor se enquadram com os objectivos desejados. 5.4.2.4 Exemplos de Aplicação em projectos de DCBD em Acções de Marketing O processo de DCBD pode ser aplicado em muitas actividades de marketing de naturezas distintas. Nesta secção serão apresentados alguns exemplos de aplicação em Marketing considerando o tipo de problema de DCBD associado e a técnica de DM empregue para a sua solução. Lançamento de um novo produto Problema: Previsão Técnica: Árvores de decisão ou redes neuronais artificiais Sempre que uma organização decide lançar no mercado um novo produto, necessita de analisar diversos factores para que possa concluir relativamente ao retorno do investimento pretendido. A utilização de árvores de decisão sobre os dados históricos de vendas relativos a produtos análogos no mercado, permite projectar um índice de desempenho (aceitação do público alvo) para um novo produto, auxiliando assim a tomada de decisão. 118 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Aumento da eficácia das acções de Marketing Directo Problema: Classificação Técnica: Árvores de decisão A análise detalhada às respostas a campanhas promocionais realizadas anteriormente (pela própria empresa ou por outras e para as quais existem registos), contendo características dos clientes, viabiliza a classificação de consumidores em função do seu perfil. Através das AD é possível verificar a resposta a determinado produto em função do seu perfil, possibilitando assim direccionar as acções de marketing directo para aqueles que têm mais propensão em responder e eventualmente cancelar ou determinar acções alternativas para os menos reactivos. Análise do cabaz de compras Problema: Associação de grupos Técnica: Regras de Associação (indução de regras) Este exemplo corresponde provavelmente ao caso com maior visibilidade das técnicas de DM em marketing e parte do pressuposto da compra de determinados produtos estar relacionada com a compra de outros produtos diferentes. As regras de associação permitem identificar a associação entre diferentes produtos no acto de compra. Ao identificar produtos directamente relacionados, podem-se desenvolver acções de marketing onde se promove a venda conjunta do produto X quando o produto Y estiver a ser adquirido pelo cliente. As regras de associação são estabelecidas através de uma análise ao histórico de vendas dos produtos para cada cliente. 119 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Análise do comportamento de compra de clientes Problema: Classificação Técnica: Árvores decisão O objectivo deste tipo de problema é o de classificar os clientes de acordo com seus comportamentos ou atitudes, através de informações qualitativas e quantitativas (e.g., questionários, inquéritos de satisfação). Com a informação obtida, os clientes são segmentados em diferentes grupos. Através do historial e da informação recolhida dos clientes e da sua classificação, modelos em AD são desenvolvidos e utilizados para classificação de novos clientes, ou verificação de mudanças de segmentos dos clientes existentes. Segmentação do mercado por regiões Problema: Segmentação Técnica: Técnicas de Clustering (algoritmo K-means) Com a relação entre o perfil de cada consumidor e sua localização geográfica, é possível identificar as regiões com maior taxa de vendas. Desta forma, podem-se realizar estratégias de marketing direccionadas especificamente para determinadas regiões com o objectivo de melhorar a rentabilidade da região. 120 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing CRM: Análise do serviço prestado ao cliente Problema: Descrição Técnica: Regras de Associação A utilização das regras de associação pode ocorrer para a comparação e análise do serviço prestado ao cliente e da satisfação correspondente, permitindo determinar alguma situação desfavorável para a organização. A análise do histórico do cliente viabiliza a obtenção de associações que ponham em causa o sucesso do serviço ao cliente. A descoberta destas associações pode proporcionar valor acrescentado para a relação entre o cliente e a empresa. Determinação de potenciais clientes para um produto Problema: Classificação Técnica: Redes neuronais artificiais A exploração das BD permite às empresas uma utilização cruzada em termos de produtos, e.g., uma editora que possua registo sobre clientes de restaurantes em 3 países pode, através da técnica de RNA, realizar uma classificação dos clientes para os quais irá desenvolver acções de marketing directo. 121 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Classificação de clientes em categorias previamente definidas Problema: Classificação Técnica: Árvores de decisão A aplicação de AD permite a verificação e análise de variáveis que melhor discriminam dois ou mais grupos, possibilitando ainda a construção de regras de classificação para novos elementos. A realização de uma análise de classificação é importante para determinar as características que permitem classificar os clientes, e.g., clientes bons e maus pagadores, permitindo assim à empresa desenvolver contactos comerciais em condições previamente determinadas. 5.4.3 Desenvolvimento de Acções de Marketing O DBM é apresentado segundo a perspectiva dos principais objectivos que a empresa pretende atingir e assim permitir, como exemplo geral, o conhecimento das características dos clientes, desenvolvimento de novos produtos, ou um maior controlo na distribuição do produto [Drozdenko et al., 2002]. Depois de realizado um plano estratégico e atendendo aos obstáculos à implementação estratégica, a aplicação de DBM permitirá, de uma forma resumida, potenciar um maior uso comercial do produto, efectuar vendas cruzadas entre produtos, up-selling, rentabilizar a oferta, avaliar o desempenho e melhorar o relacionamento com os clientes e atingir os melhores prospects (Figura 31) [Dorzdenko et al., 2002]. 122 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Potenciar a utilização do produto Atingir os melhores prospects Melhorar o relacionamento com os clientes Cross-selling Database de Marketing Up-selling Avaliação do desempenho dos clientes Rentabilização da oferta Figura 31 - Recompensas da aplicação de DBM (adaptado de [Dorzdenko et al., 2002]) A natureza operativa do DBM coincide com os objectivos traçados pela estratégia de marketing a que se encontra associado. O DBM funciona como um “módulo” num conjunto de processos de marketing entre a organização e os seus clientes. Os objectivos, nesta perspectiva, orientam-se em duas vertentes: objectivos de negócio e objectivos de marketing [Fayerman, 2002]. Objectivos de Negócio Aumentar as vendas: Identificar os melhores consumidores; Analisar os consumidores que saíram; Identificar segmentos de merchandising ou pontos de venda com baixo desempenho; Promoção do cross-selling (venda cruzada ou associada); Auxilio no planeamento da distribuição dos pontos de venda; Optimizar recursos: Determinar a lógica de distribuição mais adequada; Simplificar processos no contacto com o consumidor; Desempenho da organização: 123 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Obter e ampliar a vantagem competitiva; Avaliar as respostas a promoções e publicidade; Reduzir o custo de aquisição de novos consumidores; Melhorar o serviço de atendimento ao consumidor. Objectivos de marketing Em qualquer organização o departamento de marketing procura constantemente meios de aumentar o seu conhecimento acerca dos consumidores de um modo individual, com o objectivo de formar novos segmentos estratégicos de clientes. Esta segmentação, utilizada geralmente para fins de marketing, permitirá não só o desenvolvimento de novas promoções ou campanhas direccionadas como também actualizar a informação disponível para os serviços de apoio a clientes. Marketing Directo Caracterização ao nível do indivíduo ou de grupos de indivíduos com características sociais ou demográficas semelhantes; Viabilização de uma maior aproximação entre a organização e os seus clientes por via de um tratamento mais personalizado e adequado; Detecção de alterações no comportamento que condicionem uma mudança de atitude dos clientes face à organização – supervisão da actividade dos clientes; Adaptar a oferta ou mesmo antecipar as expectativas, face às necessidades ou desejos de produtos ou serviços, dos clientes; Facilitar o desenvolvimento de novos produtos adequados ao perfil dos indivíduos registados nas BD; Optimizar a Segmentação Isolar grupos de consumidores; Analisar o perfil dos consumidores; Reconhecer e identificar os consumidores actuais como indivíduos e/ou grupos; Distinguir os consumidores por impulso dos consumidores ponderados; Determinar os melhores clientes; Análise da propensão à aquisição por parte dos consumidores; Analisar os processos de compra dos consumidores; Identificar nichos de mercado (oportunidades emergentes); 124 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Auxiliar na selecção de mercados; Prever e prevenir o abandono dos consumidores. Personalização eficiente Adequação da mensagem a cada consumidor; Promoção do contacto directo com os consumidores; Win-Win: Beneficiar o cliente (ofertas e promoções) aumentado o lucro da organização; Personalizar e adequar a oferta a segmentos de clientes; Desenvolver a comunicação direccionada para potenciais clientes. Estabelecimento de relacionamento com o consumidor Criar elos de ligação com o consumidor; Tratar o consumidor de um modo pessoal; Promover a aproximação entre ponto de venda e consumidor; Ouvir os consumidores, principalmente em reclamações; Responder sempre às solicitações; Desenvolver estratégias de comunicação de modo a prolongar a relação e estimular a compra. 5.4.3.1 Medição dos Resultados e da Eficácia dos Modelos A análise dos resultados do processo de DBM pode ser vista em duas vertentes: (i) validade - relativamente aos objectivos de DM; (ii) utilidade - face aos objectivos de negócio e de marketing. Os objectivos de DM são atingidos quando o analista obtém o nível de resultados esperado. Esta análise aos resultados, passa aplicação de métodos de avaliação analíticos como seja o caso da construção matriz de confusão (referida no capítulo 3) e pela avaliação dos resultados na perspectiva comparativa entre a sua aplicação ao conjunto de treino e ao conjunto de teste. 125 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Quanto à utilidade dos resultado obtidos estes dependem directamente do problema a que se referem bem como da informação existia antes do modelo. Numa lógica comparativa considere-se como exemplo geral o caso de uma empresa que possui informação sobre os seus clientes que lhe confere um taxa de acertos na ordem dos 15%. Caso os modelos de DM tenham uma acuidade na ordem dos 50%, pese embora a acuidade não seja significativa, o diferencial de 35% de aplicado ao universo de clientes poderá significar um ganho importante para empresa. Relativamente aos objectivos de negócio e de marketing, estes deverão ser enquadrados com a própria estrutura da organização, uma vez que o processo não inclui a concretização prática dos seus resultados, ou seja, o desenvolvimento das acções de marketing suportadas pelos resultados do DBM está ainda condicionado por outros factores como sejam os recursos financeiros para o seu desenvolvimento ou os recursos humanos para a sua concretização e implementação. Em síntese, o modelo proposto alinha os objectivos de DM com os objectivos das actividades de marketing, enquadrados com os objectivos de negócio, sistematizando as actividades que vão desde a recolha de dados até à aplicação e avaliação dos resultados obtidos. 5.5 DM4DBM versus CRISP-DM A metodologia proposta de DM para Database Marketing assenta o seu desenvolvimento em três componentes principais: Recolha de informação: Sistematiza as actividades de recolha de dados quanto ao tipo de dados; à sua origem e problemática na sua aquisição; 126 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Extracção de Conhecimento: Expõe todos os aspectos relacionados com as actividades de procura e extracção de conhecimento em BD, nomeadamente no que respeita às actividades de DM em marketing; Aplicação e avaliação de resultados: Sistematiza e expõe a aplicação dos resultados obtidos com tarefas de DM em actividades de marketing, instanciando para cada um, conjunto de exemplos e técnicas recomendáveis para a sua resolução. A utilização da metodologia DM4DBM inicia-se com o enquadramento de todo o projecto em termos organizacionais, quer em termos meramente organizativos (e.g., departamentos afectos ao projecto) quer quanto a objectivos de marketing, reflectidos na definição posterior das actividades de marketing necessárias para a sua persecução. A Figura 32 representa um paralelismo entre as componentes e respectivas actividades da metodologia DM4DBM com a metodologia de DM CRISP-DM (representada pela redução da Figura 12). Em seguida especifica-se o funcionamento deste instrumento bem como se define e caracteriza cada uma das actividades. 127 Objectivos Data Mining Objectivos Marketing Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing Figura 32 – Paralelismo entre as metodologias DM4DBM e CRISP-DM O registo e análise dos dados, inclui toda a actividade de importação de dados e aglomera duas fases da metodologia CRISP-DM (fases de Estudo do Negócio e de Exploração de Dados). Dado o facto de ambas elaborarem um estudo prévio por forma a melhorar a compreensão do problema real em termos de enquadramento dos objectivos em função do problema de negócio; 128 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing A definição dos Objectivos de Marketing encontra um paralelo na fase de Estudo de Negócio da metodologia CRISP-DM, pelo facto de ambos os casos considerarem o negócio em que se irá desenvolver o projecto, havendo contudo na metodologia DM4DBM a particularidade de o mesmo objectivo de marketing poder implicar o desenvolvimento de diferentes actividades de marketing, cada uma com o seu objectivo específico (concorrente com os objectivos gerais de marketing); A criação da BD de Marketing encontra referencial na metodologia CRISP-DM em termos de Preparação de Dados devido à sua natureza seleccionadora de registos. Tal como referido é no decorrer do processo da criação de BD de marketing que se realiza a selecção de dados que irão servir de base para a realização das acções de marketing; A fase de definição dos objectivos de DM da metodologia DM4DBM encontra paralelo na metodologia CRISP-DM na fase de Modelação, consistindo na selecção dos algoritmos a serem usados e efectivo processamento do modelo; A tarefa de Selecção de Dados tem correspondência dentro da metodologia CRISP-DM em termos da Exploração de Dados, pelo facto de incorporar actividade de reconhecimento e explicação dos dados disponíveis; O Pré-Processamento de Dados define-se em paralelo com a fase da Preparação de Dados, sendo em termos da metodologia DM4DBM mais abrangente. Isto deve-se ao facto da sua recursividade ser aplicável em várias actividades de marketing, ou seja, ao existir uma diversidade de actividades de marketing para o mesmo objectivo (marketing), possibilita a coexistência de diferentes objectivos de DM no mesmo projecto de DBM; A fase da Modelação tem como preocupação a selecção e aplicação de algoritmos de DM que permitam alcançar os objectivos das actividades de marketing. No paralelo entre metodologias, em ambas existe a mesma denominação; 129 Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing A criação de Modelos de Marketing (segmentação, classificação, determinação de perfis, detecção de desvios e análise de respostas) para a definição das actividades de marketing requer a existência de uma avaliação prévia aos resultados obtidos, sendo por isso estabelecido o paralelo com a metodologia CRISP-DM ao nível da fase de avaliação, uma vez que é nesse momento que os resultados de DM são avaliados em função das necessidades (objectivos) estabelecidas; A Implementação caracteriza-se pela aplicação dos resultados às actividades de marketing. Os vários modelos (decorrentes dos vários resultados obtidos) devem ser avaliados tendo em consideração os objectivos de marketing, certificando-se de que não existem falhas ou contradições em relação às regras do negócio. Os vários parâmetros das ferramentas de modelação devem ser ajustados, os modelos resultantes devem ser convenientemente interpretados e o desempenho explicado. Face ao exposto, conclui-se que a metodologia DM4DBM concretiza fases da metodologia CRISP-DM em termos de aplicação do DM ao marketing. O desenvolvimento de projectos DBM segundo a metodologia DM4DBM permitirá incorporar nas actividades de marketing, processos já comprovados e demonstrados cientificamente para análise e exploração dos dados. 130 Capítulo 6 Database Marketing Aplicado à Distribuição Capítulo 6 6 Database Marketing Aplicado à Distribuição Neste capítulo é apresentado um caso de experimentação da metodologia DM4DBM proposta no capítulo anterior, aplicado a um problema real na área da distribuição de produtos de uso doméstico, a nível nacional, com apresentação e discussão dos resultados obtidos. 6.1 Introdução O caso de experimentação aqui descrito desenvolveu-se numa organização que actua no mercado da distribuição de produtos para consumo doméstico, normalmente vendidos ao público em grandes superfícies sem que exista qualquer contacto directo entre a própria organização e o cliente final. Com o objectivo de compreender e conhecer o perfil do cliente para os produtos comercializados, iniciou-se um processo de marketing relacional esquematizado na Figura 33. No âmbito deste projecto foi criada uma revista de carácter periódico que, para além dos conteúdos genéricos relacionados com o quotidiano das famílias, serve de suporte à emissão de questionários e vales de desconto i.é., cheque oferta com determinado valor numerário a descontar directamente na compra de um determinado produto ou gama de produtos. O primeiro envio desta revista foi realizado, sem qualquer 131 Capítulo 6 Database Marketing Aplicado à Distribuição limitação, para todos os contactos, sem excepção, presentes na Base de Dados (BD) inicial. Os leitores que recebem em sua casa a revista são convidados a participar nas promoções divulgadas e a responder aos questionários, assegurando desta forma a continuidade da recepção da revista. Os vales oferecidos podem ser rebatidos em qualquer grande superfície, com o benefício imediato da redução no preço a pagar pelo produto. O rebatimento dos vales nos supermercados e a resposta aos questionários permite à organização identificar quem rebateu vales de cada produto, concretizando o ciclo entre a organização e o cliente (Figura 33), objectivo último de todo o programa. Recolha Dados Questionário Questionarios BD Revista Clientes Revista c/ vales desconto + Questionários Vales Vale Dados Vales rebatidos Supermercado Figura 33 - Fluxo de informação relativo ao projecto de marketing relacional Ao fim das 8 primeiras edições da revista, o número de contactos para o seu envio ascendia a cerca de 613,000 tendo sido emitidos 198 vales de produto distintos e registados mais de 11 milhões de registos, relativos a vales emitidos. 132 Capítulo 6 Database Marketing Aplicado à Distribuição Os critérios inicialmente adoptados para a selecção dos contactos para o envio, posterior ao primeiro número da revista, foram definidos de um modo arbitrário sem qualquer validação científica e consistiam basicamente naqueles indivíduos que rebatiam os vales (pelo menos uma vez) ou respondiam aos questionários (pelo menos ao questionário básico – confirmação dos dados de contactos). A metodologia proposta assente na revisão teórica realizada nos capítulos anteriores, permitiu a identificação dos requisitos a cumprir no desenvolvimento de projectos de Database Marketing (DBM). Este capítulo apresenta um caso de aplicação da metodologia DM4DBM proposta e encontra-se organizado de acordo com as etapas: A) Objectivos de Negócio e de Marketing a1) Enquadramento do projecto com os objectivos de negócio e de marketing; a2) Definição dos objectivos do estudo; a3) Recolha e exploração dos dados: Interpretação dos dados disponíveis; Importação dos dados e constituição da BD inicial; Filtragem e limpeza de dados; a4) Criação da BD de Marketing: Sistematização da angariação de dados; Selecção dos registos elegíveis; B) Extracção de Conhecimento: b1) Avaliação da qualidade dos dados; b2) Análise dos dados; b3) Pré-processamento de dados; b4) Modelação; b5) Avaliação dos resultados; C) Desenvolvimento de Acções de Marketing: c1) Integração dos resultados em acções; c2) Análise dos resultados; D) Avaliação dos Resultados Obtidos – Discussão; 133 Capítulo 6 Database Marketing Aplicado à Distribuição As condições de experimentação dependeram directamente dos dados disponibilizados pela empresa promotora, havendo que desde o inicio, por razões de confidencialidade, um acordo de sigilo quanto à divulgação dos dados, pelo menos no que refere a identificação da empresa, marcas ou produtos. A ferramenta de DM escolhida para o desenvolvimento dos casos de estudo foi o Clementine Data Mining System da SPSS Inc. Os materiais de suporte ao projecto foram quer as BD disponibilizadas pela empresa promotora bem como diferentes exemplares de revistas emitidas, questionários e vales desconto. 6.2 (A) Objectivo s de Negócio e de Marketing 6.2.1 (a1) Enquadramento A existência de uma BD com grandes dimensões evidencia uma das maiores limitações inerentes à sua utilização na maioria das organizações: a (in)capacidade para extrair informação relevante, para além daquilo que os processos tradicionais permitem. O projecto em estudo promoveu a constituição de uma BD com mais de 11 milhões de registos não havendo até ao início deste trabalho qualquer abordagem de exploração dos dados para além dos processos tradicionais da estatística descritiva ou da realização de consultas SQL simples. Este trabalho permitiu ainda concretizar as práticas enumeradas no marketing relacional no que respeita à utilização de BD, mas para as quais não se conhece nenhum trabalho relevante com resultados práticos. 134 Capítulo 6 Database Marketing Aplicado à Distribuição 6.2.2 (a2) Objectivos do Estudo e Abordagens Consideradas Os objectivos para o presente estudo têm duas perspectivas concorrentes: perspectiva organizacional e perspectiva de Business Intelligence (BI): Na perspectiva organizacional, os objectivos propostos consistem na caracterização do perfil dos clientes para cada gama de produtos, ou seja, com base nas respostas dadas aos inquéritos e conhecendo os produtos que cada indivíduo adquiriu (pelo rebatimento do respectivo vale) deseja-se saber as motivações ou as preferências padrão dos consumidores para cada produto; Por outro lado, no âmbito do BI, pretende-se realizar um trabalho de Descoberta de Conhecimento em Bases de Dados (DCBD) visando a determinação de características comuns dentro de um conjunto de indivíduos, relativo a uma determinada gama de produtos; Face à diversidade de produtos comercializados pela organização (cerca de 70 produtos agrupados por 11 marcas) e considerando os dados disponíveis (questionários respondidos e vales rebatidos), identificam-se duas abordagens distintas quanto aos objectivos e metodologia a seguir: Orientada ao cliente: determinar para cada cliente o conjunto de produtos que descreve o seu cabaz de compras; Orientada ao produto: para cada produto determinar o perfil dos clientes que o adquirem. Considerando o facto de existir relativamente poucos dados que permitam caracterizar cada cliente, a primeira abordagem acaba por se revelar inviável pelo facto de não ser possível caracterizar o comportamento de um só cliente perante a gama de produtos 135 Capítulo 6 Database Marketing Aplicado à Distribuição apresentados. O projecto seguiu portanto com o objectivo de conhecer o perfil dos consumidores para um produto ou família de produtos. 6.2.3 (a3) Recolha e Exploração dos Dados O desenvolvimento de um projecto de Database Marketing (DBM) como o caso em estudo envolve o manuseamento de elevados volumes de dados. Decorrente desse facto, pressupõe-se a angariação de dados, que sejam provenientes de BD internas (relativas a campanhas anteriores de marketing, de outros sistemas existentes ou mesmo dados em formato que não electrónico), quer de BD nacionais alugadas a empresas especializadas (e.g., BD equivalentes à PRIZM da Claritas26, da CONSUMER INFOBASE da InfoBase27, ou a EXPERIAN da Acxiom28). 6.2.3.1 Avaliação dos dados internos disponíveis O sucesso do DBM depende directamente dos dados disponíveis, sobre os quais se irá desenvolver. O processo da recolha de dados, mesmo internos à organização, depende de um conjunto de aspectos que condicionam a disponibilidade e a qualidade dos mesmos. Os dados internos disponíveis provinham de: Dados contidos em diferentes sistemas de informação da organização ou de outras do mesmo grupo económico; Dados relativos a campanhas anteriores de marketing (suporte digital e em suporte comum – como sejam cupões de resposta ou formulários respondidos por clientes). 26 www.claritas.com www.infobase.com 28 www.acxiom.com 27 136 Capítulo 6 Database Marketing Aplicado à Distribuição O processo de recolha destes dados envolveu ainda vários recursos em diferentes níveis hierárquicos da organização como gestores ou administradores de sistemas de informação, no sentido de se garantir o acesso aos mesmos dados. 6.2.3.2 Importação e criação da BD inicial Uma vez garantida a disponibilidade dos dados internos, face à escassez de contactos em quantidade, considerou-se ainda necessário o recurso ao aluguer de BD externas. Pese embora a oferta de BD no mercado permitiu a selecção de atributos que descrevam os indivíduos em termos sociais, económicos ou demográficos, a importação destes dados limitou-se exclusivamente aos atributos nome e morada. O conjunto de tabelas utilizadas no desenvolvimento deste trabalho encontram-se no Anexo I. A constituição da BD inicial de clientes ou de potenciais clientes, destinatários da revista, consistiu na elaboração de uma lista prévia de contactos (Figura 34) organizada pelo tipo de informação a que cada registo correspondia, informação de marketing, de prospecção ou operacional. Esta lista foi criada a partir da importação dos atributos, nome e morada, de BD relativas a campanhas ou acções de marketing desenvolvidas anteriormente (pela organização ou outras empresas com as quais mantém relações); dos registos directos de clientes da organização no seu sitio da internet e das BD externas (anexo H). Origem Interna BD internas Pagar para $ Dados Marketing Formulários Questionários Dados Operacionais Origem Externa Origem Externa Dados Prospecção Figura 34 – Criação da BD inicial – importação de dados 137 Capítulo 6 Database Marketing Aplicado à Distribuição A angariação de dados a partir de fontes diversas, ainda que apenas a um nível de atributos básicos (nome e morada) requer um processo de unificação dos contactos, dada a elevada probabilidade de redundância de informação sobre o mesmo indivíduo, pois pode-se encontrar registado em mais do que uma BD. A detecção de registos redundantes ocorreu nos seguintes pressupostos. Considere-se S um conjunto de dados, com os atributos a, onde S={a1,a2,a3...an}. Seja [a1]i, [a2]i,…[an]i o conteúdo de cada atributo para o registo i. O processo para detecção de registos redundantes desenvolveu-se em duas vertentes: Automático – através da aplicação de instruções SQL que visam a detecção de valores iguais em atributos distintos. Considerando o facto dos conjuntos de dados se reunirem todos num único pelo processo de importação (ST): ST = S1 U S2 Aplicando ao conjunto ST as instruções seguintes conduzem à eliminação dos registos que verifiquem a seguinte regra SE ([a1]i =[a1]j E [a2]i =[a2]j ) OU [a3]i=[a3]j OU [a4]i=[a4]j ENTÃO DELETE registoi, para todo i ≠ j instanciando: SE ([nome]i= [nome]j E [apelido]i= [apelido]j) OU ([telemovel]i=[telemovel]j E [DNasc]i= [DNasc]j) ENTÃO DELETE registoi , com i ≠ j Manual – integrando as tabelas numa só e ordenado-as alfabeticamente, é possível ao analista detectar e eliminar os registos duplicados, e.g. : Append * from tabela1 to tabela_destino Select * from tabela_destino sort by nome, apelido 138 Capítulo 6 Database Marketing Aplicado à Distribuição Neste caso após a importação das diferentes tabelas, procedia-se a uma ordenação da tabela resultante pelos atributos em análise (no caso pelo nome e apelido) e manualmente o analista poderia detectar a ocorrência de registos duplicados. Ocorreram várias situações com duplicação de registos como as exemplificadas: i) Havendo importação de dados sobre BD relativas as várias promoções distintas, é possível que um mesmo indivíduo tenha participado em mais do que uma, originando a duplicação do seu registo na BD final, ainda que possuindo codificações distintas (Tabela 11); Tabela 11 - Exemplificação de codificações distintas para o mesmo registo, na mesma BD. ID 001127 Nome João Apelido Martins Ruas Contacto 917766116 Data Nascimento 17-05-1970 Sexo M N filhos 1 ... 584012 João Martins Ruas ... 917766116 17-05-1970 ... M 1 ... 221762 João Martins Ruas ... 917766116 17-05-1970 ... M 1 ii) A concentração de tabelas de BD distintas proporciona a coexistência dos mesmos atributos, com o mesmo significado, mas codificados de modo diferente, provocando redundância de informação. Como exemplo considerese o caso dos atributos relativos ao Código do Cliente ao seu Nome e Data Nascimento. Para estes atributos é possível encontrar designações distintas tal como expresso na Figura 35. ID Tabela 1 Nome DataNasc Cod Tabela 2 CliNom DN Num Tabela 3 descrição Figura 35 – Duplicação na codificação para o mesmo atributo. 139 Data Capítulo 6 Database Marketing Aplicado à Distribuição 6.2.3.3 Filtragem e Limpeza de dados Como os dados são recolhidos de diversas fontes, verificavam-se muitos erros, ficheiros repetidos ou dados nulos, os quais deveriam ser excluídos do conjunto de dados para análise. A filtragem e limpeza de dados desenvolveu-se pela aplicação das técnicas: Levantamento de incongruências; Determinação de inconsistências; Violações de domínio Incongruências Confusão e redundância de informação para indicar o mesmo objecto (Tabela 12), como no caso Vila Nova de Gaia e Gaia ou utilização de códigos postais distintos para a mesma situação. Tabela 12 – Incongruência na codificação do mesmo objecto. País Portugal Código Postal 4000 Cidade Vila Nova Gaia Portugal 4000-230 Gaia Inconsistências A importação de dados de tabelas distintas e de sistemas distintos justificam a existência de inconsistências como sejam: utilização de métricas diferentes para medidas (m/cm), distâncias (Km/m) ou diferenças temporais (dias, anos ou horas); representações distintas para o mesmo objecto (sexo: masculino/feminino;0/1; m/f). 140 Capítulo 6 Database Marketing Aplicado à Distribuição Violação de Domínio A violação do conjunto de valores admitidos como válidos para um atributo (domínio) permite a inserção valores incorrectos na BD (Tabela 13), os quais podem enviesar a informação acerca do contacto, nomeadamente nos atributos de data nascimento e número de filhos. Tabela 13 - Exemplo de violação de domínio no atributo sexo. ID 001156 ... 584012 Nome Maria Margarida Apelido Rita Contacto 917764549 Coelho ... 937964540 Data Nascimento 17-05-1870 F Sexo N filhos 22 17-05-1976 ... E 1 6.2.4 Constituição da Base Dados de Marketing A BD sobre a qual se irá desenvolver todo o trabalho de investigação resulta da operacionalidade do sistema de marketing relacional desenvolvido pela organização promotora (modelo de dados representado no anexo K). Os dados guardados na BDM, são armazenados em tabelas distintas: Questionários: dados relativos aos questionários emitidos e distribuídos, com toda a informação relativa às respostas dadas pelos clientes às questões apresentadas; Transacções: dados transaccionais, relativos a informações sobre a emissão, distribuição e rebatimento de vales; Básicos: possui os dados básicos sobre cada cliente, como sejam os atributos nome, morada, e contactos. 141 Capítulo 6 Database Marketing Aplicado à Distribuição 6.2.4.1 Sistematização da Angariação de dados Com a circulação da primeira revista (e consequente distribuição de vales e questionários), a organização passou a receber dados cujo o processo de recolha envolve simultaneamente processamento automático e manual. O processo de registo dos vales, tratando-se de uma transacção electrónica, é realizado de uma forma automática, e resume-se a uma importação de dados de um sistema para outro. Quanto aos questionários, respondidos manualmente, existe a necessidade de recolher os dados manualmente, através de um ou vários operadores de telemarketing, os quais lêem as respostas aos questionários e os introduzem no sistema. 6.2.4.2 Selecção dos registos elegíveis A BD inicial possuía cerca 630 mil registos. A primeira triagem (limpeza) realizou-se em função dos questionários respondidos e vales rebatidos. Apenas os contactos que apresentem reacção às campanhas desenvolvidas (revistas com vales desconto enviadas para a morada de contacto) são incluídos no estudo em análise – estes clientes que reagiram consideram-se qualificados, todos os restantes são incluídos num estado de “adormecido”, correspondente à sua inactividade e não são objecto de estudo no caso em análise. A classificação inicial atribuída aos clientes, desenvolve-se em duas vertentes: Actividade do cliente, onde se consideram os vales rebatidos e os questionários respondidos (Tabela 14); Conhecimento sobre o cliente, resultante das informações de carácter pessoal, familiar e bens pessoais, fornecidas através dos questionários (Tabela 15); 142 Capítulo 6 Database Marketing Aplicado à Distribuição Tabela 14 - Classificação em função do volume de questionários e vales. Enquadramento Clientes que responderam ao questionário e rebateram pelo menos 1 vale Classificação Valiosos Clientes que rebateram vales mas não responderam a questionário Interesseiros Clientes que responderam ao questionário mas não rebateram vales Distraídos Clientes que não rebateram vales e não responderam a questionários Inactivos Tabela 15 - Classificação em função da dimensão da família e acessórios de conforto. Enquadramento Clientes com família númerosa e acessórios de conforto Classificação Valiosos Família pequena e com acessórios de conforto Valor Light Família númerosa sem acessórios conforto Valor Light Família pequena sem acessórios conforto Baixo valor Face ao objectivo explícito de se conhecer o perfil dos clientes e dada a dimensão da BD (existem cerca de 250,000 indivíduos que rebateram pelo menos um vale ou responderam pelo menos a um questionário), o projecto centrou-se exclusivamente nos denominados Clientes Valiosos em ambas dimensões referidas acima, cujo pseudocódigo usado para a selecção é descrito abaixo. SE #lar>=2 E ArtigoConforto_1=sim E ArtigoConforto_2=sim E RebateuVale=sim E RespondeuQuestionario=sim ENTÃO Cliente= Valioso Com as premissas definidas seleccionaram-se 29,285 registos, correspondentes a indivíduos cuja a sua actividade no projecto (quanto a rebatimento de vales e resposta a questionários) ou as características sociais e familiares eram as desejadas. Contudo os registos obtidos não se encontravam prontos a serem utilizados, sendo necessário ainda desenvolver actividades de pré-processamento como algumas das referidas em seguida. 143 Capítulo 6 Database Marketing Aplicado à Distribuição 6.3 (B)Descoberta de Conhecimento em Bases Dado s O processo de DCBD no âmbito deste projecto desenvolveu-se segundo o processo proposto na metodologia proposta DM4DBM (Figura 27), segundo o qual existem as fases de análise de dados (avaliação da qualidade); Pré-processamento; Modelação e finalmente avaliação dos modelos obtidos. 6.3.1 (b1) Compreensão dos dados Como já referido anteriormente o conjunto de dados inicial era significativamente maior tanto em número de registos como na quantidade de atributos. A informação inicial sobre alguns dos dados disponíveis encontram-se no anexo J. Embora o conjunto de dados utilizado em cada modelo seja relativamente pequeno face à dimensão da BD contudo, utilizando técnicas de aprendizagem automática (e.g., Redes neuronais artificiais) mesmo com um número relativamente pequeno de casos, desde que esteja de alguma forma garantido que a amostra é representativa do universo a estudar, é possível induzir um padrão genérico. Os diferentes modelos gerados foram suportados em conjuntos de dados onde os principais atributos foram os que se apresentam na Tabela 16. Tabela 16 – Atributos utilizados na modelação Atributo Descrição Tipo Cli_id Código de identificação do cliente Inteiro #lar Dimensão do lar Inteiro Filhos Se tem Filhos ou não Boleano Nfilhos Número de Filhos Inteiro/Discreto 144 Capítulo 6 Database Marketing Aplicado à Distribuição Atributo Descrição Tipo MaqLavar Se possui maquina lavar louça Boleano ConsumoSuper Valor mensal despendido em supermercados Inteiro/Discreto Rendimento Rendimento mensal per-capita Inteiro/Discreto V_xx Se o vale nº xx foi rebatido Caracter/Discreto O modelação apresentam-se domínio de valores para os atributos usados no processo de modelação apresentam-se na Tabela 17. Tabela 17 – Domínio dos atributos de trabalho Atributo Domínio #lar 1,2,3,4,5, 6 ou mais #filhos 1,2,3,4,5 ou mais Nfilhos Sim/Não MaqLavar Sim/Não ConsumoSuper Até 150€; 151 a 350€; 351€ a 500€; 501 a 650€ mais de 651€ Rendimento Até 150€; 151 a 350€; 351€ a 500€; 501 a 750€ mais de 751€ V_xx VE-R; VE-NR; VE-NE A descrição completa dos atributos constantes na BD cedida pela empresa promotora do projecto encontram-se no anexo I, sendo a análise de alguns desses atributos apresentada no anexo J. 6.3.2 (b2) Análise dos dados Pese embora o esforço desenvolvido na filtragem e limpeza de dados, expresso anteriormente, a BD apresentava diversos problemas, principalmente em termos de dados relativos a respostas dadas aos questionários, como sejam os dados omissos, os quais tiveram que ser tratados (processo descrito nas secções seguintes). A ocorrência deste género de problemas justifica-se por duas razões fundamentais: 145 Capítulo 6 Database Marketing Aplicado à Distribuição Os questionários são preenchidos livremente por indivíduos que nem sempre fornecem a informação correcta ou não interpretam correctamente as questões e por isso respondem com valores errados – valores fora do domínio de resposta pretendido, ou omissão nas respostas (facto mais frequente); O processo de recolha dos dados dos questionários é manual, proporcionando a inserção de valores incorrectamente ou a falha na interpretação dos dados inscritos manualmente pelo cliente. 6.3.3 Pré-Processamento dos Dados (b3) Uma vez obtida a BD isenta de todos os registos considerados como inválidos, inicia-se então o trabalho sobre os dados. Esta fase correspondeu ao trabalho de eliminação de ruído, erros e omissões que possam de algum modo comprometer o trabalho de modelação dos dados. Uma vez limpos e pré-processados os dados foi possível constituir a base de dados de marketing, onde se incluíam, quer os dados provenientes de questionários - tabela Respostas (perguntas e respectivas respostas de cada cliente a cada questionário), quer os dados relativos aos vales rebatidos, com a informação a que produto se refere e da loja onde foi utilizado - tabela Vales Rebatidos (Figura 36). Questionários Lojas Perguntas Respostas Contactos Vales Rebatidos Produtos Vales Figura 36 - Representação esquemática da formação da BD do projecto. 146 Capítulo 6 Database Marketing Aplicado à Distribuição Os procedimentos de pré-processamento desenvolvidos foram, numa primeira fase, orientados ao atributo e, numa fase posterior, orientados à tabela e BD, concretizando-se nomeadamente nos seguintes aspectos: Tratamento de dados omissos A existência de valores em branco num determinado atributo suscita o tratamento desse atributo, com duas opções distintas mas viáveis: eliminação do atributo da BD (no caso de valor omisso da maioria dos registos) ou processamento do atributo, isoladamente ou em função de outros. Relativamente ao último caso, o preenchimento do atributo em registos em que esteja omisso pode ser realizado de diferentes modos [Pinto et al., 2005], tendo sido consideradas neste trabalho as seguintes abordagens: Preenchimento com valores determinados com base em médias29 aritméticas simples calculadas sobre os registos restantes (e.g., indivíduos cujo o atributo sexo não se encontrava preenchido, era-lhes atribuído o sexo em função do valor mais frequente na amostra para indivíduos do mesmo distrito); Preenchimento dos casos omissos com valores equivalentes à média desse atributo em todos os registos de uma determinada condição geográfica ou pessoal, e.g., para determinar o valor a inserir no atributo idade (em branco) considera-se o valor médio30 das idades de todos os indivíduos, do mesmo sexo, com o mesmo número de filhos e residentes no mesmo código postal que rebatem vales na mesma loja. 29 30 cálculo da média para n casos: x = ∑i xi i preenchimento de um atributo com um valor médio ponderado em função de outros: I= ∑ I ns , cp, f ,l ns,cp, f ,l que n corresponde ao número de casos com o mesmo sexo (s), no mesmo código postal (cp) mesmo número de filhos(f), com rebatimento de vales na mesma loja (l) 147 , em Capítulo 6 Database Marketing Aplicado à Distribuição Preenchimento de casos omissos relativos a variáveis discretas utiliza-se a moda31 dessa variável noutros registos (seja relativo a toda a BD ou relativo a um contexto determinado) Tratamento de excepções (outliers) Verifica-se com alguma frequência a ocorrência valores anormais para alguns atributos, em muitos registos. Ao contrário do processo de tratamento de dados omissos, os atributos encontram-se preenchidos mas com a possibilidade de não corresponderem à realidade. Esta fase procura recuperar a integridade do registo pelo recurso ao tratamento de excepções. As excepções foram abordadas de dois modos: Selecção dos registos com valores excepcionais e consequente tratamento manual independente (e.g., quando o atributo número de filhos recebe como valor 15, é necessário avaliar outras respostas para determinar se de facto serão mesmo 15 ou se terá sido um lapso na inserção do valor 1 ou do valor 5). Substituição do valor considerado como anormal pela média desse atributo em todos os outros registos com dados semelhantes em outros atributos (à semelhança do tratamento de dados omissos), como seja o caso em que um indivíduo surge com a idade de 125 anos. Verificação da coerência da informação do registo A verificação da coerência da informação é de todas as actividades de pré-processamento a mais morosa, dada a dependência directa da avaliação subjectiva do analista em cada situação (registo). Entre os casos mais comuns, encontra-se a incoerência entre nome e 31 A moda corresponde ao valor que um determinado atributo assume mais vezes 148 Capítulo 6 Database Marketing Aplicado à Distribuição sexo; indicação de que tem filhos num atributo e noutro quando solicitado a indicar quantos indica nenhum; ou ainda na situação onde indica possuir elevados rendimentos, casa própria e afinal indica não possuir carro. Exemplificando com uma análise aos atributos possui filhos? e número de filhos (Tabela 18), constata-se na primeira resposta um valor substancial de indivíduos que indicam não possuir filhos (6,589 casos). Tabela 18 – Quantidade de respostas obtidas para a questão têm filhos? Opções resposta Null Não Responde / Resposta Inválida Não Sim Frequência 5 754 1 419 6 589 15 523 Percentagem 19,65% 4,85% 22,50% 53,01% Quando se passa à avaliação do atributo quantos filhos (Tabela 19) constata-se uma diferença significativa de 1,212 casos, no volume de respostas de valor 0 (zero) por comparação com o quadro anterior. Tabela 19 – Quantidade de respostas à questão Número de Filhos? Número de filhos Frequência Percentagem Não Responde 7 801 37,97% Null 1 064 5,18% 1 4 286 20,86% 2 4 657 22,67% 3 946 4,60% 4 240 1,17% 5 60 0,29% 6 24 0,12% 7 8 0,04% 8 4 0,02% 9 4 0,02% 10 + 1 196 5,82% 0 - Não tem 256 1,25% Face à observação exposta demonstrada resumidamente na Tabela 20, no sentido de atribuir um significado válido ao conjunto da informação dos atributos Têm Filhos e 149 Capítulo 6 Database Marketing Aplicado à Distribuição Número de Filhos, ambos os atributos foram processados em conjunto observando-se a concordância de um relativamente ao outro. Instanciando com os casos ocorridos, temos: Quando a questão Filhos possui a resposta Não e o Número de Filhos é igual a Não Resposta (4,631 casos), o valor do Número de Filhos é modificado para 0 (zero). Em casos nos quais Filhos é igual a Sim e o Número de Filhos igual a 0 ou Não Resposta, ou Filhos igual a Não e Número de Filhos igual a 10+ , os registos foram ignorados. Sempre que se verificasse em ambas as questões Não Resposta (1187 casos) ou Branco (5,488 casos) os registos foram eliminados . O mesmo procedimento foi adoptado para o caso das respostas serem de 10+ filhos quando para a questão Tem Filhos havia ficado em Branco ou Não Resposta (total de 138 casos); Sempre que o valor para Filhos é Não ou Não Resposta, mas foi indicado o valor para o número de filhos então considerou-se que a resposta a Filhos seria Sim e assumia-se o valor indicado; Finalmente, nas situações em que era apresentado um valor numérico para a questão Possui Filhos, esse valor era assumido como o valor para a questão Quantos Filhos, ficando a primeira com resposta Sim, ou por excepção se o valor era 0 passaria a resposta para não tem filhos (165 casos). Tabela 20 - Respostas às questões Têm Filhos e Número de Filhos Filhos (5) Sim Não Não resposta Branco 0 27 386 42 123 Número de filhos (6) 1 2 3 4 5 6 7 6 419 6 886 1 381 347 88 35 12 37 24 9 3 4 3 2 105 59 12 3 1 0 0 12 3 0 0 0 0 0 8 6 1 0 0 9 6 0 0 0 10 + 29 1 489 10 128 Branco 287 4 631 1 187 5 488 O processo de verificação da coerência de informação ao longo do registo conduziu a uma redução significativa no volume de dados uma vez que foram excluídos 8,739 150 Capítulo 6 Database Marketing Aplicado à Distribuição registos, passando a existir 20,546, cuja distribuição de casos em função das questões Tem Filhos e Quantos encontra-se expressa conforme a Tabela 21. As células da tabela em branco representam casos eliminados ou movidos para outra situação. Tabela 21 - Respostas às questões Têm Filhos e Número de Filhos, após coerência de dados. Número de filhos (6) Filhos (5) 0 1 2 3 4 5 6 7 8 Sim 6573 6972 1402 353 93 38 14 7 Não 5059 Não resposta Branco 9 6 10 + Branco 29 Atributos com valores dispersos É comum nos questionários a ocorrência de questões abertas, sem a imposição de qualquer limite máximo para o valor da resposta ou padronização de valores. Este facto provoca uma dispersão das respostas que acabam por vir a condicionar a sua análise, e.g., a distribuição de casos para o atributo número de filhos, após correcção (Tabela 22), caso não exista algum modo de limitar os valores indicados pode vir a assumir mais de 10 classes distintas. Tabela 22 – Tabela de frequência para o atributo Nº filhos. Valor 0 1 2 3 4 5 6 7 8 9 10 Total Frequência 5 059 6 573 6 972 1 402 353 93 38 14 7 6 29 20 546 151 Percentagem 24,62% 31,99% 33,93% 6,82% 1,72% 0,45% 0,18% 0,07% 0,03% 0,03% 0,14% 100% Capítulo 6 Database Marketing Aplicado à Distribuição Verificando uma dispersão acentuada das classes de resposta para o atributo nº de filhos, procedeu-se a uma redução de classes pelo agrupamento das classes 5,6,7,8,9,10 ou mais numa só classe de 5 ou mais filhos (Figura 37). Distribuição ajustada Quantidade respostas 8000 7000 6000 5000 4000 3000 2000 1000 0 0 1 2 3 4 5 ou mais Nº de Filhos Figura 37 - Distribuição após a redução de classes para o atributo Número de Filhos. Transposição de Tabelas A aplicação de muitos algoritmos e ferramentas requer que os dados estejam todos numa única tabela ou, pelo menos em tabelas distintas mas com a mesma chave primária. Verificou-se na BD em estudo quer a existência de mais do que uma tabela para a mesma entidade (e.g., tabela clientes e tabela de potenciais clientes) quer a existência de índices (chaves primárias) heterogéneos impossibilitando a integração e cruzamento de todos os dados numa tabela única conforme esquematizado pela Figura 38. 152 Capítulo 6 Database Marketing Aplicado à Distribuição Figura 38 - Transposição da tabela Vale para uma nova tabela que explicita a relação cliente-vale. A transposição de tabelas passa então pela homogeneização de atributos (obtida pela integração de todos os dados numa só tabela ou pela utilização de um único atributo como chave primária em todas as tabelas que irão ser utilizadas na modelação). Analisando com detalhe a relação entre a tabela cliente (apresentada no anexo I) e a tabela vale (Figura 38), cujo código utilizado para a sua transposição se apresenta em anexo, é possível descrever o processo da seguinte forma: A primeira coluna identifica os clientes (cli_id), enquanto as seguintes identificam os vales. Os vales encontram-se numerados de 1 a n, sendo este número precedido por Val_x A relação cliente/vale é codificada em função dos três casos possíveis (Tabela 23): VE-R : Vale Enviado e Rebatido (O vale foi enviado e utilizado pelo cliente); VE-NR : Vale Enviado mas Não Rebatido (O vale foi enviado mas não foi utilizado pelo cliente, não foi rebatido); VNE : Vale Não Enviado (o vale não foi remtido ao cliente). 153 Capítulo 6 Database Marketing Aplicado à Distribuição Tabela 23 - Estabelecimento da relação cliente – vale. cli_id 17 31 41 80 87 107 118 ... 958613 Val_1 VE-R VE-R VE-NR VE-NR VE-NR VE-NR VE-NR ... VNE Val_2 VE-NR VE-NR VE-NR VE-NR VE-NR VE-NR VE-NR ... VNE ... ... ... ... ... ... ... ... ... ... Val_197 VE-NR VE-NR VE-NR VE-NR VE-NR VE-NR VE-NR ... VNE Val_198 VE-NR VE-NR VE-NR VE-NR VE-NR VE-NR VE-NR ... VNE O tratamento dado às tabelas questionários e respectivas respostas é idêntico ao anterior com a particularidade da existência de um conjunto de tabelas descritivas auxiliares como sejam, questões disponíveis, valores ou respostas possíveis para cada questão ou, respostas do cliente ao questionário, as quais foi necessário considerar. A transposição é representada esquematicamente pela Figura 39. A cada instância da união entre o atributo Que_ID e Per_ID corresponde um novo atributo na nova tabela perguntas com a designção Que_Id_ Per_ID que resulta da concatenação das suas designações. Os valores das respostas dadas pelo cliente, são os valores do atributo. Figura 39 – Representação da transposição das tabelas pergunta e questionário. 154 Capítulo 6 Database Marketing Aplicado à Distribuição Esquematicamente a estrutura das tabelas passou de uma situação onde existiam duas tabelas, Questionário e Questões, cujo conteúdo se exemplifica na Figura 40, para a situação onde apenas existe uma tabela resultante da união das anteriores, Figura 41. Questionários QUE_ID Descrição 1 Básico 2 Hábitos 3 Consumo PER_ID 20 21 22 23 24 25 26 27 Questões Descrição Sexo Classe Rendimentos Habilitações Casa Própria Local Compras Carro Estado Civil Emprego Figura 40 - Organização dos dados das tabelas Questionários e Questões. Transposição dos questionários em torno do cliente: Nova_Tabela_Perguntas Id_Cliente P1_1 P1_21 P1_22 P1_23 P2_1 P2_2 P2_23 … PnQ_nR 17 Sim 12 31 Não 16 Figura 41 - Tabela resultante da transposição das tabelas Questionário e Questões. A tabela Nova_Tabela_Perguntas foi criada com base nas tabelas T_Pergunta e, T_Pergunta_Resposta. À semelhança da criação da tabela anterior, também nesta, os valores dos atributos QUE_ID e PER_ID passaram a ser, eles próprios, atributos da nova tabela criada, havendo-se procedido à inserção dos dados correspondentes, verificando-se para cada cliente quais os questionários e perguntas a que o cliente tinha respondido e inserida a respectiva resposta. No caso das respostas em branco, foi designado o valor -1. Após esta operação, notaram-se ainda alguns dados inconsistentes nesta tabela, dado existirem registos de clientes que haviam respondido de forma errada a determinadas perguntas do questionário como seja o caso “Aproximadamente em que categoria situa o rendimento mensal do seu lar?” e “Quantas pessoas vivem em sua casa incluindo você?”. 155 Capítulo 6 Database Marketing Aplicado à Distribuição O primeiro caso teve um tratamento simples: para os clientes que não responderam ou que tiverem respostas inválidas, era realizada uma média do rendimento de toda a BD, para os indivíduos do mesmo estado civil e escalão etário. No segundo caso, existiam casos em que clientes não respondiam (-1) ou respondiam zero (0). Assumindo estes valores como inválidos para a questão, procedeu-se a preenchimento do atributo com a seguinte premissa: verifica-se se há registo de filhos (quantos) e estado civil, determinando-se desse modo a dimensão do lar, de seguida, é calculado o rendimento per-capita médio de todos os indivíduos da BD. O atributo recebe o valor resultante da relação: DimensãoLar*RendimentoPer-CapitaMédio Derivação de novas variáveis Isoladamente ou na sua forma original, nem sempre os dados possuem carácter informativo, havendo por isso necessidade de efectuar cálculos posteriores com vista à exposição da informação associada; e.g., nos questionários analisados era solicitada a data de nascimento, quando para o tratamento dos dados interessa a idade do indivíduo. Surge neste caso um novo atributo para toda a BD que consiste na idade. Tomando em consideração os requisitos e os dados necessários para a aplicação dos algoritmos na fase de modelação, a derivação de novas variáveis consistiu na criação de índices de classificação que permita de algum modo facilitar a selecção de registos. Os índices foram criados em três vertentes: Função de vales: a constituição de um índice que demonstre o sucesso ou insucesso de aceitação dos vales (e respectivos produtos associados), como seja o Grau de Rebatimento de Vales (GRV); 156 Capítulo 6 Database Marketing Aplicado à Distribuição Função dos questionários: verificou-se ao longo do trabalho de análise dos dados que a maioria das perguntas dos questionários ficava sem resposta. Decorrente deste facto, estabeleceu-se como critério de selecção dos dados de questionários, aqueles possuíssem maior valor informativo, traduzindo-se na criação de um índice que reflectisse os questionários e as questões com maior taxa de resposta. Função do cliente: constituição de um índice que reflicta a actividade do cliente como sejam: índice em função da sua propensão para rebater vales; índice relativo às perguntas que respondeu a questionários recebidos e, índice cruzado que conjugue os dois índices anteriores Os índices criados são pormenorizados em seguida. i) Grau do rebatimento de vales O indicador ou Grau de Rebatimento de Vales (GRV) permite ordenar os vales em função da sua utilização pelos clientes. Este indicador apenas se aplica aos vales rebatidos pelos clientes seleccionados nas fases anteriores, ou seja, em 20,546 casos. A ordenação dos vales obteve-se em função da sua utilização, tendo havido necessidade de criar variáveis do tipo contador32 como o VE-NR (quantidade de vales enviados, mas não rebatidos pelos clientes,) e VE-R (enviado e rebatido - vales enviados para o cliente e rebatidos por este). O indicador GRV resulta do quociente entre o valor VE-R e a soma das variáveis VE-NR e VE-R e representa a taxa de rebatimento geral efectiva (da quantidade total de vales emitidos e distribuídos, percentualmente, quantos foram rebatidos) para cada um dos vales. GRV = VE −R V E − R + V E − NR (Fórmula 17) *100% 32 As variáveis denominadas como contador, são variáveis que permitem a contagem de um determinado item e podem ser utilizadas na derivação de novas variáveis. 157 Capítulo 6 Database Marketing Aplicado à Distribuição A Tabela 24 permite expõe decrescentemente as taxas de rebatimento obtidas para cada um dos vales emitidos. Tabela 24 – Taxa de rebatimento de cada vale emitido. Val_ID Val_110 Val_114 Val_111 Val_104 Val_33 Val_42 Val_81 Val_50 Val_13 Val_46 Val_83 ... VE-NR VE-R GVR 19 328 4 132 21,38% 22 187 4 373 19,71% 18 976 3 731 19,66% 21 994 3 848 17,49% 21 597 3 654 16,92% 22 002 3 369 15,31% 22 160 3 386 15,28% 21 873 3 312 15,14% 25 372 2 908 11,46% 21 874 2 417 11,05% 26 746 2 763 10,33% ... ... ... O critério adoptado para a ordenação dos vales é a sua taxa de rebatimento. ii) Classificação de clientes em função da sua tendência para o rebatimento de vales O Índice de Actividade do Cliente (IAC) permite ordenar e classificar os clientes em função da sua propensão para o rebatimento de vales, tendo em consideração o número de vales recebidos e os vales que rebateu respectivamente. À semelhança do que foi realizado na secção anterior, foram também criados algumas variáveis auxiliares de modo a ser possível determinar o IAC para cada cliente. Relativamente à primeira parte do processo, ilustrado na Tabela 25, houve necessidade de criar variáveis contador como o VE-NR (enviado, não rebatido - vales enviados para o cliente, mas não rebatidos por este) e VE-R (enviado e rebatido - vales enviados para o cliente e rebatidos por este). O indicador IAC resulta do quociente entre o valor VE-R e a soma das variáveis VE-NR e VE-R, significando a percentagem de vales rebatidos (relativamente a todos os vales que terá recebido) por cada cliente. 158 Capítulo 6 Database Marketing Aplicado à Distribuição IAC = VE − R * 100% V E − R + VE −.NR (Fórmula 18) Os clientes, representados por Cli_ID, encontram-se ordenados na Tabela 25 por ordem decrescente do seu IAC respectivo. Tabela 25 - Derivação de novas variáveis. Cli_ID VE-NR VE-R IAC 502317 85 72 45,86% 242537 76 63 45,32% 23353 87 71 44,94% 900914 25 20 44,44% 905666 25 20 44,44% 619479 83 66 44,30% 16625 88 70 44,30% 79997 88 70 44,30% 67900 88 69 43,95% 83974 88 69 43,95% 240300 78 61 43,88% 411444 89 69 43,67% 410626 89 68 43,31% A concretização da classificação dos clientes suportou-se no modelo denominado por pirâmide [Curry el al, 2000], que confere a cada indivíduo uma classificação relativa. Este modelo agrupa os clientes por um valor considerado como referência, no caso o IAC, em quatro categorias, por ordem decrescente de importância: Top (clientes de topo), Big (clientes importantes), Medium (clientes razoáveis, médios) e Small (restantes clientes). A cada categoria, de entre os clientes activos, faz-se corresponder uma proporção pré-definida de indivíduos, de respectivamente, 1%, 5%, 20% e 74%. Considerando os 20,546 casos disponíveis, cerca de 205 casos correspondem ao nível Top, 1,027 ao nível Big, 4,109 ao Médio e 15,204 ao Small. No seu desenvolvimento e uma vez ordenada decrescentemente a BD pelo IAC correspondente a cada registo, é definido para cada registo, em sentido crescente, um número de ordem, contador. Sendo n o número de indivíduos da BD para os quais o IAC é superior 0 (rebateram pelo menos um vale). O classificador reflecte a razão entre o 159 Capítulo 6 Database Marketing Aplicado à Distribuição contador e n indicando a percentagem em que cada registo se insere. A atribuição da Banda a um registo é realizada em função do classificador com o desenvolvimento do seguinte peudo-código: SE classificador <0.01 ENTÃO Banda=”Top” SENÃO SE classificador >=0.01 E classificador <0.05 ENTÃO Banda=”Big” SENÃO SE classificador >=0.05 E classificador <0.2 ENTÃO Banda=”Medium” SENÃO SE classificador ENTÃO Banda=”Small” >=0.2 E classificador <0.8 SENÃO Banda=”Inactive” Contudo, a classificação dos clientes, segundo este processo, revelou-se geradora de incongruências, nomeadamente no que respeita a registos que se situavam nas fronteiras dos escalões. Conforme é possível visualizar na Tabela 26, há clientes que ficam em bandas diferentes, embora apresentem a mesma percentagem de vales rebatidos. Como solução para os casos análogos procedeu-se à promoção dos registos para a classificação imediatamente acima. Tabela 26 – Classificação de clientes. cli_ID VE-NR 502317 85 242537 76 23353 87 900914 25 905666 25 904507 25 905565 25 904945 25 619479 83 16625 88 79997 88 67900 88 VE-R 72 63 71 20 20 20 20 20 66 70 70 69 IAC Contador Classificador 45,86% 200 0,94% 45,32% 201 0,95% 44,94% 202 0,96% 44,44% 203 0,97% 44,44% 204 0,98% 44,44% 205 0,99% 44,44% 206 1,00% 44,44% 207 1,01% 44,30% 208 1,02% 44,30% 209 1,03% 44,30% 210 1,04% 43,95% 211 1,05% 160 Banda Top Top Top Top Top Top Big Big Big Big Big Big Capítulo 6 Database Marketing Aplicado à Distribuição O procedimento que permitiu a selecção dos registos que possuem uma taxa de rebatimento superior a outros registos que estão classificados num nível superior encontra-se transcrito abaixo: SE classificador =0 ENTÃO Banda1=”Inactivo” SENÃO SE classificador >0 E classificador <Minimo(ValeMedium) ENTÃO Banda1=”Small” SENÃO SE classificador > Minimo(ValeMedium) <Minimo(ValeBig) ENTÃO Banda1=”Medium” SENÃO SE classificador > Minimo(ValeBig) <Minimo(ValeTop) ENTÃO Banda1=”Big” SENÃO SE classificador > Minimo(ValeTop) ENTÃO Banda1=”Top” E E classificador classificador E classificador <=1 Uma vez corrigidos os limites para cada escalão da classificação (por ajuste do IAC), a quantidade de indivíduos classificados em cada banda ficou, como previsto, ligeiramente alterada relativamente ao inicialmente estipulado (e.g., o escalão Top passou de 205 casos para 207), sem que contudo advenha daí algum inconveniente para o trabalho em curso. iii) Classificação de clientes em função de Perguntas Respondidas nos questionários Repetiu-se o processo de forma análoga ao exposto no ponto anterior, mas recorrendo agora a um indicador do Grau de Perguntas Respondidas (GPR) indicativo das respostas dadas aos questionários por cada cliente. A limitação neste processo refere o desconhecimento de quantos questionários recebeu cada cliente, uma vez que ao contrário do que acontece com os vales, não existe registo dos questionários remetidos para cada cliente . A Tabela 27 reflecte o cálculo realizado em função do volume de questionários. 161 Capítulo 6 Database Marketing Aplicado à Distribuição Tabela 27 - Ordenação de clientes em função do volume de questões respondidas: cli_id 31 153 144 … 587 118 80 17 107 … PergNaoRespondidas 43 48 57 … 115 115 117 121 121 … PergRespondidas 78 73 64 … 6 6 4 0 0 … GPR 64,50% 60,30% 52,90% … 5,00% 5,00% 3,30% 0,00% 0,00% … Uma vez aplicado o conceito para a indexação dos registos e a consequente construção das pirâmides de classificação, o estudo prossegue, orientando-se agora para a análise da possível correlação entre as categorias e, em particular de entre elas, a selecção de subconjuntos de indivíduos sobre os quais se irá proceder à aplicação de algoritmos de DM. iv) Indexação cruzada de clientes A classificação simultânea de clientes pelos critérios definidos anteriormente permitirá uma selecção de clientes mais especifica em função das classes (vales e perguntas) a que pertencem. A matriz criada é constituída pela execução do seguinte código SQL: Select * From PiramideVale, PiramidePergunta Count Where BandaVale=”Top” & BandaPergunta=”Top”, BandaVale=”Top” & BandaPergunta=”Big” BandaVale=”Top” & BandaPergunta=”Small” BandaVale=”Top” & BandaPergunta=”Inactive” … BandaVale=”Inactive” & BandaPergunta=”Inactive” A tabela resultante permite visualizar a informação pretendida de um modo mais intuitivo, permitindo o cruzamento de informação entre os diferentes critérios de classificação (por vales rebatidos ou questionários respondidos). Tendo por base a 162 Capítulo 6 Database Marketing Aplicado à Distribuição informação obtida é possível seleccionar os casos com mais relevância para o estudo. Analisando a Tabela 28, é possível verificar que os clientes mais activos no rebatimento dos vales (Banda Top e Banda Big) pertencem à banda Small da pirâmide das perguntas respondidas, com 114 e 497 casos, respectivamente. Os valores obtidos representam a classificação dos clientes classificados como Top ou Big (relativo a vales rebatidos) em função da sua propensão para responder às perguntas dos questionários. Banda Pergunta Tabela 28 – Número de casos por cada escala de classificação. Top Big Medium Small Total Top 19 31 45 114 207 Banda Vale Big Medium 35 49 173 338 327 1741 497 1986 1 032 4 114 Small 116 487 2007 12581 15 191 Total 219 1 029 4 120 15 178 20 546 Idêntica observação se aplica à classificação para os clientes em função de perguntas respondidas, onde se verifica também, que os clientes mais participativos em termos de perguntas respondidas pertencem à banda Small para os vales rebatidos. Suportado pela quantificação estabelecida para cada classificação atribuída, foi desenvolvido o procedimento para a caracterização dos clientes, considerando os seguintes casos: Os vales (produtos) mais rebatidos (adquiridos); Clientes que responderam a mais vales e responderam a mais questões. Este critério permite seleccionar entre os dados disponíveis os casos mais interessantes seja na perspectiva de actividade dos clientes (rebatimento de vales e propensão para responder a questionários), quer na perspectiva de relevância da informação, uma vez que existem mais registos disponíveis para análise, acerca de cada cliente e cada vale seleccionado. 163 Capítulo 6 Database Marketing Aplicado à Distribuição 6.3.4 (b4) Modelação 6.3.4.1 Selecção de dados para treino Uma vez realizado o trabalho de pré-processamento de dados e antes mesmo de se proceder à aplicação de algoritmos de DM é necessário estabelecer para cada caso o conjunto de dados necessários. A definição dos diferentes conjuntos de dados teve como critérios, os dados relativos a: Questionários com maior taxa de resposta; Clientes com maior volume de vales rebatidos; Clientes com maior número de questionários preenchidos; Vales com maior taxa de utilização (rebatimento). Suportado pelos indicadores construídos no âmbito do pré-processamento, é possível construir a amostra em duas vertentes: i. por selecção dos dados relativos a clientes com maior taxa de actividade relativamente a vales rebatidos; ii. por selecção dos vales com maior taxa de utilização (rebate). Tal como exposto anteriormente, a selecção de registos recorreu ao agrupamento de clientes através do modelo da pirâmide [Curry el al, 2000]. A selecção do número de casos para a aplicação dos algoritmos obedeceu à proporção de dois terços para treino e um terço para testes, conforme o método da divisão da amostra, apresentado na secção 4.4. 164 Capítulo 6 Database Marketing Aplicado à Distribuição 6.3.4.2 Aplicação de Algoritmos Uma vez aplicado e desenvolvido o conceito teórico para a indexação de clientes e a consequente construção das pirâmides de classificação, o estudo prossegue de acordo com a metodologia de suporte, a DM4DBM, orientando-se agora para a aplicação dos algoritmos de DM. Tratando-se de um projecto cujo objectivo de negócio é conhecer melhor os clientes, a transposição desse desiderato para o marketing e por consequência para os objectivos de DBM, proporcionou o estabelecimento de diferentes objectivos de DM. Assim, os objectivos de DM definidos foram: Determinação do perfil dos clientes em função do seu rebatimento de vales; Determinação do perfil dos clientes em função da sua propensão para o rebatimento de vales e ainda a resposta aos questionários; Análise dos produtos (vales) comprados (rebatidos); Perfil dos clientes em função do produto adquirido. i) Modelo 1 - Determinação do perfil de clientes em função da sua propensão para o rebatimento de vales. Tomando como ponto de partida todos os dados disponíveis (correspondente a 20,546 clientes) após o pré-processamento e aplicando o algoritmo de classificação C5.0, verificou-se que a única regra gerada correspondia à classe predominante nos dados, ou seja, não rebate. Este facto, traduzia a distribuição dos dados segundo os quais cerca de 80% dos clientes não rebate vales e apenas 20% o faz. 165 Capítulo 6 Database Marketing Aplicado à Distribuição Recorrendo à classificação IAC de acordo com o modelo da pirâmide, seleccionaram-se numa segunda iteração, apenas os melhores clientes em termos de rebatimento de vales sendo o objectivo conhecer quais as suas características comuns (perfil). Houve a necessidade de se proceder a uma selecção de registos segundo a qual apenas seriam elegíveis os clientes cujo índice da pirâmide seja Top ou Big, originando um novo atributo denominado por tipo cliente. A derivação deste novo atributo foi gerada pela aplicação do seguinte pseudo código: Select * From ClienteFinal Where BandaVale <> “Inactive” SE BandaVale=”Top” or BandaVale=”Big” ENTÃO TipoCliente=”TopBig” SENÃO TipoCliente=”Not” Uma vez executado o procedimento, o conjunto de dados para estudo ficou resumido 1,239 casos. Considerando a proporcionalidade definida pelo método da divisão da amostra, aplicou-se o algoritmo C5.0 aos 817 registos correspondentes ao conjunto de treino, obtendo-se como resultado mais relevante a seguinte (a stream e os restantes detalhes do modelo obtido e encontram-se no anexo D): Se #filhos <=1 E #lar >3 E Rendimento [501–750] Então TopBig A interpretação da regra permite concluir que do conjunto inicial para treino (constituído por 817 registos), existem 365 casos de onde em que se verificou esta regra. Desses 365 casos, 76% dos clientes são correctamente classificados como TopBig (277 indivíduos). (b5) Considerando as orientações da metodologia DM4DBM (secção 4.4) para a avaliação de resultados, aplicou-se a regra ao conjunto de dados para teste disponíveis (422 casos) e obteve-se como matriz de confusão os seguintes elementos: 166 Capítulo 6 Database Marketing Aplicado à Distribuição Desejado/PrevistoÆ Negativo Positivo Negativo 167 46 Positivo 53 147 Tomando como base a tabela resultante e os indicadores sugeridos no capítulo 3, obtiveram-se os seguintes parâmetros de avaliação: Precisão Especificidade Sensibilidade 76.03% 76.06% 75.99% Os indicadores indicam um homogéneo do modelo entre os dados de treino e os dados de teste revelando indicadores de precisão, sensibilidade (capacidade para classificar correctamente os clientes que são TopBig) e especificidade (capacidade para detectar correctamente aqueles que não são TopBig) muito próximos entre si. ii) Modelo 2 - Determinação de perfil considerando a sua propensão para rebatimento de vales e resposta a questionários; Os procedimentos adoptados aqui são similares ao descrito anteriormente, embora neste caso houvesse já a experiência adquirida no que concerne à constituição do conjunto de treino, mantendo-se o método da divisão da amostra de dois terços dos dados disponíveis para treino e um terço para testes. Recorrendo à matriz de classificação cruzada criada no pré-processamento (Tabela 28 – Número de casos por cada escala de classificação.) seleccionaram-se os indivíduos pertencentes simultaneamente às bandas Top e Big quer quanto a vales rebatidos e banda quer quanto a perguntas respondidas. O grupo de indivíduos que se encontravam nestas condições totalizou 2,229 casos (permitindo formar um conjunto de treino com 1,486 casos e o conjunto de teste com 743). O pseudo código utilizado para a selecção de registos foi o seguinte: 167 Capítulo 6 Database Marketing Aplicado à Distribuição Select * From ClienteFinal Where BandaVale <> “Inactive” SE BandaVale=”Top” or BandaVale=”Big” or BandaPergunta=”Small” ENTÃO TipoCliente=”TopBig” SENÃO TipoCliente=”Not” Uma vez seleccionados aleatoriamente os registos para o conjunto de treino, aplicou-se o algoritmo C5.0 (cuja stream e resultados do modelo se encontram no anexo E), com o qual se produziu entre outras a regra mais relevante: Se #lar > 3 E Rendimento [501–750] Então ClienteTopBig A regra mais relevante ocorre em 73,4% dos casos, representando um volume de 1,315 registos classificados como sim (cliente TopBig em função do rebatimento de vales e resposta a questionários). (b5) Num processo de análise aos resultados obtidos, conforme previsto na metodologia DM4DBM, aplicou-se a regra obtida ao conjunto de dados para teste disponíveis (809 casos) e obteve-se como matriz de confusão os seguintes elementos: ↓ Desejado/PrevistoÆ Negativo Positivo 168 Negativo 306 75 Positivo 92 336 Capítulo 6 Database Marketing Aplicado à Distribuição Tomando como base a matriz resultante e os indicadores referenciados na secção 4.4, obtiveram-se os seguintes parâmetros de avaliação: Precisão Especificidade Sensibilidade 79.36% 76.89% 81.75% Estes parâmetros apresentam valores superiores aos do modelo evidenciando uma maior capacidade para classificar correctamente os casos de clientes que não são TopBig (sensibilidade de 81,75%) iii) Modelo 3 - Determinação de relações entre produtos (vales) comprados (rebatidos); Uma das abordagens adoptadas pelos profissionais de marketing ao estudo do comportamento dos consumidores, denominada por análise do cabaz de compras, consiste na análise dos produtos que compõem as compras e na procura de possíveis relações de frequência entre eles. No contexto do estudo realizado, face à identificação de cada vale com um produto ou família de produtos, o objectivo desta tarefa consiste em determinar qual a relação, se existir, entre os vales rebatidos. Verificou-se existirem vales distintos com ofertas diferentes para o mesmo produto (e.g., valor do desconto atribuído é diferente) condicionando directamente a taxa de rebatimento de cada um dos vales. Dado o facto, houve necessidade de orientar a análise de eventuais associações entre produtos para uma perspectiva mais abrangente do que ao nível do produto – optou-se então por se realizar um agrupamento dos vales por categoria de produtos (e.g., produtos de cosmética ou produtos congelados). O agrupamento de vales, realizada manualmente com apoio das pessoas da organização (conhecedores do negócio), consistiu na criação de novas variáveis que reflictam cada um dos agrupamentos (categorias de produtos) considerados . Uma vez concluída a 169 Capítulo 6 Database Marketing Aplicado à Distribuição definição dos agrupamentos e respectivas variáveis houve a necessidade de se determinar, numa primeira fase, quais as afinidades entre as categorias e de seleccionar os casos com maior correlação e, numa segunda fase, determinar as características comuns das pessoas que os rebatem. O agrupamento de vales em categorias foi realizado da seguinte forma: sempre que um vale de um agrupamento era rebatido adicionava-se no registo do cliente o valor 1 (um), caso contrário, inseria-se o valor 0 (zero) ou ignorava-se. Para a derivação do campo, e.g., produtos de limpeza, houve necessidade de verificar na BD todos os vales que correspondiam a esse produto e realizar o somatório dos vales rebatidos para cada cliente. Quanto maior fosse o valor definido para o atributo maior era a quantidade de vales dessa categoria rebatidos. Uma vez criadas as variáveis procedeu-se à aplicação do algoritmo para indução de regras com o qual se obteve a Tabela 29. Tabela 29 – Resultados da aplicação do algoritmo para de indução de regras GRI. Instancias Suporte Confiança Consequente Antecedente 1 Antecedente 2 5 070 2,900 80,000 Champôo 1 Comida Pré-Preparados Congelados – Peixe 4 130 4,850 77,000 Comida Pré-Preparados Gelados e Yogurtes Congelados – Peixe Champôo 2 4 193 3,900 75,000 Champôo 1 Congelados – Peixe 2 377 3,560 73,000 Gelados e Yogurtes Comida Pré-Preparados Peixe congelado 3 415 3,920 72,000 Champôo 1 Comida Pré-Preparados Champôo 2 4 393 3,710 70,000 Carne congelada Comida Pré-Preparados Gelados e Yogurtes 3 450 4,250 68,000 Gelados e Yogurtes Congelados - Peixe Carne congelada 3 762 7,200 61,000 Champôo 1 Champôo 2 3 504 4,760 61,000 Carne congelada Comida Pré-Preparados 2 588 5,560 61,000 Gelados e Yogurtes Carne congelada 2 820 7,750 61,000 Comida Pré-Preparados Gelados e Yogurtes .. … … .. Gelados e Yogurtes 4513 4,850 59,000 Carne congelada Gelados e Yogurtes 8 526 14,420 57,000 Comida Pré-Preparados Peixe congelado Peixe congelado 10 530 14,450 57,000 Congelados – Peixe Comida pré-preparada 3 550 5,200 56,000 Champôo 2 Peixe congelado 2 513 4,850 55,000 Produtos limpeza Sobremesas de Gelados Peixe congelado 1 550 5,200 54,000 Champôo 2 Comida pré-preparada Champôo 1 Champôo 1 1 550 5,200 53,000 Produtos limpeza Peixe congelado Champôo 1 1 487 4,600 51,000 Carne congelada Peixe congelado Produtos Limpeza … … … … 170 Antecedente 3 Champôo 2 Carne congelada Peixe congelado Capítulo 6 Database Marketing Aplicado à Distribuição Pela análise das regras geradas verificam-se dois casos notáveis: o primeiro é conjunto de duas regras assinaladas, por apresentar um suporte elevado; a segunda regra (marcada separadamente) por apresentar um número elevado de ocorrências. Tendo em consideração os resultados obtidos, procedeu-se à selecção de todos os clientes que rebateram vales de acordo com as associações seleccionadas (em função do suporte e pela representatividade). Contudo, uma vez que se pretendem caracterizar os clientes que rebatem simultaneamente produtos de categorias diferentes, houve a necessidade de se proceder à selecção dos mesmos em função das três regras geradas anteriormente e à aplicação do algoritmo C5.0 para cada um dos casos. Análise da associação maior grau de confiança, Instancias Suporte Confiança 5 070 2,900 80,000 Consequente Champôo 1 Antecedente 1 Comida Pré-Preparados Antecedente 2 Congelados – Peixe Antecedente 3 Champôo 2 Para este caso seleccionaram-se os 5,070 registos onde se verificava a associação entre produtos. constituindo-se logo depois dois grupos: um para treino (3,380) e outro para teste (1,690). A aplicação do algoritmo C5.0 (cuja stream constituída se encontra no anexo F) permitiu alcançar como regra mais relevante a seguinte: A precisão da regra mais relevante é de 56,2%, havendo entre os 2,649 casos que rebatem vales destas famílias (consomem estes produtos), 1,489 indivíduos que são caracterizáveis pela regra: 171 Capítulo 6 Database Marketing Aplicado à Distribuição SE está entre 151€ E 350€ e #Lar = 4 ENTÃO Sim (Compra Champôo1; Comida pré-preparada; Congelados-Peixe e Champôo 2) (b5) Segundo a metodologia DM4DBM (secção 4.4) para a avaliação de resultados, aplicou-se o modelo obtido como o conjunto de dados para teste disponíveis (1,690 casos) e obteve-se como matriz de confusão os seguintes elementos: ↓ Desejado/PrevistoÆ Negativo Positivo Negativo 501 286 Positivo 364 539 Analisando a matriz criada e calculando os indicadores estabelecidos, na secção 3.4 obtiveram-se os seguintes parâmetros de avaliação: Precisão Especificidade Sensibilidade 61.54% 57.93% 65.32% Na avaliação aos resultados obtidos pela aplicação da regra ao conjunto de teste constatase a existência de um desempenho melhor em termos de sensibilidade(indicador de classificação correcta dos que consomem) e acuidade (precisão) do que na classificação correcta de casos negativos - Especificidade (casos onde não se rebatem vales). Análise da segunda associação com maior grau de confiança, Instancias Suporte Confiança 4 130 4,850 77,000 Consequente Comida Pré-Preparados Antecedente 1 Antecedente 2 Gelados e Yogurtes Congelados – Peixe Antecedente 3 Para este segundo caso seleccionaram-se as 4,130 instâncias, constituindo-se de acordo com o método da divisão da amostra dois grupos: um para treino (2,754) e outro para teste (1,376). O algoritmo C5.0 foi então aplicado ao conjunto de treino dando como resultado mais expressivo a seguinte regra (o modelo completo encontra-se expresso no anexo F): 172 Capítulo 6 Database Marketing Aplicado à Distribuição SE ConsumoSuper [151 - 350€] E #lar=4 ENTÃO Consome (Comida prépreparada; Gelados e Yogurtes e Congelados-Peixe) Esta regra ocorre em 68.6 % permitindo caracterizar correctamente 1,768 individuos consumidores de comida pré-preparada, de gelados e yogurte e também congeladospeixe. (b5) Num processo de análise aos resultados obtidos aplicou-se a regra obtida ao conjunto de dados para teste disponíveis (1,376 casos) de onde resultou a seguinte matriz de confusão: ↓ Desejado/PrevistoÆ Negativo Positivo Negativo 489 141 Positivo 219 527 Os parâmetros de avaliação calculados, tendo por base o estabelecido na secção 4.4, procedeu-se ao cálculo dos seguintes parâmetros de avaliação: Precisão Especificidade Sensibilidade 73.84% 69.06% 79.80% A regra quando aplicada ao conjunto de teste revela uma eficácia superior à obtida no conjunto de treino, principalmente no que se refere a acuidade e sensibilidade (detecção correcta de casos verdadeiros). Análise da associação com maior número de instancias, 173 Capítulo 6 Database Marketing Aplicado à Distribuição Instancias Suporte Confiança 10 530 14,450 57,000 Consequente Congelados – Peixe Antecedente 1 Antecedente 2 Antecedente 3 Comida pré-preparada A terceira e última associação verifica-se em 10,530 instancias, havendo-se constituindo dois grupos: um para treino (7,020) e outro para teste (3,510). A aplicação do algoritmos de classificação C 5.0 (cujo os detalhes se encontra no anexo F, produziu como regras mais relevantes as seguintes, Embora o modelo haja produzido um conjunto de 7 regras, considera-se como mais relevante aquela que embora se verifique em menor número de casos apresenta maior valor de precisão. 174 Capítulo 6 Database Marketing Aplicado à Distribuição SE #lar>2 E ComprasSuper [400-650] congelado e Comida pré-preparada) Então Consome (Compra Peixe Esta regra, embora se verifique em poucos casos, possui, tal como as restantes, a acuidade mais elevada obtida ao longo do estudo, 99,7% (b5) Considerando o previsto na metodologia DM4DBM para análise aos resultados obtidos, aplicou-se a regra ao conjunto de dados para teste disponíveis (3,510 casos) e obteve-se como matriz de confusão: ↓ Desejado/PrevistoÆ Negativo Positivo Negativo 1 698 79 Positivo 8 1 725 Os indicadores derivados demonstram uma eficácia superior à acuidade da regra seja em termos de precisão ou capacidade para classificar correctamente os negativos (especificidade) e os positivos (sensibilidade): Precisão Especificidade Sensibilidade 97.52% 99.52% 95.63% Na avaliação aos resultados obtidos pela aplicação da regra ao conjunto de teste constatase a existência de um desempenho muito bom da regra mas na generalidade inferior ao obtido no conjunto de treino, realçando um quebra evidente em termos de sensibilidade, ou seja a capacidade para classificar correctamente aqueles indivíduos que não consomem simultaneamente os produtos. v) Determinação do perfil dos clientes em função do produto adquirido Com base numa abordagem distinta para a caracterização dos clientes, desenvolvida na vertente dos vales mais rebatidos e utilizando o principio de quanto maior for o volume 175 Capítulo 6 Database Marketing Aplicado à Distribuição de rebatimentos, maior será o volume de registos (clientes) para a caracterização do produto, foram seleccionados os três agrupamentos de vales (definidos no caso anterior) com maior taxa de rebatimento, permitindo a selecção de 15,965casos . A abordagem utilizada consistiu em dois módulos essenciais: um módulo que corresponde ao clustering baseado numa rede neuronal artificial, um mapa autoorganizativo (Self-Organizing Map - SOM) utilizando uma rede do Kohonen; e outro, que corresponde à determinação da regra de extracção onde se emprega uma AD o qual pode vir a determinar as regras de associação para cada cluster. As características dos diferentes clusters poderão determinar estratégias de marketing diferentes, fazendo uso do conjunto de regras de classificação. A utilização do SOM iniciou-se com a definição inicial, aleatória dos nós de entrada e saída. Ao fim de algumas iterações obteve-se uma tipologia para a qual os resultados eram mais relevantes em termos de distribuição de casos. Essa tipologia final possuía 20 nós de entrada e 25 nós de saída, definindo um mapa de 5x5 (Figura 42), a que corresponderam 25 clusters, caracterizados pelas seguintes dimensões: N (número de casos) Não Rebateu (quantos indivíduos rebatem vales e respectiva percentagem relativa) e Rebateu (quantos indivíduos rebatem os vales e respectiva percentagem relativa). Figura 42 - Distribuição de casos dentro de cada cluster. 176 Capítulo 6 Database Marketing Aplicado à Distribuição Pela observação da Tabela 30, salienta-se o facto de em 60% dos dados a distribuição relativa ao rebatimento (uso) dos vales dentro de um cluster ser maior do que a original dentro do conjunto de treino inicial (75%). Tabela 30 – Distribuição de indivíduos para cada cluster. Cluster N Não Rebateu 1 1 895 1389 2 35 17 3 1 222 921 4 151 117 5 1 685 1009 6 195 155 7 13 11 8 85 44 9 1 438 1034 10 327 254 11 827 677 12 205 159 13 959 707 14 10 6 15 79 63 16 163 124 17 86 0 18 470 326 19 1 129 869 20 686 511 21 1 356 1 035 22 526 408 23 1 268 950 24 668 501 25 487 385 Total 15 965 11 892 % Rebateu 73% 506 49% 18 75% 301 77% 34 59% 679 79% 40 85% 2 52% 41 72% 404 78% 73 82% 150 78% 46 74% 252 60% 4 80% 16 76% 39 0% 86 69% 144 77% 260 74% 175 76% 321 78% 118 75% 318 75% 169 79% 102 75% 3 975 % 27% 51% 25% 23% 41% 21% 15% 48% 28% 22% 18% 22% 26% 40% 20% 24% 100% 31% 23% 26% 24% 22% 25% 25% 21% 25% No momento seguinte, para que fosse possível determinar o perfil dos clientes inseridos em cada cluster, foi necessário ainda integrar as variáveis kx e ky (definem um conjunto de eixos que permite localizar cada cluster no espaço organizado SOM) através da derivação de um novo atributo kxky (stream em anexo). Uma vez o conjunto de dados completo (identificação de cada registo individual com o cluster a que pertence), procedeu-se à aplicação do algoritmo C5.0 a cada um dos 25 177 Capítulo 6 Database Marketing Aplicado à Distribuição clusters, no sentido de se obter um conjunto de regras explicativas. Os conjuntos de treino utilizados englobavam numa amostra aleatória 2/3 dos registos contidos em cada cluster enquanto que os restantes dados (cerca de 1/3) ficavam como conjunto de treino, conforme o método da divisão da amostra. A Figura 43 apresenta graficamente o número de casos contidos em cada um desses clusters, representando ainda a proporção individual de rebatimento de vales em cada Nº Registos caso. Rebateu 2000 1800 1600 1400 1200 1000 800 600 400 200 0 Não Rebateu 1 3 5 7 9 11 13 15 17 19 21 23 25 Clusters Figura 43 - Clusters vs Rebate de vales. Como exemplo, indica-se abaixo a regras mais significativa para a caracterização do cluster 5 (o mais significativo em termos de quantidade de casos , 1685 e taxa de rebatimento, 41%) – o modelo construido encontra-se no anexo G: Máquina lavar louça? Sim Filhos? Sim Dimensão do lar? 4 Rendimento [151…350],[501,750],[750…[ Esta regra caracteriza 69,7 % de entre os 1,124 casos do conjunto de treino, representando um total de 783 indivíduos com características pessoais semelhantes e que rebatem vales de pelo menos um dos três agrupamentos considerados. 178 Capítulo 6 Database Marketing Aplicado à Distribuição (b5) Adoptando o processo de avaliação que tem vindo a ser utilizado aos resultados obtidos, aplicou-se a regra obtida ao conjunto de dados para teste disponíveis (561 casos) e obteve-se como matriz de confusão os seguintes elementos: ↓ Desejado/PrevistoÆ Negativo Positivo Negativo 242 45 Positivo 52 222 Tomando como base a tabela resultante e os indicadores previstos na secção 4.4, obtiveram-se os seguintes parâmetros de avaliação: Precisão Especificidade Sensibilidade 69.88% 70.07% 69.66% Embora com valores de sucesso baixos, evidencia-se uma preponderância para o modelo classificar melhor os casos de indivíduos que não rebatem vales (indicador especificidade) do que aqueles que rebatem (indicador sensibilidade). 6.3.5 (C) Desenvolvimento de Acções de Marketing Conforme estabelecido, os objectivos de marketing ambicionavam a determinação do perfil de cliente para cada tipo de produto. Face à complexidade dos dados disponíveis e o baixo nível de participação dos clientes no rebatimento de vales e resposta aos questionários houve necessidade de isolar sistematicamente o conjunto de dados inicial em função dos objectivos de DM que iam surgindo. Este principio proporcionou a existência de um conjunto de três objectivos de DM para o mesmo objectivo de marketing: determinação do perfil dos clientes em função do seu rebatimento de vales; análise dos produtos (vales) comprados (rebatidos); perfil dos clientes em função do produto adquirido. 179 Capítulo 6 Database Marketing Aplicado à Distribuição Segundo a metodologia DM4DBM é possível a existência de um conjunto de actividades de DM para uma mesma actividade de marketing (Tabela 10 – Exemplos de aplicação em casos de marketing exposta na secção 5.4.2.3),permitindo contudo o enquadramento destas numa tipologia de questões: Como; Qual Quem Quando e Que. (c1) Neste contexto o desenvolvimento de acções de marketing suportado pelo trabalho de DCBD, prossegue com a aplicação dos resultados na segmentação dos clientes em função dos objectivos de negócio, do seguinte modo: Questão de marketing “Qual”. Quando o objectivo é o desenvolvimento comercial de um produto pelo incentivo através de rebatimento de vales em geral, recorre-se ao modelo obtido no estudo do perfil dos clientes em função do seu rebatimento de vales e aplica-se a toda BD e seleccionando apenas os indivíduos (Modelo 1): Se #filhos <=1 E #lar >3 E Rendimento [501–750] Então TopBig Questão de marketing: “Quem”. Quando o objectivo pretendido consiste em realizar acções de cross-selling ou de up-selling recorre-se ao modelo obtido, aplicando-se por exemplo a regra (Modelo 3): SE está entre 151€ E 350€ e #Lar = 4 ENTÃO Sim (Compra Champôo1; Comida pré-preparada; Congelados-Peixe e Champôo 2) Questão de marketing “Que”. Para acções que visam especificamente promover a comercialização de um determinado tipo de produto, seleccionam-se os vales relativos a esse mesmo produto na BD, os quais irão servir como elemento de entrada para o modelo baseado nas redes auto-organizadas (SOM). Obtendo-se os clusters mais representativos procede-se à sua selecção e aplica-se o algoritmo C5.0, obtendo um conjunto de regras que permitirá seleccionar o conjunto de pessoas a contactar (Modelo 4). 180 Capítulo 6 Database Marketing Aplicado à Distribuição Máquina lavar louça? Sim Filhos? Sim Dimensão do lar? 4 Consumo Super? [151…350],[501,750],[750…[ (c2) Os modelos obtidos, dada a sua natureza, não possuem uma identidade de marketing, pelo que a sua aplicação é sempre flexível dependendo directamente do profissional de marketing envolvido e do conhecimento na área do analista. Registe contudo que com os resultados obtidos existe um ganho significativo de informação acerca dos consumidores para cada umas das situações analisas, conforme se pode comprovar com a aplicação das regras geradas nos dados de teste. A concretização no terreno dos modelos foi da exclusiva responsabilidade da empresa sendo possível apontar como exemplo prático o seguinte: o modelo 1 permite traçar o perfil do cliente em função de alguns aspectos conhecidos. Quando se pretender comunicar com esses clientes que rebatem mais facilmente vales de desconto basta aplicar a regra à BD e extrair todos os casos (registos) que verificam as condições impostas. 181 Capítulo 6 Database Marketing Aplicado à Distribuição 6.3.6 (D) Discussão de resultados Ao concluir-se um projecto, é tido por adequado salientar-se os resultados obtidos, mas também, abordar numa perspectiva critica, as limitações do mesmo. A solução proposta para o suporte ao desenvolvimento de actividades de BI, com especial incidência em projectos de DBM, procura representar um passo em frente, no sentido proporcionar uma visão integrada para o aproveitamento, numa perspectiva de marketing, do património de informação escondido por entre o enorme volume de dados nas organizações. O trabalho apresentado nesta dissertação permite pois, a pessoas mesmo fora da área das tecnologias de informação, adquirirem uma perspectiva global de como deve proceder ou de quais as etapas a percorrer para um desenvolvimento estruturado de um projecto de DBM. Na definição inicial dos objectivos foram referidos dois aspectos essenciais, a proposta de um sistema para o desenvolvimento do processo de DBM com recurso às técnicas de DM e a demonstração da sua aplicabilidade num caso prático. Considerando cada uma das fases importa realçar o papel deste sistema no que respeita à utilização das BD, muito para além do que até ao momento era prática habitual. Não foi por isso de estranhar, no caso da fase de recolha de informação, a heterogeneidade de fontes de dados bem como a diversidade de falhas qualitativa e quantitativas nos dados casos. Com a conclusão da fase inicial de recolha de informação e uma vez obtida a BDM, iniciou-se a fase de extracção de conhecimento, evidenciando a dificuldade existente no alinhamento dos objectivos de marketing com os objectivos das actividades de marketing em termos de processo de DCBD. Com o enquadramento possível e orientado para modelos de marketing previamente definidos a fase de aplicação e avaliação dos resultados revelou, devido à necessidade de trabalho de campo complementar, lacunas no que respeita à integração de conhecimento adquirido e avaliação dos próprios resultados - (o 182 Capítulo 6 Database Marketing Aplicado à Distribuição conhecimento extraído pode até ser muito útil e válido, mas o seus resultados práticos ficarão sempre condicionados às acções de marketing que o utilizam). Partindo da metodologia DM4DBM e da sua aplicação verifica-se uma adequação quase completa às necessidades, podendo-se ainda assim desejar uma maior documentação em cada uma das fases e um sistema vertical que permita suportar toda a sua concretização. No detalhe, a metodologia formulada revelou-se bastante eficaz nomeadamente nas fases que vão desde a recolha e angariação dos dados até à constituição da BDM, permitindo a integração de dados oriundos de diferentes sistemas, perspectivando a integração de informação entre empresas ou mesmo o aluguer de BD externas. Ao nível das fases mais morosas e complexas em processos de DM, as fases de preparação e transformação de dados, a metodologia permitiu enquadrar cada caso particular dentro do projecto DBM que se pretendia desenvolver, tal como se pode observar na transposição de tabelas ou nas operações de limpeza e tratamento de casos excepcionais dos dados. Finalmente a metodologia transpõe para o DBM a problemática inerente à complexidade dos objectivos de marketing, procurando ultrapassar essa realidade delineando um alinhamento entre os objectivos das actividades de marketing com as técnicas de DM disponíveis. Este contributo é formulado sob forma de uma tabela que cruza os objectivos das actividades de marketing, orientados pelas cinco questões gerais do marketing, com as técnicas de DM disponíveis, indicando para cada caso aquela ou aquelas técnicas que melhor se ajustam. Os resultados obtidos com a aplicação da metodologia no terreno são animadores tendo em conta a não só a utilidade como a validade dos mesmos, permitindo mesmo a aplicação do conhecimento escondido em BDM em acções de marketing, concretizando assim o desejo de que a DM4DBM viabilizasse o suporte ao desenvolvimento de actividades de BI, concretizado em projectos de DBM. 183 Capítulo 6 Database Marketing Aplicado à Distribuição 184 Capítulo 7 Conclusões e Trabalho Futuro Capítulo 7 7 Conclusões e Trabalho Futuro São apresentadas as conclusões ao trabalho desenvolvido identificando-se as principais contribuições as áreas de Tecnologias e sistemas de Informação e de Marketing, sendo ainda sugeridas algumas linhas orientadoras para trabalho a desenvolver no futuro. 7.1 Sinopse Após uma observação sobre a evolução das correntes de marketing, concluímos que o marketing relacional é uma das principais práticas dessa área. Para que tal seja possível o recurso ás tecnologias de informação, bases de dados em particular, terá que pelo desenvolvimento de projectos de Database Marketing (DBM) no contexto de actividades de Business Intelligence (BI). Na sequência desta conclusão, começou-se por se fazer um levantamento dos principais modelos de desenvolvimento de DBM tendo-se constatado que abordagens tradicionais, em geral não incluem processos de Descoberta de Conhecimento em Bases de Dados (DCBD). O facto de não existir uma metodologia estruturada que permita ir dos dados em bruto até à extracção e aplicação do conhecimento escondido entre eles, proporcionou uma 185 Capítulo 7 Conclusões e Trabalho Futuro oportunidade de propor uma metodologia para a aplicação de técnicas de Data Mining (DM) em projectos de DBM. A sistematização de procedimentos que permitem actuar sobre os dados e extrair informação potencialmente útil e válida, com aplicação relevante em marketing foi então definido como o objectivo ultimo da metodologia a desenvolver, denominada por Data Mining For(4) Database Marketing (DM4DBM). A metodologia proposta concede especial atenção ao processo de extracção de conhecimento em BDM orientado por objectivos definidos pelas actividades de marketing em que se enquadra. Uma vez definida, recolheu-se junto de uma empresa, que actua no mercado da distribuição de produtos de grande consumo, uma Bases de Dados (BD) relativa a um projecto de marketing relacional. A exequibilidade da metodologia é aferida através de um caso de experimentação que visa determinar o perfil de clientes para um conjunto de produtos, tendo-se seguido os passos previstos na seu âmbito. Este estudo provou a aplicação da metodologia quanto a: Sistematização de actividades, desde a angariação e recolha de dados até à constituição da BDM, orientada por objectivos de marketing; Enquadramento e optimização de processos tendo em vista a preparação e préprocessamento dos dados; Sistematização de actividades de DM orientadas a problemas de marketing, definidos sob a forma de “macro” questões; Aplicação e validação de modelos obtidos em acções de marketing. 186 Capítulo 7 Conclusões e Trabalho Futuro Numa perspectiva critica, assume-se a limitação da metodologia em proporcionar um controlo efectivo sobre os resultados, não estando prevista a reintegração e aproveitamento do conhecimento adquirido no sistema de dados. Com o mesmo sentido critico, pelo facto de existir apenas um caso de experimentação da metodologia, reconhece-se a sua limitação, neste momento, para se poder generalizar a outras áreas do marketing. 7.2 Co nclusões Os conceitos teóricos decorrentes do estudo teórico desenvolvida permitiram a elaboração de uma proposta de metodologia que permita o suporte ao desenvolvimento de actividades de BI. Os resultados obtidos com a aplicação da metodologia DM4DBM neste caso de experimentação podem ser interpretados à luz de várias perspectivas: organizacional, do marketing e das tecnologias e sistemas de informação. Na perspectiva organizacional, demonstra a necessidade do envolvimento de diferentes órgãos que vão desde o profissional de marketing até ao responsável de sistemas de informação. Numa perspectiva de marketing, representa uma contribuição para a área uma vez que permite a sistematização de um conjunto de tarefas que vão desde os dados, que não faltam nas empresas contemporâneas, até à aplicação do conhecimento obtido em actividades de marketing. Finalmente, mas mais importante, analisando numa perspectiva das tecnologias e sistemas de informação, os resultados obtidos permitem não só o alinhamento de algumas actividades de marketing com as técnicas de DM, simplificando de algum modo a dificuldade inerente ao processo de modelação. 187 Capítulo 7 Conclusões e Trabalho Futuro Concretizando esta ideia, os resultados obtidos ao longo deste trabalho, não são um referencial de sucesso na DCBD, mas incorporam uma vertente importante: utilização prática dos algoritmos de DM em domínios cuja aplicabilidade é muito referenciada mas para a qual existe muito pouca documentação. Potencia-se desta forma a construção de sistemas e metodologias verticais para DBM baseados em abordagens de DM. No decurso deste trabalho foram efectuadas as seguintes publicações: Pinto Filipe ; Gago, Pedro; Santos, M. Filipe; “Data Mining as New Paradigm for Business Intelligence in Database Marketing Projects”, 8th International Conference on Enterprise Information Systems, ICEIS 2006, 23-27 de Maio de 2006, Paphos - Chipre (aceite para publicação) Pinto, F, Santos M F, “Descoberta de Conhecimento em Bases de Dados em Actividades de CRM”; Datagadgets 2005; 1º Congresso Espanhol de Informática CEDI 2005; Granada, 2005; Santos, M.F, Cortez, P, Quintela, H, Pinto, F, “A Clustering Approach for Knowledge Discovery in Database Marketing”, Data Mining 2004 Skyathos, Greece 2004 Pinto, F, Santos, M.F, Cortez, P, Quintela, H, “Data Preprocessing for Database Marketing”, Data Gadgets 2004, Málaga Spain, pp 76-84; 2004 Pinto, F, Santos, M.F, Cortez, P, Quintela, H, “Criação de Bases Dados de Marketing”, JOCLAD 2005, Ponta Delgada; 2005 188 Capítulo 7 Conclusões e Trabalho Futuro 7.3 Trabalho Futuro A área do marketing relacional assume aspectos cada vez mais relevantes na gestão das organizações seja por questões de ordem financeira (redução de custos) seja por questões de natureza comercial (e.g., optimizar a relação com o cliente). Face ao esforço desenvolvido na proposta de uma metodologia para tornar a extracção de conhecimento em BD acessível a profissionais de marketing, a concretização prática da mesma requer a presença de um analista com conhecimentos aprofundados em sistemas gestores de bases dados e de técnicas de DM. Contudo, o sucesso de uma metodologia com as ambições da DM4DBM poderá ser aferido através de inquéritos de aceitação e testes de aplicabilidade, com base numa avaliação externa realizada quer por profissionais da área (um painel de peritos com mérito reconhecido) quer por investigadores no domínio das técnicas de DM. Esta vertente abrirá espaço para a implementação da metodologia DM4DBM sob a forma de um sistema vertical permitindo uma aplicação directa das técnicas para extracção de conhecimento em bases dados sob um modo mais intuitivo e transparente para o utilizador. Sob o mesmo raciocínio a manifesta falta de capacidade dos gestores e profissionais de marketing em lidar com grandes volumes de dados, abre uma janela de oportunidade para que a sistematização proposta para o DBM seja desenvolvida noutras vertentes, como sejam na óptica das tecnologias de BD, com sistemas autónomos na criação de DW dedicados e na óptica das tecnologias inerentes ao processo de DCDB. 189 Capítulo 7 190 Anexos Anexos 191 Anexo A Metodologia CRISP-DM Anexo A Neste anexo é apresentada de forma resumida a metodologia CRISP-DM. 8 Metodologia CRISP-DM Na apresentação das fases da metodologia CRISP-DM destacam-se as características mais proeminentes e a documentação produzida. A exposição que se segue tem como base o documento da CRISP-DM [Chapman et el 2000]: Estudo do Negócio A abordagem ao negócio da organização, centra-se na análise dos objectivos do projecto e nos requisitos (funcionais, técnicos, temporais) segundo a perspectiva organizacional. O conhecimento adquirido neste estudo é posteriormente utilizado para a definição do problema de DM e na concepção do plano preliminar. A primeira abordagem do processo de DM consiste em estudar a necessidade da realização do próprio projecto de DM, compreender e enquadrar a perspectiva do problema, os objectivos a atingir e descobrir quais os factores mais preponderantes que influenciam os resultados, ou seja, percepcionar a envolvente do problema a resolver. O estudo do negócio realiza-se pelas seguintes tarefas: 192 Anexo A Metodologia CRISP-DM 1. Determinação dos objectivos do negócio – na fase inicial do projecto é fundamental compreender todos os aspectos que condicionam o negócio como seja, conhecer segundo a perspectiva da organização, os objectivos primários do cliente (e.g., fidelização dos clientes actuais prevendo quando estes estão susceptíveis de abandonar); 2. Avaliação da situação actual – determinar com exactidão todos os recursos disponíveis para o projecto (recursos humanos, materiais e financeiros). Realizar um levantamento de todos os requisitos, pressupostos e restrições do projecto, o que inclui um programa de realização, compreensibilidade, qualidade dos resultados, segurança, aspectos legais e restrições na disponibilidade dos recursos e tecnológicos. deverão igualmente ser identificados todos os riscos, ameaças ou eventos que possam comprometer o projecto e respectivos planos de contingência (acções que previnem o risco). Importa referir ainda a importância da elaboração de uma análise de custos e benefícios para o projecto, onde se compare os custos deste com o potencial benefício para o negócio; 3. Definição dos objectivos de DM – descrição dos objectivos de DM e os critérios de sucesso do DM (e.g., classificação, previsão, segmentação). Como exemplo, tendo por base o histórico das compras efectuadas nos últimos anos, o preço dos produtos e a informação demográfica (e.g., idade, rendimentos, cidade, sexo), prever a quantidade que um cliente irá comprar; 4. Definição do plano para o projecto – esta tarefa consiste na elaboração de um plano para o projecto que inclua a duração, os recursos, as fases, as sub-fases, as interacções entre os processos, entradas, saídas e dependências. Inclui ainda a elaboração do pressuposto inicial para as ferramentas e técnicas (e.g., requisitos ao nível das ferramentas, BD, dos Sistemas Operativos). 193 Anexo A Metodologia CRISP-DM O resultado final do estudo do negócio consiste num plano do projecto que inclui a informação acerca do negócio, os seus objectivos e critérios de sucesso, os vários recursos, os requisitos e restrições, os custos e benefícios, os objectivos de DM e os pressupostos das ferramentas e técnicas a utilizar. Estudo dos Dados A fase de estudo dos dados, inicia-se com recolha inicial dos dados e prossegue com a sua análise de forma a identificar problemas de qualidade. Para que se possam aplicar as técnicas de DM aos dados, é necessário ter em conta algumas tarefas, como sejam: 1. Recolha inicial dos dados – consiste na aquisição dos dados e da sua compreensão. Desta tarefa resulta uma lista dos dados adquiridos, a sua localização, os métodos de aquisição, problemas e soluções encontradas. 2. Descrição dos dados – uma vez recolhidos os dados é necessário descrevê-los, reconhecer o seu formato, o número de registos nas tabelas, identificar os registos e outras características entretanto descobertas. 3. Exploração os dados – o resultado desta tarefa consiste numa listagem inicial de hipóteses e o seu impacto no restante projecto. Para uma melhor exploração utilizam-se, por exemplo, gráficos e histogramas, que indicam características dos dados. 4. Verificação da qualidade dos dados – realizar um relatório que inclui problemas de qualidade nos dados e possíveis soluções (normalmente dependem directamente dos dados e do conhecimento do negócio). Preparação dos Dados A fase de preparação dos dados envolve todas as actividades associadas à construção do conjunto final de dados, aquele que será usado na ferramenta de modelação, sofrendo 194 Anexo A Metodologia CRISP-DM inevitavelmente várias optimizações. Esta fase inclui a selecção de tabelas, registos e atributos, bem como a transformação e limpeza dos dados a usar na ferramenta de modelação, as sub-fases são as seguintes: 1. Selecção de dados – consiste na escolha dos dados a utilizar na análise. Os critérios para a selecção incluem a relevância dos objectivos de DM e restrições técnicas e de qualidade, como os limites no volume de dados e tipo de dados. No final desta tarefa é ainda realizada uma listagem dos dados incluídos e excluídos e as razões da decisão; 2. Limpeza de dados – Complementa a tarefa anterior, existindo várias técnicas que se podem aplicar de forma a optimizar a qualidade dos dados, e.g., a normalização dos dados e tratamento dos dados omissos; 3. Derivação de dados – realiza-se pela derivação de novos atributos (e.g. determinar o novo atributo idade, a partir da data de nascimento), criação de novos registos e transformação dos dados (normalização); 4. Integração de dados – obtém-se recorrendo a métodos para a criação de novos registos ou valores, cuja informação é uma combinação de múltiplas tabelas ou registos (e.g., junção e agregação de tabelas ou registos); 5. Formatação de dados – a ultima tarefa da preparação dos dados consiste em modificações sintácticas nos dados de modo a que não alterem o seu significado, mas que os tornem utilizáveis pela ferramenta de modelação. Modelação Esta fase consiste na selecção de várias técnicas de modelação (e.g., árvores de decisão ou redes neuronais artificiais) e os seus parâmetros são ajustados de forma a optimizar os resultados. Normalmente, para o mesmo problema de DM existem várias técnicas disponíveis (e.g., as técnicas árvores de decisão ou redes neuronais artificiais aplicam-se 195 Anexo A Metodologia CRISP-DM a problemas de classificação), sendo que algumas têm requisitos específicos para a forma como os dados são apresentados, pelo que pode ser necessário voltar à fase anterior preparação dos dados. Como referido anteriormente, no início do processo, são especificados os problemas e os objectivos do DM, no entanto, apenas nesta fase é que os dados, previamente preparados para a modelação, são utilizados. A escolha das técnicas deve ser cuidadosa de modo a que satisfazer os objectivos de DM. Nesta fase são contempladas as seguintes tarefas: 1. Selecção de técnicas de modelação – a selecção da técnica mais apropriada deve ser realizada tendo em atenção o tipo de problema, as ferramentas e os objectivos do DM; 2. Definição de uma concepção de Teste – importa antes de construir o modelo, definir um procedimento ou um mecanismo para testar o desempenho do próprio modelo; 3. Construção do modelo – uma vez seleccionada a ferramenta de modelação, esta é aplicada ao conjunto de dados preparados anteriormente, permitindo a criação de um ou mais modelos. Os vários parâmetros das ferramentas de modelação devem ser ajustados e os modelos resultantes devem ser convenientemente interpretados e o seu desempenho explicado; 4. Revisão do modelo – a interpretação dos modelos deve ser realizada de acordo com o domínio do conhecimento, critérios de sucesso do projecto de DM e com o mecanismo de teste definido. Na avaliação do sucesso de aplicação do modelo deve ser levada em consideração o impacto dos resultados deste no contexto do negócio. 196 Anexo A Metodologia CRISP-DM Avaliação A fase de avaliação consiste na validação da utilidade do modelo (ou modelos), na revisão dos passos executados na sua construção e verificação se for atingidos os objectivos do negócio. Esta fase compreende as seguintes tarefas: 1. Avaliação dos resultados – determinação se o modelo atingiu os objectivos do negócio (e de DM) e avaliação do modelo quanto a possíveis lacunas; 2. Revisão do processo – análise de todas as fases do processo de modo a realçar eventuais actividades esquecidas e/ou que necessitem de ser repetidas; 3. Determinação dos próximos passos – o projecto apenas se considera concluído se todos se todos os passos anteriores foram satisfatórios e os resultados cumpriram os objectivos, devendo então passar para a sua fase de implementação. Caso suceda o inverso, é necessário então proceder a uma nova iteração das fases anteriores, utilizando novos parâmetros. Implementação Uma vez criado o(s) modelo(s) tal não representa o final do projecto. O conhecimento extraído deve ser organizado e apresentado de modo a que o utilizador o possa usar. A fase de implementação pode ser tão simples como, por exemplo, gerar um relatório ou pode ser tão complexa como integrar os resultados nos sistemas da organização, dependendo dos requisitos. Em muitos casos é o utilizador e não o analista, que executa os passos de implementação, sendo no entanto importante que este entenda as acções que precisa de executar de forma a fazer uso dos modelos criados. As tarefas envolvidas nesta fase são: 1. Planeamento da avaliação dos resultados – define a estratégia para a implementação dos resultados de DM, incluindo os passos e a forma como executar. 197 Anexo A Metodologia CRISP-DM 2. Planeamento da monitorização e manutenção – consiste na definição de estratégia de monitorização e manutenção e é aconselhável sempre que os resultados do DM (modelos), sejam implementados no domínio do problema como parte da rotina do quotidiano. Como retorno da monitorização e manutenção é possível verificar se os modelos são usados correctamente. 3. Produção um relatório final – é a fase de conclusão do projecto de DM. Elaborase um relatório final resumindo os pontos mais importantes no projecto, experiência adquirida, explicação dos resultados produzidos e mais importantes. 4. Revisão do Projecto – avaliação dos pontos correctos e errados, do que correu bem ou que necessita de ser melhorado. Resumo das experiências mais importantes do projecto, torna-se benéfico para projectos futuros e em situações similares referir as armadilhas, aproximações erradas ou como foram seleccionadas as técnicas de DM. A Aplicação desta metodologia em projectos de DM permite garantir uma maior celeridade, menores custos de execução, maior segurança, assim como a sua maior exequibilidade e viabilidade. A metodologia CRISP-DM é extremamente completa e documentada, uma vez que as suas fases estão devidamente organizadas, estruturadas e definidas, permitindo que o projecto possa ser facilmente compreendido ou revisto. Como resultado da sua aplicação obtém-se um conjunto de documentação sobre todo o processo, num total de onze relatórios: Estudo do negócio; Relatório do conjunto inicial de dados; Relatório da descrição de dados; Relatório da qualidade dos dados; Relatório da descrição da amostra de dados; Relatório da modelação; 198 Anexo A Metodologia CRISP-DM Relatório da avaliação; Plano de implementação; Manutenção e relatório final 199 Anexo B Metodologia SEMMA Anexo B Neste anexo é apresentada de forma resumida a metodologia SEMMA. 9 Metodologia SEMMA A metodologia SEMMA disponibiliza um método de fácil compreensão, possibilitando um desenvolvimento organizado, adequado e consequente manutenção dos projectos de DM, i.e, confere uma estrutura para a sua concepção, criação e evolução, por forma a apresentar soluções para os problemas, descobrir os objectivos de DM para o negócio. Esta metodologia consiste em cinco fases as quais são seguidamente caracterizadas de acordo com a documentação oficial fornecida pelo instituto SAS, disponível no seu sítio oficial na internet Sample - Amostragem A primeira fase da metodologia SEMMA consiste na realização de uma amostragem, significativa, com a extracção de uma quantidade de dados do universo existente – a amostra33 deve corresponder a um subconjunto de dados que pertencem ao universo onde cada elemento tem as mesmas hipóteses de ser incluído, mas também deve ser pequena de modo a tornar-se rápida e de fácil manipulação. 33 Amostra – É um sub-conjunto dos indivíduos pertencentes a uma população. A informação recolhida para uma amostra é depois generalizada para toda a população [Reis et al., 1998] 200 Anexo B Metodologia SEMMA A realização do processo de amostragem traduz-se numa optimização dos custos, da rentabilidade e do desempenho das etapas seguintes, dado o facto de a manipulação de uma amostra ser mais rápido e fácil do que manipular todo o universo de dados disponíveis. O desenvolvimento de todo o processo de DM a partir de uma amostra representativa reduz drasticamente o volume e o tempo de processamento necessário para tirar informação crucial para o negócio. Neste contexto, se o universo de dados tiver um determinado padrão ou tendência bastante determinado, estes estão patentes na amostra, caso contrário, o padrão ou tendência for irrelevante, ao ponto de não ser detectado na amostra, também não será importante para o universo de dados [SAS, 2005]. Explore - Exploração Uma vez realizado o processo de amostragem, a primeira abordagem realizada sobre os dados consiste em explorá-los visualmente ou numericamente (e.g., gráficos de distribuição e dispersão, histogramas, tabelas de frequência, mapas de associações e segmentação) permitindo em alguns caso detectar as tendências ou agrupamentos inerentes nos dados. A exploração ajuda a refinar o processo de descoberta. Se a visualização não revelar claramente as tendências, é possível recorrer ainda ao uso de técnicas mais avançadas de estatísticas, como a distribuição de Poisson, Mínimos Quadrados, Qui-Quadrado e Regressão Linear. A etapa de exploração é marcada pela procura de tendências imprevistas e por anomalias de forma a conhecer os dados de uma forma aprofundada e as suas relações. Modify - Modificação A fase da modificação concentra todas as transformações necessárias com base nos resultados da etapa de exploração. As transformações realizadas podem ser de inclusão de informação (e.g., agrupamento de subgrupos significativos de dados), selecção ou 201 Anexo B Metodologia SEMMA introdução de novas variáveis, de forma a obter-se as variáveis mais significativas. O objectivo desta fase consiste em criar, seleccionar e transformar as variáveis para o processo de construção do modelo, preparando os dados para a etapa seguinte - a Modelação. Model - Modelação Uma vez preparados os dados, é possível então prosseguir para a fase de aplicação de algoritmos - modelação. É nesta fase que se definem as técnicas de construção de modelos de DM, onde se incluem as técnicas de aprendizagem automática (e.g. árvores de decisão ou redes neuronais artificiais) e modelos estatísticos (e.g., Regressão Linear, Indução de Probabilidades). Para a selecção da técnica é necessário levar em consideração que cada modelo tem propriedades e características singulares dependentes dos dados e adequados a situações específicas de DM (e.g., as redes neuronais artificiais alcançam melhores resultados com dados com relacionamentos complexos e não lineares). A etapa de modelação tem como objectivo seleccionar as técnicas de construção de modelos de forma a prever com confiança os resultados desejados [SAS, 2005]. Assessment - Avaliação A etapa final da metodologia SEMMA consiste na avaliação do modelo de forma a aferir o seu desempenho. Geralmente, a fase de avaliação de um modelo corresponde à aplicação deste a uma amostra de dados seleccionada para este fim (conjunto de teste). Se o modelo for válido este deve funcionar tão bem como na amostra que serviu de base à sua construção. A etapa de avaliação tem como objectivo aplicar o modelo à amostra de dados e verificar a seu desempenho, de forma a proceder a ajustes se necessário [SAS, 2005]. 202 Anexo C Pseudo Código para Transposição de Tabelas Anexo C Neste anexo é apresentado o código utilizado para a transposição de tabelas no decorrer da preparação dos dados. 10 Pseudo Código para Transposição de Tabelas WHILE NOT dRs.EOF OR dRs.BOF clicod = dRs.Fields.Item("cod_cli") i = 1 GoTo act WEND ' Percorrer os vales rebatidos por cada cliente registado act: IF dRs.EOF Or dRs.BOF THEN ELSE WHILE clicod = dRs.Fields.Item("cod_cli") desc_vale = dRs.Fields.Item("desc_prod") id_vale = dRs.Fields.Item("cod_vale") Dim oCmd As New Command Dim oRs As Recordset Dim sSql As String IF i = 1 THEN sSql = "insert into vales_ord (cod_cli,vale" id_vale & ") values (" & clicod & ",'" & desc_vale & "')" & 'sSql = "insert into vales (cod_cli,vale" & i & ") values (" & clicod & ",'" & desc_vale & "')" 203 Anexo C Pseudo Código para Transposição de Tabelas ELSE sSql = "update vales_ord set vale" & id_vale & "='" & desc_vale & "' where cod_cli=" & clicod & "" 'sSql = "update vales set vale" desc_vale & "'where cod_cli=" & clicod & "" End IF oCmd.ActiveConnection = mcon oCmd.CommandType = adCmdText oCmd.CommandText = sSql oCmd.Execute dRs.MoveNext 'valecod = dRs.Fields.Item("cod_vale") ' MsgBox (valecod & " " & clicod) i = i + 1 Wend 204 & i & "='" & Anexo D Modelos de Data Mining: Modelo 1 Anexo D Apresenta-se em detalhe a stream construída no Clementine Data Mining System aplicação de algoritmos de Data Mining com vista à obtenção do perfil para clientes que rebatem vales. 11 Modelos de Data Mining: Modelo 1 Perfil de Clientes em função da sua propensão para o rebatimento de vales: A stream constituida no Clementine Data Mining System partiu do conjunto de dados relativos a clientes classificados, pelo método da pirâmide, como Top e Big relativamente a vales rebatidos. O conjunto de treino foi constituído pela aplicação do pseudo código: Select * From ClienteFinal Where BandaVale <> “Inactive” SE BandaVale=”Top” or BandaVale=”Big” ENTÃO TipoCliente=”TopBig” SENÃO TipoCliente=”Not” O output do pseudo código permitiu a criação de um conjunto de dados (ficheiro) denominado como ClientesTopBig.Txt. 205 Anexo D Modelos de Data Mining: Modelo 1 A stream apresenta um nodo Filter para selecção dos atributos a considerar para a geração do modelo de classificação (algoritmo C 5.0); um nodo Type para a configuração do tipo de atributos de entrada; um nodo Sample para concretizar a amostragem de 2/3 de indivíduos para treino (segundo método da divisão da amostra) e o nodo C5.0 para a geração do modelo com base no respectivo algoritmo. Na definição da configuração final para o algoritmo de classificação C 5.0 experimentadas diversas configurações para análise de resultados, nomeadamente, apresentação de resultados em forma de conjunto de regras ou árvores de decisão. 206 Anexo D Modelos de Data Mining: Modelo 1 O modelo gerou um conjunto de 4 regras que permitem prever as condições sob as quais os clientes rebatem vales. A regra mais relevante refere 365 casos dos quais 76% dos clientes rebatem vales e possui as mesmas características: nº filhos <=1; dimensão do lar superior a 3 pessoas e rendimento per capita entes os 500 e os 750€. Rules for sim - contains 4 rule(s) Rule 1 for sim (365, 0,76) if #filhos <= 1 and #lar > 3 and rendimento = [501-750] then sim Rule 2 for sim (699, 0,729) if #filhos > 0 and #filhos <= 1 and rendimento = [501-750] then sim Rule 3 for sim (501, 0,728) if #lar > 3 and #lar <= 4 and rendimento = [501-750] then sim Rule 4 for sim (63, 0,692) If #filhos >2 and ComprsSuper=[mais 651] and rendimento=[501-750] then sim Rules for nao - contains 4 rule(s) Rule 1 for nao (70, 0,694) if rendimento = mais 750 then nao Rule 2 for nao (85, 0,655) if rendimento = [250 - 500] then nao Rule 3 for nao (95, 0,598) if #filhos <= 0 and #lar <= 3 then nao Rule 4 for nao (729, 0,527) if #filhos > 1 then nao Default: sim Transpondo o resultado sob a forma de AD verifica-se um detalhe ainda maior na selecção dos valores que caracterizam os atributos, perdendo-se contudo em precisão. rendimento = [250 - 500] [ Mode: nao ] => nao (85, 0,659) rendimento = [501-750] [ Mode: sim ] (1.463) #filhos <= 1 [ Mode: sim ] (823) #filhos <= 0 [ Mode: nao ] (124) #lar <= 3 [ Mode: nao ] => nao (81, 0,593) #lar > 3 [ Mode: sim ] => sim (43, 0,581) #filhos > 0 [ Mode: sim ] => sim (699, 0,73) #filhos > 1 [ Mode: nao ] (640) #lar <= 3 [ Mode: nao ] (385) ComprasSuper = [151-350] [ Mode: nao ] => nao (129, 0,527) 207 Anexo D Modelos de Data Mining: Modelo 1 ComprasSuper = [351-500] [ Mode: nao ] => nao (117, 0,573) ComprasSuper = [mais 651] [ Mode: sim ] (70) #filhos <= 2 [ Mode: nao ] => nao (29, 0,69) #filhos > 2 [ Mode: sim ] => sim (41, 0,683) ComprasSuper = [menos 150] [ Mode: nao ] => nao (69, 0,623) #lar > 3 [ Mode: sim ] (255) #lar <= 4 [ Mode: sim ] => sim (200, 0,615) #lar > 4 [ Mode: nao ] => nao (55, 0,618) rendimento = mais 750 [ Mode: nao ] => nao (70, 0,7) A representação visual dos resultados obtidos pelo modelo são ilustráveis pela figura seguinte: 208 Anexo E Modelos de Data Mining: Modelo 2 Anexo E Apresenta-se em detalhe a stream construída no Clementine Data Mining System com vista à obtenção do perfil para clientes que mais rebatem vales e mais respostas deram aos questionários. 12 Modelos de Data Mining: Modelo 2 Determinação do perfil considerando a propensão dos indivíduos para o rebatimento de vales e resposta a questionários A stream desenvolvida no Clementine Data Mining System partiu do conjunto de dados relativos a clientes classificados previamente como Top e Big relativamente à quantidade de respostas dadas em questionários e vales rebatidos. Desse conjunto de clientes seleccionados pela aplicação do pseudo código representado abaixo, constitui-se um ficheiro de dados denominado ClientesTopBigValQ.Txt. Select * From ClienteFinal Where BandaVale <> “Inactive” SE BandaVale=”Top” or BandaVale=”Big” or BandaPergunta=”Small” ENTÃO TipoCliente=”TopBig” SENÃO TipoCliente=”Not” 209 Anexo E Modelos de Data Mining: Modelo 2 A análise prosseguiu com registos seleccionados aleatoriamente pelo nodo Sample e sobre o quais se aplicou o algoritmo C5.0. O modelo obtido, constitui um conjunto de regras onde se evidencia a regra que permite classificar os clientes como TopBig com uma acuidade de 73.4% #lar <= 3 [ Mode: nao ] => nao (470, 0,734) #lar > 3 [ Mode: sim ] (1.148) rendimento = [250 - 500] [ Mode: nao ] => nao (56, 0,607) rendimento = [501-750] [ Mode: sim ] => sim (1.055, 0,735) rendimento = mais 750 [ Mode: nao ] => nao (37, 0,622) A representação do modelo em termos de árvore de decisão ilustra-se com a imagem. Rules for sim - contains 1 rule(s) Rule 1 for sim (1.055, 0,734) if #lar > 3 and rendimento = [501-750] then sim Rules for nao - contains 3 rule(s) Rule 1 for nao (470, 0,733) if #lar <= 3 then nao Rule 2 for nao (70, 0,694) if rendimento = mais 750 then nao Rule 3 for nao (85, 0,655) if rendimento = [250 - 500] then nao Default: sim 210 Anexo E Modelos de Data Mining: Modelo 2 A representação gráfica em forma de árvore é ilustrada pela imagem seguinte. 211 Anexo F Modelo de Data Mining: Modelo 3 Anexo F Apresenta-se em detalhe a stream construída no Clementine Data Mining System aplicação de algoritmos de Data Mining com vista à análise do cabaz de compras – determinação de relações existentes entre os produtos adquiridos. 13 Modelo de Data Mining: Modelo 3 Determinação de relações entre produtos comprados ((vales rebatidos) A procura de relações entre produtos adquiridos em simultâneo por clientes, denominado por análise do cabaz de compras, iniciou-se pela aplicação do algoritmo Genereal Rule Induction (GRI). Os resultados deste algoritmo podem ser ter uma representação gráfica, onde a robustez das relações se define pela espessura do traço que une cada elemento do gráfico. 212 Anexo F Modelo de Data Mining: Modelo 3 Outro modo de representação dos resultados do algoritmo GRI consiste numa tabela de associações onde existe um consequente e um ou mais antecedentes. O teste á associação determinada é medido por dois elementos, grau de confiança e suporte. O grau de confiança corresponde à percentagem relativa que ocorre de entre todos os registos em análise aqueles que verificam simultaneamente os antecedentes e os consequentes. O grau de confiança traduz a força ou intensidade da implicação entre os elementos. O suporte corresponde à percentagem relativa dos registos que contém os antecedentes ou os consequentes. O suporte reflecte a frequência de padrões que ocorrem numa regra. As regras obtidas com níveis de confiança e de suporte elevados são referidas como regras fortes. 213 Anexo F Modelo de Data Mining: Modelo 3 Resultante da aplicação do modelo as associações mais significativas foram: Instancias Suporte Confiança Consequente Antecedente 1 Antecedente 2 5 070 2,900 80,000 Champôo 1 Comida Pré-Preparados Congelados – Peixe 4 130 4,850 77,000 Comida Pré-Preparados Gelados e Yogurtes Congelados – Peixe 10 530 14,450 57,000 Congelados – Peixe Comida pré-preparada Antecedente 3 Champôo 2 Uma vez seleccionadas as regras com maior suporte e grau de confiança procedeu-se à selecção dos conjuntos de registos correspondentes e individualmente aplicou-se o algoritmo C5.0 com vista à obtenção de regras que permitam caracterizar os consumidores envolvidos. Análise da associação: Consequente Champôo 1 Antecedente 1 Antecedente 2 Comida Pré-Preparados Congelados – Peixe 214 Antecedente 3 Champôo 2 Anexo F Modelo de Data Mining: Modelo 3 Assim para a primeira associação o modelo gerado pelo algoritmo C5.0 produziu como AD as seguintes regras: Rules for nao - contains 7 rule(s) Rule 1 for nao (108, 0,836) if #Lar = [ 4 ] and Super = [351 a 500?] then nao Rule 2 for nao (141, 0,818) if #Lar = [ 2 ] then nao Rule 3 for nao (268, 0,807) if #Lar = [ 3 ] then nao Rule 4 for nao (123, 0,792) if Super = [501 a 650] then nao Rule 5 for nao (48, 0,78) if #Lar = [ 4 ] and Super = [menos 150€] then nao Rule 6 for nao (121, 0,772) if #Lar = [ 5 ] then nao Rule 7 for nao (1, 0,667) if #Lar = [+ 6] then nao Rules for Sim - contains 1 rule(s) Rule 1 for Sim (2.649, 0,562) if #Lar = [ 4 ] and Super = [151 a 350?] then Sim Default: nao O conjunto de regras correspondente foi o seguinte: #Lar = [ 2 ] [ Mode: nao ] => nao (141, 0,823) #Lar = [ 3 ] [ Mode: nao ] => nao (268, 0,81) #Lar = [ 4 ] [ Mode: Sim ] (2.848) Super = [151 a 350?] [ Mode: Sim ] => Sim (2.649, 0,562) Super = [351 a 500?] [ Mode: nao ] => nao (108, 0,843) Super = [501 a 650] [ Mode: nao ] => nao (43, 0,721) Super = [menos 150€] [ Mode: nao ] => nao (48, 0,792) #Lar = [ 5 ] [ Mode: nao ] => nao (121, 0,777) #Lar = [+ 6] [ Mode: nao ] => nao (1, 1,0) O qual representado graficamente possuía permitia visualizar a selecção dos atributos. 215 Anexo F Modelo de Data Mining: Modelo 3 216 Anexo F Modelo de Data Mining: Modelo 3 Para a segunda associação, Consequente Comida Pré-Preparados Antecedente 1 Gelados e Yogurtes Antecedente 2 Congelados – Peixe Conjunto de regras gerado foi: #Lar = [ 2 ] [ Mode: nao ] => nao (141, 0,823) #Lar = [ 3 ] [ Mode: nao ] => nao (268, 0,81) #Lar = [ 4 ] [ Mode: Sim ] (2.848) Super = [151 a 350€] [ Mode: Sim ] => Sim (2.649, 0,562) Super = [351 a 500€] [ Mode: nao ] => nao (108, 0,843) Super = [501 a 650] [ Mode: nao ] => nao (43, 0,721) Super = [menos 150€] [ Mode: nao ] => nao (48, 0,792) #Lar = [ 5 ] [ Mode: nao ] => nao (121, 0,777) #Lar = [+ 6] [ Mode: nao ] => nao (1, 1,0) Rules for nao - contains 7 rule(s) Rule 1 for nao (108, 0,836) if #Lar = [ 4 ] and Super = [351 a 500?] then nao Rule 2 for nao (141, 0,818) if #Lar = [ 2 ] then nao Rule 3 for nao (268, 0,807) if #Lar = [ 3 ] then nao Rule 4 for nao (123, 0,792) if Super = [501 a 650] then nao Rule 5 for nao (48, 0,78) if #Lar = [ 4 ] and Super = [menos 150€] then nao Rule 6 for nao (121, 0,772) if #Lar = [ 5 ] then nao Rule 7 for nao (1, 0,667) if #Lar = [+ 6] then nao Rules for Sim - contains 1 rule(s) Rule 1 for Sim (2.649, 0,562) if #Lar = [ 4 ] and Super = [151 a 350?] then Sim Default: nao 217 Anexo F Modelo de Data Mining: Modelo 3 A representação gráfica das regras geradas é as seguinte 218 Anexo F Modelo de Data Mining: Modelo 3 Finalmente a terceira associação, Consequente Congelados – Peixe Antecedente 1 Comida pré-preparada #lar <= 1 [ Mode: nao ] => nao (98, 1,0) #lar > 1 [ Mode: sim ] (6.662) #lar <= 3 [ Mode: sim ] (5.014) ComprasSuper = [100-250] [ Mode: sim ] => sim (1.606, 0,765) ComprasSuper = [250 - 400] [ Mode: sim ] => sim (696, 0,885) ComprasSuper = [400-650] [ Mode: sim ] (1.004) #lar <= 2 [ Mode: nao ] => nao (664, 0,678) #lar > 2 [ Mode: sim ] => sim (340, 1,0) ComprasSuper = até 100 [ Mode: sim ] (1.580) #lar <= 2 [ Mode: sim ] => sim (1.352, 0,82) #lar > 2 [ Mode: nao ] => nao (228, 1,0) ComprasSuper = mais 650 [ Mode: sim ] (128) #lar <= 2 [ Mode: nao ] => nao (26, 0,615) #lar > 2 [ Mode: sim ] => sim (102, 1,0) #lar > 3 [ Mode: sim ] (1.648) ComprasSuper in [ "[100-250]" ] [ Mode: sim ] (1.274) #lar <= 4 [ Mode: sim ] (940) #Filhos <= 3 [ Mode: sim ] (798) Rendimento = [250 - 500] [ Mode: sim ] (386) #Filhos <= 0 [ Mode: sim ] => sim (52, 0,654) #Filhos > 0 [ Mode: nao ] (334) Lavar = nao [ Mode: nao ] =>nao (190, 0,516) Lavar = Sim [ Mode: nao ] (144) #Filhos<=1[Mode:sim]=>sim (52, 0,577) #Filhos>1[Mode: nao]=>não (92, 0,587) Rendimento = [501-750] [ Mode: sim ] => sim (226, 0,593) Rendimento = até 250 [ Mode: sim ] => sim (186, 0,667) #Filhos > 3 [ Mode: nao ] => nao (142, 0,563) #lar > 4 [ Mode: sim ] => sim (334, 1,0) ComprasSuper in [ "[250 - 400]" "[400-650]" ] [ Mode: sim ] => sim (0) ComprasSuper in [ "at? 100" ] [ Mode: nao ] => nao (256, 0,867) ComprasSuper in [ "mais 650" ] [ Mode: nao ] => nao (118 219 Anexo F Modelo de Data Mining: Modelo 3 O conjunto de regras correspondente foi o seguinte: Rules for sim - contains 7 rule(s) Rule 1 for sim (340, 0,997) if #lar > 2 and ComprasSuper = [400-650] then sim Rule 2 for sim (334, 0,997) if #lar > 4 and ComprasSuper = [100-250] then sim Rule 3 for sim (102, 0,99) if #lar > 2 and #lar <= 3 and ComprasSuper = mais 650 then sim Rule 4 for sim (696, 0,884) if ComprasSuper = [250 - 400] then sim Rule 5 for sim (1.352, 0,819) if #lar <= 2 and ComprasSuper = at? 100 then sim Rule 6 for sim (1.606, 0,764) if #lar <= 3 and ComprasSuper = [100-250] then sim Rule 7 for sim (2.448, 0,723) if #Filhos <= 3 and ComprasSuper = [100-250] then sim Rules for nao - contains 8 rule(s) Rule 1 for nao (228, 0,996) if #lar > 2 and #lar <= 3 and ComprasSuper = at? 100 then nao Rule 2 for nao (118, 0,958) if #lar > 3 and ComprasSuper = mais 650 then nao Rule 3 for nao (124, 0,913) if #lar <= 2 and ComprasSuper = mais 650 then nao Rule 4 for nao (256, 0,864) if #lar > 3 and ComprasSuper = at? 100 then nao Rule 5 for nao (664, 0,677) if #lar <= 2 and ComprasSuper = [400-650] then nao Rule 6 for nao (170, 0,645) if #Filhos > 1 and #lar > 3 and #lar <= 4 and Lavar = Sim and Rendimento = [250 - 500] then nao Rule 7 for nao (172, 0,626) if #Filhos > 3 and #lar > 3 and #lar <= 4 then nao Rule 8 for nao (260, 0,615) if #lar > 3 and #lar <= 4 and Lavar = Sim and Rendimento = [250 - 500] then nao Default: sim 220 Anexo G Modelo de Data Mining : Modelo 4 Anexo G Neste anexo é ilustrado o trabalho desenvolvido com vista à análise dos clientes que rebateram vales, com aplicação de técnicas de clustering –redes neuronais artificiais (redes de Kohonen) e o algoritmo de classificação (C 5.0) . 14 Modelo de Data Mining : Modelo 4 Partindo do conjunto de clientes (20,546) seleccionados inicialmente procurou-se através das redes de Kohonen determinar as associações que permitam constituir grupos o mais homogéneos possíveis quanto à sua característica comum - rebatimento de vales. Sobre os registos indexados pelos índices Kx e Ky aplicou-se o algoritmo de classificação C5.0.com o objectivo de caracterizar os elementos cada cluster. 221 Anexo G Modelo de Data Mining : Modelo 4 A aplicação do nodo de Kohonen permitiu indexar cada um dos 20,546 registos em termos de kx e ky, ficando deste modo identificados com um cluster. A aplicação do próprio modelo aos dados permitiu exportá-los para um ficheiro de SPSS onde se recodificou cada registo em termos da combinação de kxky. Este ficheiro de serviu posteriormente como elemento de entrada na stream (ainda que do mesmo apenas se tenha recebido o atributo cli_id e kxky), viabilizando a realização de uma união de dados (nodo Merge) à restante informação inicial de cada registo – à tabela inicial de dados foi adicionada uma nova coluna kxky a qual indica a que cluster pertence cada registo. Cli_ID 001156 Nome Maria Apelido Rita Data Nascimento 17-05-1870 Sexo F N filhos 2 kxky 01 584012 Margarida Coelho 17-05-1976 F 0 10 004012 João Norte 12-08-1970 M 1 11 10012 Rui Silva 04-11-1986 M 5 14 222 Anexo G Modelo de Data Mining : Modelo 4 A aplicação das redes de Kohonen obteve um conjunto de 25 clusters (solução mais estável ao fim de inúmeras iterações) cuja caracterização em termos de proporcionalidade de vales rebatidos e não rebatidos é expressa pela seguinte tabela. Cluster N Não Rebateu 1 1 895 1389 2 35 17 3 1 222 921 4 151 117 5 1 685 1009 6 195 155 7 13 11 8 85 44 9 1 438 1034 10 327 254 11 827 677 12 205 159 13 959 707 14 10 6 15 79 63 16 163 124 17 86 0 18 470 326 19 1 129 869 20 686 511 21 1 356 1 035 22 526 408 23 1 268 950 24 668 501 25 487 385 Total 15 965 11 892 % Rebateu 73% 506 49% 18 75% 301 77% 34 59% 679 79% 40 85% 2 52% 41 72% 404 78% 73 82% 150 78% 46 74% 252 60% 4 80% 16 76% 39 0% 86 69% 144 77% 260 74% 175 76% 321 78% 118 75% 318 75% 169 79% 102 75% 3 975 % 27% 51% 25% 23% 41% 21% 15% 48% 28% 22% 18% 22% 26% 40% 20% 24% 100% 31% 23% 26% 24% 22% 25% 25% 21% 25% Considerando apenas os clusters mais representativos, clusters com indivíduos mais activos em termos de rebatimento de vales, aplicou-se o algoritmo C5.0 individualmente a cada um deles, pretendendo-se desse modo conhecer as características mais relevantes de cada um dos indivíduos seleccionados. O cluster mais significativo é o número 5 não só devido à sua dimensão (número de registos) como também à distribuição quanto ao rebatimento de vales. 223 Anexo G Modelo de Data Mining : Modelo 4 Quanto ao cluster número 5 os resultados obtidos foram os expressas no modelo representado. Lavar=nao [ Mode: nao ] => nao (35, 0,593) Lavar = sim [ Mode: sim ] => sim(1185) rendimento = ate 150 [ Mode: nao ] => nao (85, 0,659) rendimento = [151-350] [ Mode: sim ] (1.113) #filhos <= 1 [ Mode: não ] (73) #filhos <= 0 [ Mode: nao ] (54) #lar <= 3 [ Mode: nao ] => nao (31, 0,593) #lar > 3 [ Mode: sim ] => sim (23, 0,581) #filhos > 0 [ Mode: sim ] => sim (19, 0,73) #filhos > 1 [ Mode: sim ] (940) #lar <= 3 [ Mode: nao ] (85) rendimento = [151-350] [ Mode: nao ] => nao (39, 0,527) rendimento = [351-500] [ Mode: nao ] => nao (26, 0,573) rendimento = mais 750 Mode: sim ] (20) #filhos <= 2 [ Mode: nao ] => nao (9, 0,69) #filhos > 2 [ Mode: sim ] => sim (11, 0,683) rendimento = [menos 150] [ Mode: nao ] => nao (69, 0,623) #lar > 3 [ Mode: sim ] (855) #lar = 4 [ Mode: sim ] => sim (720, 0,697) rendimento = [151-350] [ Mode: sim ] => sim (39) rendimento = [351-500] [ Mode: sim] => sim (26) rendimento = [mais 751] [ Mode: sim ] (658, 0,697) #lar > 4 [ Mode: nao ] => nao (135, 0,618) rendimento = mais 750 [ Mode: sim ] => sim (48, 0,6) 224 Anexo H Modelo Entidade Relacionamento da BD Anexo H 15 Modelo Entidade Relacionamento da BD A BD inicial recebida pela empresa promotora do caso de experimentação apresentava-se documentado pelo modelo conceptual e pelo modelo físico, ilustrados nas figuras seguintes. Main Client Entities (Conceptual Data Model) ARTERIA CLIENTE : 2 LAR LAR_ID LAR_CLIENTE I CLIENTE_PRINCIPAL_LAR TIPO_DOCUMENTO : 2 TIP_DOC_ID TIP_DOC_DESC TIP_DOC_PASSATEMPO I VA40 BL ENV_TIP_DOC_CLI REC_TIP_DOC_CLI CLIENTE_GRUPO CLI_GRU_ID CLI_GRU_DESC I VA60 CLI_GRU_CLI ORIGEM ORI_ID ORI_EMPRESA ORI_ORIGEM ORI_BASEDADOS ORI_RESPONSAVEL ORI_CONTACTO ORI_ANO ORI_REC_NUM I VA120 VA120 VA120 VA120 VA120 SI I ORI_CLI CLI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE I A10 LI VA30 VA30 VA30 VA70 VA70 VA10 VA10 VA10 VA254 A1 DT VA10 VA30 VA30 A4 A4 VA60 VA60 BL I BL BL BL DT DT I I DT VA20 DT CLI_ART CLI_TIP_E_TIPO_EXC CLI_EXC_TIP_EXC CLI_EXC_CLI CLI_EXC_ID CLI_EXC_DATA CLI_EXC_EXCLUIDO SYSTEM_DATE USER_LOGIN I DT BT DT VA20 TIP_EXC_SUB_TIP_EXC CLI_EXC_SUB_TIP_EXC SUB_TIPO_EXCLUSAO CLI_SUB_TIP_EXC CAM_MEI_CLI CAMPANHA_MEIO : 2 CAM_MEI_ID CAM_MEI_DESC CAM_MEI_DEFAULT I VA40 CLIENTE_EXCLUSAO ORI_GRU_ORI I I VA120 VA20 DT I VA30 VA30 VA70 VA70 BL VA20 DT TIPO_EXCLUSAO TIP_EXC_ID TIP_EXC_DESC GRUPO_ORIGEM GRU_ORI_ID GRU_ORI_ORD GRU_ORI_DESC USER_NAME SYSTEM_DATE ART_ID ART_TIPO ART_TITULO ART_DESC ART_PADRAO ART_VALIDADA USER_NAME SYSTEM_DATE I VA40 BL 225 SUB_TIP_EXC_ID SUB_TIP_EXC_DESC SI VA40 Anexo H Modelo Entidade Relacionamento da BD Main Client Tables (Physical Data Model) T_CLIENTE : 2 LAR_ID = LAR_ID T_LAR LAR_ID int <pk> CLI_ID int <fk> CLI_ID = CLI_ID T_TIPO_DOCUMENTO : 2 TIP_DOC_ID int TIP_DOC_DESC varch TIP_DOC_PASSATEMPO bit TIP_DOC_ID = TIP_DOC_ID TIP_DOC_ID = T_T_TIP_DOC_ID T_CLIENTE_GRUPO CLI_GRU_ID = T_C_CLI_GRU_ID CLI_GRU_ID int CLI_GRU_DESC varch T_ORIGEM ORI_ID GRU_ORI_ID ORI_EMPRESA ORI_ORIGEM ORI_BASEDADOS ORI_RESPONSAVEL ORI_CONTACTO ORI_ANO ORI_REC_NUM int int varchar(120) varchar(120) varchar(120) varchar(120) varchar(120) smallint int <pk> <fk> ORI_ID = ORI_ID CLI_ID ART_ID TIP_EXC_ID LAR_ID SUB_TIP_EXC_ID TIP_DOC_ID T_T_TIP_DOC_ID ORI_ID T_C_CLI_GRU_ID CAM_MEI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE int int int int smallint int int int int int char(10) int varchar(30) varchar(30) varchar(30) varchar(70) varchar(70) varchar(10) varchar(10) varchar(10) varchar(254) char(1) datetime varchar(10) varchar(30) varchar(30) char(4) char(4) varchar(60) varchar(60) bit int bit bit bit datetime datetime int int datetime varchar(20) datetime <pk> <fk1> <fk2> <fk3> <fk4> <fk5> <fk6> <fk7> <fk8> <fk9> T_ARTERIA ART_ID = ART_ID ART_ID ART_TIPO ART_TITULO ART_DESC ART_PADRAO ART_VALIDADA USER_NAME SYSTEM_DATE int varch varch varch varch bit varch dateti T_TIPO_EXCLUSAO TIP_EXC_ID = TIP_EXC_ID TIP_EXC_ID int TIP_EXC_DESC varch TIP_EXC_ID = TIP_EXC_ID T_CLIENTE_EXCLUSAO CLI_ID = CLI_ID CLI_ID CLI_EXC_ID SUB_TIP_EXC_ID TIP_EXC_ID CLI_EXC_DATA CLI_EXC_EXCLUIDO SYSTEM_DATE USER_LOGIN int int smallint int datetime tinyint datetime varchar(20) <pk,fk1> <pk> <fk2> <fk3> TIP_EXC_ID = TIP_EXC_ID SUB_TIP_EXC_ID = SUB_TIP_EXC_ID GRU_ORI_ID = GRU_ORI_ID CAM_MEI_ID = CAM_MEI_ID SUB_TIP_EXC_ID = SUB_TIP_EXC_ID T_GRUPO_ORIGEM GRU_ORI_ID GRU_ORI_ORD GRU_ORI_DESC USER_NAME SYSTEM_DATE int int varcha varcha datetim T_CAMPANHA_MEIO : 2 T_SUB_TIPO_EXCLUSAO CAM_MEI_ID int CAM_MEI_DESC varch CAM_MEI_DEFAULT bit SUB_TIP_EXC_ID smallint <pk> TIP_EXC_ID int <fk> SUB_TIP_EXC_DESC varchar(40) 226 Anexo H Modelo Entidade Relacionamento da BD Main Coupons Entities (Conceptual Data Model) CLIENTE : 3 CLI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE ENVIO : 2 PRODUTO MOEDA PRO_ID PRO_DESC USER_NAME SYSTEM_DATE I VA60 VA20 DT ENV_NUM ENV_DATA ENV_ASS_VALOR ENV_ACTIVO ENV_INBOUND USER_NAME SYSTEM_DATE SI MOE_ID MOE_DESC VA20 MOE_DEFAULT BL I DT MN BT BL VA20 DT PRO_VAL MOE_VAL VALE : 1 VAL_ID VAL_DESCONTO VAL_DATA_INI VAL_DATA_FIM VAL_ACTIVE VAL_PACSIS_ID VAL_DESC VAL_SUFIXO SYSTEM_DATE USER_NAME ENV_ENV_VAL I N8,2 DT DT BT A13 VA80 VA10 DT VA20 VAL_ENV_VAL ENV_VAL_CLI ENVIO_VALE ENV_VAL_DATA D USER_NAME VA20 SYSTEM_DATE DT VAL_REB_VAL CLI_REB_VAL REBATE_VALE : 1 REB_VAL_DATA D REB_BAR_CODE A20 I A10 LI VA30 VA30 VA30 VA70 VA70 VA10 VA10 VA10 VA254 A1 DT VA10 VA30 VA30 A4 A4 VA60 VA60 BL I BL BL BL DT DT I I DT VA20 DT FIC_VAL_REB_VAL LOJ_REB_VAL FICHEIRO_VALE FIC_VAL_ID FIC_VAL_NOME FIC_VAL_RECORD_COUNT FIC_VAL_RECORD_ERROR USER_NAME SYSTEM_DATE LOJA LI VA120 LI LI VA20 DT LOJ_ID LOJ_DESC SYSTEM_DATE USER_NAME LI VA200 DT VA20 Main Coupons Tables (Physical Data Model) T_CLIENTE : 3 T_ENVIO : 2 T_PRODUTO PRO_ID PRO_DESC USER_NAME SYSTEM_DATE T_MOEDA int varch varch dateti MOE_ID MOE_DESC MOE_DEFAULT ENV_NUM ENV_DATA ENV_ASS_VALOR ENV_ACTIVO ENV_INBOUND USER_NAME SYSTEM_DATE smal varch bit PRO_ID = PRO_ID MOE_ID = MOE_ID ENV_NUM = ENV_NUM T_ENVIO_VALE T_VALE : 1 VAL_ID PRO_ID MOE_ID VAL_DESCONTO VAL_DATA_INI VAL_DATA_FIM VAL_ACTIVE VAL_PACSIS_ID VAL_DESC VAL_SUFIXO SYSTEM_DATE USER_NAME int int smallint numeric(8,2) datetime datetime tinyint char(13) varchar(80) varchar(10) datetime varchar(20) int dateti mone tinyin bit varch dateti <pk> <fk1> <fk2> VAL_ID = VAL_ID CLI_ID VAL_ID ENV_NUM ENV_VAL_DATA USER_NAME SYSTEM_DATE int int int datetime varchar(20) datetime <pk,fk1> <pk,fk2> <pk,fk3> T_REBATE_VALE : 1 ENV_REC_ID VAL_ID CLI_ID LOJ_ID FIC_VAL_ID REB_VAL_DATA REB_BAR_CODE VAL_ID = VAL_ID int int int int int datetime char(20) FIC_VAL_ID = FIC_VAL_ID <pk,fk5> <fk1> <fk2> <fk3> <fk4> CLI_ID = CLI_ID CLI_ID = CLI_ID LOJ_ID = LOJ_ID T_FICHEIRO_VALE FIC_VAL_ID FIC_VAL_NOME FIC_VAL_RECORD_COUNT FIC_VAL_RECORD_ERROR USER_NAME SYSTEM_DATE T_LOJA int varcha int int varcha datetim LOJ_ID LOJ_DESC SYSTEM_DATE USER_NAME 227 int varchar(2 datetime varchar(2 CLI_ID ART_ID TIP_EXC_ID LAR_ID SUB_TIP_EXC_ID TIP_DOC_ID T_T_TIP_DOC_ID ORI_ID T_C_CLI_GRU_ID CAM_MEI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE int int int int smallint int int int int int char(10) int varchar(30) varchar(30) varchar(30) varchar(70) varchar(70) varchar(10) varchar(10) varchar(10) varchar(254) char(1) datetime varchar(10) varchar(30) varchar(30) char(4) char(4) varchar(60) varchar(60) bit int bit bit bit datetime datetime int int datetime varchar(20) datetime <pk> <fk1> <fk2> <fk3> <fk4> <fk5> <fk6> <fk7> <fk8> <fk9> Anexo H Modelo Entidade Relacionamento da BD Main Questionnaires Entities (Conceptual Data Model) CLIENTE : 7 CLI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE I A10 LI VA30 VA30 VA30 VA70 VA70 VA10 VA10 VA10 VA254 A1 DT VA10 VA30 VA30 A4 A4 VA60 VA60 BL I BL BL BL DT DT I I DT VA20 DT PERGUNTA_RESPOSTA_LIVRE CLI_PER_RES PER_RES_LIV_DESC PER_RES_PER_RES_LIV PERGUNTA_RESPOSTA PER_RES_VALOR PER_RES_GOTO_PER_ID PER_RES_DEFAULT CREATE_DATE USER_NAME SYSTEM_DATE VA100 VA10 VA10 DT VA20 DT QUESTIONARIO : 2 QUE_ID QUE_DESC QUE_DATA QUE_ACTIVO QUE_FULFILLMENT QUE_FULFILLMENT_CUSTO QUE_IMG_FILE RES_QUE_PER_RES RES_QUE_CLI I VA120 DT BL BL SF VA120 PRE_RES_PER PERGUNTA PER_ID PER_PER_ID PER_GRUPO PER_ORDEM PER_TIPO PER_EXCL PER_DEFEITO PER_DESC PER_ONLINE QUE_PER QUE_QUE_FUL_QUE QUE_RES_QUE RESPOSTA_QUESTIONARIO RES_QUE_ID CLI_GRU_ID ENV_NUM RES_QUE_DURACAO RES_QUE_SEQUENCIA RES_QUE_DATA RUBRICA RES_QUE_DELETED USER_NAME SYSTEM_DATE TXT QUE_FUL_QUE I I I I I DT I BL VA20 DT QUE_FUL_ORDEM VA10 VA10 VA10 I I BL VA100 A400 BL I RES_PER QUE_FUL_QUE_FUL_QUE RESPOSTA ORIGEM_RESPOSTA ORI_RES_RES_QUE ORI_RES_ID ORI_RES_DESC USER_NAME SYSTEM_DATE I VA60 VA20 DT RES_ID RES_VALOR RES_LIVRE RES_GOTO_PER_ID QUESTIONARIO_FULFILLMENT QUE_FUL_ID I QUE_FUL_DESC VA120 QUE_FUL_DEFEITO BL I VA20 VA400 VA10 Main Questionnaires Tables (Physical Data Model) T_CLIENTE : 7 CLI_ID ART_ID TIP_EXC_ID LAR_ID SUB_TIP_EXC_ID TIP_DOC_ID T_T_TIP_DOC_ID ORI_ID T_C_CLI_GRU_ID CAM_MEI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART NUM PADRAO int int int int smallint int int int int int char(10) int varchar(30) varchar(30) varchar(30) varchar(70) varchar(70) varchar(10) varchar(10) varchar(10) varchar(254) char(1) datetime varchar(10) varchar(30) varchar(30) <pk> <fk1> <fk2> <fk3> <fk4> <fk5> <fk6> <fk7> <fk8> <fk9> CLI_ID = CLI_ID T_PERGUNTA_RESPOSTA QUE_ID PER_ID CLI_ID RES_QUE_ID PER_RES_VALOR PER_RES_GOTO_PER_ID PER_RES_DEFAULT CREATE_DATE USER_NAME SYSTEM_DATE T_PERGUNTA_RESPOSTA_LIVRE QUE_ID = QUE_ID PER_ID = PER_ID CLI_ID = CLI_ID QUE_ID PER_ID CLI_ID PER_RES_LIV_DESC int varchar(10) int text <pk,fk> <pk,fk> <pk,fk> QUE_ID = QUE_ID PER_ID = PER_ID T_QUESTIONARIO : 2 CLI_ID = CLI_ID QUE_ID QUE_DESC QUE_DATA QUE_ACTIVO QUE_FULFILLMENT QUE_FULFILLMENT_CUSTO QUE_IMG_FILE int varchar(120) datetime bit bit real varchar(120) <pk> <pk> <fk1> <fk2> <fk3> int int int <pk,fk1> <pk,fk2> QUE_FUL_ID = QUE_FUL_ID T_ORIGEM_RESPOSTA ORI_RES_DESC USER_NAME SYSTEM_DATE int varchar(10) varchar(10) varchar(10) int int bit varchar(100) char(400) bit QUE_ID = QUE_ID PER_ID = PER_ID T_QUE_FUL_QUE QUE_ID QUE_FUL_ID QUE_FUL_ORDEM ORI_RES_ID = ORI_RES_ID ORI_RES_ID QUE_ID = QUE_ID QUE_ID PER_ID PER_PER_ID PER_GRUPO PER_ORDEM PER_TIPO PER_EXCL PER_DEFEITO PER_DESC PER_ONLINE QUE_ID = QUE_ID QUE_ID = QUE_ID T_RESPOSTA_QUESTIONARIO int int int int int int int int datetime int bit varchar(20) datetime <pk,fk1> <pk,fk1> <pk,fk2> <fk3> T_PERGUNTA RES_QUE_ID = RES_QUE_ID RES_QUE_ID CLI_ID QUE_ID ORI_RES_ID CLI_GRU_ID ENV_NUM RES_QUE_DURACAO RES_QUE_SEQUENCIA RES_QUE_DATA RUBRICA RES_QUE_DELETED USER_NAME SYSTEM_DATE int varchar(10) int int varchar(100) varchar(10) varchar(10) datetime varchar(20) datetime int varch varch dateti T_QUESTIONARIO_FULFILLMENT QUE_FUL_ID QUE_FUL_DESC QUE_FUL_DEFEITO int varchar(120) bit 228 <pk> T_RESPOSTA QUE_ID PER_ID RES_ID RES_VALOR RES_LIVRE RES_GOTO_PER_ID int varchar(10) int varchar(20) varchar(400) varchar(10) <pk,fk> <pk,fk> <pk> <pk,fk> <pk> Anexo H Modelo Entidade Relacionamento da BD Main Deliveries and Receptions Entities (Conceptual Data Model) CLIENTE : 6 ENVIO : 1 ENV_NUM ENV_DATA ENV_ASS_VALOR ENV_ACTIVO ENV_INBOUND USER_NAME SYSTEM_DATE TIPO_DOCUMENTO : 3 ENVIO_GRUPO_CLIENTE I TIP_DOC_ID TIP_DOC_DESC VA40 TIP_DOC_PASSATEMPO BL I DT MN BT BL VA20 DT CLI_GRU_ANA_ID I CLI_ENV_GRU_CLI ENV_GRU_TIP_DOC ENV_GRU_CLI_ENV_GRU ENV_GRU_ENV ENVIO_GRUPO ENV_GRU_ID ENV_GRU_COUNT ENV_GRU_DESC ENV_GRU_VALES ENV_GRU_REVISTA USER_NAME SYSTEM_DATE I I VA250 BL BL VA20 DT CLI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE I A10 LI VA30 VA30 VA30 VA70 VA70 VA10 VA10 VA10 VA254 A1 DT VA10 VA30 VA30 A4 A4 VA60 VA60 BL I BL BL BL DT DT I I DT VA20 DT VALE : 2 VAL_ID VAL_DESCONTO VAL_DATA_INI VAL_DATA_FIM VAL_ACTIVE VAL_PACSIS_ID VAL_DESC VAL_SUFIXO SYSTEM_DATE USER_NAME ENVIO_RECEPCAO : 2 I N8,2 DT DT BT A13 VA80 VA10 DT VA20 ENV_REC_VAL ENV_REC_ID ENV_DATA REC_DATA ENV_REC_NUM CLI_GRU_ID ENV_REC_DELETED I DT DT LI I BL REBATE_VALE : 2 ENV_REC_REB_VAL REB_VAL_DATA D REB_BAR_CODE A20 Main Deliveries and Receptions Tables (Physical Data Model) T_CLIENTE : 6 T_ENVIO : 1 ENV_NUM ENV_DATA ENV_ASS_VALOR ENV_ACTIVO ENV_INBOUND USER_NAME SYSTEM_DATE T_ENVIO_GRUPO_CLIENTE T_TIPO_DOCUMENTO : 3 int dateti mone tinyin bit varch dateti ENV_NUM ENV_GRU_ID CLI_ID CLI_GRU_ANA_ID int TIP_DOC_ID TIP_DOC_DESC varch TIP_DOC_PASSATEMPO bit int <pk,fk1> int <pk,fk1> int <pk,fk2> int CLI_ID = CLI_ID TIP_DOC_ID = TIP_DOC_ID ENV_NUM = ENV_NUM ENV_GRU_ID = ENV_GRU_ID ENV_NUM = ENV_NUM T_ENVIO_GRUPO ENV_NUM ENV_GRU_ID TIP_DOC_ID ENV_GRU_COUNT ENV_GRU_DESC ENV_GRU_VALES ENV_GRU_REVISTA USER_NAME SYSTEM_DATE int int smallint numeric(8,2) datetime datetime tinyint char(13) varchar(80) varchar(10) datetime varchar(20) <pk,fk1> <pk> <fk2> T_ENVIO_RECEPCAO : 2 T_VALE : 2 VAL_ID PRO_ID MOE_ID VAL_DESCONTO VAL_DATA_INI VAL_DATA_FIM VAL_ACTIVE VAL_PACSIS_ID VAL_DESC VAL_SUFIXO SYSTEM_DATE USER_NAME int int int int varchar(250) bit bit varchar(20) datetime <pk> <fk1> <fk2> VAL_ID = VAL_ID ENV_REC_ID CLI_ID QUE_ID TIP_DOC_ID VAL_ID PAS_ID ENV_DATA REC_DATA ENV_REC_NUM CLI_GRU_ID ENV_REC_DELETED int int int int int int datetime datetime int int bit <pk> <fk1> <fk2> <fk3> <fk4> ENV_REC_ID <fk5> T_REBATE_VALE : 2 = ENV_REC_ID VAL_ID CLI_ID ENV_REC_ID LOJ_ID FIC_VAL_ID REB_VAL_DATA REB_BAR_CODE 229 int int int int int datetime char(20) <pk,fk5> <fk1> <fk2> <fk3> <fk4> CLI_ID ART_ID TIP_EXC_ID LAR_ID SUB_TIP_EXC_ID TIP_DOC_ID T_T_TIP_DOC_ID ORI_ID T_C_CLI_GRU_ID CAM_MEI_ID ORI_CLI_ID ONLINE_ID ONLINE_USER_NAME ONLINE_PASSWORD CLI_TITULO CLI_NOME CLI_NOME_PADRAO CLI_TELEFONE CLI_TELEFONE1 CLI_TELEMOVEL CLI_EMAIL CLI_SEXO CLI_DATA_NASC CLI_INICIAIS ART_NUM ART_NUM_PADRAO CP7_CP4 CP7_CP3 CP7_DESC LOC_DESC ANO_VALIDACAO LAST_QUEST_NUM CLI_CONFIDENCIAL CLI_NOME_OK CLI_VALE CLI_VALE_DATA CLI_EXC_DATA CLI_GRU_ID CLI_GRU_ANA_ID CREATE_DATE USER_NAME SYSTEM_DATE int int int int smallint int int int int int char(10) int varchar(30) varchar(30) varchar(30) varchar(70) varchar(70) varchar(10) varchar(10) varchar(10) varchar(254) char(1) datetime varchar(10) varchar(30) varchar(30) char(4) char(4) varchar(60) varchar(60) bit int bit bit bit datetime datetime int int datetime varchar(20) datetime <pk> <fk1> <fk2> <fk3> <fk4> <fk5> <fk6> <fk7> <fk8> <fk9> Anexo I Descrição dos Dados Anexo I O presente anexo detalha e descreve todos os atributos constantes na BD original. 16 Descrição dos Dados Os dados constantes na BD original que esteve na origem deste trabalho são os que se encontram expressos nas tabelas representadas abaixa seguintes. Os atributos encontra-se descritos em termos da sua codificação (campo), tipo de dados (tipo), comprimento (tamanho), chave (indexação em termos de chave primária ou estrangeira) e descrição (significado dos atributos): T_CLIENTE Campo CLI_ID ORI_ID ART_ID CP7_CP4 CP7_CP3 CLI_DATA_NASC CLI_SEXO Tipo Int Int Int Char Char DateTime Char Tamanho P X Chave H E X X 4 3 1 X CLI_CONFIDENCIAL Bit TIP_EXC_ID Int TIP_EXC_DESC Varchar 40 SUB_TIP_EXC_ID Smallint SUB_TIP_EXC_DESC Varchar 40 View com os dados do cliente + motivos de exclusão. 230 Descrição Código de Cliente Código da Origem Código da Artéria CP4 CP3 Data de Nascimento Sexo E-Entidade/Empresa; M-Masculino; F-Feminino Confidencial Código Tipo exclusão Descrição do tipo de exclusão Código subtipo exclusão Descrição do sub-tipo de exclusão Anexo I Descrição dos Dados T_ORIGEM Campo Tipo Tamanho ORI_ID Int ORI_ORIGEM Varchar 120 ORI_BASEDADOS Varchar 120 GRU_ORI_ID Int Tabela com as proveniências dos dados (origens). P X Chave H E X Descrição Código da Origem Descrição da Origem Descrição Base de Dados Código Grupo de Origens T_ENVIO_GRUPO_CLIENTE Chave Campo Tipo Tamanho P H E Descrição ENV_NUM Int X Número de envio ENV_GRU_ID Int X Grupo de envio CLI_ID Int X Código de cliente CLI_GRU_ANA_ID Int Grupo de análise Tabela com os envios aos clientes e a que grupos pertenciam no respectivo envio. V_VALE Campo Tipo Tamanho P X Tipo Tamanho P X X Chave H E Descrição VAL_ID Int Código de Vale MOE_ID Smallint X Código de Moeda VAL_DESCONTO Numeric 8,2 Desconto ENV_NUM Int X Número de Envio PRO_ID Int Código de Produto PRO_DESC Varchar 60 Descrição do Produto MAR_PRO_ID Int Código Marca/Produto MAR_PRO_DESC Varchar 20 Descrição da Marca/Produto MAR_ID Int Código da Marca MAR_DESC Varchar 20 Descrição da Marca COM_ID Int Código de Companhia COM_DESC Varchar 20 Descrição da Companhia View com as definições de vales (produto, marcar/produto, marca e companhia) T_ENVIO_VALE Campo CLI_ID Int VAL_ID Int ENV_NUM Int ENV_VAL_DATA Datatime Tabela de envios de vales aos clientes. 231 Chave H E X X X Descrição Código de Cliente Código de Vale Número de Envio Data de geração Anexo I Descrição dos Dados T_REBATE_VALE Campo Tipo ENV_REC_ID Int VAL_ID Int CLI_ID Int LOJ_ID Int REB_VAL_DATA Datetime Tabela de vales rebatidos pelos clientes. Tamanho P X Chave H E X X X Descrição Código de rebate do vale Código de Vale Código de Cliente Código de Loja Data de recepção do ficheiro T_LOJA Campo Tipo Tamanho P X Tipo Tamanho P X Chave H E Descrição LOJ_ID Int Código de Loja LOJ_DESC Varchar 200 Descrição de Loja Tabela de lojas onde foram rebatidos os vales (dados não normalizados provenientes da Pacsis). T_QUESTIONARIO Campo QUE_ID QUE_DESC Tabela de questionários. Int Varchar Chave H E 120 Descrição Código de questionário Descrição questionário T_PERGUNTA Campo Tipo QUE_ID Int PER_ID Varchar PER_PER_ID Varchar PER_ORDEM Int PER_TIPO Int PER_EXCL Bit PER_DEFEITO Varchar PER_DESC Varchar Tabela com as perguntas do questionário. Tamanho 10 10 P X X Chave H E X X 100 400 Descrição Código de questionário Código de pergunta (nº) Código de pergunta (pai) Ordem da pergunta Tipo de resposta Pergunta com resposta exclusiva Resposta por defeito Texto da pergunta T_RESPOSTA Campo Tipo Tamanho P X X X Chave H E X X QUE_ID Int PER_ID Varchar 10 RES_ID Int RES_VALOR Varchar 20 RES_LIVRE Varchar 400 RES_GOTO_PER_ID Varchar 10 Tabela com as respostas possíveis às perguntas dos questionários. 232 Descrição Código de questionário Código de pergunta Código de resposta Valor da resposta Texto da resposta Próxima pergunta Anexo I Descrição dos Dados T_PERGUNTA_RESPOSTA Campo Tipo Tamanho P X X X Chave H E X X X X X QUE_ID Int PER_ID Varchar 10 CLI_ID Int RES_QUE_ID Int PER_RES_VALOR Varchar 5 PER_RES_LIVRE Text Tabela com as respostas dos clientes às perguntas dos questionários. 233 Descrição Código de questionário Código de pergunta Código de cliente Código de resposta Valor da resposta codificada Valor da resposta livre Anexo J Compreensão dos dados Anexo J Apresenta-se uma análise exploratória aos dados. Foi realizada com recurso a ferramentas estatísticas (e.g., SPSS). 17 Compreensão dos dados O processo de avaliação da qualidade dos dados consistiu, numa perspectiva estatística determinar as características principais para cada uma das variáveis. Entre as mais de 60 variáveis inicias analisadas destacam-se pela sua notoriedade as seguintes: Sexo Idade Distrito de residencia Distribuição de frequências para o atributo idade em função do sexo de cada individuo encontra-se expresso pela tabela IDADE IDADE SEXO F 5 23 10 25 25 30 Percentis 50 38 75 48 90 57 95 62 M 23 26 31 40 51 60 65 F 30 38 48 M 31 40 51 234 Anexo J Compreensão dos dados A estatística descritiva para a variável idade encontra-se representada na tabela N Validos Em branco Média Mediana Moda Desvio Padrão Variância Skewness Kurtosis Intervalo Mínimo Máximo Percentis 29285 0 40,21 39,00 31 12,355 152,641 ,428 -,587 56 16 72 30 39 49 25 50 75 Representação gráfica da relação entre os atributos idade/sexo 80 70 60 50 40 IDADE 30 20 10 N= 50682 12561 F M SEXO 235 Anexo J Compreensão dos dados Tratando-se de uma empresa com distribuição a nível nacional (continente e ilhas) a distribuição geográfica de cada indivíduo apresenta-se na tabela seguinte Aveiro Beja Braga Bragança Castelo Branco Coimbra Évora Faro Guarda Ilha da Graciosa Ilha da Madeira Ilha das Flores Ilha de Porto Santo Ilha de Santa Maria Ilha de São Jorge Ilha de São Miguel Ilha do Corvo Ilha do Faial Ilha do Pico Ilha Terceira Leiria Lisboa Portalegre Porto Santarém Setúbal Viana do Castelo Vila Real Viseu Total Frequência Percentagem % valida Acumulada 1,869 6,4 6,4 6,4 445 1,5 1,5 8 1,248 4,3 4,3 12,2 184 0,6 0,6 12,9 469 1,6 1,6 14,5 1,161 4 4 18,4 694 2,4 2,4 20,8 957 3,3 3,3 24,1 322 1,1 1,1 25,2 2 0 0 25,2 248 0,8 0,8 26 6 0 0 26 9 0 0 26,1 3 0 0 26,1 6 0 0 26,1 101 0,3 0,3 26,4 0 0 0 26,4 13 0 0 26,5 10 0 0 26,5 60 0,2 0,2 26,7 1,405 4,8 4,8 31,5 8,453 28,9 28,9 60,4 550 1,9 1,9 62,3 5,332 18,2 18,2 80,5 1,344 4,6 4,6 85,1 3,018 10,3 10,3 95,4 385 1,3 1,3 96,7 349 1,2 1,2 97,9 622 2,1 2,1 100 29,285 100 100 236 Anexo J Compreensão dos dados O facto de existirem diferentes áreas postais em cada distrito motiva a análise do atributo código postal, verificando-se como seria de esperar uma maior concentração em torno dos códigos relativos a distritos com maior representatividade na amostra. Código Postal 0 500 1000 1500 2000 2500 3000 Valores 3500 4000 4500 5000 5500 6000 6500 7000 7500 8000 8500 9000 Std. D ev = 1854,23 9500 Mean = 3841 10000 N = 63218,00 0 2000 1000 4000 3000 6000 5000 8000 7000 10000 9000 12000 11000 14000 13000 Frequencia Estratificação dos clientes na Base de Dados, segundo a empresa: Clientes não qualificados: 321 559 (clientes sobre os quais apenas se conhece a morada dado nunca terem respondido a qualquer questionário (geralmente informação adquirida de bases de dados externas, compradas) , distribuídos: Sem receberem qualquer envio de revistas: 43 787 Já recebeu pelo menos 3 revistas e nunca reagiu: 96,229 (não participou qqr campanha) 237 Anexo J Compreensão dos dados Já rebateu vales: 13 392 Já receberam ultimato: 168,151 ofertas irrecusáveis para responder a questionários e que mesmo assim nunca reagiram Light Consumers:24,354 clientes com características familiares (2 ou menos elementos no lar), sociais ou outros que denotem baixo poder aquisitivo para os produtos Most Valuable Consumers MVC : 110,809 Os clientes com características familiares (mais de 2 elementos), sociais ou outras, que denotem potencial aquisitivo dos produtos. Clientes que recebem a revista: 262,634 (tiragem média aceite pela empresa) Número de vales rebatidos pelos clientes, na BD trabalho: 494,105 Número de clientes, presentes na BD que recepcionaram pelo menos 1 vale: 108.360 Número de elementos MVC na base de dados de trabalho, recebida: 101,828 Número vales diferentes enviados: 198, para o mesmo produto pode existir vales diferentes com valores promocionais distintos Resultados da primeira acção de limpeza da base de dados para registos de clientes Total de clientes Æ 64,484, excluindo: data nascimento desconhecida; idades inferior a 16 anos e mais de 72; sexo diferente de M e F e apenas MVC (ou os “não light consumers”) 238 Anexo K Modelo de Dados Anexo K Neste anexo apresenta-se o modelo entidade –relação da BDM sobre a qual se desenvolveu o trabalho de prático. 18 Modelo de Dados O modelo de dados original contemplava 11 tabelas principais destacando-se as tabelas T_cliente; T_envio vale; T_vale;T_Questionário; T_Pergunta e T_Pergunta_Resposta 239 Bibliografia Bibliografia A [Adelman et al., 2002] Adelman, Sid; Moss, Larissa Barbusnski, Lees; “I found several definitions of BI”, DM Review, August 2002. [Adriaans et al., 1996] Adriaans, Pieter; Zanting, Dolf; “Data Mining”, Addison-Wesley, England, 1996. [AMA, 2005] American Marketing Associaton, www.ama.org, 2005. [Angelmar et al., 1975] Angelmar R.; Pinson C.; “Réflexions épistémologiques sur les définitions du marketing”, Encyclopédie du Marketing, Ed. Technique, Paris, 1975. [Arndt et al., 2001] Arndt, Dirk; Gersten, Wendy; “Data Management in Analytical Customer Relationship Management” Workshop:“Data mining for marketing applications”, Universidade Hasselt, Belgica, 2001. [Arnett et al., 2000] Arnett, Dennis B; Menon, Anil, Wilcox, James B.; “Using Competitive Intelligence: Antecedents and Consequences”, Competitive Intelligence Review, Vol. 11(3) 16-27, 2000. 240 Bibliografia B [Bartels, 1976] Bartels, Robert; “The history of Marketing Thoughts” 2ª.ed, Columbus, Ohio, 1976. [Baranauskas et al., 2003] Baranauskas J A.; Monard M C.; “Combining Symbolic Classifiers from Multiple Inducers”; Knowledge Based Systems; Vol. 16 (3), 129-136, Elsevier Science, 2003. [Berson et al., 2001] Berson Alex; Smith, Stephen; “Data Warehousing, Data Mining & OLAP” McGraw Hill International Edition, 2001. [Bloom et al., 2004] Bloom, Paul; Adler, Robert; Milne, George "Identifying the Legal and Ethical Risks and Costs of Using New Information Technologies to Support Marketing Programs"; The Marketing Information Revolution; Ed. Robert C. Blattberg, Rashi Glazer E John D. Little. Boston: Harvard Business School Press; p289-305, 2004. [Bonczek et al., 1980] Bonczek R. H, Holsapple C.W; Whinston A.B.; “Future directions for developing Decision Support Systems”, Decision Sciences, 11, nº4, 616631, 1980. [Bretzke, 2005] Bretzke, Miriam; “CRM como diferencial competitivo” http://www.bretzke-marketing.com.br, (acedido a 20-06-2005). [Brown, 2002] Brown, S.; “Data quality: Relatively critical and critically relative”; DM Review; 2002. 241 Bibliografia C [Cabena et al., 1998] Cabena, P, Hadjinian, P, Stadler, R, Verhees, J, Zanasi, A; “Discovering Data Mining – From Concept to Implementation”, PrenticeHall, 1998. [Cavaye, 1996] Cavaye, A.M.; “Case study research: a multi-faceted research approach for IS”; Info Systems Journal; vol. 6; p 227-242; 1996 [Chapman et al., 2000] Chapman, Pete; Clinton, Julian; Kerber, Randy; Khabaza, Thomas; Reinartz, Thomas; Shearer, Colin; Wirth, Rüdiger; “CRISP-DM 1.0 – Step-by-Step data mining guide”; CRISP-DM Consortium, 2000 [Chester, 1993] Chester, M.; “Neural Network – A tutorial”; PTR Prentice-Hall Inc, USA, 1993. [Cooke, 1994] Cooke, Simon; “Database Marketing: strategy or tactical tool?” Marketing Intelligence & Planning, vol 12, no 6, 1994. [Cortez, 2002] Cortez. P.; Modelos Inspirados na Natureza para a Previsão de Séries Temporais, Tese de Doutoramento, Departamento de Informática, Universidade do Minho, Portugal, 2002. [Cortez, 2004] Cortez, P.; “Aprendizagem e Avaliação de Modelos, Apontamentos Pedagógicos”, Departamento de Sistemas de Informação, Universidade do Minho, Portugal, 2004. [Curry et al., 2000] Curry Jay; Curry Adam; “The Customer Marketing Method: How to Implement E Profit from Customer Relationship Management”, Free Press, 2000. 242 Bibliografia D [DataFlux, 2005] DataFlux Corporation: www.dataflux.com 2005 [url] (acedido a 30-62005). [DDUS, 2003] Department of Defence, U.S, DOD “Guidelines on Data Quality Management”. Defence Information Systems Agency. p. 28, 2003. [Decker et al., 1998] Decker, K.; Focardi, S.; “Technological Overview: A Report on Data Mining.”, CSCS Techreports, 1998. [DeTienne et al., 1996] DeTienne, Kristen; Thompson, Jeffery A.;"Database Marketing E organizational learning theory: toward a research agenda" Journal of Consumer Marketing 13, 1996. [Drozdenko et al., 2002] Drozdenko, Ronald; Drak Perry D, “Optimal Database Marketing”, SAGE Publications, Thousand Oaks, USA, 2002 E [Etzioni, 1980] Etzioni, Amitai; “Organizações modernas”, Livraria Pioneira, São-Paulo, 1980. [Evfimievski et al., 2003] Evfimievski, A, Gehrke J. E., Srikant R.; “Limiting Privacy Breaches in Privacy Preserving Data Mining”, Proceedings of the 22nd ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems (PODS 2003). San Diego, CA, June 2003. 243 Bibliografia F [Fayerman, 2002] Fayerman, M.; "Customer Relationship Management." ,New Directions For Institutional Research ;KMG Consulting, New York ,2002. [Fayyad et al., 1996] Fayyad, U, Piatetsky-Shapiro, G.; P. Smyth; Uthurusamy, R.; “Advances in Knowledge Discovery & Data Mining”, Cambridge, MA (The AAAI Press/The MIT Press), 1996. [Fayyad et al., 2002] Fayyad, U, Grinstein, G, E Wierse, A.; “Information Visualization in Data Mining”, Morgan Kaufmann Publishers, San Francisco, 2002. [Feelders, 2002] Feelders A.J.; “Statistical Concepts”; In Berthold, M; Hand D.J. (Eds); Intelligent Data Analisys: An Introduction 2ªed; Springer-Verlag; 2002. [Fletcher et al., 1996] Fletcher, Keith; Wright, George; Desai, Caroline; "The Role of Organizational Factors in the Adoption and Sophistication of Database Marketing in the UK Financial Services Industry", Journal of Direct Marketing 10, 1996. G [Gago, 2001] Gago, Pedro M. Cardoso; “Métodos para a Selecção das Regras Mais Promissoras Em Extracção de Conhecimento de Bases de Dados”, Dissertação de Mestrado, Coimbra, Dezembro, 2001. [Gelman et al., 1995] Gelman, A.; Carlin, J.B.; Stern, H.S.; Rubin, D.R.; ”Bayesian Data Analysis”, Chapman & Hall, London, 1995. [Glazer et al., 1994] Glazer Rashi; Day, George; "Harnessing the Marketing Information Revolution: Toward the Market-Driven Learning Organization", The 244 Bibliografia Marketing Information Revolution. Ed. Robert C. Blattberg, Rashi Glazer and John D. Little. Boston: Harvard Business School Press, p270-288, 1994. [Gonçalves et al., 2002] Gonçalves, Carlos A.; Jamil, George L.; Tavares, Wolmer R.; “Marketing de Relacionamento - Database Marketing”, Axel Books, 2002. [Groth, 2000] Groth, Robert;”Data Mining: Building Competitive Advantage”, Prentice Hall PTR, USA, 2000. H [Hagan et al., 1996] Hagan, M. T., Demuth, H. B., Beale, M.; “Neural network design”, PWS Publishing Company, 1996 [Haley, 1998] Haley, B.; “Implementing the Decision Support Infrastructure: Key Success Factors in Data Warehousing”, Doctoral dissertation, University of Georgia, 1998. [Hall, 1999]Hall, Curt; “Data Warehousing for Business Intelligence”, March, 1999, http://www.cutter.com/itreports/RP68E.pdf (acedido a 06-06-2005). [Han et al., 2001] Han, Jiawei; Kamber, Micheline; “Data mining – Concepts and Techniques”, Academic Press Morgan Kaufmann Publishers, San Francisco, USA, 2001. [Harrison, 1998] Harrison, T. H.; “Intranet Data Warehouse”, São Paulo, Berkeley Brasil, 1998. [Haynes et al., 1992] Haynes, Paula J.; Helms, Marilyn M.; Casavant A. Richard; "Creating a Value- Added Customer Database: Improving Marketing 245 Bibliografia Management Decisions", Marketing Intelligence & Planning 10 p16-20; 1992. [Hughes, 1994] Hughes, A.M.; “Strategic Database Marketing”, McGrawHill, 1994. [Hughes, 1995] Hughes, Arthur M.;”The Complete Database Marketer”; Chicago; Probus Publishing Co, 1995. I [Inmon, 1996] Inmon, W.H.; “Building the Data Warehouse”, 2 ed, John Wiley & Sons, New York ,1996. [Inmon, 2003] Inmon, W. H, “What is a Data Warehouse?” Center for the Application of Information Technology (CAIT), http://www.cait.wustl.edu/cait, vol.1, 2003. (acedido a 06 Julho 2005). J [Jackson et al., 1997] Jackson, Rob; Wang, Paul; “Strategic Database Marketing”, Lincolnwood, IL: NTC Business Books, 1997. [Johnson, 1998] Johnson, Kathleen J; “Competitive Intelligence Library”, Competitive Intelligence Review, Vol. 9(2) 72-74, 1998. [Juran et al., 1999] Juran, J.M.; Godfrey , A.B.; “Juran's Quality Handbook”, 5 ed. McGraw-Hill, New York, 1999. [Jutkins et al., 1994] Jutkins, Ray; “Seven Mistakes to Avoid When Building a Database”. Direct Marketing, vol. 56, no 10, Feb. 1994. 246 Bibliografia K [Keen, 1987] Keen, P.G. W, M.; “Decision Support Systems: The Next Decade”, Decision Support Systems, 3, 253-265, 1987. [Klein, 1999] Klein, B.; Rossin, D.F.; “Data errors in neural network and linear regression models: An experimental comparison”, Data Quality Review 5(1); 1999. [Kohavi, 1997] Kohavi R.; “Wrappers for Feature Subset Selection” Artificial Intelligence 97, 273-324, 1997. [Kohonen, 1989] Kohonen, T.; “Self Organization and Associative Memory”, Berlin, Springer-Verlag, 1989. [Kotler, 2002] Kotler, Philip; “Marketing Management”, Prentice-Hall, 11ª edição, 2002. L [Laudon, 1986] Laudon K. C.; “Data Quality and due Process in Large Interorganizational Record Systems”, Communications of ACM, vol 29 (1), p 411; 1986. [Lee et al., 1999] Lee H.D.; Monard, M C.; Baranauskas J A.; “Empirical Comparison of Wrapper an Filter Approaches for Feature Subset Selection”, Technical Report, 94, ICMC-USP, 1999. [Lindon et al., 2000] Lindon, D.; Lendreive, J.; Rodrigues, J.; Dionisio P.; “Mercator Teoria e Prática do Marketing”, 9ª ed, Publicações D. Quixote, Lisboa, 2000. 247 Bibliografia [Linoff et al., 1997] Linoff, Gordon S.; Berry Michael J. A.; “Data Mining Techniques – For Marketing, Sales and Customer Support”, John Willey e Sons, New York 1997. [Linoff et al., 2000] Linoff, Gordon.; Berry, Michael,; “Mastering Data Mining: The Art and Science of Customer Relationships Management”, John Wiley & Sons Inc, USA, 2000. [Little, 1992] Little, R.; “Regression with missing X’s: a review”, Journal of the American Statistical Association, vol. 87, pp. 1227-1237, 1992. [Lo, 2002] Lo, Victor S.; ” The True Lift Model - A Novel Data Mining Approach to Response Modeling in Database Marketing”; SIGKDD Explorations; vol 2 n2; p.78-86, 2002. M [Marcolli, 1986] Marcolli,A.; “Teoria del Campo”, G. C. Sansoni Editore, Firenze,1986. [McKenna, 2002] McKenna, Regis; “As cinco regras do novo marketing”, HSM Management Review, nº22, pág. 14-22, 2002. [Montcel, 1972] Montcel Henri Tezenas; “Dicionário de Gestão”, Publicações Dom Quixote, Lisboa, 1972. [Moss, et al., 2003] Moss, Larissa; Atre, Shaku; “Business Intelligence Roadmap: The Complete Project Lifecycle for Decision Support Applications”, Addison Wesley, Longman, 2003. 248 Bibliografia [Munhoz, 2005] Munhoz, C. Eduardo; “Marketing & Design”, http://www.pensandomarketing.com/home/id127.html, 2005 [url] (acedido a 20-6-2005). N [Negash et al., 2003] Negash, Solomon; Gray, Paul; “Business Intelligence”, Ninth Americas Conference on Information Systems, 2003. O [O’Guin et al., 2001] O’Guin, C. Michael; Ogilvie, Timothy; “The Science, Not Art, of Business Intelligence”, Competitive Intelligence Review, vol. 12(4), 15-24, 2001. P [Piatetsky-Shapiro et al., 2000] Piatetsky-Shapiro, Gregory; Steingold Sam; “Measuring lift quality in database marketing”, Journal of SIGKDD Exploration Newsletter, v2 n 2 p76-80; New York; 2000. [Pinto et al., 2004] Pinto, F, Santos, M.F, Cortez, P, Quintela, H, “Data Preprocessing for Database Marketing”, Data Gadgets 2004, pp 76-84, Málaga Spain, 2004. [Pinto et al., 2005] Pinto, F.; Santos, M.F.; Cortez, P.; Quintela, H.; “Criação de Bases Dados de Marketing”, JOCLAD 2005, Ponta Delgada, 2005. 249 Bibliografia [Povel, 2001] Povel, O.; Giraud-Carrier C.; “Characterizing Data Mining Software”, Intelligent Data Analysis, IOS Press, vol.5 p.1-12, 2001. [Prior, 1998] Prior, Vernon; “The Language of Competitive Intelligence: Part One”, Competitive Intelligence Review, vol. 9(2) 66-68, 1998. [Pyle, 1999] Pyle, Dorian; “Data Preparation for Data Mining”, Morgan Kaufmann Publishers Inc, San Frsancisco, CA, 1999. Q [Quinnlan, 1996] Quinlan, J.R.; “Bagging Boosting e C4.5”, Proceedings of Fourteenth National Conference on Artifical Intelligence, 1996. [Quinnlan, 2004] Quinnlan, J.; “C5.0 Data Mining Tool”, http://www.rulequest.com, 2004 (acedido 17-3-2005). [Quintela, 2005] Quintela, Hélder; “Sistemas de Conhecimento Baseados em Data Mining: Aplicação à análise da Estabilidade de Estruturas Metálicas”, Dissertação de Mestrado, Universidade do Minho, Guimarães, 2005. R [Ramachandran, 2001] Ramachandran, Pushpa; “White Paper - Mining for Gold”, Wipro Technologies, Santa Clara CA, USA, 2001. [Reis el al, 1998] Reis Elizabeth; Moreira, Raúl; “Pesquisa de Mercados”, Edições Silabo, Lisboa, 1998. 250 Bibliografia [Roberts, 1997] Roberts, Mary Lou; "Expanding the Role of the Direct Marketing Database", Journal of Direct Marketing 11, 1997. [Rodrigues, 2000] Rodrigues, A. Medeiros; “Técnicas de Data Mining Classificadas do Ponto de Vista do Usuário”, Tese de Doutoramento; Universidade do Rio de Janeiro, 2000. [Rubin, 1996] Rubin, D; “Multiple Imputation after 18 years”, Journal of the American Statistical Association, vol. 91, pp. 473-489, 1996. S [Santos, 1999] Santos, M. F. (1999), Sistemas de Classificação em Ambientes Distribuídos, Tese de Doutoramento, Universidade do Minho, 1999. [Santos, 2001] Santos, Maribel Y.; “Padrão: Um Sistema de Descoberta de Conhecimento em Bases de Dados Geo-referenciadas”, Tese de Doutoramento, Universidade do Minho, 2001. [Santos et al., 2004] Santos, M.F.; Cortez, P.; Quintela, H.; Pinto, F.; “A Clustering Approach for Knowledge Discovery in Database Marketing”, Datamining 2004 Skyathos, Greece, 2004. [Santos et al., 2005] Santos, M.F.; Azevedo Carla; “Data Mining . Descoberta de Conhecimento em Bases de Dados”, FCA, Lisboa, 2005. [SAS, 2005] SAS, http://www.sas.com [url] (acedido a 17-7-2005). [Schafer, 1997] Schafer, J.; “Analysis of Incomplete Multivariate Data”, Chapman & Hall, London, 1997. 251 Bibliografia [Schapire, 2002] Schapire E. R.; The boosting approach to machine learning: An overview, MSRI Workshop on Nonlinear Estimation and Classification, 2002. [Schewe et al., 1995] Schewe, Charles; Hiam, Alexander; “The Portable MBA in Marketing”, John Wiley & Sons, (May) 1995. [Schoenbachler, 1997] Schoenbachler Denise D.; "Understanding consumer database marketing.", Journal of Consumer Marketing, n14, 1997. [Seller et al., 1999] Seller, Marianne; Gray, Paul; “A Survey of Database Marketing”, Califórnia, March 1999. [Shepard, 1998] Shepard, David; “The New Direct Marketing: How to Implement A Profit-Driven Database Marketing Strategy”, ed David Shepard Associates, McGraw-Hill, 3ª ed; 1998. [Siqueira et al., 2002] Siqueira, Sean; Silva, Diva de S.; Uchôa, Elvira Mª; Braz, Mª Helena; Melo, Ruben N.; "Database Marketing Systems", 2002. [Smyth et al., 1992] Smyth, P, Goodman R. M; “An information theoretic approach to rule induction from databases”, IEEE Transactions on Knowledge e Data Engineering, 4:4, 310–316, 1992. [Stegwee et al., 2002] Stegwee, Christian J.A.; Ton A.M.; Spil, Robert A.; “Business Intelligence in Healthcare Organizations”, University of Twente, 2002. [Stone et al.,2004] Bond, Alison; Foss, Bryan; Patron, Mark; “Consumer Insight: How to Use Data e Market Research to Get Closer to Your Customer”, Kogen, 2004. [Strong et al., 1997] Strong, D.M.; Lee Y.W.; Wang R.Y.; “Data quality in context”, Communications of the ACM, 40(5), p. 103-110, 1997. 252 Bibliografia [Suther, 1999] Suther T.; “Customer Relationship Management: Why Data Warehouse Planners Should Care About Speed e Intelligence in Marketing”, DM Review,1999. T [Tayi, 1998] Tayi, G.K.; Ballou, D.P. ; “Examining data quality”, Communications of the ACM, 41(2), p. 54-57, 1998. [Turban et al., 2001] Turban, Efraim; Aronson, Jay e.; “Decision Support Systems e Intelligent Systems”, Prentice-Hall, 2001. U [Uthurusamy et al., 2002] Uthurusamy R.;Fayyad,U.; “Evolving data mining into solutions for insights” . Communications of the ACM 45 (8): 28-31; 2002. W [Wang et al., 1996] Wang, R.Y.; Strong D.M.; Guarascio L.M.; “Beyond Accuracy: What data quality means to data consumers”, Total Data Quality Management Programme, 1996. [Weiss et al., 2001] Weiss, G, Provost, F.; “The effect of class distribution on classifier learning: na empirical study”, Technical Report ML-TR-44, Department of Computer Science, Rutgers University, 2001. 253 Bibliografia [Welge et al., 2001] Welge, Michael E.; Shaw, Michael J.; Subramaniam, Chandrasekar; Tan, Gek Woo”, Knowledge management e data mining for marketing”; Decision Support Systems, vol. 31 n 1 p127-137, 2001. [Westphal et al., 1998] Westphal, C.; Blaxton, T.; “Data Mining Solutions: Methods and Tools for Solving Real-World Problems”, John Wiley & Sons, New York, 1998. [Wiersema et al., 1993] Wiersema F.; Treacy, M.;“Customer Intimacy and Other Value Disciplines”, Harvard Business Review, 71(1), pp. 84–93, 1993. [Wirth, 2000] Wirth, Ruediger; “CRISP-DM Position Statement”, 6th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, USA, 2000. [Wright, 1998] Wright, K. F.; "Barriers to Successfull Implementation of Database Marketing: A Cross-Industry Study", International Journal of Information Management; 1998. [Wolf et al., 1999] Wolf , M. J; Copulsky, J. R; “Relationship Marketing: Positioning for the Future”, The Journal of Business Strategy, July/August, pp. 16–20, 1999. Z [Zorrinho, 1991] Zorrinho, Carlos; “Gestão da Informação”; Editorial Presença; Lisboa;1991. [Zwick et al., 2004] Zwick, Detlev, Nikhilesh Dholakia “Whose Identity Is It Anyway? Consumer Representation in the Age of Database Marketing”; Journal of Macromarketing, Vol. 24, No. 1, 31-43, 2004. 254 Glossário de Termos Glossário de Termos Algoritmos Fórmulas matemáticas complexas, são a parte fundamental das ferramentas de Data Mining. Cross-selling Venda cruzada de produtos. Data Mining Processo da Descoberta de Conhecimento, que encontra tendências e associações num grande volume de dados. Data Warehouse É um repositório de dados provenientes de várias fontes, orientada por assuntos, integrada, variante no tempo, e não volátil, especialmente construído e estruturado de forma a facilitar os processos de tomada de decisão Marketer Designação corrente para um profissional de marketing. Metodologia Parte da lógica que estuda os métodos das diversas ciências, segundo as leis do raciocínio; conjunto de regras empregue no ensino de uma ciência ou arte. Modelo Descreve tendências e associações, permitindo entendê-las melhor. 255 Glossário de Termos Prospect Indivíduo não-consumidor que tem potencial de vir tornar-se num cliente da empresa para um determinado produto ou serviço. Merchandising Comercialização de produtos associados .... Marketing relacional Marketing vocacionado para a relação como consumidor. Marketing directo Marketing que visa estabelecer contacto directo com o consumidor. Up-selling Venda apoiada numa venda anterior, permitindo continuar a aumentar o volume de compras do cliente. 256