À Linda Ao Francisco e à Catarina

Propaganda
À Linda
Ao Francisco e à Catarina
i
Agradecimentos
Realizar um trabalho como este implica empenhamento, concentração, rigor, e o
acompanhamento e estímulo das pessoas que estão mais próximas. Na conclusão desta
etapa da minha formação académica fico muito grato ao Professor Manuel Filipe Santos,
orientador, amigo e solidário.
Ao meu colega e amigo Pedro Gago, um agradecimento muito especial pelas ajudas,
conselhos e disponibilidade incondicional que sempre demonstrou – com um
companheiro assim as coisas ficam e são mais fáceis.
Não posso deixar neste momento de agradecer à minha esposa, mulher de M grande que
suportou com paciência cada fase desta caminhada as minhas ausências e as minhas
falhas. Muito Obrigado Linda.
ii
Resumo
Resumo
A existência de bases de dados nas empresas nunca foi tão relevante como nos últimos
anos, sendo fácil constatar a sua presença em qualquer projecto ou investimento
desenvolvido.
Uma base de dados poderá ainda ser considerada, como um repositório de conhecimento
potencialmente relevante, mas escondido. De facto o seu conteúdo muitas vezes não é
explorado em profundidade, pese embora existam numerosas actividades desenvolvidas
sobre elas, como é o caso do marketing directo ou do marketing relacional.
As diversas contribuições e trabalhos realizados no âmbito da exploração de bases de
dados com recurso a procedimentos estatísticos e a processos de interrogação, têm-se
revelado
insuficientes
pelo
facto
dos
modelos
desenvolvidos
não
captarem
convenientemente o conhecimento implícito nem revelaram as acuidades desejáveis. As
técnicas de Descoberta de Conhecimento em Bases de Dados surgem assim como
alternativa a explorar, uma vez que apresentam características que permitem o estudo de
problemas complexos, de difícil resolução através das abordagens mais convencionais,
sendo por isso cada vez mais utilizadas nas diferentes áreas da gestão, em particular no
marketing.
Neste trabalho é apresentada uma proposta para a sistematização das actividades de
Descoberta de Conhecimento em Bases de Dados como suporte às actividades de
Business Intelligence, com aplicação concreta num caso na área da distribuição.
iii
Abstract
Abstract
Databases have never been as relevant for organizations as they are nowadays. It is easy
to see how widespread they are, being used in every project or investment.
A database may also be seen as a repository for hidden but potentially useful knowledge.
In fact, its contents are seldom thoroughly explored even though there are a number of
activities like direct marketing that depend on the information in the database.
Past approaches to database contents study by means of database queries or statistical
procedures have been proven unsatisfactory as the resulting models often not only lack
the ability to uncover the implicit hidden knowledge but also present low predictive
accuracies. Thus, Knowledge Discovery in Databases techniques present an interesting
alternative as they can be used on complex problems where the more conventional
approaches usually fail and their use is growing especially in marketing.
In this work a framework systematizing the Knowledge Discovery in Databases activities
for Business Intelligent activities support is presented. This framework is show in action
through a case study.
iv
Abstract
Conteúdo
RESUMO....................................................................................................................................III
ABSTRACT ...............................................................................................................................IV
ÍNDICE DE FIGURAS .........................................................................................................XI
ÍNDICE DE TABELAS ......................................................................................................XIII
ACRÓNIMOS E ABREVIATURAS ...............................................................................XIV
ACRÓNIMOS E ABREVIATURAS ...............................................................................XIV
1 INTRODUÇÃO ......................................................................................................................... 1
1.1 MOTIVAÇÃO .......................................................................................................................... 6
1.2 OBJECTIVOS .......................................................................................................................... 8
1.3 ORGANIZAÇÃO DA DISSERTAÇÃO ..................................................................................... 10
2 BUSINESS INTELLIGENCE E DATABASE MARKETING ............................................... 13
2.1 BUSINESS INTELLIGENCE .................................................................................................. 13
2.1.1 Definição........................................................................................................................ 14
2.1.2 Aplicações organizacionais de BI ......................................................................... 16
2.1.3 Formalização da actividade Business Intelligence......................................... 17
2.1.4 Suporte tecnológico de BI....................................................................................... 19
v
Abstract
2.1.5 Sistemas de Apoio à Decisão................................................................................. 21
2.2 DATABASE MARKETING ..................................................................................................... 24
2.2.1 Definição de Database Marketing ........................................................................ 25
2.2.2 Estrutura do Database Marketing ........................................................................ 26
2.2.2.1 Componente Operativa do DBM ........................................................................ 27
2.2.2.2 Componente Analítica do DBM........................................................................... 28
2.2.3 Catalisadores e Obstáculos do Database Marketing..................................... 33
2.3 BUSINESS INTELLIGENCE VERSUS DATABASE MARKETING .......................................... 36
3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ......................................... 39
3.1 INTRODUÇÃO ...................................................................................................................... 39
3.2 HIERARQUIA DO CONHECIMENTO EM BASES DADOS .................................................... 40
3.3 PRINCÍPIOS DA DESCOBERTA DE CONHECIMENTO EM BASE DADOS .......................... 41
3.4 FASES DO PROCESSO DE DCBD...................................................................................... 46
3.4.1 Exploração e Selecção de dados .......................................................................... 46
3.4.2 Pré-Processamento.................................................................................................... 48
3.4.2.1 Tratamento de valores omissos......................................................................... 49
3.4.2.2 Avaliação de excepções (outliers) .................................................................... 50
3.4.2.3 Derivação de novos atributos............................................................................. 51
3.4.2.4 Dispersão de valores.............................................................................................. 51
3.4.2.5 Integridade da informação do registo............................................................. 53
3.4.2.6 Identificação de atributos duplicados e redundantes................................ 53
3.4.2.7 Identificação de inconsistências ........................................................................ 54
3.4.2.8 Identificação de ruído ou poluição dos dados .............................................. 54
3.4.2.9 Identificação de valores atribuídos por definição (defaults) .................. 54
3.4.3 Transformação dos dados....................................................................................... 55
3.4.3.1 Normalização dos Dados ...................................................................................... 55
3.4.3.2 Discretização de atributos quantitativos em qualitativos........................ 56
3.4.3.3 Discretização de atributos qualitativos em quantitativos........................ 56
3.4.3.4 Transposição de tabelas ....................................................................................... 57
vi
Abstract
3.4.4 Data Mining .................................................................................................................. 58
3.5 METODOLOGIAS DE DATA MINING .................................................................................. 60
3.5.1 CRISP-DM...................................................................................................................... 60
3.5.2 SEMMA............................................................................................................................ 61
4 PROBLEMAS E ABORDAGENS EM DATA MINING ........................................................ 63
4.1 INTRODUÇÃO ...................................................................................................................... 63
4.2 TIPOS DE OBJECTIVOS EM DATA MINING ....................................................................... 64
4.2.1 Previsão ......................................................................................................................... 64
4.2.1.1 Classificação .............................................................................................................. 64
4.2.1.2 Regressão................................................................................................................... 65
4.2.2 Descrição ....................................................................................................................... 66
4.2.2.1 Segmentação ............................................................................................................ 66
4.2.2.2 Associação ou análise de dependências ......................................................... 67
4.2.2.3 Sumariação................................................................................................................ 67
4.2.2.4 Visualização ............................................................................................................... 67
4.3 MÉTODOS DE ABORDAGEM EM DATA MINING ................................................................ 68
4.3.1 Regras de Associação – Indução de regras ..................................................... 69
4.3.2 Redes Neuronais......................................................................................................... 74
4.3.3 Árvores de Decisão.................................................................................................... 88
4.4 AVALIAÇÃO DOS RESULTADOS ......................................................................................... 98
5 DM4DBM - PROPOSTA DE UMA METODOLOGIA DE DATA MINING PARA
DATABASE MARKETING ........................................................................................................ 101
5.1 INTRODUÇÃO .................................................................................................................... 101
5.2 CARACTERÍSTICAS DAS ACTIVIDADES DE MARKETING ................................................ 102
5.3 SUPORTE ÀS ACTIVIDADES DE MARKETING COM MODELOS DE DATA MINING ......... 104
5.4 DATA MINING PARA DATABASE MARKETING ................................................................ 106
5.4.1 Recolha de Informação .......................................................................................... 108
5.4.1.1 Recolha de Dados.................................................................................................. 108
5.4.1.2 Constituição da Base de dados de Marketing............................................. 110
vii
Abstract
5.4.2 Extracção de Conhecimento................................................................................. 112
5.4.2.1 Análise e Selecção dos Dados .......................................................................... 113
5.4.2.2 Pré-processamento e Transformação de Dados........................................ 114
5.4.2.3 Modelação ................................................................................................................ 117
5.4.2.4 Exemplos de Aplicação em projectos de DCBD em Acções de
Marketing................................................................................................................................. 118
5.4.3 Desenvolvimento de Acções de Marketing ..................................................... 122
5.4.3.1 Medição dos Resultados e da Eficácia dos Modelos ................................. 125
5.5 DM4DBM VERSUS CRISP-DM ..................................................................................... 126
6 DATABASE MARKETING APLICADO À DISTRIBUIÇÃO ............................................ 131
6.1 INTRODUÇÃO .................................................................................................................... 131
6.2 (A) OBJECTIVOS DE NEGÓCIO E DE MARKETING ........................................................ 134
6.2.1 (a1) Enquadramento............................................................................................... 134
6.2.2 (a2) Objectivos do Estudo e Abordagens Consideradas ........................... 135
6.2.3 (a3) Recolha e Exploração dos Dados ............................................................. 136
6.2.3.1 Avaliação dos dados internos disponíveis.................................................... 136
6.2.3.2 Importação e criação da BD inicial................................................................. 137
6.2.3.3 Filtragem e Limpeza de dados ......................................................................... 140
6.2.4 Constituição da Base Dados de Marketing ..................................................... 141
6.2.4.1 Sistematização da Angariação de dados...................................................... 142
6.2.4.2 Selecção dos registos elegíveis........................................................................ 142
6.3 (B)DESCOBERTA DE CONHECIMENTO EM BASES DADOS ........................................... 144
6.3.1 (b1) Compreensão dos dados ............................................................................. 144
6.3.2 (b2) Análise dos dados .......................................................................................... 145
6.3.3 Pré-Processamento dos Dados (b3) ................................................................. 146
6.3.4 (b4) Modelação ......................................................................................................... 164
6.3.4.1 Selecção de dados para treino......................................................................... 164
6.3.4.2 Aplicação de Algoritmos ..................................................................................... 165
6.3.5 (C) Desenvolvimento de Acções de Marketing ............................................. 179
viii
Abstract
6.3.6 (D) Discussão de resultados ................................................................................ 182
7 CONCLUSÕES E TRABALHO FUTURO ............................................................................ 185
7.1 SINOPSE ............................................................................................................................ 185
7.2 CONCLUSÕES .................................................................................................................... 187
7.3 TRABALHO FUTURO .......................................................................................................... 189
ANEXO A................................................................................................................................. 192
8 METODOLOGIA CRISP-DM .......................................................................................... 192
ANEXO B................................................................................................................................. 200
9 METODOLOGIA SEMMA................................................................................................. 200
ANEXO C................................................................................................................................. 203
10 PSEUDO CÓDIGO PARA TRANSPOSIÇÃO DE TABELAS .......................................... 203
ANEXO D ................................................................................................................................ 205
11 MODELOS DE DATA MINING: MODELO 1 ................................................................ 205
ANEXO E ................................................................................................................................. 209
12 MODELOS DE DATA MINING: MODELO 2 ................................................................ 209
ANEXO F ................................................................................................................................. 212
13 MODELO DE DATA MINING: MODELO 3................................................................... 212
ANEXO G ................................................................................................................................ 221
14 MODELO DE DATA MINING : MODELO 4 ................................................................ 221
ANEXO H ................................................................................................................................ 225
ix
Abstract
15 MODELO ENTIDADE RELACIONAMENTO DA BD ..................................................... 225
ANEXO I ................................................................................................................................. 230
16 DESCRIÇÃO DOS DADOS .............................................................................................. 230
ANEXO J ................................................................................................................................. 234
17 COMPREENSÃO DOS DADOS ......................................................................................... 234
ANEXO K................................................................................................................................. 239
18 MODELO DE DADOS ....................................................................................................... 239
BIBLIOGRAFIA ................................................................................................................... 240
GLOSSÁRIO DE TERMOS............................................................................................... 255
x
Índice de Figuras
Índice de Figuras
FIGURA 1 – MARKETING TRADICIONAL (ADAPTADO DE [DROZDENKO ET AL., 2002]).
3
FIGURA 2 - PROCESSO DE MARKETING RELACIONAL.
4
FIGURA 3 - ESTRUTURA DA DISSERTAÇÃO
10
FIGURA 4 – SUPORTE TECNOLÓGICO DA ACTIVIDADE DE BUSINESS INTELLIGENCE
19
FIGURA 5 - BUSINESS INTELLIGENCE EM SISTEMAS DE APOIO À DECISÃO.
22
FIGURA 6- CONSTITUIÇÃO DO DBM [ADAPTADO DE [SIQUEIRA ET AL., 2002]).
27
FIGURA 7 - FASES DO PROCESSO DE DCBD (ADAPTADO DE [FAYYAD ET AL., 1996]).
43
FIGURA 8 - PERCENTAGEM DE TEMPO DESPENDIDO EM CADA FASE DO PROCESSO DE DCBD.
44
FIGURA 9 - RELAÇÃO ENTRE O NÚMERO DE MAILINGS E O NÚMERO DE RESPOSTAS.
45
FIGURA 10– REPRESENTAÇÃO DAS TABELAS INICIAS.
57
FIGURA 11 – REPRESENTAÇÃO DA TABELA FINAL APÓS TRANSPOSIÇÃO.
57
FIGURA 12 – METODOLOGIA CRISP-DM (ADAPTADO DE [CHAPMAN ET AL., 2000]).
61
FIGURA 13 – METODOLOGIA SEMMA (ADAPTADO DE [SAS, 2005]).
62
FIGURA 14 – MATRIZ PARA CLASSIFICAÇÃO (ADAPTADO DE [RODRIGUES, 2000]).
63
FIGURA 15 – ESTRUTURA DO NEURÓNIO ARTIFICIAL (NODO) [QUINTELA, 2005].
76
FIGURA 16 – ESQUEMAS COM AS FUNÇÕES DE ACTIVAÇÃO.
77
FIGURA 17 – REDE DE UMA SÓ CAMADA.
78
FIGURA 18 – ARQUITECTURA DE UMA REDE FEEDFORWARD MULTICAMADA
79
FIGURA 19 – ARQUITECTURA DE UMA REDE COMPETITIVA OU RECORRENTE.
79
FIGURA 20 – PARADIGMA DE APRENDIZAGEM SUPERVISIONADA.
81
FIGURA 21 – PARADIGMA DA APRENDIZAGEM NÃO SUPERVISIONADA.
81
FIGURA 22 – REDE PERCEPTRON.
82
FIGURA 23 – ESQUEMA DAS REDES DE KOHONEN [KOHONEN, 1989].
87
FIGURA 24 EXEMPLO DE UMA ÁRVORE DE DECISÃO.
89
FIGURA 25 - ÁRVORE DE DECISÃO OBTIDA PELO ALGORITMO ID3.
94
FIGURA 26 - ENQUADRAMENTO DO DBM NA ORGANIZAÇÃO (ADAPTADO [HUGHES, 1995]).
xi
102
Índice de Figuras
FIGURA 27 – PROPOSTA DA METODOLOGIA DE DATA MINING PARA DATABASE MARKETING
107
FIGURA 28 – RECOLHA DE INFORMAÇÃO DE FONTES DIVERSAS
111
FIGURA 29 - PROCESSO DE DCBD (ADAPTADO DE [FAYYAD
ET AL.,
1996])
112
FIGURA 30 – ORGANIZAÇÃO ACTIVIDADES PRÉ-PROCESSAMENTO E TRANSFORMAÇÃO DE DADOS115
FIGURA 31 - RECOMPENSAS DA APLICAÇÃO DE DBM
123
FIGURA 32 – PARALELISMO ENTRE AS METODOLOGIAS DM4DBM E CRISP-DM
128
FIGURA 33 - FLUXO DE INFORMAÇÃO RELATIVO AO PROJECTO DE MARKETING RELACIONAL
132
FIGURA 34 – CRIAÇÃO DA BD INICIAL – IMPORTAÇÃO DE DADOS
137
FIGURA 35 – DUPLICAÇÃO NA CODIFICAÇÃO PARA O MESMO ATRIBUTO.
139
FIGURA 36 - REPRESENTAÇÃO ESQUEMÁTICA DA FORMAÇÃO DA BD DO PROJECTO.
146
FIGURA 37 - DISTRIBUIÇÃO APÓS A REDUÇÃO DE CLASSES
152
FIGURA 38 - TRANSPOSIÇÃO DA TABELA VALE PARA UMA NOVA TABELA CLIENTE-VALE.
153
FIGURA 39 – REPRESENTAÇÃO DA TRANSPOSIÇÃO DAS TABELAS PERGUNTA E QUESTIONÁRIO.
154
FIGURA 40 - ORGANIZAÇÃO DOS DADOS DAS TABELAS QUESTIONÁRIOS E QUESTÕES.
155
FIGURA 41 - TABELA RESULTANTE DA TRANSPOSIÇÃO DAS TABELAS.
155
FIGURA 42 - DISTRIBUIÇÃO DE CASOS DENTRO DE CADA CLUSTER.
176
FIGURA 43 - CLUSTERS VS REBATE DE VALES.
178
xii
Índice de Tabelas
Índice de Tabelas
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
TABELA
1- RESULTADOS DE ACTIVIDADES DE DBM EM MARKETING
33
2- EXEMPLIFICAÇÃO DE CODIFICAÇÕES DISTINTAS PARA O MESMO REGISTO.
47
3- EXEMPLO DE TABELA DE FREQUÊNCIAS PARA O VALOR DE UM ATRIBUTO.
49
4- CODIFICAÇÃO DISTINTA PARA O MESMO ATRIBUTO [PINTO ET AL., 2005].
53
5- ALGUMAS DAS TÉCNICAS DISPONÍVEIS PARA CADA TIPO DE PROBLEMA EM DM.
69
6 - EVOLUÇÃO DO ALGORITMO ID3.
90
7 - DADOS USADOS PELO ALGORITMO.
92
8 - MATRIZ DE CONFUSÃO DE UM CLASSIFICADOR.
98
9 - ACTIVIDADES DE DM APLICADAS A QUESTÕES DE MARKETING.
105
10 – EXEMPLOS DE APLICAÇÃO EM CASOS DE MARKETING
117
11 - EXEMPLIFICAÇÃO DE CODIFICAÇÕES DISTINTAS PARA O MESMO REGISTO.
139
12 – INCONGRUÊNCIA NA CODIFICAÇÃO DO MESMO OBJECTO.
140
13 - EXEMPLO DE VIOLAÇÃO DE DOMÍNIO NO ATRIBUTO SEXO.
141
14 - CLASSIFICAÇÃO EM FUNÇÃO DO VOLUME DE QUESTIONÁRIOS E VALES.
143
15 - CLASSIFICAÇÃO EM FUNÇÃO DA DIMENSÃO DA FAMÍLIA E ACESSÓRIOS CONFORTO. 143
16 – ATRIBUTOS UTILIZADOS NA MODELAÇÃO
144
17 – DOMÍNIO DOS ATRIBUTOS DE TRABALHO
145
18 – QUANTIDADE DE RESPOSTAS OBTIDAS PARA A QUESTÃO TÊM FILHOS?
149
19 – QUANTIDADE DE RESPOSTAS À QUESTÃO NÚMERO DE FILHOS?
149
20 - RESPOSTAS ÀS QUESTÕES TÊM FILHOS E NÚMERO DE FILHOS
150
21 - RESPOSTAS ÀS QUESTÕES APÓS COERÊNCIA DE DADOS.
151
22 – TABELA DE FREQUÊNCIA PARA O ATRIBUTO Nº FILHOS.
151
23 - ESTABELECIMENTO DA RELAÇÃO CLIENTE – VALE.
154
24 – TAXA DE REBATIMENTO DE CADA VALE EMITIDO.
158
25 - DERIVAÇÃO DE NOVAS VARIÁVEIS.
159
26 – CLASSIFICAÇÃO DE CLIENTES.
160
27 - ORDENAÇÃO DE CLIENTES EM FUNÇÃO DO VOLUME DE QUESTÕES RESPONDIDAS: 162
28 – NÚMERO DE CASOS POR CADA ESCALA DE CLASSIFICAÇÃO.
163
29 – RESULTADOS DA APLICAÇÃO DO ALGORITMO PARA DE INDUÇÃO DE REGRAS GRI. 170
30 – DISTRIBUIÇÃO DE INDIVÍDUOS PARA CADA CLUSTER.
177
xiii
Acrónimos e Abreviaturas
Acrónimos e Abreviaturas
AD
Árvores de Decisão
BD
Base de Dados
BP
Back-Propagation
BDM
Bases de Dados de Marketing
CRISP-DM
Cross Industry Standard Process for Data Mining
CRM
Customer Relationship Management
DCBD
Descoberta de Conhecimento em Base de Dados
(Knowledge Discovery in Databases)
DM
Data Mining
DW
Data Warehouse
IA
Inteligência Artificial
ODBC
On-line DataBase Connectivity
OLAP
On-Line Analytic Processing
RNA
Redes Neuronais Artificiais
RMFC
Redes Feedforward Multicamada
SEMMA
Sample, Explore, Modify, Model, Assessement
SGBD
Sistema de Gestão de Base de Dados
SQL
Structured Query Language
W3C
World Wide Web
WWW
World Wide Web
xiv
Capítulo 1 Introdução
Capítulo 1
1
Introdução
O marketing é o conjunto de meios de que dispõe uma organização1 para vender os seus
produtos aos seus clientes com rendibilidade2 [Angelmar et al., 1975]. O termo
marketing surge da conjugação das palavra inglesas market e thinking, representando
uma preocupação desta ciência em auxiliar as organizações na abordagem aos mercados
[Bartels, 1976], [Angelmar et al., 1975].
Outros autores definiram o marketing como “o conjunto dos métodos e dos meios de que
uma organização dispõe para promover, nos públicos pelos quais se interessa, os
comportamentos favoráveis à realização dos seus próprios objectivos" [Lindon et al.,
2000]. A investigação realizada em torno da escolha de mercados-alvo ou da integração
de funções como captação, manutenção e fidelização de clientes3 por meio da criação, da
entrega e da comunicação de um valor superior para o cliente, confere ao marketing um
carácter científico [Kotler, 2002]. Na mesma linha de orientação, a American Marketing
Association define o marketing enquadrado com as actividades de negócios das
organizações que dirigem o fluxo de bens e serviços do produtor ao consumidor: “ é o
processo de planeamento e execução da estratégia, estabelecimento do preço, promoção e
1
Uma organização consiste numa unidade social deliberadamente construída para alcançar objectivos específicos num determinado
contexto social [Etzioni, 1980]. Considerando de modo igual uma empresa como uma unidade social organizada com objectivos, e
tendo em atenção os objectivos deste trabalho, ambos os termos, organização e empresa, serão usados indiferentemente para designar
o mesmo tipo de actividade.
2
A rendibilidade de um cliente em marketing traduz-se pelo retorno que a empresa obtém em resultado do seu investimento e.g.,
vendas realizadas ou resposta a acções de marketing.
3
Cliente – indivíduo que, num espaço de tempo definido, tem por objectivo adquirir um bem ou um serviço [ Montcel, 1972].
1
Capítulo 1 Introdução
distribuição de ideias, produtos e/ou serviços, com vista a desenvolver os intercâmbios
que irão satisfazer as necessidades dos indivíduos e organizações” [AMA, 2005].
Num sentido mais lato é possível afirmar que o marketing consiste em gerir a relação
entre uma empresa e os seus clientes, no sentido de atingir os objectivos dos primeiros
satisfazendo as necessidades dos segundos.
O conceito de marketing não é recente, havendo na sua prática e nos seus fundamentos
um desenvolvimento ao longo dos anos, sendo possível identificar quatro períodos
distintos na sua evolução [Rodrigues, 2000]:
ƒ
Produção: desde a revolução industrial, as organizações, em geral, enfatizavam a
eficiência do processo produtivo. Existia uma premissa subjacente a esta filosofia:
“um bom produto venderá por si mesmo” [Munhoz, 2005];
ƒ
Vendas: a eficácia dos processos produtivos (equipamentos, tecnologias e recursos
humanos) conduziu a uma optimização da capacidade produtiva – oferta - e esta
tornou-se superior à procura, pelo que as preocupações das organizações passaram a
centrar-se nas vendas [Lindon et al., 2000];
ƒ
Mercado: Os esforços de vendas, desenvolvidos e introduzidos no período anterior,
necessitavam de uma adequação dos produtos aos mercados onde eram
comercializados. Esta necessidade fez surgir nas organizações a preocupação de se
orientarem para o mercado, para o seu conhecimento e mesmo, por algumas vezes,
para a diversificação do tipo de produtos [Munhoz, 2005];
ƒ
Cliente: o desenvolvimento exponencial da concorrência entre empresas, com a
natural diferenciação dos seus produtos, promoveu a exigência nos consumidores4,
surgindo assim os denominados segmentos de mercado [Kotler, 2002]. O marketing
4
Consumidor – indivíduo com informação do mercado de determinado(s) produto(s) ou serviço(s), com potencial de vir a tornar-se
cliente [Montcel, 1972].
2
Capítulo 1 Introdução
centrado no cliente desenvolve estratégias de comunicação dirigidas a subconjuntos
de consumidores com características comuns [Lindon et al., 2000].
Não obstante a evolução registada, as práticas do marketing tradicional eram todavia
mais orientadas para o produto e para a transacção (Figura 1) do que para o cliente e
para a relação com este. Na perspectiva da organização, a relação com o cliente resumiase à transacção de produtos ou serviços como meio a seguir para a obtenção dos seus
objectivos (na maioria dos casos, o lucro), sendo a preocupação com o cliente apenas ao
nível da satisfação das necessidades do momento [Drozdenko et al., 2002].
Figura 1 – Marketing Tradicional (adaptado de [Drozdenko et al., 2002]).
A constatação da insuficiência das abordagens expostas deu lugar a novas formas de
pensar e agir, com as organizações a procurarem não só políticas de marketing mas antes
políticas de relacionamento com os seus clientes – o marketing relacional.
O marketing relacional caracteriza-se por um fluxo significativo de comunicação entre a
organização e o cliente (Figura 2), com o objectivo explícito de obter informação
actualizada nas suas Bases de Dados (BD). Os meios privilegiados para o conhecimento
dos seus clientes são tão diversos como, e.g., a imprensa, a Internet ou correspondência
directa. Os dados entretanto registados actualizam os anteriores e são utilizados nas
interacções subsequentes para uma optimização dos novos contactos, tendo em vista o
reforço da relação entre a organização e os clientes.
3
Capítulo 1 Introdução
Base de Dados
Actualização e Análise da Base de Dados
Media
Mail
Internet
Telefone
Outros
Feedback
Contacto do cliente
Compra
Uso do feedback
recebido
Contacto com as vendas
Personalizar a relação com
cliente
Fornecer informação
Cliente
Figura 2 - Processo de Marketing Relacional (adaptado de [Drozdenko et al., 2002]).
Alguns autores apresentam o marketing relacional como a evolução do marketing
tradicional (cuja filosofia de desenvolvimento assenta em 4 Ps – Place (Mercado),
Promotion (Promoção), Product (Producto) e Price (Preço) [Kotler, 2002]), abrindo
espaço para uma nova abordagem, com novas variáveis de acção, menos rígidas, em
torno das quais são Fórmuladas as estratégias de marketing. Essas variáveis são [Schewe
et al., 1995]:
ƒ
Sensibilidade ao consumidor – Preocupação na qualidade do atendimento ao cliente;
registo das respostas; cuidado no tratamento das reclamações, entre outros aspectos
relacionados;
ƒ
Produto – Definição das diferentes características do produto em função das
necessidades e desejos dos consumidores;
ƒ
Conveniência do consumidor – Tornar a oferta do produto num modo atractivo,
apresentando-o em função da conveniência do consumidor (e.g., dimensão e tipologia
das embalagens dos produtos);
4
Capítulo 1 Introdução
ƒ
Serviço – Assegurar serviços ao longo da relação com o cliente, como sejam a prévenda (informações sobre detalhes e características dos produtos), assistência na
venda (e.g., facilidades de pagamento ou de entrega) e pós-venda (serviço de
manutenção e garantia dos produtos);
ƒ
Preço – Definição da política de preços em função das empresas concorrentes e dos
mercados onde são comercializados os produtos;
ƒ
Distribuição e acessibilidade – Facilitar o acesso aos produtos em termos de locais
de oferta (distribuição geográfica de pontos de venda ), prazos de entrega e
acessibilidade (e.g., loja generalista ou especializada);
ƒ
Comunicação – Utilização dos meios de comunicação em função do perfil dos
consumidores (e.g., definição dos veículos publicitários) e dos clientes (e.g., envio
de comunicações personalizadas).
Este novo conceito de marketing, preocupado em conhecer e em compreender os
mercados e os seus consumidores, expande a visão relativamente ao que representa um
programa de marketing centrando-se o seu desenvolvimento na utilização das
Tecnologias de Informação (TI) [Gonçalves et al., 2002] e, em particular, nas tecnologias
orientadas para a utilização de BD [Drozdenko et al., 2002].
Entretanto, graças ao desenvolvimento tecnológico e à diminuição dos custos de
armazenamento, as BD aumentaram em número (em qualquer departamento de uma
qualquer empresa, o registo da sua actividade é guardado em BD) e no volume de
registos guardados (e.g., a BD de clientes de uma cadeia de hipermercados é actualmente
na ordem dos Terabytes), abrindo espaço para o aparecimento de uma abordagem
sistemática na sua utilização, centrada no processo de preparação dos dados, que
permitisse aumentar a confiança no resultado final [Linoff et al., 2000], [Han et al.,
2001], [Gago, 2001]. Essa abordagem sistemática, integrando fases de préprocessamento dos dados e pós-processamento dos resultados, é denominada por
5
Capítulo 1 Introdução
Knowledge Discovery in Databases (KDD), termo que neste texto é traduzido para
Descoberta de Conhecimento em Bases de Dados (DCBD).
A DCBD consiste numa série bem definida de passos que vão desde a preparação dos
dados até à extracção de padrões sobre esses dados e à avaliação dos mesmos e é aqui
apresentada como uma alternativa aos processos tradicionais de utilização de BD (e.g.,
processos clássicos de inferência estatística ou processos simples de interrogação a BD)
para o suporte à definição de estratégias de marketing, uma vez que permitem o
estudo/resolução de problemas mais complexos.
1.1 Motivação
As actividades de marketing são muitas e diversas, permitindo o seu desenvolvimento em
diferentes perspectivas e contextos variados. Contudo, na elaboração deste trabalho,
assume particular relevância a utilização de BD no suporte às actividades de marketing
no decorrer de acções de marketing relacional.
Numa perspectiva científica, o marketing pode ser colocado entre as Tecnologias de
Informação e a Gestão [Hughes, 1994], [Shepard, 1998], suportando a tese que o indica
como uma das áreas de maior interesse para a aplicação de técnicas de DCBD [Linoff et
al., 1997]. Como contributo para esta motivação adicione-se o facto de até ao momento
serem desconhecidos casos de sucesso da aplicação desta metodologia em casos de
marketing.
A existência de BD na maioria das organizações é actualmente um facto inquestionável.
Contudo, a sua utilização limita-se às abordagens tradicionais, sugerindo um enorme
potencial ainda por explorar [Welge et al., 2001]. Alguns autores, perspectivando uma
visão de futuro para o marketing apontam cinco vectores chave para o seu
desenvolvimento [McKenna, 2002]:
6
Capítulo 1 Introdução
ƒ
Subestrutura digital - o novo paradigma tecnológico provoca mudanças em toda a
cadeia produtiva [Zorrinho, 1991]. A estrutura digital auxilia a comunicação e facilita
o acesso da empresa ao cliente e, vice-versa;
ƒ
Desaparecimento da fidelidade à marca – a revolução digital estimulou a
infidelidade às marcas [Lindon et al., 2000]. A facilidade de acesso à informação (em
particular através da internet) tornou o consumidor mais pró-activo com maior
volume de informação para poder decidir sobre a aquisição de determinado produto
ou serviço;
ƒ
Redefinição do conceito de imagem – face à necessidade de adaptação a mercados
cada vez mais competitivos, a imagem da empresa ou dos seus produtos tornou-se
dinâmica e perdeu o seu carácter mais estático [Lindon et al., 2000]. A imagem
passou a ser definida pelos meios de comunicação e nas experiências interactivas
com os consumidores;
ƒ
Alteração do papel do Cliente - O cliente deixou de ser um elemento passivo
(simples consumidor) para se tornar num elemento activo (consome, analisa e reage)
[McKenna, 2002] ;
ƒ
O marketing suportado nas tecnologias da informação – são abundantes os indícios
de convergência entre a área das tecnologias de informação e as actividades de
marketing, e.g,. o marketing directo 5 [Lindon et al., 2000].
A dificuldade em conquistar e manter a fidelidade dos clientes gerou nas empresas a
necessidade de adoptarem novas estratégias de relacionamento baseadas em sistemas de
informação, que a operar na retaguarda, são capazes de registar toda a informação
libertada durante a relação em BD [McKenna, 2002].
5
O marketing directo pode ser considerado como uma ferramenta de comunicação de marketing utilizada para estabelecer o
relacionamento directo entre as empresas e seus consumidores e prospects (tanto pessoas físicas quanto outras empresas)
7
Capítulo 1 Introdução
O sistema aglutinador de um conjunto de ferramentas que viabilizam a obtenção, análise
e manutenção de dados, possibilitando a obtenção da informação adequada, para a pessoa
ideal, no tempo certo, denomina-se por Business Intelligence Systems (BIS) [Negash et
al., 2003]. Aproveitar as funcionalidades e conhecimentos que o Business Intelligence
(BI) proporciona não é apenas um factor de sucesso, mas essencialmente um factor de
sobrevivência [Jackson, et al., 1997].
A expressão da prática do BI em contextos do marketing encontra reflexo nas actividades
de utilização das BD de marketing com vista ao suporte e definição das estratégias –
estas actividades são definidas como processos de DataBase Marketing (DBM), os quais
consideram não só as fases do BI como também prevêem a sua aplicação prática. A
viabilização de um projecto de DBM depende essencialmente de dois factores: dos dados
disponíveis e da sua exploração (suportada pelo processo de DCBD) [Shepard, 1998].
O DBM vem sendo apontado como a ferramenta que permite aos profissionais do
marketing obter a informação necessária à formulação das suas estratégias [Shepard,
1998], [Hughes, 1994], [Jackson, et al., 1997], [Drozdenko et al., 2002]. Contudo
verifica-se ainda, a falta de um processo sistematizado que explicite todas as fases e
requisitos de informação em função dos objectivos estabelecidos e que formalize os
modelos para uso posterior.
1.2 Objectivos
Tendo sido constatada a ausência de uma metodologia ou um sistema explícito para o
desenvolvimento de processos de BIS em marketing. Procura-se com este trabalho
preencher esse vazio e apresentar uma sistematização de actividades de DCBD em
actividades de BI, com uma aplicação prática na área do DBM. Esta sistematização
permitirá uma abordagem eficiente e generalizada no âmbito do desenvolvimento de
8
Capítulo 1 Introdução
projectos na área de DBM em diferentes acções de marketing, cujas características e
requisitos mais importantes, são:
ƒ
Inclusão de processos de angariação e recolha de dados com vista à criação de BD de
marketing, específicas em função dos objectivos de negócio previamente definidos;
ƒ
Função integradora das actividades de DCBD em processos de Marketing, com a
consideração de tarefas específicas para o seu desenvolvimento;
ƒ
Alinhamento de técnicas de Data Mining (DM) com as actividades de marketing;
ƒ
Desenvolvimento das acções de marketing suportadas pelo conhecimento extraído
em BD após determinação dos modelos de DM para as actividades em estudo;
ƒ
Estabelecimento de limites na utilização dos conceitos propostos na sistematização: a
aplicação de acções de DBM varia consoante os objectivos de marketing propostos
para o sistema;
ƒ
Caracterização das técnicas a utilizar em função dos objectivos de DCBD propostos.
A principal contribuição da dissertação concretiza-se por: (i) propor um sistema para o
desenvolvimento do processo de DBM que integre as técnicas de DCBD, e (ii) seguir os
passos do sistema proposto no âmbito deste trabalho, demonstrando a sua adequação
num contexto real aplicado ao sector da distribuição.
A sistematização desenvolvida foi denominada como DM4DBM (Data Mining For
Database Marketing) Este sistema é suficientemente genérico, podendo ser utilizado nas
mais diversas diferentes áreas do marketing. O estudo de caso levado a cabo situa-se no
domínio comercial (retalho), pretendendo-se aproveitar a oportunidade surgida de um
caso real e uma vez que neste domínio se pode facilmente evidenciar a sistematização
dos passos desenvolvidos e a sua aplicação prática.
9
Capítulo 1 Introdução
1.3 Organização da dissertação
A dissertação, para além deste capítulo introdutório, apresenta mais cinco capítulos e um
conjunto de anexos considerados de interesse, quer para o trabalho desenvolvido, quer
para trabalhos futuros que sobre ele possam vir a ser desenvolvidos.
1. Introdução
Revisão de Literatura
2. Business Intelligence
Database Marketing
3. Descoberta Conhecimento
em Bases de Dados
A contribuição da dissertação
4. Metodologia IUBDM
5. Aplicação prática da
metodologia IUBDM
6. Conclusões e Trabalho futuro
Figura 3 - Estrutura da dissertação
Num primeiro grupo (Figura
3), intitulado Revisão da literatura, composto pelos
capítulos 2 e 3, existe a preocupação de contextualizar o trabalho desenvolvido quer
analisando a posição dos diferentes investigadores da área quer fazendo uma exploração
tecnológica da lacuna existente no domínio da DCBD em Marketing. Considera-se que
só assim é possível atribuir valor ao trabalho presente.
No capítulo 2 é realizada uma revisão da literatura numa abordagem prática aos
conceitos de Business Intelligence e Database Marketing, referindo ambos os assuntos
numa perspectiva tecnológica.
10
Capítulo 1 Introdução
O capítulo 3 é dedicado à Descoberta de Conhecimento em Bases de Dados, onde se
faz uma exposição das diferentes definições e os métodos disponíveis, para aplicações
em marketing.
O capítulo 4 denominado como DM4DBM – Proposta de uma Metodologia para o
Desenvolvimento de Data Mining Para Database Marketing serve para a
apresentação do grande objectivo da dissertação que consiste em estruturar a utilização
de BD num contexto de Marketing. O trabalho de investigação é desenvolvido no sentido
de propor um conjunto de actividades que, de um modo sistematizado, suportem o
desenvolvimento de projectos de Database Marketing baseados na Descoberta de
Conhecimento em Bases de Dados.
Aplicação prática do sistema apresentado é concretizado no capítulo 5 com a sua
utilização na área da distribuição, com exposição de um caso de demonstração real e
discussão dos resultados obtidos.
Por último, no capítulo 6 são apresentadas as conclusões ao trabalho desenvolvido,
identificando-se as principais contribuições para as áreas das Tecnologias e Sistemas de
Informação, nomeadamente no âmbito da utilização Descoberta de Conhecimento em
Bases de Dados de marketing, sendo lançadas linhas orientadoras para o trabalho a
desenvolver no futuro
11
Capítulo 1 Introdução
.
12
Capítulo 2 Business Intelligence e Database Marketing
Capítulo 2
2
Business Intelligence e Database Marketing
É realizada uma apresentação dos conceitos fundamentais
sobre Business Intelligence e Database Marketing, bem
como dos conceitos gerais e enquadramento destas
disciplinas em actividades de Marketing.
2.1 Business Intelligence
As alterações que continuamente surgem nos mercados, forçam as organizações a operar
quase por completo em situações novas e por vezes desconhecidas. O processo de
decisão considera-se portanto um acto de gestão cujo suporte se encontra cada vez mais
dependente das Tecnologias de Informação(TI) [Turban et al., 2001].
Encontramo-nos num período denominado por alguns como “a era da informação”. A
competitividade entre empresas é maior do que nunca, os consumidores são mais
exigentes e os produtos mais variados, complexos e com ciclos de vida mais curtos
[Kotler, 2002]. A abordagem à realidade social é assim muito complexa e profunda, pelo
que apenas com a ajuda dos meios tecnológicos se pode ambicionar reter e tratar os
dados relativos aos mercados e seus actores [Stone et al., 2004]. Business Intelligence
Systems (BIS) define-se, como um sistema que viabiliza a tomada de decisão e integra
actividades Business Intelligence (BI). BI assume-se neste contexto como um conjunto
13
Capítulo 2 Business Intelligence e Database Marketing
de ferramentas que viabilizam a obtenção, análise e manutenção de dados, que
possibilitam obter a informação adequada, para a pessoa ideal, no tempo certo [Negash et
al., 2003], [Moss et al., 2003] [Stone et al., 2004] e [Adelman et al., 2002]. Aproveitar as
funcionalidades e conhecimentos que o BI proporciona é não somente um factor de
sucesso, mas essencialmente um factor de sobrevivência. Na vertente dos gestores, a
actividade de BI permite-lhes a tomada de decisão suportada por um conhecimento eficaz
da organização e do seu meio envolvente [Jackson, et al., 1997].
2.1.1 Definição
O termo de Business Intelligence (BIS) pode ser referido como sendo abrangente, uma
vez que engloba um leque variado de software analítico e soluções para recolha,
consolidação, análise e acesso a informação permitindo ao gestor tomar decisões
fundamentadas
[Adelman et al., 2002]. Nesta designação inclui-se também todo o
software para extracção, transformação e povoamento de DataWarehouses6 (DW) [Hall,
1999], Processamento On-Line dos Dados (OLAP), análise de dados, Data Mining
(DM) e visualização [Berson et al., 2001].
Outros autores apontam diferentes definições para BI em diferentes áreas de aplicação.
Para alguns investigadores na área do CRM7 (Customer Relationship Management), BI
consiste simplesmente na integração das aplicações de Frontoffice8 com as aplicações
mais operativas dos sistemas em Backoffice9. No domínio dos DW, alguns autores
6
O termo Datawarehouse serve para referir o repositório central (Armazém de Dados) onde se guardam todos os dados considerados
relevantes para a organização.
7
A estratégia do CRM consiste em adquirir melhor conhecimento sobre os clientes, antecipar as suas expectativas e necessidades,
fornecer serviços personalizados, e diferenciar-se dos concorrentes [Bretzke, 2005]. Através de uma melhor compreensão das
necessidades dos clientes, é possível realizar a segmentação do mercado, identificando onde podem ser construídas relações lucrativas
permanentes [Linoff et al., 2000]. A principal premissa do CRM é de que os clientes tomarão as suas decisões de compra baseadas no
relacionamento que têm com os seus fornecedores, e que em troca da sua preferência desejam reconhecimento, valor, qualidade e
respeito. O objectivo é portanto, reconhecer, atender e fidelizar o cliente em tempo útil
8
Entende-se por frontoffice as aplicações informáticas que permitem a interacção entre o sistema de informação e o utilizador.
9
Os sistemas de backoffice são referidos no texto como o conjunto dos sistemas informáticos que suportam todo o sistema de
informação de uma empresa.
14
Capítulo 2 Business Intelligence e Database Marketing
encaram BI como apenas mais um termo para DW, ou seja, novas aplicações de suporte à
decisão em novas plataformas tecnológicas suportadas nos dados armazenados [Moss et
al., 2003].
Numa perspectiva organizacional, salientam-se ainda contribuições que indicam o BI
como utilizador da informação que diz respeito ao ambiente do negócio onde a
organização opera. Quando desenvolvido, o BI permite à empresa sustentar a tomada de
decisões, conferindo-lhe vantagem competitiva [Prior, 1998]. A Society of Competitive
Intelligence Professionals coloca BI entre a Inteligência Competitiva (Competitive
Intelligence10) e a Gestão do Conhecimento, abordando BI como uma combinação de
dados, informação e conhecimento acerca do ambiente de negócio, capaz de conferir uma
significativa vantagem competitiva ou facilitar as decisões a tomar [Arnett et al., 2000].
Outros autores apontam BI como um método organizado e sistemático para a recolha de
informação sobre o mundo envolvente, funcionando como indicador de alerta para as
organizações se anteciparem e adaptarem para as mudanças das condições dos mercados
(tecnologias emergentes, nova regulamentação, mercado) [O´Guin et al., 2001] [Moss et
al., 2003].
Em síntese, é possível definir BI como uma actividade de BIS que combina actividades
de recolha,
armazenamento de dados (e.g., DW ou OPLAP) e extracção de
conhecimento (e.g., DM), tornando a organização mais competitiva. Como ilustração
descritiva de BIS, num sistema ideal, todos os funcionários teriam no monitor do seu
computador, a informação de que necessitam, em tempo real (relativa aos mercados, aos
consumidores, aos produtos ou mesmo financeira), de modo a poderem analisar, partilhar
com outros utilizadores e tomar as decisões necessárias.
10
Competitive intelligence desenvolve-se na tecnologia. As actividades neste campo incluem a recolha e análise de informação do
mercado e capacidades e vulnerabilidades dos concorrentes no mercado.” [Johnson, 1998]
15
Capítulo 2 Business Intelligence e Database Marketing
2.1.2 Aplicações organizacionais de BI
As aplicações de BIS são vastas [Adelman et al., 2002] e têm aplicação em diferentes
níveis da estrutura organizativa [O´Guin et al., 2001]. Segundo a Society of Competitive
Intelligence Professionals, o envolvimento nas operações de BIS permite à organização
[Arnett et al., 2000]:
ƒ
Antecipar e gerir o risco, analisando as potenciais evoluções que se vão verificar no
meio envolvente, através duma análise criativa dos pontos fortes e fracos do ambiente
económico, extraindo assim potenciais ameaças e minimizando os potenciais riscos,
ligados à incerteza;
ƒ
Organizar as informações dispersas, extraindo somente as que possam ser relevantes
para a empresa, e construir cenários para ajudar os gestores na tomada das decisões;
ƒ
Inovar pela detecção de oportunidades e de novos mercados, analisando de forma
criativa os dados recolhidos durante a pesquisa e que se tenham tornado pertinentes
para a organização;
ƒ
Agir oportunamente face aos concorrentes, conhecer o mercado, analisando quais as
potencialidades de crescimento, quais os produtos que mais se adaptem às
necessidades dos clientes;
ƒ
Posicionar-se
estrategicamente
no
mercado
adquirindo
um
conhecimento
aprofundado do meio envolvente à organização. É necessário conhecer bem os
actores em todas as suas dimensões: nível de competitividade, o número de
concorrentes e respectiva quota de mercado, capacidade financeira, produtos
concorrentes, procedimentos, tecnologia de que dispõem, e, se possível, estratégia. É
viável deste modo explorar as fraquezas dos concorrentes, através do seu
acompanhamento contínuo;
16
Capítulo 2 Business Intelligence e Database Marketing
ƒ
Criação de BD com toda a informação relativa à actividade interna e externa da
organização, relativo a concorrentes, a histórico de acções e resultados anteriores;
ƒ
Antecipar as mudanças nos mercados assegurando as informações relevantes sobre as
mudanças em curso e determinar sobre elas, quais representam ameaças ou
oportunidades.
Em resumo, as organizações onde se desenvolvem e aplicam as actividades BI,
beneficiam de um sistema capaz de as integrar no meio envolvente onde operam
(processos de auscultação e recolha de informações do exterior) e
antecipar o
comportamento dos mercados permitindo a adopção de estratégias competitivas
(processos de detecção de oportunidades e análise de concorrência).
2.1.3 Formalização da actividade Business Intelligence
A finalidade do processo de BI define a necessidade de um enquadramento organizativo,
seja numa perspectiva interna (compreensão da própria estrutura) seja numa lógica de
meio envolvente da organização (reacção à mudança de factores externos). A
formalização de um plano para o desenvolvimento de um projecto de BI vai desde a
monitorização do meio envolvente, passando pelo levantamento de necessidades de
actuação até ao processo de análise de dados e extracção de informação. Num modo
sistematizado é possível definir como fases formais do plano de BI as seguintes [O´Guin
et al., 2001]:
ƒ
Monitorização do meio envolvente - Avaliação e análise do meio envolvente da
organização, por recurso a vectores de informação11, em termos operacionais ou
estratégicos;
11
Podem-se definir como vectores de informação as estruturas funcionais de dados, com a finalidade de registo de informação que
funcionam como indicadores (e.g., evolução da concorrência ou aparecimento de novos produtos no mercado).
17
Capítulo 2 Business Intelligence e Database Marketing
ƒ
Detecção e avaliação de desvios - A monitorização do meio envolvente permite
detectar eventuais diferenças entre a observação recolhida e a esperada;
ƒ
Avaliação do problema e ponderação de questões específicas - Uma vez evidenciados
os novos factos, o analista deverá averiguar quais são as informações que necessário
recolher (directamente do meio envolvente ou a partir das bases dados próprias),
equacionar as questões e necessidade de respostas. Operacionalmente, esta fase
consiste em definir exactamente que informação é necessário recolher para tomar
uma acção decisiva;
ƒ
Formulação de cenários - Para cada questão problemática específica deverá ser
desenvolvido um conjunto de hipóteses alternativas de acordo com a observação do
meio envolvente bem como avaliar eventuais reacções do mercado, como e.g., os
sinais emitidos pelos clientes e concorrentes retractam as suas intenções
relativamente à organização, aos seus produtos ou serviços;
ƒ
Identificar focos de interesse e promover interacção - Para cada tipo de problema,
existe um conjunto de entidades que intervêm de modo diverso, seja pela sua
actividade seja pela sua importância. Estas entidades deverão então estar sob análise
devendo-se fomentar o intercâmbio de informações e registar os resultados dessa
interactividade;
ƒ
Recolha de informação - Existem três factos que se devem ter em linha de conta:
pertinência das observações registadas em função das hipóteses;(1) não podem ser
contraditórias, (2) e podem introduzir novas possibilidades, ou, (3) sugerir novas
hipóteses;
ƒ
Desenvolvimento tecnológico de BI - Uma vez recolhida a informação necessária, é
possível desencadear o estudo e análise dos dados em função de cada Fórmulação
inicialmente estabelecida.
18
Capítulo 2 Business Intelligence e Database Marketing
A formalização do plano não assegura o sucesso do BI, é necessário que a execução das
etapas consideradas sejam estruturadas e coordenadas por órgãos com capacidade de
avaliar e auditar a sua execução.
2.1.4 Suporte tecnológico de BI
O desenvolvimento do processo tecnológico de BI encerra duas fases interdependentes
entre si mas distintas (Figur 4): a primeira consiste na recolha e angariação e de dados
(constituição de um DW); a segunda fase engloba um conjunto de procedimentos com os
quais se exploram e analisam os dados disponíveis, alcançando informações relevantes,
as quais, irão suportar o processo de tomada de decisão. A sistematização de ambas as
fases encontra-se representada na Figura 4, onde se evidenciam os passos e as actividades
desenvolvidas numa filosofia de BI como suporte à decisão.
Dados Internos
Dados
Externos
Datawarehouse
Analise
Descoberta
Conhecimento Bases
Dados
Dados
Modelação
Figura 4 – Suporte tecnológico da actividade de Business Intelligence
Recolha de dados e Datawarehousing
O sucesso do BI depende directamente dos dados disponíveis e sobre os quais se irá
desenvolver. Estes dados podem entre outros aspectos podem ter naturezas distintas:
19
Capítulo 2 Business Intelligence e Database Marketing
internos (dados da própria organização, dados de clientes, fornecedores, acções
promocionais, registo de vendas, etc..) ou externos (aluguer de Bases de Dados - BD,
realização de programas conjuntos, etc...). A recolha de dados depende de um conjunto
de aspectos que condicionam disponibilidade e qualidade dos mesmos.
Datawarehousing
A prática de datawarehousing engloba todas as actividades (e.g., pesquisa, selecção e
importação dados) relacionadas com a recolha e angariação de dados com vista à criação
do repositório central. Um DW consiste então num armazém de dados consolidados,
optimizados para relatórios e análises [Inmon, 2003]. Os dados e as informações
agregadas num DW são extraídos das suas origens (internas e externas) com o objectivo
de fornecer respostas a questões provenientes de diferentes níveis da organização em
qualquer momento [Stegwee et al., 2002]. A sua actualização deve ser constante e
completa, pois a tendência é para a desactualização da informação com o passar do
tempo, prevenindo-se assim, erros estratégicos [Dataflux, 2005]. Recorrendo a uma
definição mais formal, considera-se um DW como uma BD para o apoio ao processo de
tomada de decisão, na qual os dados possuem as seguintes características [Inmon, 1996]:
ƒ
Orientados, por tópicos, por departamentos ou outras funções organizacionais;
ƒ
Íntegros, os dados, embora provenientes de sistemas ou plataformas heterogéneas são
registados de um modo padronizado, sem duplicação. Neste pressuposto, permite
inclusive, a integração de dados externos à organização;
ƒ
Constantes, Os dados num DW possuem um horizonte temporal mais alargado não
sendo actualizados com a frequência dos dados e.g., operacionais em modo on-line;
ƒ
Não voláteis, existem apenas duas acções permitidas num DW, carregamento ou
consulta.
20
Capítulo 2 Business Intelligence e Database Marketing
Em síntese é possível indicar como a maior virtude de DW a sua orientação à utilização
dos dados de um modo simplificado, auxiliando, e.g., o apoio à tomada de decisão.
Análise e processamento de dados
Uma das vertentes da aplicação do BI consiste na disponibilização de informação com
vista ao apoio à tomada de decisão [Prior, 1998], [O´Guin et al., 2001] e [Arnett et al.,
2000]. A necessidade da já referida informação pertinente, actual e diversa coloca a
DCBD como a solução mais adequada para uma satisfação deste requisito. O processo
para a DCBD é actualmente aceite como sendo um “processo não trivial de identificação
de padrões presentes nos dados, novos, válidos, potencialmente úteis e compreensíveis”
[Fayyad et al., 1996] e é descrito em detalhe no capítulo seguinte.
2.1.5 Sistemas de Apoio à Decisão
Os Sistemas de Apoio à Decisão (SAD) são sistemas que possibilitam aos gestores a
sustentação do processo de tomada de decisão com base num conjunto de tarefas que vão
desde a recolha de dados, passando pela sua organização e extracção de conhecimento
[Turban et al., 2001]. Outros autores definem SAD como sistemas informáticos
interactivos, com as características genéricas como sejam: grau de incerteza;
complexidade (do problema a resolver); existência de múltiplos objectivos e, diferentes
perspectivas de resolução [Santos, 2001].
Numa perspectiva tecnológica, existem referências a SAD como sistemas de informação
com capacidade de modelagem científica, dotados de ferramentas para manipulação e de
análise de dados, configurados para responder a processos de tomada de decisão sobre
problemas complexos ou mal estruturados [Bonczek et al., 1980]. Os objectivos gerais
consistem em melhorar a eficácia das decisões e a eficiência do processo de tomada de
decisão, quer a nível de planeamento, como ao nível da gestão de topo num processo
21
Capítulo 2 Business Intelligence e Database Marketing
conhecido por “desenho adaptativo”, em que os elementos chave são: o sistema, o
utilizador e a organização (o gestor – utilizador- recorre ao SAD para poder dar
continuidade à actividade da organização) [Keen, 1987].
Resumidamente é possível definir os SAD como sistemas de suporte à actividade dos
gestores das organizações, onde a sua capacidade decisória é fundamentada na utilização
das tecnologias de informação - as quais sistematizam a recolha de dados, sua análise e
extracção de conhecimento, traduzido em linguagem interpretável para o utilizador.
A constatação demonstrada nas relações existentes entre actividade dos gestores,
tecnologias de informação e tomada de decisão permite neste trabalho indicar a utilização
de BI como suporte ao desenvolvimento de SAD. Conforme já exposto anteriormente, o
desenvolvimento de um processo de BI faz sentido se este decorrer num contexto
organizativo; noutra vertente, os SAD apenas funcionam eficazmente se em seu suporte
existir um sistema tecnológico capaz de receber como input as questões dos gestores e
dar como output, resultados sob a forma de regras ou classificações (Figura 5).
BUSINESS INTELLIGENCE
Descoberta
Conhecimento
Base Dados
Recolha
Dados
Declaração
De
Necessidade
Dados Internos
Análise Dados
Dados Externos
Pré
Processamento
Problema
do
Negócio
Definição
Actividades
Valor de
negócio
datawarehouse
Modelação
Organização
Análise
estrutura
Avaliação
Tomada
Decisão
Figura 5 - Business Intelligence em Sistemas de Apoio à Decisão (adaptado de [Haley, 1998]).
22
Capítulo 2 Business Intelligence e Database Marketing
Uma vez declarada a necessidade de fundamentar e suportar uma decisão a tomar pelos
gestores da organização, as etapas de desenvolvimento um SAD com recurso a BI são as
seguintes [Haley, 1998]:
ƒ
Definição do problema do negócio: Determinada empresa necessita de resolver um
problema ou tomar uma decisão com elevado grau de risco (ex. remodelação de um
produto). Os responsáveis que detêm o poder de decisão dentro da empresa deverão
reunir-se e debater o tema intensivamente para definir de forma objectiva e não
intuitiva quais as informações que se pretendem retirarem da base de dados para
possibilitar a sua leitura e análise;
ƒ
Definição de actividades: A especificação das actividades, como sejam, a locação de
recursos ou a disponibilização de dados, depende da estratégia adoptada, a qual neste
trabalho se é orientada para a utilização de BD;
ƒ
Business Intelligence: Traduz a necessidade de manipular e interpretar grandes
volumes de dados capazes de fornecer soluções múltiplas para cenários diversos.
Neste domínio o BI incorpora todas as actividades que vão desde a recolha e
angariação de dados até à sua utilização em acções de DCBD;
ƒ
Tomada de Decisão: A assunção do processo de recolha, análise e processamento da
informação disponível, traduz-se na tomada de decisão por parte do gestor, segundo
os resultados obtidos no final das actividades de BI;
ƒ
Valor de Negócio: A contabilização dos resultados obtidos face aos esperados ou a
avaliação do impacto das soluções adoptadas. Esta avaliação servirá de matéria prima
para uma análise contínua em termos de BI. Trata-se de um processo que se deseja
vicioso, sempre que um problema ou oportunidade surja, dado permitir às
organizações criar um historial de informações, conhecimento e experiência que se
poderá transformar em vantagens competitivas.
23
Capítulo 2 Business Intelligence e Database Marketing
A integração das actividades de BI em sistemas de apoio à decisão dependem sempre da
Fórmulação inicial que derivam quer do problema de negócio quer da definição de
actividades propostas, tornando o resultado das actividades BI directamente dependentes
destes requisitos
2.2 Da tabase Marketing
O elevado grau tecnológico ao dispor das organizações, promoveu o aparecimento de
enormes bases de Dados (BD) com grandes quantidades de dados, transaccionais ou
meramente descritivos de clientes ou fornecedores. Muitas das organizações perceberam
a pertinência dos dados muito para além do mero suporte a sistemas contabilísticos ou
financeiros, compreenderam que o conhecimento presente nas suas bases dados é a chave
para o suporte à tomada de decisão, em particular no âmbito de marketing [Welge et al.,
2001]. O foco nas BD organizacionais passou da simples angariação dos dados, para a
sua utilização e rentabilização, através de processos baseados nas tecnologias de bases
dados, como é o caso do Database Marketing (DBM)
A adopção de projectos de DBM tem apresentado uma crescente adesão por parte das
empresas, na medida em que necessitam de conhecer melhor os seus clientes (cada vez
mais voláteis e exigentes), para assim se diferenciarem dos seus concorrentes
(crescentemente competitivos), bem como adoptar uma atitude pró-activa e posição mais
competitiva no mercado, oferecendo produtos e serviços aos clientes, que necessitam e
desejam.
24
Capítulo 2 Business Intelligence e Database Marketing
2.2.1 Definição de Database Marketing
Na revisão de literatura efectuada verificam-se diferentes contribuições de diferentes
autores. Cada autor aborda o DBM numa perspectiva diferente, pelo que é possível
também estabelecer um carácter evolutivo na definição do conceito, que coincide com a
evolução cronológica das mesmas.
Alguns sugerem que é o estabelecimento de uma BD de clientes e prospects12 que
permite às organizações enviar mensagens diferenciadas para cada um dos indivíduos
registados baseadas nas suas características e preferências e acompanhar a actividade de
cada um deles durante a sua relação com a organização [Wolf et al., 1999]. Por outro
lado, existem outros que consideram DBM como um modo de utilizar as informações
sobre os consumidores, com a finalidade de aumentar a eficiência das actividades de
marketing, através do isolamento de grupos de consumidores (segmentação), a análise
dos seus perfis [Cooke, 1994] e [Roberts, 1997]. O DBM consiste também no
armazenamento utilização do conhecimento sobre clientes para o benefício deles e lucro
da organização [Berson et al. 2001], [Schoenbachler, 1997],
pois viabiliza o
desenvolvendo técnicas de marketing que permitem prolongar a relação o cliente e
estimular as vendas [Jutkins, 1994].
A orientação do processo voltado para o cliente, baseado nas BD, é utilizado
correntemente para interligar e orientar os esforços de marketing, assim como para
construir uma base completa de informações, de modo a orientar futuros projectos
[Jackson, 1997]. A estratégia de utilizar as tecnologias de informação com vista à
manutenção de informação detalhada dos consumidores, permite aos marketers
diferenciar e desenvolver de acções de marketing directo personalizadas [Drozdenko et
al., 2002], [Wiersema et al., 1993]. Como resultado da prática de DBM é possível o
planeamento da comunicação com todos os clientes, durante um período de tempo
12
Prospect – Individuo não-consumidor de um determinado produto ou serviço que tem potencial de vir tornar-se num consumidor,
se devidamente motivado. Indivíduos consumidores de produtos concorrentes idênticos aos da empresa [Kotler, 2002]
25
Capítulo 2 Business Intelligence e Database Marketing
suficiente para promoção da repetição da compra de determinados produtos e serviços
[Roberts, 1997]. As informações relativas à actividade dos clientes (quer transaccionais,
quer descritivas) recolhidas durante a relação cliente – organização são analisadas com
técnicas de DBM e o conjunto resulta em informações sobre os clientes [Berson et al.
2001], [Drozdenko et al., 2002].
Em comum, todas as definições apresentadas acima dão ênfase ao facto de o DBM referir
as tecnologias de BD para suporte às actividades de marketing através da procura de
informações existentes nos dados. Em síntese, é possível afirmar então que o DBM
consiste num conjunto de processos que se baseiam num sistema que engloba BD
(clientes e prospects) e recursos tecnológicos para análise e exploração desses dados –
DCBD -, permitindo conhecer e prever o comportamentos dos clientes.
2.2.2 Estrutura do Database Marketing
O DBM assume-se como um processo de natureza analítica e operativa (Figura 6)
[Siqueira et al., 2002].
A componente operativa caracteriza-se pelo seu carácter
pragmático, considerando como actividades todas aquelas que traduzem o resultado final
do processo. A componente analítica caracteriza-se pela sua função de análise
consistindo em acções com vista à preparação de todas as componentes susceptíveis de
estudo (e.g., dados de clientes, mercados), de modo a viabilizar a análise das
características dos consumidores (e.g., comportamentos e condutas), permitindo
planificar e executar as actividades ao nível operacional.
A organização das actividades de carácter operacional e analítico, ao longo de todo o
processo de DBM, obriga à sua implementação em programas distintos, contudo, com
interfaces nítidas, objectivos especiais e actividades (e.g., de marketing directo)
adequadas – programas de fidelização e recuperação [Arndt, 2001]. Por exemplo, os
clientes com uma elevada probabilidade de deixarem de o ser, podem ser detectados no
26
Capítulo 2 Business Intelligence e Database Marketing
programa de fidelização, se existir uma BD sobre outros que já abandonaram a
organização. Em ambas as vertentes, o objectivo do DBM consiste em fornecer toda a
informação necessária para criar um canal de diálogo cruzado, feito à medida de cada
cliente e baseado nas suas reacções actuais.
DBM
Analítico
Operacional
Figura 6- Constituição do DBM [adaptado de [Siqueira et al., 2002]).
2.2.2.1
Componente Operativa do DBM
A natureza operativa do DBM coincide com os objectivos traçados pela estratégia de
marketing no qual se insere o seu desenvolvimento
Entre os objectivos da componente operativa do DBM é possível distinguir os
relacionados com programas singulares (objectivos de marketing) e os que implicam a
sobreposição de objectivos (objectivos de negócio) [Fayerman, 2002]:
ƒ
Objectivos de Negócio: O alinhamento da estratégia da organização reflecte-se nas
suas actividades e na sua actuação no mercado onde se insere. Os projectos
desenvolvidos no âmbito do marketing, onde normalmente se inserem os projectos de
DBM, orientam-se por objectivos de negócio que podem ser [Wright, 1998]:
- Aumentar as vendas;
- Optimizar recursos;
- Performance da organização;
27
Capítulo 2 Business Intelligence e Database Marketing
ƒ
Objectivos de marketing: Em qualquer organização o departamento de marketing
procura constantemente meios de aumentar o seu conhecimento acerca dos
consumidores de um modo individual, com o objectivo de formar novos segmentos
estratégicos, de clientes. Esta segmentação, utilizada geralmente para fins de
marketing, permitirá não só o desenvolvimento de novas promoções ou campanhas
direccionadas como também actualizar a informação disponível para os serviços de
apoio a clientes. O DBM na sua componente operativa permite o suporte a
actividades de marketing tais como:
- Marketing Directo;
- Segmentação de mercados;
- Classificação de clientes;
- Estabelecimento de relacionamento com o consumidor
Os objectivos de negócio definem o alinhamento dos objectivos de marketing, sendo
estes muitas vezes vistos como um meio para a seguir para alcance dos outros.
2.2.2.2
Componente Analítica do DBM
A natureza analítica engloba todo os requisitos de carácter mais técnico que vão desde a
acções com vista à recolha integração de dados num repositório central até à sua
utilização em diferentes técnicas de análise e exploração. O fluxo de informação
proveniente da componente operativa é considerado também ao nível analítico, dado
possibilitar a consolidação da informação sobre, e.g., o padrão de comportamento do
consumidor que se pretende determinar.
28
Capítulo 2 Business Intelligence e Database Marketing
O objectivo da componente analítica é desenvolver uma visão estruturada do
consumidor, em função do objectivo traçado. A falha desta componente compromete
definitivamente todo o processo de DBM [Fayerman, 2002]. de DBM em função dos
processos analíticos
Estruturalmente a componente analítica do DBM processa-se a três níveis [Drozdenko et
al., 2002]:
i) Recolha, preparação e uniformização dos dados
Os dados podem ser de naturezas distintas (e.g., dados de marketing ou contabilisticos),
fornecidos por sistemas próprios ou externos, ou mesmo serem recolhidos em suportes
variados (e.g., digitais ou papel) . Uma vez na posse dos dados é necessário proceder-se à
sua preparação e uniformização, aplicando técnicas uniformização dos registos (e.g.,
aplicação de regras de codificação) ou a limpeza de registos duplicados (o mesmo registo
pode estar em locais diversos) ou ainda a validação de domínios dos atributos (e.g. o
atributo sexo apenas com 2 valores possíveis).
ii) Aplicação de técnicas de previsão ou segmentação
As BD permitem aos profissionais de marketing uma utilização directa no planeamento e
no suporte das campanhas, sendo a sua utilização enquadrada com os objectivos a atingir.
No planeamento das campanhas importa definir com a maior precisão possível as taxas
de retorno, recorrendo para isso as técnicas de regressão linear simples ou múltipla.
Quando, noutras situações, o objectivo é suportar as acções de marketing a desenvolver,
recorre-se a técnicas de segmentação das BD como sejam análise univariada dos dados,
análise RFM; análise CHAID ou, análise factorial (clustering).
encontram-se expostas em seguida.
29
Estas técnicas
Capítulo 2 Business Intelligence e Database Marketing
Regressão linear Simples: a análise de regressão é usada para prever o valor da variável
dependente ou explicada (Y), tendo em conta o valor de uma ou várias variáveis
independentes ou explicativas (X), a partir de exemplos. Funcionalmente, caracteriza-se
pela atribuição de um peso relativo a cada variável (e.g., valor numérico), permitindo
valorizar cada registo, em função do seu conteúdo e relativizá-lo face aos outros, através
dos coeficientes de regressão α e β. Perante n casos com sob a forma de (x1, y1), (x2,
y2)…(xn, yn) onde xi Є X e yi Є Y a equação da regressão linear pode ser expressa sob a
forma:
Y= α + β. X
(Fórmula 1)
Regressão linear Múltipla : No modelo de regressão simples o comportamento de uma
única variável independente é usado para explicar o comportamento da variável
dependente, revelando-se insuficiente para os casos onde
a variável dependente é
influenciada por várias variáveis independentes. Como exemplo, as vendas de um
determinado produto dependem não só da quantidade de pontos de venda, como também
do preço, ou do nº de vendedores. Quando se passa de um modelo com várias variáveis
explicativas para um modelo estatístico linear, obtém-se o modelo de regressão múltipla,
onde o objectivo consiste em calcular o valor esperado da variável independente
condicionado no valor das variáveis explicativas.
Admitindo a existência k variáveis explicativas, o modelo de regressão da múltipla na
população será:
Yi= α + β1x1i + β2x2i +…+ βkxki + εi
(Fórmula 2)
onde o índice i diz respeito à observação i. A interpretação dos parâmetros α, β1, β2,…, e
βk é semelhante à dos parâmetros no modelo de regressão linear simples, ou seja, são os
coeficientes de regressão. O parâmetro α indica-nos o valor esperado da variável
explicada quando as variáveis explicativas são todas iguais a zero (x1 = 0, x2 = 0, …, xk =
0). O εi representa os erros da regressão para cada um dos n casos considerados.
30
Capítulo 2 Business Intelligence e Database Marketing
Análise RFM: Esta análise utiliza um algoritmo de análise baseado no comportamento
do consumidor, descrito pelos parâmetros: o aspecto Recente de encomendas/compras; a
Frequência de encomendas/compras e o valor Monetário dos seus gastos. A segmentação
RFM pode ser desenvolvida por dois métodos [Hughes, 1995]
ƒ
Hard coding: consiste na criação de um sistema de pontuação para cada registo
individual. A pontuação obtida é baseada no valor RFM atribuído em cada registo
(consumidor). Os registos com maior pontuação, corresponderão aqueles
consumidores mais desejados, e pelo contrário, os menos pontuados, correspondem
aos consumidores menos activos.
ƒ
Sort five: Consiste na partição da BD, em cinco partes iguais por cada um dos valores
RFM, da compra mais antiga para a compra mais recente; do frequência mais baixa
para o valor de frequência mais elevado e do menor valor de consumo para o maior
valor. Os consumidores com maior nível de frequência, valor de consumo mais
elevado e compra mais recente, serão os mais desejados os consumidores opostos
serão os menos desejados.
Análise CHAID: A análise CHAID (abreviatura de Chi-square Automatic Interaction
Detector) serve fundamentalmente para testar se as segmentações operadas são
estatisticamente significantes, e.g., se estes segmentos maximizam a separação dos
consumidores em função do seu potencial. O resultado final de uma análise chi-quadrado
consiste basicamente num gráfico radar (“aranha”) ou num diagrama em árvore.
Análise Factorial e Clustering: A análise factorial, como técnica estatística que permite
isolar e medir o significado de factores individuais em situações complexas, e a análise
de clusters que pesquisa a existência de grupos naturais de indivíduos ou de variáveis,
são modelos de natureza exploratória, sendo por isso comum o uso de ambas as técnicas
em simultâneo.
31
Capítulo 2 Business Intelligence e Database Marketing
A análise factorial caracteriza-se como um procedimento que analisa um grande número
de variáveis ou objectos e verifica se existem factores comuns (em menor número) que
justifiquem as suas inter-relações.
A análise por clusters consiste num conjunto de metodologias cujo objectivo é a
classificação automática de exemplos num determinado número de grupos, recorrendo a
medidas de associação de modo a que os casos de um grupo sejam similares e os
restantes, não pertencentes a esse grupo, sejam diferentes. A aplicação da análise de
clusters não pressupõe qualquer característica da estrutura do agrupamento; apenas se
baseia em medidas de semelhança ou de distância entre objectos e na escolha de critérios
de agregação, os quais podem ser: o critério do vizinho mais próximo (single linkage), o
critério do vizinho mais afastado (complete linkage), o critério da média dos grupos
(average linkage), o critério do centróide e o critério de Ward (comparação entre a soma
dos quadrados dos desvios das observações em relação à média dos grupos).
iii) Avaliação dos resultados obtidos:
Os modelos de marketing num contexto de DBM são avaliados com base em métodos já
definidos como sejam, modelos de análise do Ciclo de Vida do Cliente (CVC), execução
de gráficos de resposta, determinação de ganhos e ainda estatísticas de contagem de
clientes chave ou de vitalidade de clientes.
Na Tabela 1 apresentam-se algumas aplicações de DBM em função da sua capacidade
analítica, sendo possível constatar cinco de aplicação tradicional dos resultados de DBM
em Marketing: Mapas resumo de dados; previsão de resultados; gestão de acções de
marketing directo; suporte à decisão e segmentação de clientes. Para cada um dos
resultados que se desejam, existem um conjunto de técnicas analíticas que permitem a
sua concretização.
32
Capítulo 2 Business Intelligence e Database Marketing
Tabela 1- Resultados de actividades de DBM em Marketing
Actividades analíticas de DBM
Agregação de dados, derivação de informação e
interrogação às fontes de dados
Processamento em tempo real
Criação de modelos de resposta
Identificação de situações de cross-sell e up-sell
Avaliação de consumidores
Técnicas de visualização de dados
Análise de dependências para utilizadores
Validação de resultados
Análise de respostas a contactos
Balanceamento entre restrições e frequência de
contactos com os consumidores
Criação, teste e gestão de estratégias de interacção
Teste e segmentação, por custos, de modelos de
resposta dos consumidores
Segmentação dos dados por características dos
consumidores com sejam e.g., o sexo ou idade
Optimização das ofertas
Aplicações em Marketing
Acesso e manipulação dos dados em diferentes
fontes – mapas resumo dos dados
Previsão de resultados
Análise e avaliação ad-hoc da informação
Suporte à decisão em Marketing
Gestão de acções marketing directo
Segmentação de Clientes
Optimização das acções de marketing
A análise da Tabela 1 evidencia uma constatação comum entre as actividades analíticas
de DBM e as aplicações que estas possuem em Marketing: as actividades de DBM em
marketing derivam de um conjunto de hipóteses Fórmuladas à partida pelo analista,
sendo todo o trabalho de exploração e análise de dados realizado de acordo com
resultados que se pensam obter logo à priori. Este facto, como já foi referido e tal como
se poderá verificar mais adiante, torna-se limitador das possibilidades de utilização das
BD em marketing.
2.2.3 Catalisadores e Obstáculos do Database Marketing
Em situações de dificuldades económicas, são frequentes os cortes nos investimentos
realizados em marketing, pelo que a eficácia das suas acções de marketing desenvolvidas
estão sempre sob pressão. Por outro lado, a necessidade do aumento da referida eficácia
funciona como alavanca para o recurso ao desenvolvimento de acções de DBM,
permitindo às empresas conhecer melhor os seus clientes e oferecer-lhes numa base
33
Capítulo 2 Business Intelligence e Database Marketing
individual cada produto/serviço adaptado às suas exigências, preferências e necessidades
[Gonçalves et al., 2002].
Os factores que contribuem para a adopção de processos de DBM organizam-se em
quatro factores [Fletcher et al.,1996]: as alterações no papel do marketing directo, a
mudança nos custos estruturais, a evolução da tecnologia e as variações das condições
económicas.
ƒ
No que respeita à mudança do papel do marketing directo, este apresenta quatro
factores que demonstram essa mudança: a iniciativa de uma relação de marketing
para garantir vantagens competitivas [Drozdenko et al., 2002]; o declínio efectivo dos
media tradicionais; o congestionamento dos canais de vendas; e a necessidade de se
contabilizarem as acções de marketing;
ƒ
Relativo à alteração dos custos estruturais nas actividades de marketing surgem pelo
declínio dos custos em processamento electrónico e ao aumento dos custos de
marketing tradicional, como seja a evolução dos custos de produção de material de
comunicação publicitária;
ƒ
A evolução da tecnologia potenciou o registo em BD, de toda a informação relativa à
relação com o cliente, permitindo acesso a informações importantes para a
compreensão do comportamento dos consumidores [Piatetsky-Shapiro et al., 2000];
ƒ
Quanto às mudanças nas condições económicas, esta reflectem-se na fragmentação
do consumidor e dos mercados de negócio, à redução do tempo de lazer das pessoas,
ao crescimento da informação disponível na sociedade, e à redução do ciclo de vida
do produto. Este cenário introduz alterações profundas nas variáveis de marketing e
para tratamento das quais é necessário recorrer com maior frequência às tecnologias
de informação;
34
Capítulo 2 Business Intelligence e Database Marketing
Numa outra vertente, os obstáculos ao desenvolvimento do DBM, estes classificam-se
em quatro classes [Fletcher et al.,1996]: pela sua origem; carácter técnico; âmbito de
marketing e estratégia.
ƒ
A origem dos obstáculos pode ser de natureza interna ou externa. Os obstáculos
internos relacionam-se com a cultura interna das organizações e os recursos
existentes, que impedem a implementação do DBM. Relativamente à cultura interna
das organizações, os factores que limitam a realização de DBM são: a falta de
realização de objectivos e desconhecimento dos benefícios [Fletcher et al.,1996]; a
falta de cooperação e compromisso entre departamentos da mesma empresa [Hughes,
1995]; [Haynes et al. 1992]; a estrutura organizacional e a resistência à mudança
[Glazer et al. 1994]; Quanto aos recursos, destacam-se os financeiros, insuficientes
para investimentos em novas tecnologias [Fletcher et al.,1996];
ƒ
Quanto aos obstáculos externos apresentam como principais factores a constituição
de BD (recolha de dados e privacidade do consumidor [Evfimievski et al., 2003]) e as
relações com fornecedores. A constituição de BD é um aspecto muito importante em
DBM, de modo que as dificuldades em as constituir afectam significativamente o seu
desenvolvimento. As empresas que pretendam vantagens competitivas do DBM
precisam de assegurar que têm dados concretos acerca dos consumidores. No que
respeita à privacidade do consumidor, face à ameaça da utilização indevida dos
dados, tornou a actividade da recolha de dados mais difícil, verificando-se uma
crescente solicitação de indivíduos para a remoção dos seus dados das BD [Bloom et
al. 2004], [Drozdenko et al., 2002]. As relações com os fornecedores influenciam na
adopção de DBM na perspectiva em que muitos dos requisitos tecnológicos são
adquiridos em regime de outsourcing, gerando uma necessidade de uma abertura ou
cedência dos dados da organização para o exterior [Fletcher et al.,1996], o que muitas
administrações, frequentemente, não admite;
35
Capítulo 2 Business Intelligence e Database Marketing
ƒ
Já os obstáculos técnicos reflectem o desconhecimento, predominante em muitas
organizações, das potencialidades das tecnologias de informação ao serviço das BD.
Este desconhecimento revela a falta de compreensão crítica de como as BD devem
ser desenhadas, mantidas e aplicadas para ajudar e construir , como e.g., as relações
com os consumidores [DeTienne et al. 1996];
ƒ
Os obstáculos no âmbito do marketing revelam-se nas barreiras organizacionais e
manifestam-se frequentemente na incapacidade para desenhar e implementar os
programas de DBM, uma vez que estes não fazem dos planos de marketing mais
tradicionais [Stone et al. 2004];
ƒ
A falta de visão das organizações em optar por manter registado nas suas BD toda a
actividade relacional com o seu meio envolvente (e.g., clientes, fornecedores,
concorrentes) geram os denominados obstáculos de natureza estratégica [Roberts,
1997]. Este desconhecimento para lidar com grandes volumes de dados, tem como
consequência frequente, a redução da utilização das BD para um nível meramente
operacional [Fletcher et al.,1996], [Haynes et al. 1992] e [Cooke, 1994].
2.3 Business Intelligence versus Database Marketing
Assumindo o BI como um processo que funciona sobre uma arquitectura de sistemas
integrados, consistindo na recolha e análise de informação do meio envolvente (com
recurso às tecnologias de informação), contribuindo para o apoio à tomada de decisões
(suportadas por actividades de, e.g., Descoberta de Conhecimento em Bases de Dados DCBD), possibilitando, em última análise, que a organização se torne mais competitiva.
Sustentanto o facto do DBM referir as tecnologias de BD para suporte às actividades de
marketing através da procura de informações existentes nos dados, define-se DBM como
um conjunto de processos que se baseiam num sistema que engloba BD (clientes e
36
Capítulo 2 Business Intelligence e Database Marketing
prospects) e recursos tecnológicos para análise e exploração desses dados – DCBD -,
permitindo conhecer e prever o comportamentos dos clientes.
É possível posicionar o DBM como uma actividade de BI, uma vez que desenvolve todas
actividades dos sub-sistemas de BI mas orientado para actividades especificas de
marketing. Ilustrando descritivamente o BI instanciado num processo de DBM: os
marketers após o desenvolvimento de um projecto de DBM terão como resultado toda a
informação de que necessitam em tempo real (sistema DW relativo aos mercados, aos
concorrentes, aos consumidores ou aos produtos), de modo a poderem analisar (extracção
de conhecimento sobre BD), partilhar com outros utilizadores e tomar as decisões
necessárias sobre as actividades de marketing a desenvolver.
37
Capítulo 2 Business Intelligence e Database Marketing
38
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
Capítulo 3
3
Descoberta de Conhecimento em Bases de Dados
São apresentados os objectivos, conceitos, tipos de
abordagem,
áreas
relacionadas,
metodologias
e
especificações, para a Descoberta de Conhecimento em
Bases de Dados, com particular ênfase naquelas que foram
usadas para a aquisição de conhecimento na aplicação
prática da metodologia DM4DBM.
3.1 Introdução
O avanço das Tecnologias de Informação (TI) bem como a sua penetração nas
organizações, proporcionou o armazenamento e acesso a grandes volumes de dados,
criando uma excelente oportunidade para a obtenção de conhecimento. Contudo, a
transformação dos dados em conhecimento útil é um passo moroso e difícil.
As primeiras abordagens na aplicação de técnicas para a extracção de conhecimento em
Bases de Dados (BD) enfrentaram bastantes dificuldades devidas, principalmente, ao
facto de os algoritmos existentes terem sido desenhados para aplicações de laboratório,
onde, em geral, a qualidade dos dados era garantida e a quantidade de dados bastante
reduzida. Tornaram ainda evidente a necessidade de se seguir uma abordagem
sistemática e fortemente centrada no processo de preparação dos dados, que permitisse
aumentar a confiança no resultado final. Essa abordagem sistemática, integrando fases de
39
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
pré-processamento dos dados e pós-processamento dos resultados, foi denominada
Knowledge Discovery in Databases (KDD), termo que é traduzido para Descoberta de
Conhecimento de Bases de Dados (DCBD). A DCBD consiste numa série bem definida
de passos que vão desde a preparação dos dados até à extracção de padrões sobre esses
dados e à avaliação dos mesmos. A DCBD vai buscar conhecimento a outras áreas, como
a Estatística, as BD, a Inteligência Artificial, a Visualização de Dados e o
Reconhecimento de Padrões. As técnicas desenvolvidas nestas áreas de estudo são
utilizadas em DCBD com o objectivo de extrair conhecimento das BD.
3.2 Hierarquia do Co nhecimento em Bases Da do s
Partindo da premissa que existe mais informação numa BD do que a perceptível numa
análise simples, é possível enunciar quatro tipos de conhecimento, que correspondem
igualmente ao nível da sua profundidade relativa nas BD.
ƒ
Conhecimento tácito: representa a informação que pode facilmente ser retirada das
BD, com recurso a processos de interrogação em BD simples (Strutured Query
Language - SQL) ou cálculos estatísticos básicos;
ƒ
Conhecimento multi-dimensional: Consiste na informação que pode ser analisada por
recurso a ferramentas de processamento analítico online (On-Line Analitical Process
- OLAP). Traduz-se em representações de dados adequados à obtenção expedita de
perspectivas multidimensionais, com vista ao apoio na tomada de decisão e estratégia
das organizações. Estas ferramentas são meramente descritivas não permitindo a
procura de soluções óptimas;
ƒ
Conhecimento escondido: Corresponde ao conhecimento facilmente determinado, por
recurso a técnicas de reconhecimento de padrões ou algoritmos de aprendizagem
automática simbólica (machine learning). Estes algoritmos de reconhecimento de
40
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
padrões permitem encontrar regularidades na BD em muito menos tempo do que o
necessário recorrendo a outros processos mais tradicionais, e.g., SQL;
ƒ
Conhecimento profundo: Esta classificação está associada àquele tipo de
conhecimento existente nas BD e que apenas é localizado através de pistas que
indicam ao analista onde ou sob que forma, possivelmente se pode obter. Um
exemplo deste tipo de informação é a informação encriptada – na qual é praticamente
impossível decifrar a mensagem a menos que se conheça a chave.
3.3 Princípios da Descoberta de Conhecimento em Ba se
Dados
Descobrir conhecimento significa extrair, de grandes volumes de dados, informações
relevantes e até então desconhecidas, que se revelam úteis e válidas para processos de
tomada de decisão.
Recorrendo à definição elaborada por Usama Fayyad, DCBD pode ser definida como
“um processo interactivo não trivial de identificar novos padrões nos dados que sejam
válidos, potencialmente úteis e interpretáveis” [Fayyad et al. 1996]:
ƒ
O termo processo não trivial encontra-se associado à execução de diversos passos
interactivos (requer a intervenção do analista em cada uma das fases do processo) e
iteractivos (em cada fase do processo existe sempre a possibilidade de retrocesso para
fases anteriores);
ƒ
Os dados representam um conjunto de factos F, casos de uma BD, na qual
subconjuntos do mesmo são responsáveis pela caracterização de diversos padrões.
ƒ
Um padrão pode ser caracterizado por modelos, relações ou estruturas existentes nos
dados, que se revelam perceptíveis após o processamento. Um padrão é uma
41
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
expressão E numa linguagem L que descreve um sub-conjunto de factos FE do
conjunto F. Por exemplo em relação aos dados sobre empréstimos bancários, o
padrão E1=“Se Salário<T Então a pessoa faltou ao pagamento” poderia ser um
padrão para uma escolha apropriada de T;
ƒ
Os padrões encontrados devem manter-se válidos quando aplicados sobre novos
dados, com algum grau de confiança (C) ou probabilidade. O grau de confiança
associado a um padrão E pode ser definido como a função C(E,F) que pode ser lógica
ou real;
ƒ
A novidade (N) dos padrões (pelo menos para o sistema em estudo) é definida
sempre que o conhecimento obtido ainda não foi detectado por nenhuma outra
abordagem, podendo ser representado como função N(E,F);
ƒ
A utilidade dos padrões representa o seu grau de utilização (U), isto é, até que ponto
o padrão contribui para os objectivos inerentes ao processo, como por exemplo o
esperado aumento de lucro de um banco por aplicação da regra de decisão E1. A
utilidade pode ser definida pela função U(E,F);
ƒ
Um dos objectivos da DCBC é gerar padrões que sejam compreendidos pelos
humanos na perspectiva de contribuir para uma melhor compreensão dos dados.
Assume-se que o grau de interpretação (S) de um padrão é definido pela função
S(E,F).
O conhecimento descoberto pode também ser quantificado, seja i=I(E,F,C,N,U,S) o grau
de interesse (I) num dado padrão E, diz-se que o padrão E é conhecimento se para um
valor dado i, I(E,F,C,N,U,S)>i.
Pese embora as funções de avaliação apresentadas, a validade do processo de DCBD
depende directamente da acção do analista, dado o facto de não existir ainda nenhuma
42
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
solução tecnológica capaz determinar autonomamente se os padrões encontrados são de
facto novos ou válidos.
Interpretação
Data Mining
Conhecimento
Transformação
Padrões
Pré-Processamento
Dados
Tratados
Selecção
Dados
Dados
PréProcessados
Dados
a Analisar
Figura 7 - Fases do processo de DCBD (adaptado de [Fayyad et al., 1996]).
A Figura 7 expõe uma representação do processo de DCBD a partir do momento em que
os objectivos estão definidos. O processo normalmente não é linear, e envolve uma forte
interacção com o utilizador e várias iterações entre as suas fases constituintes (e.g., ao
analisar os padrões obtidos, o analista pode concluir de que não são válidos e fazer com
que o processo volte à fase de pré-processamento). Essas iterações estão representadas,
na figura, pelas setas a tracejado e podem inclusivamente fazer o processo voltar à fase
de especificação dos objectivos.
O tempo gasto num processo de DCBD não é distribuído equitativamente entre as várias
fases, conforme se pode ilustrar com a Figura 8. Ao contrário do que seria de esperar, a
fase onde é despendido menos tempo é normalmente a fase de DM, a qual, é contudo
uma fase que exige um bom conhecimento dos algoritmos disponíveis. Este
conhecimento é determinante para a afinação dos algoritmos, ajustando os parâmetros
destes com vista ao sucesso do processo de extracção de padrões [Gago, 2001].
43
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
60
50
Esforço (%)
40
30
20
10
0
Definição dos
Objectivos
Pré-Processamento
Data Mining
Pós-Processamento
Fase do processo de DCBD
Figura 8 - Percentagem de tempo despendido em cada fase do processo de DCBD (adaptado de [Cabena et
al., 1998]).
A DCBD fornece métodos e ferramentas que permitem descobrir o conhecimento
contido em grandes BD. Um exemplo típico da utilização da DCBD encontra-se nas
acções de envio de correio publicitário [Adriaans et al., 1996].
O problema pode, genericamente, ser descrito do seguinte modo: uma empresa pretende
desenvolver uma acção de marketing directo procedendo ao envio de correio publicitário
para casa de cada um dos seus clientes, mas devido ao custo unitário, deseja realizar o
contacto apenas com aqueles indivíduos mais receptivos, maximizando a taxa de
respondentes (relação entre cartas enviadas e respostas obtidas). Partindo então das BD
onde se encontram registados os comportamentos em campanhas publicitárias realizadas
no passado, é possível através desses elaborar um modelo descritivo dos indivíduos com
maior propensão para reagir positivamente; i.é., recorrendo à indução de regras, será
possível extrair das BD regras que indiquem as características dos indivíduos que
responderam à publicidade remetida no passado e com as mesmas seleccionar indivíduos
com características semelhantes (supostamente mais susceptíveis de responder
positivamente a novas campanhas) [Gago, 2001]. Na Figura
9 encontra-se uma
representação gráfica que relaciona o número de mailings enviados e o número de
44
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
respostas obtidas (com e sem DCBD). Normalmente a percentagem de respostas a
campanhas deste género é extremamente baixa, rondando 1%. São citados casos na
literatura em que pelo recurso à DCBD, foi possível obter mais de 2% de respostas. Para
mais facilmente se compreender o impacto dos ganhos obtidos com estes métodos,
considere-se o cenário de existir um orçamento global de 6.000€ para a remessa de
correio publicitário, pelo que com o custo de cerca de 0.15€ por carta enviada, seria
possível contactar aproximadamente 40.000 indivíduos. Seguindo o exemplo
bibliográfico referido, não existindo recurso a métodos de DCBD será previsível que se
obtenham cerca de 400 respostas, pelo contrário, no caso de serem utilizados métodos de
DCBD para seleccionar quem vai receber a publicidade, será provável que as mesmas
40.000 cartas dêem origem a cerca de 900 respostas (Figura 9).
Número de respostas
Com DCBD
Sem DCBD
1000
800
600
400
200
0
20000
40000
60000
80000
100000
Número de mailings enviados
Figura 9 - Relação entre o número de mailings e o número de respostas (adaptado de [Adriaans et al.,
1996]).
45
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
3.4 Fases do Processo de DCBD
Conforme já ilustrado na Figura 7 as fase do processo de DCBD incluem:
ƒ
Exploração e Selecção de dados;
ƒ
Pré – Processamento
ƒ
Transformação dos dados;
ƒ
Data Mining;
ƒ
Interpretação dos resultados alcançados.
3.4.1 Exploração e Selecção de dados
A fase de selecção compreende duas componentes: estudo e compreensão do domínio da
aplicação, e selecção dos dados a analisar.
No estudo e compreensão do domínio, pretende-se enquadrar o trabalho a desenvolver
com a área de negócio da organização, através da aquisição de conceitos fundamentais e
da definição clara dos objectivos para o projecto. O conhecimento do domínio é
determinante em qualquer processo de DCBD servindo como elemento condutor,
podendo o conhecimento existente ser complementado com o conhecimento obtido no
processo de descoberta [Quintela, 2005]. Por este facto, torna-se necessária a presença,
na equipa de desenvolvimento do processo de DCBD, de especialistas na área de
aplicação. Estas equipas são por norma multi-disciplinares, integrando especialistas, e.g.,
da área de negócio, técnicos de BD ou especialistas em técnicas de DM.
46
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
Antes de se proceder à selecção dos dados é necessário explorá-los e interpretá-los. A
exploração e interpretação visa o conhecimento dos dados disponíveis para a realização
do processo de DCBD. O acesso aos registos das tabelas não garante que os dados sejam
acessíveis sem que se compreenda o contexto das tabelas e o significado de cada atributo,
advindo daí a necessidade compreensão quer das estruturas (e.g., significado da
designação atribuída a tabelas e atributos) quer dos conteúdos (e.g., significado dos
valores de cada atributo). A origem dos dados pode ser interna (e.g., sistemas da empresa
ou de outra da mesma organização) ou externa (e.g., BD alugadas a empresas
especializadas), podendo a fonte ser documental (e.g., formulários, fichas de cliente) ou
digital (e.g., sistemas informáticos de vendas).
Após uma compreensão dos dados, será então possível proceder à selecção dos que irão a
ser utilizados no processo de DCBD, tendo em vista a limitação do espaço de pesquisa,
direccionando o foco para subconjuntos de variáveis ou de dados.
A selecção de dados incorpora ainda a função de filtragem de dados duplicados
(normalmente ocorrem sempre que existem diversas fontes de dados envolvidas), e.g.,
um indivíduo cujo registo se encontra duplicado porque havia participado em duas ou
mais campanhas de marketing distintas ou porque o seu contacto proveio de BD distintas
(Tabela 2).
Tabela 2- Exemplificação de codificações distintas para o mesmo registo [Pinto et al., 2005].
ID
001127
...
584012
...
221762
Nome
João
Apelido
Martins Ruas
João
Martins Ruas
João
Martins Ruas
Contacto
917766116
...
917766116
...
917766116
47
Data Nascimento
17-05-1970
17-05-1970
17-05-1970
Sexo
M
...
M
...
M
N filhos
1
1
1
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
3.4.2 Pré-Processamento
Como acontece na maioria dos processos informáticos (e não só), o resultado final é
bastante dependente do que é fornecido à entrada. A conhecida regra GIGO (Garbage In,
Garbage Out) [Feelders, 2002] aplica-se em pleno ao processo de DCBD. O sucesso
deste depende directamente da qualidade dos dados sobre os quais de desenrola.
Os dados, tal como a sua qualidade, são conceitos multidimensionais [Klein, 1999],
[Juran et al., 1999], [Laudon, 1986]. Uma das perspectivas mais interessante acerca da
qualidade dos dados adoptada pela literatura evidencia o carácter de utilização dos dados
“data that is fit for use” [Strong et al., 1997], [Brown, 2002], [DDUS, 2003], [Wang et
al., 1996], ou por outras palavras, “a elevada qualidade dos dados depende da sua
utilização operacional, suporte a acções de tomada de decisão ou de planeamento, para
as quais foram pensados. Os dados estão preparados para serem utilizados se estiverem
livres de defeitos e possuírem as características desejadas” [Tayi, 1998]. A qualidade
dos dados no âmbito do processo de DCBD é determinante, havendo autores que
defendem apenas ser possível prosseguir com o processo de DCBD se existirem dados
limpos de erros e prontos a serem usados [Shepard, 1998], [Drozdenko et al., 2002], isto
é por demais evidente na fase de modelação, devendo por isso estar disponíveis numa
forma que permita que sobre eles sejam aplicados algoritmos de DM [Fayyad et al.,
2002]. Esta fase deve ser repetida várias vezes, até que se possa assegurar a qualidade e
utilidade dos resultados obtidos [Pinto et al., 2004].
O pré-processamento dos dados é considerada por muitos autores como fase a crucial
para o sucesso do processo de DCBD, tal como as estatísticas frequentemente a indicam
como a fase mais demorada, chegando a consumir cerca de 80% do tempo total [Fayyad
et al., 1996], [Cabena et al., 1998] e inclui como actividades [Pinto et al., 2004]:
Tratamento de valores omissos; Avaliação de excepções (outliers); Derivação de novos
48
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
atributos; Dispersão de valores; Identificação de atributos duplicados e redundantes;
Integridade da informação do registo; Identificação de ruído ou poluição dos dados;
Discretização de atributos qualitativos em quantitativos; Identificação de inconsistências;
Normalização dos dados; Identificação de valores atribuídos por definição (defaults) e
Transposição de tabelas. Estas actividades são descritas são de seguida descritas em
pormenor.
3.4.2.1
Tratamento de valores omissos
A existência de valores em branco (Tabela 3) num determinado atributo suscita o
tratamento desse atributo, através de técnicas diversas, com origens na estatística e
matemática, e.g., métodos Bayesianos [Gelman et al., 1995], métodos de imputação,
[Schafer, 1997], [Little, 1992].
Tabela 3- Exemplo de tabela de frequências para o valor de um atributo [Quintela, 2005].
Valor
Em branco
Não Responde/Resposta inválida
Não
Sim
Total
Frequência
1952
492
2052
4464
8960
Percentagem
21,8%
5,5%
22,9%
49,8%
100%
A eliminação de registos com valores omissos é uma das soluções indicadas por um dos
métodos de imputação [Rubin, 1996], contudo, esta atitude pode introduzir na BD
alterações significativas relativamente ao universo em estudo e conduzir a amostras
muito pequenas [Pinto et al., 2004].
Na bibliografia encontramos outros métodos de imputação mais refinados:
Substituição pelo valor mais comum do atributo13;
ƒ
13
Moda – Corresponde ao valor que ocorre com maior frequência no conjunto de valores que um atributo possui: ou seja, é o valor
mais comum. A moda pode não existir, e caso exista pode não ser única [Reis, 1998] .
49
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
ƒ
Substituição pelo seu valor médio14 ou mediana15;
ƒ
Substituição por um valor resultante da aplicação do método do vizinho mais
próximo.
A determinação da técnica a adoptar depende do volume de registos com valores omissos
e a sua representatividade em termos da BD geral. Uma adopção incorrecta de técnicas
para tratamento de valores omissos pode introduzir inconsistências na BD e afectar o
desempenho dos algoritmos durante a fase de aprendizagem [Quintela, 2005].
As razões mais frequentes para a existência de valores omissos nos dados resultam
normalmente de factores processuais ou quando se tratam de dados recolhidos a partir de
questionários, os problemas podem também advir de recusa de resposta , e/ou opções de
resposta inadequadas [Pinto et al., 2004].
3.4.2.2
Avaliação de excepções (outliers)
Verificam-se com alguma frequência nas BD valores anormais para alguns atributos,
violando os domínios (conjunto de valores aceites para esse atributo). O tratamento de
excepções resolve-se por recurso a um tratamento manual ou por recurso a valores
estatísticos (aplicação de métodos Bayesianos ou métodos de imputação, apresentados na
alínea anterior). A avaliação de excepções permite um conhecimento genérico sobre os
dados, com o qual se desprezam eventos particulares (e.g., registo de casos pontuais fora
do comum) não afectando outras análises que estejam a ser realizadas. Como exemplo
geral, considere-se quando num determinado dia uma empresa vende a um cliente, em
particular uma grande quantidade de produto. Deste facto apenas se pode concluir que
14
Média – È o valor típico ou representativo de um conjunto de dados. Como os valores representativos têm tendência a estar no
centro do conjunto de dados, as médias são muitas vezes denominadas medidas de tendência central [Reis, 1998]
15
Mediana - A mediana de um conjunto de números ordenados relativamente à sua grandeza é o valor central (no caso de o número
de observações ser ímpar) ou a média aritmética dos dois valores centrais (quando o número de observações é par) [Reis , 1998].
50
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
esse cliente, em particular, procurava uma grande quantidade desse produto, naquele
exacto momento não indicando, provavelmente, nenhuma tendência de mercado. Esta
informação, em particular, não possui um carácter relevante para que no futuro a empresa
lucre mais, ou altere o seu processo de comercialização dado não ser viável a extracção
de conhecimento a partir de eventos isolados.
3.4.2.3
Derivação de novos atributos
A qualidade dos resultados obtidos na extracção de informação em BD depende
directamente dos atributos sobre os quais são aplicados [Baranauskas et al., 2003]. Os
resultados podem ser imprecisos ou excessivamente complexos, caso não sejam
devidamente avaliados e preparados para serem usados.
A derivação de atributos consiste num processo de composição de atributos primitivos16,
cujo resultado se traduz em novos atributos, possivelmente relevantes para a descrição de
um conceito ou objecto. A combinação pode ser resultado de cálculos aplicados sobre os
atributos, e.g., o atributo data de nascimento permite uma informação potencialmente
mais relevante se derivar um novo atributo, a idade [Santos et al., 2005]).
3.4.2.4
Dispersão de valores
A dispersão de valores em atributos acontece: (i) porque a natureza assim o determina
e.g., peso, idade, altura; ou, (ii) embora seja um atributo cujo domínio esteja sujeito a
uma regra de classes, verifica-se uma dispersão de classes indesejada, e.g., nº filhos, nº
de carros. Muitas destas situações geram uma tendência na amostra e dificultam o
trabalho de alguns algoritmos de aprendizagem automática. Para resolução desta
situação, as metodologias recomendadas são:
ƒ
Redução do número de classes através de agrupamento [Quintela, 2005];
16
Entende-se por atributos primitivos, os atributos pertencentes ao conjunto de dados inicial.
51
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
ƒ
Categorização dos valores [Pinto et al., 2004];
ƒ
Criação de um novo atributo resultado da aplicação de funções logaritmo a atributos
numéricos [Quintela, 2005];
Os classificadores gerados a partir de um conjunto de dados com uma desproporção
evidente de classes, apresentam um pior desempenho na classificação da classe
minoritária em comparação com os classificadores gerados a partir do mesmo conjunto
de dados, mas com uma proporção mais equilibrada de classes [Weiss et al., 2001].
Como justificação, encontram-se duas razões [Quintela, 2005]: a primeira deriva do facto
das regras geradas para a classe minoritária serem baseadas em menos exemplos e
consequentemente mais sobreajustadas – o classificador tenderá a aprender limites mais
rígidos do conceito. Este comportamento está relacionado com um problema já bem
referenciado na área da aprendizagem: small-disjuncts. A segunda razão, tem a ver com o
facto de dadas as características do domínio existirem mais exemplos de teste da classe
minoritária. A classe mais frequentemente prevista será a maioritária, existindo uma
maior probabilidade de classificar incorrectamente exemplos da classe minoritária.
Para tornar a distribuição de classes mais equilibrada, existem dois métodos básicos:
ƒ
under-sampling - cria uma amostra mais pequena do conjunto de exemplos da classe
maioritária;
ƒ
over-sampling - consiste em gerar casos a partir dos casos iniciais do conjunto, de
forma a aumentar o número de casos da(s) classe(s) minoritária(s).
Estes dois métodos têm associadas desvantagens, como o desprezar de dados
potencialmente úteis no primeiro caso, ou o aumento do tamanho do conjunto de treino e
portanto o tempo de computação, proporcionando um maior sobre-ajustamento aos dados
no segundo. Este balanceamento acontece apenas no conjunto de treino, devendo ser
respeitada a distribuição original no conjunto de teste.
52
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
3.4.2.5
Integridade da informação do registo
Analisar a integridade dos dados consiste na verificação da coerência da informação ao
longo dos registos e envolve, com alguma frequência, uma análise subjectiva de alguns
atributos, tornando esta actividade como uma das mais morosas de todo o préprocessamento. Como exemplo considere-se que quando no atributo nome aparece
Joaquim, no atributo sexo, deverá constar, em condições normais, masculino [Pinto et al.,
2004].
Um caso especial de verificação dos dados consiste na identificação de casos extremos,
os quais não são mais do que combinações de valores raros, mas válidos, que se
verificam em simultâneo e estão dentro dos valores dos domínios para um grupo de
atributos.
3.4.2.6
Identificação de atributos duplicados e redundantes
A redundância ocorre com armazenamento em diversos atributos de informação idêntica,
e.g., codificação diferente para conteúdos iguais em tabelas diferentes (Tabela 4).
Tabela 4- Codificação distinta para o mesmo atributo [Pinto et al., 2005].
ID
Nome
DataNasc
Cod
CliNom
DN
Num
Descrição
Data
A informação torna-se ainda redundante quando o conteúdo de alguns atributos é
explicado pela combinação de outros, e.g., havendo os atributos preço unitário e
quantidade comprada, o conteúdo do atributo total de compra poderá ser redundante
uma vez que se consegue obter pela conjugação dos dois anteriores.
53
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
3.4.2.7
Identificação de inconsistências
As inconsistências podem ocorrer quando dados diferentes são representados sob a
mesma codificação ou quando o mesmo para o mesmo dado existem codificações
distintas, e.g., o atributo nome_empresa, destinado a receber nome de empresas pode
assumir os valores UM, Uminho ou Universidade do Minho, sendo que todos estes
representam uma mesma instituição.
3.4.2.8
Identificação de ruído ou poluição dos dados
Entende-se aqui como ruído ou poluição dos dados a presença de dados distorcidos, os
quais não representam valores verdadeiros. Existem diversas fontes de ruído ou poluição
dos dados, uma delas consiste na introdução de valores estranhos (fora do conjunto de
valores esperados) em atributos, por vezes com a expectativa de forçar o registo de
informação para além do seu contexto, e.g., verifica-se para o atributo sexo o registo dos
valores normais m e f mas também o valor e (supostamente descrevendo que se trata de
uma empresa) [Pinto et al., 2004]. Outra fonte de ruído ou poluição dos dados advém da
resistência humana em introduzir os dados correctamente, seja deixando os campos em
branco, incompletos ou simplesmente com valores incorrectos, e.g., o preenchimento de
questionários [Pinto et al., 2004].
3.4.2.9
Identificação de valores atribuídos por definição
(defaults)
A maioria dos sistemas gestores de BD permitem a especificação de valores prédefinidos para alguns atributos. Estes valores poderão, mais tarde, vir a gerar padrões
significativos e como tal originarem alguns enviesamentos na interpretação dos dados,
caso o analista não se encontre informado da sua existência. Os valores pré-definidos
normalmente representam falta de informação em vez de informação relevante, e.g., no
54
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
preenchimento de questionários quando o inquirido não responde, coloca-se
normalmente não respondeu, contudo este valor é facilmente confundido com o valor não
sabe. A utilização dos valores pré-definidos pode ser comprometedora na análise de
dados em particular quando o resultado final da análise pretende ser a previsão.
3.4.3 Transformação dos dados
A transformação dos dados consiste no tratamento dos dados com vista à aplicação dos
algoritmos de DM, colmatando assim eventuais limitações que estes possuam. As
transformações mais comuns são apresentados de seguida.
3.4.3.1
Normalização dos Dados
Este procedimento, à semelhança de outros referidos, consiste em realizar uma
transformação nos dados de modo a acelerar ou melhorar o processo de aprendizagem
dos algoritmos e visa colmatar um aspecto importante nos dados como é a sua escala de
valores, e.g., no tratamento de dois atributos altura e distância, o razão entre eles será
diferente consoante a escala de medida utilizada em cada um deles.
Numa outra perspectiva, os atributos ao estarem em escalas ou domínios diferentes
provocam problemas nos métodos de aprendizagem, pois podem eventualmente dar
demasiada importância a um atributo com um domínio mais alargado, e.g., no caso do
atributo a1 ∈ ¸ {0…10} e o atributo
a2
∈ {2100…4010},, o algoritmo de aprendizagem
utilizado pode atribuir uma importância inadequada ao atributo a2 em consequência deste
apresentar um domínio alargado de valores. O escalonamento depende do tipo de dados
[Quintela, 2005]:
55
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
ƒ
Entradas - o escalonamento das variáveis de entrada tem efeitos diversos conforme os
algoritmos de aprendizagem considerados, de um modo particular, os algoritmos de
gradiente descendente (e.g., Back-Propagation), são bastante sensíveis ao
escalonamento.
ƒ
Saídas – sempre que se usa mais do que uma saída e se a função de erro é sensível à
escala, como acontece no caso da aprendizagem do gradiente descendente, então a
diferença de escalas entre as saídas pode afectar a forma como, por exemplo, uma
rede neuronal aprende. No caso de uma saída possuir valores entre 0 e 1, enquanto
outra tem valores entre 0 e 1000000, o algoritmo irá despender a maior parte do
esforço de aprendizagem na segunda saída. Assim, as saídas com a mesma
importância devem ser transformadas para a mesma escala de valores.
3.4.3.2
Discretização de atributos quantitativos em
qualitativos
Alguns algoritmos possuem como limitação o facto de apenas trabalharem com dados do
tipo qualitativo, implicando que na presença de dados do tipo quantitativo seja necessário
proceder a transformação dos valores. A transformação de dados realiza-se pela
aplicação de correspondências entre grupos de
valores quantitativos a valores
qualitativos, e.g., ao atributo rendimento per capita, seria possível atribuir classe social
para valores como sejam, para intervalos até 1000€, classe baixa; entre 1000€ e 2500€,
classe média; mais de 2500€, classe alta.
3.4.3.3
Discretização de atributos qualitativos em
quantitativos
Ao contrário do caso anterior, existem algoritmos que apenas aceitam valores
quantitativos na entrada, forçando a transformação dos valores qualitativos iniciais em
valores aceitáveis. A transformação desses valores ocorre através do estabelecimento de
correspondências entre os dois tipos de valores, e.g., para o atributo prioridade, cujos
56
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
valores sejam grande, média e baixa poder-se-ia fazer corresponder, respectivamente os
valores 1,2 e 3.
3.4.3.4
Transposição de tabelas
A utilização dos dados pelos algoritmos durante a fase de modelação, ocorre
normalmente sobre uma tabela só. Este facto implica a importação dos dados de várias
tabelas para uma única, forçando que todos estejam ao mesmo nível, na mesma tabela e
que cada registo possua todos os dados relativos ao objecto em estudo.
O recurso à transposição acontece sempre que seja necessário relacionar o conteúdo de
um atributo numa tabela com registos de outra, e.g., quando se pretende associar num só
registo a todas as promoções em que um cliente participou, passa-se de uma situação de 3
tabelas (Figura 10) para uma só tabela (Figura 11):
T_ Cliente
ID
Nome
T_ Participação
Código Cliente Cod Promoção
T_ Promoções
Identificação Nome Promoção
100
101
102
100
100
100
101
101
102
P1
P2
P3
João
Maria
Rui
P1
P2
P3
P2
P3
P2
Natal
Ano Novo
Dia Namorados
Figura 10– Representação das tabelas inicias.
Tabela Cliente/Participação em promoções
ID Cliente Nome ID_Prom1 ID_Prom2 … ID_Prom3
100
João
Sim
Sim
…
Sim
101
Maria
Não
Sim
Sim
102
Rui
Não
Sim
Não
Figura 11 – Representação da tabela final após transposição.
57
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
3.4.4 Data Mining
Data Mining (DM) é o processo de exploração e análise de grandes quantidades de dados
por forma a descobrir padrões e regras que possam ser importantes para a resolução de
determinado problema [Linoff et al., 2000].
O DM é visto por alguns autores como o núcleo do processo de DCBD, sendo a fase
deste que tem recebido mais atenção por parte dos investigadores. A escolha das
abordagens a aplicar sobre os dados depende directamente dos objectivos de marketing,
definidos inicialmente e deverá começar pela expressão das tarefas de alto nível
[Shepard, 1998] [Drozdenko et al., 2002].
Normalmente o DM distingue-se das outras técnicas de análise de dados na forma como
explora as relações entre os dados. Enquanto que nas diversas ferramentas de análise
disponíveis o utilizador constrói hipóteses sobre relações específicas e então corrobora-as
ou refuta-as através das saídas da ferramenta utilizada. O processo de DM é responsável
pela geração de hipóteses, o que potencia maior rapidez, aperfeiçoamento, autonomia e
fiabilidade aos resultados.
Observe-se entretanto, que todo este processo sugere uma hierarquia, algo que começa
em instâncias elementares (embora volumosas) e termina num ponto relativamente
concentrado, mas bastante importante – o conhecimento.
Este é um dos conceitos
importantes na DCBD: encontrar padrões requer que os dados em bruto sejam
sistematicamente "simplificados" de modo a desvalorizar aquilo que é específico e
privilegiar aquilo que é genérico.
Numa perspectiva orientada para os processos, as actividades do DM podem-se agrupar
em três classes [Ramachandran, 2001]:
58
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
ƒ
Descoberta de padrões – processo de procura de padrões escondidos na BD sem
ideias ou hipóteses pré-concebidas acerca daquilo que os padrões poderão ser, ou
seja, os algoritmos tem a iniciativa de realizar a pesquisa sem qualquer orientação
especifica do utilizador, e.g., tendências e variações ou associações ou afinidades
entre elementos;
ƒ
Modelação predictiva – esta classe de actividades aplica na prática o resultado da
descoberta de padrões e consiste na sua utilização para previsão do futuro. A
modelação preditiva permite ao utilizador submeter registos com valores
desconhecidos em alguns dos seus atributos ao sistema, e este baseando-se
unicamente nos padrões entretanto descobertos irá prever os valores então
desconhecidos para esses campos, e.g., previsão de resultados;
ƒ
Análise exploratória – Trata-se do processo de aplicar os padrões entretanto extraídos
com o objectivo de detectar dados anómalos ou pelo menos pouco habituais. Para a
descoberta de elementos pouco habituais, primeiro define-se o padrão normal e então,
com uma determinada margem de desvio, detectam-se os elementos que se afastam
desse padrão. Por contraste com as actividades de descoberta de padrões que ajudam
a determinar “conhecimento normal”, a análise exploratória procura elementos pouco
habituais e casos específicos dentro da BD, e.g., detecção de desvios.
A investigação desenvolvida no âmbito do DM viabilizou quer o surgimento de
metodologias de implementação, quer o surgimento de algoritmos de aprendizagem que
se distinguem na forma como traduzem a informação descoberta e no processo como é
realizada essa descoberta, havendo alguns mais adequados a determinados tipos de
problemas e de dados. Como uma etapa do processo de DCBD, o DM é sustentado por
três pilares fundamentais, dos quais depende o sucesso do projecto [Linoff et al., 2000] :
dados; modelos e técnicas; e modelação.
59
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
3.5 Metodologias de Da ta Mining
Actualmente encontram-se disseminadas e bem definidas duas metodologias para o
desenvolvimento do DM: metodologia CRISP-DM (CRoss-Industry Standard Process
for Data Mining) e a metodologia SEMMA (Sample, Explore, Modify Model,
Assessment). Estas metodologias foram desenvolvidas em ambientes diferentes, a
primeira por um consórcio composto por organizações de diferentes sectores de
actividade (e.g., indústria, serviços, fornecedores de tecnologia), e a segunda por uma
organização fornecedora de soluções de suporte à decisão e BI.
3.5.1 CRISP-DM
A metodologia CRISP-DM foi concebida em finais de 1996 e o seu desenvolvimento foi
motivado pelo interesse crescente e generalizado, por um lado pelo mercado de DM, e
por outro, pelo consenso de que a industria necessitava de um processo padronizado
[Wirth 2000]. Os fundamentos desta metodologia para além dos princípios académicos e
teóricos baseiam-se na prática, na experiência daqueles que desenvolvem de facto,
projectos de DM. O conhecimento prático foi assim incorporado de forma a dar resposta
aos requisitos dos utilizadores, não se centrando unicamente na tecnologia, mas antes na
resolução de problemas do negócio [Han et al., 2001]. A metodologia CRISP-DM é
descrita em termos de um processo hierárquico, com um ciclo de vida que se desenvolve
em seis fases:
ƒ
Estudo do Negócio;
ƒ
Estudo dos dados;
ƒ
Preparação dos dados;
ƒ
Modelação;
ƒ
Implementação;
ƒ
Avaliação.
60
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
As fases não têm uma sequência fixa, dependendo do resultado e do desempenho das
outras fases ou das tarefas particulares de determinada fase [Chapman et al., 2000]. A
Figura 12 apresenta o ciclo de vida da metodologia CRISP-DM, em que as setas indicam
a sequência, ligações e interligação entre as fases.
Figura 12 – Metodologia CRISP-DM (adaptado de [Chapman et al., 2000]).
A caracterização mais completa das etapas da metodologia CRISP-DM, é apresentada no
anexo A.
3.5.2 SEMMA
A metodologia SEMMA foi proposta pelo Instituto SAS17, que se dedica ao
desenvolvimento de soluções para estatística, análise de dados, BI, DM e SAD [SAS,
2005]. Esta metodologia surge como resposta à necessidade de definição, padronização e
de integração dos processos de DM nos ciclos de produção, para que a solução seja aceite
mais facilmente no ambiente do negócio [Groth, 2000]. Mais do que uma metodologia de
DM, é considerada como um auxiliar para conduzir um projecto em todas as suas etapas,
desde a especificação do problema do negócio até à sua implementação.
17
SAS – SAS Institute Inc. http://www.sas.com
61
Capítulo 3 Descoberta de Conhecimento em Bases de Dados
O DM é definido pelo Instituto SAS como o “processo de extrair informação valiosa e
relações complexas de um grande volume de dados” e foi neste sentido, que dividiram o
processo de DM em 5 etapas (Figura 13) – dando origem ao acrónimo SEMMA [SAS,
2005][Groth, 2000]:
Figura 13 – Metodologia SEMMA (adaptado de [SAS, 2005]).
Numa forma resumida é possível apresentar esta metodologia como um processo com 5
fases, que se inicia com uma amostra (Sample) representativa dos dados à qual se
aplicam técnicas estatísticas de exploração e de visualização dos dados (Explore).
Posteriormente são seleccionadas e transformadas as variáveis (Modify) consideradas
mais significativas (as variáveis que sobressaíram na fase anterior), as que são mais
relevantes em termos de projecto, e sobre as quais se constroem os modelo (Model)
(aplicam-se algoritmos no sentido de alcançar os objectivos) e por fim se avalia o modelo
(Assess). Cada uma das etapas é distinta e corresponde a um ciclo, e as suas tarefas
internas podem ser executadas repetidamente sempre que necessário, i.e, pode-se
actualizar e ajustar quando surgir nova informação. A caracterização mais completa das
etapas da metodologia SEMMA, é apresentada no anexo B.
62
Capitulo 4 Problemas e Abordagens em Data Mining
Capitulo 4
São apresentados os principais problemas e abordagens
utilizados no processo de Data Mining, evidenciando as
propriedades associadas, com particular ênfase naqueles
que foram usados na aquisição de conhecimento no âmbito
do caso de experimentação de Database Marketing.
4
Problemas e Abordagens em Data Mining
4.1 Introdução
Recorrendo à sistematização é possível indicar (Figura
14) os tipos de problemas
(objectivos) mais frequentes num contexto de Descoberta de Conhecimento em Bases
Dados (DCBD), bem como as abordagens (algoritmos) mais adequadas.
Figura 14 – Matriz para Classificação (adaptado de [Rodrigues, 2000]).
63
Capitulo 4 Problemas e Abordagens em Data Mining
4.2 Tipos de Objectivos em Data Mining
Existem vários objectivos de Data Mining (DM), apresentados na Figura 14, os quais
normalmente se enquadram nas categorias de Previsão e Descrição.
4.2.1 Previsão
A Previsão envolve o uso de algumas variáveis ou campos numa Base de Dados (BD) no
sentido de prever valores desconhecidos ou valores para outras variáveis de interesse. O
objectivo principal do DM predictivo consiste em automatizar o processo de tomada de
decisão, criando um modelo capaz de prever ou estimar um valor. Normalmente, os
resultados do modelo são utilizados directamente nos dados, tornando a acuidade do
modelo como a medida desempenho mais importante para a sua avaliação, tanto nos de
classificação como nos casos de regressão:
4.2.1.1
Classificação
Trata-se do tipo de problema mais frequente em DM [Drozdenko, 2002] e consiste
basicamente na análise das características de um objecto e através de um classificador18,
associar a essas características classes predeterminadas. A classificação pressupõe a
existência de um número de categorias definido à priori pelo analista, pelo que o
objectivo do processo é a aprendizagem de uma função que faça o mapeamento de um
elemento dos dados numa ou várias classes.
18
Um Classificador classifica um conjunto de dados num número de possíveis categorias, definidas à priori pelo analista.
64
Capitulo 4 Problemas e Abordagens em Data Mining
O processo de classificação é supervisionado, o que significa ser necessária quer a
especificação de características com os respectivos valores (número ou classificação
correspondente) para cada categoria, quer proporcionar ao sistema um conjunto de dados
preparado – estes dados devem pertencer a diferentes categorias – permitindo assim ao
sistema aprender, generalizar e classificar novos padrões.
A classificação pode ser binária ou múltipla [Rodrigues, 2000]:
ƒ
Binária: Consiste na partição de um conjunto de dados em duas categorias que
reflictam a presença ou ausência de uma característica particular. A classificação
binária possui uma aplicação muito útil para problemas onde se procuram agrupar
dados por observação de registos anteriores, e.g., realização mailings selectivos para
respostas do género sim/não sobre um determinado produto;
ƒ
Múltipla: A classificação múltipla consiste em identificar a classe de um determinado
estudo pela partição do conjunto de dados em n categorias, como exemplo geral,
diagnóstico médico, classes de clientes
Uma vez treinado, o classificador cria, com base nos dados apresentados, uma estrutura
própria ou regras que permitem vir a generalizar para os novos casos.
4.2.1.2
Regressão
A regressão, frequentemente referida como previsão, consiste em prever valores futuros
ou desconhecidos de uma variável dependente, a partir de exemplos. Funcionalmente,
caracteriza-se pela atribuição de um peso relativo a cada variável (e.g., valor numérico),
permitindo valorizar cada registo, em função do seu conteúdo e relativizá-lo face aos
outros.
65
Capitulo 4 Problemas e Abordagens em Data Mining
4.2.2 Descrição
O objectivo primário do DM descritivo consiste em aumentar o conhecimento e a
compreensão sobre os dados, focando a procura de padrões descritivos reconhecidos ou
interpretáveis pelos humanos. Os resultados obtidos nem sempre se traduzem em acções
com aplicação directa. As novas perspectivas e os conhecimentos adquiridos sobre os
dados durante a construção do modelo, são o aspecto mais importante do processo,
podendo mesmo ocorrer que os resultados obtidos pelos modelos nunca venham a ser
utilizados.
Os problemas mais comuns definidos como descrição são (Figura 14):
ƒ
Segmentação;
ƒ
Associação ou Análise de Dependências;
ƒ
Sumariação;
ƒ
Visualização.
4.2.2.1
Segmentação
A segmentação consiste na identificação de um conjunto finito de categorias ou clusters
usados para descrição dos dados de acordo com uma métrica, segundo a qual se procura
maximizar as semelhanças e minimizar as diferenças entre si.
A aprendizagem neste modelo é do tipo não supervisionado, ao que corresponde na
prática, a inexistência de qual a informação inicial no sistema, assume-se que este
aprende por si mesmo. Nesta técnica, a pesquisa é realizada sobre os dados tendo em
conta todas as características de cada dado.
66
Capitulo 4 Problemas e Abordagens em Data Mining
Ao contrário do que acontece na classificação, não existe um conjunto predefinido de
categorias. Estas são descobertas em função da análise dos dados e da sua natureza. Esta
técnica permite o agrupamento de dados em diferentes categorias. Uma vez realizada esta
operação, obtém-se um agrupamento de dados sobre os quais se poderão realizar estudos
mediante o recurso a técnicas estatísticas, a árvores de decisão ou a redes neuronais.
4.2.2.2
Associação ou análise de dependências
Esta técnica permite ao analista definir um modelo que descreva possíveis dependências
significativas entre variáveis, através da identificação de grupos de dados fortemente
correlacionados. As associações detectam-se quando se verificam várias ocorrências num
único evento, podendo surgir a nível estrutural (i.é., o modelo é representado de uma
forma gráfica e com variáveis localmente dependentes em relação a outras) ou
quantitativo (i.é., o modelo especifica o peso das dependências segundo uma escala
numérica).
4.2.2.3
Sumariação
O objectivo da sumariação consiste em determinar uma descrição compacta para um
subconjunto de dados, através da aplicação de métodos próprios. Os métodos de
sumariação mais sofisticados derivam de regras de resumo e descobertas de relações
funcionais entre variáveis (e.g., relação entre o sexo e a preferência de cor). As técnicas
de sumariação são sempre aplicadas à análise exploratória de dados e à geração
automática de relatórios.
4.2.2.4
Visualização
A visualização possibilita a representação gráfica dos resultados (finais ou intermédios)
de DM recorrendo a formas visuais facilmente perceptíveis. O objectivo da visualização
consiste em descrever as informações complexas através de diagramas, permitindo uma
67
Capitulo 4 Problemas e Abordagens em Data Mining
melhor representação de padrões e tendências. Quanto melhor for a descrição de um
conjunto de dados, maior é a possibilidade de o entender e de compreender o domínio em
que está inserido.
4.3 Métodos de Abordagem em Data Mining
São agora referidos os principais métodos de abordagem em DM. Entende-se como
método de abordagem, os modelos e técnicas, provenientes de diferentes áreas
científicas, empregues no processo de Descoberta de Conhecimento.
Um modelo é definido como uma função (mapa) que atribui a cada exemplo possível, no
domínio definido pelos atributos de entrada, um valor contido no domínio do atributo de
saída, contendo cada modelo um conjunto de parâmetros que têm de ser ajustados (ou
estimados) a partir de um conjunto de dados, através de um algoritmo, na fase de
aprendizagem. Após a aprendizagem, é possível extrapolar novas saídas, alimentando o
modelo com novas entradas (utilização de um modelo) [Cortez, 2004].
Como técnica compreende-se o conjunto de processos baseados em conhecimentos
científicos, de cálculo ou experimentação, utilizados para a obtenção de um resultado
[Quintela, 2005]. Na construção de um modelo definem-se as principais características
do sistema, que devem representar o mais fielmente possível a realidade, recolhem-se os
dados necessários para a construção do modelo e para a consequente validação, sendo
necessária uma divisão do conjunto de dados em dois subconjuntos, um para geração do
modelo, chamado o conjunto de treino, e outro para validação do modelo, chamado o
conjunto de teste. Regra geral, o maior número de exemplos da amostra é colocado no
conjunto de treino, em proporções variáveis dependente de vários factores (e.g., natureza
do problema, número de casos da amostra, técnica a utilizar). Aos dados são aplicados
algoritmos para a identificação de padrões e relacionamentos.
68
Capitulo 4 Problemas e Abordagens em Data Mining
Saliente-se o facto de não existir um modelo universal de DM capaz de resolver todos os
problemas [Harrison, 1998]. A escolha de um determinado algoritmo é uma tarefa que
compete ao analista e, de certa forma, é uma arte [Fayyad et al., 1996], uma vez que
existem diferentes modelos para as mesmas tarefas de DM com vantagens e
desvantagens intrínsecas.
A Tabela
5 esquematiza algumas das técnica de DM
disponíveis para cada tipo de problema que foram empregues neste trabalho.
Tabela 5- Algumas das Técnicas disponíveis para cada tipo de problema em DM.
Classificação
Segmentação
Visualização
Sumariação
Associação
Previsão
Árvores
de Decisão
;
;
;
;
;
Regras de
Associação
;
;
Redes
Neuronais
;
;
;
;
;
;
RNA
Kohonen (SOM)
;
;
4.3.1 Regras de Associação – Indução de regras
As regras de associação derivam de um tipo de análise que procura extrair informação de
padrões que se repetem ou de coincidências dentro da BD. O exemplo clássico deste tipo
de análise é a determinação de padrões de consumo em supermercados.
As regras de associação são obtidas através de uma matriz de inter-relação, onde é
calculada a probabilidade de acontecimento de cada evento conjunto. O domínio de
maior aplicação das regras de associação é nos processos de análise exploratória de
dados, onde se procuram relações interessantes que possam existir no conjunto de dados.
As regras identificadas como úteis poderão então ser utilizadas na previsão (e.g., a
previsão de padrões de consumo e incorporação nas estratégias de marketing). No
entanto, o facto de se detectarem eventos que ocorrem simultaneamente, não significa
necessariamente que essa relação seja válida ou possa ser generalizada.
69
Capitulo 4 Problemas e Abordagens em Data Mining
Como exemplo de técnica para indução de regras é de referir, o algoritmo Generalized
Rule Induction (GRI) [Smyth et al., 1992] que gera regras para sumariar padrões
encontrados nos dados, usando uma medida quantitativa para avaliar o interesse das
regras obtidas. Esta métrica, sendo quantitativa, disponibiliza um método para a
ordenação de regras e permite ao sistema a confinação do espaço de procura para regras
úteis (através dos próprios limites criados pela sua aplicação). Permite ainda identificar, o
melhor, ou o conjunto de regras mais interessante para descrever a BD. Sucintamente,
denomine-se a medida quantitativa por J, que maximiza a simplicidade/adequação da
utilização de carácter teórico no cálculo de uma entropia cruzada. Uma regra no contexto
GRI toma a forma de:
Se Y=y então X=x,
com a probabilidadde de p
Onde o X e o Y são dois atributos e x e y são valores desses atributos. O consequente
(correspondente ao “então” da regra) é constrangido para a forma de uma expressão de
atribuição de um valor único enquanto que o antecedente (correspondente à parte “se” da
regra) poderá ser a conjunção de tais expressões, como por exemplo:
se Y=y e Z=z então X=x , com a probabilidade de p.
A complexidade da regra é definida pelo número de conjuntos que surgem como
antecedentes da regra.
A geração de regras pelo método GRI percorre os seguintes passos:
ƒ
Orientado aos atributos de saída Yi (i є N) processando individualmente cada um dos
atributos. O GRI deriva todas as regras possíveis para cada atributo em análise antes
de passar ao próximo. O GRI realiza uma primeira pesquisa em profundidade para
gerar o primeiro conjunto de regras;
ƒ
Orientado aos valores de saída: para cada atributo de saída, o algoritmo selecciona
cada valor de saída, yk (k є N) possível. Tal como anteriormente, todos os atributos
70
Capitulo 4 Problemas e Abordagens em Data Mining
de saída são processados de modo a que todas as regras que prevejam o atributo em
análise sejam geradas antes de passar para o próximo atributo;
ƒ
Para cada valor de saída é seleccionado um atributo de entrada Xm (k є N);
ƒ
Para cada atributo de entrada o algoritmo selecciona cada condição possível, xq (q є
N). As condições dependem do tipo de dados do atributo de entrada:
-
Para atributos simbólicos, cada valor desse atributo representa uma condição
possível;
-
Para atributos discretos, o conjunto de valores que assume é ordenado e cada um
deles testado individualmente, como sendo um potencial valor de referência
(critério). Para cada critério de divisão é determinado o valor estatístico J19, e o
critério que obter um valor de J mais alto é definido como o factor divisor para a
regra. Ocorrem então duas possibilidades: maior que o critério de referência ou,
menor ou igual que o critério.
ƒ
Sempre que a regra Xm=xq => Yi = yk ocorre é calculado o valor estatístico Js (valor J
mais elevado);
ƒ
Se o valor de Jz obtido é superior ao valor Jw (z,w є N, e z≠w) de qualquer outra regra
na tabela em análise que tenha sido criada para prever a mesma saída (Yi=yk), ou se o
número de regras na tabela é menor que o número máximo de regras na tabela e os
mínimos para os critérios de suporte e confiança foram atingidos, a regra
correspondente é então introduzida na tabela (substituindo o valor o J mais baixo
19
⎛
p( x | y )
(1 − p ( x | y )) ⎞
⎟ , onde
J ( x | y ) = p ( y )⎜⎜ p ( x | y ) log
+ (1 − p ( x | y )) log
p( x)
(1 − p ( x)) ⎟⎠
⎝
p(y) corresponde à probabilidade dos antecedentes da regra se verificarem num exemplo a partir do conjunto de dados;
p(x) corresponde à probabilidade dos consequentes da regra ocorrerem num exemplo a partir do conjunto de dados;
p(x | y) corresponde à probabilidade condicionada de ocorrer o consequente da regra condicionado pelo antecedente
71
Capitulo 4 Problemas e Abordagens em Data Mining
caso necessário) e recalculam-se os Js20(especialização da regra). Caso contrário
prossegue-se a análise para o próximo atributo de entrada;
ƒ
Caso ocorra J>Js a regra é especializada, tal como referido mais abaixo;
ƒ
Repetir até que todos os valores possíveis para cada um dos atributos de entrada, e os
valores possíveis para cada um atributos de saída tenham sido considerados.
Uma vez determinada uma regra e inserida na tabela, é necessário avaliar se existe algum
beneficio em especializar a regra ou adicionar mais condições aos antecedentes da
mesma. O limite superior para a quantidade de informação que poderá vir a ser ganha
pela especialização da regra, calculada como Js
Caso o limite superior seja maior do que a menor medida J para as regras na tabela que
prevêem o mesmo resultado, poderá existir algum beneficio na especialização da mesma,
pelo que se irão adicionar algumas condições. Caso contrário, se o limite superior é
menor que o menor dos J, significa não existir ganho de informação na especialização da
regra e como tal o algoritmo deverá prosseguir para a próxima regra.
A regra é especializada por via da adição de condições aos antecedentes, da mesma
maneira que foram usadas na criação original das regras. Os atributos de entrada que já
haviam sido avaliados como antecedentes para o valor se saída em análise não são
considerados como condições para potenciar a especialização. Cada regra especializada é
avaliada através do seu valor J face aos outros valores de outras regras na tabela com o
mesmo valor de saída e caso o seu valor seja superior ao menor J dessas regras, a regra
especializada substitui então a regra cujo J seja o mínimo da tabela.
20
Js = max[ p ( y ) p ( x | y ) log(
1
1
); p ( y )(1 − p ( x | y )) log(
)]
p( x)
1 − p( x)
72
Capitulo 4 Problemas e Abordagens em Data Mining
Sempre que uma regra especializada é adicionada à tabela, é de novo avaliado se são
necessárias outras especializações e, caso tal se verifique, todo o processo é reiniciado
até que uma das seguintes condições se verifique:
ƒ
Não existir qualquer benefício na especialização de regras determinado pelo cálculo
da medida J;
ƒ
Não existem mais atributos de entrada disponíveis para ser usados em regras de
especialização;
ƒ
O número de condições antecedentes na regra corrente é igual ao número máximo de
antecedentes definidos para o modelo.
Cada regra presente no conjunto final de regras tem associado um número de instâncias,
de suporte e de confiança, baseados no número de registos para os quais os antecedentes
e a regra por completo se verificam por completo.
ƒ
As instâncias correspondem ao número de registos para os quais os antecedentes são
verdadeiros;
ƒ
O suporte (S) é calculado como as instancias dividido pelo número total de registos,
ou
S=
Na
N
(Fórmula 3)
onde Na é o número total de registos onde os antecedentes ocorrem (instancias) e N é o
número total de registos do conjunto de treino;
ƒ
A confiança ( C ) é calculada pelo quociente entre o número de registos para os quais
a regra inteira ocorre (Nr) e o número de instancias (Na) , ou
73
Capitulo 4 Problemas e Abordagens em Data Mining
C=
Nr
Na
(Fórmula 4)
Uma regra poderá ainda ser avaliada em termos do seu desempenho, através do quociente
entre o nível de confiança da regra e o suporte respectivo. Caso este valor seja superior a
1, significa que a regra poderá produzir melhores resultados do que uma previsão
puramente aleatória.
4.3.2 Redes Neuronais
As Redes Neuronais Artificiais (RNA) têm um funcionamento análogo ao do sistema
nervoso central nos humanos, sendo constituídas por um conjunto de unidades básicas de
processamento fortemente interligadas – denominadas também aqui, por neurónios ou
nodos. Cada nodo recebe uma série de valores e, em função deles, determina um valor a
apresentar como saída. Os valores de saída de alguns nodos, são em alguns casos valores
de entrada de outros, dependendo da interligação existente entre eles. A forma como esta
interligação se encontra estabelecida é importante também para o tipo de resultados
obtidos [Groth, 2000],[Gago, 2001].
As RNA tem como características mas relevantes [Hagan et al., 1996]:
ƒ
Aprendizagem e generalização: conseguindo descrever o todo a partir de algumas
partes, constituindo-se como formas eficientes de aprendizagem e armazenamento de
conhecimento;
ƒ
Processamento paralelo: permitindo que tarefas complexas sejam realizadas num
curto espaço de tempo;
74
Capitulo 4 Problemas e Abordagens em Data Mining
ƒ
Não linearidade: atendendo a que a maioria dos problemas reais são de natureza não
linear;
ƒ
Adaptabilidade: podendo adaptar a sua topologia de acordo com mudanças do
ambiente;
ƒ
Robustez e degradação suave: permitindo processar o ruído ou informação
incompleta de forma eficiente, sendo capazes de manter o seu desempenho quando
acontece a desactivação de algumas conexões e/ou nodos;
ƒ
Flexibilidade: com um grande domínio de aplicabilidade.
Para se construir uma RNA é necessário determinar o número de neurónios, definir o seu
tipo, como é que estes vão estar ligados, iniciar os pesos da rede e proceder ao treino da
rede por aplicação de um algoritmo [Groth, 2000]. Durante o processo de aprendizagem,
dado por um algoritmo de aprendizagem ou de treino, os pesos das conexões são
ajustados de forma a se atingir um determinado objectivo; e.g., o estado de conhecimento
da rede. Embora seja esta a forma tradicional de construir RNA, também é possível
modificar a sua própria estrutura interna (ou topologia).
Um neurónio artificial, denominado nodo (Figura 15), é a unidade de processamento
chave para a operação de uma RNA. Embora existam diversos tipos de nodos,
normalmente, comporta-se como um comparador que produz uma saída quando o efeito
cumulativo das entradas excede um dado valor limite pré-definido. Um nodo é
constituído por três elementos fundamentais [Hagan et al., 1996]:
ƒ
Um conjunto de conexões que representam as sinapses ou conexões entre neurónios.
Cada conexão tem associado um peso, i.e., um número real ou binário (wij). que tem
um efeito excitatório (valores positivos) e inibitório (valores negativos). Assim, o
sinal ou estímulo (xj) como entrada da conexão é multiplicado pelo correspondente
peso wij, onde i representa o nodo objecto de estudo e j o nodo emissor do sinal. Em
75
Capitulo 4 Problemas e Abordagens em Data Mining
algumas situações pode ainda existir uma conexão extra, denominada de bias, cuja
entrada é fixada no valor +1, que estabelece uma certa tendência ou inclinação no
processo computacional (i.e., adiciona uma constante para que se estabeleçam as
correctas condições operacionais para o nodo).
ƒ
Um integrador (g), que reduz os n argumentos de entrada (estímulos) a um único
valor. Frequentemente, é utilizada a função adição ( Σ ), pesando todas as entradas
numa combinação linear.
ƒ
Uma função de activação (f), que pode condicionar o sinal de saída, introduzindo
uma componente de não linearidade no processo computacional.
Figura 15 – Estrutura do neurónio artificial (nodo) [Quintela, 2005].
Em termos formais tem-se que este neurónio artificial ou nodo, é descrito pelas seguintes
equações:
Ui=g(wi0 , x1* wi1 , x2 wi2 ,..., xn*win )
(Formula 5)
Si= f (ui)
(Formula 6)
76
Capitulo 4 Problemas e Abordagens em Data Mining
Para um nodo i com n entradas e uma saída, onde ui representa o ganho do nodo i e Si a
saída do nodo.
As três funções de activação (Figura 16) mais utilizadas são: (i) degrau ou step, (ii) sinal
e (iii) logística ou sigmóide.
Figura 16 – Esquemas com as funções de activação.
A função (i) é normalmente utilizada quando se pretende que os nodos adoptem valores
de saída +1 apenas se o ganho for não-negativo, de acordo com a filosofia tudo ou nada.
Em seguida, aparecem duas outras funções lineares. A função (ii) cuja o modo de
funcionamento é similar a um interruptor (ligado/desligado),adopta apenas valores +1 ou
-1 consoante a entrada. Quanto à função (iii) cuja forma é similar a um S, é a mais
utilizada no uso de RNA. Trata-se de uma função crescente que exibe um balanceamento
gracioso entre um comportamento linear e não linear. Quando se varia a inclinação (k)
obtêm-se funções com diferentes declives.
77
Capitulo 4 Problemas e Abordagens em Data Mining
Os nodos interligam-se numa estrutura de rede denominada por arquitectura ou
topologia. Existem vários tipos de arquitecturas ou topologias de RNA, organizando-se
em três categorias [Groth, 2000] [Rodrigues, 2000]:
ƒ
Redes Feedforward de uma Só Camada (Figura 17). Uma RNA feedforward pode
ser organizada por camadas, uma vez que não existem ciclos, dado que as conexões
são unidireccionais (convergentes ou divergentes). A topologia mais simples é
composta por uma camada de entrada, cujos valores de saída são fixados
externamente, e por uma camada de saída. A camada de entrada não é contabilizada
como camada numa RNA devido ao facto de nesta não serem efectuados cálculos.
Figura 17 – Rede de uma só camada.
ƒ
Redes Feedforward MultiCamada (Figura 18). Esta classe de redes feedforward
distingue-se por possuir uma ou mais camadas intermédias, cujos nodos são
designados por nodos intermédios, sendo a sua função intervir de forma útil entre a
entrada e a saída da rede. O aumento do número de camadas intermédias, eleva a
capacidade da rede em modelar funções de maior complexidade. No entanto, este
acréscimo implica o aumento de forma exponencial do tempo necessário para a
aprendizagem.
78
Capitulo 4 Problemas e Abordagens em Data Mining
Figura 18 – Arquitectura de uma rede feedforward multicamada
ƒ
Redes Competitivas ou Recorrentes (Figura 19). A recorrência existe em sistemas
dinâmicos quando uma saída de um elemento influencia de algum modo a entrada
para esse mesmo elemento, criando-se assim um ou mais circuitos fechados. Ao se
incluirem uma ou mais conexões cíclicas numa rede, esta passa a ter um
comportamento não linear, de natureza espacial e/ou temporal. Estas redes podem
formar topologias arbitrárias.
Figura 19 – Arquitectura de uma rede competitiva ou recorrente.
Uma das propriedades das RNA é a sua capacidade para aprender a partir do seu
ambiente. O processo de aprendizagem envolve a seguinte sequência de eventos
[Quintela, 2005]:
ƒ
A RNA é estimulada por um dado ambiente;
79
Capitulo 4 Problemas e Abordagens em Data Mining
ƒ
Alguns parâmetros livres (e.g., pesos das conexões) são alterados em resultado do
estímulo recebido;
ƒ
A RNA responde de uma nova forma ao ambiente em virtude das alterações na sua
estrutura interna.
A aprendizagem é executada a partir de um algoritmo de aprendizagem. Este consiste
num conjunto de regras bem definidas para resolver um problema de aprendizagem. Os
algoritmos de aprendizagem relacionam-se com o ambiente, e neste contexto está-se a
falar de um paradigma (i.e., o modelo do ambiente em que a rede opera). Existem três
paradigmas fundamentais de aprendizagem [Groth, 2000]: (i) Supervisionada, (ii) De
Reforço e, (iii) Não Supervisionada.
ƒ
O paradigma de aprendizagem Supervisionada (Figura
20) é bastante popular
envolvendo a presença de um “professor”, sendo fornecidas respostas correctas à
rede. Perante uma configuração que é apresentada a RNA produz uma resposta, que é
comparada com a resposta correcta. A rede aprende a partir de um conjunto de
padrões (P), onde cada exemplo ou caso de treino é composto por um vector de
entrada e por um vector de resposta ou saída. Durante o processo de aprendizagem é
efectuada uma comparação entre o valor desejado com o valor de saída da rede,
originando um erro. O erro é utilizado para ajustar os pesos das conexões, de forma a
que o erro seja reduzido. Cada iteração do algoritmo de treino é composta por
ajustamentos para os casos de treino. A aprendizagem é conseguida quando o erro é
minimizado. Idealmente a RNA sabe mais sobre o seu ambiente após cada iteração.
80
Capitulo 4 Problemas e Abordagens em Data Mining
Figura 20 – Paradigma de aprendizagem supervisionada.
ƒ
O paradigma de aprendizagem De Reforço, envolve tal como o anterior a presença de
um “professor”. No entanto, a resposta correcta não é apresentada à rede. Apenas se
fornece uma indicação sobre se a resposta da rede é correcta ou errada. A partir desta
informação a rede ajusta-se por forma a melhorar a sua eficácia. Um prémio é dado
pelo reforço dos pesos das conexões que dão uma resposta correcta e uma penalidade
é dada na situação oposta.
ƒ
O paradigma de aprendizagem não supervisionada (Figura
21), segue uma
abordagem diferente, onde não é fornecida ao sistema uma indicação externa acerca
da resposta correcta. A aprendizagem é realizada através da identificação de
características nos dados de entrada, adaptando-se a regularidades estatísticas ou
agrupamentos de padrões dos exemplos de treino (e.g., Redes de Kohonen).
Figura 21 – Paradigma da aprendizagem não supervisionada.
81
Capitulo 4 Problemas e Abordagens em Data Mining
Existem várias classes de RNA, tendo as primeiras surgido nos anos 50. As redes do tipo
Perceptron (Figura 22) são redes feedforward com apenas uma camada de nodos com
várias entradas e saídas. Cada nodo calcula a soma pesada das suas entradas, sendo o
valor de saída do tipo binário (0 ou 1) de acordo com determinado limite. A função de
activação deste tipo de redes é a função Step.
Estas redes Perceptron destacam-se pela simplicidade de utilização, derivada de um
número reduzido de parâmetros a ajustar, e ao facto do conjunto de padrões (P) de
entrada não necessitar de um pré-processamento elaborado. Devido a estas características
a aplicação resume-se contudo a padrões de complexidade não muito elevada,
linearmente separáveis (separáveis por uma linha recta)
Figura 22 – Rede perceptron.
No final da década de 60 Minsky e Papert demostraram que uma rede feedforward com
duas camadas pode solucionar muitas das restrições até aí encontradas na utilização das
redes do tipo Perceptron [Quintela, 2005]. Contudo não apresentaram nenhuma solução
para o problema do ajustamento dos pesos para as camadas escondidas. Só em 1986,
Rumelhart, Hinton e Williams apresentaram uma solução para este problema, o algoritmo
de Back-Propagation (BP) - Retropropagação.
As Redes Feedforward Multicamada (RMFC), ou Redes Perceptrão Multicamada,
constituem uma das mais importantes e populares classes de RNA, sendo utilizadas em
múltiplos domínios de aplicação, em problemas de memória associativa, classificação,
82
Capitulo 4 Problemas e Abordagens em Data Mining
reconhecimento de padrões, optimização e regressão. A não linearidade, a existência de
nodos intermédios e o alto grau de conectividade tornam esta arquitectura muito
poderosa como máquina de aprendizagem. No entanto estas características dificultam
uma análise teórica ao processo de aprendizagem.
As RFMC são compostas por:
ƒ
um conjunto de nodos de entrada, onde surgem os estímulos do ambiente;
ƒ
um conjunto de nodos intermédios, unidades internas de processamento que
aumentam a capacidade de aprendizagem de tarefas complexas, através da extracção
progressiva de mais características;
ƒ
um conjunto de conexões pesadas unidireccionais;
ƒ
um conjunto de funções de activação, normalmente do tipo não linear e diferenciável
sendo a função logística uma das mais utilizadas.
O sinal de entrada propaga-se para a frente através da rede, camada por camada, não
existindo ciclos. O primeiro algoritmo de aprendizagem por correcção de erros e
aprendizagem supervisionada foi desenvolvido por Widrow e Hoff, sendo conhecido por
Delta Rule, Least Mean Square (LMS) ou Adaptive Linear Neuron [Quintela, 2005].
Trata-se de uma generalização do Perceptron, estendendo a técnica para entradas e
saídas contínuas, apresentando uma única camada de neurónios. O erro é calculado como
a diferença entre a resposta desejada e a resposta produzida pela RNA, ajustando-se o
peso de forma a que se torne zero. O algoritmo mais popular usado na aprendizagem
supervisionada é o algoritmo de BP, ou os seus derivados, uma variação da regra de
Widrow-Hoff. Trata-se de um algoritmo de referência, já que constitui um método
eficiente de computação para o treino de RFMCs, procurando o mínimo da função de
erro no espaço de procura dos pesos, baseando-se em métodos de gradiente descendente.
A combinação dos pesos que minimiza a função do erro
83
Capitulo 4 Problemas e Abordagens em Data Mining
O algoritmo de BP utiliza dois passos [Cortez, 2002]:
ƒ
Em frente, o vector de entrada é fornecido aos nodos de entrada, propagando-se em
frente, camada por camada, estando neste passo os pesos da rede fixos.
ƒ
Retropropagação, onde o erro é propagado para trás, desde a saída até aos nodos de
entrada. De seguida, os pesos são ajustados segundo a regra de Widrow-Hoff.
Antes de se proceder ao inicio do treino de uma rede procede-se à escolha dos valores
iniciais dos pesos associados às conexões entre os nodos, devendo ser pequenos e
gerados de forma aleatória. Inicia-se então o treino da rede, seleccionando-se um caso de
treino, de forma iterativa ou em lote. Em seguida, calcula-se o gradiente e ajustam-se os
pesos. Uma iteração termina quando todos os casos disponíveis tiverem sido
considerados. O processo é terminado por critérios de paragem, por exemplo quando as
mudanças nos pesos e na função de erro foram insignificantes. O algoritmo de
aprendizagem pode convergir para um mínimo local, porém constata-se que quando se
parte de um número elevado de casos de treino esta questão não assume relevância.
O surgimento do algoritmo de BP, influenciou de forma decisiva a investigação na área
das RMFC, o que motivou o aparecimento de novos algoritmos de treino, devido a dois
factores [Cortez, 2002]: (i) o algoritmo de BP apresenta uma convergência lenta, e (ii)
baseia-se no gradiente descendente, pelo que todas as técnicas de optimização não linear
do gradiente podem ser aplicadas.
Diversas variantes baseadas no algoritmo de BP têm sido propostas, tendo como base o
uso de uma topologia fixa. No entanto, as melhorias mais significativas advêm da
utilização de algoritmos que adaptam não só os pesos mas também a topologia interna da
rede a uma dada tarefa. Estas variantes podem ser classificadas em duas categorias
[Cortez, 2002]: de adaptação global ou local. A primeira utiliza um conhecimento global
do estado completo da rede, como a direcção de todo o vector de actualização dos pesos.
Os últimos são baseados na informação específica de um peso, como o comportamento
84
Capitulo 4 Problemas e Abordagens em Data Mining
temporal da sua derivada parcial. Esta estratégia é mais próxima ao conceito das RNA
sendo mais facilmente paralelizável, e tendendo a ser mais eficazes e robustas, apesar de
usarem menos informação [Quintela, 2005].
Uma RFMC treinada por BP pode ser vista como uma forma prática para efectuar uma
qualquer correspondência não linear, conseguindo com uma camada intermédia computar
uma aproximação de uma qualquer função contínua. Com duas camadas intermédias é
possível representar até funções descontínuas [Cortez, 2002].
Na utilização de RMFC um dos aspectos mais importantes é também o tempo de
aprendizagem. De uma forma geral, a aprendizagem implica a procura dos elementos
desconhecidos de uma RNA, normalmente pelo ajuste dos pesos. A aprendizagem numa
rede com 100 pesos é bastante mais pesada em termos computacionais do que a de uma
rede com 10 pesos, sendo uma relação bem maior que o factor 1:10 poderia sugerir. Seria
muito útil que o tempo de aprendizagem fosse limitado por uma função polinomial sobre
o número de variáveis, o que não acontece em termos práticos. O problema geral de
aprendizagem em RNA não pode ser resolvido eficientemente para todas as instâncias.
Não é conhecido um algoritmo que consiga realizar a aprendizagem num tempo
polinomial, sendo até muito pouco provável que tal possa vir a existir. Com estes
constrangimentos, diz-se que em geral o problema de aprendizagem em RNA é Não
Polinomial (NP)-completo. Uma das possibilidades para ultrapassar a aprendizagem NPcompleta das RNA reside no uso de arquitecturas adaptativas [Cortez, 2002]. Na classe
de RNA de aprendizagem não supervisionada, existem dois algoritmos com grande
utilização: as redes competitivas e as redes de Kohonen.
Nas redes competitivas quando um exemplo é processado pela rede, todas as unidades de
saída vão concorrer pelo direito à resposta. Aquela que responde mais fortemente é a
célula mais activa, assim, os pesos das ligações existentes nesta unidade são ajustados de
forma a que a sua resposta seja reforçada, tornando assim mais provável que a
identificação dessa qualidade da entrada seja efectuada por esta unidade.
85
Capitulo 4 Problemas e Abordagens em Data Mining
As redes de Kohonen [Kohonen, 1989] também denominadas por mapas autoorganizativos (Self-Organizing Maps - SOM) têm sido utilizadas com bastante sucesso
não só em análise de dados como também em reconhecimento de voz. Estas redes são
constituídas por duas camadas, uma de entrada e outra de saída, não possuindo níveis
intermédios.
O número de nodos no nível de entrada é calculado em função dos atributos de entrada,
sendo o número de nodos no nível de saída igual ao número de segmentos obtidos na fase
de aprendizagem. Nesta fase cada nodo de saída compete com os outros nodos para
ganhar a classificação de um dado registo. Os pesos das conexões são ajustados em
função do sucesso (ou insucesso) de cada nodo. O processo de modelação conduz ao
agrupamento dos nodos em vectores, que representam as classes identificadas. Os pesos
obtidos para as conexões permitem verificar a influência que cada atributo teve na
identificação das classes [Santos, 1999].
Este tipo de RNA corresponde frequentemente a redes de camada única que se autoorganizam através do mecanismo de competição [Chester, 1993], por forma a considerar
todos os casos da amostra. Neste mecanismo quando um objecto é processado pela rede,
todas as unidades de saída vão concorrer pelo direito à resposta. Aquela que responde
mais fortemente é a célula mais activa, assim, os pesos das ligações existentes nesta
unidade são ajustados de forma a que a sua resposta seja reforçada, tornando assim mais
provável que a identificação dessa qualidade da entrada seja efectuada por esta unidade
(Figura 23).
86
Capitulo 4 Problemas e Abordagens em Data Mining
Figura 23 – Esquema das redes de Kohonen [Kohonen, 1989].
As redes de Kohonen permitem a identificação de similaridades entre vários sinais,
agrupando-os em segmentos, tornando-se eficientes quando utilizadas sobre padrões com
alguma relação entre si, podendo desta forma ser segmentados. Por outro lado, este
modelo é complexo em comparação com outros, pois (i) a variável do raio de vizinhança
deve ser ajustada adequadamente e, (ii) o número mínimo de iterações necessárias é de
500 vezes o número de neurónios de saída.
As RNA apresentam-se como uma solução válida para a resolução de problemas de
regressão não linear pois os seus resultados produzem normalmente taxas de erros
baixas, embora o seu resultado não seja uma função matemática que possa ser facilmente
utilizada. Na resolução deste tipo de problemas são normalmente utilizadas redes com
uma única saída (correspondente à variável cujo valor se pretende conhecer).
Nos problemas de classificação por recurso a RNA, a arquitectura da rede comporta
tantas saídas quantas as classes existentes. A saída com valor mais elevado determina a
classificação feita pela rede.
As maiores dificuldades encontradas na utilização das RNA decorrem do facto de
exigirem dados numéricos, de preferência na gama de valores [0,1] ou [-1,1] dependendo
da função de activação. Este género de problemas deverá ser tratado na fase de préprocessamento de dados, contudo após a preparação dos dados ainda existe o problema
87
Capitulo 4 Problemas e Abordagens em Data Mining
do treino da rede, o qual se revela normalmente moroso. Embora a capacidade de
processamento dos computadores não pare de aumentar não será de estranhar se uma
rede neuronal necessitar de um período de treino longo, de algumas horas ou mesmo
dias, quando são utilizadas quantidades consideráveis de dados, dando origem à sugestão
de várias alterações do método de treino. Finalmente, a acompanhar todas estas
dificuldades existe uma outra que decorre da selecção da arquitectura a utilizar para a
RN.
4.3.3 Árvores de Decisão
Comparativamente com os resultados da aplicação de uma RN, normalmente de difícil
compreensão, o resultado da aplicação de um algoritmo de indução de Árvores de
Decisão (AD) é normalmente de fácil compreensão [Linoff et al., 1997]. Este facto
justifica a grande popularidade dos métodos de geração de árvores de decisão junto dos
utilizadores de programas de apoio à decisão.
Existem diversos algoritmos capazes de produzir AD, mas o seu funcionamento é
basicamente o mesmo [Gago, 2001]. Partindo do conjunto inicial de dados, usam-se os
valores de um dos atributos para efectuar a partição dos mesmos em vários subconjuntos.
O processo de partição é recursivamente aplicado a cada um dos subgrupos até que cada
um dos subgrupos obtidos seja constituído por registos de uma só classe [Quinnlan,
1996]. A forma como é escolhido o atributo que vai gerar a próxima partição é algo que
varia de algoritmo para algoritmo. Os diversos algoritmos podem também apresentar
algumas diferenças ao nível da condição de paragem.
Na Figura 24 é apresentada parte de uma AD para classificação dos clientes de um
banco. Conhecendo o rendimento e a composição do agregado familiar do cliente, o
banco pretende saber se lhe deve conceder um empréstimo. O banco tem uma BD
contendo o historial das transacções com os seus clientes. Partindo dessas BD pode ser
88
Capitulo 4 Problemas e Abordagens em Data Mining
possível construir uma AD como a apresentada na Figura 24 que permitirá decidir sobre
a atribuição de empréstimo a novos clientes.
Com base nesta AD o banco recusaria o empréstimo a todos os clientes com um
agregado familiar com mais de dois elementos e cujos rendimentos fossem inferiores a
500.
Rendimento > 500 ?
Não
Agregado <= 2 ?
Não
Recusar
Sim
Emprestar
Sim
Emprestar
Figura 24 Exemplo de uma árvore de decisão.
Os algoritmos de indução de AD trabalham com os dados na forma de folha de cálculo,
sem existir a necessidade de normalização dos valores pelo que se revelam rápidos
quando comparados com outros métodos como as redes neuronais artificiais, que
necessitam de muito tempo de aprendizagem [Quinnlan, 1996]. Uma das suas maiores
vantagens é o facto de as árvores serem facilmente interpretadas pelos humanos, embora,
quando a árvore se torna muito grande, essa vantagem se comece a desvanecer [Linoff et
al., 1997]. Outra vantagem consiste na facilidade que têm no tratamento de dados não
numéricos. Os algoritmos como o C5.0 [Quinnlan, 2004], apresentado mais à frente,
conseguem tratar tanto dados numéricos como simbólicos.
Formalmente uma AD consiste numa estrutura arborescente em que cada nó define uma
condição lógica sobre um atributo duma instância. Denominado um conjunto de
instâncias S e o conjunto de atributos considerado por A={a1,….an} então para x є S temse x ≡ {a1(x),…,a2(x)}, sendo a1(x) o valor assumido pelo atributo a1 na instância x.
89
Capitulo 4 Problemas e Abordagens em Data Mining
Assim, o nó i duma árvore contém uma condição sobre algum elemento de A, por
exemplo ak>4,8 ou ak=alto. Cada ramo derivado dum nó consiste num possível valor do
atributo considerado no nó. Cada folha da árvore representa um elemento duma classe.21
Cada caminho, desde a raiz até uma folha corresponde a uma regra de decisão ou
classificação. Uma AD é traduzível numa disjunção de conjunções lógicas de condições
sobre os valores de A, sendo cada ramo da árvore uma conjunção de condições e o
conjunto dos ramos disjuntos. As AD são essencialmente utilizadas em problemas de
classificação, são uma forma de representação de um conjunto de regras que seguem uma
hierarquia de classes ou valores, expressando uma lógica simples condicional.
Graficamente, são semelhantes a uma árvore, consistindo numa estrutura que interliga
um conjunto de nós através de ramos resultantes de uma partição recursiva dos dados,
desde o nó raiz até aos nós terminais (folhas), que fornecem a classificação para a
instância [Santos, 1999].
As regras utilizadas no caso de estudo apresentado nesta tese foram geradas usando o
algoritmo C5.0 (Tabela 6), o qual é uma evolução do algoritmo C4.5 que por sua vez é
um melhoramento ao algoritmo ID3 [Quinnlan, 1986]. Todos têm como objectivo
comum a criação de AD a partir das quais permitem também a derivação de regras.
Tabela 6 - Evolução do algoritmo ID3.
Algoritmo
ID3
C 4.5
C 5.0
21
Características
Variáveis discretas
Critério de entropia
Variável mais informativa em cada nodo
Uso de valores contínuos
Utilização de dados com valores omissos
Poda árvores de decisão
Derivação de regras
Boosting
Na aprendizagem supervisionada, cada instância possui um atributo especial denominado classe, que descreve o fenómeno de interesse. Em casos de classificação, as classes pertencem a um conjunto discreto
.
nominal de valores, enquanto que nos casos de regressão pertencem a um conjunto de valores reais
90
Capitulo 4 Problemas e Abordagens em Data Mining
Quando é necessária a classificação de um conjunto de registos, o algoritmo ID3 começa
por procurar qual o atributo que deve ser utilizado para efectuar a primeira divisão. São
testados todos os atributos e é escolhido aquele que, segundo um critério que será
explicado à frente, permite uma melhor divisão dos registos. Depois deste primeiro passo
é criado um ramo da árvore para cada valor possível do atributo escolhido. Os registos
são distribuídos pelos ramos a que pertencem e cada um dos grupos de registos assim
obtidos sofre depois um processo semelhante (é escolhido o atributo que faz a melhor
divisão...). O algoritmo pára quando o conjunto a classificar é composto por registos
todos pertencentes à mesma classe [Quinnlan, 2004].
A medida que o ID3 utiliza para fazer a divisão dos casos é o ganho de informação
[Quinnlan, 1986]. O ganho de informação corresponde à redução da entropia22 obtida
através da partição dos registos da base de dados pelos valores de um dado atributo.
Para um conjunto S de registos, em que cada registo pode pertencer a uma de n classes, a
entropia é definida como:
n
(Fórmula 7)
Entropia ( S ) = − ∑ pi ⋅ log 2 ( pi )
i =1
O valor de pi é dado pelo número de registos de S que pertencem à classe i sobre o
número total de registos de S, e representa a probabilidade de um registo, escolhido ao
acaso, pertencer à classe i.
22 A entropia é usada como representação “da ordem interna” de um conjunto de registos. Um conjunto de registos todos da mesma classe terá entropia zero. Se no conjunto, 50% dos registos forem de uma classe
e os restantes 50% forem de outra, a entropia será um.
91
Capitulo 4 Problemas e Abordagens em Data Mining
Considere-se o exemplo, adaptado de [Quinnlan, 1986], apresentado na Tabela 7. Nessa
tabela encontram-se 14 registos que serão usados para a construção de uma AD. Cada
registo tem 5 atributos, sendo que o último (jogar?) indica a classe a que o registo
pertence, jogar є {sim , não}. Usando as equações acima, verifica-se que a entropia do
conjunto dos 14 registos que compõem a tabela é de 0,940. Este valor é calculado
verificando que, num total de 14 registos, existem 9 pertencentes a uma classe (a classe
sim) e 5 pertencentes a outra (a classe não). Assim,
Entropia( S ) = −
(Fórmula 8)
9
9
5
5
log 2 ( ) −
log 2 ( ) = 0,940
14
14 14
14
Tabela 7 - Dados usados pelo algoritmo.
Aspecto do dia
Temperatura
Humidade
Vento
Jogar?
Sol
Quente
Alta
Fraco
Não
Sol
Quente
Alta
Forte
Não
Nublado
Quente
Alta
Fraco
Sim
Chuva
Normal
Alta
Fraco
Sim
Chuva
Frio
Normal
Fraco
Sim
Chuva
Frio
Normal
Forte
Não
Nublado
Frio
Normal
Forte
Sim
Sol
Normal
Alta
Fraco
Não
Sol
Frio
Normal
Fraco
Sim
Chuva
Normal
Normal
Fraco
Sim
Sol
Normal
Normal
Forte
Sim
Nublado
Normal
Alta
Forte
Sim
Nublado
Quente
Normal
Fraco
Sim
Chuva
Normal
Alta
Forte
Não
A partir da entropia, define-se uma medida da qualidade da classificação de um conjunto
de registos a partir de um atributo. A medida usada no ID3 é o ganho de informação que
é uma medida da redução de entropia que se obtém aquando da partição dos registos
pelos valores do atributo escolhido.
92
Capitulo 4 Problemas e Abordagens em Data Mining
O ganho de informação que se obtém a partir da partição dos registos de um conjunto S
com base nos valores de um atributo A é dado por:
m
(Fórmula 9)
Ganho( S , A) = Entropia( S ) − ∑ pi ⋅ Entropia( S i )
i =1
Nesta equação, m é o número de valores diferentes que o atributo A pode tomar, Si é o
número de elementos de S em que o atributo A toma o valor de ordem i e pi é o quociente
entre o número total de registos em S e o número daqueles em que o atributo A toma o
valor de ordem i. O ganho é então a diferença entre a entropia do conjunto inicial e a
soma ponderada das entropias de cada um dos conjuntos obtidos na partição.
Para exemplo, calcule-se o ganho de informação obtido pela partição dos registos da
Tabela 7 pelos valores do atributo Vento (Forte ou Fraco).
Acima mostrou-se que a entropia inicial do conjunto é de 0,940. É necessário agora
completar os cálculos. Seja SFraco o conjunto dos registos de S em que o atributo Vento
tem o valor Fraco e SForte o conjunto de registos de S em que o atributo Vento tem o
valor Forte. Por observação da tabela verifica-se que SFraco tem 6 elementos da classe
sim e 2 elementos da classe não. A sua entropia é, portanto, de 0,811. O conjunto SForte
tem 3 registos da classe sim e 3 registos da classe não, o que vai corresponder a uma
entropia de 1,000. Estes valores permitem efectuar o cálculo do ganho de informação:
Ganho ( S ,Vento ) = 0,940 − (
6
8
) ⋅ 0,811 − ( ) ⋅ 1,000 = 0,048
14
14
De forma análoga, podem ser calculados os ganhos de informação resultantes da partição
dos 14 registos pelos restantes atributos. Os valores resultantes são apresentados:
Ganho (S, aspecto_do_dia) = 0,246
Ganho (S, Humidade) = 0,151
Ganho (S, Temperatura) = 0,029
93
Capitulo 4 Problemas e Abordagens em Data Mining
A partir destes valores conclui-se que a melhor escolha para a partição é pelos valores do
atributo Aspecto_do_dia. Voltando a repetir o mesmo procedimento para cada um dos
três ramos que se obtêm pela partição do conjunto pelos valores do atributo
Aspecto_do_dia, vai-se construindo o resto da árvore. A árvore completa é apresentada
na Figura 25.
Figura 25 - Árvore de decisão obtida pelo algoritmo ID3.
O ganho de informação é uma medida que apresenta alguns problemas, nomeadamente
ao favorecer a escolha de atributos com uma grande variedade de valores, originando
árvores com muitos ramos em cada nodo. Para evitar essa situação, Quinnlan sugere a
utilização de uma razão entre o ganho de informação (RazãoGanho) e a entropia dos
conjuntos resultantes da partição [Quinnlan, 2004]. Esta nova medida é chamada de
Razão de Ganho (gain ratio) e foi introduzida no algoritmo C4.5.
RazãoGanho( D, T ) =
Ganho( D, T )
InfoDivisão( D, T )
(Fórmula 10)
Onde a Infodivisão(D,T) corresponde à informação devida à partição do conjunto T pelos
valores do atributo D. Considerando o exemplo apresentado e utilizando a razão do
ganho para a primeira divisão dos registos, obtemos os seguintes valores, ara o atributo
Vento:
RazãoGanho (Vento, T ) =
Ganho (Vento, T )
InfoDivisã o(Vento, T )
(Fórmula 11)
94
Capitulo 4 Problemas e Abordagens em Data Mining
Existem seis registos em que o atributo Vento tem o valor Forte e oito em que o valor é
Fraco. O valor de Ganho(Vento,T) já foi calculado e é de 0.048. Falta apenas calcular
InfoDivisão(Vento,T).
InfoDivisão(Vento, T ) = −
6
6
8
8
log 2 ( ) − log 2 ( ) = 0.985
14
14 14
14
(Fórmula 12)
Finalmente calcula-se
RazãoGanho(Vento, T ) =
0.048
= 0.049
0.985
(Fórmula 13)
De forma análoga é possível fazer os cálculos para os restantes atributos.
O algoritmo C4.5 permite também o tratamento de registos com valores em falta. No
caso de existirem registos com valores em falta, o cálculo da RazãoGanho é feito com
base nos registos onde esse valor é conhecido. Quando se pretende utilizar a árvore para
classificar registos com valores em falta, estima-se a probabilidade das várias
classificações.
Para permitir tratar atributos com valores numéricos, o algoritmo C4.5 analisa todos os
valores presentes na base de dados para esse atributo. Para cada um desses valores é
efectuada a partição do conjunto de registos e calculada a RazãoGanho. Embora permita
tratar atributos cujos valores pertencem a um intervalo contínuo, esse tratamento vai
implicar um grande número de cálculos.
É teoricamente possível treinar a AD por forma a obter uma taxa de sucesso de cem por
cento nos casos de treino. Esse resultado é indesejável pois obtém-se uma árvore muito
mais complexa, muito adaptada aos dados de treino e que terá resultados maus quando
aplicada a novos conjuntos de dados. Nesse caso diz-se que se deu a sobre-especialização
da árvore.
95
Capitulo 4 Problemas e Abordagens em Data Mining
Uma forma de evitar o problema da sobre-especialização e simultaneamente reduzir o
tamanho da árvore, é através da poda da árvore. Para efectuar a poda de um ramo da
árvore, compara-se o erro que se obtém usando a árvore completa com aquele que se
obtém substituindo esse ramo por uma folha (atribuindo essa folha à classe mais comum
no ramo a eliminar). Se a árvore podada tiver um desempenho igual ou melhor que a
árvore original a eliminação do ramo é confirmada [Santos, 1999].
Pese embora não exista documentação a partir da qual seja possível explicitar o modo de
funcionamento do algoritmo C5.0, este é uma evolução dos apresentados anteriormente
[Quinnlan, 1996]. O grande salto foi dado em termos de eficiência, quer a nível de tempo
de processamento e de memória utilizada [Quinnlan, 2004]. Por outro lado, os
classificadores gerados são normalmente mais pequenos e precisos.
Para além do salto em eficiência o sistema C5 oferece mais alguns melhoramentos como:
novos tipos de dados incorporados (ex: pode trabalhar com o tipo “não a aplicável” N/A); atributos definidos a partir de combinações funcionais doutros atributos; utilização
de custos diferenciados para os erros de classificação.
Uma outra característica que permite diminuir a taxa de erro dos classificadores, no C5, é
a utilização de Boosting [Schapire, 2002]. Esta técnica consiste em gerar vários
classificadores, a partir dos mesmos dados de treino, e depois combiná-los num
classificador final no qual cada classificador inicial participa votando com um certo peso.
Este peso é ajustado durante o processo de treino [Quinnlan 1996]. Nalguns casos a
redução dos erros de classificação pode atingir 40% [Quinnlan, 2004].
É simples passar de uma AD para um conjunto de regras que lhe sejam equivalentes.
Para tal, basta seguir o caminho desde a raiz da árvore até cada uma das folhas. Cada um
desses caminhos representa uma regra. Para a árvore de decisão da Figura 25, as regras
resultantes são as seguintes:
SE Aspecto dia = Sol E Humidade = Alta ENTÃO Não
96
Capitulo 4 Problemas e Abordagens em Data Mining
SE Aspecto dia = Sol E Humidade = Normal ENTÃO Sim
SE Aspecto dia = Nublado ENTÃO Sim
SE Aspecto dia = Chuva E Vento = Forte ENTÃO Não
SE Aspecto dia = Chuva E Vento = Fraco ENTÃO Sim
Quando as AD são muito grandes, a sua interpretação torna-se mais difícil sendo
normalmente mais conveniente trabalhar com as regras. Existe um procedimento, usado
com o C5.0 que, além de transformar a árvore em regras, tenta ainda simplificá-las.
Para cada regra tenta-se a sua generalização, removendo condições. Se a taxa de erro da
nova regra não for superior à da regra original, a nova regra substitui a anterior. Este
procedimento dá origem a regras não mutuamente exclusivas e a casos em que existem
registos que não são cobertos por nenhuma regra. Para obviar a estes problemas,
ordenam-se as regras, para que apenas a primeira regra aplicável a um registo seja
utilizada e cria-se uma classe “default” (por omissão) que será a classe a que pertencem
todos os registos que não são classificados pelas restantes regras.
Numa última fase, as regras são agrupadas pela classe a que pertencem e são eliminadas
aquelas que parecem contribuir pouco para a diminuição da taxa de erro do conjunto.
O processo de DCBD utiliza diversos algoritmos que processam os dados e permitem
determinar padrões válidos, novos e valiosos, contudo a aplicação destes e a sua
utilização requer uma interacção muito forte com os analistas, que são, em última
instância, os principais responsáveis pela determinação do seu valor. Além disso, a
condução da exploração de dados é também uma tarefa fundamentalmente confiada a
analistas, um aspecto que não pode ser desprezado em nenhum projecto que se deseje
bem sucedido [Rodrigues, 2000].
97
Capitulo 4 Problemas e Abordagens em Data Mining
4.4 Avaliação dos Resultado s
Uma vez aplicados os algoritmos de DM é necessário efectuar a análise dos resultados
obtidos por forma a verificar a sua validade e utilidade. Caso esta análise não seja
efectuada, existe o risco de serem apresentados resultados errados ou sem interesse. Um
exemplo citado na literatura [Cabena et. al. 1998] é o de um estudo realizado para uma
seguradora que concluiu que o número de acidentes de viação era mais elevado entre
clientes com o signo Peixes. Uma análise dos resultados permitiu verificar que a
companhia tinha mais clientes desse signo que dos outros, e portanto, se os clientes desse
grupo eram mais, era natural que existisse um número mais elevado de acidentes.
Existem vários métodos de amostragem para estimar a capacidade de generalização de
um modelo: Estatística Simples, Validação com Divisão da Amostra, Validação Cruzada
e Bootstrapping.
O método mais popular para a estimação do erro de generalização é a Validação com
Divisão da Amostra23, que se baseia numa divisão dos dados do problema em casos de
treino para a aprendizagem do modelo, e em casos de validação, para estimar o erro de
validação. Como pontos fortes temos a sua simplicidade e rapidez, embora produza uma
redução efectiva dos dados disponíveis para treino. Quando se trata de problemas de
classificação, uma das técnicas mais usadas é a matriz de confusão [Kohavi et al., 1998].
A matriz de confusão ou de erros (Tabela 8) é usada para avaliar o resultado de uma
classificação, mapeando os valores previstos por um modelo com os valores desejados.
Tabela 8 - Matriz de confusão de um classificador.
↓ Desejado / PrevistoÆ
Negativo
Positivo
23
Negativo
TN
FN
Positivo
FP
TP
Método validação com divisão da amostra é conhecido em inglês por hold-out
98
Capitulo 4 Problemas e Abordagens em Data Mining
A matriz de confusão reflecte a quantidade de classificações correctas e erradas sobre um
conjunto de exemplos T. O número de acertos, para cada classe, é indicado na diagonal
principal da matriz M(Ci,Cj), estes acertos podem ser verdadeiros positivos
(correspondem ao número de exemplos positivos classificados como tal, também
designados por TP – true positive ) e verdadeiros negativos (correspondem ao número de
exemplos negativos classificados como tal, também designados por TN – true negative).
Os restantes elementos M(Ci,Cj), para i≠j, representam erros na classificação que podem
ser falsos positivos (correspondem ao número de exemplos positivos classificados como
negativos, também designados por FP – false positive) ou falsos negativos
(correspondem ao número de exemplos negativos classificados como positivos, também
designados por FN – false negative). A matriz de confusão ideal possui todos os
elementos classificadores a nulo, representando a inexistência de erros.
A partir da matriz de confusão da Tabela 8 é possível derivar as seguintes medidas:
Precisão (acuidade), indica determina a percentagem de respostas certas (TP+TF) em
função de todos os casos equacionados (TP+TF+FP+FN):
acuidade =
TN + TP
*100(%)
TN + FP + FN + TP
(Fórmula 14)
Especificidade (erro tipo I), calcula a percentagem de acertos negativos correctos (TN)
relativamente a todos os casos classificados como negativos (TN+FP):
especificidade =
TN
*100(%)
TN + FP
(Fórmula 15)
Sensibilidade (erro tipo II), reflecte a percentagem de acertos positivos correctos (TP)
face a todos os resultados apresentados como positivos (TP+FN).
sensibilidade =
TP
* 100(%)
FN + TP
99
(Fórmula 16)
Capitulo 4 Problemas e Abordagens em Data Mining
Estas três medidas de desempenho são independentes do custo e das probabilidades das
classes.
100
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Capítulo 5
DM4DBM - Proposta de uma Metodologia de Data
Mining Para Database Marketing
5
É apresentada uma proposta de metodologia para o
desenvolvimento de projectos de Database Marketing
suportados pelo processo de Descoberta de Conhecimento
em Bases de Dados.
5.1 Introdução
A noção de metodologia ao longo deste trabalho pressupõe um conjunto de passos
(fases) formado por subconjuntos (actividades) ligados entre si de forma necessária e
condicionante. Esta definição permite assumir o conceito de metodologia como o modo
particular de organizar ou compor as partes de um conjunto de tal forma que as relações
que mantêm entre si sejam as necessárias e suficientes para garantir a integridade e
harmonia intrínseca desse conjunto. Em síntese a metodologia é o princípio que organiza
a forma [Marcolli, 1986].
O desenvolvimento de um projecto de DataBase Marketing (DBM) acontece integrado
num contexto de estrutura organizacional (Figura 26), a partir do qual são definidas os
objectivos de marketing e então colocado em prática o desenvolvimento das suas
actividades [Drozdenko et al., 2002], [Zwick et al., 2004]. Os resultados obtidos têm
101
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
aplicação directa em actividades de marketing sendo então avaliados por forma a permitir
uma aprendizagem para acções futuras.
Figura 26 - Enquadramento do DBM na organização (adaptado [Hughes, 1995]).
A estratégia de desenvolvimento de um projecto de DBM obedece a um conjunto de
premissas que vão desde a necessidade de fixação dos objectivos para as actividades de
marketing [Drozdenko et al., 2002] [Hughes, 1995], a determinação das fontes de dados
[Seller et al. 1999],[Huges, 1995] internas e externas à organização [Cooke, 1994] e da
capacidade tecnológica de processamento de grandes volumes de dados, capazes de
suportar actividades de Descoberta de Conhecimento em Bases de Dados (DCBD) [Lo,
2002] [Zwick et al., 2004].
A proposta de metodologia apresentada neste trabalho tem por objectivo auxiliar os
marketers a utilizar o conhecimento extraído das Bases de Dados (BD) nas suas
actividades de marketing, as quais se encontram associadas a objectivos de marketing
mais vastos, que por sua vez correspondem ao reflexo da estratégia organizacional.
5.2 Ca racterísticas das actividades de Marketing
As actividades de marketing são referidas ao longo desta dissertação como o conjunto de
tarefas necessárias para o alcance de uma actividade integradora que expressa
directamente os objectivos de marketing.
102
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
As actividades de marketing na sua generalidade envolvem a troca de produtos e serviços
e são, como referido, orientadas pelos os objectivos de maior dimensão do marketing.
Existem cinco questões importantes para as quais as actividades de marketing têm de
possuir resposta [Suther, 1999]:
ƒ
Como deve ser desenvolvida a promoção? – reflecte toda a definição da actividade de
marketing, tal como estratégia promocional, políticas de preço ou outras;
ƒ
Qual o meio de alcançar o público alvo? – numa relação de troca a organização deve
oferecer algum produto ou serviço. Esta questão identifica neste contexto o produto
ou o serviço que se deve oferecer para que a relação se estabeleça;
ƒ
Quem é o público alvo? – como um processo que envolve um ou mais parceiros, a
questão “Quem”, representa aqui o alvo das actividades de marketing;
ƒ
Quando se deve fazer? – uma actividade de marketing é desenvolvida num intervalo
de tempo específico. A questão “Quando” é o reflexo do aspecto temporal na BD de
Marketing e representa o momento da acção;
ƒ
Que meio de promoção se deve usar? – reflecte o canal de comunicação escolhido
pelo marketer para alcançar o público alvo. Este “Que” representa ainda a definição
clara do método escolhido para promover a transacção do produto ou serviço;
Uma vez definidas as respostas para cada uma das cinco questões, o profissional de
marketing está apto para colocar em prática todas as actividades em estudo.
103
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
5.3 Suporte à s actividades de Marketing com modelos de
Data Mining
O processo de DBM é orientado para os objectivos de marketing [Pinto et al., 2004], os
quais irão determinar todo o processo de recolha de informação necessário. Partindo
daqui e adoptando o modelo das cinco questões referido anteriormente é possível sugerir
pelo menos uma tarefa de Data Mining (DM) para cada um desses objectivos expostos:
ƒ
Questão “Como”: Associado a este objectivo existe um conjunto de actividades de
previsão como objectivos de marketing, tais como, a previsão de como irão evoluir as
vendas num determinado período de tempo, ou então, como e em que condições é
que os clientes poderão abandonar a organização.
ƒ
A questão “Qual” sugere a determinação das características principais dos clientes da
organização (perfil dos clientes). Este objectivo pode ser alcançado pela análise dos
dados acerca dos produtos que adquirem ou do comportamento dos consumidores;
ƒ
Efectivamente, encontrar a resposta “Quem” significa em termos de DM segmentar
os indivíduos mais propensos a responder a uma determinada acção promocional,
identificar os utilizadores frequentes, seleccionar os clientes com maior rentabilidade
ou mesmo identificar aqueles indivíduos que podem vir a deixar de ser clientes;
ƒ
A variável temporal nas actividades de marketing é representada pela questão
“Quando” e inclui todas as actividades de marketing que incorporam tarefas
temporais, e.g., quando é que a organização deveria remeter um e-mail para os seus
clientes. Estas actividades combinadas com conhecimento à priori permitem aos
marketers levar o seu público alvo a ter o comportamento desejado;
104
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
ƒ
O objectivo “Que” corresponde a uma das palavras-chave mais frequente na
definição das actividades de marketing, dada a sua característica associada de
selecção, e.g., na análise do cabaz de compras o marketer pretende determinar “Que”
produto está associado com o quê;
Dada a sua natureza interrogatória, todas as questões de marketing incluem alguma
previsão nos seus resultados, derivando deste facto a possibilidade de atribuir a cada uma
delas actividades de DM de previsão. Tal generalização não é possível aplicar às
restantes questões motivo pelo qual se indicam as técnicas de DM mais relevantes para
cada uma.
Os modelos de DM são os mais adequados para responder às questões de “Quem” e
“Que” não apenas pelas suas características de classificação, como também pelo tipo de
resultados desejados. Os modelos de análise de dependências possuem uma vasta
aplicação nas actividades de marketing sendo possível incluí-las nos objectivos das
actividades de marketing “Quando”, “Quem” e “Que”. Finalmente, a modelação por
análise de desvios tem utilização para responder às questões de marketing “Como”,
“Quando” e “Quem”.
A Tabela 9 apresenta a combinação das actividades de marketing, representadas pelas
suas questões, com as actividades de DM.
Marketing
Questões
Tabela 9 - Actividades de DM aplicadas a questões de marketing.
Como
Qual
Quem
Quando
Que
Previsão
;
;
;
;
;
Actividades de Data Mining
Descrição Dependência Desvios
;
;
;
;
;
;
A utilização das actividades DM pode ser útil para responder às questões “Quem”,
“Qual”, “Quando”, “Que” e “Como”, necessitando contudo de um conjunto de outras
actividades associadas que possam garantir a qualidade dos resultados.
105
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
5.4 Da ta Mining Para Database Marketing
Considerando o DBM caracterizado pelas estratégias de marketing baseadas no estudos
de grandes volumes de dados disponíveis nas BD de clientes, é possível indicar um
conjunto de áreas como principais candidatas para a aplicação de DCBD para acções de
DBM [Povel, 2001 ].
ƒ
Aquisição de cliente: Desenvolvendo acções que tenham como público alvo os
potenciais clientes com maior possibilidade de se tornarem clientes;
ƒ
Cross-Selling e Up-selling: Identificando e dirigindo acções para aqueles clientes
com maior propensão para comprar mais ou responder positivamente a uma oferta
especifica;
ƒ
Desenvolvimento de Produtos: Segmentando e determinando o perfil dos clientes ou
de potenciais clientes para a definição de novas ofertas de produtos ou serviços
relevantes;
ƒ
Previsão de abandono (churn): Prevendo como é que os clientes se comportam
quando mudam para o concorrente;
ƒ
Detecção de Fraudes: Detecção de actividades ou comportamentos fraudulentos,
como seja na utilização de cartões de crédito ou em falsas reclamações;
ƒ
Análise do Cabaz de compras: Procurando associações entre os dados relativos a
compras dos clientes, e.g., produtos adquiridos numa só compra;
ƒ
Determinação do Risco: o cálculo do nível do risco associado a uma decisão, e.g.,
assegurar a liquidez para o pagamento de compromissos financeiros associados a um
investimento;
106
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
ƒ
Análise de tendências: actividades predictivas como sejam previsão ou estimativa de
tendências ou comportamentos dos consumidores.
A metodologia DM4DBM é proposta para o desenvolvimento do DBM recorrendo à
exploração dos conceitos e características do CRISP-DM, cruzando-o quer com as
actividades de marketing, quer com as questões inerentes à integração dos modelos de
DM (referido aqui como componente integrante do processo de DBCD).
A sistematização destas componentes, integradas numa perspectiva organizacional,
permite definir uma estratégia para desenvolvimento de projectos de DBM representada
esquematicamente pela Figura 27. A metodologia DM4DBM possui três fases: Recolha
de informação, Extracção de conhecimento e Aplicação no desenvolvimento de acções
de Marketing. Primeiro, os dados são recolhidos a partir de diferentes fontes. Após o seu
registo e análise é então criada a BD de Marketing, com vista ao suporte de toda a fase
seguinte, correspondente à extracção de conhecimento. A aplicação dos resultados
obtidos é concretizada na fase de aplicação a actividades de Marketing.
RECOLHA
INFORMAÇÃO
EXTRACÇÃO
CONHECIMENTO
APLICAÇÃO E
AVALIAÇÃO DE RESULTADOS
Modelos de Marketing
Objectivos
Marketing
Objectivos
Data Mining
Segmentação
clientes
Origem
Dados
Internas
Origem
Dados
Externas
Classificação
Clientes
Registo e Análise
De Dados
BD Marketing
Selecção
Dados
Processameto
Dados
Estudos
Investigação
Mercado
Modelação
Determinação
de perfis
Detecção
Desvios
Aplicação Resultados
- Perfil clientes
- Análise Cabaz Compras
- Cross-sell e up-selling
- Definição Produtos/Serviços
- Previsão/Estimativa resultados
- Programas fidelização
- Avaliação risco
- Monitorização
- Programa Fidelização Clientes
- Programa de captação clientes
Análise
Respostas
AVALIAÇÃO RESULTADOS OBTIDOS vs ESPERADOS
Figura 27 – Proposta da metodologia de Data Mining para Database Marketing
107
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
5.4.1 Recolha de Informação
O DBM tem origem e destino nas estratégias de marketing das organizações [Hughes,
1994] servindo de meio para alcançar os objectivos aí determinados. Neste contexto, a
fixação dos objectivos de marketing define, em primeira instância, a orientação para todo
o projecto, permitindo aos analistas organizar a recolha de dados de diversas fontes e a
constituição das BD de marketing.
5.4.1.1
Recolha de Dados
Englobado no processo de recolha de informação, esta actividade consiste em proceder à
recolha dos dados, os quais normalmente se podem encontrar em sistemas diversos, em
locais desconhecidos do analista, ou mesmo em suportes que não sejam digitais (e.g.,
papel). Esta fase de recolha é morosa e os desafios na sua execução podem ser descritos
da seguinte forma [Pyle, 1999]:
Problemas legais e éticos - podem existir barreiras legais ou éticas que impeçam que os
dados sejam disponibilizados para análise, e.g., no caso das instituições financeiras o
acesso aos dados encontra-se regulamentado pela legislação portuguesa. É possível que
existam também limitações de ordem ética que restrinjam o acesso aos dados como
ocorre, por exemplo, nos dados relativos a informações clínicas;
Motivos organizacionais e estratégicos - a existência de motivos de natureza
organizacional e estratégicos que condicionem o acesso aos dados verifica-se sempre que
os mesmos possam revelar segredos da actividade da organização, como e.g., o caso dos
dados relativos ao uso fraudulento de cartões de crédito, trata-se de uma informação
sobre a qual os emissores de cartões de crédito pretendem o máximo sigilo;
108
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Razões políticas - o acesso aos dados ou a sua titularidade pode estar ligado a pessoas,
departamentos ou organizações as quais, pelas mais diversas razões, podem não apoiar as
iniciativas de utilização desses dados;
Formato dos dados - a evolução dos sistemas tem proporcionado ao longo dos anos
diferentes formas e formatos para armazenamento e codificação dos dados. Esta
heterogeneidade de formatos condiciona o processo de recolha, na medida que obriga a
processos específicos para cada formato, e.g., os dados que ainda podem estar guardados
em sistemas operativos antigos e descontinuados como seja o CP/M24;
Acesso aos dados - Para que os dados possam ser utilizados é necessário que os mesmo
estejam acessíveis pelo sistema onde se desenvolverá o trabalho de análise. Este facto
obriga à colocação dos dados num sistema ao qual as estações de trabalho possam aceder
on-line, forçando por vezes a duplicação dos dados;
Sistemas legados - Como já referido anteriormente, a evolução dos sistemas promoveu,
com alguma frequência, a coexistência de legados com sistemas contemporâneos nas
organizações. Os sistemas mais antigos, no tempo em que foram desenvolvidos ou
porque se perderam com o tempo, não estão dotados de documentação que permita uma
extracção fácil da informação neles contida. Além disso, é possível a ocorrência de
problemas de compatibilidade ao nível dos dados, como seja o caso entre de algumas
aplicações proprietárias e os sistemas gestores de BD que não possuam equivalência para
todos os tipos de dados existentes, levando a que a unificação dos mesmos seja mais uma
tarefa que o analista terá que realizar;
Granularidade dos dados -
Representa o nível de detalhe em que os dados são
armazenados. Os sistemas tradicionais, para que possam assegurar as suas tarefas,
armazenam os dados com o maior detalhe possível (também denominado como registo
de transacção). No povoamento dos DataWarehouses (DW), por motivos de
24
CP/M Control Program For Microcomputers . primeiro sistema operativo padronizado para microcomputadores, criado por Gary
Kildall e John Torode em 1975.
109
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
desempenho, e.g., é comum a totalização ou sumariação de dados, isto é, os dados
relativos a vendas de produtos são armazenadas de uma só vez em lugar de se guardar o
valor referente a cada transacção (data, hora, quantidade e preço). Uma vez resumidos e
armazenados no DW os dados dificilmente podem voltar a representar detalhe;
5.4.1.2
Constituição da Base de dados de Marketing
As fontes de informação traduzem-se, num contexto de DBM, em todos os locais onde
existe informação sobre clientes e prospects25, seja relativo à actividade dos clientes
(natureza transaccional – vendas), seja relativo à relação estabelecida entre a organização
e os clientes (registo de reclamações, participação em promoções).
A criação de BD de marketing é orientada pelos objectivos de marketing, aos quais irão
servir como elemento de suporte.O objectivo da utilização das BD em marketing
consiste, de entre outros objectivos, na identificação de prospects, no reforço da imagem
de marca, na criação de interacção com o consumidor, ou na contabilização dos
resultados de uma acção de marketing [Hughes, 1995].
No momento da constituição das BD são considerados todos os tipos de suportes,
havendo para os casos de informação em papel (e.g., formulários, inquéritos ou cupões
de desconto) necessidade de se proceder à sua recolha manual [Pinto et al., 2004].
A natureza das fontes de informação (Figura 28) pode ser de três tipos distintos: interna,
externa ou de documentos relativos a estudos de mercado e indicadores estatísticos
[Drozdenko et al., 2002].
ƒ
Angariação de dados internos, presentes nos diversos sistemas da empresa ou de
empresas pertencentes à mesma organização; dados internos mas registados em
25
Prospect – Individuo não-consumidor de um determinado produto ou serviço que tem potencial de vir tornar-se num consumidor,
se devidamente motivado. Indivíduos consumidores de produtos concorrentes idênticos aos da empresa [Kotler, 2002].
110
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
suportes não tecnológicos e como tal sujeitos à recolha manual dos mesmos (e.g.,
formulários, reclamações, sugestões);
ƒ
Dados externos, provenientes de empresas do mesmo grupo organizacional ou
adquiridas a empresas externas;
ƒ
Dados recolhidos a partir de indicadores estatísticos ou estudos de mercado
Estudos
Interno
Externo
realizados.
Figura 28 – Recolha de informação de fontes diversas
Uma vez recolhidos os dados, existe uma etapa intermédia, bastante importante e
consumidora de muito do tempo dos analistas, que consiste na selecção dos registos.
Face à heterogeneidade das fontes de dados é necessário proceder a uma uniformização
dos mesmos, no sentido de evitar a duplicação de registos, incongruências,
inconsistências e violações de domínio.
A definição de uma BD de marketing activa é divida em três fases [Shepard, 1998]. A
primeira, já referida anteriormente, consiste na aquisição dos dados. A segunda refere-se
à gestão e manutenção da própria BD, que irá servir de base para a realização das acções
111
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
de marketing; finalmente, a terceira consiste na actualização das BD com base em acções
de marketing desenvolvidas ou simplesmente em rotinas de actualizações ou inserções de
dados.
As BD de marketing funcionam como armazém central de dados que servirá de base ao
desenvolvimento de todas as acções de DBM [Shepard, 1998], nomeadamente aquelas
que envolvem a extracção de conhecimento em BD.
5.4.2 Extracção de Conhecimento
O desenvolvimento do processo de DBM suportado na DCBD concretiza-se pela
realização das actividades de análise e exploração dos dados, pré-processamento,
modelação e avaliação de resultados [Uthurusamy et al., 2002] (Figura 29).
A extracção de conhecimento surge, neste contexto, como um processo que ajuda a
descodificar as relações existentes entre os dados e que estão para além da capacidade
cognitiva do analista [Drozdenko et al., 2002]
Figura 29 - Processo de DCBD (adaptado de [Fayyad et al., 1996])
112
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
O objectivo da DCBD no âmbito da sua aplicação em projectos de DBM é transformar
dados em resultados práticos permitindo numa fase seguinte actuar com a informação
obtida. As fases que compõem a DCBD são expostas em seguida.
5.4.2.1
Análise e Selecção dos Dados
A análise dos dados disponíveis torna-se numa fase relevante que irá permitir ao analista
a compreensão dos dados, através da sua análise e descrição, assim como a selecção dos
dados (definição de conjunto treino e conjunto teste) sobre os quais irá desenvolver todo
o trabalho de extracção de conhecimento.
A identificação de todos os atributos utilizados na análise deve ser realizada com o
auxílio de um especialista no domínio do negócio (e.g., profissional de marketing
directo), havendo contudo o risco desse procedimento limitar a originalidade do
conhecimento descoberto caso sejam considerados pressupostos errados [Santos et al,
2005]. Sempre que possível, o analista de dados deverá trabalhar isoladamente (pese
embora o custo de tempo desta opção) e adicionar ou retirar atributos aos modelos,
verificando a importância destes no conhecimento descoberto.
A selecção de atributos consiste em encontrar um subconjunto sobre o qual os algoritmos
utilizados na modelação irão trabalhar. As razões que justificam o uso de métodos para a
selecção de atributos são [Lee et al., 1999]:
ƒ
Muitos dos algoritmos não funcionam bem com grandes quantidades de atributos,
pelo que a selecção dos atributos pode melhorar o seu desempenho;
ƒ
O conhecimento induzido por alguns algoritmos é frequentemente mais
compreensível quando o número de atributos é mais reduzido;
113
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
ƒ
Vertente económica dos dados - deve considerar a substituição de atributos mais
dispendiosos (e.g., dados de BD especializadas) por outros mais económicos (e.g.,
dados de BD de empresas do mesmo sector de actividade).
Na bibliografia encontram-se diversas abordagens propostas para seleccionar um
subconjunto de atributos, nomeadamente [Kohavi, 1997], [Baranauskas et al., 2003]:
ƒ
Encapsulada – esta abordagem consiste na selecção de atributos realizada como parte
do processo de criação do modelo por parte de um algoritmo de DM;
ƒ
Filtro – consiste na aplicação de um método para a selecção de atributos anterior à
aplicação de algoritmos de DM. Normalmente desenvolve-se pela análise das
características do conjunto de exemplos disponíveis, permitindo seleccionar alguns e
excluir outros;
ƒ
Wrappers – esta abordagem consiste em seleccionar um subconjunto de atributos e
medir a precisão do classificador induzido sobre esse subconjunto. Dentro do próprio
subconjunto é realizada uma pesquisa que gera menor erro. Essa pesquisa avalia o
subconjunto candidato, até que o critério de paragem, relacionado com a precisão do
classificador induzido, seja satisfeito;
Para além dos métodos enunciados existe ainda a sensibilidade do analista, segundo a sua
experiência e com conhecimento adquirido ao longo do processo confere-lhe uma
capacidade de perspectivar o tipo e a quantidade de dados que melhor se adapta a cada
situação.
5.4.2.2
Pré-processamento e Transformação de Dados
O pré-processamento e a transformação de dados é tido na literatura como uma fase que
envolve uma grande quantidade de conhecimento do domínio e de tempo. Muitos
investigadores têm citado o facto dos dados recolhidos directamente a partir de BD serem
114
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
de má qualidade, ou seja, possuírem informações incorrectas e imprecisas, além de uma
grande quantidade de valores desconhecidos. Pese embora o facto de muitos dos
algoritmos utilizados na fase de modelação terem sido projectados para manipular dados
em tais situações, é expectável que esses mesmos algoritmos gerem resultados mais
precisos caso a maioria dos problemas presentes nos dados hajam sido removidos ou
corrigidos.
A Figura 4 esquematiza e distingue as actividades relacionadas com o pré-processamento
de dados das actividades relacionadas com a transformação de dados.
Tratamento
Dados
Pré-Processamento
Omissos
Transformação
Outliers
Qualitativos
Novos atributos
Normalização
Dispersão valores
Discretização
Integridade
Transposição
Redundância
Inconsistências
Ruído
Defaults
Figura 30 – Organização das actividades de pré-processamento e transformação de dados
De um modo geral, o pré-processamento dos dados é um processo semi-automático,
dependendo da capacidade do analista em identificar os problemas presentes nos dados e
de seleccionar os métodos mais apropriados para solucionar cada um dos casos.
115
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
As actividades mais comuns de pré-processamento, conforme já foi referido no capítulo
3 secção 3.4.2 (Figura 30) são:
ƒ
Tratamento de valores omissos;
ƒ
Avaliação de excepções (outliers);
ƒ
Derivação de novos atributos;
ƒ
Dispersão de valores;
ƒ
Integridade da informação do registo;
ƒ
Identificação de atributos duplicados e redundantes;
ƒ
Identificação de inconsistências;
ƒ
Identificação de ruído ou poluição dos dados;
ƒ
Identificação de valores atribuídos por definição (defaults).
A transformação de dados, conforme já abordado em detalhe no capítulo 3, consiste em
trabalhar a representação dos dados a fim de superar quaisquer limitações existentes nos
algoritmos empregues na modelação. As transformações mais comuns são (Figura 30):
ƒ
Normalização de valores;
ƒ
Discretização de atributos quantitativos;
ƒ
Transformação de atributos qualitativos em quantitativos;
ƒ
Transposição de tabelas.
116
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
A fase de pré-processamento e transformação de dados é como já foi referido
anteriormente, responsável por grande parte do tempo consumido num projecto de
extracção de conhecimento em BD [Cabena et al., 1998].
5.4.2.3
Modelação
A fase de modelação consiste na selecção de técnicas que permitam alcançar os
objectivos propostos para a DCBD e que devem encontrar-se enquadrados com os
objectivos da organização e de marketing. Contudo a especificação dos objectivos de
DM depende ainda da especificidade da actividade de marketing (definida no âmbito dos
objectivos de marketing) a que se encontra ligada.
Procurando sistematizar a utilização dessas técnicas num contexto de projectos de DBM,
apresentam-se na Tabela 10 alguns casos de utilização havendo para cada um, tipologia
relativa aos objectivos de DM, respectiva descrição e uma lista de técnicas disponíveis.
Tabela 10 – Exemplos de aplicação em casos de marketing
Questão
Como
Qual
Quem
Quando
Que
Exemplo
Actividades DM
Detecção de Fraudes
Detecção de Desvios
Previsão de abandonos
Desenvolvimento de
produto
Previsão
Previsão
Segmentação de clientes
Descrição
Cross-Selling
Determinação de
tendências
Análise de risco
Previsão
Previsão
Análise de Desvios
Detecção Desvios
Aquisição de Clientes
Previsão
Análise do Cabaz de
Compras
Análise do perfil de
clientes
Análise de dependências
Tarefas DM
Árvores de Decisão
Redes neuronais artificiais
Árvores de Decisão
Redes neuronais artificiais
Indução de Regras
Redes neuronais artificiais
Árvores de Decisão
Árvores de Decisão
Redes neuronais artificiais
Indução de Regras
Indução de Regras
Redes neuronais artificiais
Árvores de Decisão
Árvores de Decisão
Redes neuronais artificiais
Indução de Regras
Análise de dependências
Indução de Regras
Descrição
Redes neuronais artificiais
Árvores de Decisão
117
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Pela análise da Tabela 10 é possível constatar para um objectivo de marketing e.g., a
questão “Quando”, é possível indicar três actividades de marketing (determinação de
tendências, análise de risco e análise de desvios) fazendo corresponder a cada uma outros
tantas actividades de DM. Uma vez identificada a actividade de marketing com a
actividade de DM, determina-se o conjunto de técnicas ou tarefas de DM que melhor se
enquadram com os objectivos desejados.
5.4.2.4
Exemplos de Aplicação em projectos de DCBD em
Acções de Marketing
O processo de DCBD pode ser aplicado em muitas actividades de marketing de naturezas
distintas. Nesta secção serão apresentados alguns exemplos de aplicação em Marketing
considerando o tipo de problema de DCBD associado e a técnica de DM empregue para a
sua solução.
Lançamento de um novo produto
Problema: Previsão
Técnica: Árvores de decisão ou redes neuronais artificiais
Sempre que uma organização decide lançar no mercado um novo produto, necessita de
analisar diversos factores para que possa concluir relativamente ao retorno do
investimento pretendido. A utilização de árvores de decisão sobre os dados históricos de
vendas relativos a produtos análogos no mercado, permite projectar um índice de
desempenho (aceitação do público alvo) para um novo produto, auxiliando assim a
tomada de decisão.
118
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Aumento da eficácia das acções de Marketing Directo
Problema: Classificação
Técnica: Árvores de decisão
A análise detalhada às respostas a campanhas promocionais realizadas anteriormente
(pela própria empresa ou por outras e para as quais existem registos), contendo
características dos clientes, viabiliza a classificação de consumidores em função do seu
perfil.
Através das AD é possível verificar a resposta a determinado produto em função do seu
perfil, possibilitando assim direccionar as acções de marketing directo para aqueles que
têm mais propensão em responder e eventualmente cancelar ou determinar acções
alternativas para os menos reactivos.
Análise do cabaz de compras
Problema: Associação de grupos
Técnica: Regras de Associação (indução de regras)
Este exemplo corresponde provavelmente ao caso com maior visibilidade das técnicas de
DM em marketing e parte do pressuposto da compra de determinados produtos estar
relacionada com a compra de outros produtos diferentes. As regras de associação
permitem identificar a associação entre diferentes produtos no acto de compra. Ao
identificar produtos directamente relacionados, podem-se desenvolver acções de
marketing onde se promove a venda conjunta do produto X quando o produto Y estiver a
ser adquirido pelo cliente.
As regras de associação são estabelecidas através de uma análise ao histórico de vendas
dos produtos para cada cliente.
119
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Análise do comportamento de compra de clientes
Problema: Classificação
Técnica: Árvores decisão
O objectivo deste tipo de problema é o de classificar os clientes de acordo com seus
comportamentos ou atitudes, através de informações qualitativas e quantitativas (e.g.,
questionários, inquéritos de satisfação). Com a informação obtida, os clientes são
segmentados em diferentes grupos.
Através do historial e da informação recolhida dos clientes e da sua classificação, modelos em AD são desenvolvidos e utilizados para classificação de novos clientes, ou
verificação de mudanças de segmentos dos clientes existentes.
Segmentação do mercado por regiões
Problema: Segmentação
Técnica: Técnicas de Clustering (algoritmo K-means)
Com a relação entre o perfil de cada consumidor e sua localização geográfica, é possível
identificar as regiões com maior taxa de vendas. Desta forma, podem-se realizar
estratégias de marketing direccionadas especificamente para determinadas regiões com o
objectivo de melhorar a rentabilidade da região.
120
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
CRM: Análise do serviço prestado ao cliente
Problema: Descrição
Técnica: Regras de Associação
A utilização das regras de associação pode ocorrer para a comparação e análise do
serviço prestado ao cliente e da satisfação correspondente, permitindo determinar alguma
situação desfavorável para a organização. A análise do histórico do cliente viabiliza a
obtenção de associações que ponham em causa o sucesso do serviço ao cliente. A
descoberta destas associações pode proporcionar valor acrescentado para a relação entre
o cliente e a empresa.
Determinação de potenciais clientes para um produto
Problema: Classificação
Técnica: Redes neuronais artificiais
A exploração das BD permite às empresas uma utilização cruzada em termos de
produtos, e.g., uma editora que possua registo sobre clientes de restaurantes em 3 países
pode, através da técnica de RNA, realizar uma classificação dos clientes para os quais irá
desenvolver acções de marketing directo.
121
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Classificação de clientes em categorias previamente definidas
Problema: Classificação
Técnica: Árvores de decisão
A aplicação de AD permite a verificação e análise de variáveis que melhor discriminam
dois ou mais grupos, possibilitando ainda a construção de regras de classificação para
novos elementos. A realização de uma análise de classificação é importante para
determinar as características que permitem classificar os clientes, e.g., clientes bons e
maus pagadores, permitindo assim à empresa desenvolver contactos comerciais em
condições previamente determinadas.
5.4.3 Desenvolvimento de Acções de Marketing
O DBM é apresentado segundo a perspectiva dos principais objectivos que a empresa
pretende atingir e assim permitir, como exemplo geral, o conhecimento das
características dos clientes, desenvolvimento de novos produtos, ou um maior controlo
na distribuição do produto [Drozdenko et al., 2002].
Depois de realizado um plano estratégico e atendendo aos obstáculos à implementação
estratégica, a aplicação de DBM permitirá, de uma forma resumida, potenciar um maior
uso comercial do produto, efectuar vendas cruzadas entre produtos, up-selling,
rentabilizar a oferta, avaliar o desempenho e melhorar o relacionamento com os clientes e
atingir os melhores prospects (Figura 31) [Dorzdenko et al., 2002].
122
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Potenciar a utilização do
produto
Atingir os melhores prospects
Melhorar o
relacionamento com os
clientes
Cross-selling
Database de
Marketing
Up-selling
Avaliação do desempenho
dos clientes
Rentabilização da oferta
Figura 31 - Recompensas da aplicação de DBM (adaptado de [Dorzdenko et al., 2002])
A natureza operativa do DBM coincide com os objectivos traçados pela estratégia de
marketing a que se encontra associado. O DBM funciona como um “módulo” num
conjunto de processos de marketing entre a organização e os seus clientes. Os objectivos,
nesta perspectiva, orientam-se em duas vertentes: objectivos de negócio e objectivos de
marketing [Fayerman, 2002].
Objectivos de Negócio
Aumentar as vendas:
ƒ
ƒ
ƒ
ƒ
ƒ
Identificar os melhores consumidores;
Analisar os consumidores que saíram;
Identificar segmentos de merchandising ou pontos de venda com baixo desempenho;
Promoção do cross-selling (venda cruzada ou associada);
Auxilio no planeamento da distribuição dos pontos de venda;
Optimizar recursos:
ƒ
ƒ
Determinar a lógica de distribuição mais adequada;
Simplificar processos no contacto com o consumidor;
Desempenho da organização:
123
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
ƒ
ƒ
ƒ
ƒ
Obter e ampliar a vantagem competitiva;
Avaliar as respostas a promoções e publicidade;
Reduzir o custo de aquisição de novos consumidores;
Melhorar o serviço de atendimento ao consumidor.
Objectivos de marketing
Em qualquer organização o departamento de marketing procura constantemente meios de
aumentar o seu conhecimento acerca dos consumidores de um modo individual, com o
objectivo de formar novos segmentos estratégicos de clientes. Esta segmentação,
utilizada geralmente para fins de marketing, permitirá não só o desenvolvimento de
novas promoções ou campanhas direccionadas como também actualizar a informação
disponível para os serviços de apoio a clientes.
Marketing Directo
ƒ
ƒ
ƒ
ƒ
ƒ
Caracterização ao nível do indivíduo ou de grupos de indivíduos com características
sociais ou demográficas semelhantes;
Viabilização de uma maior aproximação entre a organização e os seus clientes por
via de um tratamento mais personalizado e adequado;
Detecção de alterações no comportamento que condicionem uma mudança de atitude
dos clientes face à organização – supervisão da actividade dos clientes;
Adaptar a oferta ou mesmo antecipar as expectativas, face às necessidades ou desejos
de produtos ou serviços, dos clientes;
Facilitar o desenvolvimento de novos produtos adequados ao perfil dos indivíduos
registados nas BD;
Optimizar a Segmentação
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Isolar grupos de consumidores;
Analisar o perfil dos consumidores;
Reconhecer e identificar os consumidores actuais como indivíduos e/ou grupos;
Distinguir os consumidores por impulso dos consumidores ponderados;
Determinar os melhores clientes;
Análise da propensão à aquisição por parte dos consumidores;
Analisar os processos de compra dos consumidores;
Identificar nichos de mercado (oportunidades emergentes);
124
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
ƒ
ƒ
Auxiliar na selecção de mercados;
Prever e prevenir o abandono dos consumidores.
Personalização eficiente
ƒ
ƒ
ƒ
ƒ
ƒ
Adequação da mensagem a cada consumidor;
Promoção do contacto directo com os consumidores;
Win-Win: Beneficiar o cliente (ofertas e promoções) aumentado o lucro da
organização;
Personalizar e adequar a oferta a segmentos de clientes;
Desenvolver a comunicação direccionada para potenciais clientes.
Estabelecimento de relacionamento com o consumidor
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Criar elos de ligação com o consumidor;
Tratar o consumidor de um modo pessoal;
Promover a aproximação entre ponto de venda e consumidor;
Ouvir os consumidores, principalmente em reclamações;
Responder sempre às solicitações;
Desenvolver estratégias de comunicação de modo a prolongar a relação e estimular a
compra.
5.4.3.1
Medição dos Resultados e da Eficácia dos Modelos
A análise dos resultados do processo de DBM pode ser vista em duas vertentes: (i)
validade - relativamente aos objectivos de DM; (ii) utilidade - face aos objectivos de
negócio e de marketing.
ƒ
Os objectivos de DM são atingidos quando o analista obtém o nível de resultados
esperado. Esta análise aos resultados, passa aplicação de métodos de avaliação
analíticos como seja o caso da construção matriz de confusão (referida no capítulo 3)
e pela avaliação dos resultados na perspectiva comparativa entre a sua aplicação ao
conjunto de treino e ao conjunto de teste.
125
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Quanto à utilidade dos resultado obtidos estes dependem directamente do problema a que
se referem bem como da informação existia antes do modelo. Numa lógica comparativa
considere-se como exemplo geral o caso de uma empresa que possui informação sobre os
seus clientes que lhe confere um taxa de acertos na ordem dos 15%. Caso os modelos de
DM tenham uma acuidade na ordem dos 50%, pese embora a acuidade não seja
significativa, o diferencial de 35% de aplicado ao universo de clientes poderá significar
um ganho importante para empresa.
Relativamente aos objectivos de negócio e de marketing, estes deverão ser enquadrados
com a própria estrutura da organização, uma vez que o processo não inclui a
concretização prática dos seus resultados, ou seja, o desenvolvimento das acções de
marketing suportadas pelos resultados do DBM está ainda condicionado por outros
factores como sejam os recursos financeiros para o seu desenvolvimento ou os recursos
humanos para a sua concretização e implementação.
Em síntese, o modelo proposto alinha os objectivos de DM com os objectivos das
actividades de marketing, enquadrados com os objectivos de negócio, sistematizando as
actividades que vão desde a recolha de dados até à aplicação e avaliação dos resultados
obtidos.
5.5 DM4DBM versus CRISP-DM
A metodologia proposta de DM para Database Marketing assenta o seu desenvolvimento
em três componentes principais:
ƒ
Recolha de informação: Sistematiza as actividades de recolha de dados quanto ao
tipo de dados; à sua origem e problemática na sua aquisição;
126
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
ƒ
Extracção de Conhecimento: Expõe todos os aspectos relacionados com as
actividades de procura e extracção de conhecimento em BD, nomeadamente no que
respeita às actividades de DM em marketing;
ƒ
Aplicação e avaliação de resultados: Sistematiza e expõe a aplicação dos resultados
obtidos com tarefas de DM em actividades de marketing, instanciando para cada um,
conjunto de exemplos e técnicas recomendáveis para a sua resolução.
A utilização da metodologia DM4DBM inicia-se com o enquadramento de todo o
projecto em termos organizacionais, quer em termos meramente organizativos (e.g.,
departamentos afectos ao projecto) quer quanto a objectivos de marketing, reflectidos na
definição posterior das actividades de marketing necessárias para a sua persecução.
A Figura 32 representa um paralelismo entre as componentes e respectivas actividades
da metodologia DM4DBM com a metodologia de DM CRISP-DM (representada pela
redução da Figura 12). Em seguida especifica-se o funcionamento deste instrumento
bem como se define e caracteriza cada uma das actividades.
127
Objectivos
Data Mining
Objectivos
Marketing
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
Figura 32 – Paralelismo entre as metodologias DM4DBM e CRISP-DM
O registo e análise dos dados, inclui toda a actividade de importação de dados e
aglomera duas fases da metodologia CRISP-DM (fases de Estudo do Negócio e de
Exploração de Dados). Dado o facto de ambas elaborarem um estudo prévio por forma a
melhorar a compreensão do problema real em termos de enquadramento dos objectivos
em função do problema de negócio;
128
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
A definição dos Objectivos de Marketing encontra um paralelo na fase de Estudo de
Negócio da metodologia CRISP-DM, pelo facto de ambos os casos considerarem o
negócio em que se irá desenvolver o projecto, havendo contudo na metodologia
DM4DBM a particularidade de o mesmo objectivo de marketing poder implicar o
desenvolvimento de diferentes actividades de marketing, cada uma com o seu objectivo
específico (concorrente com os objectivos gerais de marketing);
A criação da BD de Marketing encontra referencial na metodologia CRISP-DM em
termos de Preparação de Dados devido à sua natureza seleccionadora de registos. Tal
como referido é no decorrer do processo da criação de BD de marketing que se realiza a
selecção de dados que irão servir de base para a realização das acções de marketing;
A fase de definição dos objectivos de DM da metodologia DM4DBM encontra paralelo
na metodologia CRISP-DM na fase de Modelação, consistindo na selecção dos
algoritmos a serem usados e efectivo processamento do modelo;
A tarefa de Selecção de Dados tem correspondência dentro da metodologia CRISP-DM
em termos da Exploração de Dados, pelo facto de incorporar actividade de
reconhecimento e explicação dos dados disponíveis;
O Pré-Processamento de Dados define-se em paralelo com a fase da Preparação de
Dados, sendo em termos da metodologia DM4DBM mais abrangente. Isto deve-se ao
facto da sua recursividade ser aplicável em várias actividades de marketing, ou seja, ao
existir uma diversidade de actividades de marketing para o mesmo objectivo (marketing),
possibilita a coexistência de diferentes objectivos de DM no mesmo projecto de DBM;
A fase da Modelação tem como preocupação a selecção e aplicação de algoritmos de DM
que permitam alcançar os objectivos das actividades de marketing. No paralelo entre
metodologias, em ambas existe a mesma denominação;
129
Capítulo 5 - DM4DBM - Proposta de uma Metodologia de Data Mining Para Database Marketing
A criação de Modelos de Marketing (segmentação, classificação, determinação de perfis,
detecção de desvios e análise de respostas) para a definição das actividades de marketing
requer a existência de uma avaliação prévia aos resultados obtidos, sendo por isso
estabelecido o paralelo com a metodologia CRISP-DM ao nível da fase de avaliação,
uma vez que é nesse momento que os resultados de DM são avaliados em função das
necessidades (objectivos) estabelecidas;
A Implementação caracteriza-se pela aplicação dos resultados às actividades de
marketing. Os vários modelos (decorrentes dos vários resultados obtidos) devem ser
avaliados tendo em consideração os objectivos de marketing, certificando-se de que não
existem falhas ou contradições em relação às regras do negócio. Os vários parâmetros
das ferramentas de modelação devem ser ajustados, os modelos resultantes devem ser
convenientemente interpretados e o desempenho explicado.
Face ao exposto, conclui-se que a metodologia DM4DBM concretiza fases da
metodologia CRISP-DM em termos de aplicação do DM ao marketing. O
desenvolvimento de projectos DBM segundo a metodologia DM4DBM permitirá
incorporar nas actividades de marketing, processos já comprovados e demonstrados
cientificamente para análise e exploração dos dados.
130
Capítulo 6 Database Marketing Aplicado à Distribuição
Capítulo 6
6
Database Marketing Aplicado à Distribuição
Neste capítulo é apresentado um caso de experimentação da
metodologia DM4DBM proposta no capítulo anterior,
aplicado a um problema real na área da distribuição de
produtos de uso doméstico, a nível nacional, com
apresentação e discussão dos resultados obtidos.
6.1 Introdução
O caso de experimentação aqui descrito desenvolveu-se numa organização que actua no
mercado da distribuição de produtos para consumo doméstico, normalmente vendidos ao
público em grandes superfícies sem que exista qualquer contacto directo entre a própria
organização e o cliente final.
Com o objectivo de compreender e conhecer o perfil do cliente para os produtos
comercializados, iniciou-se um processo de marketing relacional esquematizado na
Figura 33. No âmbito deste projecto foi criada uma revista de carácter periódico que,
para além dos conteúdos genéricos relacionados com o quotidiano das famílias, serve de
suporte à emissão de questionários e vales de desconto i.é., cheque oferta com
determinado valor numerário a descontar directamente na compra de um determinado
produto ou gama de produtos. O primeiro envio desta revista foi realizado, sem qualquer
131
Capítulo 6 Database Marketing Aplicado à Distribuição
limitação, para todos os contactos, sem excepção, presentes na Base de Dados (BD)
inicial.
Os leitores que recebem em sua casa a revista são convidados a participar nas promoções
divulgadas e a responder aos questionários, assegurando desta forma a continuidade da
recepção da revista. Os vales oferecidos podem ser rebatidos em qualquer grande
superfície, com o benefício imediato da redução no preço a pagar pelo produto.
O rebatimento dos vales nos supermercados e a resposta aos questionários permite à
organização identificar quem rebateu vales de cada produto, concretizando o ciclo entre a
organização e o cliente (Figura 33), objectivo último de todo o programa.
Recolha Dados
Questionário
Questionarios
BD
Revista
Clientes
Revista
c/ vales desconto + Questionários
Vales
Vale
Dados Vales
rebatidos
Supermercado
Figura 33 - Fluxo de informação relativo ao projecto de marketing relacional
Ao fim das 8 primeiras edições da revista, o número de contactos para o seu envio
ascendia a cerca de 613,000 tendo sido emitidos 198 vales de produto distintos e
registados mais de 11 milhões de registos, relativos a vales emitidos.
132
Capítulo 6 Database Marketing Aplicado à Distribuição
Os critérios inicialmente adoptados para a selecção dos contactos para o envio, posterior
ao primeiro número da revista, foram definidos de um modo arbitrário sem qualquer
validação científica e consistiam basicamente naqueles indivíduos que rebatiam os vales
(pelo menos uma vez) ou respondiam aos questionários (pelo menos ao questionário
básico – confirmação dos dados de contactos).
A metodologia proposta assente na revisão teórica realizada nos capítulos anteriores,
permitiu a identificação dos requisitos a cumprir no desenvolvimento de projectos de
Database Marketing (DBM). Este capítulo apresenta um caso de aplicação da
metodologia DM4DBM proposta e encontra-se organizado de acordo com as etapas:
A) Objectivos de Negócio e de Marketing
a1) Enquadramento do projecto com os objectivos de negócio e de marketing;
a2) Definição dos objectivos do estudo;
a3) Recolha e exploração dos dados:
Interpretação dos dados disponíveis;
Importação dos dados e constituição da BD inicial;
Filtragem e limpeza de dados;
a4) Criação da BD de Marketing:
Sistematização da angariação de dados;
Selecção dos registos elegíveis;
B) Extracção de Conhecimento:
b1) Avaliação da qualidade dos dados;
b2) Análise dos dados;
b3) Pré-processamento de dados;
b4) Modelação;
b5) Avaliação dos resultados;
C) Desenvolvimento de Acções de Marketing:
c1) Integração dos resultados em acções;
c2) Análise dos resultados;
D) Avaliação dos Resultados Obtidos – Discussão;
133
Capítulo 6 Database Marketing Aplicado à Distribuição
As condições de experimentação dependeram directamente dos dados disponibilizados
pela empresa promotora, havendo que desde o inicio, por razões de confidencialidade,
um acordo de sigilo quanto à divulgação dos dados, pelo menos no que refere a
identificação da empresa, marcas ou produtos.
A ferramenta de DM escolhida para o desenvolvimento dos casos de estudo foi o
Clementine Data Mining System da SPSS Inc.
Os materiais de suporte ao projecto foram quer as BD disponibilizadas pela empresa
promotora bem como diferentes exemplares de revistas emitidas, questionários e vales
desconto.
6.2 (A) Objectivo s de Negócio e de Marketing
6.2.1
(a1) Enquadramento
A existência de uma BD com grandes dimensões evidencia uma das maiores limitações
inerentes à sua utilização na maioria das organizações: a (in)capacidade para extrair
informação relevante, para além daquilo que os processos tradicionais permitem.
O projecto em estudo promoveu a constituição de uma BD com mais de 11 milhões de
registos não havendo até ao início deste trabalho qualquer abordagem de exploração dos
dados para além dos processos tradicionais da estatística descritiva ou da realização de
consultas SQL simples.
Este trabalho permitiu ainda concretizar as práticas enumeradas no marketing relacional
no que respeita à utilização de BD, mas para as quais não se conhece nenhum trabalho
relevante com resultados práticos.
134
Capítulo 6 Database Marketing Aplicado à Distribuição
6.2.2 (a2) Objectivos do Estudo e Abordagens Consideradas
Os objectivos para o presente estudo têm duas perspectivas concorrentes: perspectiva
organizacional e perspectiva de Business Intelligence (BI):
ƒ
Na perspectiva organizacional, os objectivos propostos consistem na caracterização
do perfil dos clientes para cada gama de produtos, ou seja, com base nas respostas
dadas aos inquéritos e conhecendo os produtos que cada indivíduo adquiriu (pelo
rebatimento do respectivo vale) deseja-se saber as motivações ou as preferências
padrão dos consumidores para cada produto;
ƒ
Por outro lado, no âmbito do BI, pretende-se realizar um trabalho de Descoberta de
Conhecimento em Bases de Dados (DCBD) visando a determinação de características
comuns dentro de um conjunto de indivíduos, relativo a uma determinada gama de
produtos;
Face à diversidade de produtos comercializados pela organização (cerca de 70 produtos
agrupados por 11 marcas) e considerando os dados disponíveis (questionários
respondidos e vales rebatidos), identificam-se duas abordagens distintas quanto aos
objectivos e metodologia a seguir:
ƒ
Orientada ao cliente: determinar para cada cliente o conjunto de produtos que
descreve o seu cabaz de compras;
ƒ
Orientada ao produto: para cada produto determinar o perfil dos clientes que o
adquirem.
Considerando o facto de existir relativamente poucos dados que permitam caracterizar
cada cliente, a primeira abordagem acaba por se revelar inviável pelo facto de não ser
possível caracterizar o comportamento de um só cliente perante a gama de produtos
135
Capítulo 6 Database Marketing Aplicado à Distribuição
apresentados. O projecto seguiu portanto com o objectivo de conhecer o perfil dos
consumidores para um produto ou família de produtos.
6.2.3 (a3) Recolha e Exploração dos Dados
O desenvolvimento de um projecto de Database Marketing (DBM) como o caso em
estudo envolve o manuseamento de elevados volumes de dados. Decorrente desse facto,
pressupõe-se a angariação de dados, que sejam provenientes de BD internas (relativas a
campanhas anteriores de marketing, de outros sistemas existentes ou mesmo dados em
formato que não electrónico), quer de BD nacionais alugadas a empresas especializadas
(e.g., BD equivalentes à PRIZM da Claritas26, da CONSUMER INFOBASE da
InfoBase27, ou a EXPERIAN da Acxiom28).
6.2.3.1
Avaliação dos dados internos disponíveis
O sucesso do DBM depende directamente dos dados disponíveis, sobre os quais se irá
desenvolver. O processo da recolha de dados, mesmo internos à organização, depende de
um conjunto de aspectos que condicionam a disponibilidade e a qualidade dos mesmos.
Os dados internos disponíveis provinham de:
ƒ
Dados contidos em diferentes sistemas de informação da organização ou de outras do
mesmo grupo económico;
ƒ
Dados relativos a campanhas anteriores de marketing (suporte digital e em suporte
comum – como sejam cupões de resposta ou formulários respondidos por clientes).
26
www.claritas.com
www.infobase.com
28
www.acxiom.com
27
136
Capítulo 6 Database Marketing Aplicado à Distribuição
O processo de recolha destes dados envolveu ainda vários recursos em diferentes níveis
hierárquicos da organização como gestores ou administradores de sistemas de
informação, no sentido de se garantir o acesso aos mesmos dados.
6.2.3.2
Importação e criação da BD inicial
Uma vez garantida a disponibilidade dos dados internos, face à escassez de contactos em
quantidade, considerou-se ainda necessário o recurso ao aluguer de BD externas. Pese
embora a oferta de BD no mercado permitiu a selecção de atributos que descrevam os
indivíduos em termos sociais, económicos ou demográficos, a importação destes dados
limitou-se exclusivamente aos atributos nome e morada. O conjunto de tabelas utilizadas
no desenvolvimento deste trabalho encontram-se no Anexo I.
A constituição da BD inicial de clientes ou de potenciais clientes, destinatários da revista,
consistiu na elaboração de uma lista prévia de contactos (Figura 34) organizada pelo tipo
de informação a que cada registo correspondia, informação de marketing, de prospecção
ou operacional. Esta lista foi criada a partir da importação dos atributos, nome e morada,
de BD relativas a campanhas ou acções de marketing desenvolvidas anteriormente (pela
organização ou outras empresas com as quais mantém relações); dos registos directos de
clientes da organização no seu sitio da internet e das BD externas (anexo H).
Origem
Interna
BD internas
Pagar
para
$
Dados Marketing
Formulários
Questionários
Dados Operacionais
Origem Externa
Origem Externa
Dados Prospecção
Figura 34 – Criação da BD inicial – importação de dados
137
Capítulo 6 Database Marketing Aplicado à Distribuição
A angariação de dados a partir de fontes diversas, ainda que apenas a um nível de
atributos básicos (nome e morada) requer um processo de unificação dos contactos, dada
a elevada probabilidade de redundância de informação sobre o mesmo indivíduo, pois
pode-se encontrar registado em mais do que uma BD. A detecção de registos redundantes
ocorreu nos seguintes pressupostos.
Considere-se S um conjunto de dados, com os atributos a, onde S={a1,a2,a3...an}. Seja
[a1]i, [a2]i,…[an]i o conteúdo de cada atributo para o registo i.
O processo para detecção de registos redundantes desenvolveu-se em duas vertentes:
ƒ
Automático – através da aplicação de instruções SQL que visam a detecção de
valores iguais em atributos distintos. Considerando o facto dos conjuntos de dados se
reunirem todos num único pelo processo de importação (ST):
ST = S1 U S2
Aplicando ao conjunto ST as instruções seguintes conduzem à eliminação dos registos
que verifiquem a seguinte regra
SE ([a1]i =[a1]j E [a2]i =[a2]j )
OU [a3]i=[a3]j
OU [a4]i=[a4]j
ENTÃO DELETE registoi,
para todo i ≠ j
instanciando:
SE ([nome]i= [nome]j
E [apelido]i= [apelido]j)
OU ([telemovel]i=[telemovel]j E [DNasc]i= [DNasc]j)
ENTÃO DELETE registoi , com i ≠ j
ƒ
Manual – integrando as tabelas numa só e ordenado-as alfabeticamente, é possível ao
analista detectar e eliminar os registos duplicados, e.g. :
Append * from tabela1 to tabela_destino
Select * from tabela_destino sort by nome, apelido
138
Capítulo 6 Database Marketing Aplicado à Distribuição
Neste caso após a importação das diferentes tabelas, procedia-se a uma ordenação da
tabela resultante pelos atributos em análise (no caso pelo nome e apelido) e
manualmente o analista poderia detectar a ocorrência de registos duplicados.
Ocorreram várias situações com duplicação de registos como as exemplificadas:
i) Havendo importação de dados sobre BD relativas as várias promoções
distintas, é possível que um mesmo indivíduo tenha participado em mais do
que uma, originando a duplicação do seu registo na BD final, ainda que
possuindo codificações distintas (Tabela 11);
Tabela 11 - Exemplificação de codificações distintas para o mesmo registo, na mesma BD.
ID
001127
Nome
João
Apelido
Martins Ruas
Contacto
917766116
Data Nascimento
17-05-1970
Sexo
M
N filhos
1
...
584012
João
Martins Ruas
...
917766116
17-05-1970
...
M
1
...
221762
João
Martins Ruas
...
917766116
17-05-1970
...
M
1
ii) A concentração de tabelas de BD distintas proporciona a coexistência dos
mesmos atributos, com o mesmo significado, mas codificados de modo
diferente, provocando redundância de informação. Como exemplo considerese o caso dos atributos relativos ao Código do Cliente ao seu Nome e Data
Nascimento. Para estes atributos é possível encontrar designações distintas tal
como expresso na Figura 35.
ID
Tabela 1
Nome
DataNasc
Cod
Tabela 2
CliNom
DN
Num
Tabela 3
descrição
Figura 35 – Duplicação na codificação para o mesmo atributo.
139
Data
Capítulo 6 Database Marketing Aplicado à Distribuição
6.2.3.3
Filtragem e Limpeza de dados
Como os dados são recolhidos de diversas fontes, verificavam-se muitos erros, ficheiros
repetidos ou dados nulos, os quais deveriam ser excluídos do conjunto de dados para
análise. A filtragem e limpeza de dados desenvolveu-se pela aplicação das técnicas:
ƒ
Levantamento de incongruências;
ƒ
Determinação de inconsistências;
ƒ
Violações de domínio
Incongruências
Confusão e redundância de informação para indicar o mesmo objecto (Tabela 12), como
no caso Vila Nova de Gaia e Gaia ou utilização de códigos postais distintos para a
mesma situação.
Tabela 12 – Incongruência na codificação do mesmo objecto.
País
Portugal
Código Postal
4000
Cidade
Vila Nova Gaia
Portugal
4000-230
Gaia
Inconsistências
A importação de dados de tabelas distintas e de sistemas distintos justificam a existência
de inconsistências como sejam: utilização de métricas diferentes para medidas (m/cm),
distâncias (Km/m) ou diferenças temporais (dias, anos ou horas); representações distintas
para o mesmo objecto (sexo: masculino/feminino;0/1; m/f).
140
Capítulo 6 Database Marketing Aplicado à Distribuição
Violação de Domínio
A violação do conjunto de valores admitidos como válidos para um atributo (domínio)
permite a inserção valores incorrectos na BD (Tabela 13), os quais podem enviesar a
informação acerca do contacto, nomeadamente nos atributos de data nascimento e
número de filhos.
Tabela 13 - Exemplo de violação de domínio no atributo sexo.
ID
001156
...
584012
Nome
Maria
Margarida
Apelido
Rita
Contacto
917764549
Coelho
...
937964540
Data Nascimento
17-05-1870
F
Sexo
N filhos
22
17-05-1976
...
E
1
6.2.4 Constituição da Base Dados de Marketing
A BD sobre a qual se irá desenvolver todo o trabalho de investigação resulta da
operacionalidade do sistema de marketing relacional desenvolvido pela organização
promotora (modelo de dados representado no anexo K).
Os dados guardados na BDM, são armazenados em tabelas distintas:
ƒ
Questionários: dados relativos aos questionários emitidos e distribuídos, com toda a
informação relativa às respostas dadas pelos clientes às questões apresentadas;
ƒ
Transacções: dados transaccionais, relativos a informações sobre a emissão,
distribuição e rebatimento de vales;
ƒ
Básicos: possui os dados básicos sobre cada cliente, como sejam os atributos nome,
morada, e contactos.
141
Capítulo 6 Database Marketing Aplicado à Distribuição
6.2.4.1
Sistematização da Angariação de dados
Com a circulação da primeira revista (e consequente distribuição de vales e
questionários), a organização passou a receber dados cujo o processo de recolha envolve
simultaneamente processamento automático e manual.
O processo de registo dos vales, tratando-se de uma transacção electrónica, é realizado de
uma forma automática, e resume-se a uma importação de dados de um sistema para
outro. Quanto aos questionários, respondidos manualmente, existe a necessidade de
recolher os dados manualmente, através de um ou vários operadores de telemarketing, os
quais lêem as respostas aos questionários e os introduzem no sistema.
6.2.4.2
Selecção dos registos elegíveis
A BD inicial possuía cerca 630 mil registos. A primeira triagem (limpeza) realizou-se em
função dos questionários respondidos e vales rebatidos. Apenas os contactos que
apresentem reacção às campanhas desenvolvidas (revistas com vales desconto enviadas
para a morada de contacto) são incluídos no estudo em análise – estes clientes que
reagiram consideram-se qualificados, todos os restantes são incluídos num estado de
“adormecido”, correspondente à sua inactividade e não são objecto de estudo no caso em
análise.
A classificação inicial atribuída aos clientes, desenvolve-se em duas vertentes:
ƒ
Actividade do cliente, onde se consideram os vales rebatidos e os questionários
respondidos (Tabela 14);
ƒ
Conhecimento sobre o cliente, resultante das informações de carácter pessoal,
familiar e bens pessoais, fornecidas através dos questionários (Tabela 15);
142
Capítulo 6 Database Marketing Aplicado à Distribuição
Tabela 14 - Classificação em função do volume de questionários e vales.
Enquadramento
Clientes que responderam ao questionário e rebateram pelo menos 1 vale
Classificação
Valiosos
Clientes que rebateram vales mas não responderam a questionário
Interesseiros
Clientes que responderam ao questionário mas não rebateram vales
Distraídos
Clientes que não rebateram vales e não responderam a questionários
Inactivos
Tabela 15 - Classificação em função da dimensão da família e acessórios de conforto.
Enquadramento
Clientes com família númerosa e acessórios de conforto
Classificação
Valiosos
Família pequena e com acessórios de conforto
Valor Light
Família númerosa sem acessórios conforto
Valor Light
Família pequena sem acessórios conforto
Baixo valor
Face ao objectivo explícito de se conhecer o perfil dos clientes e dada a dimensão da BD
(existem cerca de 250,000 indivíduos que rebateram pelo menos um vale ou responderam
pelo menos a um questionário), o projecto centrou-se exclusivamente nos denominados
Clientes Valiosos em ambas dimensões referidas acima, cujo pseudocódigo usado para a
selecção é descrito abaixo.
SE #lar>=2 E ArtigoConforto_1=sim E ArtigoConforto_2=sim E
RebateuVale=sim
E
RespondeuQuestionario=sim
ENTÃO
Cliente=
Valioso
Com as premissas definidas seleccionaram-se 29,285 registos, correspondentes a
indivíduos cuja a sua actividade no projecto (quanto a rebatimento de vales e resposta a
questionários) ou as características sociais e familiares eram as desejadas. Contudo os
registos obtidos não se encontravam prontos a serem utilizados, sendo necessário ainda
desenvolver actividades de pré-processamento como algumas das referidas em seguida.
143
Capítulo 6 Database Marketing Aplicado à Distribuição
6.3 (B)Descoberta de Conhecimento em Bases Dado s
O processo de DCBD no âmbito deste projecto desenvolveu-se segundo o processo
proposto na metodologia proposta DM4DBM (Figura 27), segundo o qual existem as
fases de análise de dados (avaliação da qualidade); Pré-processamento; Modelação e
finalmente avaliação dos modelos obtidos.
6.3.1 (b1) Compreensão dos dados
Como já referido anteriormente o conjunto de dados inicial era significativamente maior
tanto em número de registos como na quantidade de atributos. A informação inicial sobre
alguns dos dados disponíveis encontram-se no anexo J.
Embora o conjunto de dados utilizado em cada modelo seja relativamente pequeno face à
dimensão da BD contudo, utilizando técnicas de aprendizagem automática (e.g., Redes
neuronais artificiais) mesmo com um número relativamente pequeno de casos, desde que
esteja de alguma forma garantido que a amostra é representativa do universo a estudar, é
possível induzir um padrão genérico.
Os diferentes modelos gerados foram suportados em conjuntos de dados onde os
principais atributos foram os que se apresentam na Tabela 16.
Tabela 16 – Atributos utilizados na modelação
Atributo
Descrição
Tipo
Cli_id
Código de identificação do cliente
Inteiro
#lar
Dimensão do lar
Inteiro
Filhos
Se tem Filhos ou não
Boleano
Nfilhos
Número de Filhos
Inteiro/Discreto
144
Capítulo 6 Database Marketing Aplicado à Distribuição
Atributo
Descrição
Tipo
MaqLavar
Se possui maquina lavar louça
Boleano
ConsumoSuper
Valor mensal despendido em supermercados
Inteiro/Discreto
Rendimento
Rendimento mensal per-capita
Inteiro/Discreto
V_xx
Se o vale nº xx foi rebatido
Caracter/Discreto
O modelação apresentam-se domínio de valores para os atributos usados no processo de
modelação apresentam-se na Tabela 17.
Tabela 17 – Domínio dos atributos de trabalho
Atributo
Domínio
#lar
1,2,3,4,5, 6 ou mais
#filhos
1,2,3,4,5 ou mais
Nfilhos
Sim/Não
MaqLavar
Sim/Não
ConsumoSuper
Até 150€; 151 a 350€; 351€ a 500€; 501 a 650€ mais de 651€
Rendimento
Até 150€; 151 a 350€; 351€ a 500€; 501 a 750€ mais de 751€
V_xx
VE-R; VE-NR; VE-NE
A descrição completa dos atributos constantes na BD cedida pela empresa promotora do
projecto encontram-se no anexo I, sendo a análise de alguns desses atributos apresentada
no anexo J.
6.3.2 (b2) Análise dos dados
Pese embora o esforço desenvolvido na filtragem e limpeza de dados, expresso
anteriormente, a BD apresentava diversos problemas, principalmente em termos de dados
relativos a respostas dadas aos questionários, como sejam os dados omissos, os quais
tiveram que ser tratados (processo descrito nas secções seguintes). A ocorrência deste
género de problemas justifica-se por duas razões fundamentais:
145
Capítulo 6 Database Marketing Aplicado à Distribuição
ƒ
Os questionários são preenchidos livremente por indivíduos que nem sempre
fornecem a informação correcta ou não interpretam correctamente as questões e por
isso respondem com valores errados – valores fora do domínio de resposta
pretendido, ou omissão nas respostas (facto mais frequente);
ƒ
O processo de recolha dos dados dos questionários é manual, proporcionando a
inserção de valores incorrectamente ou a falha na interpretação dos dados inscritos
manualmente pelo cliente.
6.3.3 Pré-Processamento dos Dados (b3)
Uma vez obtida a BD isenta de todos os registos considerados como inválidos, inicia-se
então o trabalho sobre os dados. Esta fase correspondeu ao trabalho de eliminação de
ruído, erros e omissões que possam de algum modo comprometer o trabalho de
modelação dos dados. Uma vez limpos e pré-processados os dados foi possível constituir
a base de dados de marketing, onde se incluíam, quer os dados provenientes de
questionários - tabela Respostas (perguntas e respectivas respostas de cada cliente a cada
questionário), quer os dados relativos aos vales rebatidos, com a informação a que
produto se refere e da loja onde foi utilizado - tabela Vales Rebatidos (Figura 36).
Questionários
Lojas
Perguntas
Respostas
Contactos
Vales Rebatidos
Produtos
Vales
Figura 36 - Representação esquemática da formação da BD do projecto.
146
Capítulo 6 Database Marketing Aplicado à Distribuição
Os procedimentos de pré-processamento desenvolvidos foram, numa primeira fase,
orientados ao atributo e, numa fase posterior, orientados à tabela e BD, concretizando-se
nomeadamente nos seguintes aspectos:
Tratamento de dados omissos
A existência de valores em branco num determinado atributo suscita o tratamento desse
atributo, com duas opções distintas mas viáveis: eliminação do atributo da BD (no caso
de valor omisso da maioria dos registos) ou processamento do atributo, isoladamente ou
em função de outros. Relativamente ao último caso, o preenchimento do atributo em
registos em que esteja omisso pode ser realizado de diferentes modos [Pinto et al., 2005],
tendo sido consideradas neste trabalho as seguintes abordagens:
ƒ
Preenchimento com valores determinados com base em médias29 aritméticas simples
calculadas sobre os registos restantes (e.g., indivíduos cujo o atributo sexo não se
encontrava preenchido, era-lhes atribuído o sexo em função do valor mais frequente
na amostra para indivíduos do mesmo distrito);
ƒ
Preenchimento dos casos omissos com valores equivalentes à média desse atributo
em todos os registos de uma determinada condição geográfica ou pessoal, e.g., para
determinar o valor a inserir no atributo idade (em branco) considera-se o valor
médio30 das idades de todos os indivíduos, do mesmo sexo, com o mesmo número de
filhos e residentes no mesmo código postal que rebatem vales na mesma loja.
29
30
cálculo da média para n casos: x =
∑i xi
i
preenchimento de um atributo com um valor médio ponderado em função de outros:
I=
∑ I ns , cp, f ,l
ns,cp, f ,l
que n corresponde ao número de casos com o mesmo sexo (s), no mesmo código postal (cp) mesmo
número de filhos(f), com rebatimento de vales na mesma loja (l)
147
, em
Capítulo 6 Database Marketing Aplicado à Distribuição
ƒ
Preenchimento de casos omissos relativos a variáveis discretas utiliza-se a moda31
dessa variável noutros registos (seja relativo a toda a BD ou relativo a um contexto
determinado)
Tratamento de excepções (outliers)
Verifica-se com alguma frequência a ocorrência valores anormais para alguns atributos,
em muitos registos. Ao contrário do processo de tratamento de dados omissos, os
atributos encontram-se preenchidos mas com a possibilidade de não corresponderem à
realidade. Esta fase procura recuperar a integridade do registo pelo recurso ao tratamento
de excepções. As excepções foram abordadas de dois modos:
ƒ
Selecção dos registos com valores excepcionais e consequente tratamento manual
independente (e.g., quando o atributo número de filhos recebe como valor 15, é
necessário avaliar outras respostas para determinar se de facto serão mesmo 15 ou se
terá sido um lapso na inserção do valor 1 ou do valor 5).
ƒ
Substituição do valor considerado como anormal pela média desse atributo em todos
os outros registos com dados semelhantes em outros atributos (à semelhança do
tratamento de dados omissos), como seja o caso em que um indivíduo surge com a
idade de 125 anos.
Verificação da coerência da informação do registo
A verificação da coerência da informação é de todas as actividades de pré-processamento
a mais morosa, dada a dependência directa da avaliação subjectiva do analista em cada
situação (registo). Entre os casos mais comuns, encontra-se a incoerência entre nome e
31
A moda corresponde ao valor que um determinado atributo assume mais vezes
148
Capítulo 6 Database Marketing Aplicado à Distribuição
sexo; indicação de que tem filhos num atributo e noutro quando solicitado a indicar
quantos indica nenhum; ou ainda na situação onde indica possuir elevados rendimentos,
casa própria e afinal indica não possuir carro.
Exemplificando com uma análise aos atributos possui filhos? e número de filhos (Tabela
18), constata-se na primeira resposta um valor substancial de indivíduos que indicam não
possuir filhos (6,589 casos).
Tabela 18 – Quantidade de respostas obtidas para a questão têm filhos?
Opções resposta
Null
Não Responde / Resposta Inválida
Não
Sim
Frequência
5 754
1 419
6 589
15 523
Percentagem
19,65%
4,85%
22,50%
53,01%
Quando se passa à avaliação do atributo quantos filhos (Tabela 19) constata-se uma
diferença significativa de 1,212 casos, no volume de respostas de valor 0 (zero) por
comparação com o quadro anterior.
Tabela 19 – Quantidade de respostas à questão Número de Filhos?
Número de filhos Frequência Percentagem
Não Responde
7 801
37,97%
Null
1 064
5,18%
1
4 286
20,86%
2
4 657
22,67%
3
946
4,60%
4
240
1,17%
5
60
0,29%
6
24
0,12%
7
8
0,04%
8
4
0,02%
9
4
0,02%
10 +
1 196
5,82%
0 - Não tem
256
1,25%
Face à observação exposta demonstrada resumidamente na Tabela 20, no sentido de
atribuir um significado válido ao conjunto da informação dos atributos Têm Filhos e
149
Capítulo 6 Database Marketing Aplicado à Distribuição
Número de Filhos, ambos os atributos foram processados em conjunto observando-se a
concordância de um relativamente ao outro. Instanciando com os casos ocorridos, temos:
ƒ
Quando a questão Filhos possui a resposta Não e o Número de Filhos é igual a Não
Resposta (4,631 casos), o valor do Número de Filhos é modificado para 0 (zero).
ƒ
Em casos nos quais Filhos é igual a Sim e o Número de Filhos igual a 0 ou Não
Resposta, ou Filhos igual a Não e Número de Filhos igual a 10+ , os registos foram
ignorados.
ƒ
Sempre que se verificasse em ambas as questões Não Resposta (1187 casos) ou
Branco (5,488 casos) os registos foram eliminados . O mesmo procedimento foi
adoptado para o caso das respostas serem de 10+ filhos quando para a questão Tem
Filhos havia ficado em Branco ou Não Resposta (total de 138 casos);
ƒ
Sempre que o valor para Filhos é Não ou Não Resposta, mas foi indicado o valor
para o número de filhos então considerou-se que a resposta a Filhos seria Sim e
assumia-se o valor indicado;
ƒ
Finalmente, nas situações em que era apresentado um valor numérico para a questão
Possui Filhos, esse valor era assumido como o valor para a questão Quantos Filhos,
ficando a primeira com resposta Sim, ou por excepção se o valor era 0 passaria a
resposta para não tem filhos (165 casos).
Tabela 20 - Respostas às questões Têm Filhos e Número de Filhos
Filhos (5)
Sim
Não
Não resposta
Branco
0
27
386
42
123
Número de filhos (6)
1
2
3
4
5
6
7
6 419 6 886 1 381 347 88 35 12
37
24
9
3
4
3
2
105 59
12
3
1
0
0
12
3
0
0
0
0
0
8
6
1
0
0
9
6
0
0
0
10 +
29
1 489
10
128
Branco
287
4 631
1 187
5 488
O processo de verificação da coerência de informação ao longo do registo conduziu a
uma redução significativa no volume de dados uma vez que foram excluídos 8,739
150
Capítulo 6 Database Marketing Aplicado à Distribuição
registos, passando a existir 20,546, cuja distribuição de casos em função das questões
Tem Filhos e Quantos encontra-se expressa conforme a Tabela 21. As células da tabela
em branco representam casos eliminados ou movidos para outra situação.
Tabela 21 - Respostas às questões Têm Filhos e Número de Filhos, após coerência de dados.
Número de filhos (6)
Filhos (5)
0
1
2
3
4
5
6
7
8
Sim
6573 6972 1402 353 93 38 14
7
Não
5059
Não resposta
Branco
9
6
10 + Branco
29
Atributos com valores dispersos
É comum nos questionários a ocorrência de questões abertas, sem a imposição de
qualquer limite máximo para o valor da resposta ou padronização de valores. Este facto
provoca uma dispersão das respostas que acabam por vir a condicionar a sua análise, e.g.,
a distribuição de casos para o atributo número de filhos, após correcção (Tabela 22),
caso não exista algum modo de limitar os valores indicados pode vir a assumir mais de
10 classes distintas.
Tabela 22 – Tabela de frequência para o atributo Nº filhos.
Valor
0
1
2
3
4
5
6
7
8
9
10
Total
Frequência
5 059
6 573
6 972
1 402
353
93
38
14
7
6
29
20 546
151
Percentagem
24,62%
31,99%
33,93%
6,82%
1,72%
0,45%
0,18%
0,07%
0,03%
0,03%
0,14%
100%
Capítulo 6 Database Marketing Aplicado à Distribuição
Verificando uma dispersão acentuada das classes de resposta para o atributo nº de filhos,
procedeu-se a uma redução de classes pelo agrupamento das classes 5,6,7,8,9,10 ou mais
numa só classe de 5 ou mais filhos (Figura 37).
Distribuição ajustada
Quantidade respostas
8000
7000
6000
5000
4000
3000
2000
1000
0
0
1
2
3
4
5 ou mais
Nº de Filhos
Figura 37 - Distribuição após a redução de classes para o atributo Número de Filhos.
Transposição de Tabelas
A aplicação de muitos algoritmos e ferramentas requer que os dados estejam todos numa
única tabela ou, pelo menos em tabelas distintas mas com a mesma chave primária.
Verificou-se na BD em estudo quer a existência de mais do que uma tabela para a mesma
entidade (e.g., tabela clientes e tabela de potenciais clientes) quer a existência de índices
(chaves primárias) heterogéneos impossibilitando a integração e cruzamento de todos os
dados numa tabela única conforme esquematizado pela Figura 38.
152
Capítulo 6 Database Marketing Aplicado à Distribuição
Figura 38 - Transposição da tabela Vale para uma nova tabela que explicita a relação cliente-vale.
A transposição de tabelas passa então pela homogeneização de atributos (obtida pela
integração de todos os dados numa só tabela ou pela utilização de um único atributo
como chave primária em todas as tabelas que irão ser utilizadas na modelação).
Analisando com detalhe a relação entre a tabela cliente (apresentada no anexo I) e a
tabela vale (Figura 38), cujo código utilizado para a sua transposição se apresenta em
anexo, é possível descrever o processo da seguinte forma: A primeira coluna identifica os
clientes (cli_id), enquanto as seguintes identificam os vales. Os vales encontram-se
numerados de 1 a n, sendo este número precedido por Val_x A relação cliente/vale é
codificada em função dos três casos possíveis (Tabela 23):
ƒ
VE-R : Vale Enviado e Rebatido (O vale foi enviado e utilizado pelo cliente);
ƒ
VE-NR : Vale Enviado mas Não Rebatido (O vale foi enviado mas não foi utilizado
pelo cliente, não foi rebatido);
ƒ
VNE : Vale Não Enviado (o vale não foi remtido ao cliente).
153
Capítulo 6 Database Marketing Aplicado à Distribuição
Tabela 23 - Estabelecimento da relação cliente – vale.
cli_id
17
31
41
80
87
107
118
...
958613
Val_1
VE-R
VE-R
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
...
VNE
Val_2
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
...
VNE
...
...
...
...
...
...
...
...
...
...
Val_197
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
...
VNE
Val_198
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
VE-NR
...
VNE
O tratamento dado às tabelas questionários e respectivas respostas é idêntico ao anterior
com a particularidade da existência de um conjunto de tabelas descritivas auxiliares
como sejam, questões disponíveis, valores ou respostas possíveis para cada questão ou,
respostas do cliente ao questionário, as quais foi necessário considerar. A transposição é
representada esquematicamente pela Figura
39. A cada instância da união entre o
atributo Que_ID e Per_ID corresponde um novo atributo na nova tabela perguntas com a
designção Que_Id_ Per_ID que resulta da concatenação das suas designações. Os valores
das respostas dadas pelo cliente, são os valores do atributo.
Figura 39 – Representação da transposição das tabelas pergunta e questionário.
154
Capítulo 6 Database Marketing Aplicado à Distribuição
Esquematicamente a estrutura das tabelas passou de uma situação onde existiam duas
tabelas, Questionário e Questões, cujo conteúdo se exemplifica na Figura 40, para a
situação onde apenas existe uma tabela resultante da união das anteriores, Figura 41.
Questionários
QUE_ID
Descrição
1
Básico
2
Hábitos
3
Consumo
PER_ID
20
21
22
23
24
25
26
27
Questões
Descrição
Sexo
Classe Rendimentos
Habilitações
Casa Própria
Local Compras
Carro
Estado Civil
Emprego
Figura 40 - Organização dos dados das tabelas Questionários e Questões.
Transposição dos questionários em torno do cliente: Nova_Tabela_Perguntas
Id_Cliente P1_1 P1_21 P1_22 P1_23 P2_1
P2_2 P2_23
…
PnQ_nR
17
Sim
12
31
Não
16
Figura 41 - Tabela resultante da transposição das tabelas Questionário e Questões.
A tabela Nova_Tabela_Perguntas foi criada com base nas tabelas T_Pergunta e,
T_Pergunta_Resposta. À semelhança da criação da tabela anterior, também nesta, os
valores dos atributos QUE_ID e PER_ID passaram a ser, eles próprios, atributos da nova
tabela criada, havendo-se procedido à inserção dos dados correspondentes, verificando-se
para cada cliente quais os questionários e perguntas a que o cliente tinha respondido e
inserida a respectiva resposta. No caso das respostas em branco, foi designado o valor -1.
Após esta operação, notaram-se ainda alguns dados inconsistentes nesta tabela, dado
existirem registos de clientes que haviam respondido de forma errada a determinadas
perguntas do questionário como seja o caso “Aproximadamente em que categoria situa o
rendimento mensal do seu lar?” e “Quantas pessoas vivem em sua casa incluindo
você?”.
155
Capítulo 6 Database Marketing Aplicado à Distribuição
ƒ
O primeiro caso teve um tratamento simples: para os clientes que não responderam
ou que tiverem respostas inválidas, era realizada uma média do rendimento de toda a
BD, para os indivíduos do mesmo estado civil e escalão etário.
ƒ
No segundo caso, existiam casos em que clientes não respondiam (-1) ou respondiam
zero (0). Assumindo estes valores como inválidos para a questão, procedeu-se a
preenchimento do atributo com a seguinte premissa: verifica-se se há registo de filhos
(quantos) e estado civil, determinando-se desse modo a dimensão do lar, de seguida,
é calculado o rendimento per-capita médio de todos os indivíduos da BD. O atributo
recebe o valor resultante da relação:
DimensãoLar*RendimentoPer-CapitaMédio
Derivação de novas variáveis
Isoladamente ou na sua forma original, nem sempre os dados possuem carácter
informativo, havendo por isso necessidade de efectuar cálculos posteriores com vista à
exposição da informação associada; e.g., nos questionários analisados era solicitada a
data de nascimento, quando para o tratamento dos dados interessa a idade do indivíduo.
Surge neste caso um novo atributo para toda a BD que consiste na idade.
Tomando em consideração os requisitos e os dados necessários para a aplicação dos
algoritmos na fase de modelação, a derivação de novas variáveis consistiu na criação de
índices de classificação que permita de algum modo facilitar a selecção de registos. Os
índices foram criados em três vertentes:
ƒ
Função de vales: a constituição de um índice que demonstre o sucesso ou insucesso
de aceitação dos vales (e respectivos produtos associados), como seja o Grau de
Rebatimento de Vales (GRV);
156
Capítulo 6 Database Marketing Aplicado à Distribuição
ƒ
Função dos questionários: verificou-se ao longo do trabalho de análise dos dados que
a maioria das perguntas dos questionários ficava sem resposta. Decorrente deste
facto, estabeleceu-se como critério de selecção dos dados de questionários, aqueles
possuíssem maior valor informativo, traduzindo-se na criação de um índice que
reflectisse os questionários e as questões com maior taxa de resposta.
ƒ
Função do cliente: constituição de um índice que reflicta a actividade do cliente
como sejam: índice em função da sua propensão para rebater vales; índice relativo às
perguntas que respondeu a questionários recebidos e, índice cruzado que conjugue os
dois índices anteriores
Os índices criados são pormenorizados em seguida.
i) Grau do rebatimento de vales
O indicador ou Grau de Rebatimento de Vales (GRV) permite ordenar os vales em
função da sua utilização pelos clientes. Este indicador apenas se aplica aos vales
rebatidos pelos clientes seleccionados nas fases anteriores, ou seja, em 20,546 casos. A
ordenação dos vales obteve-se em função da sua utilização, tendo havido necessidade de
criar variáveis do tipo contador32 como o VE-NR (quantidade de vales enviados, mas não
rebatidos pelos clientes,) e VE-R (enviado e rebatido - vales enviados para o cliente e
rebatidos por este). O indicador GRV resulta do quociente entre o valor VE-R e a soma
das variáveis VE-NR e VE-R e representa a taxa de rebatimento geral efectiva (da
quantidade total de vales emitidos e distribuídos, percentualmente, quantos foram
rebatidos) para cada um dos vales.
GRV =
VE −R
V E − R + V E − NR
(Fórmula 17)
*100%
32
As variáveis denominadas como contador, são variáveis que permitem a contagem de um determinado
item e podem ser utilizadas na derivação de novas variáveis.
157
Capítulo 6 Database Marketing Aplicado à Distribuição
A Tabela 24 permite expõe decrescentemente as taxas de rebatimento obtidas para cada
um dos vales emitidos.
Tabela 24 – Taxa de rebatimento de cada vale emitido.
Val_ID
Val_110
Val_114
Val_111
Val_104
Val_33
Val_42
Val_81
Val_50
Val_13
Val_46
Val_83
...
VE-NR VE-R
GVR
19 328 4 132 21,38%
22 187 4 373 19,71%
18 976 3 731 19,66%
21 994 3 848 17,49%
21 597 3 654 16,92%
22 002 3 369 15,31%
22 160 3 386 15,28%
21 873 3 312 15,14%
25 372 2 908 11,46%
21 874 2 417 11,05%
26 746 2 763 10,33%
...
... ...
O critério adoptado para a ordenação dos vales é a sua taxa de rebatimento.
ii) Classificação de clientes em função da sua tendência para o rebatimento de vales
O Índice de Actividade do Cliente (IAC) permite ordenar e classificar os clientes em
função da sua propensão para o rebatimento de vales, tendo em consideração o número
de vales recebidos e os vales que rebateu respectivamente. À semelhança do que foi
realizado na secção anterior, foram também criados algumas variáveis auxiliares de
modo a ser possível determinar o IAC para cada cliente.
Relativamente à primeira parte do processo, ilustrado na Tabela 25, houve necessidade
de criar variáveis contador como o VE-NR (enviado, não rebatido - vales enviados para o
cliente, mas não rebatidos por este) e VE-R (enviado e rebatido - vales enviados para o
cliente e rebatidos por este). O indicador IAC resulta do quociente entre o valor VE-R e a
soma das variáveis VE-NR e VE-R, significando a percentagem de vales rebatidos
(relativamente a todos os vales que terá recebido) por cada cliente.
158
Capítulo 6 Database Marketing Aplicado à Distribuição
IAC =
VE − R
* 100%
V E − R + VE −.NR
(Fórmula 18)
Os clientes, representados por Cli_ID, encontram-se ordenados na Tabela 25 por ordem
decrescente do seu IAC respectivo.
Tabela 25 - Derivação de novas variáveis.
Cli_ID VE-NR VE-R IAC
502317
85
72
45,86%
242537
76
63
45,32%
23353
87
71
44,94%
900914
25
20
44,44%
905666
25
20
44,44%
619479
83
66
44,30%
16625
88
70
44,30%
79997
88
70
44,30%
67900
88
69
43,95%
83974
88
69
43,95%
240300
78
61
43,88%
411444
89
69
43,67%
410626
89
68
43,31%
A concretização da classificação dos clientes suportou-se no modelo denominado por
pirâmide [Curry el al, 2000], que confere a cada indivíduo uma classificação relativa.
Este modelo agrupa os clientes por um valor considerado como referência, no caso o
IAC, em quatro categorias, por ordem decrescente de importância: Top (clientes de topo),
Big (clientes importantes), Medium (clientes razoáveis, médios) e Small (restantes
clientes). A cada categoria, de entre os clientes activos, faz-se corresponder uma
proporção pré-definida de indivíduos, de respectivamente, 1%, 5%, 20% e 74%.
Considerando os 20,546 casos disponíveis, cerca de 205 casos correspondem ao nível
Top, 1,027 ao nível Big, 4,109 ao Médio e 15,204 ao Small.
No seu desenvolvimento e uma vez ordenada decrescentemente a BD pelo IAC
correspondente a cada registo, é definido para cada registo, em sentido crescente, um
número de ordem, contador. Sendo n o número de indivíduos da BD para os quais o IAC
é superior 0 (rebateram pelo menos um vale). O classificador reflecte a razão entre o
159
Capítulo 6 Database Marketing Aplicado à Distribuição
contador e n indicando a percentagem em que cada registo se insere. A atribuição da
Banda a um registo é realizada em função do classificador com o desenvolvimento do
seguinte peudo-código:
SE
classificador <0.01 ENTÃO Banda=”Top”
SENÃO SE classificador >=0.01 E classificador <0.05 ENTÃO
Banda=”Big”
SENÃO SE classificador >=0.05 E classificador <0.2 ENTÃO
Banda=”Medium”
SENÃO SE classificador
ENTÃO Banda=”Small”
>=0.2
E
classificador
<0.8
SENÃO Banda=”Inactive”
Contudo, a classificação dos clientes, segundo este processo, revelou-se geradora de
incongruências, nomeadamente no que respeita a registos que se situavam nas fronteiras
dos escalões. Conforme é possível visualizar na Tabela 26, há clientes que ficam em
bandas diferentes, embora apresentem a mesma percentagem de vales rebatidos. Como
solução para os casos análogos procedeu-se à promoção dos registos para a classificação
imediatamente acima.
Tabela 26 – Classificação de clientes.
cli_ID VE-NR
502317
85
242537
76
23353
87
900914
25
905666
25
904507
25
905565
25
904945
25
619479
83
16625
88
79997
88
67900
88
VE-R
72
63
71
20
20
20
20
20
66
70
70
69
IAC
Contador Classificador
45,86%
200
0,94%
45,32%
201
0,95%
44,94%
202
0,96%
44,44%
203
0,97%
44,44%
204
0,98%
44,44%
205
0,99%
44,44%
206
1,00%
44,44%
207
1,01%
44,30%
208
1,02%
44,30%
209
1,03%
44,30%
210
1,04%
43,95%
211
1,05%
160
Banda
Top
Top
Top
Top
Top
Top
Big
Big
Big
Big
Big
Big
Capítulo 6 Database Marketing Aplicado à Distribuição
O procedimento que permitiu a selecção dos registos que possuem uma taxa de
rebatimento superior a outros registos que estão classificados num nível superior
encontra-se transcrito abaixo:
SE
classificador =0 ENTÃO Banda1=”Inactivo”
SENÃO SE classificador >0 E classificador <Minimo(ValeMedium)
ENTÃO Banda1=”Small”
SENÃO SE classificador > Minimo(ValeMedium)
<Minimo(ValeBig) ENTÃO Banda1=”Medium”
SENÃO SE classificador > Minimo(ValeBig)
<Minimo(ValeTop) ENTÃO Banda1=”Big”
SENÃO SE classificador > Minimo(ValeTop)
ENTÃO Banda1=”Top”
E
E
classificador
classificador
E classificador <=1
Uma vez corrigidos os limites para cada escalão da classificação (por ajuste do IAC), a
quantidade de indivíduos classificados em cada banda ficou, como previsto, ligeiramente
alterada relativamente ao inicialmente estipulado (e.g., o escalão Top passou de 205
casos para 207), sem que contudo advenha daí algum inconveniente para o trabalho em
curso.
iii) Classificação de clientes em função de Perguntas Respondidas nos questionários
Repetiu-se o processo de forma análoga ao exposto no ponto anterior, mas recorrendo
agora a um indicador do Grau de Perguntas Respondidas (GPR) indicativo das respostas
dadas aos questionários por cada cliente. A limitação neste processo refere o
desconhecimento de quantos questionários recebeu cada cliente, uma vez que ao
contrário do que acontece com os vales, não existe registo dos questionários remetidos
para cada cliente .
A Tabela 27 reflecte o cálculo realizado em função do volume de questionários.
161
Capítulo 6 Database Marketing Aplicado à Distribuição
Tabela 27 - Ordenação de clientes em função do volume de questões respondidas:
cli_id
31
153
144
…
587
118
80
17
107
…
PergNaoRespondidas
43
48
57
…
115
115
117
121
121
…
PergRespondidas
78
73
64
…
6
6
4
0
0
…
GPR
64,50%
60,30%
52,90%
…
5,00%
5,00%
3,30%
0,00%
0,00%
…
Uma vez aplicado o conceito para a indexação dos registos e a consequente construção
das pirâmides de classificação, o estudo prossegue, orientando-se agora para a análise da
possível correlação entre as categorias e, em particular de entre elas, a selecção de subconjuntos de indivíduos sobre os quais se irá proceder à aplicação de algoritmos de DM.
iv) Indexação cruzada de clientes
A classificação simultânea de clientes pelos critérios definidos anteriormente permitirá
uma selecção de clientes mais especifica em função das classes (vales e perguntas) a que
pertencem. A matriz criada é constituída pela execução do seguinte código SQL:
Select * From PiramideVale, PiramidePergunta
Count
Where BandaVale=”Top” & BandaPergunta=”Top”,
BandaVale=”Top” & BandaPergunta=”Big”
BandaVale=”Top” & BandaPergunta=”Small”
BandaVale=”Top” & BandaPergunta=”Inactive”
…
BandaVale=”Inactive” & BandaPergunta=”Inactive”
A tabela resultante permite visualizar a informação pretendida de um modo mais
intuitivo, permitindo o cruzamento de informação entre os diferentes critérios de
classificação (por vales rebatidos ou questionários respondidos). Tendo por base a
162
Capítulo 6 Database Marketing Aplicado à Distribuição
informação obtida é possível seleccionar os casos com mais relevância para o estudo.
Analisando a Tabela 28, é possível verificar que os clientes mais activos no rebatimento
dos vales (Banda Top e Banda Big) pertencem à banda Small da pirâmide das perguntas
respondidas, com 114 e 497 casos, respectivamente. Os valores obtidos representam a
classificação dos clientes classificados como Top ou Big (relativo a vales rebatidos) em
função da sua propensão para responder às perguntas dos questionários.
Banda Pergunta
Tabela 28 – Número de casos por cada escala de classificação.
Top
Big
Medium
Small
Total
Top
19
31
45
114
207
Banda Vale
Big
Medium
35
49
173
338
327
1741
497
1986
1 032
4 114
Small
116
487
2007
12581
15 191
Total
219
1 029
4 120
15 178
20 546
Idêntica observação se aplica à classificação para os clientes em função de perguntas
respondidas, onde se verifica também, que os clientes mais participativos em termos de
perguntas respondidas pertencem à banda Small para os vales rebatidos.
Suportado pela quantificação estabelecida para cada classificação atribuída, foi
desenvolvido o procedimento para a caracterização dos clientes, considerando os
seguintes casos:
ƒ
Os vales (produtos) mais rebatidos (adquiridos);
ƒ
Clientes que responderam a mais vales e responderam a mais questões.
Este critério permite seleccionar entre os dados disponíveis os casos mais interessantes
seja na perspectiva de actividade dos clientes (rebatimento de vales e propensão para
responder a questionários), quer na perspectiva de relevância da informação, uma vez
que existem mais registos disponíveis para análise, acerca de cada cliente e cada vale
seleccionado.
163
Capítulo 6 Database Marketing Aplicado à Distribuição
6.3.4 (b4) Modelação
6.3.4.1
Selecção de dados para treino
Uma vez realizado o trabalho de pré-processamento de dados e antes mesmo de se
proceder à aplicação de algoritmos de DM é necessário estabelecer para cada caso o
conjunto de dados necessários.
A definição dos diferentes conjuntos de dados teve como critérios, os dados relativos a:
ƒ
Questionários com maior taxa de resposta;
ƒ
Clientes com maior volume de vales rebatidos;
ƒ
Clientes com maior número de questionários preenchidos;
ƒ
Vales com maior taxa de utilização (rebatimento).
Suportado pelos indicadores construídos no âmbito do pré-processamento, é possível
construir a amostra em duas vertentes:
i. por selecção dos dados relativos a clientes com maior taxa de actividade
relativamente a vales rebatidos;
ii. por selecção dos vales com maior taxa de utilização (rebate).
Tal como exposto anteriormente, a selecção de registos recorreu ao agrupamento de
clientes através do modelo da pirâmide [Curry el al, 2000].
A selecção do número de casos para a aplicação dos algoritmos obedeceu à proporção de
dois terços para treino e um terço para testes, conforme o método da divisão da amostra,
apresentado na secção 4.4.
164
Capítulo 6 Database Marketing Aplicado à Distribuição
6.3.4.2
Aplicação de Algoritmos
Uma vez aplicado e desenvolvido o conceito teórico para a indexação de clientes e a
consequente construção das pirâmides de classificação, o estudo prossegue de acordo
com a metodologia de suporte, a DM4DBM, orientando-se agora para a aplicação dos
algoritmos de DM.
Tratando-se de um projecto cujo objectivo de negócio é conhecer melhor os clientes, a
transposição desse desiderato para o marketing e por consequência para os objectivos de
DBM, proporcionou o estabelecimento de diferentes objectivos de DM. Assim, os
objectivos de DM definidos foram:
ƒ
Determinação do perfil dos clientes em função do seu rebatimento de vales;
ƒ
Determinação do perfil dos clientes em função da sua propensão para o rebatimento
de vales e ainda a resposta aos questionários;
ƒ
Análise dos produtos (vales) comprados (rebatidos);
ƒ
Perfil dos clientes em função do produto adquirido.
i) Modelo 1 - Determinação do perfil de clientes em função da sua propensão para o
rebatimento de vales.
Tomando como ponto de partida todos os dados disponíveis (correspondente a 20,546
clientes) após o pré-processamento e aplicando o algoritmo de classificação C5.0,
verificou-se que a única regra gerada correspondia à classe predominante nos dados, ou
seja, não rebate. Este facto, traduzia a distribuição dos dados segundo os quais cerca de
80% dos clientes não rebate vales e apenas 20% o faz.
165
Capítulo 6 Database Marketing Aplicado à Distribuição
Recorrendo à classificação IAC de acordo com o modelo da pirâmide, seleccionaram-se
numa segunda iteração, apenas os melhores clientes em termos de rebatimento de vales
sendo o objectivo conhecer quais as suas características comuns (perfil). Houve a
necessidade de se proceder a uma selecção de registos segundo a qual apenas seriam
elegíveis os clientes cujo índice da pirâmide seja Top ou Big, originando um novo
atributo denominado por tipo cliente. A derivação deste novo atributo foi gerada pela
aplicação do seguinte pseudo código:
Select * From ClienteFinal
Where BandaVale <> “Inactive”
SE BandaVale=”Top” or BandaVale=”Big” ENTÃO TipoCliente=”TopBig”
SENÃO TipoCliente=”Not”
Uma vez executado o procedimento, o conjunto de dados para estudo ficou resumido
1,239 casos. Considerando a proporcionalidade definida pelo método da divisão da
amostra, aplicou-se o algoritmo C5.0 aos 817 registos correspondentes ao conjunto de
treino, obtendo-se como resultado mais relevante a seguinte (a stream e os restantes
detalhes do modelo obtido e encontram-se no anexo D):
Se #filhos <=1 E #lar >3 E Rendimento [501–750] Então TopBig
A interpretação da regra permite concluir que do conjunto inicial para treino (constituído
por 817 registos), existem 365 casos de onde em que se verificou esta regra. Desses 365
casos, 76% dos clientes são correctamente classificados como TopBig (277 indivíduos).
(b5) Considerando as orientações da metodologia DM4DBM (secção 4.4) para a
avaliação de resultados, aplicou-se a regra ao conjunto de dados para teste disponíveis
(422 casos) e obteve-se como matriz de confusão os seguintes elementos:
166
Capítulo 6 Database Marketing Aplicado à Distribuição
Desejado/PrevistoÆ
Negativo
Positivo
Negativo
167
46
Positivo
53
147
Tomando como base a tabela resultante e os indicadores sugeridos no capítulo 3,
obtiveram-se os seguintes parâmetros de avaliação:
Precisão
Especificidade
Sensibilidade
76.03%
76.06%
75.99%
Os indicadores indicam um homogéneo do modelo entre os dados de treino e os dados de
teste revelando indicadores de precisão, sensibilidade (capacidade para classificar
correctamente os clientes que são TopBig) e especificidade (capacidade para detectar
correctamente aqueles que não são TopBig) muito próximos entre si.
ii) Modelo 2 - Determinação de perfil considerando a sua propensão para rebatimento
de vales e resposta a questionários;
Os procedimentos adoptados aqui são similares ao descrito anteriormente, embora neste
caso houvesse já a experiência adquirida no que concerne à constituição do conjunto de
treino, mantendo-se o método da divisão da amostra de dois terços dos dados disponíveis
para treino e um terço para testes.
Recorrendo à matriz de classificação cruzada criada no pré-processamento (Tabela 28 –
Número de casos por cada escala de classificação.) seleccionaram-se os indivíduos
pertencentes simultaneamente às bandas Top e Big quer quanto a vales rebatidos e banda
quer quanto a perguntas respondidas. O grupo de indivíduos que se encontravam nestas
condições totalizou 2,229 casos (permitindo formar um conjunto de treino com 1,486
casos e o conjunto de teste com 743). O pseudo código utilizado para a selecção de
registos foi o seguinte:
167
Capítulo 6 Database Marketing Aplicado à Distribuição
Select * From ClienteFinal
Where BandaVale <> “Inactive”
SE BandaVale=”Top” or BandaVale=”Big” or BandaPergunta=”Small”
ENTÃO TipoCliente=”TopBig” SENÃO TipoCliente=”Not”
Uma vez seleccionados aleatoriamente os registos para o conjunto de treino, aplicou-se o
algoritmo C5.0 (cuja stream e resultados do modelo se encontram no anexo E), com o
qual se produziu entre outras a regra mais relevante:
Se #lar > 3 E Rendimento [501–750] Então ClienteTopBig
A regra mais relevante ocorre em 73,4% dos casos, representando um volume de 1,315
registos classificados como sim (cliente TopBig em função do rebatimento de vales e
resposta a questionários).
(b5) Num processo de análise aos resultados obtidos, conforme previsto na metodologia
DM4DBM, aplicou-se a regra obtida ao conjunto de dados para teste disponíveis (809
casos) e obteve-se como matriz de confusão os seguintes elementos:
↓ Desejado/PrevistoÆ
Negativo
Positivo
168
Negativo
306
75
Positivo
92
336
Capítulo 6 Database Marketing Aplicado à Distribuição
Tomando como base a matriz resultante e os indicadores referenciados na secção 4.4,
obtiveram-se os seguintes parâmetros de avaliação:
Precisão
Especificidade
Sensibilidade
79.36%
76.89%
81.75%
Estes parâmetros apresentam valores superiores aos do modelo evidenciando uma maior
capacidade para classificar correctamente os casos de clientes que não são TopBig
(sensibilidade de 81,75%)
iii) Modelo 3 - Determinação de relações entre produtos (vales) comprados (rebatidos);
Uma das abordagens adoptadas pelos profissionais de marketing ao estudo do
comportamento dos consumidores, denominada por análise do cabaz de compras,
consiste na análise dos produtos que compõem as compras e na procura de possíveis
relações de frequência entre eles. No contexto do estudo realizado, face à identificação
de cada vale com um produto ou família de produtos, o objectivo desta tarefa consiste em
determinar qual a relação, se existir, entre os vales rebatidos.
Verificou-se existirem vales distintos com ofertas diferentes para o mesmo produto (e.g.,
valor do desconto atribuído é diferente) condicionando directamente a taxa de
rebatimento de cada um dos vales. Dado o facto, houve necessidade de orientar a análise
de eventuais associações entre produtos para uma perspectiva mais abrangente do que ao
nível do produto – optou-se então por se realizar um agrupamento dos vales por categoria
de produtos (e.g., produtos de cosmética ou produtos congelados).
O agrupamento de vales, realizada manualmente com apoio das pessoas da organização
(conhecedores do negócio), consistiu na criação de novas variáveis que reflictam cada
um dos agrupamentos (categorias de produtos) considerados . Uma vez concluída a
169
Capítulo 6 Database Marketing Aplicado à Distribuição
definição dos agrupamentos e respectivas variáveis houve a necessidade de se
determinar, numa primeira fase, quais as afinidades entre as categorias e de seleccionar
os casos com maior correlação e, numa segunda fase, determinar as características
comuns das pessoas que os rebatem.
O agrupamento de vales em categorias foi realizado da seguinte forma: sempre que um
vale de um agrupamento era rebatido adicionava-se no registo do cliente o valor 1 (um),
caso contrário, inseria-se o valor 0 (zero) ou ignorava-se. Para a derivação do campo,
e.g., produtos de limpeza, houve necessidade de verificar na BD todos os vales que
correspondiam a esse produto e realizar o somatório dos vales rebatidos para cada
cliente. Quanto maior fosse o valor definido para o atributo maior era a quantidade de
vales dessa categoria rebatidos. Uma vez criadas as variáveis procedeu-se à aplicação do
algoritmo para indução de regras com o qual se obteve a Tabela 29.
Tabela 29 – Resultados da aplicação do algoritmo para de indução de regras GRI.
Instancias Suporte Confiança
Consequente
Antecedente 1
Antecedente 2
5 070
2,900
80,000
Champôo 1
Comida Pré-Preparados
Congelados – Peixe
4 130
4,850
77,000
Comida Pré-Preparados
Gelados e Yogurtes
Congelados – Peixe
Champôo 2
4 193
3,900
75,000
Champôo 1
Congelados – Peixe
2 377
3,560
73,000
Gelados e Yogurtes
Comida Pré-Preparados
Peixe congelado
3 415
3,920
72,000
Champôo 1
Comida Pré-Preparados
Champôo 2
4 393
3,710
70,000
Carne congelada
Comida Pré-Preparados
Gelados e Yogurtes
3 450
4,250
68,000
Gelados e Yogurtes
Congelados - Peixe
Carne congelada
3 762
7,200
61,000
Champôo 1
Champôo 2
3 504
4,760
61,000
Carne congelada
Comida Pré-Preparados
2 588
5,560
61,000
Gelados e Yogurtes
Carne congelada
2 820
7,750
61,000
Comida Pré-Preparados
Gelados e Yogurtes
..
…
…
..
Gelados e Yogurtes
4513
4,850
59,000
Carne congelada
Gelados e Yogurtes
8 526
14,420
57,000
Comida Pré-Preparados
Peixe congelado
Peixe congelado
10 530
14,450
57,000
Congelados – Peixe
Comida pré-preparada
3 550
5,200
56,000
Champôo 2
Peixe congelado
2 513
4,850
55,000
Produtos limpeza
Sobremesas de Gelados
Peixe congelado
1 550
5,200
54,000
Champôo 2
Comida pré-preparada
Champôo 1
Champôo 1
1 550
5,200
53,000
Produtos limpeza
Peixe congelado
Champôo 1
1 487
4,600
51,000
Carne congelada
Peixe congelado
Produtos Limpeza
…
…
…
…
170
Antecedente 3
Champôo 2
Carne congelada
Peixe congelado
Capítulo 6 Database Marketing Aplicado à Distribuição
Pela análise das regras geradas verificam-se dois casos notáveis: o primeiro é conjunto de
duas regras assinaladas, por apresentar um suporte elevado; a segunda regra (marcada
separadamente) por apresentar um número elevado de ocorrências.
Tendo em consideração os resultados obtidos, procedeu-se à selecção de todos os clientes
que rebateram vales de acordo com as associações seleccionadas (em função do suporte e
pela representatividade). Contudo, uma vez que se pretendem caracterizar os clientes que
rebatem simultaneamente produtos de categorias diferentes, houve a necessidade de se
proceder à selecção dos mesmos em função das três regras geradas anteriormente e à
aplicação do algoritmo C5.0 para cada um dos casos.
Análise da associação maior grau de confiança,
Instancias Suporte Confiança
5 070
2,900
80,000
Consequente
Champôo 1
Antecedente 1
Comida Pré-Preparados
Antecedente 2
Congelados – Peixe
Antecedente 3
Champôo 2
Para este caso seleccionaram-se os 5,070 registos onde se verificava a associação entre
produtos. constituindo-se logo depois dois grupos: um para treino (3,380) e outro para
teste (1,690). A aplicação do algoritmo C5.0 (cuja stream constituída se encontra no
anexo F) permitiu alcançar como regra mais relevante a seguinte:
A precisão da regra mais relevante é de 56,2%, havendo entre os 2,649 casos que
rebatem vales destas famílias (consomem estes produtos), 1,489 indivíduos que são
caracterizáveis pela regra:
171
Capítulo 6 Database Marketing Aplicado à Distribuição
SE está entre 151€ E 350€ e #Lar = 4 ENTÃO Sim (Compra Champôo1;
Comida pré-preparada; Congelados-Peixe e Champôo 2)
(b5) Segundo a metodologia DM4DBM (secção 4.4) para a avaliação de resultados,
aplicou-se o modelo obtido como o conjunto de dados para teste disponíveis (1,690
casos) e obteve-se como matriz de confusão os seguintes elementos:
↓ Desejado/PrevistoÆ
Negativo
Positivo
Negativo
501
286
Positivo
364
539
Analisando a matriz criada e calculando os indicadores estabelecidos, na secção 3.4
obtiveram-se os seguintes parâmetros de avaliação:
Precisão
Especificidade
Sensibilidade
61.54%
57.93%
65.32%
Na avaliação aos resultados obtidos pela aplicação da regra ao conjunto de teste constatase a existência de um desempenho melhor em termos de sensibilidade(indicador de
classificação correcta dos que consomem) e acuidade (precisão) do que na classificação
correcta de casos negativos - Especificidade (casos onde não se rebatem vales).
Análise da segunda associação com maior grau de confiança,
Instancias Suporte Confiança
4 130
4,850
77,000
Consequente
Comida Pré-Preparados
Antecedente 1
Antecedente 2
Gelados e Yogurtes
Congelados – Peixe
Antecedente 3
Para este segundo caso seleccionaram-se as 4,130 instâncias, constituindo-se de acordo
com o método da divisão da amostra dois grupos: um para treino (2,754) e outro para
teste (1,376).
O algoritmo C5.0 foi então aplicado ao conjunto de treino dando como resultado mais
expressivo a seguinte regra (o modelo completo encontra-se expresso no anexo F):
172
Capítulo 6 Database Marketing Aplicado à Distribuição
SE
ConsumoSuper
[151 - 350€] E #lar=4 ENTÃO Consome (Comida prépreparada; Gelados e Yogurtes e Congelados-Peixe)
Esta regra ocorre em 68.6 % permitindo caracterizar correctamente 1,768 individuos
consumidores de comida pré-preparada, de gelados e yogurte e também congeladospeixe.
(b5) Num processo de análise aos resultados obtidos aplicou-se a regra obtida ao
conjunto de dados para teste disponíveis (1,376 casos) de onde resultou a seguinte matriz
de confusão:
↓ Desejado/PrevistoÆ
Negativo
Positivo
Negativo
489
141
Positivo
219
527
Os parâmetros de avaliação calculados, tendo por base o estabelecido na secção 4.4,
procedeu-se ao cálculo dos seguintes parâmetros de avaliação:
Precisão
Especificidade
Sensibilidade
73.84%
69.06%
79.80%
A regra quando aplicada ao conjunto de teste revela uma eficácia superior à obtida no
conjunto de treino, principalmente no que se refere a acuidade e sensibilidade (detecção
correcta de casos verdadeiros).
Análise da associação com maior número de instancias,
173
Capítulo 6 Database Marketing Aplicado à Distribuição
Instancias Suporte Confiança
10 530
14,450
57,000
Consequente
Congelados – Peixe
Antecedente 1
Antecedente 2
Antecedente 3
Comida pré-preparada
A terceira e última associação verifica-se em 10,530 instancias, havendo-se constituindo
dois grupos: um para treino (7,020) e outro para teste (3,510). A aplicação do algoritmos
de classificação C 5.0 (cujo os detalhes se encontra no anexo F, produziu como regras
mais relevantes as seguintes,
Embora o modelo haja produzido um conjunto de 7 regras, considera-se como mais
relevante aquela que embora se verifique em menor número de casos apresenta maior
valor de precisão.
174
Capítulo 6 Database Marketing Aplicado à Distribuição
SE #lar>2 E ComprasSuper [400-650]
congelado e Comida pré-preparada)
Então
Consome
(Compra
Peixe
Esta regra, embora se verifique em poucos casos, possui, tal como as restantes, a
acuidade mais elevada obtida ao longo do estudo, 99,7%
(b5) Considerando o previsto na metodologia DM4DBM para análise aos resultados
obtidos, aplicou-se a regra ao conjunto de dados para teste disponíveis (3,510 casos) e
obteve-se como matriz de confusão:
↓ Desejado/PrevistoÆ
Negativo
Positivo
Negativo
1 698
79
Positivo
8
1 725
Os indicadores derivados demonstram uma eficácia superior à acuidade da regra seja em
termos de precisão ou capacidade para classificar correctamente os negativos
(especificidade) e os positivos (sensibilidade):
Precisão
Especificidade
Sensibilidade
97.52%
99.52%
95.63%
Na avaliação aos resultados obtidos pela aplicação da regra ao conjunto de teste constatase a existência de um desempenho muito bom da regra mas na generalidade inferior ao
obtido no conjunto de treino, realçando um quebra evidente em termos de sensibilidade,
ou seja a capacidade para classificar correctamente aqueles indivíduos que não
consomem simultaneamente os produtos.
v) Determinação do perfil dos clientes em função do produto adquirido
Com base numa abordagem distinta para a caracterização dos clientes, desenvolvida na
vertente dos vales mais rebatidos e utilizando o principio de quanto maior for o volume
175
Capítulo 6 Database Marketing Aplicado à Distribuição
de rebatimentos, maior será o volume de registos (clientes) para a caracterização do
produto, foram seleccionados os três agrupamentos de vales (definidos no caso anterior)
com maior taxa de rebatimento, permitindo a selecção de 15,965casos .
A abordagem utilizada consistiu em dois módulos essenciais: um módulo que
corresponde ao clustering baseado numa rede neuronal artificial, um mapa autoorganizativo (Self-Organizing Map - SOM) utilizando uma rede do Kohonen; e outro,
que corresponde à determinação da regra de extracção onde se emprega uma AD o qual
pode vir a determinar as regras de associação para cada cluster. As características dos
diferentes clusters poderão determinar estratégias de marketing diferentes, fazendo uso
do conjunto de regras de classificação.
A utilização do SOM iniciou-se com a definição inicial, aleatória dos nós de entrada e
saída. Ao fim de algumas iterações obteve-se uma tipologia para a qual os resultados
eram mais relevantes em termos de distribuição de casos. Essa tipologia final possuía 20
nós de entrada e 25 nós de saída, definindo um mapa de 5x5 (Figura 42), a que
corresponderam 25 clusters, caracterizados pelas seguintes dimensões: N (número de
casos) Não Rebateu (quantos indivíduos rebatem vales e respectiva percentagem relativa)
e Rebateu (quantos indivíduos rebatem os vales e respectiva percentagem relativa).
Figura 42 - Distribuição de casos dentro de cada cluster.
176
Capítulo 6 Database Marketing Aplicado à Distribuição
Pela observação da Tabela 30, salienta-se o facto de em 60% dos dados a distribuição
relativa ao rebatimento (uso) dos vales dentro de um cluster ser maior do que a original
dentro do conjunto de treino inicial (75%).
Tabela 30 – Distribuição de indivíduos para cada cluster.
Cluster
N
Não Rebateu
1 1 895
1389
2
35
17
3 1 222
921
4
151
117
5 1 685
1009
6
195
155
7
13
11
8
85
44
9 1 438
1034
10
327
254
11
827
677
12
205
159
13
959
707
14
10
6
15
79
63
16
163
124
17
86
0
18
470
326
19 1 129
869
20
686
511
21 1 356
1 035
22
526
408
23 1 268
950
24
668
501
25
487
385
Total 15 965
11 892
%
Rebateu
73%
506
49%
18
75%
301
77%
34
59%
679
79%
40
85%
2
52%
41
72%
404
78%
73
82%
150
78%
46
74%
252
60%
4
80%
16
76%
39
0%
86
69%
144
77%
260
74%
175
76%
321
78%
118
75%
318
75%
169
79%
102
75%
3 975
%
27%
51%
25%
23%
41%
21%
15%
48%
28%
22%
18%
22%
26%
40%
20%
24%
100%
31%
23%
26%
24%
22%
25%
25%
21%
25%
No momento seguinte, para que fosse possível determinar o perfil dos clientes inseridos
em cada cluster, foi necessário ainda integrar as variáveis kx e ky (definem um conjunto
de eixos que permite localizar cada cluster no espaço organizado SOM) através da
derivação de um novo atributo kxky (stream em anexo).
Uma vez o conjunto de dados completo (identificação de cada registo individual com o
cluster a que pertence), procedeu-se à aplicação do algoritmo C5.0 a cada um dos 25
177
Capítulo 6 Database Marketing Aplicado à Distribuição
clusters, no sentido de se obter um conjunto de regras explicativas. Os conjuntos de
treino utilizados englobavam numa amostra aleatória 2/3 dos registos contidos em cada
cluster enquanto que os restantes dados (cerca de 1/3) ficavam como conjunto de treino,
conforme o método da divisão da amostra.
A Figura 43 apresenta graficamente o número de casos contidos em cada um desses
clusters, representando ainda a proporção individual de rebatimento de vales em cada
Nº Registos
caso.
Rebateu
2000
1800
1600
1400
1200
1000
800
600
400
200
0
Não Rebateu
1
3
5
7
9
11
13
15
17
19
21
23
25
Clusters
Figura 43 - Clusters vs Rebate de vales.
Como exemplo, indica-se abaixo a regras mais significativa para a caracterização do
cluster 5 (o mais significativo em termos de quantidade de casos , 1685 e taxa de
rebatimento, 41%) – o modelo construido encontra-se no anexo G:
Máquina lavar louça? Sim
Filhos? Sim
Dimensão do lar? 4
Rendimento [151…350],[501,750],[750…[
Esta regra caracteriza 69,7 % de entre os 1,124 casos do conjunto de treino,
representando um total de 783 indivíduos com características pessoais semelhantes e que
rebatem vales de pelo menos um dos três agrupamentos considerados.
178
Capítulo 6 Database Marketing Aplicado à Distribuição
(b5) Adoptando o processo de avaliação que tem vindo a ser utilizado aos resultados
obtidos, aplicou-se a regra obtida ao conjunto de dados para teste disponíveis (561 casos)
e obteve-se como matriz de confusão os seguintes elementos:
↓ Desejado/PrevistoÆ
Negativo
Positivo
Negativo
242
45
Positivo
52
222
Tomando como base a tabela resultante e os indicadores previstos na secção 4.4,
obtiveram-se os seguintes parâmetros de avaliação:
Precisão
Especificidade
Sensibilidade
69.88%
70.07%
69.66%
Embora com valores de sucesso baixos, evidencia-se uma preponderância para o modelo
classificar melhor os casos de indivíduos que não rebatem vales (indicador
especificidade) do que aqueles que rebatem (indicador sensibilidade).
6.3.5 (C) Desenvolvimento de Acções de Marketing
Conforme estabelecido, os objectivos de marketing ambicionavam a determinação do
perfil de cliente para cada tipo de produto.
Face à complexidade dos dados disponíveis e o baixo nível de participação dos clientes
no rebatimento de vales e resposta aos questionários houve necessidade de isolar
sistematicamente o conjunto de dados inicial em função dos objectivos de DM que iam
surgindo. Este principio proporcionou a existência de um conjunto de três objectivos de
DM para o mesmo objectivo de marketing: determinação do perfil dos clientes em
função do seu rebatimento de vales; análise dos produtos (vales) comprados (rebatidos);
perfil dos clientes em função do produto adquirido.
179
Capítulo 6 Database Marketing Aplicado à Distribuição
Segundo a metodologia DM4DBM é possível a existência de um conjunto de actividades
de DM para uma mesma actividade de marketing (Tabela 10 – Exemplos de aplicação
em casos de marketing exposta na secção 5.4.2.3),permitindo contudo o enquadramento
destas numa tipologia de questões: Como; Qual Quem Quando e Que.
(c1) Neste contexto o desenvolvimento de acções de marketing suportado pelo trabalho
de DCBD, prossegue com a aplicação dos resultados na segmentação dos clientes em
função dos objectivos de negócio, do seguinte modo:
ƒ
Questão de marketing “Qual”. Quando o objectivo é o desenvolvimento comercial de
um produto pelo incentivo através de rebatimento de vales em geral, recorre-se ao
modelo obtido no estudo do perfil dos clientes em função do seu rebatimento de vales
e aplica-se a toda BD e seleccionando apenas os indivíduos (Modelo 1):
Se #filhos <=1 E #lar >3 E Rendimento [501–750] Então TopBig
ƒ
Questão de marketing: “Quem”. Quando o objectivo pretendido consiste em realizar
acções de cross-selling ou de up-selling recorre-se ao modelo obtido, aplicando-se
por exemplo a regra (Modelo 3):
SE está entre 151€ E 350€ e #Lar = 4 ENTÃO Sim (Compra Champôo1;
Comida pré-preparada; Congelados-Peixe e Champôo 2)
ƒ
Questão de marketing “Que”. Para acções que visam especificamente promover a
comercialização de um determinado tipo de produto, seleccionam-se os vales
relativos a esse mesmo produto na BD, os quais irão servir como elemento de entrada
para o modelo baseado nas redes auto-organizadas (SOM). Obtendo-se os clusters
mais representativos procede-se à sua selecção e aplica-se o algoritmo C5.0, obtendo
um conjunto de regras que permitirá seleccionar o conjunto de pessoas a contactar
(Modelo 4).
180
Capítulo 6 Database Marketing Aplicado à Distribuição
Máquina lavar louça? Sim
Filhos? Sim
Dimensão do lar? 4
Consumo Super? [151…350],[501,750],[750…[
(c2) Os modelos obtidos, dada a sua natureza, não possuem uma identidade de
marketing, pelo que a sua aplicação é sempre flexível dependendo directamente do
profissional de marketing envolvido e do conhecimento na área do analista. Registe
contudo que com os resultados obtidos existe um ganho significativo de informação
acerca dos consumidores para cada umas das situações analisas, conforme se pode
comprovar com a aplicação das regras geradas nos dados de teste. A concretização no
terreno dos modelos foi da exclusiva responsabilidade da empresa sendo possível apontar
como exemplo prático o seguinte: o modelo 1 permite traçar o perfil do cliente em
função de alguns aspectos conhecidos. Quando se pretender comunicar com esses
clientes que rebatem mais facilmente vales de desconto basta aplicar a regra à BD e
extrair todos os casos (registos) que verificam as condições impostas.
181
Capítulo 6 Database Marketing Aplicado à Distribuição
6.3.6 (D) Discussão de resultados
Ao concluir-se um projecto, é tido por adequado salientar-se os resultados obtidos, mas
também, abordar numa perspectiva critica, as limitações do mesmo.
A solução proposta para o suporte ao desenvolvimento de actividades de BI, com
especial incidência em projectos de DBM, procura representar um passo em frente, no
sentido proporcionar uma visão integrada para o aproveitamento, numa perspectiva de
marketing, do património de informação escondido por entre o enorme volume de dados
nas organizações. O trabalho apresentado nesta dissertação permite pois, a pessoas
mesmo fora da área das tecnologias de informação, adquirirem uma perspectiva global de
como deve proceder ou de quais as etapas a percorrer para um desenvolvimento
estruturado de um projecto de DBM.
Na definição inicial dos objectivos foram referidos dois aspectos essenciais, a proposta
de um sistema para o desenvolvimento do processo de DBM com recurso às técnicas de
DM e a demonstração da sua aplicabilidade num caso prático. Considerando cada uma
das fases importa realçar o papel deste sistema no que respeita à utilização das BD, muito
para além do que até ao momento era prática habitual. Não foi por isso de estranhar, no
caso da fase de recolha de informação, a heterogeneidade de fontes de dados bem como a
diversidade de falhas qualitativa e quantitativas nos dados casos. Com a conclusão da
fase inicial de recolha de informação e uma vez obtida a BDM, iniciou-se a fase de
extracção de conhecimento, evidenciando a dificuldade existente no alinhamento dos
objectivos de marketing com os objectivos das actividades de marketing em termos de
processo de DCBD. Com o enquadramento possível e orientado para modelos de
marketing previamente definidos a fase de aplicação e avaliação dos resultados revelou,
devido à necessidade de trabalho de campo complementar, lacunas no que respeita à
integração de conhecimento adquirido e avaliação dos próprios resultados - (o
182
Capítulo 6 Database Marketing Aplicado à Distribuição
conhecimento extraído pode até ser muito útil e válido, mas o seus resultados práticos
ficarão sempre condicionados às acções de marketing que o utilizam).
Partindo da metodologia DM4DBM e da sua aplicação verifica-se uma adequação quase
completa às necessidades, podendo-se ainda assim desejar uma maior documentação em
cada uma das fases e um sistema vertical que permita suportar toda a sua concretização.
No detalhe, a metodologia formulada revelou-se bastante eficaz nomeadamente nas fases
que vão desde a recolha e angariação dos dados até à constituição da BDM, permitindo a
integração de dados oriundos de diferentes sistemas, perspectivando a integração de
informação entre empresas ou mesmo o aluguer de BD externas. Ao nível das fases mais
morosas e complexas em processos de DM, as fases de preparação e transformação de
dados, a metodologia permitiu enquadrar cada caso particular dentro do projecto DBM
que se pretendia desenvolver, tal como se pode observar na transposição de tabelas ou
nas operações de limpeza e tratamento de casos excepcionais dos dados. Finalmente a
metodologia transpõe para o DBM a problemática inerente à complexidade dos
objectivos de marketing, procurando ultrapassar essa realidade delineando um
alinhamento entre os objectivos das actividades de marketing com as técnicas de DM
disponíveis. Este contributo é formulado sob forma de uma tabela que cruza os
objectivos das actividades de marketing, orientados pelas cinco questões gerais do
marketing, com as técnicas de DM disponíveis, indicando para cada caso aquela ou
aquelas técnicas que melhor se ajustam.
Os resultados obtidos com a aplicação da metodologia no terreno são animadores tendo
em conta a não só a utilidade como a validade dos mesmos, permitindo mesmo a
aplicação do conhecimento escondido em BDM em acções de marketing, concretizando
assim o desejo de que a DM4DBM viabilizasse o suporte ao desenvolvimento de
actividades de BI, concretizado em projectos de DBM.
183
Capítulo 6 Database Marketing Aplicado à Distribuição
184
Capítulo 7 Conclusões e Trabalho Futuro
Capítulo 7
7
Conclusões e Trabalho Futuro
São apresentadas as conclusões ao trabalho desenvolvido
identificando-se as principais contribuições as áreas de
Tecnologias e sistemas de Informação e de Marketing,
sendo ainda sugeridas algumas linhas orientadoras para
trabalho a desenvolver no futuro.
7.1 Sinopse
Após uma observação sobre a evolução das correntes de marketing, concluímos que o
marketing relacional é uma das principais práticas dessa área. Para que tal seja possível o
recurso ás tecnologias de informação, bases de dados em particular, terá que pelo
desenvolvimento de projectos de Database Marketing (DBM) no contexto de actividades
de Business Intelligence (BI).
Na sequência desta conclusão, começou-se por se fazer um levantamento dos principais
modelos de desenvolvimento de DBM tendo-se constatado que abordagens tradicionais,
em geral não incluem processos de Descoberta de Conhecimento em Bases de Dados
(DCBD).
O facto de não existir uma metodologia estruturada que permita ir dos dados em bruto até
à extracção e aplicação do conhecimento escondido entre eles, proporcionou uma
185
Capítulo 7 Conclusões e Trabalho Futuro
oportunidade de propor uma metodologia para a aplicação de técnicas de Data Mining
(DM) em projectos de DBM.
A sistematização de procedimentos que permitem actuar sobre os dados e extrair
informação potencialmente útil e válida, com aplicação relevante em marketing foi então
definido como o objectivo ultimo da metodologia a desenvolver, denominada por Data
Mining For(4) Database Marketing (DM4DBM).
A metodologia proposta concede especial atenção ao processo de extracção de
conhecimento em BDM orientado por objectivos definidos pelas actividades de
marketing em que se enquadra. Uma vez definida, recolheu-se junto de uma empresa,
que actua no mercado da distribuição de produtos de grande consumo, uma Bases de
Dados (BD) relativa a um projecto de marketing relacional.
A exequibilidade da metodologia é aferida através de um caso de experimentação que
visa determinar o perfil de clientes para um conjunto de produtos, tendo-se seguido os
passos previstos na seu âmbito.
Este estudo provou a aplicação da metodologia quanto a:
ƒ
Sistematização de actividades, desde a angariação e recolha de dados até à
constituição da BDM, orientada por objectivos de marketing;
ƒ
Enquadramento e optimização de processos tendo em vista a preparação e préprocessamento dos dados;
ƒ
Sistematização de actividades de DM orientadas a problemas de marketing, definidos
sob a forma de “macro” questões;
ƒ
Aplicação e validação de modelos obtidos em acções de marketing.
186
Capítulo 7 Conclusões e Trabalho Futuro
Numa perspectiva critica, assume-se a limitação da metodologia em proporcionar um
controlo efectivo sobre os resultados, não estando prevista a reintegração e
aproveitamento do conhecimento adquirido no sistema de dados. Com o mesmo sentido
critico, pelo facto de existir apenas um caso de experimentação da metodologia,
reconhece-se a sua limitação, neste momento, para se poder generalizar a outras áreas do
marketing.
7.2 Co nclusões
Os conceitos teóricos decorrentes do estudo teórico desenvolvida permitiram a
elaboração de uma proposta de metodologia que permita o suporte ao desenvolvimento
de actividades de BI. Os resultados obtidos com a aplicação da metodologia DM4DBM
neste caso de experimentação podem ser interpretados à luz de várias perspectivas:
organizacional, do marketing e das tecnologias e sistemas de informação.
Na perspectiva organizacional, demonstra a necessidade do envolvimento de diferentes
órgãos que vão desde o profissional de marketing até ao responsável de sistemas de
informação.
Numa perspectiva de marketing, representa uma contribuição para a área uma vez que
permite a sistematização de um conjunto de tarefas que vão desde os dados, que não
faltam nas empresas contemporâneas, até à aplicação do conhecimento obtido em
actividades de marketing.
Finalmente, mas mais importante, analisando numa perspectiva das tecnologias e
sistemas de informação, os resultados obtidos permitem não só o alinhamento de
algumas actividades de marketing com as técnicas de DM, simplificando de algum modo
a dificuldade inerente ao processo de modelação.
187
Capítulo 7 Conclusões e Trabalho Futuro
Concretizando esta ideia, os resultados obtidos ao longo deste trabalho, não são um
referencial de sucesso na DCBD, mas incorporam uma vertente importante: utilização
prática dos algoritmos de DM em domínios cuja aplicabilidade é muito referenciada mas
para a qual existe muito pouca documentação. Potencia-se desta forma a construção de
sistemas e metodologias verticais para DBM baseados em abordagens de DM.
No decurso deste trabalho foram efectuadas as seguintes publicações:
Pinto Filipe ; Gago, Pedro; Santos, M. Filipe; “Data Mining as New Paradigm for
Business Intelligence in Database Marketing Projects”, 8th International Conference on
Enterprise Information Systems, ICEIS 2006, 23-27 de Maio de 2006, Paphos - Chipre
(aceite para publicação)
Pinto, F, Santos M F, “Descoberta de Conhecimento em Bases de Dados em Actividades
de CRM”; Datagadgets 2005; 1º Congresso Espanhol de Informática CEDI 2005;
Granada, 2005;
Santos, M.F, Cortez, P, Quintela, H, Pinto, F, “A Clustering Approach for Knowledge
Discovery in Database Marketing”, Data Mining 2004 Skyathos, Greece 2004
Pinto, F, Santos, M.F, Cortez, P, Quintela, H, “Data Preprocessing for Database
Marketing”, Data Gadgets 2004, Málaga Spain, pp 76-84; 2004
Pinto, F, Santos, M.F, Cortez, P, Quintela, H, “Criação de Bases Dados de Marketing”,
JOCLAD 2005, Ponta Delgada; 2005
188
Capítulo 7 Conclusões e Trabalho Futuro
7.3 Trabalho Futuro
A área do marketing relacional assume aspectos cada vez mais relevantes na gestão das
organizações seja por questões de ordem financeira (redução de custos) seja por questões
de natureza comercial (e.g., optimizar a relação com o cliente).
Face ao esforço desenvolvido na proposta de uma metodologia para tornar a extracção de
conhecimento em BD acessível a profissionais de marketing, a concretização prática da
mesma requer a presença de um analista com conhecimentos aprofundados em sistemas
gestores de bases dados e de técnicas de DM. Contudo, o sucesso de uma metodologia
com as ambições da DM4DBM poderá ser aferido através de inquéritos de aceitação e
testes de aplicabilidade, com base numa avaliação externa realizada quer por
profissionais da área
(um painel de peritos com mérito reconhecido) quer por
investigadores no domínio das técnicas de DM.
Esta vertente abrirá espaço para a implementação da metodologia DM4DBM sob a forma
de um sistema vertical permitindo uma aplicação directa das técnicas para extracção de
conhecimento em bases dados sob um modo mais intuitivo e transparente para o
utilizador. Sob o mesmo raciocínio a manifesta falta de capacidade dos gestores e
profissionais de marketing em lidar com grandes volumes de dados, abre uma janela de
oportunidade para que a sistematização proposta para o DBM seja desenvolvida noutras
vertentes, como sejam na óptica das tecnologias de BD, com sistemas autónomos na
criação de DW dedicados e na óptica das tecnologias inerentes ao processo de DCDB.
189
Capítulo 7
190
Anexos
Anexos
191
Anexo A Metodologia CRISP-DM
Anexo A
Neste anexo é apresentada de forma resumida a
metodologia CRISP-DM.
8
Metodologia CRISP-DM
Na apresentação das fases da metodologia CRISP-DM destacam-se as características
mais proeminentes e a documentação produzida. A exposição que se segue tem como
base o documento da CRISP-DM [Chapman et el 2000]:
Estudo do Negócio
A abordagem ao negócio da organização, centra-se na análise dos objectivos do projecto
e nos requisitos (funcionais, técnicos, temporais) segundo a perspectiva organizacional.
O conhecimento adquirido neste estudo é posteriormente utilizado para a definição do
problema de DM e na concepção do plano preliminar.
A primeira abordagem do processo de DM consiste em estudar a necessidade da
realização do próprio projecto de DM, compreender e enquadrar a perspectiva do
problema, os objectivos a atingir e descobrir quais os factores mais preponderantes que
influenciam os resultados, ou seja, percepcionar a envolvente do problema a resolver. O
estudo do negócio realiza-se pelas seguintes tarefas:
192
Anexo A Metodologia CRISP-DM
1. Determinação dos objectivos do negócio – na fase inicial do projecto é
fundamental compreender todos os aspectos que condicionam o negócio como
seja, conhecer segundo a perspectiva da organização, os objectivos primários do
cliente (e.g., fidelização dos clientes actuais prevendo quando estes estão
susceptíveis de abandonar);
2. Avaliação da situação actual – determinar com exactidão todos os recursos
disponíveis para o projecto (recursos humanos, materiais e financeiros). Realizar
um levantamento de todos os requisitos, pressupostos e restrições do projecto, o
que inclui um programa de realização, compreensibilidade, qualidade dos
resultados, segurança, aspectos legais e restrições na disponibilidade dos recursos
e tecnológicos. deverão igualmente ser identificados todos os riscos, ameaças ou
eventos que possam comprometer o projecto e respectivos planos de contingência
(acções que previnem o risco). Importa referir ainda a importância da elaboração
de uma análise de custos e benefícios para o projecto, onde se compare os custos
deste com o potencial benefício para o negócio;
3. Definição dos objectivos de DM – descrição dos objectivos de DM e os critérios
de sucesso do DM (e.g., classificação, previsão, segmentação). Como exemplo,
tendo por base o histórico das compras efectuadas nos últimos anos, o preço dos
produtos e a informação demográfica (e.g., idade, rendimentos, cidade, sexo),
prever a quantidade que um cliente irá comprar;
4.
Definição do plano para o projecto – esta tarefa consiste na elaboração de um
plano para o projecto que inclua a duração, os recursos, as fases, as sub-fases, as
interacções entre os processos, entradas, saídas e dependências. Inclui ainda a
elaboração do pressuposto inicial para as ferramentas e técnicas (e.g., requisitos
ao nível das ferramentas, BD, dos Sistemas Operativos).
193
Anexo A Metodologia CRISP-DM
O resultado final do estudo do negócio consiste num plano do projecto que inclui a
informação acerca do negócio, os seus objectivos e critérios de sucesso, os vários
recursos, os requisitos e restrições, os custos e benefícios, os objectivos de DM e os
pressupostos das ferramentas e técnicas a utilizar.
Estudo dos Dados
A fase de estudo dos dados, inicia-se com recolha inicial dos dados e prossegue com a
sua análise de forma a identificar problemas de qualidade. Para que se possam aplicar as
técnicas de DM aos dados, é necessário ter em conta algumas tarefas, como sejam:
1. Recolha inicial dos dados – consiste na aquisição dos dados e da sua
compreensão. Desta tarefa resulta uma lista dos dados adquiridos, a sua
localização, os métodos de aquisição, problemas e soluções encontradas.
2. Descrição dos dados – uma vez recolhidos os dados é necessário descrevê-los,
reconhecer o seu formato, o número de registos nas tabelas, identificar os registos
e outras características entretanto descobertas.
3.
Exploração os dados – o resultado desta tarefa consiste numa listagem inicial de
hipóteses e o seu impacto no restante projecto. Para uma melhor exploração
utilizam-se, por exemplo, gráficos e histogramas, que indicam características dos
dados.
4.
Verificação da qualidade dos dados – realizar um relatório que inclui problemas
de qualidade nos dados e possíveis soluções (normalmente dependem
directamente dos dados e do conhecimento do negócio).
Preparação dos Dados
A fase de preparação dos dados envolve todas as actividades associadas à construção do
conjunto final de dados, aquele que será usado na ferramenta de modelação, sofrendo
194
Anexo A Metodologia CRISP-DM
inevitavelmente várias optimizações. Esta fase inclui a selecção de tabelas, registos e
atributos, bem como a transformação e limpeza dos dados a usar na ferramenta de
modelação, as sub-fases são as seguintes:
1. Selecção de dados – consiste na escolha dos dados a utilizar na análise. Os
critérios para a selecção incluem a relevância dos objectivos de DM e restrições
técnicas e de qualidade, como os limites no volume de dados e tipo de dados. No
final desta tarefa é ainda realizada uma listagem dos dados incluídos e excluídos e
as razões da decisão;
2. Limpeza de dados – Complementa a tarefa anterior, existindo várias técnicas que
se podem aplicar de forma a optimizar a qualidade dos dados, e.g., a
normalização dos dados e tratamento dos dados omissos;
3. Derivação de dados – realiza-se pela derivação de novos atributos (e.g.
determinar o novo atributo idade, a partir da data de nascimento), criação de
novos registos e transformação dos dados (normalização);
4. Integração de dados – obtém-se recorrendo a métodos para a criação de novos
registos ou valores, cuja informação é uma combinação de múltiplas tabelas ou
registos (e.g., junção e agregação de tabelas ou registos);
5. Formatação de dados – a ultima tarefa da preparação dos dados consiste em
modificações sintácticas nos dados de modo a que não alterem o seu significado,
mas que os tornem utilizáveis pela ferramenta de modelação.
Modelação
Esta fase consiste na selecção de várias técnicas de modelação (e.g., árvores de decisão
ou redes neuronais artificiais) e os seus parâmetros são ajustados de forma a optimizar os
resultados. Normalmente, para o mesmo problema de DM existem várias técnicas
disponíveis (e.g., as técnicas árvores de decisão ou redes neuronais artificiais aplicam-se
195
Anexo A Metodologia CRISP-DM
a problemas de classificação), sendo que algumas têm requisitos específicos para a forma
como os dados são apresentados, pelo que pode ser necessário voltar à fase anterior preparação dos dados.
Como referido anteriormente, no início do processo, são especificados os problemas e os
objectivos do DM, no entanto, apenas nesta fase é que os dados, previamente preparados
para a modelação, são utilizados. A escolha das técnicas deve ser cuidadosa de modo a
que satisfazer os objectivos de DM. Nesta fase são contempladas as seguintes tarefas:
1. Selecção de técnicas de modelação – a selecção da técnica mais apropriada deve
ser realizada tendo em atenção o tipo de problema, as ferramentas e os objectivos
do DM;
2.
Definição de uma concepção de Teste – importa antes de construir o modelo,
definir um procedimento ou um mecanismo para testar o desempenho do próprio
modelo;
3. Construção do modelo – uma vez seleccionada a ferramenta de modelação, esta é
aplicada ao conjunto de dados preparados anteriormente, permitindo a criação de
um ou mais modelos. Os vários parâmetros das ferramentas de modelação devem
ser ajustados e os modelos resultantes devem ser convenientemente interpretados
e o seu desempenho explicado;
4. Revisão do modelo – a interpretação dos modelos deve ser realizada de acordo
com o domínio do conhecimento, critérios de sucesso do projecto de DM e com o
mecanismo de teste definido. Na avaliação do sucesso de aplicação do modelo
deve ser levada em consideração o impacto dos resultados deste no contexto do
negócio.
196
Anexo A Metodologia CRISP-DM
Avaliação
A fase de avaliação consiste na validação da utilidade do modelo (ou modelos), na
revisão dos passos executados na sua construção e verificação se for atingidos os
objectivos do negócio. Esta fase compreende as seguintes tarefas:
1. Avaliação dos resultados – determinação se o modelo atingiu os objectivos do
negócio (e de DM) e avaliação do modelo quanto a possíveis lacunas;
2.
Revisão do processo – análise de todas as fases do processo de modo a realçar
eventuais actividades esquecidas e/ou que necessitem de ser repetidas;
3. Determinação dos próximos passos – o projecto apenas se considera concluído se
todos se todos os passos anteriores foram satisfatórios e os resultados cumpriram
os objectivos, devendo então passar para a sua fase de implementação. Caso
suceda o inverso, é necessário então proceder a uma nova iteração das fases
anteriores, utilizando novos parâmetros.
Implementação
Uma vez criado o(s) modelo(s) tal não representa o final do projecto. O conhecimento
extraído deve ser organizado e apresentado de modo a que o utilizador o possa usar. A
fase de implementação pode ser tão simples como, por exemplo, gerar um relatório ou
pode ser tão complexa como integrar os resultados nos sistemas da organização,
dependendo dos requisitos. Em muitos casos é o utilizador e não o analista, que executa
os passos de implementação, sendo no entanto importante que este entenda as acções que
precisa de executar de forma a fazer uso dos modelos criados. As tarefas envolvidas
nesta fase são:
1. Planeamento da avaliação dos resultados – define a estratégia para a
implementação dos resultados de DM, incluindo os passos e a forma como
executar.
197
Anexo A Metodologia CRISP-DM
2. Planeamento da monitorização e manutenção – consiste na definição de
estratégia de monitorização e manutenção e é aconselhável sempre que os
resultados do DM (modelos), sejam implementados no domínio do problema
como parte da rotina do quotidiano. Como retorno da monitorização e
manutenção é possível verificar se os modelos são usados correctamente.
3. Produção um relatório final – é a fase de conclusão do projecto de DM. Elaborase um relatório final resumindo os pontos mais importantes no projecto,
experiência adquirida, explicação dos resultados produzidos e mais importantes.
4. Revisão do Projecto – avaliação dos pontos correctos e errados, do que correu
bem ou que necessita de ser melhorado. Resumo das experiências mais
importantes do projecto, torna-se benéfico para projectos futuros e em situações
similares referir as armadilhas, aproximações erradas ou como foram
seleccionadas as técnicas de DM.
A Aplicação desta metodologia em projectos de DM permite garantir uma maior
celeridade, menores custos de execução, maior segurança, assim como a sua maior
exequibilidade e viabilidade. A metodologia CRISP-DM é extremamente completa e
documentada, uma vez que as suas fases estão devidamente organizadas, estruturadas e
definidas, permitindo que o projecto possa ser facilmente compreendido ou revisto.
Como resultado da sua aplicação obtém-se um conjunto de documentação sobre todo o
processo, num total de onze relatórios:
ƒ
Estudo do negócio;
ƒ
Relatório do conjunto inicial de dados;
ƒ
Relatório da descrição de dados;
ƒ
Relatório da qualidade dos dados;
ƒ
Relatório da descrição da amostra de dados;
ƒ
Relatório da modelação;
198
Anexo A Metodologia CRISP-DM
ƒ
Relatório da avaliação;
ƒ
Plano de implementação;
ƒ
Manutenção e relatório final
199
Anexo B Metodologia SEMMA
Anexo B
Neste anexo é apresentada de forma resumida a
metodologia SEMMA.
9
Metodologia SEMMA
A metodologia SEMMA disponibiliza um método de fácil compreensão, possibilitando
um desenvolvimento organizado, adequado e consequente manutenção dos projectos de
DM, i.e, confere uma estrutura para a sua concepção, criação e evolução, por forma a
apresentar soluções para os problemas, descobrir os objectivos de DM para o negócio.
Esta metodologia consiste em cinco fases as quais são seguidamente caracterizadas de
acordo com a documentação oficial fornecida pelo instituto SAS, disponível no seu sítio
oficial na internet
Sample - Amostragem
A primeira fase da metodologia SEMMA consiste na realização de uma amostragem,
significativa, com a extracção de uma quantidade de dados do universo existente – a
amostra33 deve corresponder a um subconjunto de dados que pertencem ao universo onde
cada elemento tem as mesmas hipóteses de ser incluído, mas também deve ser pequena
de modo a tornar-se rápida e de fácil manipulação.
33
Amostra – É um sub-conjunto dos indivíduos pertencentes a uma população. A informação recolhida
para uma amostra é depois generalizada para toda a população [Reis et al., 1998]
200
Anexo B Metodologia SEMMA
A realização do processo de amostragem traduz-se numa optimização dos custos, da
rentabilidade e do desempenho das etapas seguintes, dado o facto de a manipulação de
uma amostra ser mais rápido e fácil do que manipular todo o universo de dados
disponíveis.
O desenvolvimento de todo o processo de DM a partir de uma amostra representativa
reduz drasticamente o volume e o tempo de processamento necessário para tirar
informação crucial para o negócio. Neste contexto, se o universo de dados tiver um
determinado padrão ou tendência bastante determinado, estes estão patentes na amostra,
caso contrário, o padrão ou tendência for irrelevante, ao ponto de não ser detectado na
amostra, também não será importante para o universo de dados [SAS, 2005].
Explore - Exploração
Uma vez realizado o processo de amostragem, a primeira abordagem realizada sobre os
dados consiste em explorá-los visualmente ou numericamente (e.g., gráficos de
distribuição e dispersão, histogramas, tabelas de frequência, mapas de associações e
segmentação) permitindo em alguns caso detectar as tendências ou agrupamentos
inerentes nos dados. A exploração ajuda a refinar o processo de descoberta. Se a
visualização não revelar claramente as tendências, é possível recorrer ainda ao uso de
técnicas mais avançadas de estatísticas, como a distribuição de Poisson, Mínimos
Quadrados, Qui-Quadrado e Regressão Linear.
A etapa de exploração é marcada pela procura de tendências imprevistas e por anomalias
de forma a conhecer os dados de uma forma aprofundada e as suas relações.
Modify - Modificação
A fase da modificação concentra todas as transformações necessárias com base nos
resultados da etapa de exploração. As transformações realizadas podem ser de inclusão
de informação (e.g., agrupamento de subgrupos significativos de dados), selecção ou
201
Anexo B Metodologia SEMMA
introdução de novas variáveis, de forma a obter-se as variáveis mais significativas. O
objectivo desta fase consiste em criar, seleccionar e transformar as variáveis para o
processo de construção do modelo, preparando os dados para a etapa seguinte - a
Modelação.
Model - Modelação
Uma vez preparados os dados, é possível então prosseguir para a fase de aplicação de
algoritmos - modelação. É nesta fase que se definem as técnicas de construção de
modelos de DM, onde se incluem as técnicas de aprendizagem automática (e.g. árvores
de decisão ou redes neuronais artificiais) e modelos estatísticos (e.g., Regressão Linear,
Indução de Probabilidades).
Para a selecção da técnica é necessário levar em consideração que cada modelo tem
propriedades e características singulares dependentes dos dados e adequados a situações
específicas de DM (e.g., as redes neuronais artificiais alcançam melhores resultados com
dados com relacionamentos complexos e não lineares). A etapa de modelação tem como
objectivo seleccionar as técnicas de construção de modelos de forma a prever com
confiança os resultados desejados [SAS, 2005].
Assessment - Avaliação
A etapa final da metodologia SEMMA consiste na avaliação do modelo de forma a aferir
o seu desempenho. Geralmente, a fase de avaliação de um modelo corresponde à
aplicação deste a uma amostra de dados seleccionada para este fim (conjunto de teste).
Se o modelo for válido este deve funcionar tão bem como na amostra que serviu de base
à sua construção. A etapa de avaliação tem como objectivo aplicar o modelo à amostra de
dados e verificar a seu desempenho, de forma a proceder a ajustes se necessário [SAS,
2005].
202
Anexo C Pseudo Código para Transposição de Tabelas
Anexo C
Neste anexo é apresentado o código utilizado para a
transposição de tabelas no decorrer da preparação dos
dados.
10
Pseudo Código para Transposição de Tabelas
WHILE NOT dRs.EOF OR dRs.BOF
clicod = dRs.Fields.Item("cod_cli")
i = 1
GoTo act
WEND
' Percorrer os vales rebatidos por cada cliente registado
act:
IF dRs.EOF Or dRs.BOF THEN
ELSE
WHILE clicod = dRs.Fields.Item("cod_cli")
desc_vale = dRs.Fields.Item("desc_prod")
id_vale = dRs.Fields.Item("cod_vale")
Dim oCmd As New Command
Dim oRs As Recordset
Dim sSql As String
IF
i = 1 THEN
sSql = "insert into vales_ord (cod_cli,vale"
id_vale & ") values (" & clicod & ",'" & desc_vale & "')"
&
'sSql = "insert into vales (cod_cli,vale" & i & ")
values (" & clicod & ",'" & desc_vale & "')"
203
Anexo C Pseudo Código para Transposição de Tabelas
ELSE
sSql = "update vales_ord set vale" & id_vale & "='"
& desc_vale & "' where cod_cli=" & clicod & ""
'sSql = "update vales set vale"
desc_vale & "'where cod_cli=" & clicod & ""
End IF
oCmd.ActiveConnection = mcon
oCmd.CommandType = adCmdText
oCmd.CommandText = sSql
oCmd.Execute
dRs.MoveNext
'valecod = dRs.Fields.Item("cod_vale")
' MsgBox (valecod & " " & clicod)
i = i + 1
Wend
204
&
i
&
"='"
&
Anexo D Modelos de Data Mining: Modelo 1
Anexo D
Apresenta-se em detalhe a stream construída no Clementine
Data Mining System aplicação de algoritmos de Data
Mining com vista à obtenção do perfil para clientes que
rebatem vales.
11
Modelos de Data Mining: Modelo 1
Perfil de Clientes em função da sua propensão para o rebatimento de vales:
A stream constituida no Clementine Data Mining System partiu do conjunto de dados
relativos a clientes classificados, pelo método da pirâmide, como Top e Big relativamente
a vales rebatidos. O conjunto de treino foi constituído pela aplicação do pseudo código:
Select * From ClienteFinal
Where BandaVale <> “Inactive”
SE BandaVale=”Top” or BandaVale=”Big” ENTÃO TipoCliente=”TopBig”
SENÃO TipoCliente=”Not”
O output do pseudo código permitiu a criação de um conjunto de dados (ficheiro)
denominado como ClientesTopBig.Txt.
205
Anexo D Modelos de Data Mining: Modelo 1
A stream apresenta um nodo Filter para selecção dos atributos a considerar para a
geração do modelo de classificação (algoritmo C 5.0); um nodo Type para a configuração
do tipo de atributos de entrada; um nodo Sample para concretizar a amostragem de 2/3 de
indivíduos para treino (segundo método da divisão da amostra) e o nodo C5.0 para a
geração do modelo com base no respectivo algoritmo.
Na definição da configuração final para o algoritmo de classificação C 5.0
experimentadas diversas configurações para análise de resultados, nomeadamente,
apresentação de resultados em forma de conjunto de regras ou árvores de decisão.
206
Anexo D Modelos de Data Mining: Modelo 1
O modelo gerou um conjunto de 4 regras que permitem prever as condições sob as quais
os clientes rebatem vales. A regra mais relevante refere 365 casos dos quais 76% dos
clientes rebatem vales e possui as mesmas características: nº filhos <=1; dimensão do lar
superior a 3 pessoas e rendimento per capita entes os 500 e os 750€.
Rules for sim - contains 4 rule(s)
Rule 1 for sim (365, 0,76)
if #filhos <= 1 and #lar > 3 and rendimento = [501-750] then sim
Rule 2 for sim (699, 0,729)
if #filhos > 0 and #filhos <= 1 and rendimento = [501-750] then sim
Rule 3 for sim (501, 0,728)
if #lar > 3 and #lar <= 4 and rendimento = [501-750] then sim
Rule 4 for sim (63, 0,692)
If #filhos >2 and ComprsSuper=[mais 651] and rendimento=[501-750] then sim
Rules for nao - contains 4 rule(s)
Rule 1 for nao (70, 0,694)
if rendimento = mais 750 then nao
Rule 2 for nao (85, 0,655)
if rendimento = [250 - 500] then nao
Rule 3 for nao (95, 0,598)
if #filhos <= 0 and #lar <= 3 then nao
Rule 4 for nao (729, 0,527)
if #filhos > 1 then nao
Default: sim
Transpondo o resultado sob a forma de AD verifica-se um detalhe ainda maior na
selecção dos valores que caracterizam os atributos, perdendo-se contudo em precisão.
rendimento = [250 - 500] [ Mode: nao ] => nao (85, 0,659)
rendimento = [501-750] [ Mode: sim ] (1.463)
#filhos <= 1 [ Mode: sim ] (823)
#filhos <= 0 [ Mode: nao ] (124)
#lar <= 3 [ Mode: nao ] => nao (81, 0,593)
#lar > 3 [ Mode: sim ] => sim (43, 0,581)
#filhos > 0 [ Mode: sim ] => sim (699, 0,73)
#filhos > 1 [ Mode: nao ] (640)
#lar <= 3 [ Mode: nao ] (385)
ComprasSuper = [151-350] [ Mode: nao ] => nao (129, 0,527)
207
Anexo D Modelos de Data Mining: Modelo 1
ComprasSuper = [351-500] [ Mode: nao ] => nao (117, 0,573)
ComprasSuper = [mais 651] [ Mode: sim ] (70)
#filhos <= 2 [ Mode: nao ] => nao (29, 0,69)
#filhos > 2 [ Mode: sim ] => sim (41, 0,683)
ComprasSuper = [menos 150] [ Mode: nao ] => nao (69, 0,623)
#lar > 3 [ Mode: sim ] (255)
#lar <= 4 [ Mode: sim ] => sim (200, 0,615)
#lar > 4 [ Mode: nao ] => nao (55, 0,618)
rendimento = mais 750 [ Mode: nao ] => nao (70, 0,7)
A representação visual dos resultados obtidos pelo modelo são ilustráveis pela figura
seguinte:
208
Anexo E Modelos de Data Mining: Modelo 2
Anexo E
Apresenta-se em detalhe a stream construída no Clementine
Data Mining System com vista à obtenção do perfil para
clientes que mais rebatem vales e mais respostas deram aos
questionários.
12
Modelos de Data Mining: Modelo 2
Determinação do perfil considerando a propensão dos indivíduos para o
rebatimento de vales e resposta a questionários
A stream desenvolvida no Clementine Data Mining System partiu do conjunto de dados
relativos a clientes classificados previamente como Top e Big relativamente à quantidade
de respostas dadas em questionários e vales rebatidos. Desse conjunto de clientes
seleccionados pela aplicação do pseudo código representado abaixo, constitui-se um
ficheiro de dados denominado ClientesTopBigValQ.Txt.
Select * From ClienteFinal
Where BandaVale <> “Inactive”
SE BandaVale=”Top” or BandaVale=”Big” or BandaPergunta=”Small”
ENTÃO TipoCliente=”TopBig” SENÃO TipoCliente=”Not”
209
Anexo E Modelos de Data Mining: Modelo 2
A análise prosseguiu com registos seleccionados aleatoriamente pelo nodo Sample e
sobre o quais se aplicou o algoritmo C5.0.
O modelo obtido, constitui um conjunto de regras onde se evidencia a regra que permite
classificar os clientes como TopBig com uma acuidade de 73.4%
#lar <= 3 [ Mode: nao ] => nao (470, 0,734)
#lar > 3 [ Mode: sim ] (1.148)
rendimento = [250 - 500] [ Mode: nao ] => nao (56, 0,607)
rendimento = [501-750] [ Mode: sim ] => sim (1.055, 0,735)
rendimento = mais 750 [ Mode: nao ] => nao (37, 0,622)
A representação do modelo em termos de árvore de decisão ilustra-se com a imagem.
Rules for sim - contains 1 rule(s)
Rule 1 for sim (1.055, 0,734)
if #lar > 3 and rendimento = [501-750] then sim
Rules for nao - contains 3 rule(s)
Rule 1 for nao (470, 0,733)
if #lar <= 3 then nao
Rule 2 for nao (70, 0,694)
if rendimento = mais 750 then nao
Rule 3 for nao (85, 0,655)
if rendimento = [250 - 500] then nao
Default: sim
210
Anexo E Modelos de Data Mining: Modelo 2
A representação gráfica em forma de árvore é ilustrada pela imagem seguinte.
211
Anexo F Modelo de Data Mining: Modelo 3
Anexo F
Apresenta-se em detalhe a stream construída no Clementine
Data Mining System aplicação de algoritmos de Data
Mining com vista à análise do cabaz de compras –
determinação de relações existentes entre os produtos
adquiridos.
13
Modelo de Data Mining: Modelo 3
Determinação de relações entre produtos comprados ((vales rebatidos)
A procura de relações entre produtos adquiridos em simultâneo por clientes, denominado
por análise do cabaz de compras, iniciou-se pela aplicação do algoritmo Genereal Rule
Induction (GRI). Os resultados deste algoritmo podem ser ter uma representação gráfica,
onde a robustez das relações se define pela espessura do traço que une cada elemento do
gráfico.
212
Anexo F Modelo de Data Mining: Modelo 3
Outro modo de representação dos resultados do algoritmo GRI consiste numa tabela de
associações onde existe um consequente e um ou mais antecedentes. O teste á associação
determinada é medido por dois elementos, grau de confiança e suporte.
ƒ
O grau de confiança corresponde à percentagem relativa que ocorre de entre todos os
registos em análise aqueles que verificam simultaneamente os antecedentes e os
consequentes. O grau de confiança traduz a força ou intensidade da implicação entre
os elementos.
ƒ
O suporte corresponde à percentagem relativa dos registos que contém os
antecedentes ou os consequentes. O suporte reflecte a frequência de padrões que
ocorrem numa regra.
As regras obtidas com níveis de confiança e de suporte elevados são referidas como
regras fortes.
213
Anexo F Modelo de Data Mining: Modelo 3
Resultante da aplicação do modelo as associações mais significativas foram:
Instancias Suporte Confiança
Consequente
Antecedente 1
Antecedente 2
5 070
2,900
80,000
Champôo 1
Comida Pré-Preparados
Congelados – Peixe
4 130
4,850
77,000
Comida Pré-Preparados
Gelados e Yogurtes
Congelados – Peixe
10 530
14,450
57,000
Congelados – Peixe
Comida pré-preparada
Antecedente 3
Champôo 2
Uma vez seleccionadas as regras com maior suporte e grau de confiança procedeu-se à
selecção dos conjuntos de registos correspondentes e individualmente aplicou-se o
algoritmo C5.0 com vista à obtenção de regras que permitam caracterizar os
consumidores envolvidos.
Análise da associação:
Consequente
Champôo 1
Antecedente 1
Antecedente 2
Comida Pré-Preparados
Congelados – Peixe
214
Antecedente 3
Champôo 2
Anexo F Modelo de Data Mining: Modelo 3
Assim para a primeira associação o modelo gerado pelo algoritmo C5.0 produziu como
AD as seguintes regras:
Rules for nao - contains 7 rule(s)
Rule 1 for nao (108, 0,836)
if #Lar = [ 4 ] and Super = [351 a 500?] then nao
Rule 2 for nao (141, 0,818)
if #Lar = [ 2 ] then nao
Rule 3 for nao (268, 0,807)
if #Lar = [ 3 ] then nao
Rule 4 for nao (123, 0,792)
if Super = [501 a 650] then nao
Rule 5 for nao (48, 0,78)
if #Lar = [ 4 ] and Super = [menos 150€] then nao
Rule 6 for nao (121, 0,772)
if #Lar = [ 5 ] then nao
Rule 7 for nao (1, 0,667)
if #Lar = [+ 6] then nao
Rules for Sim - contains 1 rule(s)
Rule 1 for Sim (2.649, 0,562)
if #Lar = [ 4 ] and Super = [151 a 350?] then Sim
Default: nao
O conjunto de regras correspondente foi o seguinte:
#Lar = [ 2 ] [ Mode: nao ] => nao (141, 0,823)
#Lar = [ 3 ] [ Mode: nao ] => nao (268, 0,81)
#Lar = [ 4 ] [ Mode: Sim ] (2.848)
Super = [151 a 350?] [ Mode: Sim ] => Sim (2.649, 0,562)
Super = [351 a 500?] [ Mode: nao ] => nao (108, 0,843)
Super = [501 a 650] [ Mode: nao ] => nao (43, 0,721)
Super = [menos 150€] [ Mode: nao ] => nao (48, 0,792)
#Lar = [ 5 ] [ Mode: nao ] => nao (121, 0,777)
#Lar = [+ 6] [ Mode: nao ] => nao (1, 1,0)
O qual representado graficamente possuía permitia visualizar a selecção dos atributos.
215
Anexo F Modelo de Data Mining: Modelo 3
216
Anexo F Modelo de Data Mining: Modelo 3
Para a segunda associação,
Consequente
Comida Pré-Preparados
Antecedente 1
Gelados e Yogurtes
Antecedente 2
Congelados – Peixe
Conjunto de regras gerado foi:
#Lar = [ 2 ] [ Mode: nao ] => nao (141, 0,823)
#Lar = [ 3 ] [ Mode: nao ] => nao (268, 0,81)
#Lar = [ 4 ] [ Mode: Sim ] (2.848)
Super = [151 a 350€] [ Mode: Sim ] => Sim (2.649, 0,562)
Super = [351 a 500€] [ Mode: nao ] => nao (108, 0,843)
Super = [501 a 650] [ Mode: nao ] => nao (43, 0,721)
Super = [menos 150€] [ Mode: nao ] => nao (48, 0,792)
#Lar = [ 5 ] [ Mode: nao ] => nao (121, 0,777)
#Lar = [+ 6] [ Mode: nao ] => nao (1, 1,0)
Rules for nao - contains 7 rule(s)
Rule 1 for nao (108, 0,836)
if #Lar = [ 4 ] and Super = [351 a 500?] then nao
Rule 2 for nao (141, 0,818)
if #Lar = [ 2 ] then nao
Rule 3 for nao (268, 0,807)
if #Lar = [ 3 ] then nao
Rule 4 for nao (123, 0,792)
if Super = [501 a 650] then nao
Rule 5 for nao (48, 0,78)
if #Lar = [ 4 ] and Super = [menos 150€] then nao
Rule 6 for nao (121, 0,772)
if #Lar = [ 5 ] then nao
Rule 7 for nao (1, 0,667)
if #Lar = [+ 6] then nao
Rules for Sim - contains 1 rule(s)
Rule 1 for Sim (2.649, 0,562)
if #Lar = [ 4 ] and Super = [151 a 350?] then Sim
Default: nao
217
Anexo F Modelo de Data Mining: Modelo 3
A representação gráfica das regras geradas é as seguinte
218
Anexo F Modelo de Data Mining: Modelo 3
Finalmente a terceira associação,
Consequente
Congelados – Peixe
Antecedente 1
Comida pré-preparada
#lar <= 1 [ Mode: nao ] => nao (98, 1,0)
#lar > 1 [ Mode: sim ] (6.662)
#lar <= 3 [ Mode: sim ] (5.014)
ComprasSuper = [100-250] [ Mode: sim ] => sim (1.606, 0,765)
ComprasSuper = [250 - 400] [ Mode: sim ] => sim (696, 0,885)
ComprasSuper = [400-650] [ Mode: sim ] (1.004)
#lar <= 2 [ Mode: nao ] => nao (664, 0,678)
#lar > 2 [ Mode: sim ] => sim (340, 1,0)
ComprasSuper = até 100 [ Mode: sim ] (1.580)
#lar <= 2 [ Mode: sim ] => sim (1.352, 0,82)
#lar > 2 [ Mode: nao ] => nao (228, 1,0)
ComprasSuper = mais 650 [ Mode: sim ] (128)
#lar <= 2 [ Mode: nao ] => nao (26, 0,615)
#lar > 2 [ Mode: sim ] => sim (102, 1,0)
#lar > 3 [ Mode: sim ] (1.648)
ComprasSuper in [ "[100-250]" ] [ Mode: sim ] (1.274)
#lar <= 4 [ Mode: sim ] (940)
#Filhos <= 3 [ Mode: sim ] (798)
Rendimento = [250 - 500] [ Mode: sim ] (386)
#Filhos <= 0 [ Mode: sim ] => sim (52, 0,654)
#Filhos > 0 [ Mode: nao ] (334)
Lavar = nao [ Mode: nao ] =>nao (190, 0,516)
Lavar = Sim [ Mode: nao ] (144)
#Filhos<=1[Mode:sim]=>sim (52, 0,577)
#Filhos>1[Mode: nao]=>não (92, 0,587)
Rendimento = [501-750] [ Mode: sim ] => sim (226, 0,593)
Rendimento = até 250 [ Mode: sim ] => sim (186, 0,667)
#Filhos > 3 [ Mode: nao ] => nao (142, 0,563)
#lar > 4 [ Mode: sim ] => sim (334, 1,0)
ComprasSuper in [ "[250 - 400]" "[400-650]" ] [ Mode: sim ] => sim (0)
ComprasSuper in [ "at? 100" ] [ Mode: nao ] => nao (256, 0,867)
ComprasSuper in [ "mais 650" ] [ Mode: nao ] => nao (118
219
Anexo F Modelo de Data Mining: Modelo 3
O conjunto de regras correspondente foi o seguinte:
Rules for sim - contains 7 rule(s)
Rule 1 for sim (340, 0,997)
if #lar > 2 and ComprasSuper = [400-650] then sim
Rule 2 for sim (334, 0,997)
if #lar > 4 and ComprasSuper = [100-250] then sim
Rule 3 for sim (102, 0,99)
if #lar > 2 and #lar <= 3 and ComprasSuper = mais 650 then sim
Rule 4 for sim (696, 0,884)
if ComprasSuper = [250 - 400] then sim
Rule 5 for sim (1.352, 0,819)
if #lar <= 2 and ComprasSuper = at? 100 then sim
Rule 6 for sim (1.606, 0,764)
if #lar <= 3 and ComprasSuper = [100-250] then sim
Rule 7 for sim (2.448, 0,723)
if #Filhos <= 3 and ComprasSuper = [100-250] then sim
Rules for nao - contains 8 rule(s)
Rule 1 for nao (228, 0,996)
if #lar > 2 and #lar <= 3 and ComprasSuper = at? 100 then nao
Rule 2 for nao (118, 0,958)
if #lar > 3 and ComprasSuper = mais 650 then nao
Rule 3 for nao (124, 0,913)
if #lar <= 2 and ComprasSuper = mais 650 then nao
Rule 4 for nao (256, 0,864)
if #lar > 3 and ComprasSuper = at? 100 then nao
Rule 5 for nao (664, 0,677)
if #lar <= 2 and ComprasSuper = [400-650] then nao
Rule 6 for nao (170, 0,645)
if #Filhos > 1 and #lar > 3 and #lar <= 4 and Lavar = Sim and Rendimento =
[250 - 500] then nao
Rule 7 for nao (172, 0,626)
if #Filhos > 3 and #lar > 3 and #lar <= 4 then nao
Rule 8 for nao (260, 0,615)
if #lar > 3 and #lar <= 4 and Lavar = Sim and Rendimento = [250 - 500] then nao
Default: sim
220
Anexo G Modelo de Data Mining : Modelo 4
Anexo G
Neste anexo é ilustrado o trabalho desenvolvido com vista à
análise dos clientes que rebateram vales, com aplicação de
técnicas de clustering –redes neuronais artificiais (redes de
Kohonen) e o algoritmo de classificação (C 5.0) .
14
Modelo de Data Mining : Modelo 4
Partindo do conjunto de clientes (20,546) seleccionados inicialmente
procurou-se
através das redes de Kohonen determinar as associações que permitam constituir grupos
o mais homogéneos possíveis quanto à sua característica comum - rebatimento de vales.
Sobre os registos indexados pelos índices Kx e Ky aplicou-se o algoritmo de classificação
C5.0.com o objectivo de caracterizar os elementos cada cluster.
221
Anexo G Modelo de Data Mining : Modelo 4
A aplicação do nodo de Kohonen permitiu indexar cada um dos 20,546 registos em
termos de kx e ky, ficando deste modo identificados com um cluster. A aplicação do
próprio modelo aos dados permitiu exportá-los para um ficheiro de SPSS onde se
recodificou cada registo em termos da combinação de kxky. Este ficheiro de serviu
posteriormente como elemento de entrada na stream (ainda que do mesmo apenas se
tenha recebido o atributo cli_id e kxky), viabilizando a realização de uma união de dados
(nodo Merge) à restante informação inicial de cada registo – à tabela inicial de dados foi
adicionada uma nova coluna kxky a qual indica a que cluster pertence cada registo.
Cli_ID
001156
Nome
Maria
Apelido
Rita
Data Nascimento
17-05-1870
Sexo
F
N filhos
2
kxky
01
584012
Margarida
Coelho
17-05-1976
F
0
10
004012
João
Norte
12-08-1970
M
1
11
10012
Rui
Silva
04-11-1986
M
5
14
222
Anexo G Modelo de Data Mining : Modelo 4
A aplicação das redes de Kohonen obteve um conjunto de 25 clusters (solução mais
estável
ao
fim de
inúmeras
iterações)
cuja
caracterização
em termos de
proporcionalidade de vales rebatidos e não rebatidos é expressa pela seguinte tabela.
Cluster
N
Não Rebateu
1 1 895
1389
2
35
17
3 1 222
921
4
151
117
5 1 685
1009
6
195
155
7
13
11
8
85
44
9 1 438
1034
10
327
254
11
827
677
12
205
159
13
959
707
14
10
6
15
79
63
16
163
124
17
86
0
18
470
326
19 1 129
869
20
686
511
21 1 356
1 035
22
526
408
23 1 268
950
24
668
501
25
487
385
Total 15 965
11 892
%
Rebateu
73%
506
49%
18
75%
301
77%
34
59%
679
79%
40
85%
2
52%
41
72%
404
78%
73
82%
150
78%
46
74%
252
60%
4
80%
16
76%
39
0%
86
69%
144
77%
260
74%
175
76%
321
78%
118
75%
318
75%
169
79%
102
75%
3 975
%
27%
51%
25%
23%
41%
21%
15%
48%
28%
22%
18%
22%
26%
40%
20%
24%
100%
31%
23%
26%
24%
22%
25%
25%
21%
25%
Considerando apenas os clusters mais representativos, clusters com indivíduos mais
activos em termos de rebatimento de vales, aplicou-se o algoritmo C5.0 individualmente
a cada um deles, pretendendo-se desse modo conhecer as características mais relevantes
de cada um dos indivíduos seleccionados.
O cluster mais significativo é o número 5 não só devido à sua dimensão (número de
registos) como também à distribuição quanto ao rebatimento de vales.
223
Anexo G Modelo de Data Mining : Modelo 4
Quanto ao
cluster número 5 os resultados obtidos foram os expressas no modelo
representado.
Lavar=nao [ Mode: nao ] => nao (35, 0,593)
Lavar = sim [ Mode: sim ] => sim(1185)
rendimento = ate 150 [ Mode: nao ] => nao (85, 0,659)
rendimento = [151-350] [ Mode: sim ] (1.113)
#filhos <= 1 [ Mode: não ] (73)
#filhos <= 0 [ Mode: nao ] (54)
#lar <= 3 [ Mode: nao ] => nao (31, 0,593)
#lar > 3 [ Mode: sim ] => sim (23, 0,581)
#filhos > 0 [ Mode: sim ] => sim (19, 0,73)
#filhos > 1 [ Mode: sim ] (940)
#lar <= 3 [ Mode: nao ] (85)
rendimento = [151-350] [ Mode: nao ] => nao (39, 0,527)
rendimento = [351-500] [ Mode: nao ] => nao (26, 0,573)
rendimento = mais 750 Mode: sim ] (20)
#filhos <= 2 [ Mode: nao ] => nao (9, 0,69)
#filhos > 2 [ Mode: sim ] => sim (11, 0,683)
rendimento = [menos 150] [ Mode: nao ] => nao (69, 0,623)
#lar > 3 [ Mode: sim ] (855)
#lar = 4 [ Mode: sim ] => sim (720, 0,697)
rendimento = [151-350] [ Mode: sim ] => sim (39)
rendimento = [351-500] [ Mode: sim] => sim (26)
rendimento = [mais 751] [ Mode: sim ] (658, 0,697)
#lar > 4 [ Mode: nao ] => nao (135, 0,618)
rendimento = mais 750 [ Mode: sim ] => sim (48, 0,6)
224
Anexo H Modelo Entidade Relacionamento da BD
Anexo H
15
Modelo Entidade Relacionamento da BD
A BD inicial recebida pela empresa promotora do caso de experimentação apresentava-se
documentado pelo modelo conceptual e pelo modelo físico, ilustrados nas figuras
seguintes.
Main Client Entities (Conceptual Data Model)
ARTERIA
CLIENTE : 2
LAR
LAR_ID
LAR_CLIENTE
I
CLIENTE_PRINCIPAL_LAR
TIPO_DOCUMENTO : 2
TIP_DOC_ID
TIP_DOC_DESC
TIP_DOC_PASSATEMPO
I
VA40
BL
ENV_TIP_DOC_CLI
REC_TIP_DOC_CLI
CLIENTE_GRUPO
CLI_GRU_ID
CLI_GRU_DESC
I
VA60
CLI_GRU_CLI
ORIGEM
ORI_ID
ORI_EMPRESA
ORI_ORIGEM
ORI_BASEDADOS
ORI_RESPONSAVEL
ORI_CONTACTO
ORI_ANO
ORI_REC_NUM
I
VA120
VA120
VA120
VA120
VA120
SI
I
ORI_CLI
CLI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
I
A10
LI
VA30
VA30
VA30
VA70
VA70
VA10
VA10
VA10
VA254
A1
DT
VA10
VA30
VA30
A4
A4
VA60
VA60
BL
I
BL
BL
BL
DT
DT
I
I
DT
VA20
DT
CLI_ART
CLI_TIP_E_TIPO_EXC
CLI_EXC_TIP_EXC
CLI_EXC_CLI
CLI_EXC_ID
CLI_EXC_DATA
CLI_EXC_EXCLUIDO
SYSTEM_DATE
USER_LOGIN
I
DT
BT
DT
VA20
TIP_EXC_SUB_TIP_EXC
CLI_EXC_SUB_TIP_EXC
SUB_TIPO_EXCLUSAO
CLI_SUB_TIP_EXC
CAM_MEI_CLI
CAMPANHA_MEIO : 2
CAM_MEI_ID
CAM_MEI_DESC
CAM_MEI_DEFAULT
I
VA40
CLIENTE_EXCLUSAO
ORI_GRU_ORI
I
I
VA120
VA20
DT
I
VA30
VA30
VA70
VA70
BL
VA20
DT
TIPO_EXCLUSAO
TIP_EXC_ID
TIP_EXC_DESC
GRUPO_ORIGEM
GRU_ORI_ID
GRU_ORI_ORD
GRU_ORI_DESC
USER_NAME
SYSTEM_DATE
ART_ID
ART_TIPO
ART_TITULO
ART_DESC
ART_PADRAO
ART_VALIDADA
USER_NAME
SYSTEM_DATE
I
VA40
BL
225
SUB_TIP_EXC_ID
SUB_TIP_EXC_DESC
SI
VA40
Anexo H Modelo Entidade Relacionamento da BD
Main Client Tables (Physical Data Model)
T_CLIENTE : 2
LAR_ID = LAR_ID
T_LAR
LAR_ID int <pk>
CLI_ID int <fk>
CLI_ID = CLI_ID
T_TIPO_DOCUMENTO : 2
TIP_DOC_ID
int
TIP_DOC_DESC
varch
TIP_DOC_PASSATEMPO bit
TIP_DOC_ID = TIP_DOC_ID
TIP_DOC_ID = T_T_TIP_DOC_ID
T_CLIENTE_GRUPO
CLI_GRU_ID = T_C_CLI_GRU_ID
CLI_GRU_ID
int
CLI_GRU_DESC varch
T_ORIGEM
ORI_ID
GRU_ORI_ID
ORI_EMPRESA
ORI_ORIGEM
ORI_BASEDADOS
ORI_RESPONSAVEL
ORI_CONTACTO
ORI_ANO
ORI_REC_NUM
int
int
varchar(120)
varchar(120)
varchar(120)
varchar(120)
varchar(120)
smallint
int
<pk>
<fk>
ORI_ID = ORI_ID
CLI_ID
ART_ID
TIP_EXC_ID
LAR_ID
SUB_TIP_EXC_ID
TIP_DOC_ID
T_T_TIP_DOC_ID
ORI_ID
T_C_CLI_GRU_ID
CAM_MEI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
int
int
int
int
smallint
int
int
int
int
int
char(10)
int
varchar(30)
varchar(30)
varchar(30)
varchar(70)
varchar(70)
varchar(10)
varchar(10)
varchar(10)
varchar(254)
char(1)
datetime
varchar(10)
varchar(30)
varchar(30)
char(4)
char(4)
varchar(60)
varchar(60)
bit
int
bit
bit
bit
datetime
datetime
int
int
datetime
varchar(20)
datetime
<pk>
<fk1>
<fk2>
<fk3>
<fk4>
<fk5>
<fk6>
<fk7>
<fk8>
<fk9>
T_ARTERIA
ART_ID = ART_ID
ART_ID
ART_TIPO
ART_TITULO
ART_DESC
ART_PADRAO
ART_VALIDADA
USER_NAME
SYSTEM_DATE
int
varch
varch
varch
varch
bit
varch
dateti
T_TIPO_EXCLUSAO
TIP_EXC_ID = TIP_EXC_ID
TIP_EXC_ID
int
TIP_EXC_DESC varch
TIP_EXC_ID = TIP_EXC_ID
T_CLIENTE_EXCLUSAO
CLI_ID = CLI_ID
CLI_ID
CLI_EXC_ID
SUB_TIP_EXC_ID
TIP_EXC_ID
CLI_EXC_DATA
CLI_EXC_EXCLUIDO
SYSTEM_DATE
USER_LOGIN
int
int
smallint
int
datetime
tinyint
datetime
varchar(20)
<pk,fk1>
<pk>
<fk2>
<fk3>
TIP_EXC_ID = TIP_EXC_ID
SUB_TIP_EXC_ID = SUB_TIP_EXC_ID
GRU_ORI_ID = GRU_ORI_ID
CAM_MEI_ID = CAM_MEI_ID
SUB_TIP_EXC_ID = SUB_TIP_EXC_ID
T_GRUPO_ORIGEM
GRU_ORI_ID
GRU_ORI_ORD
GRU_ORI_DESC
USER_NAME
SYSTEM_DATE
int
int
varcha
varcha
datetim
T_CAMPANHA_MEIO : 2
T_SUB_TIPO_EXCLUSAO
CAM_MEI_ID
int
CAM_MEI_DESC
varch
CAM_MEI_DEFAULT bit
SUB_TIP_EXC_ID
smallint
<pk>
TIP_EXC_ID
int
<fk>
SUB_TIP_EXC_DESC varchar(40)
226
Anexo H Modelo Entidade Relacionamento da BD
Main Coupons Entities (Conceptual Data Model)
CLIENTE : 3
CLI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
ENVIO : 2
PRODUTO
MOEDA
PRO_ID
PRO_DESC
USER_NAME
SYSTEM_DATE
I
VA60
VA20
DT
ENV_NUM
ENV_DATA
ENV_ASS_VALOR
ENV_ACTIVO
ENV_INBOUND
USER_NAME
SYSTEM_DATE
SI
MOE_ID
MOE_DESC
VA20
MOE_DEFAULT BL
I
DT
MN
BT
BL
VA20
DT
PRO_VAL
MOE_VAL
VALE : 1
VAL_ID
VAL_DESCONTO
VAL_DATA_INI
VAL_DATA_FIM
VAL_ACTIVE
VAL_PACSIS_ID
VAL_DESC
VAL_SUFIXO
SYSTEM_DATE
USER_NAME
ENV_ENV_VAL
I
N8,2
DT
DT
BT
A13
VA80
VA10
DT
VA20
VAL_ENV_VAL
ENV_VAL_CLI
ENVIO_VALE
ENV_VAL_DATA D
USER_NAME
VA20
SYSTEM_DATE DT
VAL_REB_VAL
CLI_REB_VAL
REBATE_VALE : 1
REB_VAL_DATA D
REB_BAR_CODE A20
I
A10
LI
VA30
VA30
VA30
VA70
VA70
VA10
VA10
VA10
VA254
A1
DT
VA10
VA30
VA30
A4
A4
VA60
VA60
BL
I
BL
BL
BL
DT
DT
I
I
DT
VA20
DT
FIC_VAL_REB_VAL
LOJ_REB_VAL
FICHEIRO_VALE
FIC_VAL_ID
FIC_VAL_NOME
FIC_VAL_RECORD_COUNT
FIC_VAL_RECORD_ERROR
USER_NAME
SYSTEM_DATE
LOJA
LI
VA120
LI
LI
VA20
DT
LOJ_ID
LOJ_DESC
SYSTEM_DATE
USER_NAME
LI
VA200
DT
VA20
Main Coupons Tables (Physical Data Model)
T_CLIENTE : 3
T_ENVIO : 2
T_PRODUTO
PRO_ID
PRO_DESC
USER_NAME
SYSTEM_DATE
T_MOEDA
int
varch
varch
dateti
MOE_ID
MOE_DESC
MOE_DEFAULT
ENV_NUM
ENV_DATA
ENV_ASS_VALOR
ENV_ACTIVO
ENV_INBOUND
USER_NAME
SYSTEM_DATE
smal
varch
bit
PRO_ID = PRO_ID MOE_ID = MOE_ID
ENV_NUM = ENV_NUM
T_ENVIO_VALE
T_VALE : 1
VAL_ID
PRO_ID
MOE_ID
VAL_DESCONTO
VAL_DATA_INI
VAL_DATA_FIM
VAL_ACTIVE
VAL_PACSIS_ID
VAL_DESC
VAL_SUFIXO
SYSTEM_DATE
USER_NAME
int
int
smallint
numeric(8,2)
datetime
datetime
tinyint
char(13)
varchar(80)
varchar(10)
datetime
varchar(20)
int
dateti
mone
tinyin
bit
varch
dateti
<pk>
<fk1>
<fk2>
VAL_ID = VAL_ID
CLI_ID
VAL_ID
ENV_NUM
ENV_VAL_DATA
USER_NAME
SYSTEM_DATE
int
int
int
datetime
varchar(20)
datetime
<pk,fk1>
<pk,fk2>
<pk,fk3>
T_REBATE_VALE : 1
ENV_REC_ID
VAL_ID
CLI_ID
LOJ_ID
FIC_VAL_ID
REB_VAL_DATA
REB_BAR_CODE
VAL_ID = VAL_ID
int
int
int
int
int
datetime
char(20)
FIC_VAL_ID = FIC_VAL_ID
<pk,fk5>
<fk1>
<fk2>
<fk3>
<fk4>
CLI_ID = CLI_ID
CLI_ID = CLI_ID
LOJ_ID = LOJ_ID
T_FICHEIRO_VALE
FIC_VAL_ID
FIC_VAL_NOME
FIC_VAL_RECORD_COUNT
FIC_VAL_RECORD_ERROR
USER_NAME
SYSTEM_DATE
T_LOJA
int
varcha
int
int
varcha
datetim
LOJ_ID
LOJ_DESC
SYSTEM_DATE
USER_NAME
227
int
varchar(2
datetime
varchar(2
CLI_ID
ART_ID
TIP_EXC_ID
LAR_ID
SUB_TIP_EXC_ID
TIP_DOC_ID
T_T_TIP_DOC_ID
ORI_ID
T_C_CLI_GRU_ID
CAM_MEI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
int
int
int
int
smallint
int
int
int
int
int
char(10)
int
varchar(30)
varchar(30)
varchar(30)
varchar(70)
varchar(70)
varchar(10)
varchar(10)
varchar(10)
varchar(254)
char(1)
datetime
varchar(10)
varchar(30)
varchar(30)
char(4)
char(4)
varchar(60)
varchar(60)
bit
int
bit
bit
bit
datetime
datetime
int
int
datetime
varchar(20)
datetime
<pk>
<fk1>
<fk2>
<fk3>
<fk4>
<fk5>
<fk6>
<fk7>
<fk8>
<fk9>
Anexo H Modelo Entidade Relacionamento da BD
Main Questionnaires Entities (Conceptual Data Model)
CLIENTE : 7
CLI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
I
A10
LI
VA30
VA30
VA30
VA70
VA70
VA10
VA10
VA10
VA254
A1
DT
VA10
VA30
VA30
A4
A4
VA60
VA60
BL
I
BL
BL
BL
DT
DT
I
I
DT
VA20
DT
PERGUNTA_RESPOSTA_LIVRE
CLI_PER_RES
PER_RES_LIV_DESC
PER_RES_PER_RES_LIV
PERGUNTA_RESPOSTA
PER_RES_VALOR
PER_RES_GOTO_PER_ID
PER_RES_DEFAULT
CREATE_DATE
USER_NAME
SYSTEM_DATE
VA100
VA10
VA10
DT
VA20
DT
QUESTIONARIO : 2
QUE_ID
QUE_DESC
QUE_DATA
QUE_ACTIVO
QUE_FULFILLMENT
QUE_FULFILLMENT_CUSTO
QUE_IMG_FILE
RES_QUE_PER_RES
RES_QUE_CLI
I
VA120
DT
BL
BL
SF
VA120
PRE_RES_PER
PERGUNTA
PER_ID
PER_PER_ID
PER_GRUPO
PER_ORDEM
PER_TIPO
PER_EXCL
PER_DEFEITO
PER_DESC
PER_ONLINE
QUE_PER
QUE_QUE_FUL_QUE
QUE_RES_QUE
RESPOSTA_QUESTIONARIO
RES_QUE_ID
CLI_GRU_ID
ENV_NUM
RES_QUE_DURACAO
RES_QUE_SEQUENCIA
RES_QUE_DATA
RUBRICA
RES_QUE_DELETED
USER_NAME
SYSTEM_DATE
TXT
QUE_FUL_QUE
I
I
I
I
I
DT
I
BL
VA20
DT
QUE_FUL_ORDEM
VA10
VA10
VA10
I
I
BL
VA100
A400
BL
I
RES_PER
QUE_FUL_QUE_FUL_QUE
RESPOSTA
ORIGEM_RESPOSTA
ORI_RES_RES_QUE
ORI_RES_ID
ORI_RES_DESC
USER_NAME
SYSTEM_DATE
I
VA60
VA20
DT
RES_ID
RES_VALOR
RES_LIVRE
RES_GOTO_PER_ID
QUESTIONARIO_FULFILLMENT
QUE_FUL_ID
I
QUE_FUL_DESC
VA120
QUE_FUL_DEFEITO BL
I
VA20
VA400
VA10
Main Questionnaires Tables (Physical Data Model)
T_CLIENTE : 7
CLI_ID
ART_ID
TIP_EXC_ID
LAR_ID
SUB_TIP_EXC_ID
TIP_DOC_ID
T_T_TIP_DOC_ID
ORI_ID
T_C_CLI_GRU_ID
CAM_MEI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART NUM PADRAO
int
int
int
int
smallint
int
int
int
int
int
char(10)
int
varchar(30)
varchar(30)
varchar(30)
varchar(70)
varchar(70)
varchar(10)
varchar(10)
varchar(10)
varchar(254)
char(1)
datetime
varchar(10)
varchar(30)
varchar(30)
<pk>
<fk1>
<fk2>
<fk3>
<fk4>
<fk5>
<fk6>
<fk7>
<fk8>
<fk9>
CLI_ID = CLI_ID
T_PERGUNTA_RESPOSTA
QUE_ID
PER_ID
CLI_ID
RES_QUE_ID
PER_RES_VALOR
PER_RES_GOTO_PER_ID
PER_RES_DEFAULT
CREATE_DATE
USER_NAME
SYSTEM_DATE
T_PERGUNTA_RESPOSTA_LIVRE
QUE_ID = QUE_ID
PER_ID = PER_ID
CLI_ID = CLI_ID
QUE_ID
PER_ID
CLI_ID
PER_RES_LIV_DESC
int
varchar(10)
int
text
<pk,fk>
<pk,fk>
<pk,fk>
QUE_ID = QUE_ID
PER_ID = PER_ID
T_QUESTIONARIO : 2
CLI_ID = CLI_ID
QUE_ID
QUE_DESC
QUE_DATA
QUE_ACTIVO
QUE_FULFILLMENT
QUE_FULFILLMENT_CUSTO
QUE_IMG_FILE
int
varchar(120)
datetime
bit
bit
real
varchar(120)
<pk>
<pk>
<fk1>
<fk2>
<fk3>
int
int
int
<pk,fk1>
<pk,fk2>
QUE_FUL_ID = QUE_FUL_ID
T_ORIGEM_RESPOSTA
ORI_RES_DESC
USER_NAME
SYSTEM_DATE
int
varchar(10)
varchar(10)
varchar(10)
int
int
bit
varchar(100)
char(400)
bit
QUE_ID = QUE_ID
PER_ID = PER_ID
T_QUE_FUL_QUE
QUE_ID
QUE_FUL_ID
QUE_FUL_ORDEM
ORI_RES_ID = ORI_RES_ID
ORI_RES_ID
QUE_ID = QUE_ID
QUE_ID
PER_ID
PER_PER_ID
PER_GRUPO
PER_ORDEM
PER_TIPO
PER_EXCL
PER_DEFEITO
PER_DESC
PER_ONLINE
QUE_ID = QUE_ID
QUE_ID = QUE_ID
T_RESPOSTA_QUESTIONARIO
int
int
int
int
int
int
int
int
datetime
int
bit
varchar(20)
datetime
<pk,fk1>
<pk,fk1>
<pk,fk2>
<fk3>
T_PERGUNTA
RES_QUE_ID = RES_QUE_ID
RES_QUE_ID
CLI_ID
QUE_ID
ORI_RES_ID
CLI_GRU_ID
ENV_NUM
RES_QUE_DURACAO
RES_QUE_SEQUENCIA
RES_QUE_DATA
RUBRICA
RES_QUE_DELETED
USER_NAME
SYSTEM_DATE
int
varchar(10)
int
int
varchar(100)
varchar(10)
varchar(10)
datetime
varchar(20)
datetime
int
varch
varch
dateti
T_QUESTIONARIO_FULFILLMENT
QUE_FUL_ID
QUE_FUL_DESC
QUE_FUL_DEFEITO
int
varchar(120)
bit
228
<pk>
T_RESPOSTA
QUE_ID
PER_ID
RES_ID
RES_VALOR
RES_LIVRE
RES_GOTO_PER_ID
int
varchar(10)
int
varchar(20)
varchar(400)
varchar(10)
<pk,fk>
<pk,fk>
<pk>
<pk,fk>
<pk>
Anexo H Modelo Entidade Relacionamento da BD
Main Deliveries and Receptions Entities (Conceptual Data Model)
CLIENTE : 6
ENVIO : 1
ENV_NUM
ENV_DATA
ENV_ASS_VALOR
ENV_ACTIVO
ENV_INBOUND
USER_NAME
SYSTEM_DATE
TIPO_DOCUMENTO : 3
ENVIO_GRUPO_CLIENTE
I
TIP_DOC_ID
TIP_DOC_DESC
VA40
TIP_DOC_PASSATEMPO BL
I
DT
MN
BT
BL
VA20
DT
CLI_GRU_ANA_ID I
CLI_ENV_GRU_CLI
ENV_GRU_TIP_DOC
ENV_GRU_CLI_ENV_GRU
ENV_GRU_ENV
ENVIO_GRUPO
ENV_GRU_ID
ENV_GRU_COUNT
ENV_GRU_DESC
ENV_GRU_VALES
ENV_GRU_REVISTA
USER_NAME
SYSTEM_DATE
I
I
VA250
BL
BL
VA20
DT
CLI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
I
A10
LI
VA30
VA30
VA30
VA70
VA70
VA10
VA10
VA10
VA254
A1
DT
VA10
VA30
VA30
A4
A4
VA60
VA60
BL
I
BL
BL
BL
DT
DT
I
I
DT
VA20
DT
VALE : 2
VAL_ID
VAL_DESCONTO
VAL_DATA_INI
VAL_DATA_FIM
VAL_ACTIVE
VAL_PACSIS_ID
VAL_DESC
VAL_SUFIXO
SYSTEM_DATE
USER_NAME
ENVIO_RECEPCAO : 2
I
N8,2
DT
DT
BT
A13
VA80
VA10
DT
VA20
ENV_REC_VAL
ENV_REC_ID
ENV_DATA
REC_DATA
ENV_REC_NUM
CLI_GRU_ID
ENV_REC_DELETED
I
DT
DT
LI
I
BL
REBATE_VALE : 2
ENV_REC_REB_VAL
REB_VAL_DATA D
REB_BAR_CODE A20
Main Deliveries and Receptions Tables (Physical Data Model)
T_CLIENTE : 6
T_ENVIO : 1
ENV_NUM
ENV_DATA
ENV_ASS_VALOR
ENV_ACTIVO
ENV_INBOUND
USER_NAME
SYSTEM_DATE
T_ENVIO_GRUPO_CLIENTE
T_TIPO_DOCUMENTO : 3
int
dateti
mone
tinyin
bit
varch
dateti
ENV_NUM
ENV_GRU_ID
CLI_ID
CLI_GRU_ANA_ID
int
TIP_DOC_ID
TIP_DOC_DESC
varch
TIP_DOC_PASSATEMPO bit
int <pk,fk1>
int <pk,fk1>
int <pk,fk2>
int
CLI_ID = CLI_ID
TIP_DOC_ID = TIP_DOC_ID
ENV_NUM = ENV_NUM
ENV_GRU_ID = ENV_GRU_ID
ENV_NUM = ENV_NUM
T_ENVIO_GRUPO
ENV_NUM
ENV_GRU_ID
TIP_DOC_ID
ENV_GRU_COUNT
ENV_GRU_DESC
ENV_GRU_VALES
ENV_GRU_REVISTA
USER_NAME
SYSTEM_DATE
int
int
smallint
numeric(8,2)
datetime
datetime
tinyint
char(13)
varchar(80)
varchar(10)
datetime
varchar(20)
<pk,fk1>
<pk>
<fk2>
T_ENVIO_RECEPCAO : 2
T_VALE : 2
VAL_ID
PRO_ID
MOE_ID
VAL_DESCONTO
VAL_DATA_INI
VAL_DATA_FIM
VAL_ACTIVE
VAL_PACSIS_ID
VAL_DESC
VAL_SUFIXO
SYSTEM_DATE
USER_NAME
int
int
int
int
varchar(250)
bit
bit
varchar(20)
datetime
<pk>
<fk1>
<fk2>
VAL_ID = VAL_ID
ENV_REC_ID
CLI_ID
QUE_ID
TIP_DOC_ID
VAL_ID
PAS_ID
ENV_DATA
REC_DATA
ENV_REC_NUM
CLI_GRU_ID
ENV_REC_DELETED
int
int
int
int
int
int
datetime
datetime
int
int
bit
<pk>
<fk1>
<fk2>
<fk3>
<fk4>
ENV_REC_ID
<fk5>
T_REBATE_VALE : 2
=
ENV_REC_ID
VAL_ID
CLI_ID
ENV_REC_ID
LOJ_ID
FIC_VAL_ID
REB_VAL_DATA
REB_BAR_CODE
229
int
int
int
int
int
datetime
char(20)
<pk,fk5>
<fk1>
<fk2>
<fk3>
<fk4>
CLI_ID
ART_ID
TIP_EXC_ID
LAR_ID
SUB_TIP_EXC_ID
TIP_DOC_ID
T_T_TIP_DOC_ID
ORI_ID
T_C_CLI_GRU_ID
CAM_MEI_ID
ORI_CLI_ID
ONLINE_ID
ONLINE_USER_NAME
ONLINE_PASSWORD
CLI_TITULO
CLI_NOME
CLI_NOME_PADRAO
CLI_TELEFONE
CLI_TELEFONE1
CLI_TELEMOVEL
CLI_EMAIL
CLI_SEXO
CLI_DATA_NASC
CLI_INICIAIS
ART_NUM
ART_NUM_PADRAO
CP7_CP4
CP7_CP3
CP7_DESC
LOC_DESC
ANO_VALIDACAO
LAST_QUEST_NUM
CLI_CONFIDENCIAL
CLI_NOME_OK
CLI_VALE
CLI_VALE_DATA
CLI_EXC_DATA
CLI_GRU_ID
CLI_GRU_ANA_ID
CREATE_DATE
USER_NAME
SYSTEM_DATE
int
int
int
int
smallint
int
int
int
int
int
char(10)
int
varchar(30)
varchar(30)
varchar(30)
varchar(70)
varchar(70)
varchar(10)
varchar(10)
varchar(10)
varchar(254)
char(1)
datetime
varchar(10)
varchar(30)
varchar(30)
char(4)
char(4)
varchar(60)
varchar(60)
bit
int
bit
bit
bit
datetime
datetime
int
int
datetime
varchar(20)
datetime
<pk>
<fk1>
<fk2>
<fk3>
<fk4>
<fk5>
<fk6>
<fk7>
<fk8>
<fk9>
Anexo I Descrição dos Dados
Anexo I
O presente anexo detalha e descreve todos os atributos
constantes na BD original.
16
Descrição dos Dados
Os dados constantes na BD original que esteve na origem deste trabalho são os que se
encontram expressos nas tabelas representadas abaixa seguintes. Os atributos encontra-se
descritos em termos da sua codificação (campo), tipo de dados (tipo), comprimento
(tamanho), chave (indexação em termos de chave primária ou estrangeira) e descrição
(significado dos atributos):
T_CLIENTE
Campo
CLI_ID
ORI_ID
ART_ID
CP7_CP4
CP7_CP3
CLI_DATA_NASC
CLI_SEXO
Tipo
Int
Int
Int
Char
Char
DateTime
Char
Tamanho
P
X
Chave
H E
X
X
4
3
1
X
CLI_CONFIDENCIAL
Bit
TIP_EXC_ID
Int
TIP_EXC_DESC
Varchar
40
SUB_TIP_EXC_ID
Smallint
SUB_TIP_EXC_DESC
Varchar
40
View com os dados do cliente + motivos de exclusão.
230
Descrição
Código de Cliente
Código da Origem
Código da Artéria
CP4
CP3
Data de Nascimento
Sexo
E-Entidade/Empresa;
M-Masculino;
F-Feminino
Confidencial
Código Tipo exclusão
Descrição do tipo de exclusão
Código subtipo exclusão
Descrição do sub-tipo de exclusão
Anexo I Descrição dos Dados
T_ORIGEM
Campo
Tipo
Tamanho
ORI_ID
Int
ORI_ORIGEM
Varchar
120
ORI_BASEDADOS
Varchar
120
GRU_ORI_ID
Int
Tabela com as proveniências dos dados (origens).
P
X
Chave
H E
X
Descrição
Código da Origem
Descrição da Origem
Descrição Base de Dados
Código Grupo de Origens
T_ENVIO_GRUPO_CLIENTE
Chave
Campo
Tipo
Tamanho P H E
Descrição
ENV_NUM
Int
X
Número de envio
ENV_GRU_ID
Int
X
Grupo de envio
CLI_ID
Int
X
Código de cliente
CLI_GRU_ANA_ID
Int
Grupo de análise
Tabela com os envios aos clientes e a que grupos pertenciam no respectivo envio.
V_VALE
Campo
Tipo
Tamanho
P
X
Tipo
Tamanho
P
X
X
Chave
H E
Descrição
VAL_ID
Int
Código de Vale
MOE_ID
Smallint
X Código de Moeda
VAL_DESCONTO
Numeric
8,2
Desconto
ENV_NUM
Int
X Número de Envio
PRO_ID
Int
Código de Produto
PRO_DESC
Varchar
60
Descrição do Produto
MAR_PRO_ID
Int
Código Marca/Produto
MAR_PRO_DESC
Varchar
20
Descrição da Marca/Produto
MAR_ID
Int
Código da Marca
MAR_DESC
Varchar
20
Descrição da Marca
COM_ID
Int
Código de Companhia
COM_DESC
Varchar
20
Descrição da Companhia
View com as definições de vales (produto, marcar/produto, marca e companhia)
T_ENVIO_VALE
Campo
CLI_ID
Int
VAL_ID
Int
ENV_NUM
Int
ENV_VAL_DATA
Datatime
Tabela de envios de vales aos clientes.
231
Chave
H E
X
X
X
Descrição
Código de Cliente
Código de Vale
Número de Envio
Data de geração
Anexo I Descrição dos Dados
T_REBATE_VALE
Campo
Tipo
ENV_REC_ID
Int
VAL_ID
Int
CLI_ID
Int
LOJ_ID
Int
REB_VAL_DATA
Datetime
Tabela de vales rebatidos pelos clientes.
Tamanho
P
X
Chave
H E
X
X
X
Descrição
Código de rebate do vale
Código de Vale
Código de Cliente
Código de Loja
Data de recepção do ficheiro
T_LOJA
Campo
Tipo
Tamanho
P
X
Tipo
Tamanho
P
X
Chave
H E
Descrição
LOJ_ID
Int
Código de Loja
LOJ_DESC
Varchar
200
Descrição de Loja
Tabela de lojas onde foram rebatidos os vales (dados não normalizados provenientes da Pacsis).
T_QUESTIONARIO
Campo
QUE_ID
QUE_DESC
Tabela de questionários.
Int
Varchar
Chave
H E
120
Descrição
Código de questionário
Descrição questionário
T_PERGUNTA
Campo
Tipo
QUE_ID
Int
PER_ID
Varchar
PER_PER_ID
Varchar
PER_ORDEM
Int
PER_TIPO
Int
PER_EXCL
Bit
PER_DEFEITO
Varchar
PER_DESC
Varchar
Tabela com as perguntas do questionário.
Tamanho
10
10
P
X
X
Chave
H E
X
X
100
400
Descrição
Código de questionário
Código de pergunta (nº)
Código de pergunta (pai)
Ordem da pergunta
Tipo de resposta
Pergunta com resposta exclusiva
Resposta por defeito
Texto da pergunta
T_RESPOSTA
Campo
Tipo
Tamanho
P
X
X
X
Chave
H E
X
X
QUE_ID
Int
PER_ID
Varchar
10
RES_ID
Int
RES_VALOR
Varchar
20
RES_LIVRE
Varchar
400
RES_GOTO_PER_ID
Varchar
10
Tabela com as respostas possíveis às perguntas dos questionários.
232
Descrição
Código de questionário
Código de pergunta
Código de resposta
Valor da resposta
Texto da resposta
Próxima pergunta
Anexo I Descrição dos Dados
T_PERGUNTA_RESPOSTA
Campo
Tipo
Tamanho
P
X
X
X
Chave
H E
X
X
X
X
X
QUE_ID
Int
PER_ID
Varchar
10
CLI_ID
Int
RES_QUE_ID
Int
PER_RES_VALOR
Varchar
5
PER_RES_LIVRE
Text
Tabela com as respostas dos clientes às perguntas dos questionários.
233
Descrição
Código de questionário
Código de pergunta
Código de cliente
Código de resposta
Valor da resposta codificada
Valor da resposta livre
Anexo J Compreensão dos dados
Anexo J
Apresenta-se uma análise exploratória aos dados. Foi
realizada com recurso a ferramentas estatísticas (e.g.,
SPSS).
17
Compreensão dos dados
O processo de avaliação da qualidade dos dados consistiu, numa perspectiva estatística
determinar as características principais para cada uma das variáveis. Entre as mais de 60
variáveis inicias analisadas destacam-se pela sua notoriedade as seguintes:
ƒ
Sexo
ƒ
Idade
ƒ
Distrito de residencia
Distribuição de frequências para o atributo idade em função do sexo de cada individuo
encontra-se expresso pela tabela
IDADE
IDADE
SEXO
F
5
23
10
25
25
30
Percentis
50
38
75
48
90
57
95
62
M
23
26
31
40
51
60
65
F
30
38
48
M
31
40
51
234
Anexo J Compreensão dos dados
A estatística descritiva para a variável idade encontra-se representada na tabela
N
Validos
Em branco
Média
Mediana
Moda
Desvio Padrão
Variância
Skewness
Kurtosis
Intervalo
Mínimo
Máximo
Percentis
29285
0
40,21
39,00
31
12,355
152,641
,428
-,587
56
16
72
30
39
49
25
50
75
Representação gráfica da relação entre os atributos idade/sexo
80
70
60
50
40
IDADE
30
20
10
N=
50682
12561
F
M
SEXO
235
Anexo J Compreensão dos dados
Tratando-se de uma empresa com distribuição a nível nacional (continente e ilhas) a
distribuição geográfica de cada indivíduo apresenta-se na tabela seguinte
Aveiro
Beja
Braga
Bragança
Castelo Branco
Coimbra
Évora
Faro
Guarda
Ilha da Graciosa
Ilha da Madeira
Ilha das Flores
Ilha de Porto Santo
Ilha de Santa Maria
Ilha de São Jorge
Ilha de São Miguel
Ilha do Corvo
Ilha do Faial
Ilha do Pico
Ilha Terceira
Leiria
Lisboa
Portalegre
Porto
Santarém
Setúbal
Viana do Castelo
Vila Real
Viseu
Total
Frequência Percentagem % valida Acumulada
1,869
6,4
6,4
6,4
445
1,5
1,5
8
1,248
4,3
4,3
12,2
184
0,6
0,6
12,9
469
1,6
1,6
14,5
1,161
4
4
18,4
694
2,4
2,4
20,8
957
3,3
3,3
24,1
322
1,1
1,1
25,2
2
0
0
25,2
248
0,8
0,8
26
6
0
0
26
9
0
0
26,1
3
0
0
26,1
6
0
0
26,1
101
0,3
0,3
26,4
0
0
0
26,4
13
0
0
26,5
10
0
0
26,5
60
0,2
0,2
26,7
1,405
4,8
4,8
31,5
8,453
28,9
28,9
60,4
550
1,9
1,9
62,3
5,332
18,2
18,2
80,5
1,344
4,6
4,6
85,1
3,018
10,3
10,3
95,4
385
1,3
1,3
96,7
349
1,2
1,2
97,9
622
2,1
2,1
100
29,285
100
100
236
Anexo J Compreensão dos dados
O facto de existirem diferentes áreas postais em cada distrito motiva a análise do atributo
código postal, verificando-se como seria de esperar uma maior concentração em torno
dos códigos relativos a distritos com maior representatividade na amostra.
Código Postal
0
500
1000
1500
2000
2500
3000
Valores
3500
4000
4500
5000
5500
6000
6500
7000
7500
8000
8500
9000
Std. D ev = 1854,23
9500
Mean = 3841
10000
N = 63218,00
0
2000
1000
4000
3000
6000
5000
8000
7000
10000
9000
12000
11000
14000
13000
Frequencia
Estratificação dos clientes na Base de Dados, segundo a empresa:
Clientes não qualificados: 321 559 (clientes sobre os quais apenas se conhece a morada
dado nunca terem respondido a qualquer questionário (geralmente informação adquirida
de bases de dados externas, compradas) , distribuídos:
Sem receberem qualquer envio de revistas: 43 787
Já recebeu pelo menos 3 revistas e nunca reagiu: 96,229 (não participou qqr
campanha)
237
Anexo J Compreensão dos dados
Já rebateu vales: 13 392
Já receberam ultimato: 168,151 ofertas irrecusáveis para responder a
questionários e que mesmo assim nunca reagiram
Light Consumers:24,354 clientes com características familiares (2 ou menos elementos
no lar), sociais ou outros que denotem baixo poder aquisitivo para os produtos
Most Valuable Consumers MVC : 110,809 Os clientes com características familiares
(mais de 2 elementos), sociais ou outras, que denotem potencial aquisitivo dos produtos.
Clientes que recebem a revista: 262,634 (tiragem média aceite pela empresa)
Número de vales rebatidos pelos clientes, na BD trabalho: 494,105
Número de clientes, presentes na BD que recepcionaram pelo menos 1 vale: 108.360
Número de elementos MVC na base de dados de trabalho, recebida: 101,828
Número vales diferentes enviados: 198, para o mesmo produto pode existir vales
diferentes com valores promocionais distintos
Resultados da primeira acção de limpeza da base de dados para registos de clientes
Total de clientes Æ 64,484, excluindo: data nascimento desconhecida; idades inferior a
16 anos e mais de 72; sexo diferente de M e F e apenas MVC (ou os “não light
consumers”)
238
Anexo K Modelo de Dados
Anexo K
Neste anexo apresenta-se o modelo entidade –relação da
BDM sobre a qual se desenvolveu o trabalho de prático.
18
Modelo de Dados
O modelo de dados original contemplava 11 tabelas principais destacando-se as tabelas
T_cliente; T_envio vale; T_vale;T_Questionário; T_Pergunta e T_Pergunta_Resposta
239
Bibliografia
Bibliografia
A
[Adelman et al., 2002] Adelman, Sid; Moss, Larissa Barbusnski, Lees; “I found several
definitions of BI”, DM Review, August 2002.
[Adriaans et al., 1996] Adriaans, Pieter; Zanting, Dolf; “Data Mining”, Addison-Wesley,
England, 1996.
[AMA, 2005] American Marketing Associaton, www.ama.org, 2005.
[Angelmar et al., 1975] Angelmar R.; Pinson C.; “Réflexions épistémologiques sur les
définitions du marketing”, Encyclopédie du Marketing, Ed. Technique, Paris,
1975.
[Arndt et al., 2001] Arndt, Dirk; Gersten, Wendy; “Data Management in Analytical
Customer Relationship Management” Workshop:“Data mining for marketing
applications”, Universidade Hasselt, Belgica, 2001.
[Arnett et al., 2000] Arnett, Dennis B; Menon, Anil, Wilcox, James B.; “Using
Competitive Intelligence: Antecedents and Consequences”, Competitive
Intelligence Review, Vol. 11(3) 16-27, 2000.
240
Bibliografia
B
[Bartels, 1976] Bartels, Robert; “The history of Marketing Thoughts” 2ª.ed, Columbus,
Ohio, 1976.
[Baranauskas et al., 2003] Baranauskas J A.; Monard M C.; “Combining Symbolic
Classifiers from Multiple Inducers”; Knowledge Based Systems; Vol. 16 (3),
129-136, Elsevier Science, 2003.
[Berson et al., 2001] Berson Alex; Smith, Stephen; “Data Warehousing, Data Mining &
OLAP” McGraw Hill International Edition, 2001.
[Bloom et al., 2004] Bloom, Paul; Adler, Robert; Milne, George "Identifying the Legal
and Ethical Risks and Costs of Using New Information Technologies to
Support Marketing Programs"; The Marketing Information Revolution; Ed.
Robert C. Blattberg, Rashi Glazer E John D. Little. Boston: Harvard Business
School Press; p289-305, 2004.
[Bonczek et al., 1980] Bonczek R. H, Holsapple C.W; Whinston A.B.; “Future directions
for developing Decision Support Systems”, Decision Sciences, 11, nº4, 616631, 1980.
[Bretzke,
2005]
Bretzke,
Miriam;
“CRM
como
diferencial
competitivo”
http://www.bretzke-marketing.com.br, (acedido a 20-06-2005).
[Brown, 2002] Brown, S.; “Data quality: Relatively critical and critically relative”; DM
Review; 2002.
241
Bibliografia
C
[Cabena et al., 1998] Cabena, P, Hadjinian, P, Stadler, R, Verhees, J, Zanasi, A;
“Discovering Data Mining – From Concept to Implementation”, PrenticeHall, 1998.
[Cavaye, 1996] Cavaye, A.M.; “Case study research: a multi-faceted research approach
for IS”; Info Systems Journal; vol. 6; p 227-242; 1996
[Chapman et al., 2000] Chapman, Pete; Clinton, Julian; Kerber, Randy; Khabaza,
Thomas; Reinartz, Thomas; Shearer, Colin; Wirth, Rüdiger; “CRISP-DM 1.0
– Step-by-Step data mining guide”; CRISP-DM Consortium, 2000
[Chester, 1993] Chester, M.; “Neural Network – A tutorial”; PTR Prentice-Hall Inc,
USA, 1993.
[Cooke, 1994] Cooke, Simon; “Database Marketing: strategy or tactical tool?” Marketing
Intelligence & Planning, vol 12, no 6, 1994.
[Cortez, 2002] Cortez. P.; Modelos Inspirados na Natureza para a Previsão de Séries
Temporais,
Tese
de
Doutoramento,
Departamento
de
Informática,
Universidade do Minho, Portugal, 2002.
[Cortez, 2004] Cortez, P.; “Aprendizagem e Avaliação de Modelos, Apontamentos
Pedagógicos”, Departamento de Sistemas de Informação, Universidade do
Minho, Portugal, 2004.
[Curry et al., 2000] Curry Jay; Curry Adam; “The Customer Marketing Method: How to
Implement E Profit from Customer Relationship Management”, Free Press,
2000.
242
Bibliografia
D
[DataFlux, 2005] DataFlux Corporation: www.dataflux.com 2005 [url] (acedido a 30-62005).
[DDUS, 2003] Department of Defence, U.S, DOD “Guidelines on Data Quality
Management”. Defence Information Systems Agency. p. 28, 2003.
[Decker et al., 1998] Decker, K.; Focardi, S.; “Technological Overview: A Report on
Data Mining.”, CSCS Techreports, 1998.
[DeTienne et al., 1996] DeTienne, Kristen; Thompson, Jeffery A.;"Database Marketing E
organizational learning theory: toward a research agenda" Journal of
Consumer Marketing 13, 1996.
[Drozdenko et al., 2002] Drozdenko, Ronald; Drak Perry D, “Optimal Database
Marketing”, SAGE Publications, Thousand Oaks, USA, 2002
E
[Etzioni, 1980] Etzioni, Amitai; “Organizações modernas”, Livraria Pioneira, São-Paulo,
1980.
[Evfimievski et al., 2003] Evfimievski, A, Gehrke J. E., Srikant R.; “Limiting Privacy
Breaches in Privacy Preserving Data Mining”, Proceedings of the 22nd ACM
SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems
(PODS 2003). San Diego, CA, June 2003.
243
Bibliografia
F
[Fayerman, 2002] Fayerman, M.; "Customer Relationship Management." ,New
Directions For Institutional Research ;KMG Consulting, New York ,2002.
[Fayyad et al., 1996] Fayyad, U, Piatetsky-Shapiro, G.; P. Smyth; Uthurusamy, R.;
“Advances in Knowledge Discovery & Data Mining”, Cambridge, MA (The
AAAI Press/The MIT Press), 1996.
[Fayyad et al., 2002] Fayyad, U, Grinstein, G, E Wierse, A.; “Information Visualization
in Data Mining”, Morgan Kaufmann Publishers, San Francisco, 2002.
[Feelders, 2002] Feelders A.J.; “Statistical Concepts”; In Berthold, M; Hand D.J. (Eds);
Intelligent Data Analisys: An Introduction 2ªed; Springer-Verlag; 2002.
[Fletcher et al., 1996] Fletcher, Keith; Wright, George; Desai, Caroline; "The Role of
Organizational Factors in the Adoption and Sophistication of Database
Marketing in the UK Financial Services Industry", Journal of Direct
Marketing 10, 1996.
G
[Gago, 2001] Gago, Pedro M. Cardoso; “Métodos para a Selecção das Regras Mais
Promissoras Em Extracção de Conhecimento de Bases de Dados”,
Dissertação de Mestrado, Coimbra, Dezembro, 2001.
[Gelman et al., 1995] Gelman, A.; Carlin, J.B.; Stern, H.S.; Rubin, D.R.; ”Bayesian Data
Analysis”, Chapman & Hall, London, 1995.
[Glazer et al., 1994] Glazer Rashi; Day, George; "Harnessing the Marketing Information
Revolution: Toward the Market-Driven Learning Organization", The
244
Bibliografia
Marketing Information Revolution. Ed. Robert C. Blattberg, Rashi Glazer
and John D. Little. Boston: Harvard Business School Press, p270-288, 1994.
[Gonçalves et al., 2002] Gonçalves, Carlos A.; Jamil, George L.; Tavares, Wolmer R.;
“Marketing de Relacionamento - Database Marketing”, Axel Books, 2002.
[Groth, 2000] Groth, Robert;”Data Mining: Building Competitive Advantage”, Prentice
Hall PTR, USA, 2000.
H
[Hagan et al., 1996] Hagan, M. T., Demuth, H. B., Beale, M.; “Neural network design”,
PWS Publishing Company, 1996
[Haley, 1998] Haley, B.; “Implementing the Decision Support Infrastructure: Key
Success Factors in Data Warehousing”, Doctoral dissertation, University of
Georgia, 1998.
[Hall, 1999]Hall, Curt; “Data Warehousing for Business Intelligence”, March, 1999,
http://www.cutter.com/itreports/RP68E.pdf (acedido a 06-06-2005).
[Han et al., 2001] Han, Jiawei; Kamber, Micheline; “Data mining – Concepts and
Techniques”, Academic Press Morgan Kaufmann Publishers, San Francisco,
USA, 2001.
[Harrison, 1998] Harrison, T. H.; “Intranet Data Warehouse”, São Paulo, Berkeley
Brasil, 1998.
[Haynes et al., 1992] Haynes, Paula J.; Helms, Marilyn M.; Casavant A. Richard;
"Creating a Value- Added Customer Database: Improving Marketing
245
Bibliografia
Management Decisions", Marketing Intelligence & Planning 10 p16-20;
1992.
[Hughes, 1994] Hughes, A.M.; “Strategic Database Marketing”, McGrawHill, 1994.
[Hughes, 1995] Hughes, Arthur M.;”The Complete Database Marketer”; Chicago;
Probus Publishing Co, 1995.
I
[Inmon, 1996] Inmon, W.H.; “Building the Data Warehouse”, 2 ed, John Wiley & Sons,
New York ,1996.
[Inmon, 2003] Inmon, W. H, “What is a Data Warehouse?” Center for the Application
of Information Technology (CAIT), http://www.cait.wustl.edu/cait, vol.1,
2003. (acedido a 06 Julho 2005).
J
[Jackson et al., 1997] Jackson, Rob; Wang, Paul; “Strategic Database Marketing”,
Lincolnwood, IL: NTC Business Books, 1997.
[Johnson, 1998] Johnson, Kathleen J; “Competitive Intelligence Library”, Competitive
Intelligence Review, Vol. 9(2) 72-74, 1998.
[Juran et al., 1999] Juran, J.M.; Godfrey , A.B.; “Juran's Quality Handbook”, 5 ed.
McGraw-Hill, New York, 1999.
[Jutkins et al., 1994] Jutkins, Ray; “Seven Mistakes to Avoid When Building a
Database”. Direct Marketing, vol. 56, no 10, Feb. 1994.
246
Bibliografia
K
[Keen, 1987] Keen, P.G. W, M.; “Decision Support Systems: The Next Decade”,
Decision Support Systems, 3, 253-265, 1987.
[Klein, 1999] Klein, B.; Rossin, D.F.; “Data errors in neural network and linear
regression models: An experimental comparison”, Data Quality Review 5(1);
1999.
[Kohavi, 1997] Kohavi R.; “Wrappers for Feature Subset Selection” Artificial
Intelligence 97, 273-324, 1997.
[Kohonen, 1989] Kohonen, T.; “Self Organization and Associative Memory”, Berlin,
Springer-Verlag, 1989.
[Kotler, 2002] Kotler, Philip; “Marketing Management”, Prentice-Hall, 11ª edição, 2002.
L
[Laudon, 1986] Laudon K. C.; “Data Quality and due Process in Large Interorganizational Record Systems”, Communications of ACM, vol 29 (1), p 411; 1986.
[Lee et al., 1999] Lee H.D.; Monard, M C.; Baranauskas J A.; “Empirical Comparison of
Wrapper an Filter Approaches for Feature Subset Selection”, Technical
Report, 94, ICMC-USP, 1999.
[Lindon et al., 2000] Lindon, D.; Lendreive, J.; Rodrigues, J.; Dionisio P.; “Mercator
Teoria e Prática do Marketing”, 9ª ed, Publicações D. Quixote, Lisboa, 2000.
247
Bibliografia
[Linoff et al., 1997] Linoff, Gordon S.; Berry Michael J. A.; “Data Mining Techniques –
For Marketing, Sales and Customer Support”, John Willey e Sons, New York
1997.
[Linoff et al., 2000] Linoff, Gordon.; Berry, Michael,; “Mastering Data Mining: The Art
and Science of Customer Relationships Management”, John Wiley & Sons
Inc, USA, 2000.
[Little, 1992] Little, R.; “Regression with missing X’s: a review”, Journal of the
American Statistical Association, vol. 87, pp. 1227-1237, 1992.
[Lo, 2002] Lo, Victor S.; ” The True Lift Model - A Novel Data Mining Approach to
Response Modeling in Database Marketing”; SIGKDD Explorations; vol 2
n2; p.78-86, 2002.
M
[Marcolli, 1986] Marcolli,A.; “Teoria del Campo”, G. C. Sansoni Editore, Firenze,1986.
[McKenna, 2002] McKenna, Regis; “As cinco regras do novo marketing”, HSM
Management Review, nº22, pág. 14-22, 2002.
[Montcel, 1972] Montcel Henri Tezenas; “Dicionário de Gestão”, Publicações Dom
Quixote, Lisboa, 1972.
[Moss, et al., 2003] Moss, Larissa; Atre, Shaku; “Business Intelligence Roadmap: The
Complete Project Lifecycle for Decision Support Applications”, Addison
Wesley, Longman, 2003.
248
Bibliografia
[Munhoz,
2005]
Munhoz,
C.
Eduardo;
“Marketing
&
Design”,
http://www.pensandomarketing.com/home/id127.html, 2005 [url] (acedido a
20-6-2005).
N
[Negash et al., 2003] Negash, Solomon; Gray, Paul; “Business Intelligence”, Ninth
Americas Conference on Information Systems, 2003.
O
[O’Guin et al., 2001] O’Guin, C. Michael; Ogilvie, Timothy; “The Science, Not Art, of
Business Intelligence”, Competitive Intelligence Review, vol. 12(4), 15-24,
2001.
P
[Piatetsky-Shapiro et al., 2000] Piatetsky-Shapiro, Gregory; Steingold Sam; “Measuring
lift quality in database marketing”, Journal of
SIGKDD Exploration
Newsletter, v2 n 2 p76-80; New York; 2000.
[Pinto et al., 2004] Pinto, F, Santos, M.F, Cortez, P, Quintela, H, “Data Preprocessing for
Database Marketing”, Data Gadgets 2004, pp 76-84, Málaga Spain, 2004.
[Pinto et al., 2005] Pinto, F.; Santos, M.F.; Cortez, P.; Quintela, H.; “Criação de Bases
Dados de Marketing”, JOCLAD 2005, Ponta Delgada, 2005.
249
Bibliografia
[Povel, 2001] Povel, O.; Giraud-Carrier C.; “Characterizing Data Mining Software”,
Intelligent Data Analysis, IOS Press, vol.5 p.1-12, 2001.
[Prior, 1998] Prior, Vernon; “The Language of Competitive Intelligence: Part One”,
Competitive Intelligence Review, vol. 9(2) 66-68, 1998.
[Pyle, 1999] Pyle, Dorian; “Data Preparation for Data Mining”, Morgan Kaufmann
Publishers Inc, San Frsancisco, CA, 1999.
Q
[Quinnlan, 1996] Quinlan, J.R.; “Bagging Boosting e C4.5”, Proceedings of Fourteenth
National Conference on Artifical Intelligence, 1996.
[Quinnlan, 2004] Quinnlan, J.; “C5.0 Data Mining Tool”, http://www.rulequest.com,
2004 (acedido 17-3-2005).
[Quintela, 2005] Quintela, Hélder; “Sistemas de Conhecimento Baseados em Data
Mining: Aplicação à análise da Estabilidade de Estruturas Metálicas”,
Dissertação de Mestrado, Universidade do Minho, Guimarães, 2005.
R
[Ramachandran, 2001] Ramachandran, Pushpa; “White Paper - Mining for Gold”, Wipro
Technologies, Santa Clara CA, USA, 2001.
[Reis el al, 1998] Reis Elizabeth; Moreira, Raúl; “Pesquisa de Mercados”, Edições
Silabo, Lisboa, 1998.
250
Bibliografia
[Roberts, 1997] Roberts, Mary Lou; "Expanding the Role of the Direct Marketing
Database", Journal of Direct Marketing 11, 1997.
[Rodrigues, 2000] Rodrigues, A. Medeiros; “Técnicas de Data Mining Classificadas do
Ponto de Vista do Usuário”, Tese de Doutoramento; Universidade do Rio de
Janeiro, 2000.
[Rubin, 1996] Rubin, D; “Multiple Imputation after 18 years”, Journal of the American
Statistical Association, vol. 91, pp. 473-489, 1996.
S
[Santos, 1999] Santos, M. F. (1999), Sistemas de Classificação em Ambientes
Distribuídos, Tese de Doutoramento, Universidade do Minho, 1999.
[Santos, 2001] Santos, Maribel Y.; “Padrão: Um Sistema de Descoberta de
Conhecimento
em
Bases
de
Dados
Geo-referenciadas”,
Tese
de
Doutoramento, Universidade do Minho, 2001.
[Santos et al., 2004] Santos, M.F.; Cortez, P.; Quintela, H.; Pinto, F.; “A Clustering
Approach for Knowledge Discovery in Database Marketing”, Datamining
2004 Skyathos, Greece, 2004.
[Santos et al., 2005] Santos, M.F.; Azevedo Carla; “Data Mining . Descoberta de
Conhecimento em Bases de Dados”, FCA, Lisboa, 2005.
[SAS, 2005] SAS, http://www.sas.com [url] (acedido a 17-7-2005).
[Schafer, 1997] Schafer, J.; “Analysis of Incomplete Multivariate Data”, Chapman &
Hall, London, 1997.
251
Bibliografia
[Schapire, 2002] Schapire E. R.; The boosting approach to machine learning: An
overview, MSRI Workshop on Nonlinear Estimation and Classification,
2002.
[Schewe et al., 1995] Schewe, Charles; Hiam, Alexander; “The Portable MBA in
Marketing”, John Wiley & Sons, (May) 1995.
[Schoenbachler, 1997] Schoenbachler Denise D.; "Understanding consumer database
marketing.", Journal of Consumer Marketing, n14, 1997.
[Seller et al., 1999] Seller, Marianne; Gray, Paul; “A Survey of Database Marketing”,
Califórnia, March 1999.
[Shepard, 1998] Shepard, David; “The New Direct Marketing: How to Implement A
Profit-Driven Database Marketing Strategy”, ed David Shepard Associates,
McGraw-Hill, 3ª ed; 1998.
[Siqueira et al., 2002] Siqueira, Sean; Silva, Diva de S.; Uchôa, Elvira Mª; Braz, Mª
Helena; Melo, Ruben N.; "Database Marketing Systems", 2002.
[Smyth et al., 1992] Smyth, P, Goodman R. M; “An information theoretic approach to
rule induction from databases”, IEEE Transactions on Knowledge e Data
Engineering, 4:4, 310–316, 1992.
[Stegwee et al., 2002] Stegwee, Christian J.A.; Ton A.M.; Spil, Robert A.; “Business
Intelligence in Healthcare Organizations”, University of Twente, 2002.
[Stone et al.,2004] Bond, Alison; Foss, Bryan; Patron, Mark; “Consumer Insight: How to
Use Data e Market Research to Get Closer to Your Customer”, Kogen, 2004.
[Strong et al., 1997] Strong, D.M.; Lee Y.W.; Wang R.Y.; “Data quality in context”,
Communications of the ACM, 40(5), p. 103-110, 1997.
252
Bibliografia
[Suther, 1999] Suther T.; “Customer Relationship Management: Why Data Warehouse
Planners Should Care About Speed e Intelligence in Marketing”, DM
Review,1999.
T
[Tayi, 1998] Tayi, G.K.; Ballou, D.P. ; “Examining data quality”, Communications of the
ACM, 41(2), p. 54-57, 1998.
[Turban et al., 2001] Turban, Efraim; Aronson, Jay e.; “Decision Support Systems e
Intelligent Systems”, Prentice-Hall, 2001.
U
[Uthurusamy et al., 2002] Uthurusamy R.;Fayyad,U.; “Evolving data mining into
solutions for insights” . Communications of the ACM 45 (8): 28-31; 2002.
W
[Wang et al., 1996] Wang, R.Y.; Strong D.M.; Guarascio L.M.; “Beyond Accuracy:
What data quality means to data consumers”, Total Data Quality
Management Programme, 1996.
[Weiss et al., 2001] Weiss, G, Provost, F.; “The effect of class distribution on classifier
learning: na empirical study”, Technical Report ML-TR-44, Department of
Computer Science, Rutgers University, 2001.
253
Bibliografia
[Welge et al., 2001] Welge, Michael E.; Shaw, Michael J.; Subramaniam, Chandrasekar;
Tan, Gek Woo”, Knowledge management e data mining for marketing”;
Decision Support Systems, vol. 31 n 1 p127-137, 2001.
[Westphal et al., 1998] Westphal, C.; Blaxton, T.; “Data Mining Solutions: Methods and
Tools for Solving Real-World Problems”, John Wiley & Sons, New York,
1998.
[Wiersema et al., 1993] Wiersema F.; Treacy, M.;“Customer Intimacy and Other Value
Disciplines”, Harvard Business Review, 71(1), pp. 84–93, 1993.
[Wirth, 2000] Wirth, Ruediger; “CRISP-DM Position Statement”, 6th ACM SIGKDD
International Conference on Knowledge Discovery & Data Mining, USA,
2000.
[Wright, 1998] Wright, K. F.; "Barriers to Successfull Implementation of Database
Marketing: A Cross-Industry Study", International Journal of Information
Management; 1998.
[Wolf et al., 1999] Wolf , M. J; Copulsky, J. R; “Relationship Marketing: Positioning for
the Future”, The Journal of Business Strategy, July/August, pp. 16–20, 1999.
Z
[Zorrinho, 1991] Zorrinho, Carlos; “Gestão da Informação”; Editorial Presença;
Lisboa;1991.
[Zwick et al., 2004] Zwick, Detlev, Nikhilesh Dholakia “Whose Identity Is It Anyway?
Consumer Representation in the Age of Database Marketing”; Journal of
Macromarketing, Vol. 24, No. 1, 31-43, 2004.
254
Glossário de Termos
Glossário de Termos
Algoritmos
Fórmulas matemáticas complexas, são a parte
fundamental das ferramentas de Data Mining.
Cross-selling
Venda cruzada de produtos.
Data Mining
Processo da Descoberta de Conhecimento, que
encontra tendências e associações num grande
volume de dados.
Data Warehouse
É um repositório de dados provenientes de várias
fontes, orientada por assuntos, integrada, variante
no tempo, e não volátil, especialmente construído
e estruturado de forma a facilitar os processos de
tomada de decisão
Marketer
Designação corrente para um profissional de
marketing.
Metodologia
Parte da lógica que estuda os métodos das
diversas ciências, segundo as leis do raciocínio;
conjunto de regras empregue no ensino de uma
ciência ou arte.
Modelo
Descreve tendências e associações, permitindo
entendê-las melhor.
255
Glossário de Termos
Prospect
Indivíduo não-consumidor que tem potencial de
vir tornar-se num cliente da empresa para um
determinado produto ou serviço.
Merchandising
Comercialização de produtos associados ....
Marketing relacional
Marketing vocacionado para a relação como
consumidor.
Marketing directo
Marketing que visa estabelecer contacto directo
com o consumidor.
Up-selling
Venda apoiada numa venda anterior, permitindo
continuar a aumentar o volume de compras do
cliente.
256
Download