Tratamento de dados em conjunto com um processo de carga na

Propaganda
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
PS-555
DATA PROCESSING USING A CHARGING PROCESS IN THE DATABASE
BASED ON ETL TOOL (EXTRACT, TRANSFORM AND LOAD)
Larissa Clemente de Oliveira (Centro Paula Souza / Fatec ZL – São Paulo –
Brasil) - [email protected]
Paulo Cristiano de Oliveira (Universidade Federal de Santa Catarina - UFSC –
Santa Catarina – Brasil) - [email protected]
José Abel de Andrade Baptista (Centro Paula Souza / Fatec ZL – São Paulo –
Brasil) - [email protected]
Marcelo Rabelo Henrique (Unicastelo – São Paulo – Brasil) [email protected]
Colaborador: Paulo Ramirez (Centro Paula Souza / Fatec ZL – São Paulo –
Brasil) - [email protected]
The quantity of data stored grows exponentially in organizations. On the other
hand, there are few companies that monitors efficiently the cycle of data, which
can cause losses and wrong decisions. Thus, there is a need to develop strategies
to qualify the data, which can be obtained from the application of techniques of
cleaning, prior to its inclusion in the database. The objective of this experimental
research is to analyze possible improvements resulting from the application of
data quality through data processing, in a process load on the database, through
the ETL tool (Extract, Transform and Load). The study was conducted using a
sample of 13,400 records and five fields of a customer base of brand Management
Company of the international fashion industry in Brazil. The results showed
benefits in terms of presentation of the data coming from the standardization of
records. In addition to qualitative benefits, you can also measure the quantitative
benefits related to the economy of financial resources from the techniques for the
treatment of the data used.
Keywords: Data, Cleaning, Database, ETL, Quality.
1
002057
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
Tratamento de dados em conjunto com um processo de carga na base de
dados por intermédio da ferramenta ETL (Extract, Transform and Load)
Resumo
A
quantidade
de
dados
armazenados
nas
organizações
cresce
exponencialmente. Por outro lado, são poucas as empresas que monitoram, de
forma eficiente, o seu ciclo de dados, o que pode causar prejuízos monetários e
decisões equivocadas. Dessa forma, há a necessidade de elaboração de
estratégias para qualificar os dados, que podem ser obtidas a partir da aplicação
de técnicas de higienização, antes de sua inserção no banco de dados. O objetivo
dessa pesquisa, de natureza experimental, é analisar as possíveis melhorias
resultantes da aplicação da qualidade de dados, por meio do tratamento de
dados, em um processo de carga no banco de dados, por intermédio da
ferramenta ETL (Extract, Transform and Load). O estudo foi realizado utilizando
uma mostra de 13.400 registros e cinco campos do cadastro de clientes de uma
empresa gestora de marcas do ramo da moda internacional no Brasil. Os
resultados apontaram benefícios quanto à apresentação dos dados advinda da
padronização dos registros. Além dos benefícios qualitativos, pode-se também
aferir benefícios quantitativos relacionados à economia de recursos financeiros a
partir das técnicas para o tratamento dos dados utilizadas.
Palavras-chaves: Dados, Higienização, Banco de Dados, ETL, Qualidade.
1. INTRODUÇÃO
De acordo com Turban, Rainer e Potter (2007) somente no ano de 2006 foi
gerado o equivalente digital a dez trilhões de livros de dados. Esses dados são
fruto das mais variadas fontes: transações de cartões de crédito, mensagens
telefônicas, catálogos de endereços entre outros. Devido a essa grande
quantidade de informações, gerentes e executivos têm cada vez mais dificuldade
em gerenciar dados nas empresas. Além do volume, os mesmos autores citam
outros fatores que dificultam o gerenciamento dos dados nas empresas como: os
dados aumentam no decorrer do tempo; as empresas necessitam manter, além
dos dados atuais, os antigos e há diversidade de métodos e dispositivos para a
coleta dos dados. Diante desse cenário, fica clara que a má utilização da
informação em razão da falta de um plano de estruturação das bases de dados
pode prejudicar o desempenho da empresa.
Entretanto, hoje, as organizações podem obter a qualidade em seus dados
de acordo com o padrão estabelecido pelos Correios, no caso o DNE (Diretório
Nacional de Endereços) e através de diversas ferramentas do mercado
certificadas, como é o caso do DataSetting®. Esse software para tratamento dos
dados realiza a padronização e higienização de endereços através da aplicação
de técnicas de limpeza de dados. Em relação às inclusões dos dados no banco
de dados a ferramenta ETL, SQL Server® 2008 Integration Services, permite um
desenvolvimento mais ágil das inserções além de facilitar a manutenção das
cargas diminuindo a codificação das etapas.
O problema a ser respondido por essa pesquisa é “quais seriam as
possíveis melhorias na qualidade de dados resultantes do tratamento de dados
2
002058
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
em conjunto com um processo de carga na base de dados por intermédio da
ferramenta ETL (Extract, Transform and Load)”?
O objetivo geral deste trabalho é analisar as melhorias resultantes da
aplicação da qualidade de dados, por meio da aplicação de técnicas de
higienização dos dados, em um processo de carga no banco de dados por
intermédio da ferramenta ETL (Extract, Transform and Load). Os objetivos
específicos compreendem: (1) verificar o referencial sobre a qualidade de dados,
(2) identificar os problemas relativos à qualidade em uma base de dados, (3)
selecionar técnicas adequadas e que podem ser utilizadas nesta base e por fim
(4) aplicar as técnicas de limpeza na base de dados.
A seguir é apresentada a metodologia, o referencial teórico, os resultados,
as considerações finais e as referências utilizadas para elaboração da pesquisa.
2. METODOLOGIA
A pesquisa apresentada por esta pesquisa possui caráter exploratório.
Roesch (1996) afirma que a utilização do modo exploratório visa levantar
questões e hipóteses para futuros estudos. Neste sentido, a pesquisa exploratória
se mostra mais indicada e os conhecimentos gerados visam reunir elementos
para futuros estudos relacionados à higienização de dados. A pesquisa foi
desenvolvida usando como base o estudo bibliográfico, que se realiza a partir do
registro disponível, decorrente de estudos anteriores, em documentos impressos,
como livros, artigos, teses, etc. (SEVERINO, 2007, p. 122).
Para a construção desse trabalho foi empregado um estudo de caso de
natureza experimental, utilizando-se as ferramentas DataSetting® e SQL Server®
2008 Integration Services para o tratamento e introdução dos dados no banco de
dados, respectivamente. De acordo com Lakatos e Marconi (2001), a pesquisa
experimental consiste essencialmente em determinar um objeto de estudo,
selecionar as variáveis capazes de influenciá-lo e definir as formas de controle e
de observação dos efeitos que a variável produz no objeto. Nesse sentido, a
análise dos resultados foi efetuada a partir de uma base com dados dos clientes
de uma empresa da área da moda de grande porte, que controla as operações de
marcas internacionais no Brasil. Por questões de confidencialidade, não foi
permitida a divulgação da identidade da empresa. Os procedimentos da pesquisa
serão apresentados de forma detalhada nos resultados (item 4).
3. REFERENCIAL TEÓRICO
O referencial teórico versará sobre definições de dados, informação e
conhecimento, tratando, em seguida, o papel da informação na empresa, banco
de dados, qualidade de dados, resultando também os processos de higienização
(data cleasing), recursos para otimização do processo de higienização,
deduplicação de dados, match code, e, por fim, ETL (Extract, Transform and
Load).
3.1 Dado, informação e conhecimento
Segundo Valentim (2002), o conjunto de “dados, informações e
conhecimento” é um importante fator de competitividade nos mais diferentes tipos
de organizações. É por meio desse recurso que se obtém melhorias para os
processos organizacionais que consequentemente aumentam a vantagem da
empresa sobre suas concorrentes. Essa vantagem competitiva é explicada por
3
002059
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
Vasconcelos e Cyrino (2000) como níveis de desempenho econômico acima da
média de mercado em função das estratégias adotadas pela organização.
Laudon e Laudon (2007) definem dados como uma lista ordenada de fatos
brutos que representam eventos ocorrentes no ambiente organizacional ou físico,
antes de serem organizados de forma que as pessoas possam entendê-los. Já
Sawaya (1999) conceitua dado como termo que indica números, letras, símbolos
ou fatos em referência à descrição de um objeto, ideia, condição, situação ou
outros fatores, em relação à computação, dado aos elementos básicos
processados ou produzidos pela máquina.
Para Turban, Wetherbe e Mclean (2004) os dados são organizados em
uma hierarquia que se inicia com os bits (menor unidade de processamento do
computador) avança para bytes (agrupamento de 8 bits, representa um caractere:
letra, número ou símbolo) que em conjunto formam um campo (palavras formadas
a partir de um conjunto de caracteres) para então constituir logicamente um
registro. O agrupamento lógico e relacionado de registros formam um arquivo
para então fundar um conjunto de arquivos inter-relacionados, o banco de dados.
Informação, segundo McGee e Prusak (1994) são dados coletados,
organizados e ordenados de forma a ter um significado e contexto específico, cuja
missão é informar. Para Beuren (2000) a informação é fundamental no apoio as
estratégias e processos na tomada de decisão assim como nas operações
organizacionais.
O conhecimento para Davenport e Prusak (1998) é definido como uma
mistura de experiências adquiridas ao longo da vida, valores, informação
contextual de forma a permitir uma avaliação, agregação de novas experiências e
informações. Tanto as origens como a aplicação do conhecimento estão na mente
dos conhecedores.
De acordo com Turban, Rainer e Potter (2007), as empresas utilizam as
informações e conhecimentos provenientes de dados processados. Os gerentes
então aplicam o conhecimento nos problemas e oportunidades organizacionais. A
transformação de dado até o conhecimento e solução pode ser feito de várias
maneiras. O processo começa com a coleta dos dados das mais diversas fontes.
Em seguida ocorre o armazenamento dos dados no banco de dados. Ocorre
então uma seleção dos dados selecionados que serão processados para a o
formato de um data warehouse ou data mart. Os usuários podem, então, acessar
esses dados do data warehouse ou data mart para uma análise. Essa análise
acontece por meio de ferramentas feitas especialmente para o exame das
informações que em conjunto com sistemas inteligentes ajudam os usuários a
interpretá-los.
3.2 A informação na empresa
Para Oliveira (2004), a informação está intimamente ligada à estratégia
empresarial. Graças a informação as organizações conseguem formar estratégias
mais eficazes, assim como tomar decisões que beneficiem as empresas, além de
controlar o fluxo empresarial de maneira eficiente. A influência da informação no
âmbito organizacional é tão predominante que toda a cultura e direcionamento da
empresa podem mudar de direção devido a seu poder sob os elementos
gerenciais.
Garrison (2006) apud Oliveira (2004) defende que a informação funciona
como o motor na organização, que move os gestores rumo ao sucesso. Para
4
002060
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
tanto é necessário um fluxo constante de informações, na falta desse processo os
gestores tornam-se impotentes de desempenhar suas atividades, além desse
fator é importante considerar a organização como produtora das informações,
pois, muitas das informações necessárias estão contidas na própria empresa.
Oliveira (2004) afirma que não basta apenas se ter a informação na
organização. Essa informação precisa de valor. O valor e as decisões dessa
informação são influenciados por sua qualidade. A informação é qualificada
quando ela é relevante ao negócio, precisa, acessível, concisa, clara,
quantificável e consistente. Organizações que não possuem informações com
essas características acabam por efetuar uma gestão falha, a partir do momento
que as decisões e estratégias são baseadas em informações sem qualidade.
3.3 Banco de dados
Para Elmasri e Navathe (2005) um banco de dados é um conjunto de
dados relacionados. Os dados são fatos e podem ser gravados e possuem
significado implícito. O banco de dados apresenta as seguintes propriedades:
•
Representa alguns aspectos do mundo real, sendo às vezes chamados de
minimundo ou de universo de discurso (UoD). As mudanças no minimundo são
refletidas em um banco de dados.
•
É uma coleção lógica e coerente de dados com algum significado inerente.
Uma organização de dados ao acaso (randômica) não pode ser interpretada
como um banco de dados.
•
É projetado, construído e povoado por dados, atendendo uma proposta
específica. Possui um grupo de usuários definido e algumas aplicações
preconcebidas, de acordo com o interesse desse grupo de usuários.
Segundo Turban, Rainer e Potter (2007), os sistemas de bancos de dados
maximizam alguns aspectos como:
•
Segurança dos dados.
•
Integridade dos dados.
•
Independência dos dados.
Segundo Geremia (2010), o Sistema de Gerenciamento de Banco de
Dados (SGBD) é uma coleção de programas que facilita a interação entre
usuários e banco de dados. O SGBD proporciona a determinação de processos
no banco como definições de tipos de dados que serão armazenados,
manipulação dos dados onde é possível incluir funções como uma pesquisa para
recuperar um determinado dado, uma atualização no banco de dados ou exclusão
de dados problemáticos ou invalidados e a geração de relatório a partir dos
dados.
Para Casanova (2001), o SGBD é uma ótima ferramenta sob muitos
aspectos. No ponto de vista administrativo, mantem a base de dados organizada
e centralizada de tal forma que todos possam compartilhar dados. Em relação ao
aspecto econômico, reduz custos de comunicações, que atualmente são mais
custosos que os equipamentos. Além de facilitar o crescimento modular do
sistema e aumentar a confiabilidade através da replicação dos dados.
Dentre os gerenciadores existentes no mercado, Turban, Rainer e Potter
(2007) citam o SQL (Structure, Query Language) como o mais utilizado devido a
sua linguagem próxima a dos homens. Para Nunes (2007), a primeira “versão” do
SQL foi o “SEQUEL” apresentada em 1970 pela IBM a fim de atender as
características das bases de dados de seus mainframes. O principal objetivo do
5
002061
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
SQL é prover a seus usuários um método fácil e ágil de acesso às bases de
dados por meio de consultas, denominadas query.
Segundo Spínola (2011), no ano de 1986 o American National Standard
Institute (ANSI) classificou como padrão a utilização do SQL como linguagem
para os bancos de dados de modelo relacional. Essa escolha se deve a forma
como é uma consulta nessa linguagem. Nela é explicitada a forma que o
resultado deve ter e não o caminho que deve ser feito para chegar no mesmo.
3.4 Qualidade de dados e os processos de higienização
Segundo Batini e Scannapieca (2006), a origem da qualidade de dados se
remete à estatística. Os estatísticos foram os primeiros estudiosos a notarem
problemas em relação à qualidade de dados, propondo uma teoria matemática na
década de 1960 considerando dados estatísticos duplicados. Somente 30 anos
depois, na década de 1990, estudiosos de computação começaram a considerar
o problema, definindo e mensurando, melhorias na qualidade em processos
organizacionais de armazenamento de dados como banco de dados e data
warehouses.
Para McGilvray (2011), a qualidade das informações ou dados é o grau em
que essas informações ou dados são confiáveis, independente da fonte em que o
usuário fará sua busca. A qualidade não envolve somente esse aspecto, além
disso, para essa informação ou dado ajudar a administrar e gerenciar negócios,
tomar decisões eficazes, dar suporte ao cliente é necessário que as informações
estejam disponíveis na hora, lugar certo e para as pessoas certas.
Strong (1997) et al. apud Turban, Wetherbe e Mclean (2004) efetuaram
uma pesquisa sobre os problemas em relação à qualidade de dados. Como
resultado, descobriu-se que alguns problemas são técnicos e outros estão
relacionados a potenciais crimes eletrônicos. Os pesquisadores então dividiram
os problemas detectados em quatro categorias:
•
Qualidade intrínseca: dados precisos, objetivos e confiáveis.
•
Qualidade de acesso: dados acessíveis com segurança em seu acesso.
•
Qualidade de contexto: dados relevantes, importantes, com valor agregado,
conveniente, na medida certa.
•
Qualidade de representação: dados interpretados de maneira concisa e
consistente.
Segundo Drescher (2004) uma má qualidade de dados significa a
possibilidade da existência de informação imprecisa, incompleta, redundante e até
mesmo fictícia. Os problemas acarretados incluem a diminuição da confiança do
cliente, perda de oportunidade de negócio e tomadas de decisões equivocadas
ocasionadas pela imprecisão e a falta de completeza dos dados.
Para Eckerson (2002), o custo real de dados com má qualidade para as
empresas é bem mais amplo. Além do prejuízo monetário, a empresa aliena e
frustra seus clientes por tratá-los a partir de dados incorretos por não reconhecêlos como clientes em potenciais. Os dois problemas mais comuns causados pela
má qualidade de dados são o tempo extra para reconciliar os dados e perda de
credibilidade em um sistema. Esses problemas, segundo Eckerson (2002) estão
relacionados a uma incapacidade de harmonizar os dados entre o dataware
house e os sistemas de origem. Isso faz com que os usuários finais percam a
confiança nos sistemas de origem dos dados, antes que cheguem ao dataware
house.
6
002062
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
Eckerson (2002) relata que organizações que não investem na qualidade
de seus dados não podem tomar boas decisões porque não têm precisão sobre
os acontecimentos dentro da empresa ou do mercado, confiando então na
intuição, o que é perigoso em um mercado dinâmico com concorrentes ágeis e
clientes cada vez mais exigentes.
3.5 Processos de higienização – data cleansing
Para Rahm e Do (2009), o data cleansing é o processo de “limpeza” de
uma base de dados. Neste procedimento são detectados e removidos erros e
inconsistências dos dados, causados pelas múltiplas fontes de dados que
precisam ser integradas. Isso ocorre porque as fontes, por diversas vezes,
apresentam dados redundantes em diferentes formatos.
Segundo Nauman e Herschel (2010), uma medida concreta para melhorar
a qualidade de dados é realizar o data cleansing, para modificar diretamente os
dados, corrigindo erros e inconsistências. O processo de limpeza recebe dados
ou um conjunto de dados e produz como saída um agrupamento de dados limpos.
Dentre os conjuntos de atividades desenvolvidas pelo data cleansing estão a
análise, formato, transformação, moeda, conversões, verificações quanto a
restrições de valores, deduplicação, fusão de dados entre outros.
Para a realização do processo de higienização, Tavares (2003) definiu
alguns exemplos de recursos:
a)
Parsing - Método que realiza uma varredura em determinada variável a fim
de identificar ocorrências que podem ser tratadas como em um endereço a
divisão entre suas partículas e colunas.
b)
Dígito de controle (DC) ou Check Digit - Recurso que evita erros na
transcrição de número. “Dígito de Controle é o conjunto de algarismos que
acompanha um dado numérico, ocorrendo em seu começo, meio ou fim, com o
propósito de evitar erro de inversão ou interpretação de algarismos no dado”
(COSTATO (1986) apud TAVARES (2003).
Há várias maneiras de se calcular o Dígito de Controle, dentre os mais
usuais estão os módulos 10 e 11. Sua realização é feita da seguinte forma:
• É calculada a somatória dos produtos dos algarismos do dado por seu peso.
• Calcular o resto da divisão da somatória do número por seu módulo,
• Quando o resto não for nulo, calcular a diferença entre o número do módulo e
resto do cálculo anterior ou pelo resto quando esse for nulo.
c)
Validação de CPF/CNPJ no site da Receita Federal - A Receita Federal
disponibiliza a consulta pública em seu site e o Comprovante de Inscrição e de
Situação Cadastral do CPF. É possível através da consulta verificar a situação de
um CPF, regular, pendente ou cancelado e fazer a validação do nome, se está
grafado corretamente. A consulta pode ser feita pelo site:
http://www.receita.fazenda.gov.br/aplicacoes/atcta/cpf/consultapublica.asp
Para CNPJ a consulta pública é chamada de Emissão de Comprovante de
Inscrição e de Situação Cadastral. Como no caso do CPF é possível verificar a
situação da empresa ativa, pendente ou encerrada:
http://www.receita.fazenda.gov.br/pessoajuridica/cnpj/cnpjreva/cnpjreva_sol
icitacao.asp
7
002063
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
d)
Identificação do tipo de pessoa (física ou jurídica) - O nome é o atributo
usado para identificar o tipo de pessoa. Para tanto temos duas das diversas
maneiras de realizar a identificação:
• Pela filial do CNPJ, diferente de zeros, quando CPF e CNPJ utilizam a mesma
posição em um cadastro.
• Por meio do nome e do cruzamento com tabelas de palavras ou frases
reservadas a pessoas jurídicas como “LTDA”, “Limitada” entre outras. Porém é
preciso tomar cuidado devido a sobrenomes como Carro ou Bar, que podem
ser de pessoa física.
e)
Identificação do sexo - Para esse caso, em relação à pessoa jurídica
atribui-se sexo como indefinido. Quando pessoa física é possível atribuir o sexo
por meio de cruzamentos com uma tabela de nomes. Em casos cuja identificação
não é tão simples como “Darci” é mais polida e seguro atribuir sexo, como
indefinido.
f)
Higienização de caracteres especiais ou inválidos - O banco de dados,
muitas vezes, apresenta-se com dados grafados incorretamente. Para tanto, é
utilizado regras de higienização para a recuperação do campo. Entre os
problemas ocasionados estão:
“Ant0nio” – o numeral “0” no lugar da letra “o”;
“AntonioCarlos – nomes compostos juntos;
“antonio” – nome próprio com primeira letra minúscula;
“AnToNiO” – nome com oscilação de letras (maiúsculas e minúsculas);
Dados como esse deixam a informação NOME incorreta, além de
prejudicar uma ação de cruzamento de dados e ainda prejudicar a identificação
de duplicidades em uma base.
g)
Identificação de palavrões - A identificação e eliminação de palavrões em
cadastros evita situações críticas perante o cliente e processos judiciais. Portanto,
os nomes devem ser validados diante uma tabela de nomes, levando em
consideração nomes estrangeiros como “Ku”, nome próprio asiático.
h)
Separação de patentes e designativos - Para um banco de dados, o ideal é
a separação da patente do nome. Para uma ação de marketing, dependendo do
produto ofertado o cliente nem sempre é um doutor. Assim o ideal é que o
cadastro tenha um campo próprio para o armazenamento de patentes como:
“Dr.”; “Sr.”.
i)
Padronização de letras maiúsculas e minúsculas - A padronização de
campos deve ser implantada levando em consideração a necessidade de
armazenamento e o futuro uso da informação. Como “CARLA MARIA” para “Carla
Maria”.
j)
Verificação de ano bissexto - A validação do ano bissexto permite a
entrada da data 29 de fevereiro. Se não essa data deve ser bloqueada do
cadastro.
8
002064
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
k)
Validação de datas de nascimento - As validações de datas incluem
aspectos físicos do campo – entre dias 1 e 31, entre o mês 01 e 12, como ano –
maior ou menor de 1850. A última regra varia conforme o tipo do negócio.
Enriquecimento através da aquisição de cadastros pode assegurar a qualidade
dessa informação.
l)
Verificação de falecimentos - A fim de se evitar constrangimentos e vendas
fictícias o ideal é cruzar a base com o cadastro de falecidos dos cartórios.
m)
Verificação versus DNE (Diretório Nacional de Endereços) - Dentre os itens
que mais geram perdas para ações de marketing direto estão endereço incorreto.
3.6 Recursos para a otimização
O processo de higienização descrito por Dbdireto (2011), organização que
oferece serviços tratamento de dados e suporte de dados às áreas de marketing e
comercial, define alguns processos para a limpeza de dados:
a) Nome e Razão Social
A validação de nome e razão social é feita por meio da eliminação de
caracteres considerados inválidos como ponto, ponto e vírgula, cifrão,
porcentagem. Há ainda a conversão entre caixa baixa e alta, substituição de
letras com acentos e a separação do nome em primeiro, do meio e sobrenome
através do parsing.
b) Endereços
Todos os atributos do endereço são considerados para sua validação:
CEP, tipo de logradouro, logradouro, número, bairro, cidade e UF. Cidades com
características especiais como Palmas, Brasília, Bauru e Goiânia devem receber
tratamento diferenciado.
Os endereços devem ser confrontados com a base do DNE (Diretório
Nacional de Endereços) dos Correios, caso seja identificado alguma
inconsistência deve-se efetuar a recuperação do dado, corrigindo e separando por
partículas.
c) Telefones
Assim como os atributos já citados, o telefone passa por um processo de
exclusão de caracteres especiais, inválidos e espaços em branco. Após esse
procedimento o dado passa por um algoritmo de separação do DDD e número,
para que possa ser efetuada uma comparação com o dicionário de prefixo e
sufixo de telefones.
d) E-mail
Para e-mails o processo de tratamento consiste em validar sua estrutura,
ou seja, se respeita a regra: login@domínio.atividade.país além da remoção
habitual de caracteres inválidos como o “ç”, acentos, vírgulas. Outro processo
realizado é o cruzamento com uma base interna de e-mails.
9
002065
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
e) CPF e CNPJ
A validação de CPF e CNPJ é estrutural. Para casos onde não se sabe
qual o tipo de documento, CPF ou CNPJ, são aplicados cálculos para a
identificação.
f)
Atribuição de sexo e tipo de pessoa
A atribuição do sexo é realizada a partir do primeiro nome. Para a
identificação de pessoa física ou jurídica utiliza-se uma relação de palavras-chave
(S.A, LTDA, Prefeitura, Banco, Indústria, Comercio, etc.).
3.6.1 Deduplicação de dados
A deduplicação de dados, segundo Tavares (2003), significa identificar
registros duplicados em uma base de dados. Após a identificação desses
registros é possível eliminá-lo ou marcá-lo para controle e eliminação futura. Para
Dbdireto (2011) a deduplicação é um processo para a verificação, marcação e
exclusão de registros com valores iguais em um banco de dados.
Para a realização da deduplicação de registros em uma base de dados,
Dbdireto (2011) afirma que é necessário empregar dois algoritmos. O primeiro é
um fonético para a geração de um match code dos registros da base, o segundo,
para a comparação e identificação das ocorrências duplicadas.
Segundo Tavares (2003), a aparição de registros duplicados em um banco
de dados, mais especificamente em um cadastro, gera prejuízos, devido aos
custos por vendas incorretas ou envio de correspondência. Para Dbdireto (2011)
empresas que utilizam a deduplicação possuem uma visão unificada e concreta
de seus clientes, evitando que um mesmo cliente seja visto como dois ou mais
distintos.
3.6.2 Match code
Segundo ZipCode (2011), o match code é um código identificador diferente
para cada registro, pessoa ou empresa em uma base de dados. Chaves de
identificação como CPF ou CNPJ são as melhores, quando essas estão ausentes
ou ainda, incompletas, utilizam-se então combinações de informação: Nome
Completo + Data de Nascimento ou Nome Completo + Telefone + Endereço. Para
Tavares (2003) o match code facilita a localização dos registros duplicados
através de algoritmos. Variáveis como CPF/CNPJ, Telefone, RG, Inscrição
Estadual, Data de Nascimento, já Nome e Endereço antes de serem considerados
devem ser padronizados para a deduplicação.
O funcionamento do match code, segundo ZipCode (2011), inicia-se com
a atribuição de um código identificador distinto para cada registro no cadastro.
Então a partir das informações como nome, endereço e cidade é gerado um
conjunto de códigos. Esse conjunto, único para cada registro, serve como chave
de pesquisa nos demais processos de qualificação de dados, principalmente o de
deduplicação.
3.7 ETL - Extract, Transform and Load
Segundo Eckerson e White (2003) o ETL é uma ferramenta que
desempenha um papel crítico na criação de data warehouses, o alicerce do
Business Intelligence. Ferramentas ETL agem como um funil, elas reúnem e
misturam dados heterógenos para um formato consistente e com significado a fim
10
002066
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
de preencher uma data warehouse. ETL compreende um processo que tem como
objetivo a extração, transformação e carga dos dados em uma ou mais bases de
dados de origem para uma ou mais bases de dados de destino, o Data
warehouse.
Ferreira et al (2010) relatam que estudos sobre o ETL e ferramentas de
limpeza de dados consomem um terço do orçamento destinado ao projeto de data
warehouse e 55% do tempo total de execução do data warehouse. A camada
inferior, segundo os mesmos autores, representa o armazenamento de dados
utilizado em todo o processo. No lado esquerdo, encontra-se a origem dos dados,
em sua maioria um Banco de Dados ou arquivo texto. Na parte superior, no lado
esquerdo temos os dados provenientes das fontes, por meio de rotinas de
extração que fornecem informação igual ou levemente modificada em relação à
fonte original. Em seguida, os dados são transferidos para a Data Staging Area
(DSA) onde ocorrem as transformações e o processo de higienização antes de
serem carregados para o data warehouse que está na parte direita da figura com
o intuito de armazenar os dados. O carregamento para o data warehouse,
realizado pelas atividades de carga.
Um papel importante desempenhado pelo ETL está na sua integração com
a qualidade de dados. Segundo Nguyen (2008) essa sinergia simplifica e garante
ao processo dados íntegros e com precisão. Com a utilização de ferramentas ETL
pode-se obter benefícios como os descritos por Aguiar (2010):
•
Desenvolvimento de cargas: através das ferramentas ETL, desenvolver uma
rotina de carga, ou seja, inserir dados em uma base de dados é muito mais
prático e rápido.
•
Manutenção de cargas: a manutenção acaba por ser mais rápida e fácil em
relação à manutenção de códigos.
•
Desempenho: as ferramentas ETL já possuem métodos mais performáticos
para lidar com grandes volumes de dados, conseguindo então extrair ,
transformar e carregar dados com maior velocidade e menor utilização de
recursos.
•
Execução em paralelo: é possível executar uma extração, transformação ou
carga em paralelo.
•
Escalabilidade: as ferramentas ETL podem ser transferidas de servidor em
servidor e ainda podem distribuir as cargas em diversos servidores.
•
Diversidade de conectores: com a ferramenta ETL é possível obter dados de
múltiplas fontes de dados. Caso seja necessário um conector diferente dos já
oferecidos pela ferramenta, o usuário pode adquirir o conector desejado sem que
codificar um.
•
Segurança: utilizando ferramenta ETL a segurança se torna mais modular ao
se dividir os processos: criação de carga, execução e agendamentos.
Para Ferreira et al (2010), o ETL é um processo dividido em três fases
primordiais: Extração; Transformação; Carga.
• A extração ou extract, segundo IBL (2003) consiste em extrair dados de
diversos sistemas de origem onde cada sistema utiliza diferentes formatos de
dados, um dos mais comuns é o flat file, o arquivo texto. Na extração um
determinado formato de dado é convertido antes de seus processamento no
processo de transformação.
11
002067
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
•
•
Para Lima (2010), o processo de transformação, ou transform, engloba o de
limpeza. Na limpeza são retirada as inconsistências obtidas através das
diversas fontes dos dados e na transformação ocorre a padronização dos
dados derivados de vários sistemas com formatos diferentes. Já IBL (2003)
afirma que o estágio de transformação dos dados é onde se aplica regras ou
funções nos dados extraídos para que não ocorram problemas em sua
recepção no sistema em que eles serão carregados.
Na carga, ou load, para Ferreira et al (2010), são processados os
mapeamentos de sintáticos e semânticos entre os sistemas, respeitando as
particularidades de cada sistema a fim de criar uma visão única e concreta das
fontes. Esse processo é um dos mais complexos e trabalhosos de obter
devido à complexidade de cada Banco de Dados. Para IBL (2003) a fase de
carga realiza o carregamento de dados para o data warehouse e dependendo
das necessidade da organização esse processo varia. Alguns data warehouse
fazem a substituição de dados existentes semanalmente com dados
atualizados, enquanto outros adicionam dados a cada tempo pré-determinado.
A seguir são apresentados os resultados da pesquisa.
4. RESULTADOS
O experimento propõe a aplicação de métodos de higienização em uma
base cadastral antes de sua inserção no banco de dados, a fim de solucionar
problemas relacionados à qualidade de dados. Os dados obtidos são exemplos
fictícios, provenientes do cadastro de uma empresa do setor de peças e
acessórios de vestuário adulto e infantil, que por questões de confidencialidade é
denominada nesse trabalho como Confecção X. A Confecção X foi criada em
2002 a partir da associação de três sócios e representa artigos do vestuário e
acessórios de marcas internacionalmente famosas. Atualmente, a empresa possui
cerca de 100 filiais localizadas em grande parte do território nacional. Em 2010
seu faturamento chegou a cerca de R$ 140 milhões.
A opção por efetuar o experimento na Confecção X se deve ao acesso dos
pesquisadores a base de dados e a informações vitais para a realização desse
trabalho, como as ações de marketing realizadas a partir do cadastro e valores
gastos com o tratamento de dados. Quanto à base de dados cadastrais,
empregada, a escolha se deve ao número de registros (13.411 registros), ao
grande número de problemas apresentados (erros de digitação) e a limitação dos
campos da ferramenta de tratamento (no total a base possui aproximadamente
150.000 registros). Foram utilizadas duas ferramentas. A primeira é o
DataSetting®, ferramenta para o tratamento e qualificação dos dados cadastrais,
incluindo todas as etapas de higienização, padronização e validação dos dados,
desenvolvida pela System Marketing, consultoria em banco de dados para
marketing direto.
A Figura 1, a seguir, apresenta a visão da ferramenta em sua quinta
versão. Nessa tela é feito o upload do arquivo a ser carregado para o tratamento,
caso seja uma planilha do Excel, é possível escolher a aba que será tratada, por
padrão a primeira aba é selecionada. Indicando o tipo de pessoa, ou seja, a quem
os dados pertencem uma pessoa física, jurídica ou os dois, a ferramenta lista as
opções para cada tipo. No campo Empresa/Contato são listadas todas as
empresas que se tem contato, abaixo se encontra o layout, isto é, tratamentos
que se repetem são salvos e em uma próxima utilização não é necessário realizar
12
002068
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
o mapeamento dos dados. Por último, o e-mail, é o endereço em que o resultado
do tratamento, bem como, o relatório será enviado.
Figura 1 - DATASETTING®, versão 5
Fonte: (ZIPCODE, 2011)
A segunda ferramenta é o SQL Server® 2008 Integration Services (SSIS),
da Microsoft®, empresa norte-americana de tecnologia e informática. O SSIS
permite o desenvolvimento de soluções de integração de dados, incluindo a
extração, transformação de carregamento (ETL) de dados para base de dados. O
valor do SSIS varia porque ele não é vendido separadamente, na verdade ele
acompanha o SQL Server® 2008 a partir da versão standard, a utilizada no
estudo de caso, segundo C0D1X Infra (2011) o preço a vista dessa versão é de
R$ 6.558,40. Nesse estudo, o SSIS destina-se as inclusões de registros no banco
de dados após o tratamento por meio do DataSetting®.
Figura 2 - SQL Server 2008 Integration Services®
13
002069
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
Fonte: (OS AUTORES, 2011).
Na Figura 2 é exibido o painel inicial para o desenvolvimento e
gerenciamento de pacotes. No SSIS, o pacote é um grupo composto por
conexões, elementos de fluxo de controle, de dados, manipuladores de eventos,
variáveis e outras configurações que são agrupadas usando as ferramentas de
design gráfico do SSIS. Para criar um pacote são utilizados componentes
denominados task, na figura 21 há um exemplo, Data Flow Task, neste caso, o
task apresentado pode realizar duas funções: ele importa dados para o banco de
dados, como pode extrair esses dados para um arquivo. A adesão das
ferramentas descritas se deve principalmente ao fato da disponibilidade de
acesso pela empresa. Outros motivos também justificam a escolha do
DataSetting® e SSIS como o conhecimento e experiência no manuseio de ambas
as ferramentas por parte dos pesquisadores.
4.1 Base de dados
Os dados utilizados por esta pesquisa compreendem um cadastro de
clientes de uma empresa gestora de grandes marcas do ramo da moda
internacional no Brasil, denominada Confecção X. Os atributos do cadastro como
nome, CPF e entre outros são fictícios a fim de se manter o anonimato e a
segurança dos indivíduos efetivamente cadastrados. O cadastro é realizado por
um funcionário no ato da compra, em uma das lojas gerenciadas pela Confecção
X. O sistema utilizado para o cadastro não possui nenhum critério quanto à
obrigatoriedade de dados nem impede a entrada inválida dos mesmos, ou seja, o
aplicativo permite o armazenamento de números de telefones com apenas 5
dígitos, por exemplo. Os dados obtidos são importantes para o relacionamento
com os clientes da Confecção X. Pelo cadastro a empresa pode conhecer melhor
seu cliente e direcionar suas ações de marketing para um melhor resultado em
nas vendas. A amostra do cadastro analisada possui cerca de 13.400 registros
com cinco diferentes atributos, como disposto na Tabela 1:
Tabela 1- Campos do cadastro de clientes
Atributo
Exemplo
Tipo
Descrição
Utilização pela
Confecção X
14
002070
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
CPF
165.851.968-05
Numérico
Cadastro de pessoa
física perante a
Receita Federal
Código do Cliente
Nome pelo qual todas
as ações de marketing
serão direcionadas
Telefone pelo qual as
TELEFONE
Telefone referente ao
3432-3221
Numérico
ações de telemarketing
RESIDENCIAL
cliente
serão direcionadas
E-mail pelo qual todas
E-mail referente ao
as ações de e-mail
E-MAIL
[email protected]
Texto
cliente
marketing serão
direcionadas
Endereço pelo qual
Endereço referente todas as ações de mala
ENDEREÇO
R PADRE, 234
Texto
ao cliente
direta serão
direcionadas
Fonte: (OS AUTORES, 2011)
NOME
MICHELLE DIAS
Texto
Nome referente ao
cliente
A Tabela 1 apresenta os campos do cadastro de um cliente da Confecção
X, uma amostra de como é seu formato, tipo, descrição e como se dá seu
manuseio pela Confecção X. É importante frisar que o sistema de cadastro
utilizado, não dá suporte ao que se refere à digitação, ele permite caracteres
especiais e em campos texto, números, por isso os dados extraídos estão no
formato como exemplificados na Tabela.
A seguir, serão apresentados os problemas relacionados a cada campo do
cadastro de clientes.
4.1.1 CPF
Para a Confecção X, o CPF serve como um identificador de seus clientes,
além disso, permite a identificação de fraudadores quando esse validado. O maior
problema quanto ao CPF está justamente na falta de uma validação quanto seus
dígitos.
Figura 3 - Ocorrência com o atributo CPF
O-Nome
O-CPF
CLAUDIO LUIS FRANCA
111.111.111-11
JISLENE TAVARES
000.000.000-00
Fonte: (OS AUTORES, 2011)
A Figura 3 retrata a situação do campo CPF. Os exemplos mostrados são
claramente inválidos e, portanto, não devem ser armazenados no banco de
dados. Essa ocorrência é chamada de “CPF viciado”, ou seja, para completar o
campo CPF o funcionário acabou por inserir um número repetido 11 vezes.
4.1.2 Nome
O campo nome possui a presença e caracteres inválidos como acento,
barra, falta de padronização quanto às letras, além da presença de dois nomes
diferentes em uma mesma linha de registro. Essa última ocorrência dificulta a
validação do registro, pois, não se sabe a que nome os demais itens preenchidos
do cadastro pertencem.
15
002071
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
Figura 4 - Ocorrência com o atributo NOME
O-Nome
FRED RENET/ DAPHNE DE OLIVEIRA
patricia moreira ferreira
JOÃO GOM,ES
Fonte: (OS AUTORES, 2011)
Ter nomes com problemas de acentuação, padronização e diferentes
atributos em um mesmo campo, conforme a Figura 4 prejudica a impressão da
mala direta enviada pela Confecção X, além de causar insatisfação do cliente ao
receber uma correspondência com seu nome em minúsculo ou com acentos no
meio.
4.1.3 Telefone residencial
Os telefones da base cadastral possuem problemas quanto a caracteres
como traço dividindo os 4 primeiros e os 4 últimos dígitos, a falta desses mesmos
8 dígitos para alguns registros e ausência de DDD.
Figura 5 - Ocorrência com o atributo TELEFONE
O-DDD do Telefone
Residencial
12
21
O-Telefone Residencial
3322-7789
4553-7890
209-9824
Fonte: (OS AUTORES, 2011)
A Figura 5 é uma amostra dos problemas com telefones. Sem um telefone
conciso e válido a empresa não pode divulgar promoções e novas coleções para
seus clientes pelo telemarketing.
4.1.4 E-mail
A maioria das ações de marketing da Confecção X acontecem por e-mail.
Portanto é necessária uma atenção especial a esse campo, o que não é expresso
ao se analisar a base.
Figura 6 - Ocorrência com o E-MAIL
Fonte: (OS AUTORES, 2011)
As ocorrências com o campo e-mail normalmente são devido à entrada de
caracteres indevidos ou ainda a falta deles. Na Figura 6 é possível verificar uma
amostra da situação dos e-mails cadastrados. Há casos em que acentos estão no
16
002072
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
e-mail e outros em que falta caracteres para completar a estrutura de um
endereço de e-mail, no caso, o .com.
4.1.5 Endereço
Assim como o atributo e-mail, a Confecção X utiliza o endereço de seus
clientes para divulgação de campanhas através de cartas. Para que esse
procedimento ocorra sem problemas é necessária uma correta validação frente à
base do DNE dos endereços cadastrados, além da padronização quanto letras
maiúsculas em minúsculas e ao CEP, para os 8 dígitos.
Figura 7 - Ocorrência com o ENDEREÇO
Fonte: (OS AUTORES, 2011)
Os problemas com endereço variam, desde a falta de padronização
conforme Figura 7 no campo O-Cidade residencial, onde a cidade de São Paulo
aparece grafada de duas maneiras diferentes, assim como as diversas maneiras
para o tipo de logradouro (“R”,”Rua”) até a inserção de caracteres especiais nos
campos (dois pontos, traço, vírgula).
4.2 Aplicação das técnicas de higienização
Como primeira ação, os dados da base cadastral passaram pelo
DataSetting®. Essa ferramenta trata os dados em 4 etapas: primeiro são retirados
os caracteres especiais como asterisco, ponto de exclamação, interrogação, em
seguida os dados são padronizados de acordo com o que foi programado. Após a
padronização, ocorre o processo de correção das informações e validações.
Validados os campos por meio de códigos fonéticos o sexo e tipo de pessoa física
ou jurídica são adicionados à base.
As técnicas foram aplicadas em cada campo da base de dados e os
resultados obtidos são apresentados a seguir. Após o tratamento o cadastro será
inserido no banco de dados da Confecção X pela ferramenta SSIS.
4.2.1 CPF
Para o CPF, a ferramenta aplica primeiramente um processo que retira
caracteres não numéricos do campo como letras, traço e entre outros. Com o
campo CPF totalmente numérico a validação do dígito verificador torna-se
possível. É realizado então o cálculo sobre os demais dígitos do CPF a fim de
validá-lo.
Figura 8 - Resultado do tratamento de CPF
Fonte: (OS AUTORES, 2011)
Na Figura 8, é possível verificar o funcionamento da técnica de caracteres
especiais, tornando o campo CPF numérico e resultado do cálculo do dígito
verificador que identificou para esse caso que número de CPF 165.851.961-02 é
17
002073
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
válido. Na base analisada, somente 0,07% dos CPF foram invalidados pelo
cálculo do dígito verificador feito pela ferramenta em outros casos em que o
resultado foi o mesmo apenas realizando esse cálculo foi possível considerá-lo
como inválido.
4.2.2 Nome
No campo Nome, a ferramenta inicia o processo com a retirada dos
espaços em branco assim como caracteres especiais, em seguida ocorre o
parsing, a separação do nome primeiro nome, segundo nome e último nome.
Além da divisão dos nomes, são atribuídas informações de sexo, a partir do
primeiro nome e de tipo de pessoa, física ou jurídica, através de um dicionário de
palavras como SA, LTDA entre outros.
Figura 9 - Resultado do tratamento de Nome
Fonte: (OS AUTORES, 2011)
A Figura 9 apresenta um exemplo de tratamento e inclusão de tipo de
pessoa e sexo. Quanto ao tipo de pessoa, a partir do nome tratado com o
cruzamento de uma tabela é indicado o tipo. Para casos em que o nome
impossibilita a identificação de um individuo feminino ou masculino é atribuído à
pessoa o sexo indefinido (I).
Após o tratamento do nome, o resultado obtido foi:
• 89,93% dos nomes apresentados são válidos ou seja não existem palavrões
ou outras palavras não pertinentes ao nome, assim como esses nomes estão
completos, ou seja, possui nome e pelo menos um nome do meio.
• 8,49% dos nomes foram corrigidos, ou seja, caracteres especiais foram
retirados.
• 1,59% dos nomes são inválidos, nomes incompletos estão contidos nesse
percentual.
4.2.3 Telefone
Para o campo telefone, a ferramenta retira caracteres não numéricos como
traço que separam os 4 primeiros e 4 últimos dígitos do telefone. Essa
transformação facilita a comparação desses telefones com um dicionário de
telefones e DDD.
Figura 10 - Resultado do tratamento de Telefone
O-DDD do Telefone
Residencial
O-Telefone
Residencial
TTTTelefone.Log
Telefone.DDD Telefone.Número Traduzido
3322-7789
11
3322-7789
Corrigido
12
3812-7790
12
3812-7790
Válido
21
209-9824
21
Fonte: (OS AUTORES, 2011)
209-9824
Inválido
18
002074
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
Após a limpeza de caracteres indevidos no campo de telefone pode-se
corrigir os DDD e telefone que estavam faltando dígitos, conforme a Figura 10. O
resultado do tratamento é expresso em detalhes abaixo:
• 68,26% dos telefones são válidos, portanto, possuem DDD e o telefone tem 8
dígitos.
• 0,03% dos telefones foram corrigidos, ou seja, DDD foram atribuídos a partir
da cidade do cliente, telefones foram completados depois do cruzamento com
um dicionário de dados.
• 31,71% dos telefones estão inválidos, ou por conter somente um DDD sem
número de telefone ou o inverso.
4.2.4 E-mail
A validação do campo e-mail é feita após a retirada de caracteres não
pertinente a e-mails, como exclamação, porcentagem entre outros. Com o campo
tratado, o e-mail passa por uma verificação quanto sua sintaxe, ou seja, se atende
ao padrão login@domínio.atividade.país.
Figura 11 - Resultado do tratamento de E-mail
O-E-mail
Iviz_pirajó@hotmail.com
T-Email.Email
[email protected]
[email protected]
[email protected]
Fonte: (OS AUTORES, 2011)
T-Email.Log
Traduzido
Corrigido
Corrigido
A Figura 11 apresenta o resultado do tratamento aplicado ao campo e-mail.
Acentuação e caracteres especiais e espaços inválidos foram retirados, assim
nesses exemplos foi atribuído o tipo Corrigido pela ferramenta a partir de sua
comparação com a estrutura de um e-mail e uma tabela de caracteres permitidos.
O resultado do tratamento de e-mails indica que apenas 8,69% dos e-mails
são válidos, ou seja, respeitam um padrão de estrutura e composição. Os
corrigidos somam apenas 0,04% registros de uma base composta por 13.411,
para os inválidos a porcentagem é de 91,28% o que indica a completa
desorganização do campo de tal maneira que impossibilita a limpeza e o
reconhecimento de um e-mail após esse processo, por parte da ferramenta.
4.2.5 Endereço
A primeira técnica aplicada pela ferramenta sobre os campos que
compõem o endereço, tipo do logradouro, logradouro, número, complemento,
bairro, cidade, estado e CEP é a retirada de caracteres inválidos como pontos e
dois pontos, números em um campo alfabético e vice-versa.
Assim como ocorre com o campo Nome, o parsing é utilizado para a
separação do endereço em tipo de logradouro, logradouro e número,
complemento, bairro, cidade, UF e CEP. Os dados então passam por uma
validação junto ao DNE para a geração de um match code que possibilite a
comparação e correção de acordo com a padronização estabelecida pelo
Correios.
Por meio do match code a ferramenta corrigiu 15,28% dos dados que
tinham algum problema quando confrontados com o DNE. Quanto aos inválidos,
14,98%, os problemas de digitação entre outros impossibilitaram a identificação
19
002075
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
desse registro para a ferramenta, que classificou 9.553 registros como válidos
quanto a sua estrutura e padrão em relação aos Correios. A padronização
segundo o DNE dos Correios permite a base de dados estar de acordo com o
sistema de envio postal do Brasil.
O tratamento pela ferramenta DataSetting® possibilitou classificar os
campos quanto ao seu nível de problema a partir do número de correções
efetuadas, assim o campo mais problemático, com menor número de corrigidos é
o telefone com 0,03%, a ferramenta não atribuiu a todos os casos os DDD e
telefones faltante, ao contrário do que aconteceu com o nome corrigido 8,49%.
A partir da base tratada, inicia-se a inserção no banco de dados através da
ferramenta ETL, SQL Server® 2008 Integration Services. O pacote criado para o
carregamento de dados após o tratamento e validação dos dados pelo
DataSetting. Entretanto ambas as ferramentas possuem limitações. No caso do
DataSetting® a ferramenta não marca, nem exclui dados repetidos, esse
procedimento é importante para a qualidade de dados pois garante a consistência
dos dados e para a redução de custos quando elimina as ações de marketing
repetidas para um mesmo individuo. Em caráter experimental, a deduplicação foi
realizada pelo Excel, e como resultado, 12 registros dos 13.411 estavam
duplicados no cadastro. Já o SSIS, tem problemas quanto a sua integração com a
ferramenta de tratamento, ou seja, para esse estudo foi necessário duas etapas,
primeiro a higienização e depois o ETL, isso aumenta o tempo para a qualificação
além dos gastos com duas ferramentas.
4.3 Impactos econômicos
Em relação ao aspecto econômico a principal vantagem em relação ao
tratamento de dados vem da redução de custos com uma abordagem inválida ou
fora do público-alvo por meio do e-mail marketing, mala direta e telemarketing. No
caso da Confecção X, os custos para e-mail marketing, com giram em torno de
R$0,25 por e-mail, registro. Para a mala direta o custo fica em R$0,56 por
correspondência e R$0,72 por ligação de telemarketing. Os valores apresentados
foram extraídos de uma planilha de custos e benefícios disponibilizadas pela
ZipCode, empresas especializada em dados para marketing direto. Os custos
incluem envio, arte, custo de ligação com impostos e envelope para a mala direta.
Tabela 2- Custo Total com o Marketing da Base
Ação
Custo Total (R$)
Malas Diretas
7.577
Ligações
9.656
E-Mail Marketing
3.353
Fonte: (ZIPCODE, 2011, adaptada pelos autores)
A Tabela 2 apresenta os gastos totais de cada ação de marketing realizada
pela empresa Confecção X antes do tratamento dos dados, ou seja, a base do
cálculo está sobre toda a base cadastral, de cerca de 13.400 registros. Em um
20
002076
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
rápido olhar sobre a Tabela 2, fica claro uma das justificativas da Confecção X ter
optado pelo e-mail marketing como principal ação de fortalecimento da marca, por
seu menor custo e rapidez de atingir o cliente.
Tabela 3 - Custo Médio Anual
Ação
Volume de Contato/ Ano
(em média)
Despesas Anuais (R$)
E-Mail Marketing
12
40.233
4
3
Fonte: (ZIPCODE, adaptada pelas autores)
30.309
28.968
Mala Direta
Ligações
O custo médio anual, exposto na Tabela 3, calcula a partir de uma média
de contatos por ano que as organizações fazem contato com o cliente através de
determinado meio de comunicação e as despesas anuais da Confecção X com
cada mídia. Devido sua maior veiculação, o ano inteiro, o e-mail marketing que na
tabela 3 aparecia com o menor custo, em relação à Tabela 3 é o de maior valor,
contudo, dada a frequência de sua utilização o valor para o e-mail marketing
acaba por ser mais vantajoso. Enquanto seu volume é feito durante os 12 meses
do ano, as ligações, por exemplo, em apenas 3 meses chegam a R$ 28.968,00,
uma diferença de cerca de R$ 11.000.
Tabela 4 - Perda Anual pela Má Qualidade de Dados
Ação
Taxa de Retorno por
Inconsistência Cadastral
Perda Anual (R$)
E-Mail Marketing
25%
10.058
Mala Direta
16%
4.849
Ligações
12%
3.476
TOTAL
18.384
Fonte: (ZipCode, adaptada pelos autores)
A Tabela 4 fornece uma visão geral sobre as perdas da empresa quando
essa não aplica um tratamento adequado sobre seus dados. Para o e-mail
marketing, 25% dos e-mails estão incorretos e, portanto não enviados, isso
porque os e-mails possuem algum erro seja na sua estrutura ou na coleta desse
dado , na mala direta, 16% das correspondências não são entregues devido a
erros quanto a nome de ruas, CEP, cidades ou por não respeitar o padrão
vigente, o dos Correios. As ligações incorretas no call center chegam a 12%,
nessa porcentagem está incluso o número e as ligações para pessoas erradas.
Tabela 5 - Perda Anual pela Má Qualidade de Dados após Projeto de Tratamento
de Dados
Ação
Taxa de Retorno por Inconsistência
Cadastral Após o Projeto de Tratamento
de Dados
Perda
Anual (R$)
21
002077
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
E-Mail Marketing
10%
4.023
Mala Direta
4%
1.212
Telemarketing
8%
2.317
TOTAL
Fonte (ZIPCODE, 2011, adaptada pelos autores)
7.553
Os resultados econômicos obtidos com o tratamento dos dados frente às
ações de marketing são expostos na Tabela 5. A higienização permitiu a
Confecção X principalmente à eliminação de comunicações devolvidas devido a
erros em e-mails, correspondências e telefonemas. Os dados tratados e validados
permitem a empresa direcionar suas campanhas com maior confiança e menor
economia, em números essa comparação de antes da higienização e depois, na
Tabela 6.
Tabela 6 - Comparativo Econômico quanto a Higienização
Antes de Higienização
Depois da Higienização
Perdas Totais R$
41.558
19.140
Economia R$
22.418
Fonte: (ZIPCODE, 2011, adaptada pelos autores)
O comparativo da Tabela 6 revela que a economia feita pela Confecção X
pode chegar a R$ 22.418,00 em relação a apenas 13.411 registros. Os gastos
com o tratamento dos dados, implantação desses no banco de dados e retorno
para a Confecção X dos registros limpos e validados tem valor médio de R$ 0,28
por registro, segundo preços fornecidos por Egea (2011) e DbDireto (2011). O
tempo médio para a realização de todo o procedimento, desde a recepção dos
dados cadastrais, a higienização por parte do DataSetting®, a inserção no banco
de dados de clientes com SQL Server® 2008 Integration Services e o retorno para
a Confecção X dos dados, higienizados para a execução das ações de marketing,
ficou em 1 hora e 35 minutos.
Assim o total para a base disponibilizada pela Confecção X para esse
estudo de caso, é de R$ 3.755,08, calculado a partir dos 13.411 registros. A
economia feita com a adoção da higienização cobre o valor do saneamento em
cerca de 6 vezes, ou seja, o custo benefício obtido é alto e não só pelo fator
econômico mas em relação a todas as melhorias aplicáveis como a redução das
inconsistências das informações e eliminação do envio errôneo de ações de
marketing.
5. CONSIDERAÇÕES FINAIS
Após a aplicação das ferramentas DataSetting® para a qualificação da
base de dados cadastrais efetuando a padronização e validação dos dados e SQL
Server® 2008 Integration Services com a finalidade de incluir registros no banco
de dados através do processo ETL, foi possível atingir os objetivos propostos. O
primeiro de identificar os problemas da base de dados e outro de selecionar as
técnicas aplicáveis a cada campo sugeridas pela literatura e aplicar e analisar as
melhorias quanto à higienização dos dados com base em um cadastro de
clientes. A questão “quais seriam as possíveis melhorias na qualidade de dados
resultantes do tratamento de dados em conjunto com um processo de carga na
22
002078
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
base de dados por intermédio da ferramenta ETL (Extract, Transform and
Load)”?, foi respondida mostrando os benefícios qualitativos, além dos
econômicos obtidos pela Confecção X com a adoção da limpeza de seus
cadastros para suas ações de marketing.
Quanto às implicações gerenciais, a partir dos problemas encontrados a
Confecção X deve rever quatro pontos. O primeiro, quanto ao sistema de cadastro
muito simples, sem regras de consistência de entrada de dados, deve-se adotar
um novo sistema que possua essas regras ou então adaptar o vigente, embora, a
empresa esteja relutando em fazer essa alteração há bastante tempo. O segundo,
em relação aos usuários e seu treinamento quanto à atenção nos dados inseridos
e à abordagem para que o cliente se sinta confortável o suficiente no
preenchimento das informações indica que esse aspecto deve ser remediado com
a capacitação dos funcionários para o atendimento. O terceiro, caso de algum
dado da pessoa estar incompleto, porém, ainda sim há alguma informação na
base de dados como e-mail, por exemplo, deve-se incentivar o indivíduo a
completar seus dados ou até corrigi-los se for o caso, no exemplo do e-mail,
pode-se enviar uma proposta de descontos para a pessoa completar o cadastro
através de um site. O último faz alusão aos erros de digitação por parte do
funcionário, e indica-se a adoção de um sistema de cadastro on-line para que os
clientes insiram os seus dados evitando então possíveis erros.
Como trabalhos futuros sugerem-se a realização de um estudo sobre os
benefícios da aplicação de metodologias de melhoria contínua da qualidade de
dados. Essas metodologias são fundamentadas não somente no tratamento dos
dados, mas nas definições de processos de qualidade, mensuração da qualidade,
análise e identificação do problema e as razões das inconsistências. A aplicação
poderia ser em uma empresa de qualquer porte, que não tenha nenhum plano de
controle de qualidade sobre seus dados e apresente problemas em gerenciar a
qualidade sobre seus dados, assim a comparação de antes e depois da
metodologia posta em prática seria mais visível.
Apesar dos objetivos estabelecidos inicialmente terem sido atingidos,
devido às restrições do volume da base e o tipo de pessoa, no caso física,
impediu a aplicação de outras técnicas, como a identificação de matriz e filial para
pessoa jurídica entre outras, assim como a funcionalidade da ferramenta de
tratamento usada que não permitiu a retirada de registros duplicados na base de
dados devido a essa função não ter sido integrada para dar preferência a outras
funcionalidades na aquisição do DataSetting®, afetando a consistência da base e
os gastos com as ações de marketing repetidas a uma mesma pessoa.
Por fim, destaca-se que a partir deste estudo, ficou evidente a importância
das técnicas demonstradas já que há inúmeros dados incorretos na base para
todos os campos desde o e-mail que apresenta muitos problemas quanto a sua
estrutura até o CPF com menor índice de invalidação. Além dos benefícios
alcançados pelas empresas ao qualificar seus dados, com a aplicação do
tratamento de dados em conjunto com a ferramenta ETL, pode-se criar uma visão
única dos clientes e inserir no banco de dados, dados concisos e além da
economia estimada de R$ 22.418,00 em processos de marketing.
REFERÊNCIAS
23
002079
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
AGUIAR, G. M. Por que utilizar uma ferramenta ETL?. 2010. Disponível em: <
http://gustavomaiaaguiar.wordpress.com/2010/05/10/por-que-utilizar-umaferramenta-de-etl/>. Acesso em 16 out. 2011 ás 20:12.
BATINI, C.; SCANNAPIECA, M. Data Quality: Concepts, Methodologies and
Techniques. Berlim: Springer, 2006.
BEUREN, I. M. Gerenciamento da informação: um recurso estratégico no
processo de gestão empresarial. 2. ed. São Paulo: Atlas. 2000.
CASANOVA, M. A. Capítulo 1. Conceitos. 2001. Disponível em:
<http://www.inf.puc-rio.br/~casanova/LivroCasanova/ncap1.pdf> Acesso em 02
out. 2011.
DAVENPORT, T. H., PRUSAK, L. Conhecimento empresarial. Rio de Janeiro:
Campus, 1998.
DBDIRETO. Higienização de Banco de Dados, 2011. Disponível em: <
dbdireto.com.br/Higienizacao-de-dados.html>. Acesso em 16 out. 2011 ás 19:45.
DRESCHER, S. Inteligência O que você sabe sobre seus dados?.2004.
VendaMais.
Disponível
em:
<http://www.vendamais.com.br/php/materia.php?id=36070> Acesso em: 24 set.
2011 ás 10h21min.
ECKERSON, W. W. Data Quality and The Botttom Line: Achieving Business
Success through a Commitment to High Quality Data. The Data Warehousing
Institute
Report
Series,
USA:
2003.
Disponível
em:
<http://download.101com.com/pub/tdwi/Files/DQReport.pdf>. Acesso em: 07 Jul.
2011 ás 18:19.
ECKERSON, W. W, WHITE ,Colin. Evaluating ETL and Data Integration
Platforms. The Data Warehousing Institute Report Series, USA.: 2002
Disponível em<: www.evolve.mb.ca/dw/etlreport.pdf>. Acesso em: 12 Ago 2011
ás 17:55.
EGEA. Listas Segmentadas. Disponível em: <http://egea-mkt.com.br/listassegmentadas.html>. Acesso em 01 nov. 2011 ás 23:19.
ELMASRI, R.; NAVATHE, S. B. Sistema de Banco de Dados. São Paulo: Pearson
Addison Wesley, 2005.
FERREIRA, J. et al., O Processo ETL em Sistemas Data Warehouse. 2010.
Disponível
em:
<
http://inforum.org.pt/INForum2010/papers/sistemasinteligentes/Paper080.pdf>. Acesso em: 16 out. 2011 ás 18:23.
GARRISON, R. H. Managerial accounting: concepts for planning, control, decision
making. 5 ed., Homewood, Illinois: Irwin, 2006, p.2. In OLIVEIRA, Jayr Figuereido
24
002080
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
de. Sistemas de Informação versus Tecnologias da Informação: um Impasse
Empresarial. São Paulo: Érica, 2004.
GEREMIA, J. Tutorial de Introdução a Banco de Dados. 2010. Disponível em:
<http://www.telecom.uff.br/pet/petws/downloads/tutoriais/db/Tut_DB.pdf> Acesso
em: 04 out. 2011 ás 23:41.
IBL – Informática Brasileira LTDA. Conceito – Extração, Transformação e Carga.
2003.
Disponível
em:
<
http://www.infobras.com.br/portugues/produtos_conceito_etl.asp>. Acesso em 16
out. 2011 ás 20:21.
LAKATOS, E. M.; MARCONI, M. A. Metodologia científica. São Paulo: Atlas,
2001.
LAUDON, K. C.; LAUDON, J. P. Sistemas de informação gerenciais. 7. ed. São
Paulo: Pearson Pretince Hall, 2007.
LIMA, C. A. L. ETL – Extração, Transformação e Carga de Dados. 2010.
Disponível
em:
<
http://litolima.wordpress.com/2010/01/13/etl-extracaotransformacao-e-carga-de-dados/>. Acesso em 16 out. 2011 ás 19:44.
MCGILVRAY, D. A Importância na Gestão de Qualidade da Informação para o
seu Negócio: ZipCode, São Paulo. Entrevista concedida a ZipCode.
Disponível
em:
<http://www.zipcode.com.br/fique-pordentro/entrevistas/entrevista_danette_qualidade_da_informacao_dos_dados.html
> Acesso em: 19 Ago. 2011 ás 17:22.
MCGEE, J. V.; PRUSAK, L. Gerenciamento Estratégico da Informação. 10. ed.
Rio de Janeiro: Campus. Ernest & Young. Série Gerenciamento da Informação.
1994.
NAUMANN, F.; HERSCHEL M. An Introduction to Duplicate Detection. Morgan &
Claypool, 2010.
NGUYEN, T. The Value of ETL and Data Quality.2008. Disponível em: <
www2.sas.com/proceedings/sugi28/161-28.pdf >. Acesso em: 24 set. 2011 ás
12h21min.
NUNES, P. Conceito de Structured Query Language (SQL). 2007. Disponível em:
<http://www.knoow.net/ciencinformtelec/informatica/structquerylang.htm>. Acesso
em: 04 out. 2011 ás 18:11.
OLIVEIRA, J. F. Sistemas de Informação versus Tecnologias da Informação: um
Impasse Empresarial. São Paulo: Érica, 2004.
RAHM, E.; DO, H. H. Data Cleaning: Problems and Current Approaches. 2009.
Disponível
em:
<
http://wwwiti.cs.unimagdeburg.de/iti_db/lehre/dw/paper/data_cleaning.pdf>Acesso em: 20 set. 2011.
25
002081
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
9° CONTECSI - International Conference on Information Systems and Technology Management
Cover / Capa
Authors / Autores
Topics / Áreas
Papers / Trabalhos
Committees / Comitês
Sponsors / Patrocinadores
Conference Overview / Panorama do Congresso
ROESCH, S. M. A. Projetos de Estágio do Curso de Administração. São Paulo:
Atlas, 1996.
SAWAYA, M. R. Dicionário de Informática e Internet: Inglês/Português, São
Paulo,Nobel, 1999.
SEVERINO, A. J. Metodologia do trabalho científico. 23ª edição. São Paulo:
Cortez, 2007.
SPÍNOLA, R. Trabalhando com condições e operadores em consultas SQL. SQL
Magazine, Grajaú, n. 90, p. 6-7, ano 8 (2011).
STRONG, D. M.; LEE, Y. W.; WANG, R. Y. Data quality
context. Communications of the ACM, v. 40, n. 5, p. 103-110, May 1997b. In
in
TAVARES, R. S. Bancos de Dados Qualificados Podem Reduzir Perdas e
Aumentar os Ganhos em CRM. 2003. Monografia (MBA) – Pontifícia Universidade
Católica de São Paulo, São Paulo, 2003.
TURBAN, Efraim; RAINER, R; Kelly Jr; POTTER, Richard E. Introdução a
Sistemas de Informação. Rio de Janeiro: Elsevier, 2007.
TURBAN, E; RAINER, R. K. Jr; POTTER, R. E. Introdução a Sistemas de
Informação. Rio de Janeiro: Elsevier, 2007.
TURBAN, E; MCLEAN, E; WETHERBE, J. Tecnologia da informação para gestão.
Transformado os negócios da economia digital. 3a Edição. Porto Alegre.
Bookman, 2004.
VALENTIM, M. L. P. Inteligência Competitiva em Organizações: dado, informação
e conhecimento.2002. DataGramaZero - Revista de Ciência da Informação .
Disponível em: < http://www.dgz.org.br/ago02/Art_02.htm> Acesso em: 24 set.
2011 ás 09h12min.
VASCONCELOS, F. C.; CYRINO, A. B. (2000) - Vantagem competitiva: os
modelos teóricos atuais e a convergência entre a estratégia e a teoria
organizacional. RAE – Revista de Administração de Empresas. V. 40, n. 4, p. 2037.
ZIPCODE. Tratamento e Atualização de Dados. 2011. Disponível em: <
http://www.zipcode.com.br/servicos/perguntasfrequentes_tratamento.html>.
Acessado em 16 out. 2011 ás 19h05min.
26
002082
TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br
Download