9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso PS-555 DATA PROCESSING USING A CHARGING PROCESS IN THE DATABASE BASED ON ETL TOOL (EXTRACT, TRANSFORM AND LOAD) Larissa Clemente de Oliveira (Centro Paula Souza / Fatec ZL – São Paulo – Brasil) - [email protected] Paulo Cristiano de Oliveira (Universidade Federal de Santa Catarina - UFSC – Santa Catarina – Brasil) - [email protected] José Abel de Andrade Baptista (Centro Paula Souza / Fatec ZL – São Paulo – Brasil) - [email protected] Marcelo Rabelo Henrique (Unicastelo – São Paulo – Brasil) [email protected] Colaborador: Paulo Ramirez (Centro Paula Souza / Fatec ZL – São Paulo – Brasil) - [email protected] The quantity of data stored grows exponentially in organizations. On the other hand, there are few companies that monitors efficiently the cycle of data, which can cause losses and wrong decisions. Thus, there is a need to develop strategies to qualify the data, which can be obtained from the application of techniques of cleaning, prior to its inclusion in the database. The objective of this experimental research is to analyze possible improvements resulting from the application of data quality through data processing, in a process load on the database, through the ETL tool (Extract, Transform and Load). The study was conducted using a sample of 13,400 records and five fields of a customer base of brand Management Company of the international fashion industry in Brazil. The results showed benefits in terms of presentation of the data coming from the standardization of records. In addition to qualitative benefits, you can also measure the quantitative benefits related to the economy of financial resources from the techniques for the treatment of the data used. Keywords: Data, Cleaning, Database, ETL, Quality. 1 002057 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Tratamento de dados em conjunto com um processo de carga na base de dados por intermédio da ferramenta ETL (Extract, Transform and Load) Resumo A quantidade de dados armazenados nas organizações cresce exponencialmente. Por outro lado, são poucas as empresas que monitoram, de forma eficiente, o seu ciclo de dados, o que pode causar prejuízos monetários e decisões equivocadas. Dessa forma, há a necessidade de elaboração de estratégias para qualificar os dados, que podem ser obtidas a partir da aplicação de técnicas de higienização, antes de sua inserção no banco de dados. O objetivo dessa pesquisa, de natureza experimental, é analisar as possíveis melhorias resultantes da aplicação da qualidade de dados, por meio do tratamento de dados, em um processo de carga no banco de dados, por intermédio da ferramenta ETL (Extract, Transform and Load). O estudo foi realizado utilizando uma mostra de 13.400 registros e cinco campos do cadastro de clientes de uma empresa gestora de marcas do ramo da moda internacional no Brasil. Os resultados apontaram benefícios quanto à apresentação dos dados advinda da padronização dos registros. Além dos benefícios qualitativos, pode-se também aferir benefícios quantitativos relacionados à economia de recursos financeiros a partir das técnicas para o tratamento dos dados utilizadas. Palavras-chaves: Dados, Higienização, Banco de Dados, ETL, Qualidade. 1. INTRODUÇÃO De acordo com Turban, Rainer e Potter (2007) somente no ano de 2006 foi gerado o equivalente digital a dez trilhões de livros de dados. Esses dados são fruto das mais variadas fontes: transações de cartões de crédito, mensagens telefônicas, catálogos de endereços entre outros. Devido a essa grande quantidade de informações, gerentes e executivos têm cada vez mais dificuldade em gerenciar dados nas empresas. Além do volume, os mesmos autores citam outros fatores que dificultam o gerenciamento dos dados nas empresas como: os dados aumentam no decorrer do tempo; as empresas necessitam manter, além dos dados atuais, os antigos e há diversidade de métodos e dispositivos para a coleta dos dados. Diante desse cenário, fica clara que a má utilização da informação em razão da falta de um plano de estruturação das bases de dados pode prejudicar o desempenho da empresa. Entretanto, hoje, as organizações podem obter a qualidade em seus dados de acordo com o padrão estabelecido pelos Correios, no caso o DNE (Diretório Nacional de Endereços) e através de diversas ferramentas do mercado certificadas, como é o caso do DataSetting®. Esse software para tratamento dos dados realiza a padronização e higienização de endereços através da aplicação de técnicas de limpeza de dados. Em relação às inclusões dos dados no banco de dados a ferramenta ETL, SQL Server® 2008 Integration Services, permite um desenvolvimento mais ágil das inserções além de facilitar a manutenção das cargas diminuindo a codificação das etapas. O problema a ser respondido por essa pesquisa é “quais seriam as possíveis melhorias na qualidade de dados resultantes do tratamento de dados 2 002058 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso em conjunto com um processo de carga na base de dados por intermédio da ferramenta ETL (Extract, Transform and Load)”? O objetivo geral deste trabalho é analisar as melhorias resultantes da aplicação da qualidade de dados, por meio da aplicação de técnicas de higienização dos dados, em um processo de carga no banco de dados por intermédio da ferramenta ETL (Extract, Transform and Load). Os objetivos específicos compreendem: (1) verificar o referencial sobre a qualidade de dados, (2) identificar os problemas relativos à qualidade em uma base de dados, (3) selecionar técnicas adequadas e que podem ser utilizadas nesta base e por fim (4) aplicar as técnicas de limpeza na base de dados. A seguir é apresentada a metodologia, o referencial teórico, os resultados, as considerações finais e as referências utilizadas para elaboração da pesquisa. 2. METODOLOGIA A pesquisa apresentada por esta pesquisa possui caráter exploratório. Roesch (1996) afirma que a utilização do modo exploratório visa levantar questões e hipóteses para futuros estudos. Neste sentido, a pesquisa exploratória se mostra mais indicada e os conhecimentos gerados visam reunir elementos para futuros estudos relacionados à higienização de dados. A pesquisa foi desenvolvida usando como base o estudo bibliográfico, que se realiza a partir do registro disponível, decorrente de estudos anteriores, em documentos impressos, como livros, artigos, teses, etc. (SEVERINO, 2007, p. 122). Para a construção desse trabalho foi empregado um estudo de caso de natureza experimental, utilizando-se as ferramentas DataSetting® e SQL Server® 2008 Integration Services para o tratamento e introdução dos dados no banco de dados, respectivamente. De acordo com Lakatos e Marconi (2001), a pesquisa experimental consiste essencialmente em determinar um objeto de estudo, selecionar as variáveis capazes de influenciá-lo e definir as formas de controle e de observação dos efeitos que a variável produz no objeto. Nesse sentido, a análise dos resultados foi efetuada a partir de uma base com dados dos clientes de uma empresa da área da moda de grande porte, que controla as operações de marcas internacionais no Brasil. Por questões de confidencialidade, não foi permitida a divulgação da identidade da empresa. Os procedimentos da pesquisa serão apresentados de forma detalhada nos resultados (item 4). 3. REFERENCIAL TEÓRICO O referencial teórico versará sobre definições de dados, informação e conhecimento, tratando, em seguida, o papel da informação na empresa, banco de dados, qualidade de dados, resultando também os processos de higienização (data cleasing), recursos para otimização do processo de higienização, deduplicação de dados, match code, e, por fim, ETL (Extract, Transform and Load). 3.1 Dado, informação e conhecimento Segundo Valentim (2002), o conjunto de “dados, informações e conhecimento” é um importante fator de competitividade nos mais diferentes tipos de organizações. É por meio desse recurso que se obtém melhorias para os processos organizacionais que consequentemente aumentam a vantagem da empresa sobre suas concorrentes. Essa vantagem competitiva é explicada por 3 002059 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Vasconcelos e Cyrino (2000) como níveis de desempenho econômico acima da média de mercado em função das estratégias adotadas pela organização. Laudon e Laudon (2007) definem dados como uma lista ordenada de fatos brutos que representam eventos ocorrentes no ambiente organizacional ou físico, antes de serem organizados de forma que as pessoas possam entendê-los. Já Sawaya (1999) conceitua dado como termo que indica números, letras, símbolos ou fatos em referência à descrição de um objeto, ideia, condição, situação ou outros fatores, em relação à computação, dado aos elementos básicos processados ou produzidos pela máquina. Para Turban, Wetherbe e Mclean (2004) os dados são organizados em uma hierarquia que se inicia com os bits (menor unidade de processamento do computador) avança para bytes (agrupamento de 8 bits, representa um caractere: letra, número ou símbolo) que em conjunto formam um campo (palavras formadas a partir de um conjunto de caracteres) para então constituir logicamente um registro. O agrupamento lógico e relacionado de registros formam um arquivo para então fundar um conjunto de arquivos inter-relacionados, o banco de dados. Informação, segundo McGee e Prusak (1994) são dados coletados, organizados e ordenados de forma a ter um significado e contexto específico, cuja missão é informar. Para Beuren (2000) a informação é fundamental no apoio as estratégias e processos na tomada de decisão assim como nas operações organizacionais. O conhecimento para Davenport e Prusak (1998) é definido como uma mistura de experiências adquiridas ao longo da vida, valores, informação contextual de forma a permitir uma avaliação, agregação de novas experiências e informações. Tanto as origens como a aplicação do conhecimento estão na mente dos conhecedores. De acordo com Turban, Rainer e Potter (2007), as empresas utilizam as informações e conhecimentos provenientes de dados processados. Os gerentes então aplicam o conhecimento nos problemas e oportunidades organizacionais. A transformação de dado até o conhecimento e solução pode ser feito de várias maneiras. O processo começa com a coleta dos dados das mais diversas fontes. Em seguida ocorre o armazenamento dos dados no banco de dados. Ocorre então uma seleção dos dados selecionados que serão processados para a o formato de um data warehouse ou data mart. Os usuários podem, então, acessar esses dados do data warehouse ou data mart para uma análise. Essa análise acontece por meio de ferramentas feitas especialmente para o exame das informações que em conjunto com sistemas inteligentes ajudam os usuários a interpretá-los. 3.2 A informação na empresa Para Oliveira (2004), a informação está intimamente ligada à estratégia empresarial. Graças a informação as organizações conseguem formar estratégias mais eficazes, assim como tomar decisões que beneficiem as empresas, além de controlar o fluxo empresarial de maneira eficiente. A influência da informação no âmbito organizacional é tão predominante que toda a cultura e direcionamento da empresa podem mudar de direção devido a seu poder sob os elementos gerenciais. Garrison (2006) apud Oliveira (2004) defende que a informação funciona como o motor na organização, que move os gestores rumo ao sucesso. Para 4 002060 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso tanto é necessário um fluxo constante de informações, na falta desse processo os gestores tornam-se impotentes de desempenhar suas atividades, além desse fator é importante considerar a organização como produtora das informações, pois, muitas das informações necessárias estão contidas na própria empresa. Oliveira (2004) afirma que não basta apenas se ter a informação na organização. Essa informação precisa de valor. O valor e as decisões dessa informação são influenciados por sua qualidade. A informação é qualificada quando ela é relevante ao negócio, precisa, acessível, concisa, clara, quantificável e consistente. Organizações que não possuem informações com essas características acabam por efetuar uma gestão falha, a partir do momento que as decisões e estratégias são baseadas em informações sem qualidade. 3.3 Banco de dados Para Elmasri e Navathe (2005) um banco de dados é um conjunto de dados relacionados. Os dados são fatos e podem ser gravados e possuem significado implícito. O banco de dados apresenta as seguintes propriedades: • Representa alguns aspectos do mundo real, sendo às vezes chamados de minimundo ou de universo de discurso (UoD). As mudanças no minimundo são refletidas em um banco de dados. • É uma coleção lógica e coerente de dados com algum significado inerente. Uma organização de dados ao acaso (randômica) não pode ser interpretada como um banco de dados. • É projetado, construído e povoado por dados, atendendo uma proposta específica. Possui um grupo de usuários definido e algumas aplicações preconcebidas, de acordo com o interesse desse grupo de usuários. Segundo Turban, Rainer e Potter (2007), os sistemas de bancos de dados maximizam alguns aspectos como: • Segurança dos dados. • Integridade dos dados. • Independência dos dados. Segundo Geremia (2010), o Sistema de Gerenciamento de Banco de Dados (SGBD) é uma coleção de programas que facilita a interação entre usuários e banco de dados. O SGBD proporciona a determinação de processos no banco como definições de tipos de dados que serão armazenados, manipulação dos dados onde é possível incluir funções como uma pesquisa para recuperar um determinado dado, uma atualização no banco de dados ou exclusão de dados problemáticos ou invalidados e a geração de relatório a partir dos dados. Para Casanova (2001), o SGBD é uma ótima ferramenta sob muitos aspectos. No ponto de vista administrativo, mantem a base de dados organizada e centralizada de tal forma que todos possam compartilhar dados. Em relação ao aspecto econômico, reduz custos de comunicações, que atualmente são mais custosos que os equipamentos. Além de facilitar o crescimento modular do sistema e aumentar a confiabilidade através da replicação dos dados. Dentre os gerenciadores existentes no mercado, Turban, Rainer e Potter (2007) citam o SQL (Structure, Query Language) como o mais utilizado devido a sua linguagem próxima a dos homens. Para Nunes (2007), a primeira “versão” do SQL foi o “SEQUEL” apresentada em 1970 pela IBM a fim de atender as características das bases de dados de seus mainframes. O principal objetivo do 5 002061 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso SQL é prover a seus usuários um método fácil e ágil de acesso às bases de dados por meio de consultas, denominadas query. Segundo Spínola (2011), no ano de 1986 o American National Standard Institute (ANSI) classificou como padrão a utilização do SQL como linguagem para os bancos de dados de modelo relacional. Essa escolha se deve a forma como é uma consulta nessa linguagem. Nela é explicitada a forma que o resultado deve ter e não o caminho que deve ser feito para chegar no mesmo. 3.4 Qualidade de dados e os processos de higienização Segundo Batini e Scannapieca (2006), a origem da qualidade de dados se remete à estatística. Os estatísticos foram os primeiros estudiosos a notarem problemas em relação à qualidade de dados, propondo uma teoria matemática na década de 1960 considerando dados estatísticos duplicados. Somente 30 anos depois, na década de 1990, estudiosos de computação começaram a considerar o problema, definindo e mensurando, melhorias na qualidade em processos organizacionais de armazenamento de dados como banco de dados e data warehouses. Para McGilvray (2011), a qualidade das informações ou dados é o grau em que essas informações ou dados são confiáveis, independente da fonte em que o usuário fará sua busca. A qualidade não envolve somente esse aspecto, além disso, para essa informação ou dado ajudar a administrar e gerenciar negócios, tomar decisões eficazes, dar suporte ao cliente é necessário que as informações estejam disponíveis na hora, lugar certo e para as pessoas certas. Strong (1997) et al. apud Turban, Wetherbe e Mclean (2004) efetuaram uma pesquisa sobre os problemas em relação à qualidade de dados. Como resultado, descobriu-se que alguns problemas são técnicos e outros estão relacionados a potenciais crimes eletrônicos. Os pesquisadores então dividiram os problemas detectados em quatro categorias: • Qualidade intrínseca: dados precisos, objetivos e confiáveis. • Qualidade de acesso: dados acessíveis com segurança em seu acesso. • Qualidade de contexto: dados relevantes, importantes, com valor agregado, conveniente, na medida certa. • Qualidade de representação: dados interpretados de maneira concisa e consistente. Segundo Drescher (2004) uma má qualidade de dados significa a possibilidade da existência de informação imprecisa, incompleta, redundante e até mesmo fictícia. Os problemas acarretados incluem a diminuição da confiança do cliente, perda de oportunidade de negócio e tomadas de decisões equivocadas ocasionadas pela imprecisão e a falta de completeza dos dados. Para Eckerson (2002), o custo real de dados com má qualidade para as empresas é bem mais amplo. Além do prejuízo monetário, a empresa aliena e frustra seus clientes por tratá-los a partir de dados incorretos por não reconhecêlos como clientes em potenciais. Os dois problemas mais comuns causados pela má qualidade de dados são o tempo extra para reconciliar os dados e perda de credibilidade em um sistema. Esses problemas, segundo Eckerson (2002) estão relacionados a uma incapacidade de harmonizar os dados entre o dataware house e os sistemas de origem. Isso faz com que os usuários finais percam a confiança nos sistemas de origem dos dados, antes que cheguem ao dataware house. 6 002062 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Eckerson (2002) relata que organizações que não investem na qualidade de seus dados não podem tomar boas decisões porque não têm precisão sobre os acontecimentos dentro da empresa ou do mercado, confiando então na intuição, o que é perigoso em um mercado dinâmico com concorrentes ágeis e clientes cada vez mais exigentes. 3.5 Processos de higienização – data cleansing Para Rahm e Do (2009), o data cleansing é o processo de “limpeza” de uma base de dados. Neste procedimento são detectados e removidos erros e inconsistências dos dados, causados pelas múltiplas fontes de dados que precisam ser integradas. Isso ocorre porque as fontes, por diversas vezes, apresentam dados redundantes em diferentes formatos. Segundo Nauman e Herschel (2010), uma medida concreta para melhorar a qualidade de dados é realizar o data cleansing, para modificar diretamente os dados, corrigindo erros e inconsistências. O processo de limpeza recebe dados ou um conjunto de dados e produz como saída um agrupamento de dados limpos. Dentre os conjuntos de atividades desenvolvidas pelo data cleansing estão a análise, formato, transformação, moeda, conversões, verificações quanto a restrições de valores, deduplicação, fusão de dados entre outros. Para a realização do processo de higienização, Tavares (2003) definiu alguns exemplos de recursos: a) Parsing - Método que realiza uma varredura em determinada variável a fim de identificar ocorrências que podem ser tratadas como em um endereço a divisão entre suas partículas e colunas. b) Dígito de controle (DC) ou Check Digit - Recurso que evita erros na transcrição de número. “Dígito de Controle é o conjunto de algarismos que acompanha um dado numérico, ocorrendo em seu começo, meio ou fim, com o propósito de evitar erro de inversão ou interpretação de algarismos no dado” (COSTATO (1986) apud TAVARES (2003). Há várias maneiras de se calcular o Dígito de Controle, dentre os mais usuais estão os módulos 10 e 11. Sua realização é feita da seguinte forma: • É calculada a somatória dos produtos dos algarismos do dado por seu peso. • Calcular o resto da divisão da somatória do número por seu módulo, • Quando o resto não for nulo, calcular a diferença entre o número do módulo e resto do cálculo anterior ou pelo resto quando esse for nulo. c) Validação de CPF/CNPJ no site da Receita Federal - A Receita Federal disponibiliza a consulta pública em seu site e o Comprovante de Inscrição e de Situação Cadastral do CPF. É possível através da consulta verificar a situação de um CPF, regular, pendente ou cancelado e fazer a validação do nome, se está grafado corretamente. A consulta pode ser feita pelo site: http://www.receita.fazenda.gov.br/aplicacoes/atcta/cpf/consultapublica.asp Para CNPJ a consulta pública é chamada de Emissão de Comprovante de Inscrição e de Situação Cadastral. Como no caso do CPF é possível verificar a situação da empresa ativa, pendente ou encerrada: http://www.receita.fazenda.gov.br/pessoajuridica/cnpj/cnpjreva/cnpjreva_sol icitacao.asp 7 002063 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso d) Identificação do tipo de pessoa (física ou jurídica) - O nome é o atributo usado para identificar o tipo de pessoa. Para tanto temos duas das diversas maneiras de realizar a identificação: • Pela filial do CNPJ, diferente de zeros, quando CPF e CNPJ utilizam a mesma posição em um cadastro. • Por meio do nome e do cruzamento com tabelas de palavras ou frases reservadas a pessoas jurídicas como “LTDA”, “Limitada” entre outras. Porém é preciso tomar cuidado devido a sobrenomes como Carro ou Bar, que podem ser de pessoa física. e) Identificação do sexo - Para esse caso, em relação à pessoa jurídica atribui-se sexo como indefinido. Quando pessoa física é possível atribuir o sexo por meio de cruzamentos com uma tabela de nomes. Em casos cuja identificação não é tão simples como “Darci” é mais polida e seguro atribuir sexo, como indefinido. f) Higienização de caracteres especiais ou inválidos - O banco de dados, muitas vezes, apresenta-se com dados grafados incorretamente. Para tanto, é utilizado regras de higienização para a recuperação do campo. Entre os problemas ocasionados estão: “Ant0nio” – o numeral “0” no lugar da letra “o”; “AntonioCarlos – nomes compostos juntos; “antonio” – nome próprio com primeira letra minúscula; “AnToNiO” – nome com oscilação de letras (maiúsculas e minúsculas); Dados como esse deixam a informação NOME incorreta, além de prejudicar uma ação de cruzamento de dados e ainda prejudicar a identificação de duplicidades em uma base. g) Identificação de palavrões - A identificação e eliminação de palavrões em cadastros evita situações críticas perante o cliente e processos judiciais. Portanto, os nomes devem ser validados diante uma tabela de nomes, levando em consideração nomes estrangeiros como “Ku”, nome próprio asiático. h) Separação de patentes e designativos - Para um banco de dados, o ideal é a separação da patente do nome. Para uma ação de marketing, dependendo do produto ofertado o cliente nem sempre é um doutor. Assim o ideal é que o cadastro tenha um campo próprio para o armazenamento de patentes como: “Dr.”; “Sr.”. i) Padronização de letras maiúsculas e minúsculas - A padronização de campos deve ser implantada levando em consideração a necessidade de armazenamento e o futuro uso da informação. Como “CARLA MARIA” para “Carla Maria”. j) Verificação de ano bissexto - A validação do ano bissexto permite a entrada da data 29 de fevereiro. Se não essa data deve ser bloqueada do cadastro. 8 002064 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso k) Validação de datas de nascimento - As validações de datas incluem aspectos físicos do campo – entre dias 1 e 31, entre o mês 01 e 12, como ano – maior ou menor de 1850. A última regra varia conforme o tipo do negócio. Enriquecimento através da aquisição de cadastros pode assegurar a qualidade dessa informação. l) Verificação de falecimentos - A fim de se evitar constrangimentos e vendas fictícias o ideal é cruzar a base com o cadastro de falecidos dos cartórios. m) Verificação versus DNE (Diretório Nacional de Endereços) - Dentre os itens que mais geram perdas para ações de marketing direto estão endereço incorreto. 3.6 Recursos para a otimização O processo de higienização descrito por Dbdireto (2011), organização que oferece serviços tratamento de dados e suporte de dados às áreas de marketing e comercial, define alguns processos para a limpeza de dados: a) Nome e Razão Social A validação de nome e razão social é feita por meio da eliminação de caracteres considerados inválidos como ponto, ponto e vírgula, cifrão, porcentagem. Há ainda a conversão entre caixa baixa e alta, substituição de letras com acentos e a separação do nome em primeiro, do meio e sobrenome através do parsing. b) Endereços Todos os atributos do endereço são considerados para sua validação: CEP, tipo de logradouro, logradouro, número, bairro, cidade e UF. Cidades com características especiais como Palmas, Brasília, Bauru e Goiânia devem receber tratamento diferenciado. Os endereços devem ser confrontados com a base do DNE (Diretório Nacional de Endereços) dos Correios, caso seja identificado alguma inconsistência deve-se efetuar a recuperação do dado, corrigindo e separando por partículas. c) Telefones Assim como os atributos já citados, o telefone passa por um processo de exclusão de caracteres especiais, inválidos e espaços em branco. Após esse procedimento o dado passa por um algoritmo de separação do DDD e número, para que possa ser efetuada uma comparação com o dicionário de prefixo e sufixo de telefones. d) E-mail Para e-mails o processo de tratamento consiste em validar sua estrutura, ou seja, se respeita a regra: login@domínio.atividade.país além da remoção habitual de caracteres inválidos como o “ç”, acentos, vírgulas. Outro processo realizado é o cruzamento com uma base interna de e-mails. 9 002065 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso e) CPF e CNPJ A validação de CPF e CNPJ é estrutural. Para casos onde não se sabe qual o tipo de documento, CPF ou CNPJ, são aplicados cálculos para a identificação. f) Atribuição de sexo e tipo de pessoa A atribuição do sexo é realizada a partir do primeiro nome. Para a identificação de pessoa física ou jurídica utiliza-se uma relação de palavras-chave (S.A, LTDA, Prefeitura, Banco, Indústria, Comercio, etc.). 3.6.1 Deduplicação de dados A deduplicação de dados, segundo Tavares (2003), significa identificar registros duplicados em uma base de dados. Após a identificação desses registros é possível eliminá-lo ou marcá-lo para controle e eliminação futura. Para Dbdireto (2011) a deduplicação é um processo para a verificação, marcação e exclusão de registros com valores iguais em um banco de dados. Para a realização da deduplicação de registros em uma base de dados, Dbdireto (2011) afirma que é necessário empregar dois algoritmos. O primeiro é um fonético para a geração de um match code dos registros da base, o segundo, para a comparação e identificação das ocorrências duplicadas. Segundo Tavares (2003), a aparição de registros duplicados em um banco de dados, mais especificamente em um cadastro, gera prejuízos, devido aos custos por vendas incorretas ou envio de correspondência. Para Dbdireto (2011) empresas que utilizam a deduplicação possuem uma visão unificada e concreta de seus clientes, evitando que um mesmo cliente seja visto como dois ou mais distintos. 3.6.2 Match code Segundo ZipCode (2011), o match code é um código identificador diferente para cada registro, pessoa ou empresa em uma base de dados. Chaves de identificação como CPF ou CNPJ são as melhores, quando essas estão ausentes ou ainda, incompletas, utilizam-se então combinações de informação: Nome Completo + Data de Nascimento ou Nome Completo + Telefone + Endereço. Para Tavares (2003) o match code facilita a localização dos registros duplicados através de algoritmos. Variáveis como CPF/CNPJ, Telefone, RG, Inscrição Estadual, Data de Nascimento, já Nome e Endereço antes de serem considerados devem ser padronizados para a deduplicação. O funcionamento do match code, segundo ZipCode (2011), inicia-se com a atribuição de um código identificador distinto para cada registro no cadastro. Então a partir das informações como nome, endereço e cidade é gerado um conjunto de códigos. Esse conjunto, único para cada registro, serve como chave de pesquisa nos demais processos de qualificação de dados, principalmente o de deduplicação. 3.7 ETL - Extract, Transform and Load Segundo Eckerson e White (2003) o ETL é uma ferramenta que desempenha um papel crítico na criação de data warehouses, o alicerce do Business Intelligence. Ferramentas ETL agem como um funil, elas reúnem e misturam dados heterógenos para um formato consistente e com significado a fim 10 002066 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso de preencher uma data warehouse. ETL compreende um processo que tem como objetivo a extração, transformação e carga dos dados em uma ou mais bases de dados de origem para uma ou mais bases de dados de destino, o Data warehouse. Ferreira et al (2010) relatam que estudos sobre o ETL e ferramentas de limpeza de dados consomem um terço do orçamento destinado ao projeto de data warehouse e 55% do tempo total de execução do data warehouse. A camada inferior, segundo os mesmos autores, representa o armazenamento de dados utilizado em todo o processo. No lado esquerdo, encontra-se a origem dos dados, em sua maioria um Banco de Dados ou arquivo texto. Na parte superior, no lado esquerdo temos os dados provenientes das fontes, por meio de rotinas de extração que fornecem informação igual ou levemente modificada em relação à fonte original. Em seguida, os dados são transferidos para a Data Staging Area (DSA) onde ocorrem as transformações e o processo de higienização antes de serem carregados para o data warehouse que está na parte direita da figura com o intuito de armazenar os dados. O carregamento para o data warehouse, realizado pelas atividades de carga. Um papel importante desempenhado pelo ETL está na sua integração com a qualidade de dados. Segundo Nguyen (2008) essa sinergia simplifica e garante ao processo dados íntegros e com precisão. Com a utilização de ferramentas ETL pode-se obter benefícios como os descritos por Aguiar (2010): • Desenvolvimento de cargas: através das ferramentas ETL, desenvolver uma rotina de carga, ou seja, inserir dados em uma base de dados é muito mais prático e rápido. • Manutenção de cargas: a manutenção acaba por ser mais rápida e fácil em relação à manutenção de códigos. • Desempenho: as ferramentas ETL já possuem métodos mais performáticos para lidar com grandes volumes de dados, conseguindo então extrair , transformar e carregar dados com maior velocidade e menor utilização de recursos. • Execução em paralelo: é possível executar uma extração, transformação ou carga em paralelo. • Escalabilidade: as ferramentas ETL podem ser transferidas de servidor em servidor e ainda podem distribuir as cargas em diversos servidores. • Diversidade de conectores: com a ferramenta ETL é possível obter dados de múltiplas fontes de dados. Caso seja necessário um conector diferente dos já oferecidos pela ferramenta, o usuário pode adquirir o conector desejado sem que codificar um. • Segurança: utilizando ferramenta ETL a segurança se torna mais modular ao se dividir os processos: criação de carga, execução e agendamentos. Para Ferreira et al (2010), o ETL é um processo dividido em três fases primordiais: Extração; Transformação; Carga. • A extração ou extract, segundo IBL (2003) consiste em extrair dados de diversos sistemas de origem onde cada sistema utiliza diferentes formatos de dados, um dos mais comuns é o flat file, o arquivo texto. Na extração um determinado formato de dado é convertido antes de seus processamento no processo de transformação. 11 002067 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso • • Para Lima (2010), o processo de transformação, ou transform, engloba o de limpeza. Na limpeza são retirada as inconsistências obtidas através das diversas fontes dos dados e na transformação ocorre a padronização dos dados derivados de vários sistemas com formatos diferentes. Já IBL (2003) afirma que o estágio de transformação dos dados é onde se aplica regras ou funções nos dados extraídos para que não ocorram problemas em sua recepção no sistema em que eles serão carregados. Na carga, ou load, para Ferreira et al (2010), são processados os mapeamentos de sintáticos e semânticos entre os sistemas, respeitando as particularidades de cada sistema a fim de criar uma visão única e concreta das fontes. Esse processo é um dos mais complexos e trabalhosos de obter devido à complexidade de cada Banco de Dados. Para IBL (2003) a fase de carga realiza o carregamento de dados para o data warehouse e dependendo das necessidade da organização esse processo varia. Alguns data warehouse fazem a substituição de dados existentes semanalmente com dados atualizados, enquanto outros adicionam dados a cada tempo pré-determinado. A seguir são apresentados os resultados da pesquisa. 4. RESULTADOS O experimento propõe a aplicação de métodos de higienização em uma base cadastral antes de sua inserção no banco de dados, a fim de solucionar problemas relacionados à qualidade de dados. Os dados obtidos são exemplos fictícios, provenientes do cadastro de uma empresa do setor de peças e acessórios de vestuário adulto e infantil, que por questões de confidencialidade é denominada nesse trabalho como Confecção X. A Confecção X foi criada em 2002 a partir da associação de três sócios e representa artigos do vestuário e acessórios de marcas internacionalmente famosas. Atualmente, a empresa possui cerca de 100 filiais localizadas em grande parte do território nacional. Em 2010 seu faturamento chegou a cerca de R$ 140 milhões. A opção por efetuar o experimento na Confecção X se deve ao acesso dos pesquisadores a base de dados e a informações vitais para a realização desse trabalho, como as ações de marketing realizadas a partir do cadastro e valores gastos com o tratamento de dados. Quanto à base de dados cadastrais, empregada, a escolha se deve ao número de registros (13.411 registros), ao grande número de problemas apresentados (erros de digitação) e a limitação dos campos da ferramenta de tratamento (no total a base possui aproximadamente 150.000 registros). Foram utilizadas duas ferramentas. A primeira é o DataSetting®, ferramenta para o tratamento e qualificação dos dados cadastrais, incluindo todas as etapas de higienização, padronização e validação dos dados, desenvolvida pela System Marketing, consultoria em banco de dados para marketing direto. A Figura 1, a seguir, apresenta a visão da ferramenta em sua quinta versão. Nessa tela é feito o upload do arquivo a ser carregado para o tratamento, caso seja uma planilha do Excel, é possível escolher a aba que será tratada, por padrão a primeira aba é selecionada. Indicando o tipo de pessoa, ou seja, a quem os dados pertencem uma pessoa física, jurídica ou os dois, a ferramenta lista as opções para cada tipo. No campo Empresa/Contato são listadas todas as empresas que se tem contato, abaixo se encontra o layout, isto é, tratamentos que se repetem são salvos e em uma próxima utilização não é necessário realizar 12 002068 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso o mapeamento dos dados. Por último, o e-mail, é o endereço em que o resultado do tratamento, bem como, o relatório será enviado. Figura 1 - DATASETTING®, versão 5 Fonte: (ZIPCODE, 2011) A segunda ferramenta é o SQL Server® 2008 Integration Services (SSIS), da Microsoft®, empresa norte-americana de tecnologia e informática. O SSIS permite o desenvolvimento de soluções de integração de dados, incluindo a extração, transformação de carregamento (ETL) de dados para base de dados. O valor do SSIS varia porque ele não é vendido separadamente, na verdade ele acompanha o SQL Server® 2008 a partir da versão standard, a utilizada no estudo de caso, segundo C0D1X Infra (2011) o preço a vista dessa versão é de R$ 6.558,40. Nesse estudo, o SSIS destina-se as inclusões de registros no banco de dados após o tratamento por meio do DataSetting®. Figura 2 - SQL Server 2008 Integration Services® 13 002069 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Fonte: (OS AUTORES, 2011). Na Figura 2 é exibido o painel inicial para o desenvolvimento e gerenciamento de pacotes. No SSIS, o pacote é um grupo composto por conexões, elementos de fluxo de controle, de dados, manipuladores de eventos, variáveis e outras configurações que são agrupadas usando as ferramentas de design gráfico do SSIS. Para criar um pacote são utilizados componentes denominados task, na figura 21 há um exemplo, Data Flow Task, neste caso, o task apresentado pode realizar duas funções: ele importa dados para o banco de dados, como pode extrair esses dados para um arquivo. A adesão das ferramentas descritas se deve principalmente ao fato da disponibilidade de acesso pela empresa. Outros motivos também justificam a escolha do DataSetting® e SSIS como o conhecimento e experiência no manuseio de ambas as ferramentas por parte dos pesquisadores. 4.1 Base de dados Os dados utilizados por esta pesquisa compreendem um cadastro de clientes de uma empresa gestora de grandes marcas do ramo da moda internacional no Brasil, denominada Confecção X. Os atributos do cadastro como nome, CPF e entre outros são fictícios a fim de se manter o anonimato e a segurança dos indivíduos efetivamente cadastrados. O cadastro é realizado por um funcionário no ato da compra, em uma das lojas gerenciadas pela Confecção X. O sistema utilizado para o cadastro não possui nenhum critério quanto à obrigatoriedade de dados nem impede a entrada inválida dos mesmos, ou seja, o aplicativo permite o armazenamento de números de telefones com apenas 5 dígitos, por exemplo. Os dados obtidos são importantes para o relacionamento com os clientes da Confecção X. Pelo cadastro a empresa pode conhecer melhor seu cliente e direcionar suas ações de marketing para um melhor resultado em nas vendas. A amostra do cadastro analisada possui cerca de 13.400 registros com cinco diferentes atributos, como disposto na Tabela 1: Tabela 1- Campos do cadastro de clientes Atributo Exemplo Tipo Descrição Utilização pela Confecção X 14 002070 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso CPF 165.851.968-05 Numérico Cadastro de pessoa física perante a Receita Federal Código do Cliente Nome pelo qual todas as ações de marketing serão direcionadas Telefone pelo qual as TELEFONE Telefone referente ao 3432-3221 Numérico ações de telemarketing RESIDENCIAL cliente serão direcionadas E-mail pelo qual todas E-mail referente ao as ações de e-mail E-MAIL [email protected] Texto cliente marketing serão direcionadas Endereço pelo qual Endereço referente todas as ações de mala ENDEREÇO R PADRE, 234 Texto ao cliente direta serão direcionadas Fonte: (OS AUTORES, 2011) NOME MICHELLE DIAS Texto Nome referente ao cliente A Tabela 1 apresenta os campos do cadastro de um cliente da Confecção X, uma amostra de como é seu formato, tipo, descrição e como se dá seu manuseio pela Confecção X. É importante frisar que o sistema de cadastro utilizado, não dá suporte ao que se refere à digitação, ele permite caracteres especiais e em campos texto, números, por isso os dados extraídos estão no formato como exemplificados na Tabela. A seguir, serão apresentados os problemas relacionados a cada campo do cadastro de clientes. 4.1.1 CPF Para a Confecção X, o CPF serve como um identificador de seus clientes, além disso, permite a identificação de fraudadores quando esse validado. O maior problema quanto ao CPF está justamente na falta de uma validação quanto seus dígitos. Figura 3 - Ocorrência com o atributo CPF O-Nome O-CPF CLAUDIO LUIS FRANCA 111.111.111-11 JISLENE TAVARES 000.000.000-00 Fonte: (OS AUTORES, 2011) A Figura 3 retrata a situação do campo CPF. Os exemplos mostrados são claramente inválidos e, portanto, não devem ser armazenados no banco de dados. Essa ocorrência é chamada de “CPF viciado”, ou seja, para completar o campo CPF o funcionário acabou por inserir um número repetido 11 vezes. 4.1.2 Nome O campo nome possui a presença e caracteres inválidos como acento, barra, falta de padronização quanto às letras, além da presença de dois nomes diferentes em uma mesma linha de registro. Essa última ocorrência dificulta a validação do registro, pois, não se sabe a que nome os demais itens preenchidos do cadastro pertencem. 15 002071 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Figura 4 - Ocorrência com o atributo NOME O-Nome FRED RENET/ DAPHNE DE OLIVEIRA patricia moreira ferreira JOÃO GOM,ES Fonte: (OS AUTORES, 2011) Ter nomes com problemas de acentuação, padronização e diferentes atributos em um mesmo campo, conforme a Figura 4 prejudica a impressão da mala direta enviada pela Confecção X, além de causar insatisfação do cliente ao receber uma correspondência com seu nome em minúsculo ou com acentos no meio. 4.1.3 Telefone residencial Os telefones da base cadastral possuem problemas quanto a caracteres como traço dividindo os 4 primeiros e os 4 últimos dígitos, a falta desses mesmos 8 dígitos para alguns registros e ausência de DDD. Figura 5 - Ocorrência com o atributo TELEFONE O-DDD do Telefone Residencial 12 21 O-Telefone Residencial 3322-7789 4553-7890 209-9824 Fonte: (OS AUTORES, 2011) A Figura 5 é uma amostra dos problemas com telefones. Sem um telefone conciso e válido a empresa não pode divulgar promoções e novas coleções para seus clientes pelo telemarketing. 4.1.4 E-mail A maioria das ações de marketing da Confecção X acontecem por e-mail. Portanto é necessária uma atenção especial a esse campo, o que não é expresso ao se analisar a base. Figura 6 - Ocorrência com o E-MAIL Fonte: (OS AUTORES, 2011) As ocorrências com o campo e-mail normalmente são devido à entrada de caracteres indevidos ou ainda a falta deles. Na Figura 6 é possível verificar uma amostra da situação dos e-mails cadastrados. Há casos em que acentos estão no 16 002072 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso e-mail e outros em que falta caracteres para completar a estrutura de um endereço de e-mail, no caso, o .com. 4.1.5 Endereço Assim como o atributo e-mail, a Confecção X utiliza o endereço de seus clientes para divulgação de campanhas através de cartas. Para que esse procedimento ocorra sem problemas é necessária uma correta validação frente à base do DNE dos endereços cadastrados, além da padronização quanto letras maiúsculas em minúsculas e ao CEP, para os 8 dígitos. Figura 7 - Ocorrência com o ENDEREÇO Fonte: (OS AUTORES, 2011) Os problemas com endereço variam, desde a falta de padronização conforme Figura 7 no campo O-Cidade residencial, onde a cidade de São Paulo aparece grafada de duas maneiras diferentes, assim como as diversas maneiras para o tipo de logradouro (“R”,”Rua”) até a inserção de caracteres especiais nos campos (dois pontos, traço, vírgula). 4.2 Aplicação das técnicas de higienização Como primeira ação, os dados da base cadastral passaram pelo DataSetting®. Essa ferramenta trata os dados em 4 etapas: primeiro são retirados os caracteres especiais como asterisco, ponto de exclamação, interrogação, em seguida os dados são padronizados de acordo com o que foi programado. Após a padronização, ocorre o processo de correção das informações e validações. Validados os campos por meio de códigos fonéticos o sexo e tipo de pessoa física ou jurídica são adicionados à base. As técnicas foram aplicadas em cada campo da base de dados e os resultados obtidos são apresentados a seguir. Após o tratamento o cadastro será inserido no banco de dados da Confecção X pela ferramenta SSIS. 4.2.1 CPF Para o CPF, a ferramenta aplica primeiramente um processo que retira caracteres não numéricos do campo como letras, traço e entre outros. Com o campo CPF totalmente numérico a validação do dígito verificador torna-se possível. É realizado então o cálculo sobre os demais dígitos do CPF a fim de validá-lo. Figura 8 - Resultado do tratamento de CPF Fonte: (OS AUTORES, 2011) Na Figura 8, é possível verificar o funcionamento da técnica de caracteres especiais, tornando o campo CPF numérico e resultado do cálculo do dígito verificador que identificou para esse caso que número de CPF 165.851.961-02 é 17 002073 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso válido. Na base analisada, somente 0,07% dos CPF foram invalidados pelo cálculo do dígito verificador feito pela ferramenta em outros casos em que o resultado foi o mesmo apenas realizando esse cálculo foi possível considerá-lo como inválido. 4.2.2 Nome No campo Nome, a ferramenta inicia o processo com a retirada dos espaços em branco assim como caracteres especiais, em seguida ocorre o parsing, a separação do nome primeiro nome, segundo nome e último nome. Além da divisão dos nomes, são atribuídas informações de sexo, a partir do primeiro nome e de tipo de pessoa, física ou jurídica, através de um dicionário de palavras como SA, LTDA entre outros. Figura 9 - Resultado do tratamento de Nome Fonte: (OS AUTORES, 2011) A Figura 9 apresenta um exemplo de tratamento e inclusão de tipo de pessoa e sexo. Quanto ao tipo de pessoa, a partir do nome tratado com o cruzamento de uma tabela é indicado o tipo. Para casos em que o nome impossibilita a identificação de um individuo feminino ou masculino é atribuído à pessoa o sexo indefinido (I). Após o tratamento do nome, o resultado obtido foi: • 89,93% dos nomes apresentados são válidos ou seja não existem palavrões ou outras palavras não pertinentes ao nome, assim como esses nomes estão completos, ou seja, possui nome e pelo menos um nome do meio. • 8,49% dos nomes foram corrigidos, ou seja, caracteres especiais foram retirados. • 1,59% dos nomes são inválidos, nomes incompletos estão contidos nesse percentual. 4.2.3 Telefone Para o campo telefone, a ferramenta retira caracteres não numéricos como traço que separam os 4 primeiros e 4 últimos dígitos do telefone. Essa transformação facilita a comparação desses telefones com um dicionário de telefones e DDD. Figura 10 - Resultado do tratamento de Telefone O-DDD do Telefone Residencial O-Telefone Residencial TTTTelefone.Log Telefone.DDD Telefone.Número Traduzido 3322-7789 11 3322-7789 Corrigido 12 3812-7790 12 3812-7790 Válido 21 209-9824 21 Fonte: (OS AUTORES, 2011) 209-9824 Inválido 18 002074 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Após a limpeza de caracteres indevidos no campo de telefone pode-se corrigir os DDD e telefone que estavam faltando dígitos, conforme a Figura 10. O resultado do tratamento é expresso em detalhes abaixo: • 68,26% dos telefones são válidos, portanto, possuem DDD e o telefone tem 8 dígitos. • 0,03% dos telefones foram corrigidos, ou seja, DDD foram atribuídos a partir da cidade do cliente, telefones foram completados depois do cruzamento com um dicionário de dados. • 31,71% dos telefones estão inválidos, ou por conter somente um DDD sem número de telefone ou o inverso. 4.2.4 E-mail A validação do campo e-mail é feita após a retirada de caracteres não pertinente a e-mails, como exclamação, porcentagem entre outros. Com o campo tratado, o e-mail passa por uma verificação quanto sua sintaxe, ou seja, se atende ao padrão login@domínio.atividade.país. Figura 11 - Resultado do tratamento de E-mail O-E-mail Iviz_pirajó@hotmail.com T-Email.Email [email protected] [email protected] [email protected] Fonte: (OS AUTORES, 2011) T-Email.Log Traduzido Corrigido Corrigido A Figura 11 apresenta o resultado do tratamento aplicado ao campo e-mail. Acentuação e caracteres especiais e espaços inválidos foram retirados, assim nesses exemplos foi atribuído o tipo Corrigido pela ferramenta a partir de sua comparação com a estrutura de um e-mail e uma tabela de caracteres permitidos. O resultado do tratamento de e-mails indica que apenas 8,69% dos e-mails são válidos, ou seja, respeitam um padrão de estrutura e composição. Os corrigidos somam apenas 0,04% registros de uma base composta por 13.411, para os inválidos a porcentagem é de 91,28% o que indica a completa desorganização do campo de tal maneira que impossibilita a limpeza e o reconhecimento de um e-mail após esse processo, por parte da ferramenta. 4.2.5 Endereço A primeira técnica aplicada pela ferramenta sobre os campos que compõem o endereço, tipo do logradouro, logradouro, número, complemento, bairro, cidade, estado e CEP é a retirada de caracteres inválidos como pontos e dois pontos, números em um campo alfabético e vice-versa. Assim como ocorre com o campo Nome, o parsing é utilizado para a separação do endereço em tipo de logradouro, logradouro e número, complemento, bairro, cidade, UF e CEP. Os dados então passam por uma validação junto ao DNE para a geração de um match code que possibilite a comparação e correção de acordo com a padronização estabelecida pelo Correios. Por meio do match code a ferramenta corrigiu 15,28% dos dados que tinham algum problema quando confrontados com o DNE. Quanto aos inválidos, 14,98%, os problemas de digitação entre outros impossibilitaram a identificação 19 002075 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso desse registro para a ferramenta, que classificou 9.553 registros como válidos quanto a sua estrutura e padrão em relação aos Correios. A padronização segundo o DNE dos Correios permite a base de dados estar de acordo com o sistema de envio postal do Brasil. O tratamento pela ferramenta DataSetting® possibilitou classificar os campos quanto ao seu nível de problema a partir do número de correções efetuadas, assim o campo mais problemático, com menor número de corrigidos é o telefone com 0,03%, a ferramenta não atribuiu a todos os casos os DDD e telefones faltante, ao contrário do que aconteceu com o nome corrigido 8,49%. A partir da base tratada, inicia-se a inserção no banco de dados através da ferramenta ETL, SQL Server® 2008 Integration Services. O pacote criado para o carregamento de dados após o tratamento e validação dos dados pelo DataSetting. Entretanto ambas as ferramentas possuem limitações. No caso do DataSetting® a ferramenta não marca, nem exclui dados repetidos, esse procedimento é importante para a qualidade de dados pois garante a consistência dos dados e para a redução de custos quando elimina as ações de marketing repetidas para um mesmo individuo. Em caráter experimental, a deduplicação foi realizada pelo Excel, e como resultado, 12 registros dos 13.411 estavam duplicados no cadastro. Já o SSIS, tem problemas quanto a sua integração com a ferramenta de tratamento, ou seja, para esse estudo foi necessário duas etapas, primeiro a higienização e depois o ETL, isso aumenta o tempo para a qualificação além dos gastos com duas ferramentas. 4.3 Impactos econômicos Em relação ao aspecto econômico a principal vantagem em relação ao tratamento de dados vem da redução de custos com uma abordagem inválida ou fora do público-alvo por meio do e-mail marketing, mala direta e telemarketing. No caso da Confecção X, os custos para e-mail marketing, com giram em torno de R$0,25 por e-mail, registro. Para a mala direta o custo fica em R$0,56 por correspondência e R$0,72 por ligação de telemarketing. Os valores apresentados foram extraídos de uma planilha de custos e benefícios disponibilizadas pela ZipCode, empresas especializada em dados para marketing direto. Os custos incluem envio, arte, custo de ligação com impostos e envelope para a mala direta. Tabela 2- Custo Total com o Marketing da Base Ação Custo Total (R$) Malas Diretas 7.577 Ligações 9.656 E-Mail Marketing 3.353 Fonte: (ZIPCODE, 2011, adaptada pelos autores) A Tabela 2 apresenta os gastos totais de cada ação de marketing realizada pela empresa Confecção X antes do tratamento dos dados, ou seja, a base do cálculo está sobre toda a base cadastral, de cerca de 13.400 registros. Em um 20 002076 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso rápido olhar sobre a Tabela 2, fica claro uma das justificativas da Confecção X ter optado pelo e-mail marketing como principal ação de fortalecimento da marca, por seu menor custo e rapidez de atingir o cliente. Tabela 3 - Custo Médio Anual Ação Volume de Contato/ Ano (em média) Despesas Anuais (R$) E-Mail Marketing 12 40.233 4 3 Fonte: (ZIPCODE, adaptada pelas autores) 30.309 28.968 Mala Direta Ligações O custo médio anual, exposto na Tabela 3, calcula a partir de uma média de contatos por ano que as organizações fazem contato com o cliente através de determinado meio de comunicação e as despesas anuais da Confecção X com cada mídia. Devido sua maior veiculação, o ano inteiro, o e-mail marketing que na tabela 3 aparecia com o menor custo, em relação à Tabela 3 é o de maior valor, contudo, dada a frequência de sua utilização o valor para o e-mail marketing acaba por ser mais vantajoso. Enquanto seu volume é feito durante os 12 meses do ano, as ligações, por exemplo, em apenas 3 meses chegam a R$ 28.968,00, uma diferença de cerca de R$ 11.000. Tabela 4 - Perda Anual pela Má Qualidade de Dados Ação Taxa de Retorno por Inconsistência Cadastral Perda Anual (R$) E-Mail Marketing 25% 10.058 Mala Direta 16% 4.849 Ligações 12% 3.476 TOTAL 18.384 Fonte: (ZipCode, adaptada pelos autores) A Tabela 4 fornece uma visão geral sobre as perdas da empresa quando essa não aplica um tratamento adequado sobre seus dados. Para o e-mail marketing, 25% dos e-mails estão incorretos e, portanto não enviados, isso porque os e-mails possuem algum erro seja na sua estrutura ou na coleta desse dado , na mala direta, 16% das correspondências não são entregues devido a erros quanto a nome de ruas, CEP, cidades ou por não respeitar o padrão vigente, o dos Correios. As ligações incorretas no call center chegam a 12%, nessa porcentagem está incluso o número e as ligações para pessoas erradas. Tabela 5 - Perda Anual pela Má Qualidade de Dados após Projeto de Tratamento de Dados Ação Taxa de Retorno por Inconsistência Cadastral Após o Projeto de Tratamento de Dados Perda Anual (R$) 21 002077 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso E-Mail Marketing 10% 4.023 Mala Direta 4% 1.212 Telemarketing 8% 2.317 TOTAL Fonte (ZIPCODE, 2011, adaptada pelos autores) 7.553 Os resultados econômicos obtidos com o tratamento dos dados frente às ações de marketing são expostos na Tabela 5. A higienização permitiu a Confecção X principalmente à eliminação de comunicações devolvidas devido a erros em e-mails, correspondências e telefonemas. Os dados tratados e validados permitem a empresa direcionar suas campanhas com maior confiança e menor economia, em números essa comparação de antes da higienização e depois, na Tabela 6. Tabela 6 - Comparativo Econômico quanto a Higienização Antes de Higienização Depois da Higienização Perdas Totais R$ 41.558 19.140 Economia R$ 22.418 Fonte: (ZIPCODE, 2011, adaptada pelos autores) O comparativo da Tabela 6 revela que a economia feita pela Confecção X pode chegar a R$ 22.418,00 em relação a apenas 13.411 registros. Os gastos com o tratamento dos dados, implantação desses no banco de dados e retorno para a Confecção X dos registros limpos e validados tem valor médio de R$ 0,28 por registro, segundo preços fornecidos por Egea (2011) e DbDireto (2011). O tempo médio para a realização de todo o procedimento, desde a recepção dos dados cadastrais, a higienização por parte do DataSetting®, a inserção no banco de dados de clientes com SQL Server® 2008 Integration Services e o retorno para a Confecção X dos dados, higienizados para a execução das ações de marketing, ficou em 1 hora e 35 minutos. Assim o total para a base disponibilizada pela Confecção X para esse estudo de caso, é de R$ 3.755,08, calculado a partir dos 13.411 registros. A economia feita com a adoção da higienização cobre o valor do saneamento em cerca de 6 vezes, ou seja, o custo benefício obtido é alto e não só pelo fator econômico mas em relação a todas as melhorias aplicáveis como a redução das inconsistências das informações e eliminação do envio errôneo de ações de marketing. 5. CONSIDERAÇÕES FINAIS Após a aplicação das ferramentas DataSetting® para a qualificação da base de dados cadastrais efetuando a padronização e validação dos dados e SQL Server® 2008 Integration Services com a finalidade de incluir registros no banco de dados através do processo ETL, foi possível atingir os objetivos propostos. O primeiro de identificar os problemas da base de dados e outro de selecionar as técnicas aplicáveis a cada campo sugeridas pela literatura e aplicar e analisar as melhorias quanto à higienização dos dados com base em um cadastro de clientes. A questão “quais seriam as possíveis melhorias na qualidade de dados resultantes do tratamento de dados em conjunto com um processo de carga na 22 002078 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso base de dados por intermédio da ferramenta ETL (Extract, Transform and Load)”?, foi respondida mostrando os benefícios qualitativos, além dos econômicos obtidos pela Confecção X com a adoção da limpeza de seus cadastros para suas ações de marketing. Quanto às implicações gerenciais, a partir dos problemas encontrados a Confecção X deve rever quatro pontos. O primeiro, quanto ao sistema de cadastro muito simples, sem regras de consistência de entrada de dados, deve-se adotar um novo sistema que possua essas regras ou então adaptar o vigente, embora, a empresa esteja relutando em fazer essa alteração há bastante tempo. O segundo, em relação aos usuários e seu treinamento quanto à atenção nos dados inseridos e à abordagem para que o cliente se sinta confortável o suficiente no preenchimento das informações indica que esse aspecto deve ser remediado com a capacitação dos funcionários para o atendimento. O terceiro, caso de algum dado da pessoa estar incompleto, porém, ainda sim há alguma informação na base de dados como e-mail, por exemplo, deve-se incentivar o indivíduo a completar seus dados ou até corrigi-los se for o caso, no exemplo do e-mail, pode-se enviar uma proposta de descontos para a pessoa completar o cadastro através de um site. O último faz alusão aos erros de digitação por parte do funcionário, e indica-se a adoção de um sistema de cadastro on-line para que os clientes insiram os seus dados evitando então possíveis erros. Como trabalhos futuros sugerem-se a realização de um estudo sobre os benefícios da aplicação de metodologias de melhoria contínua da qualidade de dados. Essas metodologias são fundamentadas não somente no tratamento dos dados, mas nas definições de processos de qualidade, mensuração da qualidade, análise e identificação do problema e as razões das inconsistências. A aplicação poderia ser em uma empresa de qualquer porte, que não tenha nenhum plano de controle de qualidade sobre seus dados e apresente problemas em gerenciar a qualidade sobre seus dados, assim a comparação de antes e depois da metodologia posta em prática seria mais visível. Apesar dos objetivos estabelecidos inicialmente terem sido atingidos, devido às restrições do volume da base e o tipo de pessoa, no caso física, impediu a aplicação de outras técnicas, como a identificação de matriz e filial para pessoa jurídica entre outras, assim como a funcionalidade da ferramenta de tratamento usada que não permitiu a retirada de registros duplicados na base de dados devido a essa função não ter sido integrada para dar preferência a outras funcionalidades na aquisição do DataSetting®, afetando a consistência da base e os gastos com as ações de marketing repetidas a uma mesma pessoa. Por fim, destaca-se que a partir deste estudo, ficou evidente a importância das técnicas demonstradas já que há inúmeros dados incorretos na base para todos os campos desde o e-mail que apresenta muitos problemas quanto a sua estrutura até o CPF com menor índice de invalidação. Além dos benefícios alcançados pelas empresas ao qualificar seus dados, com a aplicação do tratamento de dados em conjunto com a ferramenta ETL, pode-se criar uma visão única dos clientes e inserir no banco de dados, dados concisos e além da economia estimada de R$ 22.418,00 em processos de marketing. REFERÊNCIAS 23 002079 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso AGUIAR, G. M. Por que utilizar uma ferramenta ETL?. 2010. Disponível em: < http://gustavomaiaaguiar.wordpress.com/2010/05/10/por-que-utilizar-umaferramenta-de-etl/>. Acesso em 16 out. 2011 ás 20:12. BATINI, C.; SCANNAPIECA, M. Data Quality: Concepts, Methodologies and Techniques. Berlim: Springer, 2006. BEUREN, I. M. Gerenciamento da informação: um recurso estratégico no processo de gestão empresarial. 2. ed. São Paulo: Atlas. 2000. CASANOVA, M. A. Capítulo 1. Conceitos. 2001. Disponível em: <http://www.inf.puc-rio.br/~casanova/LivroCasanova/ncap1.pdf> Acesso em 02 out. 2011. DAVENPORT, T. H., PRUSAK, L. Conhecimento empresarial. Rio de Janeiro: Campus, 1998. DBDIRETO. Higienização de Banco de Dados, 2011. Disponível em: < dbdireto.com.br/Higienizacao-de-dados.html>. Acesso em 16 out. 2011 ás 19:45. DRESCHER, S. Inteligência O que você sabe sobre seus dados?.2004. VendaMais. Disponível em: <http://www.vendamais.com.br/php/materia.php?id=36070> Acesso em: 24 set. 2011 ás 10h21min. ECKERSON, W. W. Data Quality and The Botttom Line: Achieving Business Success through a Commitment to High Quality Data. The Data Warehousing Institute Report Series, USA: 2003. Disponível em: <http://download.101com.com/pub/tdwi/Files/DQReport.pdf>. Acesso em: 07 Jul. 2011 ás 18:19. ECKERSON, W. W, WHITE ,Colin. Evaluating ETL and Data Integration Platforms. The Data Warehousing Institute Report Series, USA.: 2002 Disponível em<: www.evolve.mb.ca/dw/etlreport.pdf>. Acesso em: 12 Ago 2011 ás 17:55. EGEA. Listas Segmentadas. Disponível em: <http://egea-mkt.com.br/listassegmentadas.html>. Acesso em 01 nov. 2011 ás 23:19. ELMASRI, R.; NAVATHE, S. B. Sistema de Banco de Dados. São Paulo: Pearson Addison Wesley, 2005. FERREIRA, J. et al., O Processo ETL em Sistemas Data Warehouse. 2010. Disponível em: < http://inforum.org.pt/INForum2010/papers/sistemasinteligentes/Paper080.pdf>. Acesso em: 16 out. 2011 ás 18:23. GARRISON, R. H. Managerial accounting: concepts for planning, control, decision making. 5 ed., Homewood, Illinois: Irwin, 2006, p.2. In OLIVEIRA, Jayr Figuereido 24 002080 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso de. Sistemas de Informação versus Tecnologias da Informação: um Impasse Empresarial. São Paulo: Érica, 2004. GEREMIA, J. Tutorial de Introdução a Banco de Dados. 2010. Disponível em: <http://www.telecom.uff.br/pet/petws/downloads/tutoriais/db/Tut_DB.pdf> Acesso em: 04 out. 2011 ás 23:41. IBL – Informática Brasileira LTDA. Conceito – Extração, Transformação e Carga. 2003. Disponível em: < http://www.infobras.com.br/portugues/produtos_conceito_etl.asp>. Acesso em 16 out. 2011 ás 20:21. LAKATOS, E. M.; MARCONI, M. A. Metodologia científica. São Paulo: Atlas, 2001. LAUDON, K. C.; LAUDON, J. P. Sistemas de informação gerenciais. 7. ed. São Paulo: Pearson Pretince Hall, 2007. LIMA, C. A. L. ETL – Extração, Transformação e Carga de Dados. 2010. Disponível em: < http://litolima.wordpress.com/2010/01/13/etl-extracaotransformacao-e-carga-de-dados/>. Acesso em 16 out. 2011 ás 19:44. MCGILVRAY, D. A Importância na Gestão de Qualidade da Informação para o seu Negócio: ZipCode, São Paulo. Entrevista concedida a ZipCode. Disponível em: <http://www.zipcode.com.br/fique-pordentro/entrevistas/entrevista_danette_qualidade_da_informacao_dos_dados.html > Acesso em: 19 Ago. 2011 ás 17:22. MCGEE, J. V.; PRUSAK, L. Gerenciamento Estratégico da Informação. 10. ed. Rio de Janeiro: Campus. Ernest & Young. Série Gerenciamento da Informação. 1994. NAUMANN, F.; HERSCHEL M. An Introduction to Duplicate Detection. Morgan & Claypool, 2010. NGUYEN, T. The Value of ETL and Data Quality.2008. Disponível em: < www2.sas.com/proceedings/sugi28/161-28.pdf >. Acesso em: 24 set. 2011 ás 12h21min. NUNES, P. Conceito de Structured Query Language (SQL). 2007. Disponível em: <http://www.knoow.net/ciencinformtelec/informatica/structquerylang.htm>. Acesso em: 04 out. 2011 ás 18:11. OLIVEIRA, J. F. Sistemas de Informação versus Tecnologias da Informação: um Impasse Empresarial. São Paulo: Érica, 2004. RAHM, E.; DO, H. H. Data Cleaning: Problems and Current Approaches. 2009. Disponível em: < http://wwwiti.cs.unimagdeburg.de/iti_db/lehre/dw/paper/data_cleaning.pdf>Acesso em: 20 set. 2011. 25 002081 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso ROESCH, S. M. A. Projetos de Estágio do Curso de Administração. São Paulo: Atlas, 1996. SAWAYA, M. R. Dicionário de Informática e Internet: Inglês/Português, São Paulo,Nobel, 1999. SEVERINO, A. J. Metodologia do trabalho científico. 23ª edição. São Paulo: Cortez, 2007. SPÍNOLA, R. Trabalhando com condições e operadores em consultas SQL. SQL Magazine, Grajaú, n. 90, p. 6-7, ano 8 (2011). STRONG, D. M.; LEE, Y. W.; WANG, R. Y. Data quality context. Communications of the ACM, v. 40, n. 5, p. 103-110, May 1997b. In in TAVARES, R. S. Bancos de Dados Qualificados Podem Reduzir Perdas e Aumentar os Ganhos em CRM. 2003. Monografia (MBA) – Pontifícia Universidade Católica de São Paulo, São Paulo, 2003. TURBAN, Efraim; RAINER, R; Kelly Jr; POTTER, Richard E. Introdução a Sistemas de Informação. Rio de Janeiro: Elsevier, 2007. TURBAN, E; RAINER, R. K. Jr; POTTER, R. E. Introdução a Sistemas de Informação. Rio de Janeiro: Elsevier, 2007. TURBAN, E; MCLEAN, E; WETHERBE, J. Tecnologia da informação para gestão. Transformado os negócios da economia digital. 3a Edição. Porto Alegre. Bookman, 2004. VALENTIM, M. L. P. Inteligência Competitiva em Organizações: dado, informação e conhecimento.2002. DataGramaZero - Revista de Ciência da Informação . Disponível em: < http://www.dgz.org.br/ago02/Art_02.htm> Acesso em: 24 set. 2011 ás 09h12min. VASCONCELOS, F. C.; CYRINO, A. B. (2000) - Vantagem competitiva: os modelos teóricos atuais e a convergência entre a estratégia e a teoria organizacional. RAE – Revista de Administração de Empresas. V. 40, n. 4, p. 2037. ZIPCODE. Tratamento e Atualização de Dados. 2011. Disponível em: < http://www.zipcode.com.br/servicos/perguntasfrequentes_tratamento.html>. Acessado em 16 out. 2011 ás 19h05min. 26 002082 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br