A IMPORTÂNCIA DA QUALIDADE DE DADOS NAS EMPRESAS Daniel Almeida Álvares Francisco Gomes da Silva Milton Terra RESUMO O objetivo deste artigo é relatar a importância da Qualidade de Dados como meio de obter melhor desempenho corporativo, através da facilidade de controle de dados, relatórios mais precisos e informações geradas por ferramentas de BI com maior credibilidade. Além disso, mostrar algumas das conseqüências geradas pela má qualidade de dados dentro da empresas e de que forma isso pode atrapalhar a produtividade e até mesmo a qualidade de vida das pessoas, devido ao estresse gerado. PALAVRAS-CHAVE Qualidade de Dados, Mineração de Dados, Inteligência de Negócio e Retorno sobre Investimento. ABSTRACT The purpose of this article is to tell the importance of the Quality of Data as way to improve a better enterprise performance, through the easiness of control of data, more trusted reports and information generated for tools of BI with higher credibility. Moreover, to show some of the consequences generated for the bad quality of data inside of the companies and of that it forms this can get worst the productivity and the quality of life of the people, which had tostress it generated. KEY-WORDS Data Quality, Data Mining, Business Intelligence and Return on Investment. Qualidade de Dados A necessidade de conhecer e buscar em nossas bases de dados, e delas extrair informação/conhecimento para apoio à gestão, é fundamental que a informação / conhecimento seja consistida e tenha seus dados validados e que resultados obtidos sejam confiáveis para que a tomada de decisão seja feita em cima de dados confiáveis. Baseado em Qualidade dos dados este artigo tenta dar um pequena contribuição a pessoas que buscam conhecer DATA QUALITY. Negligenciar a qualidade da informação pode levar ao insucesso nas organizações. Procuraremos demonstrar como a Qualidade dos Dados (Data Quality) pode influenciar no sucesso ou fracasso do negócio e este processo requer entendimento mútuo e um objetivo comum entre as áreas da organização visando um bem comum a continuidade do negócio. O grau de excelência dos dados. Os fatores que contribuem à qualidade dos dados incluem: os dados são armazenados de acordo com seus tipos de dados, o dado é consistente, o dado não é redundante, os dados seguem regras de negócio, os dados correspondem aos domínios estabelecidos, os dados são oportunos, os dados são compreendidos bem, os dados satisfazem às necessidades do negócio, o usuário é satisfeito com a validade dos dados e da informação derivados daquele dados, os dados estão completos, e não há nenhum registros duplicados. Porque se preocupar com a Qualidade dos dados? A maior parte do tempo das análises é gasto “buscando” e “limpando” dados. Além disso, dados ruins levam a decisões inadequadas e geram gastos, por exemplo, a perda de clientes e de credibilidade. A qualidade dos dados e o Data Mining (Mineração dos Dados) estão ligadas principalmente a problemas com dados e podem sugerir padrões enganosos. As empresas relacionam-se com seus clientes. Mas a maioria delas - mesmo as que exploram iniciativas de CRM (gestão de relacionamento com clientes) - não conhece as informações certas sobre as pessoas cadastradas em seus bancos de dados. Com tantas variáveis envolvidas em um projeto de gestão de clientes, os dados são freqüentemente negligenciados. E a negligência sobre a qualidade da informação pode levar ao insucesso, até mesmo os programas de CRM com as melhores intenções. Isso não precisa ser assim. As estratégias de CRM que não possuem uma estratégia de dados associada não têm muita chance de sobreviver em longo prazo. Muitas empresas que temos visto investem pesadamente em tecnologia com novos bancos de dados e em capacidade de armazenamento dos dados, mas poucas gastam tempo pensando sobre as suas próprias informações. Muito freqüentemente as empresas não compreendem o volume de dados de que necessitam e quais análises podem gerar a partir deles. Isso varia de empresa para empresa, mas por menor que seja a melhora na qualidade dos dados, ela pode fazer milagres. Data Mining Mineração de Dados ou Garimpar Dados ou Data Mining é um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), buscando identificar padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração; construção de modelo ou definição do padrão; e validação/verificação. No momento atual, muitas organizações têm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias ou pesquisas científicas, porém, quando se fala em utilização ainda não o usam adequadamente os dados para transformá-la em conhecimentos que possam ser utilizados em suas próprias atividades, sejam elas comerciais ou científicas. O poder inovador de informática (avanço de novas tecnologias) está exigindo que, cada vez mais, os profissionais estejam preparados e antenados para conhecer e enfrentar os desafios da Tecnologia da Informação. Data Mining cada vez mais popular como uma ferramenta de administração e gerenciamento da informação, deve revelar estruturas de conhecimento, que possam guiar decisões em condições de certeza limitada. BUSINESS INTELLIGENCE E BPM BI (Business Intelligence) ou inteligência do negócio, se implementado em conjunto com sistemas de informática de forma correta, são uma verdadeira riqueza para as empresas. Estes sistemas são ferramentas vitais e poderosas no processo de tomada de decisão das organizações. BPM (Business Performance Management) é uma metodologia de trabalho que facilita orientar seus negócios de forma ativa na direção que você deseja - de forma rápida e precisa, em vez de ficar passivamente criticando os resultados já ocorridos . O BPM também é considerado como uma evolução do BI, onde o foco está relacionado à forma como se integra a informação proveniente dos vários sistemas da empresa e o modelo de negócios que é composto por um conjunto de processos. BI (Business Intelligence) e BPM (Business Performance Management são conhecidos pelo mercado como um conjunto de ferramentas para aumento da produtividade e para a obtenção de vantagem competitiva. As tendências apontam para a maior utilização dessas ferramentas, sendo BI como um componente essencial nas soluções e BPM se tornando uma aplicação de missão crítica, e com a adoção maciça de BI e BPM em empresas de médio e pequeno porte a partir desse ano, entre outras projeções e com certeza irão aumentar o uso de Data Quality em seu processo de obtenção de dados. CRM (Customer Relationship Management) Gerenciamento de relacionamento com o cliente tem como foco a busca da lealdade do cliente procurando conhecê-lo , atendê-lo surpreendê-lo satisfazendo todas as suas reais necessidades de consumo. Isto é apontado como o novo e inevitável caminho para a sobrevivência nos negócios da empresa. Mais do que uma nova chance de venda de soluções tecnológicas, as maravilhas do conceito pregam uma revolução no modelo tradicional de marketing e vendas. Por este novo conceito o cliente precisa ser visto por todos os departamentos da mesma maneira e a comercialização não deve estar focada nos produtos, mas nas necessidades de cada cliente consumidor. Métodos e Práticas para melhorar a Qualidade de Dados O volume de dados utilizado pelas organizações é muito grande nos dias de hoje, porém é fundamental a garantia de qualidade destes dados. Ao ignorar estas práticas, as organizações podem ter os seus rumos e decisões diretamente afetados pela falta de consistência nos dados em que tais decisões foram baseadas, representando muitas vezes perda de oportunidades de negócio. Algumas práticas deverão ser realizadas para evitar e minimizar tais problemas. Deverão ser adotados padrões e estratégias para reportar e medir continuamente a qualidade dos dados. Para o sucesso de estratégias deste tipo, a cultura de algumas organizações deverá ser mudada, fazendo com que os dados da organização sejam realmente encarados como patrimônio e garantia do futuro da organização. Na obtenção de dados, podem ser citados como principais problemas: - Entrada manual dos dados onde muitas vezes os usuários finais não realizam de forma correta a entrada e manutenção dos dados - Problemas nos processos de conversão dos dados entre plataformas - Tempo inadequado de entrega e obtenção dos dados - Falta de padrões para formatos e conteúdos - Entrada paralela de dados, provocando redundância nos dados - Erros de julgamento decorrentes da falta de conhecimento sobre os dados obtidos - Sistemas legados com pouco controle e validações sobre os dados - Dados provenientes do ambiente externo à organização, não questionados quanto a sua qualidade - Redundância de dados devido ao ambiente altamente fragmentado e heterogêneo das organizações Dois tipos de abordagem para garantir a qualidade dos dados poderão ser adotados nesta fase de obtenção de dados: abordagem preemptiva e abordagem retrospectiva. A primeira aborda a arquitetura e gerenciamento do processo de obtenção de dados, enquanto na abordagem retrospectiva os esforços estão voltados à limpeza e reorganização dos dados, como por exemplo, remoção de redundâncias, fusão e/ou exclusão de alguns dados. Na maioria das vezes em uma abordagem deste tipo, o capital investido é extremamente alto, e dependendo da organização, pode tornar-se inviável. Na fase de distribuição dos dados, poderão ocorrer falhas e problemas, muitas vezes causados por: - Problemas na transmissão dos dados - Falhas e falta de checagem da integridade dos dados transmitidos, fazendo com que os erros se espalhem para os demais sistemas da organização - Escolha incorreta da tecnologia utilizada - Destruição ou alteração dos dados causado por algum pré-processamento inadequado Algumas soluções adotadas nesta fase estão ligadas à verificação constante do envio e muitas vezes da necessidade imediata de retransmissão dos dados, monitoramento das múltiplas fontes de dados utilizadas e ao uso de algum tipo de controle e verificação dos dados transmitidos e recebidos, como por exemplo, a utilização de checksums. Quando citamos a fase de armazenamento dos dados, podemos citar: - Metadados escassos ou desatualizados - Modelos e estruturas de dados inadequadas - Modificações e alterações nos dados por demanda Para tentar amenizar tais problemas, é necessário o planejamento personalizado por domínio e realizado com visão de futuro, além de atualização, classificação, documentação, armazenamento e uso dos metadados, uma vez que estes são responsáveis pela redução de inconsistências e redundância encontradas em sistemas grandes, complexos e heterogêneos. De forma simplista, metadados podem ser definidos como as informações sobre os dados e a descrição de cada componente de um sistema corporativo. Eles podem ser utilizados nas organizações para descrever processos de negócios, e particularmente, o fluxo de dados do processo, e como este processo se relaciona com as diferentes aplicações e processos dentro da organização. Conseqüentemente, é fundamental que os metadados estejam sempre atualizados e disponíveis dentro da organização. A fase de integração dos dados é sujeita a problemas e falhas, causados em sua maioria por: - Múltiplas fontes de dados - Sincronização incorreta - Sistemas legados não apropriados e preparados, e com alto nível de informação proprietária - Junções de dados temporárias e por demanda - Não há entendimento ou conhecimento sobre os dados da organização - Fatores sociais - Falta de controle de processos de negócio - Necessidades de fontes de dados externas Pode-se a integração entre sistemas e pessoas como sendo um dos desafios mais difíceis dentro da organização, pois esta é uma tarefa diretamente ligada a fatores sociais e culturais. Os dados armazenados deverão ser recuperados e utilizados, porém muitas vezes são enfrentados os seguintes problemas: erros humanos, restrições computacionais (incompatibilidade e inadequação de hardware e software). Para minimização destes problemas um planejamento adequado deverá ser feito quanto ao equipamento e software utilizados, pois a arquitetura escolhida/utilizada deverá ser adaptativa permitindo escalabilidade à organização, possuir gerenciamento eficiente, e deve ser escolhida utilizando o bom senso aliado às necessidades específicas que atenderá. Além disso, esta arquitetura deverá estar aderente aos requisitos relacionados ao tempo de resposta esperado dentro da organização, pois este tempo é fundamental para os processos de tomada de decisão. Retorno Sobre Investimentos e credibilidade Cada vez mais, as empresas definem sobre quais investimentos priorizar tendo em vista o ROI do projeto em questão. Sendo assim, para um projeto que almeje como objetivo, melhorar a qualidade dos dados existentes e reorganizar processos de obtenção de dados deve, da mesma forma, possuir em seu escopo uma forma de mostrar ao investidor quais benefícios, diretos e indiretos, que a melhoria da qualidade dos dados pode trazer. Geralmente a questão da melhoria de dados é trazida à tona como possível projeto, decorrente de problemas que se tornam constantes na empresa e que ao serem analisados mostra-se que a origem do problema foi a inconsistência, falta parcial ou corrupção dos dados envolvidos no processo. Segundo o Instituto de Data Warehousing: "a degeneração da qualidade dos dados está lentamente sangrando as empresas até a morte". Esses problemas surgem principalmente nos departamentos que possuem um contato direto com o cliente, como marketing, em sistemas de atendimento ao cliente (CRM), onde dados de baixa qualidade podem trazer inconvenientes como a não entrega do produto ao cliente devido a informação errônea de endereço, por exemplo. Quando um problema dessa natureza ocorre, a imagem da empresa fica seriamente comprometida, e os executivos verificam as possibilidades de extinguir tal ocorrência futura da mesma ordem, é onde entra a necessidade de comprovar a importância da Qualidade de Dados para a empresa. A abrangência da qualidade de dados vai da inexatidão de dados de estoque, até relatórios gerenciais e informações provenientes de sistemas de BI, que são utilizados como grande suporte para tomada de decisões importantes para a corporação. Sendo assim, um dado inserido de forma errada, pode gerar problemas no decorrer da cadeia de processos, originando problemas logísticos, contábeis, financeiros e até políticos. Para evitar esse problema, segundo Laércio Serra, consultor de Business Intelligence, a informação depende de 3 atributos para se adequar a sua necessidade mor: Forma, Idade, Freqüência. Por Forma entende-se o conteúdo, apresentação e confiabilidade do dado, já a Idade refere-se ao tempo de validade e necessidade do dado e a Freqüência diz respeito a periodicidade com que esse dado é atualizado. Serra, ainda afirma, “Muitas informações gerenciais, que são manipuladas no diaa-dia das empresas, não correspondem integralmente às necessidades, sendo, portanto, de qualidade insatisfatória, total ou parcial”. Para que esse tipo de problema não aconteça, o projeto de Data Quality deve importar-se com a criação de um repositório de Meta Dados, ou seja, uma base que contenha informações sobre cada dado manipulado e armazenado da empresa, para que ambigüidades de interpretação entre departamentos e sistemas sejam eliminadas e um padrão estabelecido. Um estudo realizado pela PricewaterhouseCoopers com 600 empresas americanas, inglesas e australianas, 75% delas já tiveram problemas devido a baixa qualidade de dados, ou seja, esse é um problema comum. São exemplos de sintomas da baixa qualidade de dados: relatórios imprecisos; análises de market-share incorretas; ineficiência da área de marketing; custos de compra superiores à média do mercado; desembolso inesperado de caixa; duplicação de informações, e reclamações de clientes, entre outros. Tendo como exemplo o departamento de Marketing, todos os projetos são focados com base no tipo de consumidor a ser atendido, seu comportamento de compra, localidade, ou ainda datas de aniversário, por exemplo, com informações erradas uma campanha, que tem o intuito de fidelizar o cliente, pode acabar por perder o cliente para sempre. Com isso, o investimento realizado na campanha de Marketing mal sucedida, será perdido, e por causa da baixa qualidade de dados. Isso pode custar mais que capital financeiro pode custar danos a imagem da empresa o que é bem pior e mais difícil de ser recuperado. Além disso, pode-se ainda gerar a errônea idéia de incompetência do departamento de Marketing, ocasionando até mesmo em demissões. O fator mais crítico, que pode ser afetado pela falta de qualidade de dados é a credibilidade da empresa e dos sistemas de apoio a decisão. Uma ligação de cobrança ao cliente errado, uma campanha de marketing realizada para o publico alvo não desejado, atraso em entregas, essas ocorrências podem ser todas derivadas da baixa qualidade de dados. Conclusão Tendo em vista a grande dependência aos sistemas de informações, como CRM e BI, por parte das corporações para agilizar os processos de decisão faz-se necessário analisar o quão preciso e confiáveis são (ou devem ser) os dados existentes para a geração de tal informação. Por isso, a Qualidade de Dados torna-se tão importante no momento atual, onde já existe uma enorme quantidade de informação e o excesso muitas vezes mascara e dificulta, em algumas situações, a verificação de veracidade da informação gerada. Técnicas de limpeza, definição de padrões de entrada de dados, definição de um dicionário de dados, criação de um repositório de metadados são alguns dos métodos utilizados para tornar os dados consistentes, livres de redundância conceitual e claro para a geração de informação confiável. Já existem no mercado várias empresas especializadas nesse tipo de projeto, confirmando assim a crescente demanda por esse tipo de projeto, e mostrando que as empresas percebem cada vez mais a importância de possuir não somente dados, mas dados confiáveis. Sendo assim, tendo-se uma boa qualidade de dados, podem-se gerar informações confiáveis, que irão ajudar de forma correta tomadas de decisão, administração da empresa, e até mesmo o dia-a-dia dos colaboradores ficará mais saudável, pois a tensão gerada por problemas corriqueiros, com isso decisões estratégicas serão mais bem fundamentadas, projetos melhor direcionados e o aumento da lucratividade virá como conseqüência. Bibliografia DAVENPORT, T.H , 1998, Putting the Enterprise into the Enterprise System, Harvard Business Review PERROTTI, Eduardo. Estrutura Organizacional e Gestão do Conhecimento. São Paulo: Universidade de São Paulo, 2004. DHAR, Vasant e STEIN, Roger, Seven Methods for Transforming Corporate Data into Business Intelligence, Prentice-Hall, New York - 1997. DAVENPORT, Thomas H., Ecologia da Informação, Editora Futura, São Paulo, 2000 MACHADO, Francis Berenger, Limitações e Deficiências no Uso da Informação para Tomada de Decisões, Caderno de Pesquisas em Administração, São Paulo, v. 09, nº 2, abril/junho 2002 Ballou, D. e Tayi, G. K. Enhancing Data Quality in Data Warehouse Environments. Communications of the ACM, 42(1): 73-78. 1999.