Assegurando a qualidade de dados

Propaganda
As empresas usam banco de dados para
monitorar transações básicas, como pagamento
a fornecedores, processamento de pedidos,
atendimento a clientes e pagamento a
funcionários.
Mas elas também precisam de bancos de dados
para obter informações que ajudem a
administrar o negócio de maneira mais eficiente
e auxiliem gerentes e funcionários a tomar
melhores decisões. Se uma empresa quiser saber
qual produto é mais aceito pelo mercado, ou
quais clientes são mais lucrativos, a resposta
estará nos dados.
Em uma grande empresa, com grandes bancos
de dados ou grandes sistemas para funções
separadas, como manufatura, vendas e
contabilidade, são necessários recursos e
ferramentas especiais para analisar vastas
quantidades de dados e extraí-los de múltiplos
sistemas.
Entre esses recursos estão o data warehousing
(armazenamento de dados), o data mining
(mineração de dados) e ferramentas para acessar
bancos de dados internos por meio da Web.
É um banco de dados que armazena dados
correntes e históricos de potencial interesse para
os tomadores de decisão de toda a empresa.
Ele consolida e padroniza as informações
oriundas de diferentes bancos de dados
operacionais, de modo que elas possam ser
usadas por toda a empresa para análise gerencial
e tomada de decisões.
Os dados estão disponíveis a todos para acesso
conforme a necessidade, mas não podem ser
alterados.
São armazéns menores, descentralizados, um
subconjunto de um data warehouse, no qual
uma porção resumida ou altamente focalizada
dos dados da organização é colocada em um
banco separado destinado a uma população
específica de usuários. Focaliza uma única área
de interesse ou linha de negócios, de modo que
pode ser montado com mais rapidez e a custo
mais baixo.
Uma vez que tenham sido capturados e
organizados em data warehouses e data marts,
os dados ficam disponíveis para análises
posteriores. O usuário conta com uma série de
ferramentas para analisar esses dados e, assim,
descobrir novos padrões, relacionamentos e
insights úteis para orientar a tomada de decisão.
Essas ferramentas que consolidam, analisam
e acessam vastas quantidades de dados para
ajudar os usuários a tomar melhores decisões
empresariais são, muitas vezes, chamadas de
inteligência empresarial (business
intelligence-BI).
Entre as principais ferramentas estão os
softwares para consulta e relatórios de bancos
de dados, as ferramentas para análise
multidimensional de dados (processamento
analítico on-line – OLAP) e o data-mining.
Permite a análise multidimensional de dados,
de forma que os usuários vejam os mesmos
dados de diferentes maneiras. Cada aspecto
da informação – produto, preço, custo, região
ou período de tempo – representa uma
dimensão diferente.
É mais orientado por descoberta. Fornece
percepções dos dados corporativos que não
podem ser obtidas com o OLAP, descobrindo
padrões e relacionamentos ocultos em grandes
bancos de dados e inferindo regras a partir
deles para prever comportamentos futuros.
Incluem associações, sequências, classificações,
aglomerações e prognósticos.
Associações são ocorrências ligadas a um único
evento.
Na seqüência, os eventos estão ligados ao longo
do tempo.
A classificação reconhece modelos que
descrevem o grupo ao qual o item pertence, por
meio do exame dos itens já classificados e pela
interferência de um conjunto de regras.
A aglomeração (clustering) funciona de
maneira semelhante à classificação quando
ainda não foram definidos grupos. Descobrirá
diferentes agrupamentos dentro da massa de
dados.
Os prognósticos partem de uma série de valores
existentes para prever quais serão os outros
valores.
A análise preditiva usa técnicas diferentes de
data mining, dados históricos e suposições
sobre condições futuras para predizer
resultados de eventos.
Muitas empresas estão usando a Web para
disponibilizar algumas informações de seus
bancos de dados internos a clientes e parceiros
de negócios. Clientes potenciais podem usar o
site de uma empresa para ver o catálogo de
produtos ou fazer um pedido.
A empresa pode então usar a Web para verificar
a disponibilidade daquele produto no estoque
de seu fornecedor. O fornecedor pode acionar
seus próprios fornecedores, assim como as
empresas de entrega necessárias para enviar os
produtos no prazo.
Essas ações envolvem o acesso e (no caso do
pedido) a atualização de bancos de dados
corporativos por meio da Web.
Cliente
Web Servidor Servidor Servidor Banco
Internet Web
de
de
de
com
aplicativo banco dados
navegador
de
dados
Vantagens de utilizar a Web para acessar os
bancos de dados internos de uma organização:
•Todo mundo sabe usar um software de
navegação Web – os funcionários precisam de
muito menos treinamento
•A interface Web requer pouca ou nenhuma
mudança no banco de dados interno.
Todas as empresas, grandes ou pequenas,
precisam de uma política de informação. Os
dados de sua empresa são um recurso
importante, por isso você não vai querer que os
outros façam o que quiserem com eles. Você
precisa estabelecer regras sobre como os dados
serão organizados e armazenados, e quem terá
permissão para vê-los ou alterá-los.
Principais problemas de qualidade de dados:
•Os dados sobre clientes perdem a validade a
uma taxa de 2 por cento ao mês.
•Outro problema são dados inconsistentes e
redundantes produzidos por múltiplos sistemas.
Ex.: Usar a numeração Extralarge em uma tabela
e XL em outra.
Mas a maioria dos problemas de qualidade de
dados derivam de erros durante a entrada de
dados. A incidência destes erros está
aumentando à medida que as empresas
transferem parte de seu negócio para a Web e
permitem que clientes e fornecedores insiram
dados em seus sites, atualizando diretamente os
sistemas internos.
Auditoria de qualidade de dados: é um
levantamento estruturado da precisão e do nível
de integridade dos dados em um sistema de
informação. Faz-se um levantamento completo
dos arquivos de dados, de amostras dos arquivos
de dados ou da percepção dos usuários finais
quanto à qualidade dos dados.
Data cleansing (limpeza e padronização):
consiste em atividades para detectar e corrigir,
dentro do banco de dados, mas também reforça
a consistência entre diferentes conjuntos de
dados vindos de sistemas de informação
independentes.
Softwares especializados em data cleansing,
disponíveis comercialmente, podem
automaticamente pesquisar arquivos de dados,
corrigir erros nos dados e integrar esses dados
em um formato que faça sentido para toda a
empresa.
Download