Capítulo 7: Construindo SAD orientado a dados e documentos Como os gerentes acessam e usam grandes bancos de dados de fatos históricos e externos? SAD orientado a dados Provêem o acesso e a manipulação de dados históricos e, em alguns casos, de dados externos Sistemas de arquivos simples que oferecem facilidades para recuperação de dados, com funcionalidades diversas Armazém de dados trazem algumas funcionalidades adicionais Ferramentas OLAP SIE e GIS SAD orientado a documento Análise e recuperação de documento Um conjunto de docs relacionados e pouco estruturados Máquinas de busca, ferramentas de indexação e sumarização Gestão de doc e de conhecimento Comparação entre os dois tipos de SAD Dados estruturados vs. não estruturados Diferentes ferramentas de análise Armazenamento de dados e documentos Recuperação e indexação Atendimento de necessidades do usuário O que deve ser feito e quando??? 4 subcategorias de SAD orientado a dados Armazéns de dados OLAP / BI SIE SAD espacial Armazéns de dados Orientado a assunto Integrado Foco nos aspectos de negócio ou no seu formato organizacional (clientes, fornecedores, e empregados) Os dados são armazenados num formato consistente com uso de padrões, áreas de domínio, atributos físicos e valores Considera da idade do dado Mantém a integridade do dado O dado não se altera enquanto estiver no armazém de dados Um armazém de dados (teradata) OLAP - On-Line Analytical Processing Permite a criação de várias visões e representações dos dados BD multidimensional Captura e apresenta dados e conjuntos de dados que são dimensionados com a ajuda de atributos relevantes BD tridimensional - Cubo Agregação do dado ao SAD SIE (Executive Information System) Ênfase em dados gráficos Retira informação do BD corporativo Provê relatórios executivos para a alta gerência Foram inicialmente desenvolvidos sem ligação com SAD SIE vs. SI SAD espacial Um sistema de suporte que manipula grandes quantidades de mapas Auxilia as pessoas a acessar, manusear e analisar dados que possuam conteúdo geográfico Exemplo: análise de áreas com altos índices de crimes, análise de distribuição geográfica de clientes, análise de zonas eleitorais, etc SAD orientado a dados vs. BI BI é um termo guarda chuva usado para sistemas de software que melhoram a tomada de decisão em negócios com o uso de SAD orientado a dados Gerentes e SAD orientado a dados Gerentes esperam achar suas próprias respostas para questões de negócios Gerentes NÃO querem esperar por relatórios financeiros ou de mercado preparados por analistas que manipulam bases de dados Gerentes são os clientes e defensores dos SAD orientados a dados Dados de um SAD vs. Dados Operacionais Dados de um SAD – são dados SOBRE transações e ocorrências Dados operacionais – são registros de dados específicos sobre uma dada transação de negócio Estes dois tipos de dados diferem em cinco dimensões: Estrutura do Dado, Validade, Sintetização, Volatilidade, e Dimensão Dados de um SAD vs. Dados Operacionais Estrutura do Dado Dados de um SAD Tabelas precisam ser agregadas para que uma resposta seja obtida a uma query Não inclui detalhes de uma transação Inclui uma síntese da transação Pode ter redundância na estrutura de dados se isto refletirá em maior velocidade – normalização não é uma necessidade Dados de um SAD vs. Dados Operacionais Estrutura do Dado Dados Operacionais Software e hardware são otimizados para suportar transações sobre as operações rotineiras Armazenados em muitas tabelas Os dados armazenados representam informação sobre uma transação específica Dados de um SAD vs. Dados Operacionais Validade Dados de um SAD É uma visão sobre o dado operacional num dado momento do tempo Séries históricas do dado operacional Armazena múltiplas visões do dado operacional Dado Operacional É o estado atual de uma dada transação de negócio Dados de um SAD vs. Dados Operacionais Sintetização Dados de um SAD Sintetizado na Base de Dados Dado Operacional DETALHADO, não é sintetizado na tabela Dados de um SAD vs. Dados Operacionais Volatilidade Dados de um SAD Não são voláteis Dados Operacionais São voláteis, os dados são alterados dependendo se uma nova transação ocorre Dados de um SAD vs. Dados Operacionais Dimensão Dados de um SAD Têm múltiplas dimensões Sempre referente ao ponto de vista de um gerente ou de um analista Dados Operacionais Têm uma única dimensão Metadados Dados sobre dados Provêem um diretório que apóiam o DB de um SAD na localização de conteúdo em DW ou repositórios de dados Guias para localização de dados – mapeando-os do ambiente operacional para o ambiente do armazém de dados Metadados Servem como guias para os algoritmos de sintetização de dados detalhados Informação semântica associada a uma dada variável Deve incluir definições de negócio associadas ao dado, descrições de tipos de dados, potenciais valores, a fonte original do sistema, formatos de dados, e outras características Síntese das Diferenças Fatores Estrutura Dados Dados Operacionais normalizado Dados de um SAD integrado Validade atual histórico Síntese nenhuma Volatilidade volátil extensiva em alguns sistemas não volátil Dimensão Uma dimensão Metadado desejável Múltiplas dimensões requerida Uma arquitetura interconectada Armazenamento de dados Uma ou mais bases de dados Componentes para extração de dados e filtros Query e relatórios Interface para análise dados e apresentação Arquitetura Implementação Resultados que devem ser alcançados O armazenamento de dados não é estático – visões temporais são adicionadas Infra-estrutura de suporte a decisão inclui hardware, software, pessoas e procedimentos A estrutura para armazenamento de dado e a implementação deve ser examinada no contexto de toda a infra do DSS Implementação Aspectos técnicos Deve prover análises requeridas com desempenho aceitável Deve suportar as análises de dados requeridas pelos tomadores de decisão Web based, tempo real Processo de desenvolvimento Desenvolvimento de SAD orientado a documento Coleta inicial de dados ou diagnóstico Como os doc serão armazenados? Busca, recuperação, síntese e apresentação Como você agrega valor? Recuperar e apresentar será suficiente? Rastrear o histórico, achar padrões Alcançando sucesso Ache um projeto campeão Esteja informado sobre tecnologias Esteja informado acerca dos custos Invista em treinamento Divulgue o SAD Conclusão Diferentes tecnologias são necessárias para se construir SAD usando dados estruturados e documentos SAD orientado a dados surgem de uma simples verificação de fatos para uma análise de dados mais sofisticada envolvendo grandes massas de dados SAD orientado a documentos representam mais uma inovação Questões para revisão O que faz uma empresa demandar o uso de armazéns de dados e OLAP? Como os gerentes podem aumentar as chances de sucesso de um SAD orientado a dados ou documentos? O que é um EIS (Executive Information Systems)? Porque a normalização não é necessária em SAD orientado a dados? Exercício 01 Excel Pivot Table Exercise The Pivot Table tool in Microsoft Excel has some similarities to many OLAP tools. Create a small table with 5 columns (time, shoe style, store, price and quantity). Load some data into the table and launch the Pivot Table tool. Place the column dimensions in the Row, Column and Page fields; put the measures price and quantity in the data area. Exercício 02 Evaluate Data-Driven DSS Vendors. Critique and evaluate a group of DSS vendor Web sites and read their product information. Product categories and vendor groups include OLAP/Multidimensional database vendors, data mining, Executive Information Systems, GDSS, Report and Query tools, Geographic Information Systems. Check Larry Greenberg's "Data Warehousing Information Center" (http://www.dwinfocenter.org) Web site and the DSSResources.COM Vendors (http://dssresources.com/vendorlist/) Web page. Questions you should try to answers include: what is the product category? what is the product used for? how informative about the vendor's products are the web sites ? which are the best web sites? worst web sites? which products would you want to test or learn more about?