FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO David Nadler Prata Fundamentos de Sistemas de Informação Universidade Federal do Tocantins Curso: Ciência da Computação Disciplina: Fundamentos de Sistemas de Informação Professor: David Nadler Prata TECNOLOGIA E SISTEMAS DE INFORMAÇÃO Após a “carga de dados” em um DW, segue-se a etapa mais importante do processo de BI: O Data Minning. Data Minning ou Mineração de Dados: O que é Data mining: “Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados. Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998) Data Minning ou Mineração de Dados: Exemplo: Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Médio Johnson CA Los Angeles Vermelho Médio •Conclusões: •Produtos azuis são de alto lucro ou •Arizona é um lucro baixo Data Minning ou Mineração de Dados: Uma empresa utilizando data mining é capaz de: Criar parâmetros para entender o comportamento do consumidor; Identificar afinidades entre as escolhas de produtos e serviços; Prever hábitos de compras; Analisar fraudes. comportamentos habituais para detectar Data Minning ou Mineração de Dados: Data mining X Data warehouse: Data mining extração inteligente de dados; Data warehouse repositório centralizado de dados; Data mining não é uma evolução do Data warehouse; Data mining não depende do Data warehouse, mas obtém-se melhores resultados quando aplicados em conjunto; Cada empresa deve saber escolher qual das técnicas é importante para o seu negócio. (Uma, outra ou as duas); Data Warehouse aliado a ferramentas estatísticas desempenham papel semelhante ao data mining, mas não descobrem novos padrões de comportamento. (a não ser empiricamente). Data Minning ou Mineração de Dados: Como fazer Data Mining ? Aprendizagem computacional (Machine-learning) Automação do processo de aprendizagem, através da construção de regras baseadas em observações dos estados e transações do ambiente. Examina os exemplos e seus resultados e aprende como reproduzi-los e como fazer generalizações sobre novos casos Data Minning ou Mineração de Dados: Aprendizagem indutiva: Faz análise nos dados para encontrar padrões Agrupa objetos similares em classes Formula regras Aprendizagem supervisionada – (A.S.) Aprende baseando-se em exemplos (“professor” ajuda a construir um modelo def. classes e fornecendo exemplos de cada classe formular a descrição e a forma da classe) Aprendizagem não supervisionada (A.Ñ.S.) – Aprende baseando-se em observações e descobertas (não se def. classes, deve-se observar os exemplos e reconhecer os padrões por si só uma descrição de classes para cada ambiente). 11 MAP Alípio Jorge Exemplos Áreas de aplicações potenciais: Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais” Exemplos Áreas de aplicações potenciais: Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Exemplos Áreas de aplicações potenciais (continuação): Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde Exemplos Exemplo (1) - Fraldas e cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% . Exemplos Exemplo (2) - Lojas Brasileiras (Info 03/98) Aplicou 1 milhão de dólares em técnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: – – Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente é 220v Exemplos Exemplo (3) - Bank of America (Info 03/98) Selecionou Aqueles entre seus 36 milhões de clientes com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos Empresas de software para Data mining: SAS http://www.sas.com Information Havesting http://www.convex.com Red Brick http://www.redbrick.com Oracle http://www.oracle.com Sybase http://www.sybase.com Informix http://www.informix.com IBM http://www.ibm.com Data Minning ou Mineração de Dados: Corresponde ao ato de extrair informações do DW, a fim de identificar tendências, padrões de negócio e cenários. É possível realizar simulações e fazer testes de hipótese. Para efetuar a mineração é necessário um conjunto de ferramentas denominadas OLAP que serão descritas a seguir. On line Analytical Processing Systems – Sistemas OLAP Nas palavras de Strum (2000, p. 5) “um sistema OLAP é uma ferramenta que permite executar complicadas análises sobre dados históricos usando estruturas multidimensionais armazenadas em um Data Warehouse (DW)”. STRUM, J. Data Warehousing with Microsoft SQL Server 7.0 Technical Reference. Washington: Editora Microsoft Press, 1. ed. 2000. 446f. On line Analytical Processing Systems – Sistemas OLAP O DW serve como base para sistemas OLAP e permite o compartilhamento de informações por toda a organização. Um sistema de CRM, por exemplo, pode utilizar um Data Mart, o qual assemelha-se a um DW, com a pequena diferença de que os dados armazenados nessa estrutura pertencem a um determinado nicho de negócio dentro de uma organização como por exemplo informações sobre os clientes para efetuar o Marketing de Relacionamento Como a idéia do OLAP é trabalhar sobre os dados históricos, de preferência em um conjunto separado da estrutura de dados operacionais, torna-se necessária a transição de dados entre as bases, permitindo assim alimentar a estrutura OLAP com informações atuais seguindo qualquer regra previamente definida para uma análise. Isso é o chamado DTS (Data Transformation Service – Serviço de Transformação de Dados). On line Analytical Processing Systems – Sistemas OLAP Dentre todas as características, a que ressalta com significativa expressividade é o fato de que com uma ferramenta ou serviço OLAP pode ser criado um único sistema que se responsabilize por efetuar toda análise sobre os dados, ao invés de existirem sistemas diferentes realizando análises diferenciadas. Outra vantagem é a eficiência da análise que permite o usuário, de maneira muito interativa, ter respostas para perguntas como “quantos produtos X foram vendidos no mês Y nas cidades de A e B para clientes com idade acima de 30 anos?”. Tais pesquisas podem ser feitas esporadicamente, o que de fato caracteriza um sistema de análise empresarial, um Sistema de Suporte a Decisão (SSD). On line Analytical Processing Systems – Sistemas OLAP OLAP Na figura observamos os seguintes elementos: DTS – Data Transformation Server: Responsável por extrair os dados operacionais e externos e colocá-los em um formato padão para o DWH, fazendo a “carga” dos dados ou seja a transferência. OLPT – On-Line Processing Transaction: São Sistemas de Processamento de Transação (SPT) que operam em modo on-line. Serviço Pivot Table: Estrutura de dados / Arquivos para cruzar dados e permitir a construção de modelos gráficos e multidimensionais das informações que se pretendem extrair através da ferramenta OLAP. On line Analytical Processing Systems – Sistemas OLAP A construção de sistemas desse porte busca atender segundo Strum (2000) os seguintes pontos: Informações com profundidade, com a estrutura em níveis hierárquicos; Comparar grupos de informações sob condições definidas pelo usuário; Gerar informações utilizáveis; Prover informações no tempo certo e preciso; Análises rápidas; Informações acessíveis, permitindo acesso de qualquer lugar, que sejam inteligíveis ou familiares ao usuário final. STRUM, J. Data Warehousing with Microsoft SQL Server 7.0 Technical Reference. Washington: Editora Microsoft Press, 1. ed. 2000. 446f. Componentes de um sistema OLAP Conforme visto, uma ferramenta OLAP é composta por um repositório de dados, podendo ser um DW ou um Data Mart. Além de uma estrutura para armazenamento de dados, ela conta com uma poderosa máquina matemática para efetuar cálculos, e de uma ferramenta que permite a visualização multidimensional de dados, os Cubos. Componentes de um sistema OLAP O processador matemático é utilizado para efetuar consultas ao banco de dados não padronizadas tais como: somas, cálculos de freqüências, cálculos temporais, estatísticas e categorização. Outras operações mais complexas como fórmulas ou algoritmos, conversões e modelagens, além de consultas mais elaboradas são outras capacidades disponíveis por essa ferramenta. Componentes de um sistema OLAP Uma das diferenças cruciais entre sistemas OLAP e OLTP é que o segundo possui um conjunto prédeterminado de consultas a executar, sabendo exatamente o que deve retornar. Já o primeiro não. Este sabe que tipos de dados serão analisados, mas não como será feita a análise, gerando as consultas sob demanda. A utilização de uma base de dados não normalizados, baseada em uma estrutura multidimensional, pode melhorar a performance da análise. Exemplos de consultas OLAP: Quais foram os produtos mais vendidos no mês passado? A média salarial dos funcionários de informática com menos de 5 anos de experiência é maior do que a mesma para funcionários de telecomunicação? Qual foi o total de vendas o mês passado por região de vinhos tintos importados da Europa? Por quais semanas, quais produtos e quais cidades, a variação de venda de produtos em promoção em comparação da semana anterior sem promoção foi 15% Elementos de um modelo lógico de dados multidimensional: exemplo Hierarquia: 1. Geografia 2. País 3. Estado 4. Cidade 5. Dimensões Cubo Etc... Medidas: É representada por uma dimensão especial utilizada para realizar comparações. Inclui membros como: custos, lucros ou taxas. Membros FERRAMENTAS OLAP Exemplos de ferramentas de mercado Cognos Business Intelligence Platform Servidores OLAP: Servidor DOLAP e ROLAP Tipo de ferramenta Front-End Módulo de Análise e Interrogações Ad-hoc – Cognos PowerPlay . Linguagem de Interrogação: SQL. Módulo de Reporting - Cognos ReportNet Tipo de Relatórios: Parametrizável Tipo de Navegação: Suporta Navegação http://www.cognos.com/products/businessintelligence/ Cognos Business Intelligence Platform Ferramenta Web e não Web Web: Browsers e Não Web: Excell. Sistemas Operacionais Windows 95/98/NT/2000/ME/XP; HP/UX; IBM AIX; Solaris/Sun OS. Bases de Dados: Microsoft Access; Oracle RDB; NCR Teradata; Sybase; Oracle; Red Brick; Microsoft SQL Server; Informix; IBM DB2; Nota: Interrogações a Base de Dados (suporte nativo): Oracle; DB2/UDB; SQL Server; DB2/390; DB2/400; Sybase; Informix; Nota: Interrogações a Base de Dados (via ODBC): B2/400; Redbrick; Sybase; MS Access; Teradata http://www.cognos.com/products/businessintelligence/ MicroStrategy 7i Platform Servidores OLAP Servidor ROLAP e recentemente MOLAP Tipo de ferramenta Front-End Módulo de Análise e Interrogações Ad-hoc – MicroStrategy OLAP Services e MDX Adapter. Linguagem de Interrogação: SQL e MDX. Módulo de Reporting - MicroStrategy Report Services Tipo de Relatórios: Parametrizável Tipo de Navegação: Suporta Navegação http://www.microstrategy.com/ MicroStrategy 7i Platform Ferramenta Web e não Web Web: Browsers e E-mail e Não Web: ficheiros. Sistemas Operacionais Windows 95/98/NT/2000/ME/XP; HP/UX; IBM AIX; Solaris/Sun OS. Bases de Dados JDBC; OLE-DB; ODP.NET; Oracle. http://www.microstrategy.com/ Oracle 10g Servidores OLAP Servidor ROLAP, MOLAP e HOLAP Tipo de ferramenta Front-End Módulo de Análise e Interrogações Ad-hoc – Oracle Olap Linguagem de Interrogação: SQL e PL/SQL; OLAP DML (equivalente a PL/SQL mas para multidimensional). Módulo de Reporting – Oracle Reports Tipo de Relatórios: Parametrizável Tipo de Navegação: Suporta Navegação http://otn.oracle.com/products/reports/index.html Oracle 10g Ferramenta Web e não Web Web: Browsers e E-mail Não Web: ficheiros e Excell. Sistemas Operacionais Windows 95/98/NT/2000/ME/XP; HP/UX (PA-RISC e Itanium); IBM AIX; Solaris (SPARC). Bases de Dados Oracle. http://otn.oracle.com/products/reports/index.html Applix Servidores OLAP Servidor ROLAP e MOLAP Tipo de ferramenta Front-End Módulo de Análise e Interrogações Ad hoc – TM1 e TM1 Web e Integra Linguagem de Interrogação: Não referenciada, possívelmente SQL e/ou outra linguagem proprietária Módulo de Reporting – TM1 Web Tipo de Relatórios: Sem informação Tipo de Navegação: Suporta Navegação (drilldown) http://www.applix.com/solutions/ GEAC Servidores OLAP Servidor de outro proprietário (dependência) Tipo de ferramenta Front-End Módulo de Análise e Interrogações Ad hoc – Sem informação Linguagem de Interrogação: Sem informação Módulo de Reporting – Pervasive 2000 SP2a e Crystal Reports 8.0 ou 8.5 Tipo de Relatórios: Dependendo da ferramenta do proprietário Tipo de Navegação: Dependendo da ferramenta do proprietário http://www.performance.geac.com/decision/decision.cfm Hyperion BI Platform Servidores OLAP Servidor ROLAP e MOLAP Tipo de ferramenta Front-End Módulo de Ad-Hoc Queries – Hyperion Intelligence Linguagem de Interrogação : SQL, MaxL Módulo de Reporting – Hyperion Reports Tipo de Relatórios: Parametrizável Tipo de Navegação: Sem informação http://www.hyperion.com/products/bi_platform/ Hyperion BI Platform Ferramenta Web e não Web Web : Browsers, E-Mail, Não Web: Excel, PDF, Lotus Sistemas Operacionais Microsoft Windows 2000 Server; Microsoft Windows 2003 Server ; Solaris Sparc 8.x e 9.x; IBM AIX, Linux Bases de Dados Oracle 8i e 9i, IBM DB2, MS SQL SERVER 2000, MS SQL SERVER 7, Informir, Sybase, Teradata, outros http://www.hyperion.com/products/bi_platform/ Business Objects Servidores OLAP Servidor ROLAP e MOLAP Tipo de ferramenta Front-End Módulo de Ad-Hoc Queries – Suporta Ad-Hoc Queries Linguagem de Interrogação : SQL, MDX Módulo de Reporting – Suporta Reports Tipo de Relatórios: Parametrizável Tipo de Navegação: Drill-Down, Slicing and Dicing, Pivoting, Ranking, Sorting, Alerts e Filter Helps http://www.techsupport.businessobjects.com Business Objects Ferramenta Web e não Web Web : Browsers, E-Mail, Não Web: Excel, PDF Sistemas Operacionais IBM AIX, Solaris, Unix, MAC OS e todas a versões do Windows Bases de Dados Sem informação http://www.techsupport.businessobjects.com Mais ferramentas... Panorama NovaView BI Platform http://www.panoramasoftware.com Crystal Analysis and Reports - http://www.businessobjects.com MIS onVision - http://www.misag.com Arcplan inSight and dynaSight http://www.arcplan.com SoftPro Manager - http://www.softpro.hr SPSS Olap Hub Information Intelligence Platform http://www.spss.com/olap_hub Targit Analysis - http://www.targit.com Databeacon - http://www.databeacon.com/ Q4bis - http://www.q4bis.com/ Hummingbird - http://www.hummingbird.com/products/bi/index.html Vista - http://www.beyond2020.com/products/Vista.html DeltaMaster - http://www.bissantz.de/index_e.html Strategy Analyzer - http://www.strategycompanion.com USoft - http://www.u-soft.com.cn Desempenho 2003 – The OLAP Survey 3 Melhores Tempos de Carregamento e Processamento de Dados: Mas os líderes são... http://www.olapreport.com/market.html Considerações Finais Com o volume de informações gerado pelos diversos sistemas, aumenta o potencial de aperfeiçoamento e inovação da organização através de um processo de inteligência denominado de Business Intelligence. Na prática o BI necessita de um conjunto de ferramentas e técnicas como os Data Marts, agrupados em um Data Warehouse sendo minerados por ferramentas OLAP. Atividade Assista ao filme: Ameaça Virtual (2001) e discuta sobre a falta de ética no processo de BI nas organizações de informática.