Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: • Classificação – Associa ou classifica um item a uma ou várias classes categóricas pré-definidas. • Modelos de Relacionamento entre Variáveis – Associa um item a uma ou mais variáveis de predição de valores reais, consideradas variáveis independentes ou exploratórias • Análise de Agrupamento (Cluster) - Associa um item a uma ou várias classes categóricas (ou Clusters), em que as classes são determinadas pelos dados, diversamente da classificação em que as classes são prédefinidas. Data Mining • Sumarização – Determina uma descrição compacta para um dado subconjunto. • Modelo de Dependência – Descreve dependências significativas entre variáveis. • Regras de Associação – Determinam relações entre campos de um banco de dados. • Análise de Séries Temporais – Determina características sequenciais, como dados com dependência no tempo. Data Mining – Aplicações Data Mining constitui-se em uma tecnologia capaz de automatizar processos de busca por informações preditivas que podem estar ocultas dentro de um amontoado de banco de dados ou relatórios gerenciais. Questões que tradicionalmente exigem um extensivo trabalho de análise podem agora ser resolvidas diretamente dos dados — instantaneamente, já que as ferramentas Data Mining fazem uma verdadeira “varredura” nos bancos de dados, buscando identificar padrões. Um exemplo são as análises feitas com dados de vendas de varejo para descobrir supostas relações entre produtos sem conexão aparente mas que são muitas vezes vendidos juntos. Data Mining – Aplicações Outras descobertas incluem detecção de transações fraudulentas com cartões de crédito e identificação de anomalias que podem representar erros nos registros dos dados comerciais. Quando as ferramentas Data Mining são implementadas em sistemas de processamento de alta performance, elas podem analisar massivos bancos de dados em questão de minutos. Através de um processamento mais rápido, os usuários podem executar simulações com diferentes modelos, compreendendo dados ainda mais complexos, obtendo então predições mais aperfeiçoadas. Data Mining – Aplicações Análise Financeira • Predição de pagamentos de empréstimos, política de créditos para clientes. • Classificação e clustering de clientes para fins de marketing direcionado. • Detecção de lavagem de dinheiro e outros crimes financeiros. Necessita integração de diferentes bancos de dados : dados bancários, registros de polícias estaduais e federais. Data Mining – Aplicações Comércio varejista / E-comerce • Marketing - Campanhas publicitárias • Sugestões de compras aos clientes • Melhor design de sites de compras • Distribuição de artigos nas prateleiras • Análise de fidelidade da clientela Data Mining – Aplicações Indústria de Telecomunicações • Identificação de atividades fraudulentas - padrões atípicos de comportamento. • Regras de associação e padrões sequenciais “Se um cliente mora em São Paulo e trabalha fora de São Paulo, então é bem provável que ele faça uma chamada interurbana entre as duas localidades por volta de 17:00h e duas horas depois utilize o celular por pelo menos 30 minutos.” Data Mining – Aplicações Aplicações para Bancos de Varejo ABC Bank é um banco full-service com 1 milhão de clientes. O Vice Presidente de Marketing está interessado em persuadir os clientes mais ricos a transferir os seus saldos de outros cartões de outros bancos para o cartão do ABC Bank. Planeja atiçá-los com uma oferta de juros baixos para financiar os saldos que forem transferidos. Uma campanha como esta geralmente apresentaria um custo elevado, portanto o planejamento de marketing deseja dirigir o foco para aqueles que apresentam maiores chances de aceitar a oferta e que possuem hábitos de consumo específicos. O Vice Presidente decide fazer um teste e envia uma “mala direta luxuosa” para uma amostra de 10.000 clientes escolhidos aleatoriamente. Quinhentos clientes aceitaram a oferta = ( 5% de resposta ). Data Mining – Aplicações Aplicações para Bancos de Varejo Aplicando um Data Mining com o software Discovery Server, o banco usa a informação obtida com os 10.000 clientes para criar modelos preditivos de segmentação, e aplica em seguida este "molde" nos 990.000 clientes restantes para extrair os registros de clientes que apresentam as mesmas características. O software Segment Viewer mostra as regras, ou características , de cada segmento encontrado, assim como a participação na receita bruta. O Vice Presidente aprende que o número de saques em Caixa Automático e como também que clientes antigos que vem mantendo contas no banco são fatores preditivos para determinar quem apresentará maiores chances de aceitar uma oferta de transferência de saldo. Data Mining – Aplicações Aplicações para Bancos de Varejo Ele fica surpreso ao saber que o saldo do cartão não é necessariamente um fator que determina quem vai participar da promoção. Trabalhando com o modelo de lucratividade Profit Chart® , ele aprende que é possível otimizar os lucros se dirigir os esforços para os três segmentos que apresentam maiores chances de responder à promoção, mesmo que estes não sejam os mais volumosos quando comparados a outros segmentos de clientes. Concentrando o investimento nos três segmentos mais receptivos recebe o mesmo número de respostas se enviasse para uma lista aleatória 10 vezes maior, obtendo a mesma receita com um custo dez vezes menor. Data Mining – Softwares comerciais Nome Fabricante Funções Destaque Inteligente Miner IBM Algoritmos para regras de associação, classificação, regressão, padrões sequenciais, clustering. Integrado com o SGBD DB2 da IBM. Grande escalabilidade dos algoritmos. Enterprise Miner SAS Algoritmos classificação, Institute Inc. regressão, pacotes de análise estatística. Grande variedade de ferramentas estatísticas. MineSet Silicon Graphics Inc. Algoritmos para regras de associação, classificação, análise estatística. Um robusto conjunto de ferramentas avançadas de visualização. Clementine Integral Solutions Ltd. Algoritmos de regras de Interface indução, redes neurais, orientada-objeto. classificação e ferramentas de visualização. Processo Analítico - OLAP O OLAP (Online Analytical Processing – Processamento Analítico Online) é uma tecnologia usada para organizar grande bancos de dados comerciais e oferecer suporte à inteligência comercial. Os bancos de dados OLAP são divididos em um ou mais cubos, e cada cubo é organizado e projetado por um administrador de cubo para se ajustar à forma que você recupera e analisa os dados de forma que seja mais fácil criar e usar os relatórios de tabela dinâmica e os relatórios de gráfico dinâmico que de que você precisa. Basicamente, é uma classe de tecnologias projetada para análise de dados multidimensionais, muito utilizada nos sistemas de suporte à decisão, permitindo avaliar séries históricas de dados. Processo Analítico - OLAP O OLAP é uma categoria de tecnologia de software que possibilita que os analistas, gerentes e executivos tenham entendimento sobre os dados de forma rápida, consistente e com acesso interativo a uma ampla variedade de visões possíveis de informações que foram transformadas a partir de dados brutos para refletir a dimensionalidade real da empresa como entendida pelo usuário. É uma ferramenta de Business Inteligente utilizada para apoiar as empresas na análise ad-hoc de suas informações, visando obter novos conhecimentos que são empregados na tomada de decisão. As ferramentas OLAP surgiram com a intenção de facilitar a busca por informações em data wharehouses, permitindo a procura de dados relevantes, com maior rapidez e visualização em perspectivas multidimensionais. Banco de dados Multidimensional - MDD A modelagem de dados descreve e representa de uma forma abstrata os dados de uma organização. Data Warehouses e ferramentas OLAP se utilizam do modelo de dados multidimensional e apresentam informações na forma de cubos de dados (Data Cubes). Um modelo dimensional é uma forma de modelagem de dados que acondiciona os dados de acordo com consultas e processos específicos do negócio. Os objetivos são a compreensibilidade dos usuários de negócio e o desempenho de consultas multidimensionais. Banco de dados Multidimensional - MDD Os benefícios da modelagem multidimensional são dois: De um lado, ela torna os esquemas de dados mais compreensíveis para os usuários finais e por outro lado, ela permite usar armazenamento específico e técnicas de acesso que melhoram o desempenho de queries. A maneira para obter estes benefícios é a simplificação dos esquemas de dados, de forma que eles só contenham as coisas essenciais. Esses esquemas são próximos da concepção de dados dos analistas, e sugerem um tipo específico de queries, de forma que o sistema pode ser personalizado facilmente para resolvê-las com bons tempos de resposta.