Mineração de Dados aplicada à Gestão de Negócios Aula 1 Introdução - Mineração de Dados Prof. Dr. Sylvio Barbon Junior [email protected] Mineração de Dados aplicada à Gestão de Negócios Sumário 1) Mineração de Dados 1) 2) 3) 4) 5) 2) 3) 4) 5) Atividades Relacionadas; Desafios; Exemplos de aplicativos; Últimos assuntos; Projeto de Mineração de Dados; Mineração de Texto Classificação Visualização de Dados Exercício. Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Visualização do Modelo Avaliação do Modelo Construção de Modelo Transformação dos Dados Preparação de Dados Seleção e Amostragem Fornecimento dos Dados DATA MINING Knowledge Discovery in Databases Data Mining pode ser definido de diversas maneiras em várias áreas, a definição mais tradicional para o meio acadêmico é “The non-trivial extraction of implicit, previosly unknown, and potentially useful information from data” (Frawley, 1991). Knowledge Discovery in Databases Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Motivação: 1) Aumentar a capacidade de processamento e armazenamento; 2) Inviabilidade de análise manual dos dados Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Maiores atividades da Mineração de Dados: 1) Análise exploratória de Dados; 2) Modelagem descritiva dos dados: a) Determinação das distribuições das informações; b) Modelagem da relação entre os dados; c) Particionamento das informações em grupos. 3) Modelagem Preditiva: a) Classificação; b) Regressão; 4) Descoberta de Padrões e Regras; 5) Recuperação de conteúdo; Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Quadro comparativo: Coleção de Dados Acesso aos Dados Data Warehousing e Ferramenta de Sup. a Decisão Questão de Gerencial “Qual foi meu lucro ano passado?” “Quais foram minhas vendas em Londrina em Março” “Quais foram as vendas em Londrina comparadas com Curitiba?” “Qual a minha expectativa de venda em Curitiba mês que vem?” Questão Tecnológica Discos de armazenamento Banco de dados relacionais e SQL Banco de dados Multidimensionais Algoritmos avançados e bases maciças Característica Entrega resumos e documentos estáticos Entrega documentos dinâmicos Entrega documentos dinâmicos em múltiplos níveis Prospecção proativa de entrega de informação Data Mining Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Os maiores desafios da Mineração de Dados: Uso de dados de banco de dados transacionais para a mineração Redução de Dados Transformação de Dados Limpeza dos Dados “Sparsity” dos Dados Lidar com dados raros Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Exemplos de Aplicações em Mineração de Dados: 1) Previsão de vendas; 2) Gerenciamento de estoques e armazenamento; 3) Descobertas científicas; 4) Jogos; 5) Esportes; 6) Gestão de Relacionamento com o Consumidor; 7) Aquisição de Consumidores; Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Assuntos ultimamente tratados pela Mineração de Dados: 1) Mineração em diferentes tipos de base (documentos, planilhas, BDR); 2) Mineração interativa com diferentes níveis de abstração; 3) Incorporação de informação de background; 4) Linguagem de consulta para Data Mining; 5) Apresentação e visualização de resultados de Data Mining; 6) Tratamento de ruído e bases incompletas; 7) Avaliação de Padrões – “interestingness”; 8) Algoritmos eficientes e escaláveis para mineração de dados; 9) Manipulação de dados complexos; Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Projeto de Mineração de Dados: Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Projeto de Mineração de Dados (Compreender os Dados): Aquisição dos Dados Acesso aos Dados Integração dos Dados Coleção Inicial dos Dados Descrição dos Dados Variáveis Estatísticas Descritivas Relatórios com a descrição dos dados Qualidade na Avaliação dos Dados Valores perdidos Outliers e Qualidade dos Dados Mineração de Dados aplicada à Gestão de Negócios 1) Mineração de Dados Projeto de Mineração de Dados (Compreender os Dados): Data Transformation Como expressar as variáves dos dados? Data Imputation Como lidar com informações que estão faltando? Data Weighting Todos os casos devem ser tratados da mesma forma? Data Filtering Como tratar outliers e dados inexperados? Data Abstraction Como lidar com informações temporais (séries temporais)? Data Reduction Como reduzir a base para os primeiros experimentos: 1) Eliminar Registros? (Amostragem de Dados) 2) Diminuir a Dimensão? (Redução de Dimensionalidade) 3) Modificar Valores? (Discretização dos Dados) Data Derivation Posso criar novas variáveis? Mineração de Dados aplicada à Gestão de Negócios 2) Mineração de Texto É a pesquisa por informação em documentos virtualmente não estruturados. Segundo McKnight é o processo de descoberta de algo novo, preciosamente desconhecido, potencialmente útil originário de documentos de negócios, comentários de clientes, páginas de internet e aquivos xml. Assim, a Mineração de Texto pode ser aplicada em muitas aplicações e campos, incluindo: 1. Marketing; 2. Segurança Nacional e das corporações; 3. Medicas e biomédicas; 4. Legais e casos que envolvam a lei; 5. Finanças corporativas; 6. Relações Públicas. Mineração de Dados aplicada à Gestão de Negócios 2) Mineração de Texto Softwares comerciais e abertos para Text Mining: 1) SAS-Text Mining; 2) SPSS-Text Mining e Text Analysis para questionários; 3) STATISTICA Text Miner; 4) GATE – Natural Languagem Open Source; 5) RapidMiner; 6) R-Language programming text mining; 7) Practical – text mining com Perl; 8) ODM – Oracle Data Mining; 9) Megaputer´s Text Analyst; Mineração de Dados aplicada à Gestão de Negócios 2) Mineração de Texto Estudo de Caso – Redes Sociais: 1) As “Social Medias” tem dominado a Internet, modificando o comportamento e a maneira de comunicação das pessoas. 2) Facebook alcançou um bilhão de usuários; 3) Twitter conta com duzentos milhões de usuários; 4) As análises nas redes sociais proporcionam: a) Reconhecimento de pessoas importantes/influentes; b) Subgrupos e usuários conectados; c) Como rumores sobre doenças, eventos e catástrofes se espalham. d) O impacto de produtos e assuntos; e) Avaliação de problemas para assistência a clientes; f) Identificação e compreensão da opinião da população sobre diversos temas. Mineração de Dados aplicada à Gestão de Negócios 2) Mineração de Texto Estudo de Caso – Redes Sociais: - Indexação Tradicional: - - TF-IDF (Term Frequency–Inverse Document Frequency) LSI (Latent Smantic Indexing) Predição de Link: - “Recomendação de Amizade” Considera os vértices desconectados entre pares de nós (arestas) por meio de pontuação: m ln( ) u w= ln(2) - Sendo w a pontuação (peso), m a probabilidade de um nó representar a mesma pessoa, u é a chance de um atributo em comum. Mineração de Dados aplicada à Gestão de Negócios 2) Mineração de Texto Estudo de Caso – Redes Sociais: - Predição de Link: - - O calculo é feito no momento do inicio da sessão do usuário; Para muitas bases tal calculo pode ser muito caro; Diversas formas de predição de sugestão são estudados para minimizar a árvore de possibilidades; O usuário quando submete que não é amigo de “tal pessoa” auxilia exponencialmente o algoritmo; Combinando diversas características e outros atributos, é possível ter um mecanismo eficiente de sugestão de amigos. Contas duplicadas: - Sistemas de vendas como eBay e Amazon são utilizados como ferramentas de vendas; Uma forma de garantir uma boa compra e a qualidade dos serviços prestados é avaliar a reputação do vendedor. Muitos usuários com reputação baixa criando outras contas. O desafio é encontrar contas duplicadas de vendedores; Para tal, faz-se o uso da mineração de dados para reconhecer tais perfis. Mineração de Dados aplicada à Gestão de Negócios 3) Classificação - Classificação é a operação de separar diversas entidades em classes; - As classes podem ser funções matemáticas, regras de negócios ou limites de problemas; - Quando a classificação é baseada em características definidas e se conhecem alguns exemplos, chama-se esta classificação de supervisionada. - Quando não se conhece exemplos da classe que está sendo avaliada, chamase de não supervisionada. - Uma abordagem tradicional de redes não supervisionadas é o clustering. Mineração de Dados aplicada à Gestão de Negócios 3) Classificação Exemplos de Métodos de Classificação 1) Árvores de Decisão (Decision Trees) 2) CHAID (Chi-squared Automatic Interaction Detection) 3) Random Forests e Boosted Trees 4) Regressão Logística 5) Redes Neurais Artificiais 6) K-nearest neighbor 7) Naïve Baysesian classifier. Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Entre os vários mecanismos de visualização dos dados, o Grafo é popularmente utilizado e agrega diversas avaliações. - Os dados podem ser tratados como nós (nodes), ligações (edges ou links) e apresentam diversas medidas. - Em um grafo, podemos tratar o resultado como sendo um conjunto de vértices e arestas que podem formar árvores e florestas. - As arestas (ligações) podem ser rotuladas e terem pesos (grafos ponderados), que são utilizados para encontrar caminhos e descrever soluções com baixo custo ou alto lucro. Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados - Bacon Number: - Grafo não direcionado; - As ligações são criadas em participações em filmes e eventos; - Por exemplo, Elvis Presley tem o “Bacon Number” igual a 2. Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados aresta vértice vértice Relação de adjacência simétrica aresta Grafo Direcionado (dirigido) Grafo não Direcionado Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Vértice de grau 0 Vértice de grau 1 Grau 3 7 Grafo isolado ou não conectado Grau 2 Grafo conectado Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Grafos G Grafos G’, que é subgrafo de G Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Representação de Grafos (redes): 1) Lista de Adjacência Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Representação de Grafos (redes): 2) Matriz de Adjacência Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Estruturas Básicas e Propriedades - Clique: Grupo de vértices de qualquer tamanho cujos nós estão totalmente conectados; - Cluster: São como os Cliques, mas nem todos os nós estão conectados e é observável a ligação entre outros agrupamentos densos. Clique 3 Clusters Mineração de Dados aplicada à Gestão de Negócios 4) Visualização de Dados Estruturas Básicas e Propriedades - Redes Egocêntricas Mineração de Dados aplicada à Gestão de Negócios 5) Exercício 1) Crie uma lista com 20 amigos do Facebook, será uma lista de adjacência que descreva as conexões. Visualize as conexões no Gephi e responda as seguintes questões: a) Qual o amigo com o maior grau? b) Qual amigo é o mais centralizado? c) Foi possível detectar clusters óbvios? d) Algum nó pode ser considerado um outlier?