Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados Sylvio Barbon Junior [email protected] 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 1 Sumário I Etapa I I I I I I I I Inteligência de Negócios Visão Geral sobre Mineração de Dados Input: Conceitos, Instâncias e Atributos Etapas vinculadas à Mineração de Dados Estudo de Caso 1: Segurança em Redes Sociais Digitais Output: Representação do Conhecimento Etapa II I I I I Algoritmos Básicos Weka: Framework para Machine Learning Avaliando os Resultados Estudo de Caso 2: Produção de Uvas 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 2 Inteligência de Negócios BI - Business Intelligence I Definição: Processo de coleta, organização, análise, compartilhamento, monitoramento de informação que oferecem suporte a gestão de negócios. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 3 Inteligência de Negócios Comparação de Terminologia 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 4 Visão Geral sobre Mineração de Dados Data Mining - Mineração de Dados I Volume de dados no qual temos acesso e geramos; I Redução dos custos de equipamentos de armazenamento; I Fácil disponibilidade e compartilhamento dos dados; I “As the volume of data increases, inexorably, the proportion of it that people understand decreases alarmingly"; I Distanciamento entre: compreensão e geração de dados; I Um objetivo mais direto da Mineração de Dados é solucionar problemas analisando dados passados, presentes em um conjunto de dados (dataset); I Definição de Mineração de Dados: É o processo de descoberta de padrões em dados. Este processo precisa ser automático ou semi-automático. Os padrões reconhecidos precisam ser significativos e agregar vantagens. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 5 Visão Geral sobre Mineração de Dados Machine Learning - Aprendizado de Máquina I O que é aprendizado? I I I I I Adquirir conhecimento por meio de estudos; Tornar-se consciente por meio da informação ou observação; Persistir na memória; Informar-se sobre algo; Receber instruções; I Convertendo para computação: Conhecimento e Desempenho; I Definição de Aprendizado de Máquina: É uma sub-área da Inteligência Artificial focada no desenvolvimento de algoritmos que podem aprender, melhorar, reconhecer e predizer novas informações baseando-se em dados. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 6 Visão Geral sobre Mineração de Dados Exemplos de Áreas de Aplicação I Web Mining: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 7 Visão Geral sobre Mineração de Dados Exemplos de Áreas de Aplicação I Apoio a Decisão Estratégica: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 8 Exemplos de Áreas de Aplicação I Varredura de Imagens: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 9 Visão Geral sobre Mineração de Dados Exemplos de Áreas de Aplicação I Previsão de Consumo Energético: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 10 Visão Geral sobre Mineração de Dados Exemplos de Áreas de Aplicação I Diagnóstico por Imagem: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 11 Input: Conceitos, Instâncias e Atributos Conceitos I Conceito: Aquilo que se está tentando encontrar [Classe, Grupo, Rótulo]; I Inteligibilidade: Capacidade de ser compreendido e discutido; I Operacional: Capacidade de ser aplicado a exemplos atuais; I Instância: É um indivíduo, um exemplo independente do conceito a ser aprendido [Elemento, Exemplo, Amostra]; I Atributos: São os valores que qualificam os aspectos de uma Instância [Descritor, Característica, Valor]; I Instâncias Multi-rótulos: Quando uma instância pertence a múltiplas classes [ multilabeled instances]; I Modelo: É a descrição da solução aprendida I Aprendizado Supervisionado: É o nome dado as técnicas de aprendizado baseados em exemplos rotulados, utilizados na fase de treinamento dos modelos. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 12 Input: Conceitos, Instâncias e Atributos Tipos de Atributos I I I I Atributos Nominais: “Relacionado a nomes”, podem ser símbolos ou palavras que relacionam-se as dimensões nos elementos. Exemplo: “marrom”, “vermelho”, “casado”, “divorciado”. Atributos Binários: São atributos que variam entre duas possibilidades. Normalmente são relacionados a presença ou ausência de uma categoria. Exemplo: “fumante” e “masculino”. Podem ser simétricos quando os valores tem o mesmo peso ou assimétricos quando os valores são de importâncias diversas. Exemplos: gênero (simétrico) e HIV (assimétrico). Atributos ordinais: Estão relacionados a ordem ou ranking de algo. Podem ser obtidos pela discretização de informações numéricas. Este atributo, assim como nominal e binário são qualitativos (que descrevem algo). Exemplo: tamanho como pequeno (1), médio (2) e grande (3). Atributos numéricos: É um atributo quantitativo, que mede quantidade de algo e é representado por valores inteiros ou reais. Exemplo: temperatura, altura, pressão, velocidade etc. Devido a sua escala, pode-se computar tendências estatisticamente. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 13 Input: Conceitos, Instâncias e Atributos Tipos de Atributos I Dados esparsos: Quando muitos atributos de uma instância são “0". A representação destes dados se torna impraticável. Soluções identificação de atributos não zero normalmente são aplicadas. Exemplo: I {0, X , 0, 0, 0, 0, Y , 0, 0, 0, “ClasseA”} I {1X , 6Y , 10“ClasseA”} I Valores desconhecidos: São valores corrompidos ou que não estão presentes no dataset. Medidas como atribuição pela média ou eliminação da instância, são práticas para lidar com esse tipo de problema. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 14 Input: Conceitos, Instâncias e Atributos Padrão ARFF I ARFF: Attribute-Relation File Format é um dos padrões para a criação dos datasets para Mineração de Dados. É um arquivo de texto ASCII que descreve um dataset, seus atributos e instâncias. Exemplo: @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class Iris-setosa,Iris-versicolor,Iris-virginica @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 15 Etapas vinculadas à Mineração de Dados KDD I Sistemas de Descoberta de Conhecimento: A Mineração de Dados é o kernel de um sistema Knowledge Discovery System KDD 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 16 Etapas vinculadas à Mineração de Dados KDD 1. Seleção: Tem como objetivo agrupar, filtrar e obter os dados que serão minerados. 2. Pré-processamento: Tem o objetivo de melhorar a qualidade dos dados, isto é aumentar a Acurácia, Completitude, Consistência, Sequência, Credibilidade e Interpretabilidade. I I I I Data Cleaning (limpeza) [Valores ausentes, ruído] Data Integration (integração) [Redundância, Conflitos e Correlação] Data Reduction (redução) [Redução de Dimensão, Redução de Amostras] Data Discretization (discretização) [Binning, Histograma, Árvore] 3. Transformação: Tem com objetivo agregar atributos, normalizar valores, construir e suavizar valores para contribuir na mineração dos dados. 4. ** Mineração de Dados ** 5. Interpretação, Avaliação e Visualização: Contempla mecanismos que facilitam a exposição e validação do conhecimento obtido. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 17 Etapas vinculadas à Mineração de Dados Projeto de Mineração de Dados I Modelo generalizado de projeto de Mineração de Dados. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 18 Estudo de Caso: Segurança em Redes Sociais Digitais I Área de Mineração de Texto (mineração em base de dados textuais). 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 19 Estudo de Caso: Segurança em Redes Sociais Digitais I IGAWA, R. A. Mineração de Texto e Wavelets na Classificação de Contas em Redes Sociais Digitais. 71 p. Qualificação de Mestrado (Mestrado em Ciência da Computação) – Universidade Estadual de Londrina, Londrina–PR, 2015. I Resumo:Para auxiliar a descoberta de fraudes em RSDs, este trabalho propõe a classificação de contas baseada na TDW para detectar a disseminação de conteúdo textual de bots. O principal objetivo da classificação é distinguir os padrões de classes em: humanos, cyborgs ou bots. A abordagem proposta analisa a distribuição de termos chaves enquanto mantêm custo computacional adequado para RSDs. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 20 Estudo de Caso: Segurança em Redes Sociais Digitais I Dataset: Base de Tweets (mensagens do Twitter) relacionados a Copa do Mundo de 2014. I Classes: Humano, Cyborg, Bot e Humano, Não Humano I Atributos: Descritores textuais (Comprimento do Corpus, Lexicon e Coeficientes TDW) I Pré-processamento: Discretização com novo padrão de pesagem LBCA (inovação) I Classificador: Random Forests (Ensemble de árvores) e Multilayer Perceptron (ANN) I Resultado: 94% para HCB e 100% para HnH. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 21 Estudo de Caso: Segurança em Redes Sociais Digitais I Modelo proposto: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 22 Estudo de Caso: Segurança em Redes Sociais Digitais I Resultados: 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 23 Output: Representação do Conhecimento Introdução I Quando se obtém o conhecimento, representá-lo pode ser uma tarefa complicada. I Qual a diferença entre o gato e o cachorro? Crie um modelo! I Antes de se estudar o modelo de classificação, é necessário entender quais são as saídas possíveis do processo de classificação. Cada problema pode ser representado de uma maneira, assim como a solução ou modelo para solucionar: I I I I I I I Tabelas; Modelos Lineares; Árvores Regras; Baseada em Instância; Aglomerado (cluters) 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 24 Output: Representação do Conhecimento Tabelas I Simples e mais rudimentar representação de conhecimento; I Exibição condensada de informações; I Tem como principal obstáculo decidir quais atributos afetam a decisão final; I É um elemento importante na descrição dos dados, porém para a descrição de um modelo ou conhecimento adquirido não é tão adequado; 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 25 Output: Representação do Conhecimento Modelos Lineares I I I I I Para a Estatísticas os modelos lineares são chamados de regressão. São fáceis de se visualizar em duas dimensões; A “reta"representa o melhor ajuste para as dimensões relacionadas; O modelo pode ser descrito por uma equação de reta. Exemplo: desempenho = 37,06 + 2,47 cache; Pode ser utilizado para a representação de classificação binária (2 classes) de problemas. A linha é o limite (boundary ) entre cada classe. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 26 Output: Representação do Conhecimento Árvores I I I I I Abordagem "divisão e conquista"são melhor representados por árvores; Os nós da árvore de decisão são definidos pelos atributos; As folhas definem a classificação esperada; A classificação é obtida percorrendo todos os nós até a folha que descreve a classe; Cada nó deve oferecer dois ou mais "caminhos"para seguir. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 27 Output: Representação do Conhecimento Regras I É semelhante à árvore de decisão; I Tem nas extremidades do modelo a classe. É dividada em condições antecedentes e consequentes (ou conclusão); I Diferente das árvores não são "comparações"são formulações ou expressões lógias. I Apresentam soluções mais aprimoradas, complexas e otimizadas do que as árvores. 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 28 Output: Representação do Conhecimento Baseado em Instância - Instance-Based I I I É a técnica mais lenta (custosa computacionalmente); As instâncias são avaliadas uma a uma; Técnicas de distância e vizinhança são utilizadas (K-nearest-neighbor KNN) 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 29 Output: Representação do Conhecimento Agrupamento - Clustering I I I É uma das abordagens mais utilizadas; A saída é um diagrama (dendograma) que representa a quantidade diversificada de grupos; Esta abordagem pode ser usada em pareceria com outras como Árvores e Regras para verificar um caminho inicial (K-means). 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 30 Referências I Imagens: I I I I I I I I I https : //datacleansingservices.files.wordpress.com/2013/04/web − mining − services.jpg https : //quadconsultancy.files.wordpress.com/2010/09/financial − planning − decision − support − executive1.jpg http : //www.sensum − project.eu /documents/17293/0/rs20tool.jpg?t = 1403610969811 https : //www.otexts.org /sites/default /files/styles/large/public /elec3.jpg?itok = AEp1hRlF http : //www.simplifiqueocancer .com.br /wp − content /uploads/2015/06/exame1.jpg http : //www.zentut.com/wp − content /uploads/2012/10/kdprocess.png http : //free − stock − illustration.com/business + intelligence + data http : //scikit − learn.org /0.11/i mages/plotc lassification1 1.png Código Fonte ARFF: http : //www.cs.waikato.ac.nz /ml /weka/arff .html 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 31 Referências I Livros: I I I Konar, A. “Computational Intelligence: Principles, Techniques and Applications” (2005) Jensen, R. Shen, Q. “Computational Intelligence and Feature Selection” (2008) Witten, Ian H., and Eibe Frank. "Data Mining: Practical machine learning tools and techniques". Morgan Kaufmann (2011) 26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 32