Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes [email protected] [email protected] Conceitos – Visão geral • Data Warehouse (armazém de dados) – armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. • Data Mart (repositório de dados) – é sub-conjunto de dados de um Data warehouse. • Business Intelligence (Inteligência empresarial) – refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. • Data Mining (Mineração de Dados) – processo de exploração de grandes quantidades de dados a fim de reunir grupos semelhantes (padrões) para detectar relacionamentos entre variáveis e assim detectar novos subconjuntos de dados. Hoje... • Introdução sumarizada: o que é mineração de dados? – Para que serve? – Como se relaciona com outras disciplinas/técnicas/áreas? • Descoberta de conhecimentos em bancos de dados. – Passos do processo. – Relação com mineração de dados Motivação • Crescimento explosivo na capacidade de gerar e coletar dados: – Científicos (coleta automática por sensores). – Sociais (censos, pesquisas). – Econômicos e comerciais (transações bancárias e comerciais de código de barras). • Crescimento na capacidade de relacionar estes dados • Crescimento na capacidade de armazenar estes da • Crescimento (ainda não suficiente) na capacidade de processar estes dados. Volume de dados • Stanford Linear Accelerator Center (SLAC): mais de um petabyte de dados coletados e armazenados – Um petabyte = 1.048.576G • Uma cena de satélite Landsat, 3 bandas (185x185k resolução 30x30m): 108M – Imagem de todo o território brasileiro: 26.4G • CERN: espera chegar em 5 a 20 petabytes. • Dados gerados automaticamente: – – – – – Bilhões de chamadas telefônicas por dia. Dezenas a milhões de registros/dia em logs de servidores Tráfego de rede. Impossível armazenar dados! Análise deve ser feita on-the-fly Questão da privacidade. Perguntas • Quem vê tudo isso? – É viável? É automatizável? • Como identificar padrões, exceções, tendências e correlações? • O que existe de interessante nestes dados? – Como definir interessante ? Como processar esses dados • Consultas simples? SQL resolve: – Quem comprou queijo gorgonzola? – Quem comprou queijo e vinho? – Qual é o gasto médio das compras deste perfil? • E descoberta de novas associações e conhecimentos? – – – – – – – Qual item é comprado com mais freqüência juntamente com vinho? Quais conjuntos de itens são comprados com mais freqüência? Como prever perfis de consumo? Como prever que usuários vão mudar de provedor? Como identificar coisas parecidas? Como identificar o que é diferente do resto? Porquê? • Procuramos novas informações sobre os dados e não comprovar informações já consideradas Definições • Data Mining: é um dos processos de Descoberta de Conhecimento em Banco de Dados (KDD) • Processo geral de descoberta de conhecimentos úteis (previamente desconhecidos) a partir de (grandes) bancos de dados • Processo em várias etapas interdependentes, que podem ser repetidas e que nem sempre tem distinções claras entre si. • Definir: conhecimento, útil, bancos de dados. • Considerar: dados previamente desconhecidos, grande BD Processo de KDD • Compreender o domínio da aplicação, entender as expectativas do usuário final do processo. • Criar/selecionar uma coleção de dados para aplicação • Pré-processar e limpar os dados (eliminar impureza de dados irrelevantes). • Transformar (reduzir e reprojetar) os dados (encontrar atributos úteis e interessantes). • Escolher a tarefa, métodos, modelos, parâmetros, etc do processo de data mining e executar este processo. • Interpretar os resultados, iterar se necessário. • Consolidar o conhecimento, resolver conflitos, iterar se necessário. Processo KDD KDD/DM não é... Data Mining • Envolve várias áreas de conhecimento: – – – – – Estatística e Matemática. Computação Aplicada (Inteligência Artificial, Machine Learning). Visualização de Dados (Computação Gráfica). Bancos de Dados. Sistemas Distribuídos, Algoritmos Paralelos, Alta Performance. • Áreas de aplicação: – Economia, comércio eletrônico, marketing, detecção de fraudes. – WWW. – Bioinformática e medicina Data Mining • Tarefas principais: – Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas. – Regressão (predição): aprendizado de uma função mapeia um dado em um valor real. – Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem Aplicações de Sucesso • Amazon: recomendações de livros e interesses – Usuário compra mais de um livro, a associação é armazenada e usada para recomendações. • Verizon Wireless: redução de desistências contratuais – Verificou que tipo usuários tinham tendência maior a mudar de operadora, fez marketing/ofertas específicas a perfis • Análise de crédito – Como avaliar o risco de oferecer crédito para um cliente? – Quem é mais confiável precisa menos de crédito! Data Mining e Privacidade... • Dados pessoais (histórico bancário, saúde, censo, etc. já são coletados). • Alguns podem ser coletados sem esforço: – Logs de navegação. – Compras. – Localização e movimentação. • Até que ponto isso pode ser feito de forma: – Ética? – Que mantenha a privacidade? – Que possa ser útil? Em resumo... • Dados para mineração: – Transacionais, séries temporais, texto, multimídia, heterogêneos, legados, WWW, etc. • Conhecimento a ser extraído: – Caracterização, discriminação, associação, classificação, tendências, desvios, etc. • Técnicas utilizadas: – Técnicas de bancos de dados, machine learning, estatística, IA, visualização, etc. • Aplicações – Vendas/marketing, telecomunicações, bancos/mercados financeiros deteção de fraudes, bioinformática, medicina, WWW, etc. Exercício • Verificar em http://www.kdnuggets.com/dmcourse/data_ mining_course/course_notes.pdf exemplos de aplicação de Data Mining. • Ver se existe algum exemplo com alguma similaridade ou aplicabilidade ao seu TCC. • Pesquisar a ferramenta WEKA e trazer na próxima aula um exemplo prático de Data mining. (Valendo até 2 pontos na prova!!)