Aprendizado de Máquina Aula #7.1 – EBS 564 – IA Prof. Luiz Fernando S. Coletta [email protected] Campus de Tupã Introdução Muitos dos problemas, quando bem formulados, são de fácil solução computacional... 2 Introdução Muitos dos problemas, quando bem formulados, são de fácil solução computacional... Dados Processamento Informação 3 Introdução Muitos dos problemas, quando bem formulados, são de fácil solução computacional... Dados Processamento Informação Cálculo do ITU 4 Introdução Mas muitos problemas do nosso mundo real possuem difícil resolução por parte dos computadores... 5 Introdução Mas muitos problemas do nosso mundo real possuem difícil resolução por parte dos computadores... 6 Introdução Mas muitos problemas do nosso mundo real possuem difícil resolução por parte dos computadores... Humanos são muito bons nisso! 7 Introdução Dados Processamento Informação 8 Introdução Dados Processamento Informação 9 Introdução Dados Processamento Informação 10 Introdução Precisamos de ferramentas mais avançadas! Dados Processamento Informação Aprendizado de Máquina 11 Introdução Precisamos de ferramentas mais avançadas! Dados Processamento Informação Inteligente (Conhecimento) Aprendizado de Máquina 12 Introdução Conhecimento: abstração (modelo) das relações existentes entre as informações contidas nos dados e do seu significado. Produz “insights” que a informação por si só não é capaz de mostrar. 13 Introdução Conhecimento: abstração (modelo) das relações existentes entre as informações contidas nos dados e do seu significado. Produz “insights” que a informação por si só não é capaz de mostrar. Dados Números Informação Granularização Conhecimento Regras Se-Então 14 Introdução O que queremos... – Sistemas capazes de extrair conhecimento útil dos dados; 15 Introdução O que queremos... – Sistemas capazes de extrair conhecimento útil dos dados; – Sistemas capazes de aprender e se adaptar com o tempo; 16 Big Data Contudo...Big Data Boom Duplicação dos dados 1750-1900 150 anos 1900-1950 50 anos 1950-1960 10 anos 1960-1992 5 anos 2020 73 dias* Fonte: https://xeemarmar.wordpress.com/2014/05/31/survival-of-the-most-adaptable/ * G. Starkweather (Microsoft), 1992 17 Big Data Grandes massas de dados – Complexas • Heterogêneas, não estruturadas... 18 Big Data Grandes massas de dados – Complexas • Heterogêneas, não estruturadas... – Dinâmicas; • Mudam rapidamente (online…) 19 Big Data Grandes massas de dados – Complexas • Heterogêneas, não estruturadas... – Dinâmicas; • Mudam rapidamente (online…) Dificuldades: capturar, armazenar, manusear e extrair conhecimento :/ 20 Big Data PERISSINOTTO, M., & DE MOURA, D. J. (2007). DETERMINAÇÃO DO CONFORTO TÉRMICO DE VACAS LEITEIRAS UTILIZANDO A MINERAÇÃO DE DADOS. Revista Brasileira de Engenharia de Biossistemas, 1(2), 117-126. Souza, Z. M. D., Cerri, D. G. P., Colet, M. J., Rodrigues, L. H. A., Magalhães, P. S. G., & Mandoni, R. J. A. (2010). Análise dos atributos do solo e da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de decisão. Ciência Rural, 40(4), 840-847. Bucene, L. C., Rodrigues, L. H. A., & Meira, C. A. A. (2002). Mineração de dados climáticos para previsão de geada e deficiência hídrica para as culturas do café e da cana-de-açúcar para o Estado de São Paulo. Embrapa Informática Agropecuária. MEIRA, C. A. A., & RODRIGUES, L. H. A. (2005). Mineração de dados no desenvolvimento de sistemas de alerta contra doenças de culturas agrícolas. In CONGRESSO BRASILEIRO DE AGROINFORMÁTICA (Vol. 5). De Souza, V. M., Silva, D. F., Garcia, P. R., Batista, G. E., & Carlos–SP–Brazil, S. (2013). Avaliação de Classificadores para o Reconhecimento Automático de Insetos. Sousa, B. F. S. (2009). Aprendizado de Máquina na Detecção do Uso do Solo no Bioma Caatinga via Sensoriamento Remoto (Doctoral dissertation). 21 Big Data http://wireless.electronicspecifier.com/iot-1/the-future-of-farming-with-a-survey-drone-hereand-smart-tractor-there 22 Big Data Fatec em Pompéia http://www.fatecpompeia.edu.br/curso_bigdata.php 23 Big Data Fonte: https://www.jisc.ac.uk/guides/activity-datadelivering-benefits-from-the-data-deluge 24 Big Data Fonte: https://www.jisc.ac.uk/guides/activity-datadelivering-benefits-from-the-data-deluge Estatística, Matemática, Data Warehouse, Visualização de Dados, Computação Paralela/Distribuída... 25 Aprendizado de Máquina Uma solução reconhecida: KDD e Mineração de Dados http://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-fo rwards-sas-data-mining-and-machine-learning/ 26 Aprendizado de Máquina Processo de descoberta de conhecimento (KDD): 27 Aprendizado de Máquina Processo de descoberta de conhecimento (KDD): Normalização, remoção de ruídos, seleção de atributos, etc. 28 Aprendizado de Máquina Processo de descoberta de conhecimento (KDD): Normalização, remoção de ruídos, seleção de atributos, etc. Técnicas de Aprendizado de Máquina 29 Aprendizado de Máquina Definições: – Uma máquina de aprendizado, definida de maneira ampla, é qualquer dispositivo cujas ações são influenciadas por experiências anteriores (Nilsson 1965); 30 Aprendizado de Máquina Definições: – Uma máquina de aprendizado, definida de maneira ampla, é qualquer dispositivo cujas ações são influenciadas por experiências anteriores (Nilsson 1965); – Um programa de computador aprende a partir da experiência E, em relação a uma classe de tarefas T, com medida de desempenho P, se seu desempenho em T, medido por P, melhora com E (Mitchell, 1997). 31 Aprendizado de Máquina Exemplo: – Filtro inteligente de SPAMs: 32 Aprendizado de Máquina Exemplo: – Filtro inteligente de SPAMs: • Tarefa T: categorizar mensagens de email como spam ou legítima; • Medida de desempenho P: porcentagem de mensagens de email corretamente classificadas; • Experiência de treinamento E: conjunto de emails rotulados por seres humanos. 33 Aprendizado de Máquina Classificação de dados – Objetivo: rotular objetos como sendo pertencente a alguma classe conhecida a priori. 34 Aprendizado de Máquina Classificação de dados – Objetivo: rotular objetos como sendo pertencente a alguma classe conhecida a priori. Algoritmos induzem modelos de classificação com base em um conjunto de dados rotulados (etapa de treinamento). 35 Aprendizado de Máquina Classificação de dados – Objetivo: rotular objetos como sendo pertencente a alguma classe conhecida a priori. ? Algoritmos induzem modelos de classificação com base em um conjunto de dados rotulados (etapa de treinamento). Exemplo: churn prediction, previsão de fraudes (impostos), apólice de seguros...etc. 36 Aprendizado de Máquina Classificação de dados 37 Aprendizado de Máquina Livros 38 Aprendizado de Máquina Softwares http://www.kdnuggets.com/software/ 39 Aprendizado de Máquina Classificação de flores: http://www.scipy-lectures.org/packages/scikit-learn/ http://archive.ics.uci.edu/ml/datasets/Iris?ref=datanews.io 40 Aprendizado de Máquina Classificação de objetos em imagens: http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php 41