#SqlSatRJ Dia a dia do Cientista de Dados Diego Nogare Data Scientist @ NGR Solutions www.diegonogare.net Diego Nogare MVP Data Platform | 2008 Chapter Leader | SQL Saturday Regional Mentor | Board Advisor Data Scientist @ NGR Solutions Bebo cerveja, se for beber me chame! Patrocinadores Links interessantes www.diegonogare.net www.livrosdonogare.com.br www.ngrsolutions.com.br www.datascienceinstitute.com.br SQL Server Discovery Day http://www.eventbrite.com/e/sql-discovery-day-tickets-25185568714 Agenda Do que é esta palestra?! Business Analytics Aprendizado de Máquinas Big Data Análise Preditiva Inteligência Artificial Data Science Machine Learning?! Baseado no seu histórico de internet, você deve ser estupido suficiente para gostar de esportes radicais. http://dilbert.com/strip/2013-02-02 Clique aqui para comprar um ingresso de Base Jump da Estação Espacial Internacional. Acho que a internet está tentando me matar. Chamamos isso de “Machine Learning”. Desafios Técnicos Péssima qualidade dos dados Dados sujos “Valores Nulos” Tipos de dados inadequados Engenharia dos Dados Experiência no Business Pensamento fora da Caixa Métodos Científicos Data Science Visualização Matemática Estatística Computação Avançada Tomar Decisão 1. Identificação do Problema Identificar as Origem 2. Coleta e limpeza de dados Analisar uma Amostragem Extrair 3. Desenvolvimento do Modelo Preditivo 4. Publicação do Modelo Criar um Algoritmo Limpar Refinar 5. Monitoramento da performance Algoritmos Classificação Clusterização Regressão Detecção de Anomalias Classificadores Binários ACURACY (ACURÁCIA): Quantidade classificada como Positivos e Negativos corretamente (True Positive + True Negative) / ((True Positive + False Negative) +(False Positive + True Negative)) Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333 PRECISION (PRECISÃO): Quantidade classificada corretamente True Positive / (True Positive + False Positive) Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619 RECALL: Quantidade classificada como Positivo corretamente True Positive / (True Positive + False Negative) Com nossos números: 16 / (16+0) => 16 / 16 = 1 F1 SCORE: Média harmônica entre Precisão e Recall (2* True Positive) / (2* True Positive + False Positive + False Negative) Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648 2* Precision*Recall / (Precision + Recall) Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636 0.5 (𝑟𝑎𝑛𝑑𝑜𝑚 𝑚𝑜𝑑𝑒𝑙) < 𝐴𝑈𝐶< 1 (𝑝𝑒𝑟𝑓𝑒𝑐𝑡 𝑚𝑜𝑑𝑒𝑙) ROC Area under the ROC curve = AUC ROC = Receiver Operating Characteristic 0.5 (𝑟𝑎𝑛𝑑𝑜𝑚 𝑚𝑜𝑑𝑒𝑙) < 𝐴𝑈𝐶< 1 (𝑝𝑒𝑟𝑓𝑒𝑐𝑡 𝑚𝑜𝑑𝑒𝑙) ROC Area under the ROC curve = AUC ROC = Receiver Operating Characteristic 1 All Star Game 64 Jogares US$ 3,5 Bilhões em contratos 25 jogadoers 30 times 2 conferências CC Sabathia – New York Yankees ($24,285,714) http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969 Cluster Cluster Regressão (Linear) Fronteira de Decisão Função Linear ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2) Função elevada à quarta potência ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃 1x1 + 𝜃2x2 + 𝜃3x12 + 𝜃4x22 + 𝜃5x13 + 𝜃6x23 + 𝜃7x14 + 𝜃8x24) Função Quadrática ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2 + 𝜃3x12 + 𝜃4x22 ) Patrocinadores Diego Nogare Data Scientist @ NGR Solutions www.diegonogare.net