Powerpoint - SQL Saturday

Propaganda
#SqlSatRJ
Dia a dia do
Cientista de Dados
Diego Nogare
Data Scientist @ NGR Solutions
www.diegonogare.net
Diego Nogare
MVP Data Platform | 2008
Chapter Leader | SQL Saturday
Regional Mentor | Board Advisor
Data Scientist @ NGR Solutions
Bebo cerveja, se for beber me
chame!
Patrocinadores
Links interessantes
 www.diegonogare.net
 www.livrosdonogare.com.br
 www.ngrsolutions.com.br
 www.datascienceinstitute.com.br
SQL Server Discovery Day
http://www.eventbrite.com/e/sql-discovery-day-tickets-25185568714
Agenda
Do que é esta palestra?!
Business
Analytics
Aprendizado
de Máquinas
Big Data
Análise
Preditiva
Inteligência
Artificial
Data
Science
Machine Learning?!
Baseado no seu histórico de
internet, você deve ser
estupido suficiente para
gostar de esportes radicais.
http://dilbert.com/strip/2013-02-02
Clique aqui para comprar um
ingresso de Base Jump da
Estação Espacial Internacional.
Acho que a
internet está
tentando me
matar.
Chamamos
isso de
“Machine
Learning”.
Desafios Técnicos
 Péssima qualidade dos dados
 Dados sujos
 “Valores Nulos”
 Tipos de dados inadequados
Engenharia
dos Dados
Experiência
no Business
Pensamento
fora da Caixa
Métodos
Científicos
Data
Science
Visualização
Matemática
Estatística
Computação
Avançada
Tomar
Decisão
1. Identificação do Problema
Identificar
as Origem
2. Coleta e limpeza de dados
Analisar uma
Amostragem
Extrair
3. Desenvolvimento do
Modelo Preditivo
4. Publicação do Modelo
Criar um
Algoritmo
Limpar
Refinar
5. Monitoramento da
performance
Algoritmos
Classificação
Clusterização
Regressão
Detecção de
Anomalias
Classificadores Binários
ACURACY (ACURÁCIA):
Quantidade classificada como Positivos e Negativos corretamente
(True Positive + True Negative) /
((True Positive + False Negative) +(False Positive + True Negative))
Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
PRECISION (PRECISÃO):
Quantidade classificada corretamente
True Positive / (True Positive + False Positive)
Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
RECALL:
Quantidade classificada como Positivo corretamente
True Positive / (True Positive + False Negative)
Com nossos números: 16 / (16+0) => 16 / 16 = 1
F1 SCORE:
Média harmônica entre Precisão e Recall
(2* True Positive) / (2* True Positive + False Positive + False Negative)
Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648
2* Precision*Recall / (Precision + Recall)
Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
0.5 (𝑟𝑎𝑛𝑑𝑜𝑚 𝑚𝑜𝑑𝑒𝑙) < 𝐴𝑈𝐶< 1 (𝑝𝑒𝑟𝑓𝑒𝑐𝑡 𝑚𝑜𝑑𝑒𝑙)
ROC
Area under the
ROC curve =
AUC
ROC = Receiver Operating Characteristic
0.5 (𝑟𝑎𝑛𝑑𝑜𝑚 𝑚𝑜𝑑𝑒𝑙) < 𝐴𝑈𝐶< 1 (𝑝𝑒𝑟𝑓𝑒𝑐𝑡 𝑚𝑜𝑑𝑒𝑙)
ROC
Area under the
ROC curve =
AUC
ROC = Receiver Operating Characteristic
1 All Star
Game
64 Jogares
US$ 3,5
Bilhões em
contratos
25 jogadoers
30 times
2
conferências
CC Sabathia – New York Yankees ($24,285,714)
http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
Cluster
Cluster
Regressão (Linear)
Fronteira de Decisão
Função Linear
ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2)
Função elevada à quarta potência
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃 1x1 + 𝜃2x2
+ 𝜃3x12 + 𝜃4x22
+ 𝜃5x13 + 𝜃6x23
+ 𝜃7x14 + 𝜃8x24)
Função Quadrática
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 +
𝜃2x2 + 𝜃3x12 + 𝜃4x22 )
Patrocinadores
Diego Nogare
Data Scientist @ NGR Solutions
www.diegonogare.net
Download