Apresentação do PowerPoint - Sucesu-RS

Propaganda
O que é preciso para
ser Cientista de Dados?
Cássio Socal Cervo
Administração de Empresas - PUCRS
Ciências Contábeis - PUCRS
MBA Gerenciamento de Projetos - FGV/Decision
MBA Big Data e Analytics - FGVSP (em andamento)
18 anos de experiência em TI
Gerente de Sistemas de BI e Modelagem no Sicredi
Integrante do grupo de coordenadores do GUBI na SUCESU RS
(Grupo de Usuários de Business Intelligence)
IBM 305 RAMAC Disk System
Ele foi lançado em 1956 como parte do IBM 305
RAMAC, um computador desenvolvido pela IBM para
o mercado corporativo, e podia armazenar
impressionantes 5 MB em 50 discos com
24 polegadas (60 cm) de diâmetro.
IBM
305 RAMAC
1956
25 PETABYTES
por dia
25 PETABYTES
por dia
1,6 GBytes
> 300
1,6 GBytes
>50 aviões
Cenário Atual é complexo
e com muitos dados
Cenário Atual é complexo
e com muitos dados
muitos
muitos
muitos
muitos
muitos
muitos
muitos
muitos
Big Data
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
Big Data
3Vs
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
Big Data
3Vs
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
Big Data
3Vs
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
Big Data
3Vs
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
Big Data
3Vs
4V –???
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
Big Data
3Vs
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
5V
4V –???
Big Data
3Vs
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
5V
4V –???
Big Data
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
P:3Vs
Quem/como extrair valor de um
Big Data?
5V
4V –???
Big Data
“Big Data é o termo que descreve o imenso volume de
dados – estruturados e não estruturados – que
impactam os negócios no dia a dia.” Definição da SAS
P:3Vs
Quem/como extrair valor de um
Big Data?
5V
R: Cientista de Dados
4V –???
Cientista de Dados
“Uma nova geração de especialistas
analíticos que têm as habilidades técnicas
para resolver problemas complexos –
e a curiosidade de explorar quais são os
problemas que precisam ser resolvidos.”
Definição da SAS
Cientista de Dados
“Uma nova geração de especialistas
analíticos que têm as habilidades técnicas
para resolver problemas complexos –
e a curiosidade de explorar quais são os
problemas que precisam ser resolvidos.”
Funções típicas dos cientistas de dados
Trabalhar grandes quantidades de dados, buscado padrões e tendências,
para solucionar problemas de negócio
Definição da SAS
Cientista de Dados
“Uma nova geração de especialistas
analíticos que têm as habilidades técnicas
para resolver problemas complexos –
e a curiosidade de explorar quais são os
problemas que precisam ser resolvidos.”
Funções típicas dos cientistas de dados
Trabalhar grandes quantidades de dados, buscado padrões e tendências,
para solucionar problemas de negócio
Conhecer
o negócio e comunicar-se com toda a empresa
Definição da SAS
Cientista de Dados
“Uma nova geração de especialistas
analíticos que têm as habilidades técnicas
para resolver problemas complexos –
e a curiosidade de explorar quais são os
problemas que precisam ser resolvidos.”
Funções típicas dos cientistas de dados
Definição da SAS
Trabalhar grandes quantidades de dados, buscado padrões e tendências,
para solucionar problemas de negócio
Conhecer
o negócio e comunicar-se com toda a empresa
Trabalhar com uma variedade de linguagens
de programação e ferramentas
tecnológicas, mantendo-se a par das técnicas analíticas como machine learning, text analytics, etc.
Cientista de Dados
“Uma nova geração de especialistas
analíticos que têm as habilidades técnicas
para resolver problemas complexos –
e a curiosidade de explorar quais são os
problemas que precisam ser resolvidos.”
Funções típicas dos cientistas de dados
Definição da SAS
Trabalhar grandes quantidades de dados, buscado padrões e tendências,
para solucionar problemas de negócio
Conhecer
o negócio e comunicar-se com toda a empresa
Trabalhar com uma variedade de linguagens
de programação e ferramentas
tecnológicas, mantendo-se a par das técnicas analíticas como machine learning, text analytics, etc.
Ter uma sólida compreensão de estatísticas, incluindo testes estatísticos e distribuições.
Cientista de Dados
Descritivo
Diagnóstico
Preditivo
Prescritivo
O que aconteceu?
Por que aconteceu?
O que irá acontecer?
Como podemos
fazer isso acontecer?
Atuação do Cientista de Dados
Cientista de Dados
Descritivo
Diagnóstico
Preditivo
Prescritivo
O que aconteceu?
Por que aconteceu?
O que irá acontecer?
Como podemos
fazer isso acontecer?
Atuação do Cientista de Dados
Técnologia
Negócio
Cientista de Dados
Cientista de Dados
O que é preciso para ser
Cientista
Dados?
O que é de
preciso
para
ser Cientista de Dados?
Cientista de Dados
E statística
Inferência Estatística
Séries Temporais
Geoanálise e Estatística Espacial
E statística
Inferência Estatística
Séries Temporais
Geoanálise e Estatística Espacial
•
•
•
•
•
•
•
•
Inferência Estatística é um conjunto de
técnicas que objetiva
estudar uma população através de evidências fornecidas por
uma amostra.
Estatística básica (Variância, Desvio Padrão, Média, Moda, Mediana, ...)
Diagrama de Dispersão
Regra empírica
Distribuição Qui-Quadrado
Tipos de testes de hipóteses
Regressão linear simples
Regressão linear multipla
Analise de resíduos
E statística
Inferência Estatística
Séries Temporais
Geoanálise e Estatística Espacial
Uma série temporal é um conjunto de observações ordenadas
no tempo, não necessariamente igualmente espaçadas, que
apresentam dependência serial, isto é, dependência entre
instantes de tempo.
• Procedimentos estatísticos de
previsão
• Análise de autocorrelação
• Redes neurais na previsão de
séries temporais
• Estacionariedade de uma série
• Avaliação do desempenho das
previsões
E statística
Inferência Estatística
Séries Temporais
Geoanálise e Estatística Espacial
O objetivo das técnicas de Análise Espacial é descrever os padrões
existentes nos dados espaciais e estabelecer, preferencialmente de
forma quantitativa, os relacionamentos entre as diferentes variáveis
geográficas.
• Análise Espacial e
Geoprocessamento
• Análise de Eventos Pontuais
• Análise de Superfícies por
Geoestatística Linear
• Análise de Superfícies por
Geoestatística Indicadora
• Análise de Dados de Área
Cientista de Dados
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
• Funcionamento dos bancos de dados mais comuns
(Oracle, SQL Server, Postgree, MySQL, Teradata, ...)
•
•
•
•
Banco de dados colunares
Banco de dados in memory
Estrutura de Data Warehouse
Banco de Dados noSQL (MongoDB, Cassandra)
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
•
•
•
•
•
•
•
•
•
•
Modelos conceitual
Modelos Lógico
Modelos Físicos
Modelagem Multidimensional (Star Schema,
Snow Flake )
Atributos
Relacionamentos
Data Mining
Versionamento
Historização
Expurgo de dados
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
•
•
•
•
•
•
•
•
Lógica de Programação
R (R studio)
Python
SQL
Dplyr
SAS
Java
C, C++, C#
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
•
•
•
•
•
•
•
•
•
GGPlot
Tableau
QlikView
Pentaho
Excel Power Pivot
Microstrategy
Oracle
IBM
Outros
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
•
•
•
•
Redes Neurais Artificiais (RNAs)
Inteligência artificial
Internet das Coisas (IoT)
IBM Watson Analytics
T ecnologia
Bancos de Dados
Modelagem de dados
Programação
Ferramenta de Visualização
Machine Learning
Big Data
•
•
•
•
Hadoop
Spark
MapReduce
Appliance de BI
Cientista de Dados
N egócio
Análise Setorial
Análise Financeira
Análise Mercadológica
Pessoas
Decisões Empresariais e
Raciocínio Analítico
N egócio
Análise Setorial
Análise Financeira
Análise Mercadológica
Pessoas
Decisões Empresariais e
Raciocínio Analítico
•
•
•
•
•
•
Conhecer o setor
Macroeconomia e Cenário político
Leis e Normas
Conhecer a cadeia produtiva
Produtos, serviços e tecnologias
Ciclo de vida setorial
N egócio
Análise Setorial
Análise Financeira
Análise Mercadológica
Pessoas
Decisões Empresariais e
Raciocínio Analítico
•
•
•
•
•
•
•
•
Estrutura de Capital das empresas
CMV
Controladoria Gerencial
Gestão de Custos
Margem de contribuição dos produtos
Alavancagem financeira
Mercado de Capitais
Matemática Financeira
N egócio
Análise Setorial
Análise Financeira
Análise Mercadológica
Pessoas
Decisões Empresariais e
Raciocínio Analítico
•
•
•
•
•
•
•
•
Segmentação
Os produtos e o mercado
Pontos de vendas
Perfil dos meus consumidores
Análise SWOT
Preços
Campanhas publicitárias
Direcionadores Estratégicos
N egócio
Análise Setorial
Análise Financeira
Análise Mercadológica
• User Experience
• Praxeologia*
• Psicologia do consumo
Pessoas
Decisões Empresariais e
Raciocínio Analítico
• Gestão de Pessoas nas empresas
N egócio
Análise Setorial
Análise Financeira
Análise Mercadológica
Pessoas
Decisões Empresariais e
Raciocínio Analítico
•
•
•
•
Teoria dos Jogos
Teoria de jogos combinatórios
Teoria das Restrições
Processo decisórios nas organizações
O que é preciso para ser
Cientista de Dados?
Cientista de Dados
Landscape Big Data 2016
Cientista de Dados
Ter Brio
01001111 01100010 01110010 01101001
01100111 01100001 01100100 01101111
01001111 01100010 01110010 01101001
01100111 01100001 01100100 01101111
Obrigado*
*Para quem não entende Binário
Cássio Socal Cervo
[email protected]
51 9245.5984
Download