O que é preciso para ser Cientista de Dados? Cássio Socal Cervo Administração de Empresas - PUCRS Ciências Contábeis - PUCRS MBA Gerenciamento de Projetos - FGV/Decision MBA Big Data e Analytics - FGVSP (em andamento) 18 anos de experiência em TI Gerente de Sistemas de BI e Modelagem no Sicredi Integrante do grupo de coordenadores do GUBI na SUCESU RS (Grupo de Usuários de Business Intelligence) IBM 305 RAMAC Disk System Ele foi lançado em 1956 como parte do IBM 305 RAMAC, um computador desenvolvido pela IBM para o mercado corporativo, e podia armazenar impressionantes 5 MB em 50 discos com 24 polegadas (60 cm) de diâmetro. IBM 305 RAMAC 1956 25 PETABYTES por dia 25 PETABYTES por dia 1,6 GBytes > 300 1,6 GBytes >50 aviões Cenário Atual é complexo e com muitos dados Cenário Atual é complexo e com muitos dados muitos muitos muitos muitos muitos muitos muitos muitos Big Data “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS Big Data 3Vs “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS Big Data 3Vs “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS Big Data 3Vs “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS Big Data 3Vs “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS Big Data 3Vs 4V –??? “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS Big Data 3Vs “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS 5V 4V –??? Big Data 3Vs “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS 5V 4V –??? Big Data “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS P:3Vs Quem/como extrair valor de um Big Data? 5V 4V –??? Big Data “Big Data é o termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia.” Definição da SAS P:3Vs Quem/como extrair valor de um Big Data? 5V R: Cientista de Dados 4V –??? Cientista de Dados “Uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.” Definição da SAS Cientista de Dados “Uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.” Funções típicas dos cientistas de dados Trabalhar grandes quantidades de dados, buscado padrões e tendências, para solucionar problemas de negócio Definição da SAS Cientista de Dados “Uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.” Funções típicas dos cientistas de dados Trabalhar grandes quantidades de dados, buscado padrões e tendências, para solucionar problemas de negócio Conhecer o negócio e comunicar-se com toda a empresa Definição da SAS Cientista de Dados “Uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.” Funções típicas dos cientistas de dados Definição da SAS Trabalhar grandes quantidades de dados, buscado padrões e tendências, para solucionar problemas de negócio Conhecer o negócio e comunicar-se com toda a empresa Trabalhar com uma variedade de linguagens de programação e ferramentas tecnológicas, mantendo-se a par das técnicas analíticas como machine learning, text analytics, etc. Cientista de Dados “Uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.” Funções típicas dos cientistas de dados Definição da SAS Trabalhar grandes quantidades de dados, buscado padrões e tendências, para solucionar problemas de negócio Conhecer o negócio e comunicar-se com toda a empresa Trabalhar com uma variedade de linguagens de programação e ferramentas tecnológicas, mantendo-se a par das técnicas analíticas como machine learning, text analytics, etc. Ter uma sólida compreensão de estatísticas, incluindo testes estatísticos e distribuições. Cientista de Dados Descritivo Diagnóstico Preditivo Prescritivo O que aconteceu? Por que aconteceu? O que irá acontecer? Como podemos fazer isso acontecer? Atuação do Cientista de Dados Cientista de Dados Descritivo Diagnóstico Preditivo Prescritivo O que aconteceu? Por que aconteceu? O que irá acontecer? Como podemos fazer isso acontecer? Atuação do Cientista de Dados Técnologia Negócio Cientista de Dados Cientista de Dados O que é preciso para ser Cientista Dados? O que é de preciso para ser Cientista de Dados? Cientista de Dados E statística Inferência Estatística Séries Temporais Geoanálise e Estatística Espacial E statística Inferência Estatística Séries Temporais Geoanálise e Estatística Espacial • • • • • • • • Inferência Estatística é um conjunto de técnicas que objetiva estudar uma população através de evidências fornecidas por uma amostra. Estatística básica (Variância, Desvio Padrão, Média, Moda, Mediana, ...) Diagrama de Dispersão Regra empírica Distribuição Qui-Quadrado Tipos de testes de hipóteses Regressão linear simples Regressão linear multipla Analise de resíduos E statística Inferência Estatística Séries Temporais Geoanálise e Estatística Espacial Uma série temporal é um conjunto de observações ordenadas no tempo, não necessariamente igualmente espaçadas, que apresentam dependência serial, isto é, dependência entre instantes de tempo. • Procedimentos estatísticos de previsão • Análise de autocorrelação • Redes neurais na previsão de séries temporais • Estacionariedade de uma série • Avaliação do desempenho das previsões E statística Inferência Estatística Séries Temporais Geoanálise e Estatística Espacial O objetivo das técnicas de Análise Espacial é descrever os padrões existentes nos dados espaciais e estabelecer, preferencialmente de forma quantitativa, os relacionamentos entre as diferentes variáveis geográficas. • Análise Espacial e Geoprocessamento • Análise de Eventos Pontuais • Análise de Superfícies por Geoestatística Linear • Análise de Superfícies por Geoestatística Indicadora • Análise de Dados de Área Cientista de Dados T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data • Funcionamento dos bancos de dados mais comuns (Oracle, SQL Server, Postgree, MySQL, Teradata, ...) • • • • Banco de dados colunares Banco de dados in memory Estrutura de Data Warehouse Banco de Dados noSQL (MongoDB, Cassandra) T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data • • • • • • • • • • Modelos conceitual Modelos Lógico Modelos Físicos Modelagem Multidimensional (Star Schema, Snow Flake ) Atributos Relacionamentos Data Mining Versionamento Historização Expurgo de dados T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data • • • • • • • • Lógica de Programação R (R studio) Python SQL Dplyr SAS Java C, C++, C# T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data • • • • • • • • • GGPlot Tableau QlikView Pentaho Excel Power Pivot Microstrategy Oracle IBM Outros T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data • • • • Redes Neurais Artificiais (RNAs) Inteligência artificial Internet das Coisas (IoT) IBM Watson Analytics T ecnologia Bancos de Dados Modelagem de dados Programação Ferramenta de Visualização Machine Learning Big Data • • • • Hadoop Spark MapReduce Appliance de BI Cientista de Dados N egócio Análise Setorial Análise Financeira Análise Mercadológica Pessoas Decisões Empresariais e Raciocínio Analítico N egócio Análise Setorial Análise Financeira Análise Mercadológica Pessoas Decisões Empresariais e Raciocínio Analítico • • • • • • Conhecer o setor Macroeconomia e Cenário político Leis e Normas Conhecer a cadeia produtiva Produtos, serviços e tecnologias Ciclo de vida setorial N egócio Análise Setorial Análise Financeira Análise Mercadológica Pessoas Decisões Empresariais e Raciocínio Analítico • • • • • • • • Estrutura de Capital das empresas CMV Controladoria Gerencial Gestão de Custos Margem de contribuição dos produtos Alavancagem financeira Mercado de Capitais Matemática Financeira N egócio Análise Setorial Análise Financeira Análise Mercadológica Pessoas Decisões Empresariais e Raciocínio Analítico • • • • • • • • Segmentação Os produtos e o mercado Pontos de vendas Perfil dos meus consumidores Análise SWOT Preços Campanhas publicitárias Direcionadores Estratégicos N egócio Análise Setorial Análise Financeira Análise Mercadológica • User Experience • Praxeologia* • Psicologia do consumo Pessoas Decisões Empresariais e Raciocínio Analítico • Gestão de Pessoas nas empresas N egócio Análise Setorial Análise Financeira Análise Mercadológica Pessoas Decisões Empresariais e Raciocínio Analítico • • • • Teoria dos Jogos Teoria de jogos combinatórios Teoria das Restrições Processo decisórios nas organizações O que é preciso para ser Cientista de Dados? Cientista de Dados Landscape Big Data 2016 Cientista de Dados Ter Brio 01001111 01100010 01110010 01101001 01100111 01100001 01100100 01101111 01001111 01100010 01110010 01101001 01100111 01100001 01100100 01101111 Obrigado* *Para quem não entende Binário Cássio Socal Cervo [email protected] 51 9245.5984