INCT-CID FabioPorto LNCC– MCTIC– DEXLLAB Semestre 1– Setembro 2016 Programa dePós-Graduação em Ciência daComputação EscoladeInformática &Computação CEFET/RJ Agenda • Introdução • Os Primeiros Passos • OTurco • Aplicações Laboratório Nacional deComputação Científica (LNCC) Petropolis, Rio de Janeiro 3 LNCC- MCTI • GraduateCourseonComputationalModelling • CAPES6 • LABINFO • Genomics,proteomicsbacteriaandmicro-organisms • INCT–MACC • MedicineSupportedbyScientificComputing • INCT- CID • SINAPAD • NationalSystemofHighPerformancePerformance • ThematicLaboratory • ACIMA(acima.lncc.br) • MARTIN(martin.lncc.br) • DEXL(dexl.lncc.br) • COMCIDIS(comcidis.lncc.br) • HEMOLAB(hemolab.lncc.br) • LABINFO(labinfo.lncc.br) 4 SINAPAD– National CenterforHPC • Organizedin CENAPADS: • Universities • Researchventers • Different architectures: • SharedDisks • SharedMemory • GPUs Atos-BULLSupercomputer SANTOSDUMONTCONFIGURATION CPU Processors/Blade CPU Cores/processor TotalCoresCPU 2 1 1 12 12 12 12 12.096 4.752 1.296 18.144 12 16 13.392 250 Blades GPU Processors/Blade GPU Cores/processor 396 108 1 1 2880 61 TotalCores GPU orPHI 1.140.480 6.588 MachinePartition Blades B710CPU's B715+GPU B715+PHI B710+B715CPU's 504 396 108 1008 B710cp+B715cpuPhi MESCLAnode 612 GPU/PHI NVIDIAK40 INTEL7120X 3,7 GrupodePesquisaemCiênciadeDados • ArturZiviani • EduardoOgasawara (CEFET-RJ) • FabioPorto • KaryOcana • LuizGadelha • Andre Salles FIOCRUZ Ciência deDados– UmanovaDisciplina • Mudança deVisão Histórica paraPredição doFuturo • Predições razas eprofundas • Inferências baseadas em dados • Modelos Baseadas em dados • Foco • • • • Grandevolume Treinamento Tratamento Interpretação Humana INCT- Ciência deDados(CID) • Objetivo • Estruturaranovaárea • FormaçãodeRecursosHumanos • PesquisaeDesenvolvimento • TransferênciadeTecnologiaparaIndústriaeSociedade • Como? • AtravésdaIntegraçãodedisciplinascomfocoemdados • BancosdeDados • AnálisedeDados • ModelagemdeDados • Metodologias • Dirigidaàhipóteses • Análiseestatística • Tecnologias • • • • FrameworksBigData:Spark,Giraph,TensorFlow,…. Linguagensdeprogramacão:R,python,scala Sistemas:NoSQL,Greenplum,... Machine Learning:scikit-learn,ApacheMahout,.. INCT- CID • Parcerias • • • • FIOCRUZ Observatório Nacional Comitê Olimpico Brasileiro Prefeituras: Curitiba,RiodeJaneiro • Empresas • EMC- CentrodePesquisa • IBMResearch • PhilipsResearch • Conselho Internacional • • • • NYU INRIA UCSB BostonUniversity– DataScienceInstitute Umabrevehistória daCiência deDados • R.A.Fisher, 1935,ThedesignofExperiments Correlationdoesnotimplycausation • HansP.Luhn,1958,BusinessIntelligentSystems,IBM • Automaticmethodtoprovidecurrentawarenessservicestoscientistsand engineers • J.W.Tukey,1977,ExploratoryDataAnalysis • ..Forseeingwhatthedatacantellusbeyondtheformalmodelingand hypothesistesting..– inspirou odesenvolvimento dopacote estatítico S • H.Dresner,1989,BusinessIntelligence • Thedatabaseviewondataanalytics Umabrevehistória daCiência deDados • T.Michel,1977,TheMachineLearningbook • Google,1996,PrototypeSearchEngine • JimGrayet.al,2007,TheFourthParadigm • Experimentaldatascience • A.Halevy,P.Norvig,2009,TheUnreasonableEffectivenessofData • Fromdeepmodelstoharnessingofdatavolumes • Exponentialgrowthindatavolume,2010,Thedatadeluge DataScience- Habilidades Fonte:http://drewconway.com/ OrganizaçãodoINCT-CID Biodiversidade Geociências Esporte Defesa Física Educação Gerência de Dados Astronomia Engenharias Análise de Dados Energia Mobilidade Ciências biológicas Meteorologia / Ciências climáticas Química Saúde Ciência de Dados Petróleo/Gás Ciências sociais Análise de Redes Complexas Business intelligence Ciências humanas … Internet/Web CS+X • Ciência daComputação está na basedoprocesso científico em todas disciplinas • • • • • CS+astronomia CS+biologia CS+meteorologia CS+esporte CS+sociologia • younameit!! • Fundamentalna ciência dedados • TheFourthParadigma:DataIntensiveScientificDiscovery,JimGrayet al. ProcessodeCID Data Collection Data Uniformization Data Contextualization Data Loading DataManagement Problem Definition Prediction Model DataAnalysis Data Analytics DeDadosCrusà Interpretação cleaning Raw Integration Intermediary Tier:1 Tier:0 Transformation Analysis Tailored Tier:2 Ciência deDados– Processo Data Sources Hypothesis Formulation DataCapturing observation Integrated analysis Data Analysis Report Evidence identification Umdataflowparacarga dedados consolidado – GenNetVirus (R.L.Costa) NaCluster – V.Pires SupervisedLearning • Training:Giventrainingexamples{(Xi,Yi)}whereXi isthefeature vectorandYi thetargetvariable,learnafunctionFtobestfitthe trainingdata(i.e.,Yi ≈F(Xi)foralli) Historical Data (X1, Y1) (X2, Y2) …. (Xn,Yn) Learning Algorithm Model F • Prediction: GivenanewsampleX withunknownY,predictY using F(X) X Y URL Title/Body Text Feature Extraction Model F E-commerce Site? Hyperlinks Features/Attributes Target/Label 22 HumanDataAnalytics SISVAN SistemasdeInformaçãodeSaúde SISCOLO SIS PRÉNATAL SIAB SINAN SIASUS SIHSUS SI-PNI HIPERDIA SINASC SIM CNES Registram‘eventos’,queocorremempessoas,nãoosprocessosdeadoecimentoemorte Linkagem dedados,possívelmasdifícil 24 Primeiros casosdezika Dengue Chikungunya 6meses– períodode desenvolvimentoda microcefalia? Pânicodevidoàs comorbidades Listadedoenças possivelmente associadasàinfecção pelovíruszika Doençaoucondição Evento Sistema CID-10 INFECÇÕESVIRAIS Dengue(dengueclássico) Febrehemorrágicadevidaaovírusdadengue Notificação Notificação,óbito SINAN SINAN,SIM A90 A91 FebredeChikungunya DoençapeloZikavírus DoençapeloZikavírus,nãoespecificada Notificação Notificação SINAN SINAN SINAN A92.0 U06* U06.9* MANIFESTAÇÕES NEUROLÓGICAS ASSOCIADASA INFECÇÕESVIRAIS (DENGUE, CHIKUNGUNYAEZIKA) Encefaliteporvírustransmitidospormosquitos Outrasencefalitesporvírustransmitidaspormosquitos Encefalitenãoespecificadaporvírustransmitidapormosquitos Internaçãohospitalar,óbito SIH SIH SIH A83 A83.8 A83.9 Outrasencefalitesvirais,nãoclassificadasemoutraparte Internaçãohospitalar SIH A85 Encefaliteviralnãoespecificada Internaçãohospitalar SIH A86 Meningiteviral Outrasmeningitesvirais Meningiteviralnãoespecificada Meningiteemoutrasdoençasinfecciosaseparasitáriasclassificadasemoutraparte Meningiteemdoençasviraisclassificadasemoutraparte Internaçãohospitalar SINAN Internaçãohospitalar,óbito SIH,SIM SIH,SIM A87 A87.8 A87.9 G02 G02.0 Meningitedevidaaoutrascausaseacausasnãoespecificadas Meningitedevidaaoutrascausasespecificadas Meningitenãoespecificada Internaçãohospitalar,óbito SIH,SIM SIH,SIM SIH,SIM G03 G03.8 G03.9 Encefalite,mieliteeencefalomielite Encefaliteagudadisseminada(ADEM) Outrasencefalites,mieliteseencefalomielites Encefalite,mieliteeencefalomielitenãoespecificada Encefalite,mieliteeencefalomieliteemdoençasclassificadasemoutraparte Encefalite,mieliteeencefalomieliteemdoençasviraisclassificadasemoutraparte Internaçãohospitalar,óbito SIH,SIM SIH,SIM SIH,SIM SIH,SIM SIH,SIM SIH,SIM G04 G04.0 G04.8 G04.9 G05 G05.1 SíndromedeGuillain-Barré Internaçãohospitalar,óbito SIH,SIM G61.0 Hemiplegia Hemiplegiaflácida Paraplegiaetetraplegia Paraplegiaflácida Paraplegianãoespecificada Tetraplegiaflácida Síndromeparalíticanãoespecificada Internaçãohospitalar SIH SIH SIH SIH SIH SIH SIH G81 G81.0 G82 G82.0 G82.2 G82.3 G83.9 Gravidezectópica Internaçãohospitalar,óbito fetaloudagestante SIH,SIM-feto O00 Molahidatiforme Internaçãohospitalar,óbito fetaloudagestante SIH,SIM-feto O01 Outrosprodutosanormaisdaconcepção Internaçãohospitalar,óbito fetaloudagestante SIH,SIM-feto O02 Abortoespontâneo Internaçãohospitalar,óbito fetaloudagestante SIH,SIM-feto O03 Abortoporrazõesmédicaselegais Internaçãohospitalaróbito fetaloudagestante SIH,SIM-feto O04 Outrostiposdeaborto Internaçãohospitalaróbito fetaloudagestante SIH,SIM-feto O05 Abortonãoespecificado Internaçãohospitalaróbito fetaloudagestante SIH,SIM-feto O06 Falhadetentativadeaborto Internaçãohospitalaróbito fetaloudagestante SIH,SIM-feto O07 Complicaçõesconsequentesaabortoegravidezectópicaoumolar Internaçãohospitalaróbito fetaloudagestante SIH,SIM-feto O08 Anencefaliaemalformaçõessimilares Nascimento,óbitofetal, internaçãodoneonato SINASC,SIM-neonato,SIH Q00 Microcefalia Nascimento,óbitofetal, internaçãodoneonato SINASC,SIM-neonato,SIH Q02 Hidrocefaliacongênita Outrahidrocefaliacongênita Hidrocefaliacongênitanãoespecificada Nascimento,óbitofetal, internaçãodoneonato SINASC,SIM-neonato,SIH SINASC,SIM-neonato,SIH SINASC,SIM-neonato,SIH Q03 Q03.8 Q03.9 Outrasmalformaçõescongênitasdocérebro Outrasdeformidadesporreduçãodoencéfalo(incluindohidranencefalia) Malformaçãocongênitanãoespecificadadoencéfalo Nascimento,óbitofetal, internaçãodoneonato SINASC,SIM-neonato,SIH SINASC,SIM-neonato,SIH SINASC,SIM-neonato,SIH Q04 Q04.3 Q04.9 Malformaçõescongênitasdaspálpebras,doaparelholacrimaledaórbita Nascimento SINASC Q10 Anoftalmia,microftalmiaemacroftalmia Malformaçõescongênitasdocristalino Malformaçõescongênitasdacâmaraanteriordoolho Malformaçõescongênitasdacâmaraposteriordoolho Outrasmalformaçõescongênitasdoolho Malformaçõescongênitasdoouvidocausandocomprometimentodaaudição Nascimento Nascimento Nascimento Nascimento Nascimento Nascimento SINASC SINASC SINASC SINASC SINASC SINASC Q11 Q12 Q13 Q14 Q15 Q16 TIPOSECAUSASDE ABORTOASSOCIADOS ÀINFECÇÃOPELO VÍRUSZIKA TIPOSDE MALFORMAÇÕES CONGÊNITAS ASSOCIADOSÀ INFECÇÃOPELOVÍRUS ZIKA Internaçãohospitalar,óbito Internaçãohospitalar Internaçãohospitalar Evoluçãodasinternaçõesportotalde malformaçõesemmenoresdeumano Evoluçãodasinternaçõespormalformações doSNCemmenoresdeumano Evoluçãodasinternaçõespor “outrasdoençasdoSNC” Evoluçãodasinternaçõespor complicaçõesrelacionadasaoaborto Aumentodasinternaçõesporneuropatias Melhoraroindicador Usartécnicasdedetecçãodeclusterespacial ÁreaExemplo:EsportedeAlto Rendimento Áreas daCiência doEsporte History of Sports Economy of Sports Sports philosophy / ethics Sports law Biomechanics Sports pedagogy Sports science Movement science Science of Training / Performance Analysis Sports psychology Sports sociology Sports anthropology Sports medicine Sports biology Sportomics [Cameron,Bassini 2015] • Adoção daAvaliação integrada deAtletas apartir dediferentes disciplinas • Características individuais - >fazem adiferença • características raras são mais valiosas !!! • Processo científico baseado em dados 34 Computação:atleta esua modalidade Captura deDados Extração deSangue Espectrometria deMassa Modelo EstrelaparaAnálise deDados Relação:Alvo –Medições Resultado daavaliação doatleta amador:RenatoPinheiro Oliveira Alvo Evidências Hipóteses Abordagem • Identificaratributosrelevantes • Avaliaçãoestatísticasdecorrelaçãoentrealvosemedições • Definirgruposdeatributoscorrelacionados • Discretização deatributos(SAX) • DeterminaçãodegraudeIndependênciaentreInformaçõesRedundante [Wongetal1976] • Usodealgoritmosdeclusterização (k-means) • Estabelecerrelaçõesprobabilísticasdecausalidade • ModeloGrafoProbabilístico->CausalBayesian Networks • Identificarelementosasofrereminterferência SupervisedLearning • Training:Giventrainingexamples{(Xi,Yi)}whereXi isthefeaturevectorandYi thetargetvariable, learnafunctionFtobestfitthetrainingdata(i.e.,Yi ≈F(Xi)foralli) Historical Data (X1, Y1) (X2, Y2) …. (Xn,Yn) Learning Algorithm Model F (Medição,Alvo) • Prediction: GivenanewsampleX withunknownY,predictY usingF(X) Title/Body Text Y X URL Feature Extraction Model F E-commerce Site? Hyperlinks Features/Attributes • InvertedProblem:GivenaY determinerelevantX usingF-1(Y) Target/Label 46 SAHA– Sistema deApoio Holistico ao Atleta SAHA:Apoioàanáliseintegradadedadosde atletasdealtorendimento Knowledge Construction and Expression Hypothesis formulation and Validation Data Capturing &Homogenization SAHA SAHA PCA:F1vs F2 Observations(axesF1andF2:48.08%) 4 EFSR-T13 EFSR-T10 EFSR-T07 VAGF-T09 EFSR-T05 EFSR-T17 EFSR-T09 EFSR-T11 EFSR-T06 EFSR-T15 RACS-T08 EFSR-T12 VAGF-T13 EFSR-T01 RACS-T04 ACC-T02 PSCS-T05 VAGF-T10 EFSR-T14 ACC-T09 RACS-T12 ACC-T01 RACS-T14 ACC-T05 ACC-T11 ACC-T17 RACS-T11 RACS-T05 RACS-T13 ACC-T15 RACS-T07 RACS-T06 EFSR-T03 AMMF-T17 EFSR-T08 ACC-T13 EFSR-T04 ACC-T18 VAGF-T14 VAGF-T08 RACS-T01 ACC-T04 VAGF-T03 PSCS-T09 RACS-T15 ACC-T06 ACC-T10 PSCS-T06 ACC-T08 RACS-T10 PSCS-T12 RACS-T02 VAGF-T15 PSCS-T10 PSCS-T11 ACC-T03 ACC-T07 PSCS-T14 PSCS-T01 RACS-T09 AMMF-T18 RACS-T03 ACC-T16 PSCS-T17 ACC-T12 PSCS-T07RACS-T17 VAGF-T17 VAGF-T05 RACS-T16 VAGF-T06 VAGF-T01 VAGF-T11 PSCS-T08 PSCS-T16 PSCS-T13 VAGF-T12 PSCS-T15 VAGF-T02 AMMF-T13 ACC-T14 PSCS-T03 EFSR-T16 AMMF-T09 PSCS-T02 2 0 F2(16.78%) PSCS-T04 VAGF-T16 VAGF-T07 PSCS-T18 -2 B05-T05 B05-T09 B05-T17 Individual-AMMF AMMF-T11 EGOJ-T13 Individual-VAGF EGOJ-T17 VAGF-T04 AMMF-T07 EGOJ-T09 AMMF-T14 AMMF-T10 AMMF-T12 AMMF-T15 AMMF-T05 EGOJ-T14 AMMF-T16 EGOJ-T16 AMMF-T06 AMMF-T01 EGOJ-T15 AMMF-T08 EGOJ-T11 EGOJ-T08 EGOJ-T05 EGOJ-T07 EFSR-T02 EGOJ-T06 AMMF-T02 EGOJ-T02 EGOJ-T12 EGOJ-T10 EGOJ-T01 EGOJ-T03 B05-T06 B05-T10 B05-T14 B05-T03 B05-T18 B05-T13 B05-T15 B05-T01 B05-T12 B05-T11 B05-T08 B05-T16 B05-T07 B05-T02 -4 Individual-ACC Individual-B05 Individual-EFSR Individual-EGOJ Individual-PSCS AMMF-T03 Individual-RACS AMMF-T04 EGOJ-T04 B05-T04 -6 -8 -6 -4 -2 0 F1(31.30%) 2 4 6 8 Séries espaço-temporais Exploração dePadrões emDados Sísmicos (a) (b) (c) Identificação depadrões em BigData • Tratamento dosdados • Discretização/normalização • Indexação • Distribuição • Análise • Algoritmos deanálise depadrões em séries temporais • Configuração /análise paramétrica • Testeeavaliação • Rankingdesoluções • Métrica decomparação entresoluções Comentários Finais • Ciência deDados • Umanovaárea multi-disciplinar • Ciência daComputação como umdosalicerces na novaciência • Oprocesso deinvestigação carece desistemas deapoio • Ambiente comvárias alternativas masalguns pilares já estão mais sedimentados • Aimportância detrabalhar em problemas reais comdadosdisponíveis • Não invente oseu problema!!! • Os resultados pecisam ser validados einterpretados • Obtenha eestabeleça umgoldenstardard • Estabeleça ocritério deavaliação parapredições,principalmente sobre dadosnovos • Modelos só são bons quando coincidem comainterpretação quesepretende extrair dosdados • Jornada Em Ciência deDados,Fev/2016 UmExcelenteIníciodeCurso!!! Obrigado !J Fabio Porto ([email protected]) 56