INCT-CID - (EIC) ? CEFET-RJ

Propaganda
INCT-CID
FabioPorto
LNCC– MCTIC– DEXLLAB
Semestre 1– Setembro 2016
Programa dePós-Graduação em Ciência daComputação
EscoladeInformática &Computação
CEFET/RJ
Agenda
• Introdução
• Os Primeiros Passos
• OTurco
• Aplicações
Laboratório Nacional deComputação
Científica (LNCC)
Petropolis, Rio de Janeiro
3
LNCC- MCTI
• GraduateCourseonComputationalModelling
• CAPES6
• LABINFO
• Genomics,proteomicsbacteriaandmicro-organisms
• INCT–MACC
• MedicineSupportedbyScientificComputing
• INCT- CID
• SINAPAD
• NationalSystemofHighPerformancePerformance
• ThematicLaboratory
• ACIMA(acima.lncc.br)
• MARTIN(martin.lncc.br)
• DEXL(dexl.lncc.br)
• COMCIDIS(comcidis.lncc.br)
• HEMOLAB(hemolab.lncc.br)
• LABINFO(labinfo.lncc.br)
4
SINAPAD– National CenterforHPC
• Organizedin
CENAPADS:
• Universities
• Researchventers
• Different
architectures:
• SharedDisks
• SharedMemory
• GPUs
Atos-BULLSupercomputer
SANTOSDUMONTCONFIGURATION
CPU
Processors/Blade
CPU
Cores/processor
TotalCoresCPU
2
1
1
12
12
12
12
12.096
4.752
1.296
18.144
12
16
13.392
250
Blades
GPU
Processors/Blade
GPU
Cores/processor
396
108
1
1
2880
61
TotalCores
GPU
orPHI
1.140.480
6.588
MachinePartition
Blades
B710CPU's
B715+GPU
B715+PHI
B710+B715CPU's
504
396
108
1008
B710cp+B715cpuPhi
MESCLAnode
612
GPU/PHI
NVIDIAK40
INTEL7120X
3,7
GrupodePesquisaemCiênciadeDados
• ArturZiviani
• EduardoOgasawara (CEFET-RJ)
• FabioPorto
• KaryOcana
• LuizGadelha
• Andre Salles
FIOCRUZ
Ciência deDados– UmanovaDisciplina
• Mudança deVisão Histórica paraPredição doFuturo
• Predições razas eprofundas
• Inferências baseadas em dados
• Modelos Baseadas em dados
• Foco
•
•
•
•
Grandevolume
Treinamento
Tratamento
Interpretação Humana
INCT- Ciência deDados(CID)
• Objetivo
• Estruturaranovaárea
• FormaçãodeRecursosHumanos
• PesquisaeDesenvolvimento
• TransferênciadeTecnologiaparaIndústriaeSociedade
• Como?
• AtravésdaIntegraçãodedisciplinascomfocoemdados
• BancosdeDados
• AnálisedeDados
• ModelagemdeDados
• Metodologias
• Dirigidaàhipóteses
• Análiseestatística
• Tecnologias
•
•
•
•
FrameworksBigData:Spark,Giraph,TensorFlow,….
Linguagensdeprogramacão:R,python,scala
Sistemas:NoSQL,Greenplum,...
Machine Learning:scikit-learn,ApacheMahout,..
INCT- CID
• Parcerias
•
•
•
•
FIOCRUZ
Observatório Nacional
Comitê Olimpico Brasileiro
Prefeituras: Curitiba,RiodeJaneiro
• Empresas
• EMC- CentrodePesquisa
• IBMResearch
• PhilipsResearch
• Conselho Internacional
•
•
•
•
NYU
INRIA
UCSB
BostonUniversity– DataScienceInstitute
Umabrevehistória daCiência deDados
• R.A.Fisher, 1935,ThedesignofExperiments
Correlationdoesnotimplycausation
• HansP.Luhn,1958,BusinessIntelligentSystems,IBM
• Automaticmethodtoprovidecurrentawarenessservicestoscientistsand
engineers
• J.W.Tukey,1977,ExploratoryDataAnalysis
• ..Forseeingwhatthedatacantellusbeyondtheformalmodelingand
hypothesistesting..– inspirou odesenvolvimento dopacote estatítico S
• H.Dresner,1989,BusinessIntelligence
• Thedatabaseviewondataanalytics
Umabrevehistória daCiência deDados
• T.Michel,1977,TheMachineLearningbook
• Google,1996,PrototypeSearchEngine
• JimGrayet.al,2007,TheFourthParadigm
• Experimentaldatascience
• A.Halevy,P.Norvig,2009,TheUnreasonableEffectivenessofData
• Fromdeepmodelstoharnessingofdatavolumes
• Exponentialgrowthindatavolume,2010,Thedatadeluge
DataScience- Habilidades
Fonte:http://drewconway.com/
OrganizaçãodoINCT-CID
Biodiversidade
Geociências
Esporte
Defesa
Física
Educação
Gerência de
Dados
Astronomia
Engenharias
Análise de
Dados
Energia
Mobilidade
Ciências biológicas
Meteorologia /
Ciências climáticas
Química
Saúde
Ciência
de
Dados
Petróleo/Gás
Ciências sociais
Análise de
Redes Complexas
Business
intelligence
Ciências humanas
…
Internet/Web
CS+X
• Ciência daComputação está na basedoprocesso científico em todas
disciplinas
•
•
•
•
•
CS+astronomia
CS+biologia
CS+meteorologia
CS+esporte
CS+sociologia
• younameit!!
• Fundamentalna ciência dedados
• TheFourthParadigma:DataIntensiveScientificDiscovery,JimGrayet
al.
ProcessodeCID
Data
Collection
Data
Uniformization
Data
Contextualization
Data
Loading
DataManagement
Problem
Definition
Prediction
Model
DataAnalysis
Data
Analytics
DeDadosCrusà Interpretação
cleaning
Raw
Integration
Intermediary
Tier:1
Tier:0
Transformation
Analysis
Tailored
Tier:2
Ciência deDados– Processo
Data
Sources
Hypothesis
Formulation
DataCapturing
observation
Integrated
analysis
Data
Analysis
Report
Evidence
identification
Umdataflowparacarga dedados
consolidado – GenNetVirus (R.L.Costa)
NaCluster – V.Pires
SupervisedLearning
• Training:Giventrainingexamples{(Xi,Yi)}whereXi isthefeature
vectorandYi thetargetvariable,learnafunctionFtobestfitthe
trainingdata(i.e.,Yi ≈F(Xi)foralli)
Historical Data
(X1, Y1)
(X2, Y2)
….
(Xn,Yn)
Learning
Algorithm
Model
F
• Prediction: GivenanewsampleX withunknownY,predictY using
F(X)
X
Y
URL
Title/Body
Text
Feature
Extraction
Model F
E-commerce
Site?
Hyperlinks
Features/Attributes
Target/Label
22
HumanDataAnalytics
SISVAN
SistemasdeInformaçãodeSaúde
SISCOLO
SIS
PRÉNATAL
SIAB
SINAN
SIASUS
SIHSUS
SI-PNI
HIPERDIA
SINASC
SIM
CNES
Registram‘eventos’,queocorremempessoas,nãoosprocessosdeadoecimentoemorte
Linkagem dedados,possívelmasdifícil 24
Primeiros
casosdezika
Dengue
Chikungunya
6meses– períodode
desenvolvimentoda
microcefalia?
Pânicodevidoàs
comorbidades
Listadedoenças
possivelmente
associadasàinfecção
pelovíruszika
Doençaoucondição
Evento
Sistema
CID-10
INFECÇÕESVIRAIS
Dengue(dengueclássico)
Febrehemorrágicadevidaaovírusdadengue
Notificação
Notificação,óbito
SINAN
SINAN,SIM
A90
A91
FebredeChikungunya
DoençapeloZikavírus
DoençapeloZikavírus,nãoespecificada
Notificação
Notificação
SINAN
SINAN
SINAN
A92.0
U06*
U06.9*
MANIFESTAÇÕES
NEUROLÓGICAS
ASSOCIADASA
INFECÇÕESVIRAIS
(DENGUE,
CHIKUNGUNYAEZIKA)
Encefaliteporvírustransmitidospormosquitos
Outrasencefalitesporvírustransmitidaspormosquitos
Encefalitenãoespecificadaporvírustransmitidapormosquitos
Internaçãohospitalar,óbito
SIH
SIH
SIH
A83
A83.8
A83.9
Outrasencefalitesvirais,nãoclassificadasemoutraparte
Internaçãohospitalar
SIH
A85
Encefaliteviralnãoespecificada
Internaçãohospitalar
SIH
A86
Meningiteviral
Outrasmeningitesvirais
Meningiteviralnãoespecificada
Meningiteemoutrasdoençasinfecciosaseparasitáriasclassificadasemoutraparte
Meningiteemdoençasviraisclassificadasemoutraparte
Internaçãohospitalar
SINAN
Internaçãohospitalar,óbito
SIH,SIM
SIH,SIM
A87
A87.8
A87.9
G02
G02.0
Meningitedevidaaoutrascausaseacausasnãoespecificadas
Meningitedevidaaoutrascausasespecificadas
Meningitenãoespecificada
Internaçãohospitalar,óbito
SIH,SIM
SIH,SIM
SIH,SIM
G03
G03.8
G03.9
Encefalite,mieliteeencefalomielite
Encefaliteagudadisseminada(ADEM)
Outrasencefalites,mieliteseencefalomielites
Encefalite,mieliteeencefalomielitenãoespecificada
Encefalite,mieliteeencefalomieliteemdoençasclassificadasemoutraparte
Encefalite,mieliteeencefalomieliteemdoençasviraisclassificadasemoutraparte
Internaçãohospitalar,óbito
SIH,SIM
SIH,SIM
SIH,SIM
SIH,SIM
SIH,SIM
SIH,SIM
G04
G04.0
G04.8
G04.9
G05
G05.1
SíndromedeGuillain-Barré
Internaçãohospitalar,óbito
SIH,SIM
G61.0
Hemiplegia
Hemiplegiaflácida
Paraplegiaetetraplegia
Paraplegiaflácida
Paraplegianãoespecificada
Tetraplegiaflácida
Síndromeparalíticanãoespecificada
Internaçãohospitalar
SIH
SIH
SIH
SIH
SIH
SIH
SIH
G81
G81.0
G82
G82.0
G82.2
G82.3
G83.9
Gravidezectópica
Internaçãohospitalar,óbito
fetaloudagestante
SIH,SIM-feto
O00
Molahidatiforme
Internaçãohospitalar,óbito
fetaloudagestante
SIH,SIM-feto
O01
Outrosprodutosanormaisdaconcepção
Internaçãohospitalar,óbito
fetaloudagestante
SIH,SIM-feto
O02
Abortoespontâneo
Internaçãohospitalar,óbito
fetaloudagestante
SIH,SIM-feto
O03
Abortoporrazõesmédicaselegais
Internaçãohospitalaróbito
fetaloudagestante
SIH,SIM-feto
O04
Outrostiposdeaborto
Internaçãohospitalaróbito
fetaloudagestante
SIH,SIM-feto
O05
Abortonãoespecificado
Internaçãohospitalaróbito
fetaloudagestante
SIH,SIM-feto
O06
Falhadetentativadeaborto
Internaçãohospitalaróbito
fetaloudagestante
SIH,SIM-feto
O07
Complicaçõesconsequentesaabortoegravidezectópicaoumolar
Internaçãohospitalaróbito
fetaloudagestante
SIH,SIM-feto
O08
Anencefaliaemalformaçõessimilares
Nascimento,óbitofetal,
internaçãodoneonato
SINASC,SIM-neonato,SIH
Q00
Microcefalia
Nascimento,óbitofetal,
internaçãodoneonato
SINASC,SIM-neonato,SIH
Q02
Hidrocefaliacongênita
Outrahidrocefaliacongênita
Hidrocefaliacongênitanãoespecificada
Nascimento,óbitofetal,
internaçãodoneonato
SINASC,SIM-neonato,SIH
SINASC,SIM-neonato,SIH
SINASC,SIM-neonato,SIH
Q03
Q03.8
Q03.9
Outrasmalformaçõescongênitasdocérebro
Outrasdeformidadesporreduçãodoencéfalo(incluindohidranencefalia)
Malformaçãocongênitanãoespecificadadoencéfalo
Nascimento,óbitofetal,
internaçãodoneonato
SINASC,SIM-neonato,SIH
SINASC,SIM-neonato,SIH
SINASC,SIM-neonato,SIH
Q04
Q04.3
Q04.9
Malformaçõescongênitasdaspálpebras,doaparelholacrimaledaórbita
Nascimento
SINASC
Q10
Anoftalmia,microftalmiaemacroftalmia
Malformaçõescongênitasdocristalino
Malformaçõescongênitasdacâmaraanteriordoolho
Malformaçõescongênitasdacâmaraposteriordoolho
Outrasmalformaçõescongênitasdoolho
Malformaçõescongênitasdoouvidocausandocomprometimentodaaudição
Nascimento
Nascimento
Nascimento
Nascimento
Nascimento
Nascimento
SINASC
SINASC
SINASC
SINASC
SINASC
SINASC
Q11
Q12
Q13
Q14
Q15
Q16
TIPOSECAUSASDE
ABORTOASSOCIADOS
ÀINFECÇÃOPELO
VÍRUSZIKA
TIPOSDE
MALFORMAÇÕES
CONGÊNITAS
ASSOCIADOSÀ
INFECÇÃOPELOVÍRUS
ZIKA
Internaçãohospitalar,óbito
Internaçãohospitalar
Internaçãohospitalar
Evoluçãodasinternaçõesportotalde
malformaçõesemmenoresdeumano
Evoluçãodasinternaçõespormalformações
doSNCemmenoresdeumano
Evoluçãodasinternaçõespor
“outrasdoençasdoSNC”
Evoluçãodasinternaçõespor
complicaçõesrelacionadasaoaborto
Aumentodasinternaçõesporneuropatias
Melhoraroindicador
Usartécnicasdedetecçãodeclusterespacial
ÁreaExemplo:EsportedeAlto
Rendimento
Áreas daCiência doEsporte
History of Sports
Economy of Sports
Sports philosophy / ethics
Sports law
Biomechanics
Sports pedagogy
Sports
science
Movement science
Science of Training /
Performance Analysis
Sports psychology
Sports sociology
Sports
anthropology
Sports medicine
Sports biology
Sportomics [Cameron,Bassini 2015]
• Adoção daAvaliação integrada deAtletas apartir
dediferentes disciplinas
• Características individuais - >fazem adiferença
• características raras são mais valiosas !!!
• Processo científico baseado em dados
34
Computação:atleta esua modalidade
Captura deDados
Extração deSangue
Espectrometria deMassa
Modelo EstrelaparaAnálise deDados
Relação:Alvo –Medições
Resultado daavaliação doatleta amador:RenatoPinheiro Oliveira
Alvo
Evidências
Hipóteses
Abordagem
• Identificaratributosrelevantes
• Avaliaçãoestatísticasdecorrelaçãoentrealvosemedições
• Definirgruposdeatributoscorrelacionados
• Discretização deatributos(SAX)
• DeterminaçãodegraudeIndependênciaentreInformaçõesRedundante
[Wongetal1976]
• Usodealgoritmosdeclusterização (k-means)
• Estabelecerrelaçõesprobabilísticasdecausalidade
• ModeloGrafoProbabilístico->CausalBayesian Networks
• Identificarelementosasofrereminterferência
SupervisedLearning
• Training:Giventrainingexamples{(Xi,Yi)}whereXi isthefeaturevectorandYi thetargetvariable,
learnafunctionFtobestfitthetrainingdata(i.e.,Yi ≈F(Xi)foralli)
Historical Data
(X1, Y1)
(X2, Y2)
….
(Xn,Yn)
Learning
Algorithm
Model
F
(Medição,Alvo)
• Prediction: GivenanewsampleX withunknownY,predictY usingF(X)
Title/Body
Text
Y
X
URL
Feature
Extraction
Model F
E-commerce
Site?
Hyperlinks
Features/Attributes
• InvertedProblem:GivenaY determinerelevantX usingF-1(Y)
Target/Label
46
SAHA– Sistema deApoio
Holistico ao Atleta
SAHA:Apoioàanáliseintegradadedadosde
atletasdealtorendimento
Knowledge Construction and
Expression
Hypothesis formulation and Validation
Data Capturing &Homogenization
SAHA
SAHA
PCA:F1vs F2
Observations(axesF1andF2:48.08%)
4
EFSR-T13
EFSR-T10
EFSR-T07
VAGF-T09
EFSR-T05
EFSR-T17
EFSR-T09
EFSR-T11
EFSR-T06
EFSR-T15
RACS-T08
EFSR-T12
VAGF-T13
EFSR-T01
RACS-T04
ACC-T02
PSCS-T05
VAGF-T10
EFSR-T14
ACC-T09
RACS-T12
ACC-T01 RACS-T14
ACC-T05
ACC-T11 ACC-T17
RACS-T11
RACS-T05
RACS-T13
ACC-T15
RACS-T07
RACS-T06
EFSR-T03
AMMF-T17
EFSR-T08
ACC-T13
EFSR-T04
ACC-T18
VAGF-T14
VAGF-T08
RACS-T01
ACC-T04
VAGF-T03
PSCS-T09 RACS-T15
ACC-T06
ACC-T10
PSCS-T06
ACC-T08
RACS-T10
PSCS-T12
RACS-T02
VAGF-T15
PSCS-T10
PSCS-T11
ACC-T03
ACC-T07
PSCS-T14
PSCS-T01
RACS-T09 AMMF-T18
RACS-T03
ACC-T16
PSCS-T17
ACC-T12
PSCS-T07RACS-T17
VAGF-T17
VAGF-T05
RACS-T16
VAGF-T06
VAGF-T01
VAGF-T11
PSCS-T08
PSCS-T16
PSCS-T13
VAGF-T12
PSCS-T15
VAGF-T02
AMMF-T13
ACC-T14
PSCS-T03
EFSR-T16
AMMF-T09
PSCS-T02
2
0
F2(16.78%)
PSCS-T04
VAGF-T16
VAGF-T07
PSCS-T18
-2
B05-T05
B05-T09
B05-T17
Individual-AMMF
AMMF-T11
EGOJ-T13
Individual-VAGF
EGOJ-T17
VAGF-T04
AMMF-T07
EGOJ-T09
AMMF-T14
AMMF-T10 AMMF-T12
AMMF-T15
AMMF-T05 EGOJ-T14
AMMF-T16
EGOJ-T16
AMMF-T06
AMMF-T01
EGOJ-T15
AMMF-T08
EGOJ-T11
EGOJ-T08
EGOJ-T05
EGOJ-T07
EFSR-T02
EGOJ-T06
AMMF-T02
EGOJ-T02
EGOJ-T12
EGOJ-T10
EGOJ-T01
EGOJ-T03
B05-T06
B05-T10
B05-T14
B05-T03
B05-T18
B05-T13
B05-T15
B05-T01
B05-T12
B05-T11
B05-T08
B05-T16
B05-T07
B05-T02
-4
Individual-ACC
Individual-B05
Individual-EFSR
Individual-EGOJ
Individual-PSCS
AMMF-T03
Individual-RACS
AMMF-T04
EGOJ-T04
B05-T04
-6
-8
-6
-4
-2
0
F1(31.30%)
2
4
6
8
Séries espaço-temporais
Exploração
dePadrões
emDados
Sísmicos
(a)
(b)
(c)
Identificação depadrões em BigData
• Tratamento dosdados
• Discretização/normalização
• Indexação
• Distribuição
• Análise
• Algoritmos deanálise depadrões em séries temporais
• Configuração /análise paramétrica
• Testeeavaliação
• Rankingdesoluções
• Métrica decomparação entresoluções
Comentários Finais
• Ciência deDados
• Umanovaárea multi-disciplinar
• Ciência daComputação como umdosalicerces na novaciência
• Oprocesso deinvestigação carece desistemas deapoio
• Ambiente comvárias alternativas masalguns pilares já estão mais sedimentados
• Aimportância detrabalhar em problemas reais comdadosdisponíveis
• Não invente oseu problema!!!
• Os resultados pecisam ser validados einterpretados
• Obtenha eestabeleça umgoldenstardard
• Estabeleça ocritério deavaliação parapredições,principalmente sobre dadosnovos
• Modelos só são bons quando coincidem comainterpretação quesepretende
extrair dosdados
• Jornada Em Ciência deDados,Fev/2016
UmExcelenteIníciodeCurso!!!
Obrigado !J
Fabio Porto ([email protected])
56
Download