pontifícia universidade católica do rio grande do sul faculdade de

Propaganda
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL
FACULDADE DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UM PROCESSO DE AQUISIÇÃO
E MAPEAMENTO DE DADOS PARA AS BACIAS
SEDIMENTARES MARGINAIS BRASILEIRAS
JOAQUIM VINICIUS CARVALHO ASSUNÇÃO
Dissertação apresentada como requisito parcial à
obtenção do grau de Mestre em Ciência da Computação na Pontifícia Universidade Católica do
Rio Grande do Sul.
Orientador: Paulo Henrique Lemelle Fernandes
Porto Alegre
2012
Agradecimentos
Agradeço a todos aqueles que fizeram parte desta curta e intensa jornada de Mestrado. Foram inúmeras lições que fizeram com que eu crescesse muito durante esses dois anos, tanto em aspectos
técnicos e científicos, como humanos e culturais. Realizei aqui, um sonho que abriu margens para
uma nova realidade, e consequentemente, novos sonhos. Mas dentre tudo que foi obtido, as novas e
boas amizades tem especial destaque.
Em especial agradeço aqueles com que mais convivi e aqueles que tiveram impacto direto na qualidade deste trabalho. Em ordem cronológica...
Ao Prof. Dr. Duncan Ruiz por ter me selecionado e me encaminhado nos primeiros meses de mestrado, e por ter me escolhido para o estágio de docência na disciplina Aspectos Avançados de Banco
de Dados.
Ao meu orientador, Prof. Dr. Paulo Fernandes, por ter me aceitado no projeto PaleoProspec; por estar
sempre disposto a avaliar novas ideias, e pelas rápidas e francas respostas quanto as mesmas; pelo
reconhecimento e boa convivência que fizeram com que esse jornada tenha sido mais agradável.
A Dra. Maria Pivel que teve fundamental importância neste trabalho, agregando qualidade de maneira com que as criações computacionais não ficassem incoerentes com a realidade geológica; pela
boa convivência e por sempre estar com boa disposição para tirar dúvidas e debater sobre qualquer
assunto.
Aos colegas e mestres: Christian Quevedo, pelas valiosas críticas em minha prévia de defesa; por
todas as dicas e modelos de PEP etc. emprestados e principalmente pela criteriosa revisão de minha
dissertação.
Luciana Espíndola, por ter atuado como revisora em trechos de minha dissertação; pela presença e
atuação crítica em minhas prévias; pela presença, bom humor e dicas de escrita; finalmente, e não
menos importante, pela filmagem de minha defesa :)
Luciano Blomberg, pelos modelos emprestados, pelas dicas técnicas e dicas sobre a pós.
Aos demais amigos do GPIN, os quais tive maior convívio no primeiro ano de mestrado: Ana Winck,
Juliano Carvalho, Luiz Vaz, Luiz Gonzalez e Peterson Colares; pela amizade, momentos de decontração e dicas sobre o mestrado.
Aos demais amigos do Paleoprospec: Afonso Sales, Claiton Correa, Eli Maruani, Gabriel Couto,
Leonardo Peres, Lucas Oleksinski e Thais Webber; pela amizade, boas conversas e momentos de
descontração que fizeram o peso dessa jornada se tornar mais leve.
Aos amigos e colegas de HP: Fernando Castilho e Tiago Silva, os quais compartilhei, por alguns
meses, as tardes no salão de desenvolvimento da HP. Agradeço-os pela amizade e pela experiência
compartilhada.
8
A todos os que aqui citei e aos demais amigos que indiretamente me deram forças para continuar em
dias de excessivas preocupações e incertezas. Obrigado a todos!
UM PROCESSO DE AQUISIÇÃO E MAPEAMENTO DE DADOS
PARA AS BACIAS SEDIMENTARES MARGINAIS BRASILEIRAS
RESUMO
Encontrar petróleo é uma tarefa difícil que requer grandes quantidades de informações e recursos. Ao longo
de décadas de pesquisa, os geólogos da Petrobras acumularam grandes quantidades de dados. Além disso,
na geologia do petróleo outras fontes de dados são importantes, fontes estas, que em geral estão dispersas e
possuem várias formas de represenção. Esta dissertação relata a criação de um banco de dados que agrega
diversos dados de origem paleoclimática e paleogeográfica provenientes do Atlântico Sul. Grande parte destes
dados foram extraídos de cartas estratigráficas, convertidos e armazenados em forma de um modelo numérico.
Modelo este, que é resultado de agregações de dados provenientes das bacias sedimentares brasileiras e da
criação de uma solução algorítmica capaz de mapear os dados coletados ao longo da área designada. Estes
dados são relativos a um período de tempo entre a idade geológica atual até 140 milhões de anos atrás. Os
140 milhões de anos correspondem ao período de deslocamento do continente Sul-Americano desde a costa
da África até a posição atual. Durante esse deslocamento houveram diversas mudanças naturais nas bacias
sedimentares oceânicas até chegarem ao estado atual. O grupamento destes dados potencializa a descoberta de
conhecimento relativo aos fatores necessários para a deposição de matéria orgânica e geração de petróleo no
fundo do mar, assim, estes novos fatores podem vir a melhorar as probabilidades de descoberta de petróleo.
Palavras-chave: Geoinformatica; Algoritmos; Banco de Dados; Bacias Sedimentares; Descoberta de Conhecimento.
A PROCESS OF DATA ACQUISITION AND MAPPING
FOR BRAZILIAN SEDIMENTARY MARGINAL BASINS
ABSTRACT
Finding oil is a hard task that requires large amounts of information and resources. Along decades of
research, geoscientists from Petrobras have accumulated great amout of data. Therefore, in petroleum geology
other sources of important data are generally dispersed and have many forms of representation. This Master
Thesis reports the creation of a database that stored various geophysical, paleogeographic and paleoclimatic
data from the South Atlantic. Great part of these data were extracted from stratigraphic charts, converted, and
stored as a numeric model. This model is the result of an aggregation of data from the Brazilian Sedimentary
Basins and the creation of an algorithm solution able to map collected data at the designated geographical area.
These data cover the past 140 millions years. The 140 millions of years correspond to a drift period of the
South American Plate from the African west coast to the present location. During this drift several natural
changes happened in the Ocean Sedimentary Basins until they reached the actual state. The grouping of these
data enhances the potential to knowledge discovery on the factors necessary for the deposit of organic matter
and oil generation, in consequence, these new factors may improve the chances of finding oil.
Keywords: Geoinformatics; Algorithm; Database; Sedimentary Basins; Knowledge Discovery.
13
Lista de Figuras
2.1
Representação esquemática da fragmentação do supercontinente Pangéia . . . . . . .
26
2.2
Mapa das placas e do relevo da Terra . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.3
Bacias e território marítimo brasileiro. . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.4
Mapa do campo gravitacional da terra. . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.5
Carta Estratigráfica da Bacia de Santos. . . . . . . . . . . . . . . . . . . . . . . . .
31
2.6
Comparação parcial entre as cartas de 2003 e 2007 da bacia de Pelotas. . . . . . . .
31
2.7
Etapas de um processo de KDD segundo Fayyad [Fay96]. . . . . . . . . . . . . . . .
35
2.8
Etapas de um processo de KDD segundo Han e Kamber [Han01]. . . . . . . . . . .
36
2.9
Modelo genérico de uma tarefa de classificação. . . . . . . . . . . . . . . . . . . . .
37
4.1
Modelo das etapas de KDD aplicadas aos processos. . . . . . . . . . . . . . . . . .
44
4.2
Exemplo de representação com potências de dois. . . . . . . . . . . . . . . . . . . .
45
4.3
Ferramenta de ETL para o banco de dados litoestratigráfico . . . . . . . . . . . . . .
47
4.4
Modelo extraído do banco de dados . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.5
Modelo proposto para o Banco de Dados PaleoGeoDB. . . . . . . . . . . . . . . . .
50
4.6
Perfil de Sísmica referente a Bacia de Santos. . . . . . . . . . . . . . . . . . . . . .
52
4.7
Banco de Dados modelo Estrela. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.8
Linhas: LC, QP e L3K geradas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.9
Recorte da carta de Jequitinhonha, relativo a idade Ypresiana. . . . . . . . . . . . .
56
4.10 Exemplo de problema com a utilização de ângulos como parâmetro. . . . . . . . . .
57
4.11 Visão gráfica da localização dos dados na Bacia de Santos. . . . . . . . . . . . . . .
59
4.12 Problema com a quantidade excessiva de dados e a fórmula de curvatura. . . . . . . .
60
4.13 Exemplo de uma possível malha (entre duas litologias) criada a partir de mineração
com regras de evolução. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
5.1
Atuais áreas de extração de petróleo e gás, limites e bacias. . . . . . . . . . . . . . .
68
A.1 Parte do International Stratigraphic Chart com as idades geológicas usadas. . . . . .
75
A.2 Litologias utilizadas e seus respectivos valores. . . . . . . . . . . . . . . . . . . . .
76
A.3 Coordenadas utilizadas - parte 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
A.4 Coordenadas utilizadas - parte 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
B.1 Resultados da mineração na etapa 1 . . . . . . . . . . . . . . . . . . . . . . . . . .
F.1
F.2
F.3
F.4
F.5
F.6
F.7
F.8
F.9
F.10
F.11
F.12
F.13
F.14
F.15
F.16
Gráfico da posição dos dados na bacia de Pelotas . . . . . . .
Gráfico da posição dos dados na bacia de Santos . . . . . . . .
Gráfico da posição dos dados na bacia de Campos. . . . . . .
Gráfico da posição dos dados na bacia de Espírito Santo. . . .
Gráfico da posição dos dados na bacia de Mucuri. . . . . . . .
Gráfico da posição dos dados na bacia de Cumuruxatiba. . . .
Gráfico da posição dos dados na bacia de Jequitinhonha. . . .
Gráfico da posição dos dados na bacia de Camamu-Alamada. .
Gráfico da posição dos dados na bacia de Jacuípe. . . . . . . .
Gráfico da posição dos dados na bacia de Sergipe-Alagoas. . .
Gráfico da posição dos dados na bacia de Pernambuco-Paraíba.
Gráfico da posição dos dados na bacia de Potiguar. . . . . . .
Gráfico da posição dos dados na bacia de Ceara. . . . . . . . .
Gráfico da posição dos dados na bacia de Barreirinhas. . . . .
Gráfico da posição dos dados na bacia de Pará-Maranhão. . . .
Gráfico da posição dos dados na bacia de Foz do Amazonas. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
Lista de Abreviaturas
KDD
Knowledge Discovery in Databases
25
GKD
Geographic Knowledge Discovery
25
ESA
European Space Agency
29
Lat
latitude
29
Lon
longitude
29
SGBD
Sistema de Gerenciamento de Banco de Dados
33
SDM
Spatial Data Mining - Mineração de Dados Espaciais
38
ETL
Extract Transform and Load
39
DW
Data Warehouse
40
IMS
Information Management System
40
VSAM
Virtual Storage Access Method
40
ISAM
Indexed Sequential Access Method
40
ANP
Agência Nacional de Petróleo
45
PaleoGeoDB
Paleo Geographic Database
49
RPB
Referente a Parte de Bacia
51
PRD
Porcentagem Relativa de Depósitos
51
PPSP
Potencial Papel no Sistema Petrolífero
51
NOAA
National Oceanic and Atmospheric Administration
53
LC
Linha da Costa
54
L3K
Linha de -3.000 metros
54
QP
Quebra de Plataforma
54
Sumário
Lista de Figuras
13
Lista de Abreviaturas
15
1 Introdução
21
1.1
Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Fundamentação Teórica
2.1
22
25
Dados Geológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.1.1
Evolução Tectônica e Deriva Continental . . . . . . . . . . . . . . . . . . .
26
2.1.2
Bacias Sedimentares Oceânicas . . . . . . . . . . . . . . . . . . . . . . . .
28
2.1.3
Gravimetria e Magnetometria . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.1.4
Sistema de Coordenadas Geográficas . . . . . . . . . . . . . . . . . . . . .
29
2.1.5
Cartas estratigráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Geologia do Petróleo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.2.1
Formação das Rochas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.3
Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.4
Descoberta de Conhecimento em Banco de Dados (KDD) . . . . . . . . . . . . . . .
34
2.4.1
Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
Descoberta de Conhecimento Geográfico (GKD) . . . . . . . . . . . . . . . . . . .
38
2.5.1
Spatial Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
Algoritmos e ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.2
2.5
2.6
3 Questões de Pesquisa
3.1
Cenário de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
41
4 Desenvolvimento
4.1
43
Introdução ao problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.1.1
Seleção dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.1.2
Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.1.3
Transformação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.4
Estimativa de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.5
Mineração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.6
Interpretação e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.2
Banco de dados Litoestratigráficos . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.3
PaleoGeoDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.3.1
Modelo para o Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . .
50
4.3.2
Obtenção e tratamento das coordenadas . . . . . . . . . . . . . . . . . . . .
53
4.3.3
As três linhas divisórias . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
4.3.4
Algoritmos de preenchimento . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.3.5
Plano de mineração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
5 Conclusões
65
5.1
Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
5.2
Contribuição Científica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
5.3
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
Referências Bibliográficas
71
A Documentos auxiliares
75
Bibliografia
75
B Resultados da mineração com fonte das cartas de 2003
79
C Script de criação do banco
81
D Scripts de inserção de dados
85
E Ferramenta de ETL (PaleoGeoDB Tool)
91
F Resultados obtidos pelo algoritmo criado
93
21
Capítulo 1
Introdução
Quando se fala em exploração de petróleo há uma grande quantidade de dados paleoclimáticos
e paleogeográficos a serem explorados e analisados. A estratigrafia e sísmica geram grandes volumes de dados. Esses dados usualmente são gerados e acumulados de maneiras distintas, tanto na
representação como na forma e local de armazenamento.
O trabalho relatado nesta dissertação, mostra a criação de um modelo numérico que simula a
evolução de dados naturais, bem como um banco de dados que suporta esse modelo. O modelo é
gerado através da coleta de diversos dados paleogeográficos e paleoclimáticos. Esses dados correspondem a margem continental brasileira e são relativos à área em que hoje se localiza a parte sul do
Oceano Atlântico. Eles são correspondentes a escalas de tempo geológico de modo que é possível
perceber a sucessão de sedimentos em um determinado local.
Em Ciência da Computação trabalhamos com tecnologias muito recentes. De fato, a diferença
temporal entre as tecnologias atuais e as tecnologias ultrapassadas, em geral, é de apenas alguns
anos. Em outras ciências, como a Geologia, dados antigos representam um conhecimento que é
importante não apenas para compreendermos fatos passados, mas também (e principalmente) para
ajudar a compreender melhor os dados geológicos atuais.
Quando se trata de dados da natureza, a quantidade e a diversidade dos dados tende a ser enorme.
O grande volume de dados tende a dificultar analises e extrações de conhecimento. Dois dos motivos
pelos quais grandes volumes de dados se tornam complexos, para análise e extração de conhecimento,
é a falta de unificação de padrões e as várias formas e locais de armazenamentos.
O trabalho relatado nesta dissertação trata da unificação de locais e padrões de grandes volumes
de dados geofísicos. Este volumes são expressivos não somente por abranger uma grande área física,
mas também por compor dados de outras idades geológicas.
Para entendermos melhor o presente é preciso estudar o passado, deste modo foram analisados
e agrupados dados relativos a um período de 140 milhões de anos atrás. Este período é relativo à
separação dos continentes da América do Sul e da África. Nesse intervalo de tempo foram formadas
as Bacias Sedimentares Marginais brasileiras como conhecemos hoje.
Um conjunto de dados numéricos mostrando a evolução de elementos geofísicos, bem como a
22
CAPÍTULO 1. INTRODUÇÃO
trajetória da deriva do continente Sul-Americano, abre novas oportunidades de pesquisas. Como consequência de análises nos dados paleoclimáticos e paleogeográficos é possível obter indicadores de
probabilidade de estabelecimento de condições favoráveis para a deposição e preservação de sedimentos ricos em matéria orgânica no espaço e no tempo e consequentemente na predição de ocorrência
de potenciais rochas geradoras de petróleo.
1.1
Motivação
Mais de 50 anos de pesquisas e explorações realizadas pela Petrobras nas bacias sedimentares da
costa brasileira propiciaram o acúmulo de grandes quantidades de informações [Mil07].
Muitos são os meios utilizados para armazenamento destas informações. Os gráficos originados
de sísmicas e cartas estratigráficas (ver Capítulo 2) são meios altamente utilizados e que armazenam
grandes quantidades de informações.
Contudo, sabe-se que grandes volumes de dados acumulados durante anos tendem a possuir informações ocultas e potencialmente úteis (ver seção 2.4). Especialmente quando se trata de dados
geológicos, o potencial para descobertas é muito grande, pois as formações geológicas dos tempos
atuais são resultados de longos processos, entre outros, de transformação das próprias matérias da
natureza ao decorrer no tempo.
As cartas estratigráficas (para saber mais, veja a seção 2.1.5) agregam grandes quantidades de
dados de forma gráfica. Isto, a priori, facilita nosso entendimento e ajuda-nos a termos uma visão
geral dos dados, porém nos traz uma série de limitações. Estas limitações dizem respeito a certas
técnicas estatísticas e computacionais para a descoberta de informações e padrões entre os dados.
Para utilização destas técnicas é necessário primeiramente adaptar os dados geofísicos em modelos
numéricos.
Além dos dados provenientes das cartas estratigráficas, temos inúmeros dados geofísicos e climáticos que possuem relação indireta com a formação do petróleo (o capítulo 2 exemplifica). Unir estes
dados torna mais fácil a visualização das informações e a descoberta de conhecimento.
A organização de modelos numéricos de dados geofísicos também tem como benefício organizar
dados atualmente caóticos. A literatura possui vários trabalhos que se destinam a organizar estes
dados. Podemos citar Cheng-fang [Fan10], que criou modelos de qualidade para garantir medidas
como normalização dos dados, integridade, precisão e segurança dos dados de sísmica. Estes são
especificamente alguns dos problemas que os Sistemas Gerenciadores de Banco de Dados (SGBD)
foram criados para resolver [Sil97]. Sendo assim, podemos além de gerar conhecimento, organizar
grandes quantidades de informações geofísicas.
Segundo Ketzer [Ket10], "Poder prever locais com maior probabilidade de sucesso pode ser muito
vantajoso para a estatal brasileira em termos financeiros e de tempo.". De fato, grandes empresas petrolíferas investem em pesquisa afim de melhorar o acerto quanto aos locais a serem perfurados. Para
melhorar a predição dos locais e por consequência, minimizar custos, é necessário um banco de dados
1.1. MOTIVAÇÃO
23
sólido que contenha grandes volumes de dados relevantes e dispostos em um modelo numérico para
que as técnicas de KDD e GKD possam ser aplicadas. Para criar o modelo numérico são necessárias
soluções que atendam as questões de pesquisa. Questões que começam a partir da transformação
dos dados geofísicos (imagens, Cartas Estratigráficas etc.) em dados que sejam suportados pelos
algoritmos de mineração de dados.
24
CAPÍTULO 1. INTRODUÇÃO
25
Capítulo 2
Fundamentação Teórica
Este capítulo se propõe a introduzir conceitos relativos a duas áreas do conhecimento. A Seção
2.1, no domínio das geociências, trata sobre os dados geológicos que fazem parte (direta e/ou indiretamente) deste trabalho. Nesta mesma área, há ainda uma síntese sobre a geologia do petróleo e seus
principais fatores, tanto em sua composição como em sua representação (Seção 2.2). Na segunda área
do conhecimento, computação, serão mostrados conceitos básicos sobre banco de dados (Seção 2.3)
e descoberta de conhecimento em banco de dados (KDD) (Seção 2.4), seguido de alguns conceitos
básicos sobre algoritmos e ETL.
Primeiramente serão apresentados os conceitos geológicos relativos à formação das placas tectônicas, os quais são a base para a formação e evolução das bacias. Em seguida, serão apresentados os
conceitos relativos às coordenadas geográficas, dados paleogeográficos, paleoclimáticos e paleoceanográficos, bem como a função de alguns destes dados na geologia do petróleo. Após, é realizada
uma síntese sobre Banco de Dados e Sistemas Gerenciadores de Banco de Dados, juntamente com
alguns conceitos de KDD, GKD , ETL e algoritmos.
2.1
Dados Geológicos
Esta seção trata de diversos paleodados e dados geológicos. Estas expressões (paleodados, dados
geológicos) são muito utilizadas nesta dissertação, de modo que é importante esclarecer algumas
formalidades quanto as mesmas.
O termo “paleo” vem do grego “palaiós” que significa antigo. Em palavras como: paleodados ou
paleoclimáticos, o termo “paleo” age como prefixo, indicando referência a algo do passado. Sendo
assim, “paleodados” refere-se a dados do passado. Nesta dissertação, “paleodados” refere-se a dados
em uma janela de tempo compreendida entre a idade geológica atual até 140 milhões de anos atrás.
Dados geológicos são todos aqueles referentes à geologia. Logo, a grande maioria dos dados
geológicos (especialmente aqui utilizados) são paleodados, mas nem todo paleodado é um dado geológico.
26
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
Em uma visão geral, esta seção é dividida em subseções que apresentam conceitos importantes sobre os paleodados utilizados. Começando pela sub-seção “Evolução Tectônica e Deriva Continental”,
os conceitos são apresentados em uma visão “Top-Down”. Assim, os conceitos da evolução tectônica servem como uma visão geral para uma melhor compreensão das outras seções, que apresentam
outros conceitos geológicos que neste trabalho se relacionam com a deriva continental.
2.1.1
Evolução Tectônica e Deriva Continental
Em um período anterior há aproximadamente 200 milhões de anos existia um único continente
denominado Pangéia (do Grego, “todas as terras”). Ao longo do tempo, esse supercontinente começou
a se fragmentar. Formou Laurásia e Gondwana, que se fragmentaram de modo a formar os continentes
como conhecemos hoje [USG09]. A África e a América do sul são resultados da fragmentação do
Gondwana. Essa separação teve início há aproximadamente 150 milhões de anos atrás. A figura 2.1
exemplifica.
Figura 2.1: Representação esquemática da fragmentação do supercontinente Pangéia
2.1. DADOS GEOLÓGICOS
27
A Teoria da Deriva Continental é a teoria que trata da separação dos continentes. Tida como teoria
fundamental da geologia e da geomorfologia, ela foi publicada em 1915 por Alfred Wegener e sofreu
várias atualizações até a data atual. Inicialmente refutada por físicos, a teoria de Wegener ficou anos
sob debate da comunidade científica. O principal problema eram as hipóteses de Wegener quanto às
forças que moviam os continentes, e a velocidade com que eles se moviam [Pre06].
Alguns anos mais tarde, geólogos vieram a provar o encaixe dos continentes devido a similaridades de alguns locais. Rochas similares com a mesma idade foram encontradas na costa leste da
América do Sul e na costa oeste da África. Fósseis de alguns dinossauros da mesma espécie também
foram encontrados em ambos continentes. O fato de alguns fósseis de répteis, como o Mesosaurus,
existirem somente na África (costa oeste) e na América do Sul (costa leste) sugere que os continentes
estavam conectados [Pre06].
Em 1960, o geólogo Harry Hess expôs a renovação constante dos assoalhos oceânicos. A ideia
principal partira da existência de poucas rochas com mais de 100 milhões de anos, o que sugere que
as rochas mais novas se sobrepõem às mais antigas no assoalho oceânico [Hes62]. Em 1965, J. Tuzo
Wilson propôs que a ilha do Havaí e outras ilhas vulcânicas teriam se formado pela movimentação
das placas sobre pontos quentes do manto da terra. Essa teoria ajudou a identificar o “Círculo de Fogo
do Pacífico” juntamente com parte da placa do Pacífico, reforçando a teoria da tectônica das placas.
A figura 2.2 mostra as grandes placas que compõem a superfície do planeta. Note os pontos onde há
vulcanismo (em vermelho) e o limite noroeste da placa do pacífico [Pre06].
Figura 2.2: Mapa das placas e do relevo da Terra
Existem modelos de como ocorreu a deriva continental. Esses modelos respondem a questões
como: Qual foi a trajetória do continente desde a fragmentação de Pangéia, quanto tempo levou
para se deslocar uma distância x em um ponto y e uma idade z, etc. Este trabalho visa dar suporte
28
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
a uma reprodução numérica para o modelo de Moulin [Mou10], uma opção ao modelo de Müller
[Mul08], que segundo o consultor do projeto, Dr. Daniel Aslanian, é um modelo que apresenta
menos concordância com as condições de contorno definidas pelos dados de anomalias magnéticas.
As bacias sedimentares brasileiras foram originadas de eventos tectono-estratigráficos [Mil00],
que segundo o modelo de Moulin [Mou10], modificaram a Placa da América do Sul de modo a
deslocá-la até a posição atual. Enquanto os continentes se separavam, levavam junto consigo as
bacias sedimentares, que não apenas se deslocavam, mas também sofriam transformações em sua superfície sedimentar. Nesse processo, a superfície sedimentar do assoalho oceânico relativo às Bacias
Sedimentares brasileiras recebeu uma contínua deposição de novos estratos. Isto significa que novos
sedimentos se sobrepõem aos mais antigos. Esses sedimentos estão diretamente ligados com a formação do petróleo, pois alguns deles formam (ou auxiliam a formar) os hidrocarbonetos, elementos
químicos que compõem o petróleo [Mil00].
Esses hidrocarbonetos são gerados a grandes profundidades e trazidos à superfície através desses
eventos geológicos [Jah08].
Os hidrocarbonetos são compostos químicos constituídos apenas de carbono (C) e hidrogênio
(H). Essa configuração química permite com que os hidrocarbonetos agreguem átomos de oxigênio
(O), nitrogênio (N) e enxofre (S), assim eles são capazes de formar diferentes compostos como o gás
natural e o petróleo [Jah08].
2.1.2
Bacias Sedimentares Oceânicas
Segundo Popp [Pop84] as bacias sedimentares são divididas em 8 tipos distintos. No Brasil há
apenas 5 tipos delas: Interior (tipo I), Intra continental (tipo II), Rift-Valley (tipo III), Costeira estável
(tipo V) e Delta Terciário (tipo VIII). Neste trabalho utilizamos apenas os tipos III, V e VIII, pois as
bacias marginais brasileiras se enquadram apenas nestes tipos.
Estas bacias se estendem ao longo da costa brasileira e parte da costa Uruguaia. Começando ao
sul pela bacia de Pelotas, que tem início no Uruguai e se estende por todo o Rio Grande do Sul, até a
bacia do Foz do Amazonas que vai até a cidade do Oiapoque.
Estas bacias possuem diferentes tamanhos. Sua distância em relação à costa varia muito de bacia
para bacia. Grande parte das bacias está dentro do território brasileiro. Este território compreende um
espaço de 200 milhas náuticas de distância da costa em direção ao Atlântico. A figura 2.3 mostra as
bacias e a linha que marca o limite do território marítimo brasileiro.
2.1.3
Gravimetria e Magnetometria
É sabido que a terra possui um campo gravitacional, e que a gravidade gera a aceleração gravitacional que é a taxa de aumento de velocidade na queda de um corpo. Se a terra possuísse a forma de
uma esfera perfeita esta aceleração seria igual em qualquer parte do globo. Porém nosso planeta é um
geóide com distribuição distinta de massa [Net04].
2.1. DADOS GEOLÓGICOS
29
Figura 2.3: Bacias e território marítimo brasileiro.
A diferente distribuição de massa, juntamente com a forma da terra (geóide ou esfera imperfeita)
gera um campo gravitacional variável. Essa variação pode ser utilizada para encontrar domos de sal,
determinar limites de quebra de plataforma e avaliar dados de uma bacia inexplorada [Net04]. A
figura 2.4 (obtida em março de 2011 pelo satélite GOCE, da Agência Espacial Europeia (ESA) ),
mostra o campo gravitacional no globo, onde o vermelho representa uma gravidade maior.
Da mesma forma que a terra possui uma gravidade, também possui um campo magnético. Embora
até hoje a origem do campo magnético da terra seja desconhecida, sabe-se que a capacidade magnética
de algumas rochas é maior do que outras. Esse conjunto de informações pode ser utilizado para
determinar a conformação de uma bacia e detectar corpos metálicos no fundo do mar [Net04].
2.1.4
Sistema de Coordenadas Geográficas
Coordenadas geográficas compreendem um sistema de localização global, onde uma latitude é
uma distância angular em relação à linha do equador e longitude é uma distância angular em relação
ao Meridiano Inicial (Greenwich).
Valores de Longitudes possuem duas formas de representação. A primeira são valores positivos
para pontos a leste de Greenwich que se estendem até 180o e valores negativos para pontos a oeste,
que se estendem até -180o . A segunda é uma angulação inteira que aumenta na direção leste, até
completar a volta no globo e chegar a Greenwich com 360o [Inp11].
Comumente é utilizada uma representação com letras indicando a localização (North, South, East,
West). Essa forma de representação substitui os sinais. De fato os sinais apenas representam uma
30
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
Figura 2.4: Mapa do campo gravitacional da terra.
região. Um número positivo para uma latitude indica o Norte (N), assim como um número positivo
para a longitude representa o Leste (E). Da mesma forma sinais negativos indicam para Lat/Lon
representam, respectivamente, Sul (S) e Oeste (W).
Neste trabalho utilizamos as coordenadas geográficas para marcação dos locais. Cada ponto é uma
referência ao estado atual da Terra, logo, se uma coordenada X indica a costa brasileira, a mesma
coordenada ’X’ há 15 milhões de anos atrás, deve indicar algum ponto dentro do continente Sul
Americano.
Em termos de longitude utilizamos a notação que vai de 0 a 360o devido à praticidade, pois a
grande maioria dos dados coletados utilizam esta notação.
2.1.5
Cartas estratigráficas
As cartas estratigráficas são ferramentas muito utilizadas no estudo das bacias sedimentares. Esquematicamente ficam evidenciados muitos atributos da área estudada. São eles: A sucessão de
estratos e sua representatividade na área estudada e no tempo geológico; a natureza litológica das
camadas e as variações laterais de fácies sedimentares; as lacunas na história geológica daquela bacia
e muitos outros [Mil07].
Com as cartas estratigráficas é possível saber, de forma visual, a sucessão dos depósitos de sedimentos nas bacias. O processo de criação de uma carta estratigráfica reflete os conceitos dos autores.
Ali estão presentes tanto dados reais, como possíveis dados. Deste modo uma carta estratigráfica
2.1. DADOS GEOLÓGICOS
31
possui um processo contínuo de evolução, onde uma área que hoje possui x dados atribuídos, amanhã
poderá ter x+1 dados. A figura 2.5 mostra a carta estratigráfica referente à Bacia de Santos.
Figura 2.5: Carta Estratigráfica da Bacia de Santos.
O trabalho aqui descrito, devido meramente ao desconhecimento, iniciou com a versão de 2003
das cartas. Assim que descobrimos as versões mais recentes (2007) o trabalho foi reiniciado. Contudo, a pesquisa e a experiência ganha com as cartas antigas serviram de pilares para o trabalho final.
A figura 2.6 realiza uma comparação entre as cartas de 2003 e 2007, referentes à bacia de Pelotas,
para as idades geológicas mais recentes que a idade Santoniana (aproximadamente 85 milhões de
anos atrás).
Figura 2.6: Comparação parcial entre as cartas de 2003 e 2007 da bacia de Pelotas.
32
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
Como podemos ver na figura 2.6 a diferença entre as cartasé significativa. Além da riqueza de
detalhes, as novas cartas possuem algumas divergências com as cartas mais antigas. Assim é de
fundamental importância que o repositório das informações seja flexível para a atualização dos dados.
2.2
Geologia do Petróleo
A geração e acúmulo de hidrocarbonetos requer uma série de elementos e processos essenciais.
Sabemos que é necessária a existência de um depósito sedimentar rico em matéria orgânica como
fonte dos hidrocarbonetos (rocha geradora), uma rocha porosa capaz de armazenar os hidrocarbonetos
(rocha reservatório), uma rocha que impeça a fuga do fluido (rocha selo) e uma trapa (ou armadilha)
que permita o acúmulo.
Em condições favoráveis, o hidrocarboneto da rocha geradora é submetido a elevada pressão e
temperatura e o fluido migra até a rocha reservatório onde é finalmente trapeado. Porém, a simples
presença destes elementos (os diferentes tipos de rocha necessários) não garante a existência de reservas de hidrocarbonetos, uma vez que é fundamental que a origem e desenvolvimento de cada um
dos elementos e os processos sigam uma ordem temporal favorável.
Grande parte das informações são representadas nas cartas estratigráficas, porém, a ordem temporal utilizada pelos elementos leva em consideração outros processos para a formação dos hidrocarbonetos. Pressão e temperatura são dois fatores importantes que também devem ser considerados.
2.2.1
Formação das Rochas
Como vimos na seção acima (2.2), as rochas são essenciais para a formação do Petróleo. Dentre
os 3 tipos de rochas, as essenciais são as sedimentares, pois fazem parte do processo, porém as ígneas
e metamórficas podem eventualmente ser importantes como reservatórios para o óleo. Esta seção
inicia com um breve resumo sobre a formação das rochas. A seguir, as subseções mostram algumas
particularidades dos três tipos de rocha. Os três tipos de rochas possuem subclassificações que são
características possivelmente úteis na aplicação das técnicas de mineração de dados.
Há milhões de anos atrás quando a Terra era poeira cósmica, em torno dos 3.000o C, algumas
substâncias começaram a liquefazer-se. O ferro liquefeito começou a formar o núcleo, o silício e os
óxidos metálicos começaram a formar o manto. Quando esta temperatura começou a baixar, a crosta
começou a se solidificar [Pop98].
A solidificação da crosta gerou as primeiras rochas. Estas rochas são classificadas como rochas
ígneas ou magmáticas por originarem-se do magma, que consiste nestas mesmas rochas fundidas a
temperaturas entre 800 a 1.500o C [Pop98][Pre06].
Quando a crosta da Terra esfriou a uma temperatura de 374o C, o vapor da atmosfera começou a
se condensar em chuva, o que posteriormente formou os primeiros mares. As rochas sedimentares se
originaram por consequência da ação das águas que reduziam as rochas ígneas à fragmentos e faziam
2.3. BANCO DE DADOS
33
com que esses fragmentos se consolidassem, criando as primeiras rochas sedimentares.
As rochas que ficavam presas em altas temperaturas na superfície da Terra (grandes profundidades,
mas ainda no manto) e sofriam efeitos de forte pressão acabavam sofrendo metamorfismo ao passar
dos anos. Estas são classificadas como rochas metamórficas.
Rochas Sedimentares
Camadas de partículas que encontramos com abundância na superfície terrestre, como a areia e
conchas de organismos são alguns precursores de rochas sedimentares. Essas partículas formam-se na
superfície de restos de rochas que vão sendo alteradas e erodidas por meio de intemperismos [Pre06]
Intemperismos são fenômenos físicos e químicos que levam à degradação de uma rocha. Juntamente com a erosão, o intemperismo produz dois tipos de sedimentos, os clásticos e os químicos e
biológicos [Pre06].
Basicamente, a diferença entre sedimentos clásticos e químicos/biológicos é como eles são gerados. Os clásticos são gerados através da fragmentação e retrabalhamento de fragmentos de rocha. Os
químicos e biológicos são produzidos por meio de intemperismos e reações biológicas locais [Pre06]
Como exemplo de rocha sedimentar clástica, pode-se citar o Folhelho. Ele possui uma grande
importância econômica já que é um potencial gerador de hidrocarbonetos [Jah08].
2.3
Banco de Dados
Um banco de dados constitui um conjunto de registros dispostos em uma estrutura que possibilita
a reorganização dos mesmos. Atualmente quando falamos em banco de dados, falamos em SGBD .
Além do banco de dados em si, os SGBDs provem a interface necessária para realizar as mais diversas
operações possíveis em um banco de dados.
Um SGBD é constituído por um conjunto de dados associados a um conjunto de programas para
acesso a esses dados [Sil97]. Segundo Silberschatz [Sil97] o principal objetivo de um SGBD é ser
tanto conveniente, como eficiente para recuperação e armazenamento dos dados.
Os SGBDs apresentam grandes vantagens em relação a outras formas de armazenamento como
planilhas e arquivos de texto. Com SGBDs é mais fácil de evitar alguns problemas que ocorrem
quando se trabalha com grandes volumes de dados. São eles: inconsistência dos dados; redundância
dos dados; dificuldade de acesso aos dados; problemas de integridade; problemas de atomicidade;
anomalias de acesso concorrente e problemas de segurança [Sil97].
Um banco de dados pode ter outra classificação de acordo com suas características. O trabalho
relatado nesta dissertação constitui um banco de dados temporal. Estes se diferenciam dos bancos
convencionais pela presença de dados do passado e/ou futuro [Tan93].
Os bancos de dados convencionais são projetados para capturar os dados mais recentes [Tan93].
Eles possuem uma estrutura relacional formada por tuplas e atributos que podem ser visualizados em
34
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
duas dimensões. Essa relação também é conhecida como snapshot relation, pois captura uma imagem
da realidade.
Nos bancos de dados temporais a estrutura é formada por 3 dimensões. As duas dimensões do
modelo relacional mais a dimensão tempo. Essa estrutura também é chamada de time cube [Tan93].
Nesse trabalho possuímos muitos dados temporais representados. Resumidamente, mapeamentos de
litologias em uma latitude e uma longitude, ao decorrer de uma idade geológica, ligados a valores de
batimetria e anomalias gravimétricas.
2.4
Descoberta de Conhecimento em Banco de Dados (KDD)
Análises com base em informações diversas é uma prática comum. Com o avanço da tecnologia,
houve um grande avanço na coleta e armazenamento de dados. Como consequência, os bancos de dados tornam-se cada vez maiores. Assim, da mesma forma que os dados são acumulados, informações
ficam ocultas em meio aos grandes volumes de dados.
Analisar os dados e informações tem se tornado uma tarefa mais complexa e demorada. Devido
a estes motivos, técnicas computacionais e algoritmos para análise de dados foram criados. O KDD
é um processo que compreende várias etapas de análise de dados, visando descobrir informações
previamente desconhecidas.
Segundo Fayyad et al. [Fay96] a Descoberta de Conhecimento em Banco de Dados (KDD) é um
processo não trivial de identificar padrões interessantes de dados. Han e Kamber [Han01] definem
padrões interessantes como aqueles que são facilmente entendidos por humanos, são válidos com um
certo grau de certeza, são potencialmente úteis e previamente desconhecidos.
Devido ao grande crescimento no volume de dados das bases atuais, técnicas de KDD tornam-se
cada vez mais necessárias para se obter conhecimento em meio a informações dispersas. As aplicações do KDD se espalham por diversas áreas do conhecimento. Astronomia, negócios de marketing,
detecção de fraudes, investimentos e telecomunicações são alguns exemplos de áreas nas quais o
KDD é utilizado.
Processos de KDD não estão presentes no banco de dados final (aqui descrito), porém um dos
principais objetivos deste banco de dados é tornar os dados paleogeográficos mais compatíveis com
os processos de KDD, e por consequência, permitir novas descobertas a partir dos dados envolvidos.
Deste modo serão apresentados os conceitos e técnicas relacionados ao KDD.
Em uma visão geral Fayyad [Fay96] define KDD nas seguintes partes como mostra a figura 2.7.
Há ainda uma definição de Han e Kamber [Han01], ligeiramente distinta, que define um Data warehouse logo no início do processo.
2.4. DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)
35
Figura 2.7: Etapas de um processo de KDD segundo Fayyad [Fay96].
2.4.1
Data Mining
A Mineração de Dados (Data Mining) é comumente é confundida com KDD, porém mineração
de dados é uma parte de todo processo de KDD [Mil09] [Han01] [Tan05].
Segundo Hand et al. [Han01B] Data Mining é uma nova disciplina concebida da intersecção de várias
disciplinas como a estatística, banco de dados, reconhecimento de padrões e inteligência artificial.
Fayyad et al. [Fay96] define Data Mining como “aplicação de algoritmos específicos para extração
dos padrões de dados”.
Tan et al. [Tan05] define Data Mining como uma parte integral do KDD, onde o processo como um
todo visa descobrir informação útil em dados brutos.
Em meio a execução de um processo de mineração de dados, são utilizados algoritmos que trabalham os dados de acordo com as suas configurações previamente estabelecidas e o propósito do
processo de KDD a ser realizado. Matheus et al. [Mat93], em 1993 tentou classificar os algoritmos
de mineração em quatro classes:
• Identificação de classes: Com base em similaridade entre os registros, o algoritmo os agrupa
em diferentes classes.
• Classificação: Encontra regras que identificam características de uma determinada classe.
• Análise de dependência: Encontra regras que predizem o valor de um atributo com base no
valor de outro atributo.
• Detecção de desvio: Descobre desvios quanto a uma característica esperada e objetos fora de
um grupo a qual deveriam pertencer (outliers)
Essa classificação, proposta em 1993, foi alterada pela comunidade científica. Hoje os algoritmos
de detecção de desvio, por exemplo, são chamados de algoritmos de segmentação de dados. Existem
36
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
Figura 2.8: Etapas de um processo de KDD segundo Han e Kamber [Han01].
diversos tipos de algoritmos de mineração de dados, dentre os mais importantes [Han01], [Tan05]
pode-se citar:
• Algoritmos de classificação: Prevêem variáveis discretas, com base em outros atributos do
conjunto de dados.
• Algoritmos de regressão: Prevêem variáveis contínuas, como lucro ou perda, baseando-se nos
outros atributos do dataset
• Algoritmos de segmentação (clustering): Dividem dados em grupos de itens que têm propriedades semelhantes.
• Algoritmos de associação: Encontram correlações, que podem gerar regras de associação, entre
atributos diferentes em um conjunto de dados.
Na sessão 4.3.5 é apresentado um plano de mineração para os dados obtidos. Este plano baseia-se
em duas técnicas de mineração de dados, são elas: Classificação e Associação. Para que o plano possa
ser entendido é necessário compreender alguns conceitos sobre estas técnicas.
Classificação: Segundo Tan et al.[Tan05], classificação em mineração de dados é a tarefa de
classificar objetos em uma de várias categorias pré-definidas. Um exemplo clássico é a classificação
de galáxias conforme sua forma (espiral, elíptica, etc.). A figura 2.9 mostra o modelo de uma atividade
2.4. DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)
37
de classificação de dados, onde cada atributo x, proveniente de um conjunto de atributos, ao passar
pelo modelo pré-definido de classificação, é atribuído a uma classe
Figura 2.9: Modelo genérico de uma tarefa de classificação.
Modelos de classificação por sua vez possuem duas classificações que são definidas quanto ao seu
objetivo. Estes modelos podem ser descritivos ou preditivos.
Modelos descritivos servem para explicar quais características de um registro o incluem em uma
determinada classe. Um exemplo clássico é um conjunto de dados que possua maus pagadores e bons
pagadores. Então, a partir deste dataset, podemos definir quais são as características que distinguem
maus pagadores dos bons pagadores com um determinado grau de precisão. Assim, com o resultado
de uma classificação por modelos descritivos podemos gerar árvores de decisão que nos ajudem a
escolher indivíduos, como por exemplo, os bons pagadores.
Modelos preditivos ajudam a classificar indivíduos em uma determinada classe. Imagine que surja
uma nova espécie de animal. A partir de uma árvore de decisão, concebida com um modelo descritivo
de classificação, podemos inferir a classe do animal (mamífero, réptil, etc.).
Regressão - Segundo Tan et al.[Tan05], regressão é uma técnica de modelagem preditiva, onde a
variável a ser estimada é contínua. Formalmente, regressão é a tarefa de aprendizagem de uma função
f que mapeia cada conjunto de atributos x em uma saída contínua y. Assim, a meta da regressão é
encontrar uma função que suporte os dados de entrada com um erro mínimo.
Segmentação - Segmentação (clustering) é uma técnica para separar os dados em grupos distintos
de acordo com suas características. Algoritmos de segmentação são extremamente úteis em diversas
áreas, seja para separar dados de modo a facilitar sua manipulação ou para uní-los por utilidade prática
[Tan05].
Na Biologia, por exemplo, a segmentação é utilizada em grandes bancos de dados de DNA para
encontrar similaridades em grupos de genes, e separá-los de acordo com suas similaridades. Na
medicina, a segmentação pode ajudar a detectar padrões entre doenças, isolando seus fatores e características. Além das áreas científicas, a segmentação também pode ser utilizada em empresas para
classificar clientes em grupos distintos e assim oferecer produtos mais propícios ao perfil do cliente.
Associação - Uma regra de associação é uma expressão implícita na forma X− > Y , onde a
força da regra é determinada pelas variáveis: suporte e confiança. O suporte determina a quantidade
de ocorrências que contém os itens X e Y , ou seja, representa a relevância da regra. Já a confiança
determina a frequência de Y em relação a X [Tan05] [Han06]. Formalmente suporte e confiança são
determinados por:
38
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
S
σ(x Y )
Suporte, s(X− > Y ) =
N
S
σ(X Y )
Conf ianca, c(X− > Y ) =
σ(X)
2.5
(2.1)
Descoberta de Conhecimento Geográfico (GKD)
Geographic Knowledge Discovery é um tipo especial de KDD. Segundo Miller [Mil09], uma das
diferenças entre o GKD e o KDD está na relação entre os dados que estão presentes nas dimensões.
No processo de KDD suas várias dimensões são relativamente independentes, enquanto que no GKD
as várias dimensões de dados geradas são inter-relacionadas e possuem medidas padrões entre as
dimensões [Mil09]. Outra particularidade está na existência da etapa de mineração de dados no KDD,
enquanto que, no processo de GKD a etapa similar é a mineração de dados espaciais.
2.5.1
Spatial Data Mining
Spatial Data Mining (SDM) se difere do Data mining convencional por trabalhar com dados
espaciais. Segundo Shekhar [She01] extrair padrões interessantes e úteis de Bases de Dados Espaciais
é mais difícil do que a mineração em dados convencionais devido a complexidade do relacionamento
dos dados espaciais.
Miller e Han [Mil09], classificam as regras de mineração de dados espaciais em cinco categorias,
são elas:
• Associações espaço-temporais
• Generalizações espaço-temporais
• Segmentação de dados espaço-temporais
• Regras de evolução
• Meta regras
Associações espaço-temporais são similares a regras de associação utilizadas na mineração de
dados convencionais, onde a ocorrência de x é seguida pela ocorrência de y em z% das vezes. A
diferença na associação espaço temporal é que o foco é alterado dos dados em si, para a alteração dos
dados no espaço-tempo.
Generalizações espaço-temporais é a agregação de dados segundo padrões em sua hierarquia.
Por exemplo, um processo de generalização baseado em dados paleoclimáticos de Porto Alegre poderia gerar a seguinte regra: "Verões em Porto Alegre são quentes e secos.".
2.6. ALGORITMOS E ETL
39
Segmentação de dados espaço-temporais é muito similar a segmentação de dados convencional.
Ambas compartilham a mesma ideia de dividir indivíduos de acordo com sua característica, porém
devido as dimensões extras, a dificuldade, bem como a possibilidade de se obter informações é muito
maior.
Regras de evolução são regras que se aplicam especialmente no domínio espaço-temporal. Elas
descrevem a maneira como entidades se comportam ao longo do tempo. Essas regras tendem a gerar
um volume muito grande de dados, por este motivo é indicado o uso de dados e variáveis de controle
antes do experimento.
Podemos supor a seguinte situação no contexto da evolução litológica do Atlântico Sul, a seguinte
regra de evolução gerada para uma rocha x, potencial geradora de petróleo no local (bacia) y.
Dados: y: Bacia ou parte de uma bacia sedimentar costeira;
x: Uma área com rocha potencialmente geradora de petróleo no local y;
p1, p2, p3, p4, p5: Pontos quaisquer;
t: Tempo geológico;
m: Valor qualquer, negativo e em milhões de anos.
A seguinte regra de evolução poderia ser gerada: "um segmento x apresenta uma rota espaçotemporal similar dentre espaços de tempo t; após t>m, x se estende em direção aos pontos p1,p2,p3,p4,p5".
Meta regras são regras que geram resultados com base na análise das regras principais. Em outras
palavras, elas servem para descrever dados sobre as outras regras aplicadas e seus resultados.
Um dos objetivos da base de dados descrita nessa dissertação é simplificar o processo de descoberta de conhecimento. Uma vez que a estrutura do banco permite que dados presentes no espaço geográfico sejam mapeados como dados comuns, o Spatial Data Mining se torna mais simples.
Abraham e Roddick [?], já previam que bancos temporais poderiam ser abstraídos e utilizados como
bancos convencionais, porém, é indicado a utilização de um processo de GKD para se obter melhores
resultados.
2.6
Algoritmos e ETL
Na seção 2.3 foram apresentados, de forma condensada, conceitos sobre banco de dados e SGBDs.
Nas seções 2.4 e 2.5 foram abordados conceitos necessários para o entendimento de KDD e GKD.
Esta Seção apresenta conceitos básicos sobre processos de Extração, transformação e carga (ETL) de
dados, juntamente com conceitos de algoritmos, que neste trabalho foram criados para o mapeamento
e carga dos dados.
Quando possuímos um grande volume de dados a serem gerados, e neste caso, mapeados automaticamente; bons algoritmos se tornam cruciais. Sedgewick [Sed98] define algoritmos como métodos solucionadores de problemas e adequados para implementação em um programa de computador.
Quanto maior a quantidade de dados e maior o número de loops, os programas tendem a possuírem
um custo computacional maior. Assim, para transformar e carregar grandes quantidades de dados o
40
CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA
desempenho torna-se fundamental.
Se por um lado uma boa estrutura, com bons algoritmos se traduz em ganhos de performance,
e por consequência, economia de tempo. Por outro lado uma estrutura e algoritmos ruins, podem
inviabilizar processos. Para tratamento dos dados desde a coleta até a carga no banco da dados é
comum a criação de ferramentas que automatizam processos. O processo de extração, transformação
e carga de dados, geralmente é utilizado para montar um Data Warehouse ou um Data Mart.
O processo de ETL é dividido em 3 partes. A primeira parte consiste em extrair dados de fontes
externas que podem estar em diversos meios e formatos. Geralmente estes dados provem de estruturas
relacionais de um banco de dados, porém também é comum estarem em forma de texto puro, provenientes de relatórios, vindos de web sites, etc. Estes formatos também podem vir de estruturas não
relacionais de banco de dados, como Sistemas de Gestão da Informação (IMS) , Métodos de acesso
de armazenamento virtual (VSAM) ou Métodos de acesso sequencial indexado (ISAM) [Kim04].
A parte de transformação é altamente dependente da parte de extração, sendo que, quanto mais
dados e mais diversificadas as fontes, maior tende a ser o processo de transformação dos dados. A
transformação também é muito dependente do que se precisa no banco de dados, alguns exigem
formatos mais específicos, o que demanda mais conhecimento das necessidades técnicas e de negócio
[Kim04].
Por fim ,a parte de carga dos dados compreende o processo de carregar os dados extraídos e
transformados para o banco de dados. Essa fase demanda iteração direta, na maioria dos casos, com o
DW. Isto significa que as estruturas de banco de dados e DW tem de estar bem formadas para receber
os dados, bem como as ferramentas de ETL tem de estar de acordo com as necessidades do projeto.
Um DW é um conjunto de dados orientada a assunto, não volátil, integrado e variante no tempo
que provem suporte para tomada de decisão [Kim02]. Em outras palavras, um DW é um conjunto de
dados selecionados de um banco de dados, organizados de forma orientada ao assunto de maneira a
facilitar consultas e possibilitar a visualização de informações de forma rápida.
De certo modo, o processo de ETL para criação de um data warehouse tem o mesmo perfil do
processo de ETL para a criação do banco de dados descrito nesta dissertação. Em ambos os processos,
os dados são coletados objetivando organizá-los. Porém, neste trabalho, o processo de ETL visa
extrair informações de diversas fontes de dados (diferente do DW, onde geralmente os dados são
coletados de uma ou mais base de dados) para organiza-los em um banco de dados.
Do mesmo modo que processos de KDD passaram a utilizar algoritmos e softwares que automatizam parte do processo, os processos de ETL também evoluíram. Ferramentas para ETL são
necessárias devido ao grande volume de dados. Quando os dados são de diversos tipos e formatos, a
ETL torna-se ainda mais importante.
41
Capítulo 3
Questões de Pesquisa
O mapeamento de dados em um plano espacial altamente sinuoso, como é a margem continental
brasileira, se mostra um grande desafio computacional. Vários fatores estão envolvidos, pois o mapeamento envolve diversos dados que devem ser interligados, e fatores que devem possuir concordância
entre si (ver capítulo: Fundamentação Teórica 2). Assim, a coleta, a padronização e a normalização
dos dados, são algumas das tarefas precedentes e necessárias para a criação de um bom modelo. O
modelo, que por sua vez é necessário e indispensável para o mapeamento adequado dos dados.
Como questões de pesquisa, em geral, podemos resumir a algumas perguntas. Como representar
dados paleogeográficos e paleoclimáticos extraídos de diversas fontes, de maneira com que todos
estejam interligados entre si a ponto de representar a evolução tectônica continental em um período
de 140 milhões de anos? Como manter representados de maneira fiel aos dados originais, e por
consequência a realidade geológica, os dados transformados e interligados? Como tornar o resultado
final, um banco de dados que seja prático para aplicar técnicas de KDD?
A quantidade de informações visuais, remete-nos à seguinte questão de pesquisa: “Como organizar tantas informações paleogeográficas a fim de tornar viável a utilização de técnicas de descoberta
de conhecimento em banco de dados?”.
3.1
Cenário de Pesquisa
As questões de pesquisa descritas no inicio do capítulo, foram planejadas e trabalhadas ao longo
do desenvolvimento do trabalho. Poucas referências foram encontradas e com subáreas ligeiramente
parecidas, alguns trabalhos serviram como fundamentação teórica. Porém, possivelmente devido à
natureza deste trabalho, não foram encontrados trabalhos relacionados com grande relevância a ponto
de ajudar na metodologia, na criação do modelo do banco de dados ou no mapeamento dos dados.
Inicialmente, um processo de transcrição dos dados foi realizado com as cartas estratigráficas das
quatro bacias sedimentares mais ao sul da costa brasileira (detalhes na seção 4.1).
Essas cartas foram trabalhadas para expandir seus dados por toda a região sul da costa de forma
42
CAPÍTULO 3. QUESTÕES DE PESQUISA
a completar os dados faltantes. Foi realizado ainda um processo de KDD nos dados obtidos e desse
processo foram gerados alguns resultados, como por exemplo, coordenadas geográficas com possíveis
reservas de petróleo.
Este primeiro projeto serviu de startup (e para testes). Dentre os problemas de pesquisa encontrados, os problemas com a atualidade dos dados litoestratigráficos e como eles devem ser representados,
se destacaram dentre os demais.
As incertezas quanto às informações geofísicas que foram obtidas se mostraram agravantes. Ao
longo que as primeiras questões de pesquisa eram respondidas, novas questões eram geradas. Qual é a
precisão dos dados originais? Quais os limites de precisão do mapeamento para que os mesmos sejam
considerados realísticos? Existem meios presentes na literatura para mapear dados desta natureza?
Qual seria uma boa maneira de mapear milhões de dados de maneira fiel e automática?
O capítulo 4, constitui-se no relato do desenvolvimento que produziu os resultados deste trabalho,
da pesquisa e de todo processo realizado com os resultados da mesma. Nele será possível compreender como o banco de dados foi populado, quais as metodologias utilizadas e qual o resultado final.
43
Capítulo 4
Desenvolvimento
Este capítulo se propõe a introduzir as etapas de desenvolvimento deste trabalho desde a criação
do primeiro modelo do banco de dados até o banco de dados final, bem como sua integração com o
modelo estrela (formato para DW e aplicação de processos de KDD).
O banco de dados aqui descrito é uma evolução de outros modelos primitivos que sofreram uma
série de alterações e foram divididos, basicamente, em três grandes etapas. As duas primeiras etapas
são relatadas com o intuito de mostrar a evolução do trabalho e facilitar a compreensão do motivo de
algumas escolhas relativas ao modelo final, que está na terceira etapa. Este capítulo também aborda a
solução desenvolvida para mapeamento dos dados estratigráficos, bem como a ferramenta criada para
realizar o mapeamento desses dados em áreas sinuosas como a costa brasileira.
4.1
Introdução ao problema
Como descrito na seção 2.1.5, as cartas estratigráficas são de fundamental importância para entender a formação dos hidrocarbonetos, e por consequência as atividades petrolíferas. Assim, as cartas
estratigráficas foram o ponto de partida deste trabalho.
Segundo Wang [Wan08] as atuais bases de dados geográficas são modeladas sem levar em consideração possíveis processos de KDD. Isso gera problemas quando a base de dados começa a ter
um grande volume, pois torna-se difícil encontrar conhecimento em meio a dados dispersos [Mil09].
Assim, para chegar em um modelo robusto e passível de processos de KDD seguimos as etapas de
KDD sugeridas por Fayyad et al.[Fay96].
Contudo o modelo se mostrou incompleto para o preenchimento das informações. Então, mais
uma etapa foi criada, a etapa de estimativa de dados, que ficou entre as etapas de transformação e
mineração. A figura 4.1 ilustra as etapas do processo e a seguir são descritas as atividades e questões
de pesquisa de cada etapa.
44
CAPÍTULO 4. DESENVOLVIMENTO
Figura 4.1: Modelo das etapas de KDD aplicadas aos processos.
4.1.1
Seleção dos dados
Com o foco especificamente nas cartas estratigráficas, em um procedimento inicial e incerto,
devido aos nossos conhecimentos em geociências o trabalho foi limitado a quatro bacias.
Foram coletados dados de quatro das bacias sedimentares mais ao sul da costa brasileira. Estes
dados foram coletados das cartas estratigráficas de 2003, devido ao nosso desconhecimento das cartas
mais recentes. Essa seleção de dados serviu para iniciar um trabalho prévio para o banco de dados
litoestratigráfico (descrito na seção 4.2).
A vantagem de um trabalho prévio é que ele gera experiências, assim, hipóteses e procedimentos
podem ser validados. Toda a experiência ganha, serve como base para planejar o próximo modelo.
Um modelo mais robusto e construído em menos tempo devido a redução na taxa de retrabalho.
Como forma de mapeamento para os dados selecionados foram utilizadas coordenadas geográficas
(Lat-Lon). Os dados de batimetria da respectiva área também foram coletados. Esses dados foram
obtidos do site TOPEX [Smi10], o qual informa coordenadas com precisão de um minuto.
4.1.2
Pré-Processamento
Levando em consideração o limite territorial brasileiro, que é de 200 milhas náuticas, optamos por
dividir o eixo x da carta em quadrantes de 10,01Km. Assim obtivemos 37 quadrantes entre a costa e
o limite territorial brasileiro.
Como nosso foco é a criação de um banco de dados para utilização de técnicas de GKD e KDD,
surgiu a primeira necessidade. Como representar as litologias de forma numérica? A primeira solução, a representação por potência de dois, se mostrou prática, pois com ela várias litologias podem
ser representadas com um valor. Isto também é prático para decompor os valores e por consequência
obter as litologias que compõem o território. A figura 4.2 mostra um exemplo.
4.1. INTRODUÇÃO AO PROBLEMA
45
Figura 4.2: Exemplo de representação com potências de dois.
4.1.3
Transformação
A transformação dos dados se mostrou uma etapa relativamente curta. Basicamente os dados
foram selecionados para criar um arquivo .arff, formato utilizado pelo WEKA [Hal09].
Como atributo classe, foi criado um atributo formado por outros dois atributos. O primeiro atributo
se refere as áreas licenciadas pela Agência Nacional de Petróleo (ANP) , isto significa, 1 para áreas
licenciadas e 0 para áreas não licenciadas, o outro atributo é relativo as atividades de extração de
petróleo no local, 1 se o ponto referido possui atividade de extração, 0 caso não possua. Assim
definimos o atributo classe como um ou lógico entre os outros dois atributos.
4.1.4
Estimativa de dados
Com os dados reais representados numericamente, é necessário encontrar uma maneira de mapear
estes dados de forma a representar uma grande área. Como as unidades numéricas representantes dos
dados reais são apenas algumas centenas, achamos que a maneira mais realista seria centralizar os
dados fontes na área de sua respectiva bacia.
Com os dados fontes centralizados em cada bacia, processos de interpolação foram realizados com
o intuito de estimar novos dados para cobrir a área restante de cada bacia, levando em consideração
que a área das bacias é uniforme e portanto, deveria ter mesmo comportamento sedimentar. Com isso,
para cada duas bacias vizinhas, os dados da bacia mais ao sul eram interpolados com a bacia mais ao
norte. Este processo gerou os dados faltantes para o preenchimento das bacias. Assim, esses dados
completam a área norte da bacia ao sul, e o sul da bacia ao norte.
4.1.5
Mineração
Após definido o atributo classe partiu-se para as atividades de mineração. O algoritmo de Classificação J48 foi utilizado para criar um mapa de probabilidade dos possíveis locais com ocorrência
de petróleo. Como critérios de classificação foram utilizadas as similaridades litográficas decorrentes
das idades geológicas e da profundidade do terreno.
Foi realizado um breve processo de mineração com o algoritmo APRIORI. Consideramos apenas
os registros com valor booleano verdadeiro no atributo classe (ver:4.1.3). Como resultado dessa
46
CAPÍTULO 4. DESENVOLVIMENTO
operação foram obtidas algumas informações sobre as áreas em questão. Essas informações foram
valiosas a ponto de validação do modelo. A seção a seguir descreve os resultados como um todo.
4.1.6
Interpretação e Validação
Dentre as quatro bacias estudadas nesta primeira etapa, as áreas em que o atributo classe foi ’verdadeiro’ apresentaram Folhelho, que é uma rocha geradora e selo (liga rochas, impedindo que vase o
óleo, ver seção 2.2), ou na idade Campaniana ou na Coniaciana, que datam de períodos de 70,6 a 83,5
e 85,8 a 88,6 milhões de anos atrás (respectivamente). Encontrar essa associação foi importante, pois
essas idades geológicas estão em um período de tempo que é justamente o período necessário para
maturação dos hidrocarbonetos. Esta maturação significa uma potencial transformação dos hidrocarbonetos em petróleo ou gás. Parte do resultado deste etapa de mineração se encontra no apêndice
B.
O tempo de maturação dos hidrocarbonetos possui uma variação maior que a mostrada acima,
pois depende de vários fatores como pressão, temperatura, etc. Porém a maioria data desse período
de tempo.
Podemos associar a descoberta como uma validação do trabalho, embora haja alguns problemas
quanto à metodologia, a descoberta mostra que o mapeamento se mostrou relativamente confiável.
O fato de termos realizado o trabalho com cartas antigas nos limita em precisão e acurácia dos
dados. A forma de obter dados por interpolação matemática teve a consequência de perdermos a
ligação com os dados originais. Estes fatores levaram à criação de uma nova base de dados. Assim,
dentre a atualização das fontes (dados geofísicos), foram aproveitadas as técnicas e metodologias bem
sucedidas, ao mesmo tempo em que aquelas que apresentaram problemas ou se mostraram insatisfatórias foram remodeladas ou substituídas. A estrutura do banco de dados foi continuada e expandida,
de modo que o banco de dados litoestratigráfico pode ser considerado uma nova versão destes dados
produzidos e descritos nesta seção.
4.2
Banco de dados Litoestratigráficos
Tendo em vista as oportunidades de melhoria do trabalho anterior, foi iniciado o processo de
criação de um novo banco de dados. A metodologia beneficiou-se da experiência adquirida nos testes
descritos acima. As metodologias do processo que se mostraram eficazes, como descrito no final da
seção anterior, continuaram a ser utilizadas. Bem como, aquelas que apresentaram problemas foram
alteradas e/ou substituídas.
Na etapa de seleção, seção 4.1.1, foram realizadas as extrações dos dados mais recentes e atualizada a forma de organizar as litologias de modo a facilitar o processo de mineração. Também foi
introduzido o valor ’1’ para marcar um quadrante como parcialmente sem depósitos, ou seja, em uma
área de, por exemplo, 10km pode haver informação somente para parte do terreno.
4.2. BANCO DE DADOS LITOESTRATIGRÁFICOS
47
A etapa de pré-processamento (seção 4.1.2) sofreu uma significativa mudança. Para esta etapa
foi desenvolvida, em Delphi, uma ferramenta para Extração Transformação e Carga (ETL) dos dados
coletados. A ferramenta realiza alterações de formatos, importa planilhas Excel, realiza cálculos,
aplica os algoritmos criados para estimativas e carrega os dados para o banco de dados. A figura 4.3
mostra a interface da ferramenta, juntamente com um breve resumo de suas funções.
Figura 4.3: Ferramenta de ETL para o banco de dados litoestratigráfico
A principal função da ferramenta se encontra na parte de carga dos dados, pois a mesma comporta
os algoritmos criados para mapear os dados nas coordenadas estimadas. A função de mapeamento é
basicamente dividida em três partes: o upload da planilha pré formatada, o preenchimento dos dados
na costa e a gravação dos dados estimados no banco de dados.
O mapeamento dos dados seguiu a mesma metodologia da base anterior. Contudo, a técnica
de estimativa e mapeamento dos dados foi refeita. Após os dados originais serem mapeados nas
bissetrizes, foi utilizada a fórmula de Haversine [Gel89] para calcular a distância entre pontos. Assim,
como parâmetros para o ponto médio foram usadas a distância entre o ponto em questão e os pontos
mais próximos em ambas as bissetrizes.
A formula de Haversine (4.1) foi escolhida para se obter uma distância mais precisa, já que trabalhamos em um plano esférico. Essa fórmula leva em consideração a curvatura de uma esfera (nesse
caso a Terra) e calcula a distância entre dois pontos.
48
CAPÍTULO 4. DESENVOLVIMENTO
R = earth0 sradius(meanradius = 6.371km)
(4.1)
4lat = lat2 − lat1
4long = long2 − long1
a = sin2 (4lat/2) + cos(lat1).cos(lat2).sin2 (4long/2)
√ p
c = 2.atan2( a, (1 − a))
d = R.c
Para estimar o valor de um ponto x no espaço foi criado um algoritmo que se baseia na distância
entre o ponto em questão e os pontos mais próximos de cada bissetriz. Assim, o algoritmo cria uma
matriz de valores que são mapeados em pontos no espaço. Então, para cada idade geológica, faz-se
os seguintes passos:
1. Encontra-se o valor do ponto na primeira bissetriz;
2. Varre-se a matriz até encontrar o valor correspondente na segunda bissetriz;
3. Aplica-se a fórmula de Haversine para obter a distância total;
4. Varre-se a matriz, checando os índices correspondentes;
Para cada índice correspondente, dentro de uma idade geológica, segue-se os seguintes passos:
1. Verifica-se o valor para checar se já foi preenchido; caso sim, segue para o próximo índice; caso
não continua-se com os próximos passos;
2. Aplica-se Haversine entre o ponto a ser preenchido e os pontos ao extremo das bissetrizes para
obter a distância entre os mesmos;
3. Aplica-se regra de três entre as distâncias para descobrir a porcentagem de distância relativa as
bissetrizes;
4. Aplica-se uma fórmula de randomização dando chances inversamente proporcionais a distância
do ponto com a bissetriz.
5. Atribui-se os valores presentes no ponto da bissetriz selecionada.
Após todos os valores litoestratigráficos serem obtidos e devidamente mapeados, foram realizados
alguns testes com o auxílio de dados pré-conhecidos e ferramentas de modelagem espacial. Ao final
do processo, dados foram extraídos diretamente da base para verificar o modelo de batimetria. A
figura 4.4, criada via SURFER [Gol06], mostra um modelo 3D criado com os dados (correspondentes
a idade geológica mais atual) extraídos diretamente do banco de dados.
4.3. PALEOGEODB
49
Figura 4.4: Modelo extraído do banco de dados
4.3
PaleoGeoDB
Paleo Geographic Database é o banco de dados criado para comportar o modelo numérico final.
Este modelo numérico, constitui todos os dados coletados, transformados e integrados.
Após a conclusão da Base de dados litoestratigráfica, foi expandido o modelo do banco de dados
de modo a comportar outros dados geofísicos. O banco de dados batizado como PaleoGeoDB, possui
uma estrutura aprimorada em relação ao banco de dados anterior. A estrutura do mapeamento das
cartas foi alterada para haver mais coesão com a realidade.
No banco de dados litoestratigrafico (etapa 2, ver Seção 4.2) os dados eram mapeados nas bissetrizes e os demais dados eram estimados através de algoritmos. Porém, foi constatado que mapear
os dados de uma carta para uma bacia, sem realizar estimativas de dados, torna o mapeamento mais
real. As estimativas dos dados não são propícias, devido ao fato de que os dados presentes nas cartas
estratigráficas já possuem uma relação de ordem e distância.
Outra técnica descartada foi a interpolação de valores entre as bacias, pois geologicamente, não
faz sentido interpolar valores entre bacias, uma vez que estas possuem divisões naturais em que os
sedimentos foram depositados durante as eras. Estas divisões existem justamente por haver características distintas entre as bacias.
Outra mudança, em relação ao banco de dados da etapa 2, foi a relação dos dados com a área
relativa aos mesmos. Esta mudança foi adotada devido ao fato de que as cartas correspondem as
formações geológicas das bacias, e não as 200 milhas náuticas como fora feito no trabalho prévio.
Devido a estes fatores, alteramos a nossa abordagem em relação ao mapeamento das litologias.
Nesta nova abordagem cada carta corresponde a uma única bacia, assim como a distância entre os
pontos se tornou variável devido ao tamanho das bacias em relação à costa.
50
4.3.1
CAPÍTULO 4. DESENVOLVIMENTO
Modelo para o Banco de Dados
Dentre as questões que cercam a criação de um modelo, talvez as mais evidentes sejam: "Quais
dados possivelmente estarão presentes?"e "Como garantir que eles possam ser adicionados de forma
harmoniosa com os demais dados?". Devido a estas questões foram levantados os dados que possivelmente seriam assimilados no banco de dados. Com base no modelo anteriormente criado, foram
realizadas as melhorias e atualizações para criar o modelo atual.
Primeiramente foram selecionados os dados relevantes para o banco de dados. Além dos dados
já utilizados no banco anterior, foram adicionados a arquitetura do banco suporte a dados como:
gravimetria, Gás Carbônico, isotopos de Oxigênio, formação específica em uma bacias etc. A figura
4.5 ilustra o modelo proposto para o banco de dados.
Figura 4.5: Modelo proposto para o Banco de Dados PaleoGeoDB.
Como mostrado na figura 4.5 o modelo permite armazenar dados paleogeográficos e paleoclimáticos. A seguir, são descritas, detalhadamente, as tabelas e os campos do banco de dados.
4.3. PALEOGEODB
51
No banco de dados temos cinco tabelas estáticas que descrevem o tempo geológico. São elas:
Idades, Epocas, Periodos, Eras, Eons. Basicamente estas tabelas guardam os nomes dos tempos
geológicos, juntamente com uma campo para observação. No caso da tabela Idades, que é a divisão mínima do tempo geológico aqui utilizado, são utilizados dois campos para marcar em quantos
milhões de anos atrás a idade teve início e fim (MA_ini, MA_fim).
A tabela FatoresClimaticos armazena dados climáticos em geral. Esses dados geralmente são
obtidos em janelas de tempo menores que as das idades geológicas. Inicialmente, foram criadas
tabelas para dados de Gás Carbônico (CO2 ) e Isótopos de Oxigênio. Ambos possuem um registro
para cada milhão de ano.
A tabela Pontos é a principal tabela no banco de dados, pois esta representa as informações da
bacia no espaço e tempo. O campo RPB (Referente a Parte de Bacia) serve para armazenar a sub
parte da bacia que o ponto pertence e pode ser completado com as seguintes opções: Linha de Costa,
Plataforma, Talude e Sopé. O campo PRD serve para armazenar a Porcentagem Relativa de Depósitos
em uma área.
Essa tabela utiliza coordenadas geográficas para marcar um local. Ao final duas ’malhas’ são
mostradas. Uma com informações de batimetria e gravimetria, dispostas em linhas e colunas com
precisão de 1 minuto de grau. Outra com dados dos sedimentos, disposta sinuosamente no globo e
com distância irregular entre os pontos.
A malha com os dados atuais de gravimetria e batimetria é disposta apenas para o tempo presente,
já que esses dados não existem para outras idades geológicas. Porém, a malha com os dados dos
sedimentos é expandida para as idades geológicas anteriores. As coordenadas atuais (Campos: lat_at,
lon_at) são mantidas fins de referência, contudo, cada ponto em distintas idades geológicas possuem
distintas coordenadas.
As coordenadas em idades geológicas passadas são flags que marcam onde cada ponto esteve no
passado. Assim estas coordenadas constituem a reconstituição da deriva continental. Esta reconstituição é estimada de maneira abstrata e deve sofrer ajustes para se adaptar pelo modelo de deriva
continental proposto por Moulin et al. [Mou10].
Como um ponto representa uma determinada área na bacia, tem-se mais de uma litologia para o
mesmo ponto. Porém também há partes da área que não possuem depósitos. A porcentagem da área
que não possui depósitos deve ser subtraída, assim deve ser armazenada a porcentagem da área total
que sofreu depósitos, para isso temos o campo PRD.
Para controle de validade e qualidade dos dados temos a tabela proveniencias. Esta tabela serve
para armazenar a data de criação dos dados, a data das fontes provenientes das cartas estratigráficas, a
descrição de outras fontes, o método utilizado e o endereço da página utilizada como fonte (Campo:
URL).
Como uma bacia é constituída de várias formações, foi adicionada a tabela Formacao. Esta tabela
armazena, além do nome da formação, o ambiente de sedimentação e o Potencial Papel no Sistema
Petrolífero .
52
CAPÍTULO 4. DESENVOLVIMENTO
A tabela camadas serve para armazenar camadas provenientes de perfis de sísmica marítima.
Nela é possível atribuir dados mais precisos que servem para validação e aprimoramento dos dados
no banco de dados. Para cada camada é possível definir dados como: litologia que constitui a camada,
idade e espessura da camada. A figura 4.6 mostra um perfil de Sísmica Marítima (interpretado) e suas
camadas para a bacia de Santos.
Figura 4.6: Perfil de Sísmica referente a Bacia de Santos.
A tabela rochas armazena basicamente dados das litologias, tipo da litologia e outras divisões.
Estas divisões além de armazenar a informação tem como objetivo auxiliar no processo de KDD, pois
isso torna possível executar algoritmos baseando-se em grupos de litologias.
Por fim, a tabela rocha_pontos serve para armazenar valores correspondentes a uma única litologia, já que a tabela pontos armazena os valores somados.
Em resumo, o modelo do banco permite armazenar:
• Informações sobre as litologias presentes nas bacias sedimentares;
• As litologias locais, variantes conforme o tempo geológico;
• O tempo geológico, separado em Idades, Épocas, Períodos, Eras e Eons;
• Informações explicitas sobre qual parte da bacia um ponto de dados (os dados são mapeados
em pontos no mapa) pertence;
• Estimativas referente à quantidade de depósitos litológicos presentes no local e no tempo geológico;
• Dados de batimetria e gravimetria para cada ponto no tempo e espaço;
• Dados de formação de uma bacia;
• Dados de sísmica marítima, separados por camadas;
4.3. PALEOGEODB
53
• Metadados para a proveniência dos dados.
Além do modelo completo do banco, existe um modelo estrela (Pronto para DW), com o objetivo
de facilitar a obtenção de informação em tempo real. Foram criados scripts de inserção de dados, para
realizar a carga neste modelo, de modo que os dados presentes no PaleoGeoDB estejam presentes no
modelo estrela do banco. A figura 4.7 ilustra o formato do modelo estrela.
Figura 4.7: Banco de Dados modelo Estrela.
4.3.2
Obtenção e tratamento das coordenadas
Quanto ao limite territorial, a grande questão é: "Como manter os dados dentro dos limites sinuosos das bacias, de maneira a representar os dados reais de forma fiel?". A estratégia adotada foi
primeiro obter as linhas que limitam o território. Assim, basicamente temos que obter as coordenadas
que marcam a linha da costa e a linha do final da bacia.
Para obter as coordenadas foram utilizadas 2 fontes. Do National Oceanic and Atmospheric
Administration (NOAA) [Sol90] foi obtida a linha da costa. O NOAA foi escolhido por três razões;
a precisão dos dados e o fato de termos mais de uma fonte (assim é possível comparar os dados
automaticamente, realizando mais uma etapa de validação).
Para obter as demais coordenadas, foi utilizado o TOPEX, que gera coordenadas com precisão de
quatro casas decimais, juntamente com a altitude/profundidade do local. A terceira razão pela qual o
NOAA foi utilizado é devido ao fato de que o TOPEX não gera linhas de contorno continental, assim
54
CAPÍTULO 4. DESENVOLVIMENTO
para gerarmos uma linha de costa (LC) seria necessário verificações de coordenadas com outras
fontes.
Foi obtido um total de 4.142.875 pares de coordenadas, considerando as coordenadas relativas à
terrenos acima do nível do mar. Para validar as linhas foram utilizadas duas ferramentas. Primeiramente foi montado um Mapa 3D com o auxílio do software Surfer [Gol06]. Depois criado um arquivo
.KML para o Google Earth.
No Google Earth os dados de costa se mostraram deslocados algumas dezenas de metros em
direção Oeste. Porém todos uniformes, ou seja, mostravam o contorno idêntico ao do Google Earth,
apenas com uma certa diferença em relação à longitude.
Para resolver o problema os dados foram mesclados com os do TOPEX. Foram filtrados, dentre
aqueles dados que possuem 0 (zero) no valor de profundidade, os que mais se aproximam da linha da
costa. Assim foram obtidos os dados do TOPEX com base nos dados do NOAA.
4.3.3
As três linhas divisórias
Diretamente do NOAA foi obtida a linha da costa. Para obter a linha limite, foram utilizados os
dados do TOPEX que já estavam no banco de dados. Para isso foi usado um filtro simples via SQL.
Aquelas regiões que estão próximas a -3.000 metros formam a linha (L3K). Este filtro foi aplicado
até obter uma boa relação entre precisão e quantidade de dados que formam a linha. No final o filtro
ficou com uma variação em torno de 15 metros (-2.985 a -3.015).
Para aproveitar melhor as informações presentes nas cartas estratigráficas uma terceira linha foi
estabelecida. Como as cartas tem um indicador de quebra de plataforma (QP), faz sentido que os
dados sejam distribuídos de acordo com o local.
O exemplo a seguir ajuda-nos a visualizar melhor a situação. Digamos que a bacia x em uma
latitude y possua 300 metros de distância da costa. Imagine que a quebra de plataforma inicie a 50
metros da costa. Com apenas duas linhas teríamos um dado de litologia a cada 8,1 km, isto daria
apenas 6 dados antes da quebra de plataforma independente de quantos dados houvessem na carta. Se
naturalmente houvessem 9 dados na carta antes dos 50m, então teríamos 3 dados fora do local. Ou
seja, 3 dados estariam no Talude ao invés de estarem na Plataforma continental.
Não foram encontradas fontes que possuíssem coordenadas ou mesmo informações que indicassem pontos de quebra de plataforma. Assim, os pontos foram estabelecidos e exportados via Surfer
[Gol06] com base no modelo 3D criado com os dados do banco.
Após a criação da linha de QP, obtivemos três linhas no banco de dados, LC, QP e L3K. Para a
execução do algoritmo de preenchimento (Seção 4.3.4) pequenos espaços foram preservados dentre
as bacias, visando prevenir a sobreposição de dados. Além disso, do ponto de vista geológico, é
melhor que haja pequenos espaços em branco (o que representa a divisão das bacias) do que presença
de dados de outra bacia.
O software desenvolvido exporta as coordenadas geradas. Assim, com as mesmas foi criado um
4.3. PALEOGEODB
55
arquivo .kml que é utilizado pelo Google Earth para visualizar pontos, linhas e outras referências. A
figura 4.8 mostra a pré-visualização das linhas.
Figura 4.8: Linhas: LC, QP e L3K geradas.
4.3.4
Algoritmos de preenchimento
Devido à enorme quantidade de dados, e a enorme área para atribuir esses dados, a necessidade
de um bom sistema para automatização do processo é fundamental. Possivelmente devido ao fato da
originalidade e especificidade do trabalho aqui descrito, não foram encontradas técnicas na literatura
ou trabalhos correlatos que fossem úteis para a distribuição e mapeamento automático dos dados.
Em uma visão alto nível, foram elaboradas 3 soluções. Uma utilizando distorção de imagens,
outra utilizando ângulos em relação à costa, e outra com base em fórmulas e distribuição dos dados.
Solução A: Distorção de imagens.
A técnica de fusão de imagens consiste, em uma interpolação de pixels entre duas figuras de modo a
criar uma única figura preservando suas principais características [Hon10]. Em outras palavras, esta
56
CAPÍTULO 4. DESENVOLVIMENTO
técnica visa fundir duas ou mais imagens para sintetizar a informação significante de cada imagem
em uma única imagem. Esta técnica é amplamente utilizada para sensoriamento remoto, geração de
imagens médicas e aplicações militares [Wan04].
Como não faz sentido (do ponto de vista geológico) unir dados de duas bacias, a técnica seria adaptada para uma distorção da imagem, e aplicada em subdivisões dos gráficos das cartas estratigráficas.
Cada carta deveria ser fatiada em 34 partes, que correspondem às 34 idades geológicas pertinentes
a este trabalho, deste modo cada fatia corresponderia a uma bacia em uma idade geológica. Estas
fatias seriam distorcidas, através de algoritmos presentes na literatura, de modo a completar a área de
uma bacia. Com uma imagem cobrindo uma bacia, a atividade a seguir seria transcrever as legendas
presentes nas cartas para os respectivos valores.
A vantagem desta técnica é que o mapeamento dentro dos limites teria uma excelente precisão,
já que a imagem da carta (fonte original) seria ajustada de modo gráfico nos limites da bacia. Porém
essa técnica possui alguns inconvenientes. Como definir a distância entre um dado e outro de forma a
não perder informações é uma das questões, já que a transcrição gráfica automatizada não é flexível
como a análise humana quanto às litologias dos fontes. Outro grande problema é a transcrição para
os valores em si, já que as litologias presentes nas cartas são compostas de cores e traços.
A figura 4.9 representa o recorte da bacia de Jequitinhonha relativo à idade Ypresiana. Verticalmente esta imagem seria deformada de um limite a outro da bacia e horizontalmente da costa até a
profundidade de 3.000 metros no Atlântico.
Figura 4.9: Recorte da carta de Jequitinhonha, relativo a idade Ypresiana.
Solução B: Linhas de distribuição com base em ângulos de 90o partindo da costa. Partindo
da ideia de que os dados devem ficar perpendiculares à linha de costa relativa à bacia, observou-se
que a criação de um limite angular centrado nos 90o poderia ser uma boa opção. Assim, para cada
linha de dados a ser mapeada um cálculo deve ser realizado para determinar a direção da linha.
O algoritmo consiste em formar uma matriz de pontos onde: O valor na Matriz [i,j] são pontos
para determinar a angulação. i é um ponto na linha da costa (i0 para o início da bacia de Pelotas, in
para o limite Oeste da bacia de Foz do Amazonas) e j o registro limite previamente escolhido indo
em direção ao Oceano.
O valor de j é uma coordenada utilizada para calcular a melhor variação do ângulo (em relação aos
90o ) de modo a ajustar as linhas e impedir espaços em branco ou sobreposições. A figura 4.10 mostra
linhas em forma de ’T’, onde a linha que segue em direção ao Oceano é a linha de preenchimento
dos dados. A linha verde mostra um caso de sucesso, ao contrário das linhas vermelha e preta, onde
a linha vermelha cruza com a preta havendo sobreposição de dados.
4.3. PALEOGEODB
57
Figura 4.10: Exemplo de problema com a utilização de ângulos como parâmetro.
Como a quantidade de dados é imensa e a costa brasileira é muito sinuosa, controlar a angulação
das linhas de preenchimento automaticamente de forma a evitar espaços em branco e colisões se
mostra uma tarefa complexa. Por esse motivo esta técnica foi descartada.
Solução C: Fórmulas para distribuição de dados. A ideia desta solução é que, a partir de cada
ponto o próximo ponto seja localizado via um conjunto de fórmulas. Para construção deste algoritmo
duas fórmulas são essenciais: Haversine (ver Fórmula 4.1) para encontrar a distância entre dois pontos
e uma fórmula para se obter a curvatura entre dois pontos.
Para se obter a curvatura, simbolizada por Θ (Teta), entre duas coordenadas geográficas utiliza-se
a seguinte fórmula:
Θ = atan2(sin(∆long).cos(lat2),
(4.2)
cos(lat1).sin(lat2) − sin(lat1).cos(lat2).cos(∆long))
Estas fórmulas são utilizadas em meio ao algoritmo, de modo que para cada ponto são chamadas
funções que utilizam ambas as fórmulas. A seguir o algoritmo é descrito, em duas etapas e em alto
nível.
58
CAPÍTULO 4. DESENVOLVIMENTO
Para cada carta primeiramente divide-se a mesma na quebra de talude, então para cada uma das
partes:
1. Obtém-se a distância entre os pontos nas extremidades (Distância Total);
2. Verifica-se a quantidade de dados (das cartas) neste intervalo;
3. Divide-se o resultado do passo 1 pelo resultado do passo 2 para obter o tamanho dos segmentos;
4. Havendo o ponto inicial, o tamanho dos segmentos e a curvatura é possível obter a coordenada
do próximo ponto.
A ordem de etapas descritas acima faz parte de um laço lógico que se repete n vezes para o
preenchimento de uma bacia, mais 34 vezes para preenchê-la nas idades geológicas. O resultado dos
passos lógicos, descritos acima, é o preenchimento completo de uma bacia. É importante lembrar
que os dados de idades mais antigas não são atribuídos diretamente as coordenadas, estes apenas
são dispostos na extensão da bacia para posteriormente serem mapeados com flags de posição e
deslocamento.
O resultado dos passos lógicos, descritos acima, é o preenchimento completo de uma bacia. Porém
algumas variáveis de entrada são necessárias para iniciar o algoritmo. Essas variáveis são os pontos
iniciais (pontos na LC) e finais (pontos da QP) que determinam a distância total (passo 1). Duas
questões são importantes para a definição dessas variáveis: "Quais os pontos iniciais e finais a serem
utilizados? E como obtê-los?". Para um correto mapeamento as linhas ao serem preenchidas devem
ficar com um ângulo inicial de 90 graus em relação a bacia. Os itens listados a seguir mostram os
passos lógicos criados para definir os pontos a serem usados nas retas perpendiculares a costa.
1. Obtém-se a distância entre os pontos iniciais de cada bacia (Distância Total);
2. Verifica-se a quantidade mínima de pontos encontrados nesse intervalo, por LC, QP e L3K;
3. Verifica-se o tamanho do segmento entre esses pontos;
4. Para as outras duas linhas faltantes usa-se a mesma quantidade de pontos com base no segmento.
Após obter a quantidade de pontos, com a mesma distância de seguimento, traça-se as linhas de
LC, QP, e L3K. Cada uma dessas linhas é armazenada em um vetor, então, entre dois vetores traça-se
as retas como descrito no primeiro algoritmo.
Como dados de entrada para o algoritmo, são necessárias as coordenadas limites de cada bacia.
Porém, devido à sinuosidade da costa, e a extensão do terreno das bacias, são necessárias coordenadas
extras para ajustar a curvatura e a direção das linhas. Para isso foram criadas linhas, de modo visual,
no Google Earth; suas coordenadas foram capturadas e exportadas. Essas coordenadas utilizadas
podem ser conferidas no apêndice A.
4.3. PALEOGEODB
59
Esta solução se mostrou eficaz, tanto em termos de precisão como em performance. A figura
4.11 mostra um exemplar do resultado obtido pelo programa desenvolvido que utiliza-se deste algoritmo para mapear e preencher os dados no banco de dados. O resultado de todas as bacias pode ser
conferido no apêndice F.
Figura 4.11: Visão gráfica da localização dos dados na Bacia de Santos.
Este algoritmo pode ser utilizado para preenchimento de quaisquer dados numéricos ao longo de
qualquer região em uma superfície esférica. Para isso, devem apenas ser estabelecidos as coordenadas
de limite e controle (coordenadas internas a uma determinada área que ajudam na precisão das linhas).
Para implementar os algoritmos e carregar os dados no banco a ferramenta de ETL, descrita na seção 4.2, foi atualizada. A ferramenta mais do que realizar a ETL e executar os algoritmos, demonstra
bom funcionamento dos algoritmos criados, validando a teoria desenvolvida. Seu desempenho provase satisfatório ao realizar milhões de cálculos na inserção dos registros (mais detalhes da ferramenta,
podem ser conferidas no apêndice E).
Problemas encontrados.
Foram encontrados alguns problemas com a solução. Estes problemas referem-se a precisão no mapeamento dos dados e em geral não chegam a ser significantes já que as áreas trabalhadas são bem
60
CAPÍTULO 4. DESENVOLVIMENTO
extensas e a falha na precisão das fórmulas é pequena.
O primeiro fator que leva à imperfeição da solução se deve ao fato do algoritmo estar construído
com base em duas fórmulas que não são 100% precisas. A figura 4.11 é uma amostra da primeira
geração de dados produzidos. Podemos notar que ela possui alguns defeitos de sobreposição dos
dados.
A sobreposição, ocorre por três fatores. O primeiro refere-se à precisão da formula de Haversine.
Isso implica que quanto maior a precisão dos dados, maior é o grau de falha da fórmula. Este fato
foi constatado com análise entre as bacias que possuíam muitos dados para áreas muito pequenas (e
consequentemente exigiam mais precisão). Estas tiveram uma sobreposição mais acentuada dos que
as demais bacias.
O segundo fator é a fórmula de curvatura que pode vir a tomar uma direção oposta a esperada,
e assim fazer com que dados sejam mapeados muito próximos à outros (em termos de visualização,
sobrepostos). Caso sobrem dados ao final de um segmento, a curvatura tende a fazer com que o
próximo dado após o final do segmento (primeiro que sobrou), entre as retas que cortam as bacias
perpendicularmente, seja mapeado antes do último dado. A figura 4.12 exemplifica.
Figura 4.12: Problema com a quantidade excessiva de dados e a fórmula de curvatura.
Como os dados são mapeados em linhas ao longo da costa, onde cada linha representa o mesmo
grupo de litologias, este fator não chega a ser um problema. Em outras palavras, os dados sobrepostos
provenientes de uma mesma linha paralela à costa são os mesmos.
O terceiro fator é o ajuste da quantidade de dados e seus segmentos. Este fator pode ser corrigido
alterando alguns valores em variáveis dentro do algoritmo. Eliminando este fator de erro, diminui-se
4.3. PALEOGEODB
61
os problemas com o segundo fator, pois quando o segmento dos dados é muito grande, sobram dados
no final. Assim, o cálculo da distância, junto a curvatura, ajuda a criar anomalias no mapeamento.
4.3.5
Plano de mineração
Mais que um plano de mineração, esta seção se dispõe a criar um plano de KDD e GKD, onde
a mineração de dados deve ser executada de diversas maneiras e com diversas configurações para os
algoritmos. Este plano se propõe não apenas para descoberta de conhecimento, mas também para
validar e melhorar a precisão no mapeamento dos dados.
Para executar este plano é importante seguir sua ordem, pois em alguns casos um processo depende dos resultados de outros. A generalização espaço-temporal por exemplo, define uma regra geral
baseada em uma hierarquia dos dados e um conjunto de padrões. Para isso é necessário que regras de
Associação e Associação espaço-temporal sejam previamente conhecidas.
O plano aqui descrito, trata sobre técnicas de mineração, citando itens como objetivos dentro de
um tópico. Algumas técnicas em GKD são possivelmente mais difíceis de se executar que outras. Primeiramente pela própria natureza do GKD e a mineração espacial. Segundo, porque as possibilidades
de descoberta em meio aos dados espaço-temporais são tantas, que possivelmente sejam necessários
novos algoritmos para se obter toda informação previamente desconhecida.
Associação
Visa encontrar similaridades entre as rochas e fatores climáticos. Dentre algumas possíveis similaridades podemos citar:
• Similaridade entre as rochas encontradas nos locais onde há extração atualmente (para validação
da base).
• Similaridades entre rochas geradoras presentes em uma formação e rochas de outras formações
com potencial previamente desconhecido.
• Correlações entre gravimetria e demais dados geológicos.
Classificação
O plano de mineração para Classificação, Visa criar modelos de indução com base nos geodados,
possivelmente um mapa de ajuda a tomada de decisão para perfuração de poços (locais com petróleo).
Para isso devem ser usados modelos de classificação preditiva onde os atributos sugeridos são: Lat,
Lon, Batimetria, Gravimetria, Isótopos de Oxigênio, e CO2 .
Para atributo classe sugere-se, com base na(s) rocha(s) geradora(s) da bacia: marcar ’1’ caso
haja presença de rocha com potencial para ser geradora (ver seção 2.2) e 0 caso não haja a rocha na
coordenada.
Regras de evolução
Com base em mineração espacial é possível determinar padrões de evolução dos geodados. Dentre
outros possíveis resultados, provenientes de um processo de GKD, pode-se citar:
62
CAPÍTULO 4. DESENVOLVIMENTO
• Criação de um gráfico que mostre o caminho percorrido pelos sedimentos. Isso pode ser importante para detectar domos de sal, que naturalmente tendem a se achatar horizontalmente,
alterando a área ocupada pelos sedimentos.
• Possível criação de uma malha que ligue valores de sedimentos de modo a detectar anomalias
e, por consequência, detectar falhas ou domos de sal.
A figura 4.13 mostra uma possível malha entre os sedimentos representados por ’x’ e ’Losangos’.
Ao criar uma evolução desta malha as anomalias ficarão visíveis, o que facilitaria o processo para
descoberta de domos de sal que podem esconder grandes reservas de óleo no pré-sal.
Figura 4.13: Exemplo de uma possível malha (entre duas litologias) criada a partir de mineração com
regras de evolução.
Associação espaço temporal
Similar a associação convencional, porém com o foco em encontrar similaridades entre as alterações
dos dados no espaço-tempo. Dentre algumas possíveis similaridades podemos citar:
• Similaridade entre a evolução das rochas geradoras de hidrocarbonetos.
• Padrões temporais entre CO2 , Isotopo de Oxigênio, gravimetria e as rochas com papel importante nos locais produtores de petróleo.
Generalização espaço-temporal
Com esta etapa da descoberta de conhecimento, podemos agregar algumas informações previamente
conhecidas a fim de induzir regras gerais em torno de algo. Possivelmente um conjunto de fatores que
levem a uma indicação do tipo: Uma bacia que possuiu sedimentos x em uma idade y possui reservas
em uma área ocupada pelo sedimento x. Esta etapa é importante para difundir o conhecimento gerado,
porém demanda conhecimentos com alto grau de confiança como entrada.
4.3. PALEOGEODB
63
Segmentação de dados espaço-temporais
Podemos segmentar os dados com base em seu comportamento espaço-temporal. Essa etapa requer
como entrada dados de associação, regras de evolução e associação espaço-temporal. A ideia é separar
os dados geológicos em grupos. De modo geral, dentre estas separações, pode-se prever:
• Áreas com um determinado percentual de chance de haver petróleo, sal etc.
• Áreas com características paleogeográficas ou paleoclimáticas em comum.
64
CAPÍTULO 4. DESENVOLVIMENTO
65
Capítulo 5
Conclusões
Neste Capítulo são relatados os resultados obtidos, e após, são feitas as considerações sobre as
contribuições científicas. De modo simples os resultados da pesquisa e do desenvolvimento do trabalho serão ligados com as possibilidades de benefícios tanto para a academia quanto para a indústria
petrolífera. Finalmente serão apresentados alguns dos possíveis trabalhos futuros.
5.1
Resultados Obtidos
Um banco de dados paleogeográficos e paleoclimaticos foi desenvolvido. Seus dados foram coletados de diversas fontes e grande parte deles foram adaptados para serem representados de forma
numérica. Esta forma numérica constitui-se num modelo representativo para os dados e paleodados
das bacias sedimentares brasileiras.
Milhões de dados compõem a estrutura proposta; em sua maioria dados estratigráficos que representam camadas de depósitos sedimentares referentes tanto ao período atual, como à períodos
passados desde a separação dos continentes da África e da América do Sul. Acompanhando os dados
estratigráficos, estão diversos metadados que ajudam no entendimento da composição sedimentar do
terreno. Além de outros dados que são importantes indicadores climáticos, como os níveis de Gás
Carbônico.
Como relatado no capítulo 4, o trabalho evoluiu de um sistema simples e pouco coerente com
os aspectos geológicos, a um sistema realístico que representa os dados naturais e abre margem para
representá-los de forma evolutiva ao longo dos 140 milhões de anos.
Foram obtidas, e mapeadas ao longo da costa brasileira, duas malhas de dados. A primeira possui coordenadas, batimetria e dados gravimétricos. A segunda representa os dados, e metadados,
litoestratigráficos, que foram mapeados automaticamente conforme descrito na seção 4.3, mais especificamente com a solução criada e descrita na seção 4.3.4.
A primeira malha pode ser visualizada na figura 4.4. Esta malha foi obtida com auxílio da ferramenta de ETL criada (descrita na seção 4.2). Esta ferramenta sofreu alterações de modo a comportar
66
CAPÍTULO 5. CONCLUSÕES
os algoritmos desenvolvidos para a geração da segunda malha de dados. A versão final da ferramenta
pode ser visualizada no apêndice E, juntamente com comentários descrevendo suas funções.
Os resultados referentes à segunda malha de dados podem ser conferidos no apêndice F. Os gráficos mostrados neste apêndice representam pontos em determinadas coordenadas, onde cada ponto
possui um conjunto de informações que por sua vez estão armazenadas na tabela pontos do banco de
dados (descrito no Capítulo 4.3.1).
O banco de dados final, somente para a idade geológica atual, armazena 83.273 pontos de dados
ao longo das bacias. Conforme descrito na seção 4.3.2, foram obtidas 4.142.875 coordenadas para a
primeira malha, contendo a gravimetria e a batimetria do terreno.
5.2
Contribuição Científica
É sabido que a extração de óleo é uma atividade em constante evolução e com descobertas recentes. Uma das contribuições científicas deste trabalho é ajudar na construção de conhecimento relativo
aos elementos necessários para a formação do óleo.
É importante salientar que o banco de dados como um todo é resultado de pesquisas aplicadas
de forma a agrupar dados e representar a evolução das bacias sedimentares brasileiras. Assim, a
contribuição não se baseia em um simples modelo de banco de dados. Em uma visão geral, o banco
de dados é resultado de todo processo de pesquisa e desenvolvimento descrito nesta dissertação.
O modelo criado é uma alternativa ao modelo estrela, que apesar de ser prático para a criação de
um DW, demanda um grande espaço para ser armazenado, pois a tabela central sofre grande aumento
de dados a cada nova paleo_propriedade adicionada (ver figura 4.7).
O modelo estrela possui diversas vantagens em relação ao modelo criado; este é mais claro, eficaz
para criação de DW e possivelmente mais prático para KDD. De fato, o modelo criado não se propõe
a ser o melhor modelo, este se propõe a ser uma alternativa que sacrifica flexibilidade, entre outros
aspectos, para obter ganhos em relação ao armazenamento, uma vez que diversos tipos de dados
distintos (paleo_propriedade ) tendem a ser armazenados.
O modelo criado possui uma forma específica para comportar os dados requeridos pelo cenário
da pesquisa, este foi testado com diversas cargas de dados com auxílio da ferramenta de ETL criada. Além disso, o formato do modelo, com uma tabela central baseadas em coordenadas, permite
facilmente a adição de novos dados paleoclimáticos. Caso os novos dados tenham ligações com uma
região, basta ligá-los a tabela principal (pontos), caso sejam dados referentes a toda Terra (ou toda a
área em questão), estes podem ser ligados a tabela Idades (como exemplo: Fatores Climáticos).
O problema mais comum de se trabalhar com dados geográficos é o fato de que o valor de distância referente a longitude é alterada conforme a distância da linha do equador. Porém o algoritmo
desenvolvido utiliza a fórmula de Haversine para mapear estes dados, assim a distância é calculada
considerando a variação da longitude. Deste modo, o algoritmo detém uma, relativa, boa precisão em
relação a distância dos pontos.
5.3. TRABALHOS FUTUROS
67
O algoritmo de mapeamento de dados mostra-se uma importante contribuição, uma vez que pode
ser utilizado para propagar quaisquer dados, com representatividade numérica, ao longo de uma superfície na Terra.
Os dados presentes no banco são úteis para futuras pesquisas em geoinformática. Estes servem
como pilar para a construção de conhecimento que poderá ser aplicado diretamente nas geociências e
por consequência na indústria petrolífera.
Por fim, este trabalho gera potencial para significativas descobertas científicas, principalmente em
questão dos trabalhos futuros, possíveis com base no que foi obtido. A seção abaixo descreve algumas
possibilidades em relação ao que pode ser feito para extensão do trabalho descrito nesta dissertação.
5.3
Trabalhos Futuros
O trabalho relatado nesta dissertação abre caminho para muitos trabalhos futuros. Por se tratar
de um trabalho multidisciplinar, que envolve diretamente duas ciências (computação e geologia),
diversos ramos são possíveis para continuação da pesquisa. Novos trabalhos em ambas as ciências
agregarão valor ao que foi criado. Novos conhecimentos podem ser obtidos, novas soluções poderão
ser criadas para melhorar as mais distintas tarefas, principalmente aquelas ligadas à extração de óleo.
A quantidade de dados possíveis de serem agregados é praticamente infinita, além disso, a proveniência dos dados, a quantidade de um determinado elemento em um local e a atualidade dos dados;
não apenas influenciam na precisão das informações extraídas mas também ajudam a extrair novos
conhecimentos por meio de técnicas de KDD.
A absoluta maioria dos dados foram mapeados pela solução algorítmica criada para determinar
sua localização. Devido a este fator, apesar dos testes e verificações visuais, é possível que muitos
dados estejam com um mapeamento incoerente com a realidade. Desta forma, um trabalho futuro
proposto é um sistema de verificação dos dados, que atualize coordenadas de pontos de acordo com
dados empíricos.
Cada bacia possui várias sequências que são pacotes de rochas sedimentares relativos a um grupo
no tempo geológico. Embora hajam subsequências, em geral, as duas grandes sequências presentes
são a sequência Rift e a sequência Drift. Os dados presentes nestas divisões possuem diferentes fontes.
Assim, um possível trabalho futuro, seria a classificação dos dados (presentes no banco) quanto as
subsequências.
A ANP disponibiliza anualmente informações sobre os locais com extração ativa de petróleo.
Estes dados podem ser úteis para processos de KDD, de modo a descobrir padrões entre eles e determinar chances de haver petróleo em outras bacias baseando-se nos dados extraídos destas áreas. A
figura 5.1 é um mapa com as áreas de extração (2011). As áreas em amarelo ao longo da costa são as
áreas das bacias sedimentares oceânicas (áreas de interesse).
Com as coordenadas do mapa é possível realizar cruzamentos com os dados presentes no banco
de dados. Para isso, é necessário extrair do mapa os dados de coordenadas e, possivelmente, o volume
68
CAPÍTULO 5. CONCLUSÕES
Figura 5.1: Atuais áreas de extração de petróleo e gás, limites e bacias.
de petróleo retirado e estimado para a região. Todos esses dados são disponibilizados pela ANP em
forma gráfica e em documentos de texto. Extrair e popular o banco de dados com estas informações
consiste em um trabalho futuro importante, pois o cruzamento dos dados empíricos mais atuais torna
mais provável a descoberta de conhecimento. Assim, uma arquitetura (ou sistema) para a extração e
carga destas informações se torna necessária.
Dados de Sísmica Marítima apresentam as camadas de litologias no tempo presente com uma
maior precisão que os provenientes das cartas, pois estes são coletados diretamente do referido local,
logo, estes dados são fundamentais para manter o banco de dados atualizado. Além disso, os dados
provenientes da Sísmica, podem ser coletados e usados para agregar precisão, verificar e estabelecer
uma ordem nos dados do banco.
A ampliação do modelo do banco de dados também constitui um importante trabalho futuro. A
medida que novos tipos de dados forem sendo obtidos, o modelo deve ser expandido. Para isso a
ferramenta de ETL criada deve ser melhorada e atualizada para servir ao novo cenário de dados e
banco de dados.
5.3. TRABALHOS FUTUROS
69
A medida que muitos dados são produzidos são necessários procedimentos para assegurar a sua
qualidades. Propõe-se a criação de um modelo de verificação para os dados, juntamente com um
sistema especialista que valide os dados presentes no banco de dados. Este sistema deve ser flexível
para aceitar não somente a entrada de dados reais, mas também a entrada de conhecimento geológico.
Esse conhecimento deve ser interpretado pelo software e transformado em regras, que por sua vez,
devem ser analisadas para localizar possíveis dados discrepantes, errôneos ou mapeados em local
errado.
Todo o resultado da pesquisa, descrito aqui, pode ser replicado para a costa Africana. A única
diferença seria, basicamente, a obtenção dos dados fontes (cartas estratigráficas, coordenadas etc.). O
desenvolvimento deste trabalho ajudaria a criar um modelo de evolução mais realístico e completo, já
que as bacias da costa Brasileira e Africana um dia foram uma só.
Por fim, como dito no plano de mineração 4.3.5, novos algoritmos de mineração, especializados
em dados paleogeográficos e paleoclimáticos, podem ser decisivos para a descoberta de conhecimento
neste banco, pois as possibilidades de descoberta em meio aos dados paleogeográficos são tantas
que possivelmente sejam necessários novos algoritmos para se obter toda informação previamente
desconhecida.
70
CAPÍTULO 5. CONCLUSÕES
71
Referências Bibliográficas
[Cor00]
Cordani, G.; Milani, J.; Thomaz Filho, A.; Campos A. “Tectonic Evolution of South
America”. Geological Society, 2000, 856p.
[Fan10]
Cheng-fang, L.; Xue-jun, w.; Tao, M.; Tie-cheng, W.; Yong, L.; Wei, Y. “Research on petroleum seismic data resource quality management methods”. International Conference
on Environmental Science and Information Application Technology (ESIAT), 2010, Julho
2010, pp. 245 - 248.
[Fay96]
Fayyad, U.; Piatetsky-Shapiro, G.; Smyth,P. “Knowledge Discovery and Data Mining:
Towards a Unifying Framework”. Proceedings of the Second International Conference
on Knowledge Discovery and Data Mining (KDD-96), 1996, pp. 82 - 88.
[Gel89]
Gellert, W.; Gottwald, M.; Hellwich, M.; Kästner, H.; Küstner H. “Global seafloor
topography from satellite altimetry and ship depth soundings”. Van Nostrand Reinhold,
1989, 760p.
[Gol06]
Golden
Software.
“SURFER”.
“http://www.goldensoftware.com/products/surfer/surfer.shtml”.
lho de 2011.
[Hal09]
Hall, M.; Frank, E.; Holmes, G.; Pfahringer, B.; Reutemann, P.; Witten, I. “The
WEKA Data Mining Software: An Update”. University of Waikato. Disponivel em:
“http://www.cs.waikato.ac.nz/ml/weka/”. Acessado em: Junho de 2011.
[Han01]
Han, J.; and Kamber, M. “Data mining: Concepts and techniques”. San Mateo: Morgan
Kaufmann, 2001, 550p.
Disponivel
em:
Acessado em: Ju-
[Han01B] Hand, D.; Mannila H.; Smyth, P. “Principles of Data Mining”. MIT Press, 2001, 425p.
[Han06]
Han, J; and Kamber, M. “Data mining: Concepts and techniques, Second Edition”. San
Mateo: Morgan Kaufmann, 2006, 800p.
[Hes62]
Hess, H. “History of Ocean Basins”. Petrologic studies: A volume of honor, vol. 1-1,
Agosto 1962, pp. 599 - 620.
72
CAPÍTULO 5. CONCLUSÕES
[Hon10]
Hongbo Wu and Yanqiu Xing. “Pixel-based image fusion using wavelet transform for
SPOT and ETM+ image”, IEEE International Conference on Progress in Informatics
and Computing (PIC), vol. 1-1, Dezembro 2010, pp. 936–940.
[Inp11]
INPE; Terraview.
“Conceitos Cartográficos”.
Terraview. Disponivel em:
“http://www.dpi.inpe.br/terraview/docs/pdf/ProjecaoCartografica.pdf”. Acessado em:
Agosto de 2011.
[Jah08]
Jahn, F.; Cook, M.; Graham, M. “Hydrocarbon Exploration & Production, Volume 55,
Second Edition (Developments in Petroleum Science)”. Elsevier Science., 2008, 456p.
[Ket10]
Ketzer, J. “Projeto mapeia parte do atlântico para exploração de petróleo”. Disponivel
em: “http://www.planetauniversitario.com”. Acessado em: Julho de 2011.
[Kim02]
Kimbal, R. and Ross, M. “The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)”. Wiley, 2002, 464p.
[Kim04]
Kimbal, R. and Caserta, J. “The Data Warehouse ETL Toolkit: Practical Techniques for
Extracting, Cleaning, Conforming, and Delivering Data”. Wiley, 2004, 528p.
[Mat93]
Matheus, C.; Chan, P.; Piatetsky-Shapiro, G. “Systems for Knowledge Discovery in
Databases”. IEEE Transactions on Knowledge and Data Engineering, 1993, pp. 903 313.
[Mil00]
Milani, E.J.; Thomaz Filho, A.; Campos, D.A.; Cordani, U.G. “Tectonic Evolution of
South America”. Geological Society., 2000, 854p.
[Mil07]
Milani, E.J.; Rangel, D.H.; Bueno, G.V.; Stica, J.M.; Winter, W.R.; Caixata,J.M.; Neto,
O. C. P. “Boletim de Geociências da Petrobras”. Centro de Pesquisas Leopoldo A.
Miguez de Mello., Vol.15 no 2, 2007, 573p.
[Mil09]
Miller, H,J.; Han, J. “Geographic Data Mining and Knowledge Discovery”. CRC Press,
2009, 484p.
[Mou10]
Moulin, M.; Aslanian, D.; Unternehr, P. “Earth-Science Reviews”. Geological Society,
vol. 98, Agosto 2010, pp. 1 - 37.
[Mul08]
Müller, D.; Sdrolias, M.; Gaina, C.; Roest W “Age, spreading rates, and spreading
asymmetry of the world’s ocean crust”. Geochemistry, Geophysics, Geosystems, 9, vol.
Q04006, Agosto 2008.
[Net04]
Neto, A.; Ponzi, R.; Sichel, S. “Introdução a Geologia Marinha”. Interciência, 2004,
279p.
73
[Pop84]
POPP, J. H. “Geologia Geral, 3a edição”. LTC - Livros Técnicos e Científicos S.A., Inc.,
1984, 283p.
[Pop98]
POPP, J. “Geologia Geral, 5a edição”. LTC - Livros Técnicos e Científicos S.A., 1998,
400p.
[Pre06]
Press, F.; Siever, R.; Grotzinger, J.; Jordan, T. “Para entender a terra, 4a edição”. Bookman, 2006, 656p.
[Sil97]
Silberchartz, A.; Korth, H.; Sudarshan, S. “Sistema de Banco de Dados”. MAKRON
Books, 1997, 808p.
[Sed98]
Sedgewick, R. “Algorithms in C”. Addison-Wesley, 1998, 702p.
[She01]
Shekhar, S.; Huang, Y.; Han, J.; Chawla, S.; Gopal, S. “Categorization of Spatial Data
Mining Techniques”. Scientific Data Mining, 2001, pp. 3642 - 3646.
[Smi10]
Smith, W.; and Sandwell, D. “Global seafloor topography from satellite altimetry and
ship depth soundings”. Science, vol. 45, Setembro 2010, pp. 1957 - 1962.
[Sol90]
Soluri, E.A. and Woodson, V.A. “World Vector Shoreline”, Science, Disponivel em:
“http://www.ngdc.noaa.gov/mgg/coast/wvs.html”. Acessado em: Julho de 2011.
[Tan93]
Tansel, A.; Clifford, J.; Gadia, S.; Jajodia, S.; Segev, A.; Snograss, R. “Temporal Databases”. The Benjamin/Cummings, 1993, 656p.
[Tan05]
Tan, P.; Steinbach, M.; Kumar, V. “Introduction to Data Mining”. Addison-Wesley
Longman Publishing, 2005, 769p.
[USG09]
U.S. Geological Survey.
“U.S. Geological Survey”.
Disponivel em:
“http://pubs.usgs.gov/gip/dynamic/historical.html”. Acessado em: Agosto de 2011.
[Wan04]
Wang Qiang and Shen Yi. “The effects of fusion structures on image fusion performances”, Proceedings of the 21st IEEE Instrumentation and Measurement Technology
Conference. IMTC 04. , vol. 1-1, Maio 2004, pp. 468–471.
[Wan08]
Wang, T.; Chen, X.; Bao, A.; Wang, W. “A new Geospatial Data Model to Facilitate
Geographic Data Mining and Knowleadge Discovery”. IEEE, International Conference
on Systems, Man and Cybernetcs (SMC 2008), 2008, pp. 3642 - 3646.
74
75
Apêndice A
Documentos auxiliares
Figura A.1: Parte do International Stratigraphic Chart com as idades geológicas usadas.
76
Figura A.2: Litologias utilizadas e seus respectivos valores.
77
Figura A.3: Coordenadas utilizadas - parte 1.
78
Figura A.4: Coordenadas utilizadas - parte 2.
79
Apêndice B
Resultados da mineração com fonte das
cartas de 2003
Figura B.1: Resultados da mineração na etapa 1
80
81
Apêndice C
Script de criação do banco
82
83
84
85
Apêndice D
Scripts de inserção de dados
86
87
88
89
90
91
Apêndice E
Ferramenta de ETL (PaleoGeoDB Tool)
92
93
Apêndice F
Resultados obtidos pelo algoritmo criado
Figura F.1: Gráfico da posição dos dados na bacia de Pelotas
94
Figura F.2: Gráfico da posição dos dados na bacia de Santos
95
Figura F.3: Gráfico da posição dos dados na bacia de Campos.
96
Figura F.4: Gráfico da posição dos dados na bacia de Espírito Santo.
97
Figura F.5: Gráfico da posição dos dados na bacia de Mucuri.
98
Figura F.6: Gráfico da posição dos dados na bacia de Cumuruxatiba.
99
Figura F.7: Gráfico da posição dos dados na bacia de Jequitinhonha.
100
Figura F.8: Gráfico da posição dos dados na bacia de Camamu-Alamada.
101
Figura F.9: Gráfico da posição dos dados na bacia de Jacuípe.
102
Figura F.10: Gráfico da posição dos dados na bacia de Sergipe-Alagoas.
103
Figura F.11: Gráfico da posição dos dados na bacia de Pernambuco-Paraíba.
104
Figura F.12: Gráfico da posição dos dados na bacia de Potiguar.
105
Figura F.13: Gráfico da posição dos dados na bacia de Ceara.
106
Figura F.14: Gráfico da posição dos dados na bacia de Barreirinhas.
107
Figura F.15: Gráfico da posição dos dados na bacia de Pará-Maranhão.
108
Figura F.16: Gráfico da posição dos dados na bacia de Foz do Amazonas.
Download