TITULO DO TRABALHO

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIÊNCIAS EXATAS E DA TERRA
DEPARTAMENTO DE FÍSICA TEÓRICA E EXPERIMENTAL
PROGRAMA DE PÓS - GRADUAÇÃO EM FÍSICA
F ERRAMENTAS DA A STROESTATÍSTICA PARA O
ESTUDO DA VELOCIDADE RADIAL ESTELAR
M ÁRCIO A SSUNÇÃO T EIXEIRA
NATAL - RN
J ULHO 2016
M ÁRCIO A SSUNÇÃO T EIXEIRA
F ERRAMENTAS DA A STROESTATÍSTICA PARA O
ESTUDO DA VELOCIDADE RADIAL ESTELAR
Dissertação de Mestrado apresentada ao programa de pósgraduação em Física do Departamento de Física Teórica e experimental da Universidade Federal do Rio Grande do Norte como
requisito parcial para obtenção do grau de mestre em Física.
Orientador: Daniel Brito de Freitas
NATAL - RN
2016
i
À todos que me fizeram chegar até aqui
ii
AGRADECIMENTOS
Agradeço, primeiramente, à minha família, por todo o incentivo e apoio durante o mestrado. À minha namorada, que esteve comigo durante as fases difíceis e de frustração. A todos os
amigos do departamento, que sempre estiveram comigo, que compartilharam todas as dificuldades
enfrentadas e que me ajudaram nos momentos difíceis. Ao meu orientador, Daniel, por ter me dado
a orientação, durante esse período do mestrado, necessária para o meu desenvolvimento como pesquisador e preparação para um futuro doutorado, aprendizado que levarei comigo por toda minha
vida acadêmica e profissional. A todos os professores que fizeram parte da minha formação, de
forma direta ou indireta, por terem me dado o conhecimento necessário para a minha formação,
tanto como estudante, quanto como futuro profissional. Por fim, agradeço ao CNPq, pelo apoio
financeiro, através da concessão da bolsa de Mestrado, que permitiu a realização desse trabalho.
iii
“There are an infinite number of worlds, some like this world, others unlike it” .
Epicurus
iv
Ferramentas da Astroestatística para o estudo da velocidade radial
estelar
por
Márcio Assunção Teixeira
R ESUMO
O método da velocidade radial estelar é usada desde as descobertas dos primeiros exoplanetas. Esse método tem se mostrado bem sucedido na obtenção dos parâmetros orbitais dos
exoplanetas, como, por exemplo, a excentricidade da órbita, o período de translação, a relação de
massa do planeta, a distância do periastro, entre outros. A análise dos dados de velocidade radial
contém vários problemas, devido a sua função matemática ser altamente não-linear e multimodal.
Para a inferência desses parâmetros, métodos estatísticos adequados são necessários na análise dos
dados.
Nesse trabalho, desenvolvemos algoritmos que nos permite realizar inferências estatísticas. Os métodos de inferência utilizados são o método do χ2 mínimo, o método de Monte Carlo
via cadeia de Markov e o Nested Sampling. Estudamos cada um dos métodos, simulando dados,
com adição de ruído, e aplicando-os em dois casos: na equação linear e para funções senoidais. Por
último, aplicamos os métodos estatísticos para o caso da velocidade radial estelar, fazendo uso de
dados da estrela HD 187085, com o objetivo de determinar a eficácia de tais métodos, comparando
os resultados com os obtidos na literatura.
v
Astrostatistical tools for the study of stellar radial velocity
by
Márcio Assunção Teixeira
A BSTRACT
Stellar radial velocity method has been used since the descovery of the earliest exoplanets.
This method has been very successful in the obtention of exoplanets’ orbital parameters, such
as, for exemple, the orbital eccentricity, the translational period, the planet’s mass relation, the
periastron distance, among others. The analysis of radial velocity data has various problems due
to its mathematical function, that is highly non-linear and multimodal. For parameter inference,
adequated statistical methods are required, in the analysis of these datas.
In this work, the development of algorithms allows the performance of statistical inference. The inference methods used are the minimum χ2 method, Markov Chain Monte Carlo
method and the Nested Sampling. Each method is studied by simulating data, with noise addition,
and applying these methods to two cases: a linear equation and sinusoidal functions. Finally, the
statistical methods are applied in the case of the stellar radial velocity, by using the HD 187085
star’s data, aiming to determine the efficiency of such methods, by comparing the results with
previously obtained results in literature.
vi
LISTA DE FIGURAS
1.1
Redução do fluxo relativo no método de trânsito planetário . . . . . . . . . . . . .
3
1.2
Orientações das órbitas de exoplanetas . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
Desvio do espectro luminoso de uma estrela devido a presença de um planeta . . .
5
1.4
Esquematização dos métodos de detecção de planetas . . . . . . . . . . . . . . . .
8
2.1
Caracteristicas de uma órbita elíptica . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.2
Caracteristicas de uma órbita em três dimensões . . . . . . . . . . . . . . . . . . .
15
2.3
Curvas de velocidade para e = 0, 05 . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.4
Curvas de velocidade para e = 0, 5 . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.5
Curvas de velocidade para e = 0, 9 . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1
Exemplo do método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.2
Exemplo do método de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . .
31
3.3
Cadeias Markovianas de parâmetros orbitais . . . . . . . . . . . . . . . . . . . . .
38
3.4
Distribuição posteriori de parâmetros orbitais . . . . . . . . . . . . . . . . . . . .
38
3.5
Algoritmo de Metropolis-Hastings em conjunto com o Amostrador de Gibbs . . . .
40
vii
3.6
Evidência em termos da likelihood e da massa cumulativa a priori . . . . . . . . .
42
3.7
Contorno de likelihood no Nested Sampling . . . . . . . . . . . . . . . . . . . . .
44
3.8
Nested Sampling para sistema multi-planetários . . . . . . . . . . . . . . . . . . .
45
4.1
Simulação do teste do χ2 mínimo com ruído uniforme . . . . . . . . . . . . . . . .
48
4.2
Simulação do teste do χ2 mínimo com ruído gaussiano . . . . . . . . . . . . . . .
49
4.3
Melhor ajuste através do MCMC para prioris uniformes . . . . . . . . . . . . . . .
50
4.4
Cadeias Markovianas e distribuição posteriori para equação linear - caso 1 . . . . .
51
4.5
Melhor ajuste através do MCMC para diferentes priori . . . . . . . . . . . . . . .
52
4.6
Cadeias Markovianas e distribuição posteriori para equação linear - caso 2 . . . . .
53
4.7
Melhor ajuste através do Nested Sampling para diferentes priori . . . . . . . . . .
55
4.8
Melhor ajuste através do Nested Sampling para priori gaussiana . . . . . . . . . .
55
4.9
Curva de melhor ajuste da função seno através do χ2 mínimo . . . . . . . . . . . .
57
4.10 Curva de melhor ajuste da soma de cossenos através do χ2 mínimo . . . . . . . . .
57
4.11 Curva de melhor ajuste da função seno através do MCMC . . . . . . . . . . . . .
58
4.12 Cadeias de Markov e distribuições posteriori para a função seno . . . . . . . . . .
59
4.13 Curva de melhor ajuste da soma de cossenos para análise MCMC . . . . . . . . . .
60
4.14 Cadeias de Markov e distribuições posteriori para a soma de cossenos . . . . . . .
61
4.15 Melhor ajuste pelo método Nested Sampling para função seno . . . . . . . . . . .
62
4.16 Melhor ajuste pelo método Nested Sampling para a soma de cossenos . . . . . . .
63
4.17 Curva de velocidade radial obtido por Balan & Lahav . . . . . . . . . . . . . . . .
65
4.18 Curva de velocidade radial no melhor ajuste dos parâmetros - Simulado . . . . . .
66
4.19 Curva de velocidade radial no melhor ajuste dos parâmetros para HD 187085 através do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
67
4.20 Cadeias Markovianas e distribuições posterioris para HD 187085 pelo método MCMC 69
4.21 Curva de velocidade radial, através do MCMC, para HD 187085 . . . . . . . . . .
71
4.22 Curva de velocidade radial, através do Nested Sampling, para HD 187085 . . . . .
72
ix
LISTA DE TABELAS
2.1
Influência de diferentes companheiras em uma estrela M2 . . . . . . . . . . . . . .
22
4.1
Comparação entre os melhores ajustes para ruído uniforme . . . . . . . . . . . . .
48
4.2
Comparação entre os melhores ajustes para ruído gaussiano . . . . . . . . . . . . .
49
4.3
Distribuições a priori dos parâmetros orbitais para o método MCMC. . . . . . . . .
68
4.4
Melhor ajuste dos parâmetros orbitais obtidos por Balan & Lahav (2008b) . . . . .
70
4.5
Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do MCMC .
70
4.6
Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do Nested
Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7
72
Comparação entre os melhores ajustes dos parâmetros orbitais obtidos para HD
187085 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
x
72
SUMÁRIO
Resumo
v
Abstract
vi
Lista de Figuras
ix
Lista de Tabelas
x
1
Introdução
1
1.1
Principais técnicas de detecção de exoplanetas . . . . . . . . . . . . . . . . . . . .
2
1.1.1
Trânsito planetário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.1.2
Velocidade radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.1.3
Outros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Motivações e objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2
2
Velocidade radial como forma de detectar exoplanetas
11
2.1
12
Órbitas elípticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
3
2.2
Velocidade radial e curvas de velocidade . . . . . . . . . . . . . . . . . . . . . . .
16
2.3
Erros das medidas e ruídos astrofísicos . . . . . . . . . . . . . . . . . . . . . . . .
22
Métodos estatísticos e inferência
3.1
Método da máxima verossimilhança e o método do χ2 mínimo . . . . . . . . . . .
26
3.2
Método do mínimo quadrado não-linear . . . . . . . . . . . . . . . . . . . . . . .
28
3.2.1
O método do máximo declive . . . . . . . . . . . . . . . . . . . . . . . .
29
3.2.2
Método de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
3.2.3
Método de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . .
30
3.3
Teorema de Bayes e a inferência Bayesiana . . . . . . . . . . . . . . . . . . . . .
32
3.4
Método de Monte Carlo via cadeia de Markov (MCMC) . . . . . . . . . . . . . .
34
3.4.1
Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . .
36
3.4.2
Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.5
4
25
Simulações e resultados
46
4.1
Equação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1.1
Método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1.2
Método de Monte Carlo via Cadeia de Markov . . . . . . . . . . . . . . .
50
4.1.3
Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
Senos e cossenos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
4.2.1
Método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
4.2.2
Método de Monte Carlo via Cadeia de Markov . . . . . . . . . . . . . . .
58
4.2.3
Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
Velocidade radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.2
4.3
xii
5
4.3.1
Método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.3.2
Método de Monte Carlo via Cadeia de Markov . . . . . . . . . . . . . . .
67
4.3.3
Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
Conclusões e perspectivas
73
5.1
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.2
Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
xiii
CAPÍTULO 1
INTRODUÇÃO
A detecção de exoplanetas teve início no final da década de 80, com o trabalho de Campbell et al. (1988). Esse trabalho consistiu em analisar dezesseis estrelas, das quais, duas estrelas,
χ1 Orionis A e γ Cephei A, mostravam uma variação na velocidade radial na ordem de alguns
poucos km/s. As outras 14 estrelas não mostravam variações maiores do que 50 m/s. Campbell
et al. (1988) sugeriram que pudessem haver companheiras para χ1 Orionis A e γ Cephei A, porém, não haviam evidências fortes o suficiente para determinar se era, de fato, um planeta ou uma
anã marrom. As companheiras de ambas só foram confirmadas, coincidentemente no mesmo ano,
por König et al. (2002) e Cochran et al. (2002), respectivamente. König et al. (2002) mostraram
uma companheira estelar para χ1 Orionis, com massa estimada de 15% a massa do Sol. Enquanto
que Cochran et al. (2002) confirmou um planeta orbitando γ Cephei A, com massa mínima de
1, 60 ± 0, 13 massas de Júpiter.
Uma vez que o trabalho de Campbell et al. (1988) não tinha evidências forte o suficiente
para confirmar a existência de uma companheira planetária, a descoberta do primeiro exoplaneta
é atribuída ao trabalho de Wolszczan & Frail (1992). Os resultados desse trabalho mostraram,
com medidas realizadas através do radiotelescópio de Arecibo, a existência de um sistema de,
no mínimo, dois planetas, orbitando o pulsar PSR B1957+12. Através do método pulsar timing,
foi detectado um “bamboleio” de ±0, 7m.s−1 , causado pelo movimento orbital dos planetas, o
1
Capítulo 1. Introdução
2
que levou as suas detecções. Em 1994, um terceiro planeta foi descoberto orbitando o pulsar
(Wolszczan 1994).
O primeiro planeta descoberto orbitando uma estrela da sequência principal foi confirmado
em 1995, por Mayor & Queloz (1995). O planeta em questão tem massa mínima de metade da
massa de Júpiter e orbita a sua estrela, 51 Pegasi, com período aproximado de quatro dias. O
planeta, chamado de 51 Pegasi b, foi descoberto através das medidas de velocidade radial da estrela,
obtidas pelo Observatório de Haute-Provence.
Desde a descoberta dos primeiros exoplanetas, e com o avanço da tecnologia dos telescópios e das ferramentas de análise de dados, vários outros exoplanetas têm sido descobertos e seus
parâmetros orbitais inferidos. Atualmente, mais de 3400 exoplanetas foram descobertos, de acordo
com a Enciclopédia de Planetas Extrassolares12 . Desses mais de 3400 exoplanetas, 677 foram descobertos através do método da velocidade radial estelar, 2650 foram detectados através do método
de transito planetário e o restante foi descoberto através de outros métodos, como o de microlentes
gravitacionais ou de imagem direta.
1.1
Principais técnicas de detecção de exoplanetas
Como mostrado, através dos dados da Enciclopédia de Planetas Extrassolares, dos méto-
dos de detecção de planetas, dois se destacam por seus sucessos em detectar exoplanetas e inferir
seus parâmetros orbitais, o método de trânsito planetário e o método da velocidade radial. Nessa
seção, será mostrado os mecanismos por trás de ambos os métodos, que permitem a detecção de
exoplanetas. O método da velocidade radial é o objeto de estudo do trabalho e é detalhado no
capítulo 2.
1
A enciclopédia de planetas extrassolares é um catálogo que fornece os mais recentes dados e detecções obtidos
por astrônomos profissionais e é usado para facilitar o progresso na exoplanetologia. O catálogo se encontra disponível
online através do site: http://exoplanet.eu
2
Acesso em: 19 de Julho de 2016.
2
Capítulo 1. Introdução
1.1.1
3
Trânsito planetário
O método de trânsito planetário consiste na medição da curva de luz da estrela observada,
isto é, observa-se o fluxo de luz da estrela por um período de tempo. A presença de um planeta,
orbitando tal estrela, irá fazer com que, no intervalo de tempo em que o planeta esteja passando
“em frente” a estrela, em relação a um observador aqui na Terra, observa-se uma queda no fluxo
relativo da estrela, devido a esse eclipse causado pelo planeta, como exemplificado na figura 1.1.
Essa diminuição do fluxo relativo, se observado sempre após os mesmos intervalos de tempo, pode
indicar que haja um planeta orbitando aquela estrela, com período orbital igual ao período entre
essas diminuições do fluxo. Esse método exige que o sistema estrela-planeta observado tenham
órbitas alinhadas, de tal forma que visto da Terra, o planeta possa eclipsar a estrela. A figura 1.2
ilustra dois casos em que a órbita está alinhada e dois casos em que a órbita do planeta é de tal forma
que o planeta nunca afetará a curva de luz, tornando impossível a detecção do trânsito planetário.
Figura 1.1: Redução do fluxo relativo no método de trânsito planetário. Exemplos de curvas de luz,
em escalas de tempo e fluxo uniformes. Em cada caso, varia-se o tamanho da estrela e do planeta,
para ilustrar o efeito causado em termos das dimensões dos objetos. A trajetória dos planetas são
mostrados pelas linhas pontilhadas. O eixo horizontal representa o tempo, em horas, e o eixo
vertical representa o fluxo relativo ou o raio dos objetos. (Perryman 2011)
3
Capítulo 1. Introdução
4
Figura 1.2: Orientações das órbitas de exoplanetas. Nos dois casos acima, temos casos em que o
trânsito planetário afetará a curva de luz da estrela, sendo possível a detecção do planeta. Nos dois
casos abaixo, é impossível a detecção dos planetas através do método de trânsito planetário, devido
ao não alinhamento da órbita, em relação ao observador. A seta, em cada figura, mostra a direção
da órbita. (Imagem retirada do “Las Cumbres Observatory Global Telescope Network”, acessível
através do site: https://lcogt.net)
O método de trânsito planetário pode ser utilizado para obter informações que não são
possíveis em outros métodos. A massa do planeta, obtida através do método de velocidade radial,
depende do ângulo de inclinação da órbita, de modo que é inferido uma massa mínima. No trânsito
planetário, é possível determinar esse ângulo de inclinação da órbita. A composição da atmosfera
do planeta também pode ser estudado através desse método. No período em que o planeta está
passando em frente a estrela, a luz da estrela atravessará a atmosfera do planeta, em que uma parte
dessa luz será absorvida. Conhecendo o espectro da estrela, pode-se comparar os dados espectrais
da luz antes e durante o trânsito, assim inferindo a composição atmosférica do planeta (Perryman
2011).
Os instrumentos utilizados nas medições de curva de luz são tanto telescópios terrestres,
quanto observatórios espaciais. Dos telescópios terrestres, podemos destacar HATNet (Hungarian
Automated Telescope Network), que descobriu, até a presente data, mais de 29 exoplanetas, e o
WASP (Wide Angle Search for Planets), que detectou mais de 100 exoplanetas. Dos observatórios
espaciais, o CoRoT (Baglin et al. 2006), não mais em funcionamento, conseguiu encontrar 31
exoplanetas, e o Kepler (Borucki et al. 2010), da NASA, conta com 2327 exoplanetas confirmados3 .
3
Dados do Kepler fora retirados do site da NASA, disponível em: http://kepler.nasa.gov . Acesso em: 19 de Julho
4
Capítulo 1. Introdução
1.1.2
5
Velocidade radial
Dois corpos orbitantes, em que a única interação entre eles é dada pela gravidade, irão or-
bitar o centro de massa do sistema. No caso de um sistema estrela-planeta, o movimento da estrela
em torno do centro de massa do sistema pode ser percebido, para um observador na Terra, através
do desvio das linhas espectrais causado por esse movimento. Esse desvio das linhas espectrais pode
ser relacionado à velocidade radial estelar, através da equação do efeito Doppler. Quando a estrela
se aproxima do observador, é detectado um desvio para o azul, e quando se afasta do observador, é
detectado um desvio para o vermelho, como ilustra a figura 1.3. A ordem de grandeza da variação
da velocidade radial da estrela está diretamente relacionada à massa do planeta, ou planetas, que
estejam orbitando a estrela, a inclinação da órbita em relação ao observador e da distância que o
planeta se encontra da estrela.
Figura 1.3: Desvio do espectro luminoso de uma estrela devido a presença de um planeta. A linha
vermelha representa o desvio do espectro para o vermelho e indica a recessão da estrela. A linha
azul representa o desvio do espectro par o azul e indica a aproximação da estrela. A imagem não
se encontra em escala, em termos de tamanhos e distâncias. (Imagem retirada do Press Kit 005 do
ESO. Disponível no site: https://www.eso.org)
Diferentemente do método de trânsito planetário, a velocidade radial tem uma limitação
quanto a inferência de dois parâmetros. A massa do planeta e o semi-eixo maior da órbita não
podem ser inferidos com precisão. O valor inferido é um valor mínimo, dado por M sin i ou a sin i,
de 2016.
5
Capítulo 1. Introdução
6
em que i é a inclinação da órbita. Informações sobre a atmosfera planetária também não podem ser
obtidas através deste método. Em alguns casos, os dois métodos podem ser utilizados para analisar
a mesma estrela, a fim de complementar as limitações de cada um deles e ter valores mais precisos
dos parâmetros, como, por exemplo, o planeta WASP-121 b (Delrez et al. 2014).
Os instrumentos utilizados na obtenção de dados de velocidade radial são telescópios terrestres. Os dois telescópios principais, atualmente, devido as precisões de seus resultados, utilizam
um tipo de rede de difração conhecida como “échelle”, em que há uma baixa dispersão. O primeiro
deles, pertencente ao grupo do ESO (European Southern Observatory), o HARPS (High Accuracy
Radial velocity Planet Searcher) (Mayor & Queloz 1995) é um telescópio de 3.6 metros, em funcionamento desde 2003. A precisão do HARPS, hoje, consegue medir variações na velocidade radial
da ordem de grandeza de 1 m.s−1 . Em 2015, o ESO anunciou a instalação de um pente de frequência a laser (LFC, do inglês: Laser Frequency Comb), que tem uma precisão nas medidas de poucos
centímetros por segundo, o que permite a detecção de planetas de baixa massa4 . O segundo, pertencente ao California Association for Research in Astronomy, é o HIRES, no observatório W. M.
Keck (Vogt et al. 1994). O HIRES tem uma precisão também da ordem de grandeza de 1 m.s−1 e
tem sido o telescópio mais bem sucedido na detecção de exoplanetas através da velocidade radial5 .
No dia 27 de Janeiro de 2016, o Observatório Keck anunciou o uso de um pente de frequência a
laser, que permitirá medições mais precisas. Uma descrição sobre o pente de frequência e demonstração da precisão nas medidas de velocidade radial podem ser encontrados no trabalho de Yi et al.
(2015).6
1.1.3
Outros métodos
Além dos dois métodos explicitados, alguns outros métodos se mostraram bem sucedidos
na detecção de exoplanetas. Porém, esses métodos não são tão eficazes quanto os métodos de
trânsito planetário e velocidade radial. Cada um desses métodos detectou menos de cem planetas,
até a presente data desse trabalho. Alguns desses outros métodos são:
4
Informação retirada do site do ESO, disponível em: https://www.eso.org . Acesso em: 19 de Julho de 2016.
Enciclopédia de Planetas Extrassolares. Acesso em: Acesso em: 19 de Julho de 2016.
6
Informações sobre o HIRES retirado do site do Observatório Keck,
disponível em:
http://www.keckobservatory.org . Acesso em: 19 de Julho de 2016.
5
6
Capítulo 1. Introdução
7
• Microlentes gravitacionais: Ocorre quando a luz de uma estrela mais distante atravessa
o campo gravitacional de um sistema estrela-planeta. O campo gravitacional do sistema
estrela-planeta funcionará como uma lente, convergindo a luz da estrela distante. Essa convergência é maior para um sistema estrela-planeta do que se não houvesse nenhum planeta,
permitindo que o planeta possa ser detectado. Porém, esse método exige que as estrelas estejam praticamente alinhadas, para que ocorra o fenômeno de lente, fazendo com que apenas
ocorra em um pequeno intervalo de tempo. A Enciclopédia de Planetas Extrassolares registrou 48 exoplanetas descobertos através das microlentes gravitacionais (Acesso em: 19 de
Julho de 2016).
• Pulsar Timing: Um pulsar é uma estrela de nêutrons que emite ondas de radio periodicamente devido a sua rotação. Por causa da regularidade da rotação de um pulsar, pequenas
anomalias no tempo de observação dos pulsos de onda de rádio podem ser relacionadas com
o movimento do pulsar. Se um ou mais planetas orbitam um pulsar, o movimento do pulsar
em torno do centro de massa do sistema pode ser detectado, permitindo, assim, a detecção
dos planetas. Esse foi o método utilizado por Wolszczan & Frail (1992) na descoberta do
primeiro exoplaneta detectado. A Enciclopédia de Planetas Extrassolares registrou 23 exoplanetas descobertos através do Pulsar Timing (Acesso em: 19 de Julho de 2016).
• Transit Timing Variation (TTV): Esse método consiste em considerar se, quando ocorre um
trânsito planetário, o período do trânsito é regular ou sofre alguma variação. Se um planeta
foi detectado através do método de trânsito planetário, uma variação na periodicidade desse
trânsito pode indicar que existam outros planetas, em que os seus trânsitos não passam “na
frente” da estrela e, portanto, seria impossível de ser detectado através apenas do método de
trânsito planetário. A desvantagem desse método é a falta de informações sobre o planeta
descoberto. Podendo ser inferido um valor máximo de massa ou se o objeto tem uma massa
planetária. A Enciclopédia de Planetas Extrassolares registrou 7 exoplanetas descobertos
através do método TTV (Acesso em: 19 de Julho de 2016).
• Imagem direta: Todos os métodos citados anteriormente se baseiam na detecção indireta de
exoplanetas. O método de imagem direta se baseia na luz refletida pelo planeta, no visível, ou
através da emissão térmica do planeta, no infravermelho. A detecção através da observação
7
Capítulo 1. Introdução
8
da luz diretamente, no visível, nem sempre é possível, uma vez que a intensidade da luz
refletida pelo planeta é muito baixa e tende a se “perder” antes de poder ser observada aqui
na Terra. Esse método tem a vantagem de que por ser direto, tem uma confiabilidade maior
nos seus resultados, e é um método menos extensivo do que os métodos de velocidade radial
ou trânsito planetário. A Enciclopédia de Planetas Extrassolares registrou 70 exoplanetas
descobertos através do método de imagem direta (Acesso em: 19 de Julho de 2016).
A figura 1.4 mostra uma esquematização dos métodos de detecção e o número de planetas
detectado por cada método, com os dados do ano de 2015. No lado esquerdo, se encontra os
métodos de efeitos dinâmicos, a velocidade radial e o Timing. No centro se encontra o método de
microlentes gravitacionais. E, na direita, se encontra a fotometria, que, nele, se encontra o método
de trânsito planetário.
Figura 1.4: Esquematização dos métodos de detecção de planetas, no ano de 2015. Cada linha na
horizontal representa a massa dos planetas que os métodos conseguem detectar. A linha contínua
representa métodos já existentes. A linha pontilhada representa uma projeção, para 10-20 anos no
futuro. As setas pretas representam descobertas, junto com o número de planetas descobertos. Setas
brancas indicam descobertas que ainda carecem de confirmação ou maiores evidências. Imagem
retirada da Enciclopédia de Planetas Extrassolares.
.
8
Capítulo 1. Introdução
1.2
9
Motivações e objetivos
Com o avanço tecnológico dos instrumentos de medição, surge cada vez mais um maior
número de dados. Esse crescente número de dados necessitam de uma análise mais detalhada,
feitas através de ferramentas estatísticas robustas, capazes de nos dar resultados confiáveis. A
análise de grande número de dados, também conhecido como mineração de dados, tem sido a nova
tendência na astrofísica. Para tais análises, o uso de recursos computacionais é imprescindível,
sendo desenvolvidos algoritmos e softwares eficientes para esse propósito.
Os avanços nos telescópios também permitiram uma precisão maior nas medidas, de tal
forma que, atualmente, podemos obter medidas de velocidade radial da ordem de grandeza de
poucos centímetros. Esses dados mais precisos são da mesma ordem de grandeza dos ruídos astrofísicos, de modo que dificulta a detecção de um exoplaneta e a inferência de seus parâmetros
orbitais. Assim, um método estatístico avançado não é somente importante, mas é necessário para
a análise correta dos dados de velocidade radial.
O estudo da astroestatística7 nos permite o desenvolvimento de ferramentas estatísticas e
computacionais para, no escopo desse trabalho, a análise de dados de velocidade radial. Trabalhos
recentes na detecção de exoplanetas e inferências de parâmetros orbitais de tais exoplanetas foram
utilizados como motivação de se utilizar determinados métodos estatísticos nas análises realizadas
neste trabalho, como, por exemplo, Balan & Lahav (2008a), que traz uma análise feita através do
método MCMC, e Feroz et al. (2011), em que os resultados são obtidos através do método Nested
Sampling. Outros trabalhos, de viés mais estatísticos, inclui Feroz & Skilling (2013), que mostra
como analisar, através do método Nested Sampling, problemas com distribuições multimodais, e
Andreon & Weaver (2015), um livro com uma descrição completa sobre métodos Bayesianos, com
aplicações na física.
Assim, no estudo da velocidade radial estelar, através de ferramentas estatísticas, temos
como objetivos:
• Descrição física e modulação matemática da velocidade radial estelar, explicitando sua dependência com os parâmetros orbitais;
7
A astroestatística é uma área cujo objetivo é o uso da estatística inserida nos problemas da astrofísica
9
Capítulo 1. Introdução
10
• Estudo breve das fontes de erros e ruídos nas medidas;
• Estudo de diferentes ferramentas estatísticas para a inferência de parâmetros e os casos em
que funcionam;
• Desenvolvimento de ferramentas computacionais para a simulação e análise de dados, utilizando os métodos estatísticos estudados;
• Realizar simulações de dados, com acréscimo de ruído aleatório, para o teste das ferramentas
estatísticas e computacionais na inferência de parâmetros;
• Utilizar as ferramentas desenvolvidas para um conjunto de dados reais de velocidade radial,
a fim de inferir sobre os parâmetros orbitais e comparar os resultados com os da literatura.
No Capítulo 2, faremos um estudo da velocidade radial estelar, sua relação com os parâmetros orbitais do planeta e a questão dos ruídos nas medidas. No Capítulo 3, demonstraremos os
modelos e métodos estatísticos que podem ser utilizados na inferência de parâmetros, explicitando
suas características, vantagens e desvantagens. No Capítulo 4, serão feitas simulações para o teste e
análise de três dos métodos estatísticos estudados no capítulo 3, o método do χ2 mínimo, o MCMC
e o Nested Sampling. Ainda no capítulo 4, utilizaremos esses métodos estatísticos para a análise de
dados reais, no caso da velocidade radial estelar, em que comparamos os resultados com aqueles já
obtidos na literatura. No Capítulo 5, temos a conclusão e perspectivas futuras para esse trabalho.
10
CAPÍTULO 2
VELOCIDADE RADIAL COMO FORMA DE DETECTAR
EXOPLANETAS
A detecção por velocidade radial consiste em analisar a variação da velocidade radial da
estrela, devido a uma perturbação nela. Essa perturbação pode ser dada por uma companheira
binária ou por um ou mais planetas. A presença de planetas ou de uma companheira binária faz
com que a estrela orbite o centro de massa do sistema. Isto leva a uma variação da velocidade
radial, que é perceptível através do desvio causado nas linhas espectrais destas estrelas, devido ao
efeito Doppler (Kepler & Saraiva 2014).
Através das medidas de velocidade radial, do modelo matemático e de uma análise estatística apropriada, podemos inferir sobre os parâmetros orbitais dos planetas, tais como a excentricidade da órbita ou o período de translação, por exemplo.
Neste capítulo, iremos estudar sistemas planetários, as leis que regem e como detectar
exoplanetas. Inicialmente, abordaremos as órbitas elípticas, desenvolvendo um modelo físico e
matemático de um sistema planetário, explicitando os parâmetros orbitais. Em seguida, iremos
modelar matematicamente a velocidade radial de uma estrela, mostrando os casos para um ou mais
planetas e como a velocidade radial tem sido modelada nos testes estatísticos que se mostraram bem
sucedidos na detecção de exoplanetas. Por último, será detalhada a natureza dos erros e incertezas
associadas as medidas, que são devido ao movimento e ao referencial, e os ruídos astrofísicos, que
11
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
12
surgem da atividade estelar.
2.1
Órbitas elípticas
Um planeta orbitando uma estrela terá sua órbita descrita por uma elipse, em acordo com
a primeira lei de Kepler, que diz que a órbita de um planeta será uma elipse, com a estrela em um
dos seus focos1 . O efeito gravitacional do planeta na estrela também faz com que a estrela orbite,
numa elipse, o centro de massa do sistema estrela-planeta.
A elipse tem um conjunto de propriedades que servem de base matemática para a descrição
das órbitas. Iremos listar as propriedades mais importantes para o desenvolvimento do trabalho:
1. Em qualquer ponto da curva, a soma das distâncias desse ponto aos dois focos é constante e
será igual a 2a, em que a é o semi-eixo maior.
2. Quanto maior a distância entre dois focos, maior é a excentricidade, e, da elipse. A equação
da excentricidade pode ser dada por
r
e=
a2 − b 2
,
a2
(2.1)
em que b é o semi-eixo menor.
3. Se considerarmos um dos focos ocupado por um estrela, o ponto da órbita mais próximo
desse foco será chamado de periastro, e o ponto mais distante será chamado de apoastro. A
distância do periastro e do apoastro até a estrela são dadas, respectivamente, por
q = a(1 − e) ,
(2.2)
Q = a(1 + e) .
(2.3)
e
4. Equação da elipse em coordenadas polares: Considerando um ponto P (r, ν) sobre a elipse (o
1
O livro "Astronomia & Astrofísica"(Kepler & Saraiva 2014) traz uma descrição completa das leis de Kepler.
12
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
13
ponto onde se encontra o planeta, na figura 2.1), em que ν é chamada de anomalia verdadeira
(que equivale ao ângulo θ, nas coordenadas polares) . Pela lei dos cossenos, temos que
r12 = r2 + (2ae)2 + 2r(2ae) cos ν .
(2.4)
Da primeira propriedade, sabemos que r1 + r = 2a. Assim, a equação 2.4 se torna
r=
a(1 + e2 )
.
(1 + e cos ν)
(2.5)
Esta equação nos dá a distância do foco em que se encontra a estrela até um ponto qualquer
na órbita.
A figura 2.1 ilustra uma órbita planetária com uma estrela em um dos focos. A imagem
mostra também os parâmetros trabalhados até então, tanto no sistema de coordenadas cartesiano,
em que a origem é dada no centro da elipse (e temos os ponto (a, 0) e (0, b)), quanto no sistema de
coordenadas polares, em que a origem é dada no foco F1 (e temos o vetor r até o planeta e o ângulo
ν).
Figura 2.1: Caracteristicas de uma órbita elíptica. Os pontos da órbita podem ser descritos tanto em
termos da anomalia verdadeira (em relação a elipse), ν, quanto da anomalia excêntrica (em relação
ao círculo auxiliar), E (Perryman 2011).
13
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
14
Vários ângulos no plano orbital, chamados de "anomalias", são utilizados para descrever
a posição de um planeta ao longo de sua órbita, em um tempo específico (Dvorak 2008).
A anomalia verdadeira, ν(t), também denotado por f (t), é o ângulo entre a direção do
periastro e a posição atual do planeta. Esse é o ângulo normalmente utilizado para caracterizar uma
órbita observacional.
A anomalia excêntrica, E(t), é um ângulo entre a direção do periastro e um ponto acima
do planeta, no círculo auxiliar. A anomalia verdadeira e a anomalia excêntrica se relacionam através
das equações:
cos ν(t) =
cos E(t) − e
,
1 − e cos E(t)
ou
ν(t)
tan
=
2
1+e
1−e
1/2
tan
E(t)
.
2
(2.6)
(2.7)
A anomalia média, M (t), é um ângulo relacionado a um movimento médio fictício em
torno da órbita, usado para calcular a anomalia verdadeira. Em uma órbita completa, na qual o
planeta (ou estrela) real não se move numa velocidade angular constante, uma taxa média pode ser
especificada em termos do movimento médio, tal que
n = 2π/P ,
(2.8)
em que P é o período orbital. A anomalia média, num tempo t − tp , após a passagem pelo periastro
é definida como
M (t) =
2π
(t − tp ) ≡ n(t − tp ) ,
P
(2.9)
A anomalia média se relaciona com a anomalia excêntrica pela equação:
M (t) = E(t) − e sin E(t) .
(2.10)
A equação 2.10 não possui solução analítica, sendo necessário o uso de computação numérica para
encontrar uma solução. Alguns métodos computacionais para a solução desta equação podem ser
encontrados no trabalho de Murison (2006).
14
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
15
Toda a descrição, até esse ponto, tem sido feita levando em consideração um sistema em
duas dimensões. Ao generalizarmos para três dimensões, alguns novos parâmetros surgem, como
ilustrados na figura 2.2. Esses parâmetros são ângulos usados para representar a projeção da órbita
verdadeira na órbita observada. Eles dependem apenas da orientação do observador em relação a
orbita (Perryman 2011).
Figura 2.2: A generalização da órbita para três dimensões causa uma dependência maior no ângulo
do observador. Isso faz com que surjam três novos parâmetros (i, Ω, e ω) para a descrição completa
da órbita. i é a inclinação do plano orbital. Ω define a longitude do nodo ascendente (medido no
plano de referência). ω é o ângulo do nodo ascendente até o periastro. O plano de referência é
tangente a esfera celeste (Perryman 2011).
i é a inclinação orbital em relação ao plano de referência, variando entre 0◦ e 180◦ . O movimento do planeta é referido como sendo prógrado (na direção do aumento do ângulo da posição)
se i < 90◦ , retrógrado para i > 90◦ e projetado na linha dos nodos, se i = 90◦ . Ω é a longitude
do nodo ascendente, medido no plano de referência, de forma antihorária. ω é o argumento do
periastro. Ele é a coordenada angular do periastro do objeto em relação ao seu nodo ascendente,
medido no plano orbital e na direção do movimento (Chobotov 2002).
Para um sistema de dois corpos, ambos orbitam o centro de massa de forma elíptica, com
o centro de massa nos focos das elipses. Para cada um dos corpos, a terceira lei de Kepler é dada
15
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
16
por
P2 =
4π 2 3
a ,
GM
(2.11)
em que M e a, respectivamente a massa do corpo e o semi-eixo maior da órbita em questão, tem
diferentes valores para cada tipo de órbita medida.
Com a definição dos parâmetros orbitais e de sua significância física e astronômica nos
sistemas estrela-planeta, podemos agora definir a velocidade radial estelar em termos destes parâmetros.
2.2
Velocidade radial e curvas de velocidade
As medidas de velocidade radial descrevem o movimento projetado da estrela, ao longo
da linha de visada, enquanto essa orbita o centro de massa do sistema. A medida é feita através de
um desvio Doppler no comprimento de onda das linhas de absorção do espectro da estrela.
Se, no referencial do observador, a fonte luminosa está recedendo com velocidade v em
um ângulo θ relativo a direção do observador à fonte, a variação no comprimento de onda é dada
por
∆λ = λobs − λem ,
(2.12)
em que λobs e λem são, respectivamente, o comprimento de onda observado e o comprimento de
onda emitido pela fonte. Para v c (sem efeitos relativísticos) e θ π/2, a equação 2.12 toma a
forma
vr = v cos θ ≈
∆λ
λem
c,
(2.13)
em que c é a velocidade da luz no vácuo. Por convenção, valores positivos indicam recessão,
enquanto que valores negativos indicam que a fonte está se aproximando.
Sabendo como a velocidade radial se relaciona com o desvio nas linhas do espectro, precisamos encontrar a relação entre a velocidade radial e os parâmetros orbitais. Considerando a figura
2.2 como uma representação da órbita da estrela em torno do centro de massa, a coordenada z da
16
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
17
estrela, ao longo da linha de visão, pode ser obtida por trigonometria e é dada por
z = r(t) sin i sin(ω + ν),
(2.14)
em que r(t) é a distância do centro de massa. Derivando z em relação ao tempo, para encontrarmos
a velocidade radial, temos que
vr = ż = sin i[ṙ sin(ω + ν) + rν̇ cos(ω + ν)],
ou
vr = K[cos(ω + ν) + e cos ω] .
(2.15)
K é chamado de semi-amplitude da velocidade radial e é dada por
K≡
2π a? sin i
,
P (1 − e2 )1/2
(2.16)
em que a? é o semi-eixo maior da estrela, em relação ao foco ocupado pelo centro de massa.
Considerando a terceira lei de Kepler, dada pela equação 2.11, mas para o caso da estrela
orbitando o centro de massa, podemos escrevê-la como
4π 2 3
a ,
GM 0 ?
(2.17)
Mp3
,
(M? + Mp )2
(2.18)
P2 =
e M 0 é dado por
M0 ≡
em que Mp é a massa do planeta e M? é a massa da estrela.
As equações 2.16, 2.17 e 2.18 podem ser combinadas em uma expressão alternativa para
K (Cumming et al. 1999)
K=
2πG
P
1/3
Mp sin i
1
.
2/3
(M? + Mp ) (1 − e2 )1/2
(2.19)
Conhecendo a massa da estrela, através do tipo espectral e da classe de luminosidade, por exemplo,
17
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
18
podemos então determinar Mp sin i. A massa do planeta sempre estará acompanhada pelo termo
sin i, assim, podemos somente inferir um limite inferior para a massa do planeta (Gregory 2005).
Da mesma forma, a? também não pode ser determinado separadamente. Será inferido o valor de
a? sin i.
Das equações 2.15 e 2.6 - 2.10, vemos que a velocidade radial depende de cinco parâmetros livres, que são chamados de parâmetros primários (Balan & Lahav 2008a): K, ω, e, tp e
P . Enquanto que os parâmetros secundários são aqueles obtidos através do valor dos parâmetros
primários: Mp , a? , ap . Alguns trabalhos, como o de Feroz et al. (2011), fazem χ = tp /P um parâmetro primário, fazendo com que tp se tornasse um parâmetro secundário, e inserem um termo
de fase V , que descreve a componente da velocidade radial do centro de massa do sistema relativo
ao centro de massa do sistema solar, fazendo com que o número de parâmetros primários aumente
para seis. A equação, neste caso, se torna
vr = V − K[cos(ω + ν) + e cos ω] .
(2.20)
Para sistemas com mais de um planeta, as interações gravitacionais planeta-planeta são
ignoradas. Supõe-se apenas a interação de cada planeta com a estrela, de forma independente. A
equação 2.15 pode ser generalizada como
vr =
N
X
Ki [cos(ωi + νi ) + ei cos ωi ] ,
(2.21)
i=1
em que N representa o número de planetas no sistema. Assim, teremos um conjunto de 5N (ou
5N + 1, no caso de V estar inserido na equação) parâmetros livres.
Conhecendo os parâmetros livres e com um conjunto de dados das medições da velocidade
radial, os parâmetros podem ser ajustados e ter seu melhor ajuste inferido através de ferramentas
estatísticas. Nos casos de sistemas multi-planetários, pode-se ajustar os parâmetros do planeta com
sinal dominante. Após feito isso, subtrai-se a contribuição deste planeta dos dados observados. O
processo então é repetido até que os sinais significantes de todos os planetas seja analisado. No
capítulo 3, são apresentadas tais ferramentas, de um modo geral, que nos permite analisar os dados.
Alguns métodos que já se mostraram bem-sucedido, e que será apresentado, inclui o algoritmo de
18
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
19
Levenberg-Marquardt (Cumming 2004), o método de Monte Carlo via Cadeia de Markov (Balan
& Lahav 2008a) e o Nested Sampling (Feroz et al. 2011).
As figuras 2.3, 2.4 e 2.5 mostram as curvas de velocidade, obtidas através da equação
2.20, ilustrando como a forma da curva irá depender dos parâmetros e e ω, enquanto que os outros
parâmetros influenciam apenas na amplitude e no período das curvas. Podemos ver que a influência
de ω aumenta de acordo com o aumento da excentricidade. Nas figuras, os parâmetros e e ω serão
variados, enquanto os outros serão fixados nos valores: K = 20 m.s−1 , P = 1200 dias e χ = 0, 6.
Figura 2.3: Curvas de velocidade para e = 0, 05. Podemos ver que para um baixo valor da excentricidade, o ângulo ω não influencia tanto na forma do gráfico.
19
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
20
Figura 2.4: Curvas de velocidade para e = 0, 5. Podemos ver uma influência maior de ω na forma
das curvas de velocidade.
20
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
21
Figura 2.5: Curvas de velocidade para e = 0, 9. O valor alto da excentricidade faz com a curva
apresente essas regiões de rápida queda ou subida.
21
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
2.3
22
Erros das medidas e ruídos astrofísicos
A precisão dos instrumentos utilizados são de extrema importância para a detecção de
exoplanetas. Sistemas com planetas de pequena massa terão uma pequena variação na velocidade
radial da estrela. Se o instrumento não for preciso o suficiente, a detecção de tais planetas se
tornam impossíveis. Os dados obtidos através dos telescópios são contaminados por erros. O
erro é algo característico do processo de medição, podendo ter vários fatores que influenciam. Os
erros serão divididos, nesse trabalho, em dois tipos: o erro instrumental, que inclui também o erro
devido a referenciais, e o ruído astrofísico, que é o erro devido a atividade estelar, e que não tem
como ser retirado das medidas. Da mesma forma que planetas de pequena massa causarão uma
pequena variação na velocidade radial, se essa variação for da ordem de grandeza dos erros das
medidas, pode se tornar difícil a detecção deste planeta ou o sinal pode mimicar o sinal de um
planeta. Conhecer a fonte dos erros nos ajuda a fazer uma análise mais precisa dos dados. A tabela
2.1 mostra, para uma típica estrela M2, a influência de uma companheira com diferentes massas e
períodos orbitais. Podemos ver que para uma companheira estelar, a ordem de grandeza da variação
da velocidade radial é muito grande, quando comparada a uma companheira planetária. Enquanto
que para uma companheira com a massa da Terra, a variação é muito pequena e pode até mesmo se
perder no ruído.
M2
1MSol
0.08MSol
1MJupiter
1MT erra
3d
93km/s
11km/s
140m/s
0.5m/s
10 d
63km/s
7,5km/s
94m/s
0,3m/s
1 ano
19km/s
2,3km/s
28m/s
0,09m/s
Tabela 2.1: Influência de diferentes tipos de companheiras para uma típica estrela M2. A primeira
coluna se refere a massa das companheiras e o cabeçalho se refere ao período orbital das mesmas.
Fonte: Tabela cedida pelo Astrônomo do ESO, Doutor Cláudio Melo.
A equação 2.13 não considera efeitos relativísticos. Os termos correspondentes a relatividade especial causam uma mudança na velocidade radial na ordem de vários m.s−1 . A equação
também omite os efeitos do índice de refração do ar no espectrômetro, nar = 1, 000277 (em condições normais de temperatura e pressão), no qual introduz erros de aproximadamente 1 m.s−1
(Marcy & Butler 1992).
22
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
23
O movimento do observador, em torno do centro de massa do Sistema Solar, devido a
rotação e translação da Terra, produz contribuições as medidas. Essas contribuições, variantes no
tempo, podem chegar a até 0, 5 e 30 km.s−1 , para o movimento de rotação e de translação, respectivamente. Para detectar a variação na velocidade radial, precisamos utilizar um referencial em
repouso ou em movimento uniforme. Por isso, é comum adotar o centro de massa do Sistema Solar
como referencial. Ajustando os efeitos que perturbam o movimento do sistema, como a influência
gravitacional dos outros planetas do Sistema Solar, os termos residuais podem ser levados a um
valor menor do que 1 m.s−1 (Perryman 2011).
Esses tipos de efeitos, em geral, conseguem ser compensados ou separados do conjunto
de dados finais. Vários telescópios atuais possuem um pipeline que já fazem a análise e retiram
os erros dados por esses efeitos (em geral, relacionados ao movimento e ao próprio instrumento),
como o HARPS, por exemplo, que utiliza um método "Simultaneous Thorium"2 para obtenção de
uma medida precisa da velocidade radial.
O ruído astrofísico (ou ruído estelar) pode ser considerado como sendo a atividade na superfície estelar, oscilações estelares, granulação da superfície, companheiros planetários não identificados, atividade magnética da estrela ou erros sistemáticos. Todos esses fatores influenciam
no bamboleio (do inglês, jitter) das medidas de velocidade radial. Esses erros são relevantes e é
necessário conhecê-los. Mesmo estrelas com pouca atividade magnética ainda apresentam heterogeneidade devido a convecção magnética na superfície. Quando as bolhas de plasma sobem pela
fotosfera, e, portanto, se movem em direção ao observador, elas sofrem um desvio para o azul, e
quando as bolhas dispersam e caem em direção ao interior da estrela, elas sofrem um desvio para o
vermelho. Esse movimento causa uma assimetria nas linhas observadas do espectro. Para estrelas
do tipo Sol, o resultado total dessas variações no espectro causam desvios na velocidade radial da
ordem de dezenas de cm.s−1 (Ceglar et al. 2014).
Os efeitos da oscilação estelar nas medidas do efeito Doppler são geralmente menores do
que os efeitos produzidos por atividade estelar, mas são mais significantes para gigantes e subgigantes. Resultados do HARPS mostraram que integrações de 15 minutos são suficientes para
reduzir esse efeito para menos do que 0, 2 m.s−1 (Mayor & Udry 2008).
2
Para mais informações sobre o méotodo: < http://www.eso.org/sci/facilities/lasilla/instruments/harps/overview.html
>
23
Capítulo 2. Velocidade radial como forma de detectar exoplanetas
24
Apesar dos ruídos astrofísicos não serem possíveis de se retirar das medidas, alguns trabalhos, como Balan & Lahav (2008a), mostram uma modelação matemática para os dados, de modo
a levar em consideração os erros. A equação para os dados tem a forma
di = vi + ei + ,
(2.22)
em que di são os dados observados, vi é a velocidade radial teórica dada pela equação 2.15, ei é uma
componente de incerteza, que inclui os ruídos astrofísicos e considera-se que seja normalmente
distribuído, e considera qualquer erro ou incerteza que não tenha sido previsto. Esse modelo,
usado, por exemplo, em Balan & Lahav (2008a), Gregory (2005) e Feroz et al. (2011), é bastante
útil na análise Bayesiana3 , ao considerar a forma como o erro se distribui. Tuomi et al. (2012)
faz uma extensiva análise dos sinais que aparecem intrínsecos às medidas de velocidade radial
através de comparação de modelos, utilizando estatística Bayesiana, para quantificar o número de
sinais significantes e a magnitude e propriedades do ruído em excesso nos dados, para a estrela HD
10700 (τ Ceti). No trabalho, Tuomi et al. (2012) concluem que junto a um modelo de decaimento
exponencial, o ruído branco4 é o que melhor se ajusta ao ruído dos conjuntos de dados. Ajustando
os parâmetros do ruído, pode-se detectar sinais muito fracos, com amplitude menor do que 1 m.s−1 .
3
4
A análise Bayesiana, e os métodos estatísticos derivadas dela, serão explorados no próximo capítulo.
O ruído branco é um ruído aleatório que é dado por uma distribuição gaussiana e é não-correlacionado.
24
CAPÍTULO 3
MÉTODOS ESTATÍSTICOS E INFERÊNCIA
A obtenção de dados, a partir das observações e experimentos, nem sempre é o suficiente
para nos dar as informações que queremos extrair. Necessitamos, então, de ferramentas matemáticas que nos permitam analisar estatisticamente o conjunto de dados obtidos, para que possamos
extrair tais informações. Um dos motivos para se utilizar essas ferramentas se dá devido ao fato da
imprecisão ou da interferência nas medidas, que são característicos do processo de medição (Hogg
& Craig 1978). No capítulo anterior, foram mostradas as causas dessas imprecisões no caso da
velocidade radial (os ruídos astrofísicos). A análise estatística, em conjunto com os dados, nos
permite obter informações como, por exemplo, qual modelo teórico explica melhor os dados, qual
conjunto de parâmetros melhor se adequa em comparação aos dados ou quais as distribuições de
probabilidade dos parâmetros ou do modelo, em seus respectivos espaços de valores. No presente
trabalho, focaremos na inferência de parâmetros.
Nesse capítulo, mostraremos alguns métodos e análises estatísticas, e a teoria matemática
por trás delas, explicitando os casos em que funcionam e os casos em que a análise é falha. Começaremos com modelos mais simples, baseados no mínimo quadrado e máxima verossimilhança,
passando pelo teorema de Bayes e a inferência Bayesiana e, por último, mostrando métodos que se
utilizam da inferência Bayesiana.
25
Capítulo 3. Métodos estatísticos e inferência
3.1
26
Método da máxima verossimilhança e o método do χ2 mínimo
O método da máxima verossimilhança (referida, no resto do trabalho, como “likelihood”)
é um método de inferência de parâmetros, que pode ser aplicado numa grande variedade de problemas estatísticos. O método é baseado na likelihood, isto é, na função de densidade de probabilidade
(ou, para o caso discreto, na massa de probabilidade) vista como uma função dos dados, dado um
conjunto particular de parâmetros do modelo (Rice 2007).
Suponha que as variáveis aleatórias X1 , . . . , XN sejam descritas pela mesma função de
densidade de probabilidade f (x1 , x2 , . . . , xN |θ), em que θ representa o conjunto de parâmetros do
modelo. Se os Xi são independentes e identicamente distribuídas (i.i.d.), então a probabilidade conjunta será igual ao produto das densidades marginais, de modo que podemos escrever a likelihood
L(θ) como (Feigelson & Babu 2012)
L(θ) =
N
Y
f (Xi |θ) .
(3.1)
i=1
Ao invés de maximizarmos a própria likelihood, é mais fácil maximizar o seu logaritmo
natural. Para uma amostra i.i.d., o log-likelihood é
l(θ) = lnL(θ) =
N
X
lnf (Xi |θ) .
(3.2)
i=1
O método da máxima likelihood, então, irá depender da forma como as variáveis se distribuem. Cada problema poderá ter uma likelihood diferente, mas se a distribuição for correta para
o problema, maximizar a likelihood nos permitirá inferir sobre os parâmetros. Porém, conforme o
tamanho da amostra de dados vai aumentando, a distribuição amostral da média se aproxima cada
vez mais de uma distribuição normal, de acordo com o teorema do limite central1 . Isto é, para
um grande número de dados, podemos aproximar a função de distribuição de probabilidade como
1
O teorema do limite central diz que para uma sequência de variáveis aleatórias independentes com a mesma
distribuição, a distribuição pode ser aproximada por uma Gaussiana, no limite em que o tamanho amostral tende a
infinito (Feigelson & Babu 2012)
26
Capítulo 3. Métodos estatísticos e inferência
27
sendo uma gaussiana. Assim, a likelihood pode ser escrita como
L(θ) =
N
Y
i=1
"
1
1
√ exp −
2
σ 2π
yi − ŷ(xi , θ)
σi
2 #
,
(3.3)
em que yi representa o conjunto de dados, ŷ(xi , θ) representa o modelo teórico para uma determinada grandeza xi (como o tempo, por exemplo) e o conjunto de parâmetros, θ, e σi é o erro relativo
a i-ésima medida.
O método da máxima likelihood é caracterizado por convergir para o verdadeiro valor dos
parâmetros, na medida em que o número N de medidas vai aumentando. O método não possui tendência, isto é, para qualquer tamanho amostral, o parâmetro de interesse é calculado corretamente.
A estimativa tem menor variância. A solução da máxima likelihood é única. Porém, para uma boa
inferência, devemos conhecer a distribuição de probabilidade correta. Este método não funciona
muito bem para modelos com equações não-lineares, uma vez que equações não-lineares podem
ter mais de uma solução para elas, logo o método da máxima likelihood pode dar um resultado de
falso melhor ajuste dos parâmetros (Hogg & Craig 1978).
Outro método, conhecido como o método do χ2 (lê-se “qui-quadrado”) mínimo, pode ser
obtido diretamente como consequência do método da máxima likelihood. A partir da equação (3.3),
temos que maximizar a likelihood significa o mesmo que minimizar o termo da exponencial, que
chamaremos de χ2 . Assim, temos que
2
χ (θ) =
2
N X
yi − ŷ(xi , θ)
σi
i=1
.
(3.4)
Além das características do método da máxima likelihood, temos que o método do χ2
mínimo pode dar falsos resultados caso o modelo ou o erro não seja distribuído normalmente, ou
caso exista uma forte correlação entre os parâmetros do modelo (Hansen et al. 2013). Apesar disto,
o método se mostrou bem sucedido em vários problemas na física e astronomia, como, por exemplo,
a determinação de melhor ajuste e regiões de confiança dos parâmetros de densidade nos modelos
cosmológicos ΛCDM e XCDM (Teixeira 2014), e em estimação de parâmetros em astronomia de
raio-X (Lampton et al. 1976).
27
Capítulo 3. Métodos estatísticos e inferência
28
Um exemplo, para fins ilustrativos, da inferência através do método do mínimo quadrado,
na astrofísica, pode ser encontrado na figura 3.1. O problema trata de comparação de modelo e
inferência de parâmetros no estudo, através de lente gravitacional fraca, da distribuição de matéria
escura numa amostra de 30 grupos de galáxias luminosas em raio-X, com desvio para o vermelho
entre 0,15 e 0,3.2
Figura 3.1: Comparação da massa do virial estimada para os modelos SIS e NFW para cada um
dos 30 grupos de galáxias. Os pontos representam os dados observados. A linha é obtida através
do melhor ajuste dos parâmetros aplicado ao modelo teórico. O eixo horizontal representa a massa
do virial no modelo SIS (do inglês: singular isothermal sphere). O eixo vertical representa a massa
do virial no modelo NFW (Navarro-Frenk & White). (Okabe et al. 2010).
3.2
Método do mínimo quadrado não-linear
Na seção anterior, era necessário que os parâmetros aparecessem linearmente na equação
do modelo teórico. Se um ou mais dos parâmetros forem não-linear, a inferência pode dar falsos
melhores ajustes. Nesta seção, mostraremos como tratar o caso não-linear para a inferência, no
caso do mínimo quadrado.
Definimos uma função não-linear, em termos de algum parâmetro, como sendo uma função f = f (α1 , . . . , αN ) tal que ∂f /∂αi = g(αi ), para pelo menos um dos parâmetros α (caso
fosse linear, a derivada seria uma constante). Isto é, sua derivada parcial em relação a um, ou
2
Para informações mais detalhadas sobre o fenômeno físico e a forma como foi utilizado o método estatístico,
acessar o trabalho de Okabe et al. (2010)
28
Capítulo 3. Métodos estatísticos e inferência
29
mais, dos seus parâmetros será uma função do próprio parâmetro (Hansen et al. 2013). Para a inferência de parâmetros em tal modelo, vários métodos podem ser utilizados, como, por exemplo,
o método de Newton, o método do máximo declive (em inglês, steepest descent) ou o método de
Levenberg-Marquardt, que serão os três métodos abordados neste trabalho.
Da equação 3.4, podemos aproximar o valor do χ2 , tal que
2
χ (θ) =
2
N X
yi − ŷ(xi , θ)
σi
i=1
= (y − ŷ(θ))T W(y − ŷ(θ)),
(3.5)
em que y e ŷ são vetores agora, T indica a transposta do vetor, e W é uma matriz diagonal relativo
ao peso das medidas, com Wii = 1/σi2 . Se a função ŷ é não-linear em termos dos parâmetros, então
a minimização do χ2 deve ser feita através de iterações. O objetivo de cada iteração é de encontrar
uma perturbação h dos parâmetros θ que reduza o χ2 .
3.2.1
O método do máximo declive
O método do máximo declive é um método de minimização geral, no qual atualiza os
valores dos parâmetros na direção oposta ao gradiente da função do modelo. O método converge
bem para problemas com função do modelo simples. Para problemas com milhares de parâmetros,
este método é, às vezes, o único método viável (Gavin 2015).
O gradiente do χ2 em relação aos parâmetros do modelo é dado por
∂ 2
∂
χ (θ) = (y − ŷ(θ))T W (y − ŷ(θ))
∂θ
∂θ
∂ŷ(θ)
= −(y − ŷ(θ))T W
∂θ
T
= −(y − ŷ(θ)) WJ ,
(3.6)
em que J é a matriz Jacobiana m x n e representa a sensibilidade local da função do modelo a
variação dos parâmetros. Portanto, o termo de perturbação h, que atualiza os parâmetros na direção
29
Capítulo 3. Métodos estatísticos e inferência
30
do máximo declive, pode ser escrito como
hmd = αJT W(y − ŷ) ,
(3.7)
sendo α um escalar positivo que determina o tamanho do passo na direção do máximo declive.
3.2.2
Método de Newton
O método de Newton (também conhecido como método de Gauss-Newton) presume que
a função do modelo é aproximadamente quadrática nos parâmetros, na região próxima do melhor
ajuste. Para problemas de tamanhos moderados, o método de Newton converge mais rapidamente
do que o método do máximo declive (Press et al. 1997). Perturbando a função do modelo, podemos
aproximá-la localmente por uma expansão de Taylor de primeira ordem, tal que
ŷ(θ + h) ≈ ŷ(θ) +
∂ŷ
h = ŷ + Jh .
∂θ
(3.8)
Assim, substituindo ŷ(θ) na equação 3.5 e derivando χ2 em relação a perturbação, temos que
∂ 2
χ ≈ −2(y − ŷ)T WJ + 2hT JT WJ .
∂h
(3.9)
Minimizando χ2 , isto é, fazendo a derivada igual a zero, encontramos uma relação para o termo
que atualiza os parâmetros
[JT WJ]hmd = JT W(y − ŷ) .
3.2.3
(3.10)
Método de Levenberg-Marquardt
O método de Levenberg-Marquardt pode ser entendido como uma mistura do método de
Newton e o método do máximo declive. Este método consiste em variar, de acordo com a situação,
a atualização dos parâmetros entre os métodos de máximo declive e de Newton. A equação é dada
por (Lourakis 2005)
[JT WJ + λI]hlm = JT W(y − ŷ) ,
30
(3.11)
Capítulo 3. Métodos estatísticos e inferência
31
em que I é a matriz identidade e λ é um escalar. Para baixos valores de λ, temos o método de
Newton, e para altos valores de λ, temos o método do máximo declive. Computacionalmente, o
escalar λ é atualizado a cada iteração, fazendo com que o algoritmo alterne entre os dois métodos.
Se a iteração e atualização dos parâmetros resultar num χ2 pior, então o valor de λ aumenta. Enquanto que se o valor do χ2 melhorar, o valor de λ diminui. Portanto, quando os parâmetros se
encontram longe do valor de melhor ajuste, o algoritmo funciona como o método de máximo declive. E quando os parâmetros se encontram próximo do melhor ajuste, o algoritmo funciona como
o método de Newton. Essa alternância entre métodos implica num resultado mais confiável e num
tempo de computação reduzido, porém o método pode falhar, caso o ponto inicial dos parâmetros
seja muito distante da solução (Himmelblau 1972) ou caso a equação seja multimodal, fazendo
com que o resultado dado seja um mínimo local e não o mínimo global. Um exemplo do algoritmo
está disponível no livro Numerical Recipes (Press et al. 1997), em C ou Fortran.
Na figura 3.2, temos um exemplo do método, utilizado na detecção de exoplanetas através do método de velocidade radial. O método de Levenberg-Marquardt não é muito confiável
nesta análise, uma vez que a equação é multimodal, portanto se faz necessário o auxilio de outra
ferramenta. Neste caso, é utilizado um periodograma de Lomb-Scargle3 .
Figura 3.2: Exemplo do método de Levenberg-Marquardt aplicado ao problema da velocidade
radial na detecção de exoplanetas. Em ambos, temos a representação da velocidade radial com
excentricidade e = 0.5, em que foi (gráfico de cima) e não foi (gráfico de baixo) detectado planeta.
A linha pontilhada representa a órbita verdadeira e a linha sólida representa a órbita no melhor
ajuste dos parâmetros. O χ2 nos dois casos é menor para a curva sólida. (Cumming 2004).
3
O periodograma de Lomb-Scargle é uma ferramenta computacional para determinar ciclos e períodos em uma
série temporal. Uma análise detalhada pode ser encontrada no trabalho de Zechmeister & Kürster (2009).
31
Capítulo 3. Métodos estatísticos e inferência
3.3
32
Teorema de Bayes e a inferência Bayesiana
Do estudo da probabilidade, se tivermos dois eventos, A e B, de um mesmo espaço amos-
tral, Ω, a probabilidade condicional do evento A, dado o evento B é definido (Rice 2007) como
P (A|B) =
P (A ∩ B)
,
P (B)
(3.12)
em que P (A|B) é a probabilidade de A, dado B, P (A ∩ B) é a probabilidade da interseção entre
A e B, e P (B) é a probabilidade do evento B. Como consequência da equação 3.12, obtemos a lei
da multiplicação, dada por
P (A ∩ B) = P (A|B)P (B) ,
(3.13)
e pode ser generalizada para n eventos, tal que
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 ) . . . P (An−1 |A1 , . . . , An−2 )
×P (An |A1 , . . . , An−1 ) .
(3.14)
Consideremos B1 , B2 , . . . , Bn como sendo partições do espaço amostral Ω, isto é, a união
de todos os Bi é igual ao próprio Ω e Bi ∩ Bj = 0 para i 6= j. Então, a lei da probabilidade total
nos diz que, para um evento A, teremos
P (A) =
n
X
P (A|Bi )P (Bi ) .
(3.15)
i=1
Dos resultados das equações 3.14 e 3.15, podemos, então, escrever o teorema de Bayes
da forma
P (A|Bj )P (Bj )
P (Bj |A) = Pn
.
i=1 P (A|Bi )P (Bi )
(3.16)
Esse teorema é aplicável a qualquer forma de probabilidade e evento. Estatística Bayesiana moderna adota uma interpretação particular dessas probabilidades, sendo usada na inferência Bayesiana (Feigelson & Babu 2012).
O teorema de Bayes pode ser reescrito para funções de densidade de probabilidade, sem
32
Capítulo 3. Métodos estatísticos e inferência
33
que haja perda de informação ou generalização (Andreon & Weaver 2015). Substituindo A por um
observável (ou conjunto de dados) D, e B por um vetor de parâmetros θ, temos que a equação 3.16
toma a forma
P (θ|D) =
P (D|θ)P (θ)
,
P (D)
(3.17)
em que cada termo da expressão tem uma importância específica. P (θ|D) é a probabilidade condicional do vetor de parâmetros θ, dado o conjunto de dados D. Esse termo é chamado de probabilidade posteriori. P (D|θ) é a probabilidade condicional do observável D, dado θ, e é chamado de
função de likelihood. O termo P (θ) é a probabilidade marginal do vetor de parâmetros, também
chamado de informação a priori. E o termo P (D) é a probabilidade marginal do conjunto de
dados D, chamado de evidência.
A informação a priori será a distribuição como se acredita ou como dados coletados anteriormente nos leva a crer que tal modelo ou parâmetros sejam distribuídos. Encontrar a forma
correta da informação (ou distribuição) a priori é uma das principais dificuldades deste método
(Wilkinson 2000) . Outra dificuldade se encontra na análise computacional para modelos teóricos
complexos. O uso de ferramentas computacionais junto a inferência Bayesiana se faz necessário
para a simplificação do problema. O método de Monte Carlo via cadeia de Markov e o Nested
Sampling são dois exemplos de ferramentas estatísticas que facilitam a computação e a inferência
dos parâmetros. Ambos são abordados neste trabalho.
A likelihood, já discutida na seção 3.1, em geral apresenta uma forma simples, como
a de uma distribuição Gaussiana ou de Poisson. Porém, problemas mais complexos, em que a
equação tenha muitas variáveis, seja altamente não-linear ou apresente uma função de likelihood
multimodal, possuem funções de likelihood muito difíceis de definir (Feigelson & Babu 2012).
Alguns métodos ainda mais avançados de inferência estatística são capazes de resolver esses casos,
como um caso generalizado do Nested Sampling. Porém, a análise deste modelo generalizado
encontra-se fora do escopo do trabalho.
A evidência, ou a probabilidade marginal do conjunto de dados X, é a probabilidade
apenas dos dados. É o foco principal do Nested Sampling, que será discutido na seção 3.5, em que
se usa a evidência para inferência de parâmetros, determinar média e desvio padrão, e comparação
de modelos.
33
Capítulo 3. Métodos estatísticos e inferência
34
A distribuição posteriori quantifica o que sabemos dos parâmetros depois de termos observado o conjunto de dados. Se a distribuição posteriori tiver um pico bem definido, então os
parâmetros foram bem estimados. Se for uma função sem ou com vários picos, então os parâmetros foram mal estimados ou com um grau de incerteza grande (Andreon & Weaver 2015).
A inferência Bayesiana tem sido utilizada com sucesso no contexto da obtenção de parâmetros orbitais através dos dados de velocidade radial. Como, por exemplo, os trabalhos de Balan
& Lahav (2008a), Gregory (2005) e Brewer & Donovan (2015).
3.4
Método de Monte Carlo via cadeia de Markov (MCMC)
A inferência Bayesiana é uma poderosa ferramenta para determinação de parâmetros.
Contudo, para modelos mais complexos, a computação vai se tornando muito difícil e longa. Para
resolvermos este problema, podemos fazer uso do método de Monte Carlo via cadeia de Markov
(MCMC, do inglês: Markov Chain Monte Carlo). O MCMC tem sido bastante explorado recentemente, devido aos avanços computacionais e a sua aplicação na inferência Bayesiana. Este método
tem sido utilizado com sucesso na detecção de exoplanetas e na inferência de seus parâmetros orbitais (Gregory 2006), e na reinterpretação dos dados de velocidade radial (Balan & Lahav 2008a).
Na seção anterior, vimos que a distribuição posteriori era dada pela equação 3.17. A partir
dela, temos que o valor esperado posterior de uma função f (θ) será dada por
R
E[f (θ)|D] =
f (θ)P (θ)P (D|θ)dθ
R
,
P (θ)P (D|θ)dθ
(3.18)
em que E[.] é o valor esperado, em que o ponto significa um argumento qualquer. A integral acima
tem sido, até recentemente, uma das maiores dificuldades na inferência Bayesiana. Na maioria das
aplicações, a avaliação analítica do valor esperado era impossível (Gilks et al. 1997). O MCMC é
um dos métodos de se resolver a integral para os casos mais complexos ou com alta dimensionalidade. Para evitar confusão entre termos, reescreveremos a equação 3.18 de uma forma mais geral.
Chamaremos de X um vetor de k variáveis aleatórias, com distribuição π(.). Em termos práticos,
X será os parâmetros do modelo e π(.) será a distribuição posteriori. Assim, a equação 3.18 toma
34
Capítulo 3. Métodos estatísticos e inferência
35
a forma
R
E[f (X)] =
f (x)π(x)dx
R
.
π(x)dx
(3.19)
A equação acima presume que X seja composta de variáveis aleatórias contínuas. Porém, para o
caso discreto, a integral é substituída por um somatório.
A integração de Monte Carlo consiste em retirar amostras das distribuições necessárias e
então aproximar os valores esperados das médias amostrais. Neste caso, para avaliarmos E[f (X)],
retiramos amostras {Xt , t = 1, . . . , n} de π(.) e, então, estimamos a média populacional de f (X)
pela média amostral. Assim, temos que
n
1X
f (Xt ) .
E[f (X)] ≈
n t=1
(3.20)
Uma forma de gerar as amostras {Xt } é através de uma cadeia de Markov, em que π(.) seja sua
distribuição estacionária. Esse é o chamado método de Monte Carlo via Cadeia de Markov.
Se gerarmos uma sequência de variáveis aleatórias, {X0 , X1 , . . . }, tal que para cada tempo
t ≥ 0, o próximo estado Xt+1 será retirado de uma distribuição P (Xt+1 |Xt ), que depende apenas
do estado presente da cadeia. Isto é, o estado futuro da cadeia independe dos estados passados
e, consequentemente, da história da cadeia (Wilkinson 2000). Iremos presumir que a cadeia seja
homogênea no tempo, ou seja, P (.|.) não depende de t.
Sujeita a condições regulares e dado que a memória da cadeia só depende do valor presente
(uma cadeia com memória de curto prazo), a cadeia irá, eventualmente, “esquecer” o seu estado
inicial X0 e irá convergir para uma distribuição estacionária (ou invariante) única, que denotaremos
por φ(.). Portanto, conforme t aumenta, os pontos das amostras {Xt } irão parecer como amostras
dependentes de φ(.). Para evitar contaminação dos dados devido as amostras iniciais, devemos descartar esses pontos. Assim, podemos estimar o valor esperado E[f (X)], em que X terá distribuição
φ(.) (Gilks et al. 1997). Se forem descartados m pontos, temos que o valor esperado será dado por
f¯ =
n
X
1
f (Xt ) ,
n − m t=m+1
que é chamada de média ergódica.
35
(3.21)
Capítulo 3. Métodos estatísticos e inferência
36
Para a análise computacional, dois algoritmos se destacam no MCMC: o algoritmo de
Metropolis-Hastings e o Amostrador de Gibbs, como veremos a seguir.
3.4.1
Algoritmo de Metropolis-Hastings
Sabendo como calcular o valor esperado, precisamos construir uma cadeia de Markov, em
que a distribuição estacionária φ(.) seja precisamente a nossa distribuição de interesse, chamada
de distribuição alvo, π(.). O algoritmo foi descrito por Hastings (1970), que é uma generalização
do método inicialmente proposto por Metropolis et al. (1953), e propõe uma forma genérica de se
construir uma cadeia de Markov para X, que seja ergódica e estacionária em relação a π(.). Um dos
motivos para a escolha deste algoritmo é a sua simplicidade, sua versatilidade e pela diminuição no
tempo de computação (Robert 2015).
No algoritmo, para cada tempo t, o estado seguinte Xt+1 é escolhido, primeiramente,
através de uma amostra de um ponto candidato, Y , retirado de uma distribuição proposta, q(.|Xt ).
Perceba que a distribuição proposta pode depender do valor atual Xt . O ponto candidato Y é, então,
aceito com probabilidade α(Xt , Y ), em que
π(Y )q(X|Y )
α(X, Y ) = min 1,
,
π(X)q(Y |X)
(3.22)
min é uma função computacional que retorna o menor número em seu argumento. Se o candidato
for aceito, então a cadeia se move e o próximo estado se torna Xt+1 = Y . Se o candidato for
rejeitado, a cadeia não se move, isto é, Xt+1 = Xt . A distribuição proposta, q(.|.), pode ter
qualquer forma e a distribuição estacionária da cadeia será π(.) (Gilks et al. 1997).
Assim, podemos escrever o algoritmo de Metropolis-Hastings da seguinte forma:
1. Iniciar o contador de iteração j = 1, e iniciar a cadeia em X0 ;
2. Gerar um valor proposto Y a partir de q(.|Xt );
3. Avaliar a probabilidade de aceitação α(Xt−1 , Y ) do valor proposto;
4. Faça Xt = Y com probabilidade α(Xt−1 , Y ), ou faça Xt = Xt−1 , caso contrário;
36
Capítulo 3. Métodos estatísticos e inferência
37
5. Mude o contador de j para j + 1 e retorne ao passo 2.
No caso especial em que a distribuição proposta seja simétrica, isto é, em que q(X|Y ) =
q(Y |X), a equação 3.22 pode ser reduzida à
π(Y )
α(X, Y ) = min 1,
π(X)
.
(3.23)
Outros exemplos de casos especiais são: O primeiro, chamado de Caminhada aleatória de Metropolis, considera q(Y |X) = q(|X − Y |) (Robert 2015); o segundo, de cadeias independentes, a transição proposta é formada independentemente da posição anterior na cadeia, tal que q(X|Y ) = f (Y )
e q(Y |X) = f (X); o terceiro é uma cadeia híbrida, em que o algoritmo de Metropolis-Hastings
é trabalhado em conjunto com o amostrado de Gibbs (que será mostrado na próxima seção). O
segundo caso pode ser trabalhado dentro do contexto da inferência Bayesiana, em que ao invés de
fazermos π(Y )/π(X) na equação 3.23, substituímos por L(Y )/L(X), ou seja, depende apenas da
razão entre as likelihoods do ponto candidato e do ponto atual (Wilkinson 2000).
A figura 3.3 apresenta um exemplo do MCMC aplicado a velocidade radial para determinação dos parâmetros orbitais da estrela HD 73526. Temos um conjunto de sete gráficos, em
que cada um contém a forma da cadeia após as iterações, após a remoção dos pontos iniciais das
cadeias. Percebe-se que, apesar do caráter aleatório da cadeia, ela permanece dentro de uma faixa
de valores. Essa faixa corresponde a região de maior probabilidade. A figura 3.4 mostra a distribuição posteriori dos parâmetros orbitais. Comparando as duas figuras, vemos que a região de maior
probabilidade da cadeia é exatamente a mesma da distribuição posteriori. As distribuições a priori
utilizadas para os parâmetros foram mostrados por Balan & Lahav (2008a) e Gregory (2005) como
sendo: Jeffrey’s prior4 , para T (ou P , como também é denotado o período); Jeffrey’s modificado5 ,
para K e s (termo relativo aos erros das medidas); e uniforme para o resto dos parâmetros. Nas
figuras, os parâmetros aparecem na ordem, da esquerda para a direita e de cima para baixo: P (d),
K(ms−1 ), V (ms−1 ), χ, e, ω(rad) e s(ms−1 ).
1
Jeffrey’s Prior: Nesse contexto, essa distribuição é dada por T ln(Tmax
/Tmin )
5
Jeffrey’s Modificado: Nesse contexto, essa distribuição é dada por (K+Ka ) ln((K1a +Kmax )/K0 )
4
37
Capítulo 3. Métodos estatísticos e inferência
38
Figura 3.3: Comparação das iterações MCMC após o descarte dos pontos iniciais. Os parâmetros
são de uma análise Bayesiana de dados de velocidade radial para detecção de exoplanetas e inferência dos parâmetros orbitais. O eixo horizontal representa o número de iterações e o eixo vertical
representa o valor do parâmetro (Gregory 2005).
Figura 3.4: Distribuição posteriori dos parâmetros orbitais da estrela HD 73526. Cada distribuição
tem apenas um pico no ponto de melhor ajuste do parâmetro. O eixo horizontal representa o valor
do parâmetro e o eixo vertical o valor da sua função de densidade de probabilidade (Gregory 2005).
38
Capítulo 3. Métodos estatísticos e inferência
3.4.2
39
Amostrador de Gibbs
O amostrador de Gibbs é uma forma de simular a partir de distribuições multivariadas
baseada na capacidade de simular a partir de distribuições condicionais. Isto é, quando X é tal que
Xt = (Xt1 , Xt2 , . . . , Xtk ), em que k > 1. A ideia básica por trás do amostrador de Gibbs é que, ao
invés de retirarmos um candidato para o próximo estado de uma vez, fazemos de forma separada,
para cada uma das k dimensões de X, em que cada escolha dependerá das outras k − 1 dimensões
(Resnik & Hardisty 2010).
Considerando que a densidade de interesse seja π(Xt ), em que Xt = (Xt1 , Xt2 , . . . , Xtk ),
podemos escrever o algoritmo como sendo:
1. Iniciar o contador de iteração j = 1. Iniciar o primeiro estado da cadeia X0 = (X01 , X02 , . . . , X0k )
com os valores iniciais da cadeia;
2. Obtenha um novo valor Xt , a partir de Xt−1 , por sucessivas gerações de valores:
k
2
)
, . . . , Xt−1
Xt1 ∼ π(X 1 |Xt−1
k
3
)
, . . . , Xt−1
Xt2 ∼ π(X 2 |Xt1 , Xt−1
..
.
Xtk ∼ π(X k |Xt1 , Xt2 , . . . , Xtk−1 )
3. Mude o contador j para j + 1 e volte ao passo 2.
Durante a iteração, os novos valores são utilizados assim que obtidos. Ou seja, após obtermos Xt1 , o valor de Xt2 será retirado da distribuição já considerando o valor novo de Xt1 , e Xt3 será
retirado considerando os valores novos de Xt1 e Xt2 . Esse algoritmo define uma cadeia de Markov
homogênea, uma vez que cada valor simulado depende apenas do valor simulado anteriormente, e
não em qualquer outro valor simulado ou no contador de iteração j (Wilkinson 2000).
Existem, hoje, vários softwares que fazem análise de dados e retornam a distribuição posteriori, baseados no amostrador de Gibbs. Alguns deles, disponíveis gratuitamente, são: JAGS6 ,
WinBUGs7 e OpenBUGS8 .
6
JAGS: Disponível para download em: http://mcmc-jags.sourceforge.net
WinBUGs: Disponível para download em: http://www.mrc-bsu.cam.ac.uk
8
OpenBUGS: Disponível para download em: http://www.openbugs.net
7
39
Capítulo 3. Métodos estatísticos e inferência
40
O amostrador de Gibbs pode ser usado em conjunto com o algoritmo de MetropolisHastings, como dito na subseção anterior. Cada valor novo das componentes de X precisaria
ser avaliado e ser aceito ou rejeitado, de acordo com o algoritmo de Metropolis-Hastings. A figura
abaixo mostra uma ilustração para o caso desses dois algoritmos em conjunto para dois parâmetros,
X.1 e X.2 . Os parâmetros seguem a distribuição π(.) e iniciam no estado X0 . Podemos observar que
os estados se movem, dentro do espaço dos parâmetros, em uma direção de cada vez, característico
do amostrador de Gibbs. Pode-se perceber, também, que temos passos que foram rejeitados, fazendo com que a cadeia não se movesse, que é característico do algoritmo de Metropolis-Hastings.
Fazendo com que haja essa alternância na atualização dos parâmetros, a cadeia converge de forma
mais confiável para o melhor ajuste dos parâmetros.
Figura 3.5: Ilustração do amostrador de Gibbs junto do algoritmo de Metropolis-Hastings, para
uma distribuição alvo bivariada. Componentes 1 e 2 são atualizados alternadamente, produzindo
movimentos alternados na vertical e na horizontal
3.5
Nested Sampling
Ao realizar uma análise Bayesiana, dois problemas difíceis emergem. Primeiro, na estima-
tiva de parâmetros em que a distribuição posteriori seja multimodal ou apresente degenerescência.
Segundo, na escolha de possíveis modelos teóricos para o problema (Feroz & Skilling 2013). O
40
Capítulo 3. Métodos estatísticos e inferência
41
Nested Sampling, desenvolvido pelo físico John Skilling (2004), é uma forma contemporânea do
método de Monte Carlo que foca no cálculo eficiente da evidência, mas que ainda permite a inferência posteriori como consequência, dando meios de avaliar tanto a estimação de parâmetros,
quanto a escolha de modelo (Feroz et al. 2014).
A evidência, mostrada inicialmente na equação 3.17, no caso de variáveis aleatórias contínuas, é dada por
Z
Z=
L(θ)π(θ)dθ ,
(3.24)
em que, agora, a evidência será denotada por Z, L(.) é a função de likelihood, π(.) é densidade a
priori e θ é o vetor de parâmetros de interesse. A evidência engloba a chamada navalha de Occam,
isto é, um modelo menos complexo (com menos parâmetros ajustáveis) que se ajusta bem aos dados
será preferido, ao invés de um modelo mais complexo (Pullen & Morris 2014).
A escolha de modelo pode ser feita através da avaliação da densidade posteriori. Para dois
modelos, H1 e H0 , temos que
β=
P r(D|H1 )P r(H1 )
Z1 P r(H1 )
=
,
P r(D|H0 )P r(H0 )
Z0 P r(H0 )
(3.25)
em que β é chamado de fator de Bayes. Se os modelos forem equiprováveis, ou não haja nenhuma
informação que favoreça qualquer um dos dois modelos, podemos fazer P r(H1 )/P r(H0 ) = 1.
Assim, a comparação entre modelos pode ser facilmente calculada, uma vez que soubermos as suas
respectivas evidências.
Definindo a massa cumulativa a priori como
Z
X(λ) =
π(θ)dθ ,
(3.26)
L(θ)>λ
temos que X(λ) irá cair de 1 à 0, enquanto λ cresce. Assim, a integral da evidência é transformada
de um espaço de parâmetro multidimensional para um espaço unidimensional, tal que
Z
Z=
1
L(X)dX .
(3.27)
0
Se a likelihood, L(X), for conhecida (e integrável à Riemann), ao avaliarmos as likelihoods, Li =
41
Capítulo 3. Métodos estatísticos e inferência
42
L(Xi ), para uma sequência determinística de valores de X
0 < XM < · · · < X2 < X1 < X0 < 1 ,
(3.28)
então, a evidência pode ser aproximada numericamente usando apenas métodos de quadratura
(Evans 2006), tal que
Z ≈ Ẑ =
M
X
Li ωi ,
(3.29)
i=1
com ωi sendo o peso e dado por ωi = 1/2(Xi−1 − Xi+1 ) ou ωi = Xi − Xi+1 . M é o número total
de pontos.
A figura 3.6 mostra a relação inversa entre L e X. A máxima likelihood pode ser vista
como o caso em que X tende a zero, assim como L vai para zero quando X tende a um. Podemos
justificar a utilização do método da quadratura para aproximar a evidência devido ao fato de ser
uma função contínua e dada pela área abaixo da curva.
Figura 3.6: Representação da integral dada pela equação 3.27, mostrando a relação inversa entre a
likelihood e a massa cumulativa a priori (Skilling 2004).
O somatório na equação 3.29 pode ser resolvido da seguinte forma. Primeiro, N pontos
’ativos’ são retirados uniformemente da distribuição a priori, π(θ), e o volume a priori inicial, X0 ,
é definido como igual a um. Em cada iteração i subsequente, o ponto com a menor likelihood é
removida do conjunto ativo de pontos e substituído por outro ponto, que é retirado uniformemente
da distribuição a priori. Porém, com a condição de que sua likelihood seja maior do que a likelihood
42
Capítulo 3. Métodos estatísticos e inferência
43
do ponto no qual ele está substituindo (Jing 2009). O volume a priori contido dentro da região na
i-ésima iteração é uma variável aleatória dado por Xi = ti Xi−1 , em que ti segue a distribuição
P r(t) = N tN −1 . Esse processo é repetido até que o volume inteiro tenha sido atravessado. Como
cada valor de log t é independente, depois de i iterações o volume a priori irá se reduzir a log Xi ≈
√
exp(−(i i)/N ) (Feroz & Skilling 2013). Portanto, podemos fazer
Xi = exp(−i/N ) .
(3.30)
O valor médio e o desvio padrão dos parâmetros são dados, respectivamente, por (Aitken
& Akman 2013):
µθ =
M
X
ωi Li
i=1
Z
θi ,
e
σθ =
M
X
ω i Li
i=1
Z
(3.31)
!1/2
θi2 − µ2θ
.
(3.32)
O algoritmo básico para uma análise por Nested Sampling pode feito da seguinte forma:
1. Retire N amostras no espaço dos parâmetros θ 1 , . . . , θ N da distribuição a priori π(θ);
2. Ache o ponto θ l com a menor likelihood da sequência atual de N pontos θ 1 , . . . , θ N , e faça
Li = L(θ l );
3. Faça Xi = exp(−i/N ) ou retire uma amostra ti com P (t) = N tN −1 e faça Xi = ti Xi−1 ;
4. Faça ωi = Xi−1 − Xi ou ωi = (Xi−1 − Xi+1 )/2 (caso tenha obtido Xi através da amostra
de ti );
5. Atualize Z, tal que Zi = Zi−1 + ωi Li ;
6. Retire um ponto θ k de π(θ) com restrição de que L(θ k ) > Li , e, então, substitua o valor de
θ l por θ k
7. Volte ao passo 2 e repita passos 2-6 até terminação;
8. Atualize Z com adição dos pontos ativos, XN (L(θ 1 ) + · · · + L(θ N )/N
43
Capítulo 3. Métodos estatísticos e inferência
44
O último passo é baseado na consideração de efeitos de borda (Skilling 2006). A condição de
terminação da repetição dos passos 2-6 é através do valor da atualização no passo 5. Se o valor
ωi Li for muito pequeno em relação a Zi−1 , então a repetição pode ser terminada, pois iterações
seguintes não irão contribuir mais de forma significante para o valor da evidência (Pullen & Morris
2014).
Uma das dificuldades principais da computação se encontra na amostragem. Nem sempre
será possível retirar uma amostra θ k de π(θ) que satisfaça a restrição L(θ k ) > Li . Mesmo quando
possível, após um certo número de iterações, a likelihood vai se aproximando do valor máximo, o
que torna o processo de computação cada vez mais lenta, para encontrar uma amostra que satisfaça
a condição de restrição. Uma possível solução a esse problema é de transformar a distribuição a
priori numa distribuição uniforme e usar MCMC para explorar um novo ponto (Jing 2009).
A figura 3.7 ilustra como o método funciona. Com três pontos ativos, temos, na imagem
da direita, que a cada passo, o ponto que tem menor likelihood é removido do conjunto e substituído
por um outro ponto que tem likelihood maior. Na imagem da esquerda (que representa o espaço
dos parâmetros), vemos como essas substituições, em cada passo da imagem da direita, levam cada
vez mais ao valor real dos parâmetros. Ao topo da imagem da direita, temos o conjunto de todos
os pontos utilizados, os pontos ativos que sobraram e os pontos que foram descartados.
Figura 3.7: Exemplo de um procedimento utilizando Nested Sampling para N = 3. Em cada
passo, um ponto é substituído e o estado seguinte se aproxima cada vez mais do melhor ajuste dos
parâmetros. Os contornos de likelihood diminuem por um fator de exp(−1/3) em área (Skilling
2006).
44
Capítulo 3. Métodos estatísticos e inferência
45
No contexto da astrofísica, para velocidades radiais estelares, o trabalho de Feroz et al.
(2011) mostra uma análise utilizando o Nested Sampling. A figura 3.8, retirada do referido trabalho,
ilustra a curva de velocidade radial para um sistema de três planetas, da estrela HD 37124 (figura
de cima). E a figura de baixo mostra o mesmo método sendo utilizado para um sistema com seis
planetas, da estrela HD 10180. Ambas as figuras mostram a robustez do método para detecção e
inferência de parâmetros de sistemas multi-planetários.
Figura 3.8: Medidas de velocidade radial, com barras de erro de 1σ, e a curva obtida através do
melhor ajuste dos parâmetros, inferidos pelo Nested Sampling, para a estrela HD 37124 (imagem
de cima) e para a estrela HD 10180 (imagem de baixo). O eixo horizontal representa o tempo em
que as medidas foram feitas e é medida em dias Julianos. O eixo vertical representa a variação da
velocidade radial (Feroz et al. 2011).
45
CAPÍTULO 4
SIMULAÇÕES E RESULTADOS
No capítulo 2, desenvolvemos a teoria física por trás da velocidade radial, no contexto
de detecção de exoplanetas e determinação dos parâmetros orbitais. No capítulo 3, estudamos as
ferramentas matemáticas e estatísticas para a análise de dados e inferência de parâmetros. Nesse
capítulo, iremos utilizar três das ferramentas estatísticas, o método do χ2 mínimo, MCMC e Nested
Sampling, em três casos de interesse físico e matemático: A equação linear, funções senoidais e
a velocidade radial. Os casos são desenvolvidos na ordem do mais simples ao mais complexo. A
escolha destes casos foi feita de modo que possamos nos aproximar gradativamente ao caso de
interesse. Nos dois primeiros casos, serão utilizados dados simulados, em que teremos a função de
interesse mais um ruído, gerado pela amostragem de uma distribuição previamente escolhida. No
último caso, utilizaremos dados reais de velocidade radial.
A simulação dos dados é feita através da equação que queremos trabalhar. Definimos
valores “reais” dos parâmetros que serão ajustados nos testes estatísticos. Após a definição da
equação e dos valores reais dos parâmetros, adicionamos um termo de ruído, fazendo amostragens
aleatórias de distribuições. O teste estatístico tentará recuperar os valores reais dos parâmetros,
uma vez que os valores da função estarão contaminados pelo ruído.
Temos, então, como objetivos: mostrar como cada método funciona, inferir o melhor
ajuste dos parâmetros para cada caso, mostrar os gráficos obtidos através do melhor ajuste dos
46
Capítulo 4. Simulações e resultados
47
parâmetros e explicitar as limitações dos métodos estatísticos apresentados. Para isso, fazemos uso
de algoritmos de autoria própria, utilizando a linguagem R1 . Tais algoritmos estarão disponíveis
em breve na página do NAOS Astronomy2 .
4.1
Equação linear
Uma equação linear é a equação que tem a forma
y(x) = ax + b .
(4.1)
Se recebemos um conjunto de dados, ou ao simularmos estes dados, e tentarmos ajustar esses
dados com uma equação linear, teremos dois parâmetros ajustáveis, a e b. Em todas as situações e
métodos estatísticos, nesse trabalho, o número de pontos simulados é de N = 50.
Em cada um dos métodos estatísticos, trabalharemos com diferentes situações. Mostrando,
por exemplo, como a presença do ruído influencia no teste, quais as limitações que a adição do ruído
causa ou como modular o ruído, adicionando-o no modelo teórico, para um precisão melhor dos
dados, assim como mostrado na equação 2.22 para o caso da velocidade radial.
4.1.1
Método do χ2 mínimo
A análise foi feita em cima de uma equação linear com ruídos dados por distribuições
uniforme, em que todos são equiprováveis, e gaussiana, em que os valores serão centrados num
valor médio. Os valores reais dos parâmetros, escolhidos de forma arbitrária, são a = 5 e b = 10.
A ordem de grandeza do ruído tem um papel muito importante no ajuste dos parâmetros.
Se a ordem de grandeza do ruído for maior que a ordem de grandeza do valor “puro” das medidas,
o teste não será capaz de ajustar os parâmetros de forma satisfatória. As figuras 4.1 e 4.2, mostram
justamente os casos em que os ruídos têm ordem de grandeza da ordem do valor puro das medidas
1
Disponível gratuitamente para download em: < https://www.r-project.org >
NAOS astronomy é o Núcleo de Astrofísica Observacional e Astroestatística da Universidade Federal do Rio
Grande do Norte, cujo site pode ser acessado através do endereço: < http://naosastronomy.com > .
2
47
Capítulo 4. Simulações e resultados
48
e quando a ordem de grandeza dos ruídos é maior.
O algoritmo gera valores aleatórios para os ruídos, de modo que toda vez que o programa
é executado, o ruído terá um valor diferente. Portanto, para ilustrar melhor a influência da ordem
de grandeza do ruído, executamos o programa dez vezes. O valor do melhor ajuste, para cada caso,
se encontra nas tabelas 4.1 e 4.2.
Figura 4.1: Simulação do teste do χ2 mínimo com ruído uniforme. Os valores máximos e mínimos
das distribuições uniforme são, respectivamente, 5 e −5 (figura da esquerda) e 20 e −20 (figura da
direita). O melhor ajuste dos parâmetros é de a = 5, 1 e b = 9, 7 (figura da esquerda) e a = 6, 2 e
b = 7, 4 (figura da direita). A linha representa a função no melhor ajuste dos parâmetros.
Mesma ordem de grandeza
a = 5, 1 b = 9, 7
a = 4, 9 b = 9, 9
a = 5, 0 b = 9, 7
a = 4, 8 b = 11, 0
a = 5, 1 b = 9, 1
a = 5, 0 b = 9, 5
a = 5, 1 b = 9, 7
a = 5, 3 b = 9, 5
a = 4, 9 b = 10, 1
a = 5, 4 b = 9, 2
Ordem de grandeza maior
a = 6, 2 b = 7, 4
a = 4, 7 b = 13, 4
a = 6, 5 b = 6, 3
a = 6, 5 b = 7, 2
a = 7, 5 b = 2, 3
a = 5, 9 b = 6, 8
a = 2, 2 b = 15, 5
a = 4, 8 b = 7, 6
a = 5, 8 b = 6, 9
a = 2, 4 b = 15, 4
Tabela 4.1: Comparação entre os melhores ajustes para diferentes ordens de grandeza dos ruídos,
para o ruído uniforme. Podemos perceber que o desvio padrão nos melhores ajustes no primeiro
caso (ruído da mesma ordem de grandeza) é menor do que no segundo caso (ruído com ordem de
grandeza maior). Quanto maior for o valor do ruído, em comparação ao valor “puro” das medidas,
menor é a confiança dos ajustes.
48
Capítulo 4. Simulações e resultados
49
Figura 4.2: Simulação do teste do χ2 mínimo com ruído gaussiano. Os valores médios e desvios
padrão das distribuições são, respectivamente, 0 e 5 (figura da esquerda) e 0 e 20 (figura da direita).
O melhor ajuste dos parâmetros é de a = 4, 9 e b = 9, 6 (figura da esquerda) e a = 3, 4 e b = 16, 3
(figura da direita). A linha representa a função no melhor ajuste dos parâmetros.
Mesma ordem de grandeza
a = 4, 9 b = 9, 6
a = 5, 3 b = 9, 3
a = 4, 7 b = 11, 0
a = 5, 2 b = 9, 8
a = 5, 0 b = 10, 0
a = 4, 9 b = 9, 4
a = 5, 4 b = 10, 0
a = 5, 2 b = 9, 3
a = 5, 4 b = 8, 6
a = 4, 4 b = 11, 2
Ordem de grandeza maior
a = 2, 5 b = 12, 3
a = 4, 7 b = 11, 4
a = 6, 7 b = 1, 4
a = 2, 3 b = 13, 1
a = 2, 9 b = 18, 0
a = 5, 8 b = 3, 7
a = 3, 8 b = 10, 3
a = 6, 4 b = 9, 1
a = 6, 1 b = 5, 2
a = 5, 2 b = 11, 0
Tabela 4.2: Comparação entre os melhores ajustes para diferentes ordens de grandeza dos ruídos,
para ruído gaussiano. Podemos perceber que o desvio padrão nos melhores ajustes no primeiro
caso é menor do que no segundo caso. Ilustrando, assim, como a ordem de grandeza do ruído
atrapalha na inferência dos parâmetros.
Podemos ver, através das figuras e tabelas 4.1 e 4.2, que o método do χ2 mínimo consegue satisfatoriamente ajustar os parâmetros no caso de uma função linear. Porém, se a ordem de
grandeza do ruído na medida for muito grande, em comparação ao valor “puro” da medida, temos
que o teste não é mais tão confiável, sendo preferido alguma técnica mais robusta para analisar os
dados. Podemos também observar que a média, para os casos em que o ruído é da mesma ordem
de grandeza e nos casos em que a ordem de grandeza do ruído é maior, converge para o valor real
dos parâmetros. De modo que o problema do excesso de ruído pode ser solucionado aumentando o
49
Capítulo 4. Simulações e resultados
50
número de de medidas ou o número de inferências realizadas, em acordo com o Teorema do Limite
Central.
4.1.2
Método de Monte Carlo via Cadeia de Markov
Na análise feita através do método MCMC, nosso objetivo será mostrar, para o único caso
em que o ruído é gaussiano, o melhor ajuste dos parâmetros, a linha obtida no melhor ajuste, a
cadeia Markoviana e as distribuições posteriori dos parâmetros de interesse. Serão analisados dois
casos, em que cada um terá uma distribuição a priori diferente para alguns parâmetros, para o estudo
de como a distribuição a priori pode, ou não, influenciar na obtenção da distribuição estacionária.
Os valores reais dos parâmetros são de a = 5 e b = 10, enquanto que o ruído gaussiano é dado com
média µ = 0 e desvio padrão σ = 5. O desvio padrão do ruído, nesta análise, também entra como
uma variável ajustável, e o valor do seu melhor ajuste também será explicitado.
A figura 4.3 representa o melhor ajuste para o caso em que as distribuições a priori dos
três parâmetros são dadas por distribuições uniforme, com mínimo igual a 0, 1 e máximo igual a
50. Na figura 4.4, temos a cadeia Markoviana e a distribuição posteriori de cada parâmetro. O valor
inicial da cadeia é de a = 25, b = 15 e σ = 10. O algoritmo realiza 50000 iterações, em que, após
a terminação do programa, rejeitamos os dados iniciais para evitar contaminação. A rejeição de
dados, para a obtenção da distribuição estacionária, é de 80% dos pontos.
Figura 4.3: Melhor ajuste através do MCMC para distribuições a priori uniforme. Os valores
dos parâmetros no melhor ajuste é a = 5, 10, b = 8, 97 e σ = 6, 12, com desvio padrão de,
respectivamente, 0, 70, 1, 53 e 0, 77.
50
Capítulo 4. Simulações e resultados
51
Figura 4.4: À esquerda, temos as cadeias Markovianas para os três parâmetros de interesse. Enquanto que na direita, temos as suas distribuições posteriori. Em que, em ambos os casos, var1
representa a, var2 é a variável b e var3 é σ. Podemos ver, nas distribuições posteriori, que temos
um pico bem definido para cada parâmetro. Podemos também perceber que, apesar do caráter
aleatório, os valores na cadeia giram em torno do valor real dos parâmetros.
51
Capítulo 4. Simulações e resultados
52
As figuras 4.5 e 4.6 representam os mesmos casos anteriores, a função no melhor ajuste
dos parâmetros, as cadeias Markovianas e as distribuições posteriori dos parâmetros. Mas as distribuições a priori, agora, são dadas por distribuições gaussianas, com média 0 e desvio padrão 3,
para a e σ, enquanto que a distribuição a priori de b é dada por uma distribuição uniforme, com
mínimo de 0 e máximo de 30. O ponto de início da cadeia é o mesmo do caso anterior, a = 25,
b = 15 e σ = 10.
Podemos observar que, apesar da distribuição posteriori ter uma forma levemente diferente, o que ocorre devido ao caráter aleatório do ruído que é gerado e ao caráter aleatório da
própria cadeia, temos que a região de maior probabilidade ainda se encontra perto do valor real dos
parâmetros. Assim, neste caso, em que a função de estudo é linear, não vemos uma relação muito
grande entre a distribuição a priori e a distribuição estacionária.
Figura 4.5: Melhor ajuste através do MCMC para diferentes priori. Os valores dos parâmetros no
melhor ajuste é a = 4, 78, b = 10, 47 e σ = 5, 53, com desvio padrão de, respectivamente, 0, 55,
1, 57 e 0, 68.
52
Capítulo 4. Simulações e resultados
53
Figura 4.6: À esquerda, temos as cadeias Markovianas para os três parâmetros de interesse. Enquanto que na direita, temos as suas distribuições posteriori. Em que, em ambos os casos, var1
representa a, var2 é a variável b e var3 é σ. Podemos ver, nas distribuições posteriori, que temos,
em alguns casos, um pico “secundário”, um pouco menor que o pico maior. Isso pode ser resolvido
aumentando o número de iterações da cadeia ou ajustando a distribuição a priori.
A partir das figuras apresentadas nas análises das duas situações, pode-se observar que a
escolha da distribuição a priori não tem muita influência. Em ambos os casos, conseguimos ajustar
bem a função no melhor ajuste dos parâmetros aos pontos. Isso se deve à simplicidade da equação
e pelo fato dos parâmetros não serem correlacionados. Tendo uma ideia do valor real do parâmetro,
pode-se ajustar a distribuição a priori para que seja uma gaussiana com média próxima ao valor
real do parâmetro. Resultando em um valor mais confiável.
53
Capítulo 4. Simulações e resultados
4.1.3
54
Nested Sampling
No método do Nested Sampling, queremos mostrar como a média dos parâmetros, no
conjunto ativo se aproxima do valor real dos parâmetros. A análise não focará muito no estudo
da evidência, mas no cálculo da média e desvio padrão dos parâmetros. De modo que os gráficos
produzidos, como mostram as figuras 4.7 e 4.8, será da função estudada não no melhor ajuste dos
parâmetros, mas no valor da média dos parâmetros. E será mostrado que a média dos parâmetros
do conjunto ativo pode ser usado como o melhor ajuste dos parâmetros.
Assim como no caso anterior, analisaremos duas situações distintas, em que a diferença
entre elas está na distribuição nas quais serão retiradas as amostras. Evitando a repetição dos
casos estudados anteriormente, a primeira situação, agora, será em que o parâmetro a e σ são
dados por distribuições uniforme, com mínimo igual a 0, 1 e máximo igual a 20, e b será dado
por uma distribuição gaussiana, com média 5 e desvio padrão 5 (um valor muito longe do valor
real do parâmetro implicará em um erro grande). Já no segundo caso, teremos dois parâmetros
com distribuições representadas por distribuições gaussianas, a e b, com médias 2 e 5, e desvios
padrão 3 e 5, respectivamente. σ será representado por uma distribuição uniforme, com máximo
20 e mínimo 0, 1, para evitar erro no algoritmo, quando σ apresenta valor negativo. Isso é feito
para que a distribuição não fique centrada muito próximo do valor real, mostrando de forma mais
satisfatória a eficácia do algoritmo. Em ambos os casos, o número inicial do conjunto de dados será
de N = 100. Após toda a análise e das substituições dos pontos, será retirado metade dos pontos,
ficando, ao final, com 50 pontos ativos. O número de iterações, isto é, o número de vezes em que
um valor é substituído no conjunto inicial é 1000N , para um valor mais preciso da média.
Podemos ver, através da figuras, que o valor da média dos parâmetros, de fato, ajusta bem
os pontos. Podemos ver, também, que este método tem um resultado bem confiável, com baixo
desvio padrão. Porém, é necessário um conhecimento prévio a cerca de como os parâmetros se
distribuem. Em uma distribuição gaussiana, o desvio padrão irá aumentando, conforme a média
da distribuição for se afastando do valor real dos parâmetros. Assim como no caso da análise
MCMC, a simplicidade da equação linear faz com que não surjam problemas devido a mudança
das distribuições a priori.
54
Capítulo 4. Simulações e resultados
55
Figura 4.7: Melhor ajuste através do Nested Sampling para diferentes priori. Os valores dos parâmetros no melhor ajuste é a = 4, 97, b = 10, 06 e σ = 5, 40, com desvio padrão de, respectivamente, 0, 17, 0, 50 e 0, 17.
Figura 4.8: Melhor ajuste através do Nested Sampling para priori gaussiana. Os valores dos parâmetros no melhor ajuste é a = 5, 30, b = 9, 87 e σ = 5, 42, com desvio padrão de, respectivamente,
0, 20, 0, 51 e 0, 17.
55
Capítulo 4. Simulações e resultados
4.2
56
Senos e cossenos
As funções senos e cossenos são descritas, respectivamente, por
y(x) = A sin(kx) ,
(4.2)
y(x) = A cos(kx) ,
(4.3)
e
em que A é a amplitude e k é a frequência angular.
A análise, para os três métodos estatísticos, consiste em estudar dois casos distintos. No
primeiro, o método será aplicado nas equações da forma da equação 4.2, com adição do ruído. No
segundo caso, a análise será feita em uma adição de cossenos, em que teremos quatro parâmetros
ajustáveis, relativo a amplitude e da frequência de cada cosseno. Diferentemente do estudo feito
na seção anterior, haverão intervalos sem pontos, simulando uma série temporal que tenha um
intervalo de tempo entre um conjunto de medições e outro. A escolha do intervalo dos parâmetros
e do segundo caso, a soma dos cossenos, servem como uma introdução à análise feita na seção
seguinte, sobre velocidade radial, cuja equação é dada pela equação 2.15.
4.2.1
Método do χ2 mínimo
O primeiro caso estudado, como mencionado anteriormente, será feito em uma equação
senoidal, dada pela equação 4.2. Os valores reais dos parâmetros são A = 5 e k = 3. O ruído é
dado por um ruído gaussiano, com média µ = 3 e desvio padrão σ = 4. Enquanto que no segundo
caso, dado pela soma de dois cossenos, teremos quatro parâmetros livres, com valores reais dados
por A1 = 3, k1 = 5, A2 = 5 e k2 = 3. O ruído, também dado por uma distribuição gaussiana, tem
média µ = 1 e desvio padrão σ = 3.
Podemos observar, através da figura 4.9, que, apesar do intervalo entre conjunto de pontos,
o método do χ2 mínimo ainda consegue ajustar os dados de forma satisfatória. A figura 4.10 ilustra
a curva de melhor ajuste para o caso da soma de cossenos. O melhor ajuste dos parâmetros nos
mostra que o método do χ2 mínimo começa a apresentar erros altos para alguns parâmetros, mesmo
56
Capítulo 4. Simulações e resultados
57
com um baixo valor de ruído. Assim, o método já se torna impróprio para equações deste tipo,
equações mais complexas ou com um maior número de parâmetros.
Figura 4.9: Curva de melhor ajuste da função seno através do χ2 mínimo. O melhor ajuste dos
parâmetros é de A = 4, 6 e k = 3. Observa-se que, apesar de alguns pontos acima da curva, o
melhor ajuste foi próximo ao valor real.
Figura 4.10: Curva de melhor ajuste da soma de cossenos através do χ2 mínimo. O melhor ajuste
dos parâmetros é de A1 = 2, 1, k1 = 5, 0, A2 = 4, 0 e k2 = 3, 0. Observa-se que, apesar de, em
geral, os pontos se encontrarem próximos a curva, o resultado do melhor ajuste se encontra distante
do valor real dos parâmetros..
57
Capítulo 4. Simulações e resultados
4.2.2
58
Método de Monte Carlo via Cadeia de Markov
O objetivo da análise do método de Monte Carlo via Cadeia de Markov é a obtenção das
distribuições posteriori dos parâmetros. O primeiro caso estudado, a de uma simples função seno,
terá os seguintes valores reais dos parâmetros: A = 5, k = 3. O ruído, assim como na análise do
χ2 mínimo é dado por uma distribuição gaussiana, que tem média µ = 3 e desvio padrão σ = 4. O
desvio padrão será, além do A e k, um parâmetro a ser inferido. As distribuições a priori são dadas
por distribuições gaussianas, em que para A temos média 3 e desvio padrão 3, para k temos média
5 e desvio padrão 3 e para σ temos média 1 e desvio padrão 3. O valor inicial da cadeia é dada por
A = 20, k = 10 e σ = 15. O número de iterações da cadeia é de N = 100000, em que ao final das
iterações, são removidos 95000 pontos. De modo que a cadeia final é dada por 5000 pontos.
A figura 4.11 e 4.12 representam, respectivamente, a função no melhor ajustes dos parâmetros e as distribuições posteriori dos parâmetros. Podemos observar que a distribuição posteriori
de A e σ não possui um único pico bem definido, como no caso de k. Porém, a região de maior
probabilidade ainda se encontra próximo ao valor real dos parâmetros.
Figura 4.11: Curva de melhor ajuste da função seno através do MCMC. O melhor ajuste dos parâmetros é dado por A = 4, 85, k = 2, 93 e σ = 5, 27. O desvio padrão dos parâmetros é dado por
0, 31 para A, 0, 09 para k e 0, 54 para σ. Apesar do intervalo entre pontos de x, o método consegue
obter um resultado confiável.
58
Capítulo 4. Simulações e resultados
59
Figura 4.12: Cadeias de Markov e distribuições posteriori para a função seno. Na figura, var1
representa o parâmetro A, var2 representa k e var3 representa σ. Apesar da região de maior probabilidade de A e k estarem próximos do valor real dos parâmetros, a distribuição de σ se encontra
longe do valor real.
59
Capítulo 4. Simulações e resultados
60
O segundo caso, em que temos a adição de cossenos, tem como valores reais dos parâmetros semelhantes ao do caso do χ2 mínimo: A1 = 3, k1 = 5, A2 = 5 e k2 = 3. O ruído, também
semelhante ao da análise feita para o χ2 mínimo, tem média µ = 1 e desvio padrão σ = 3. As
distribuições a priori são dadas por distribuições gaussianas, em que a média e desvio padrão são
µ = 3 e σ = 3 para A1 e k2 , µ = 5 e σ = 3 para k1 e A2 , e µ = 1 e σ = 3 para o parâmetro σ,
relacionado ao ruído. O estado inicial da cadeia é dado por A1 = 15, k1 = 10, A2 = 10, k2 = 15
e σ = 15. O número de iterações é de N = 100000 e o número de pontos finais na cadeia é de
50000.
A curva da função no melhor ajuste dos parâmetros é mostrada na figura 4.13, em que observamos que a função ajusta bem os pontos simulados. As cadeias Markovianas e as distribuições
posteriori são mostradas na figura 4.14. No resultado da análise, foi obtido um melhor ajuste com
um erro baixo, em relação ao valor real dos parâmetros. O desvio padrão do melhor ajuste ilustra
melhor a baixa taxa de erro.
Figura 4.13: Curva de melhor ajuste da soma de cossenos para análise MCMC. O melhor ajuste
dos parâmetros é dado por A1 = 3, 25, k1 = 5, 0, A2 = 5, 55, k2 = 2, 99 e σ = 3, 21. O desvio
padrão obtido foi de 0, 65 para A1 , 0, 05 para k1 , 0, 63 para A2 , 0, 04 para k2 e 0, 30 para σ.
60
Capítulo 4. Simulações e resultados
61
Figura 4.14: Cadeias de Markov e distribuições posteriori para a soma de cossenos. Na figura, var1,
var2, var3, var4 e var5 representam, respectivamente, A1 , k1 , σ, A2 e k2 . Apesar dos valores baixos
dos desvios padrão e do melhor ajuste próximo ao valor real, podemos observar que alguns dos
parâmetros possuem mais de um pico em valores distintos, podendo acarretar em um falso melhor
ajuste para tais parâmetros.
61
Capítulo 4. Simulações e resultados
4.2.3
62
Nested Sampling
Na análise realizada, através do método Nested Sampling, os valores reais dos parâmetros
são levemente diferentes das análises anteriores. No primeiro caso, em que temos a função seno,
teremos que os valores reais dos parâmetros são dados por A = 5, k = 3 e σ = 3. Enquanto
que no segundo caso, da soma de cossenos, temos os valores A1 = 5, k1 = 3, A2 = 3, k2 = 5 e
σ = 3. No primeiro caso, as distribuições a priori, de onde serão retiradas as amostras, são dadas
por distribuições gaussianas, para A e k, com média 2 e 5 e desvio padrão 5 e 5, respectivamente.
Para o parâmetro σ, a distribuição a priori é dada por uma distribuição uniforme, com mínimo 0, 1
e máximo 20. Já no segundo caso, σ, A1 e k1 tem as mesmas distribuições que σ, A e k do caso
anterior. Porém, A2 e k2 são dados por distribuições gaussianas, com média 2 e 5 e desvio padrão
3 e 3.
Os resultados, ilustrados nas figuras 4.15 e 4.16, são próximos aos valores reais dos parâmetros, porém, no segundo caso, o desvio padrão associado ao melhor ajuste dos parâmetros é
maior, se comparado à análise feita na análise MCMC, encontrada na subseção anterior. Enquanto
que no primeiro caso, os valores de melhor ajuste e de desvio padrão foram melhores do que na
análise MCMC. Isso pode ter ocorrido devido ao caráter aleatório do ruído adicionado, cujo efeito
pode ter sido mais acentuado em uma análise ou menos acentuada em outra.
Figura 4.15: Melhor ajuste pelo método Nested Sampling para função seno. Os melhor ajuste dos
parâmetros são dados por A = 5, 00, k = 3, 03 e σ = 3, 68. O desvio padrão é de 0, 57 para A,
0, 04 para k e 0, 27 para σ.
62
Capítulo 4. Simulações e resultados
63
Figura 4.16: Melhor ajuste pelo método Nested Sampling para a soma de cossenos. Os melhor
ajuste dos parâmetros são dados por A1 = 4, 58, k1 = 3, 03, A2 = 3, 66, k2 = 5, 17 e σ = 3, 68. O
desvio padrão é de 0, 86 para A1 , 0, 17 para k1 , 0, 80 para A2 , 0, 21 para k2 e 0, 46 para σ. Apesar
dos valores próximos ao melhor ajuste, o desvio padrão associado foi alto, comparado ao MCMC.
4.3
Velocidade radial
Após as análises de casos mais simples, analisaremos, agora, o problema central deste
trabalho. A equação da velocidade radial, dada pela equação 2.20, não será a forma utilizada
nesse trabalho. Alternativamente, a equação utilizada será a mesma equação de trabalhos que já se
mostraram bem sucedidos em inferir parâmetros orbitais. A equação, utilizada por Balan & Lahav
(2008a), Gregory (2006) e Feroz et al. (2011), é dada por
vr = V − K(sin(ν + ω) + e sin(ω)) ,
(4.4)
em que V é um termo de fase, K é a semi-amplitude de velocidade, ω é a longitude do periastro, e
é a excentricidade e ν é a anomalia verdadeira, cuja equação é dada pela equação 2.7,
tan
ν 2
=
1+e
1−e
1/2
E
tan
,
2
(4.5)
e E(t), a anomalia excêntrica, é dado, em termos da anomalia média, M (t), pela equação
M (t) = E(t) − e sin E(t) .
63
(4.6)
Capítulo 4. Simulações e resultados
64
Por fim, temos que a anomalia média é dada pela equação
M (t) = 2π
t
−χ
P
,
(4.7)
em que P é o período orbital do sistema e χ é o fator de passagem do periastro, definido no
capítulo 2. A equação 4.5 não possui solução analítica, tendo sido necessário o desenvolvimento
de ferramentas computacionais para solucioná-la.
Os parâmetros livres, que serão ajustados nas análises, são: V , K, ω, e, P , χ e s. s é
um termo relativo ao ruído, considerado gaussiano, como modelado pelos trabalhos citados anteriormente. Por ser um termo aditivo, s tem a dimensão de velocidade. Nesse trabalho, iremos
analisar dois casos similares para a velocidade radial no método do χ2 mínimo e apenas um caso
nos outros dois métodos. Utilizando os valores de melhor ajuste dos parâmetros para a estrela HD
187085, iremos aplicar os métodos estatísticos primeiramente para dados simulados (somente na
análise do χ2 mínimo), com ruído gaussiano adicionado, e para os dados reais da velocidade radial
da estrela HD 187085. Os dados reais utilizados foram obtidos pelo Telescópio Anglo-Australiano,
do observatório de mesmo nome, localizado na Austrália. O objetivo dessa seção é comparar os
resultados obtidos com os resultados do trabalho de Balan & Lahav (2008b) e da enciclopédia de
planetas extrassolares 3 .
HD 187085 é uma estrela da sequência principal, que se encontra a uma distância de
44, 98pc, na constelação de Sagitário. Tem uma idade estimada de 3, 3Giga-anos, massa de 1, 22M ,
metalicidade [F e/H] de 0, 05 e pertence a classe espectral G0V. Essa estrela possui apenas um planeta descoberto até a data do presente trabalho, o planeta HD 187085b. Os valores dos parâmetros
orbitais do planeta, que serão utilizados nesse trabalho como os valores reais dos parâmetros, no
caso da simulação de dados, são dados por4 : K = 17, 25 m.s−1 , ω = 0, 46 rad, e = 0, 33, P = 986
dias, χ = 0, 12, V = −0, 99 e s = 5, 51.
A figura 4.17 mostra a curva de velocidade radial obtida por Balan & Lahav (2008a) e será
utilizada para a comparação com as curvas obtidas como resultado desse trabalho.
3
Acesso em: 19 de Julho de 2016.
Dados obtidos através do trabalho de Balan & Lahav (2008a) e da enciclopédia de planetas extrassolares. A
simulação de dados será utilizado apenas no método do χ2 mínimo, apenas como uma forma explorar mais o método.
Em caso de conflito entre os dados, adotamos os dados da enciclopédia.
4
64
Capítulo 4. Simulações e resultados
65
Figura 4.17: Curva de velocidade radial obtido por Balan & Lahav para HD 187085. Essa curva
será utilizada na comparação com os resultados obtidos nesse trabalho. (Balan & Lahav 2008b)
4.3.1
Método do χ2 mínimo
Como já mencionado, o primeiro caso trabalhado é o caso em que os dados de velocidade
radial são simulados e um ruído é adicionado sobre estes dados. Os objetivos são: verificar a
precisão do simulador de dados, obter o melhor ajuste dos parâmetros e verificar o quão bem a curva
da velocidade radial no melhor ajuste dos parâmetros ajusta os dados simulados. Por limitação do
método, o parâmetro s, relativo ao ruído, não entra na análise. O primeiro problema apresentado,
na utilização desse método, está no tempo de computação necessário para uma análise com seis
variáveis. Para uma análise bem precisa, duas soluções foram pensadas. A primeira delas consiste
em executar o código numérico, fazendo com que os parâmetros variem em um intervalo grande,
mas com um passo grande nas iterações. Feito isso, executamos o código novamente, dessa vez,
restringindo os valores dos parâmetros e diminuindo o tamanho do passo da iteração, de acordo
com o melhor ajuste obtido anteriormente. Repete-se até que tenhamos um pequeno intervalo dos
parâmetros e fazendo a iteração em pequenos passos. A segunda delas consiste em executar o
código com um grande intervalo e com pequeno passo. O tempo de execução, nesse caso, pode
chegar a mais de 3 dias seguidos de computação, o que não é recomendável. A execução do código
para os resultados apresentados nesse trabalho foi feita seguindo a primeira opção.
A figura 4.18 mostra a curva de velocidade radial no melhor ajuste dos parâmetros. Po65
Capítulo 4. Simulações e resultados
66
demos observar que, apesar da curva ter se adequado bem aos dados simulados, um pequeno ruído
guassiano, com média µ = 0 e desvio padrão σ = 3, foi o suficiente para que o melhor ajuste, nos
parâmetros ω e e, tenham apresentado um erro muito grande. De modo que essa sensibilidade ao
ruído faz com que esse método não seja adequado na inferência de parâmetros para a velocidade
radial.
O segundo caso estudado, em que a análise é feita através de dados reais de velocidade
radial, a curva no melhor ajuste dos parâmetros e os pontos observados são ilustrados na figura
4.19. Podemos observar que existem muitos pontos que se encontram distantes da curva, o que
significa que a curva não ajusta muito bem os dados reais da velocidade radial. Vemos que, em
geral, os parâmetros obtidos através do método χ2 mínimo possuem um erro alto, em relação aos
parâmetros obtidos por Balan & Lahav (2008b), mostrados na tabela 4.4 da subseção seguinte, com
exceção do fator de passagem do periastro, χ, e do período, P.
Figura 4.18: Curva de velocidade radial no melhor ajuste dos parâmetro para dados simulados. O
melhor ajuste dos parâmetros é dado por: K = 16, 5 m.s−1 , ω = 5, 09 rad, e = 0, 51, χ = 0, 1,
P = 1000 dias e V = −3 m.s−1 . Apesar da curva ajustar bem os parâmetros, o erro nas medidas
de ω e e faz com que o método não seja bem sucedido na inferência dos parâmetros.
66
Capítulo 4. Simulações e resultados
67
Figura 4.19: Curva de velocidade radial no melhor ajuste dos parâmetros para HD 187085 através
do χ2 mínimo. O melhor ajuste dos parâmetros é dado por: K = 14, 8 m.s−1 , ω = 1, 12 rad,
e = 0, 21, χ = 0, 13, P = 1060 dias e V = 1, 3 m.s−1 . Os valores do melhor ajuste ainda possuem
um erro alto, comparado com o resultado obtido por Balan & Lahav (2008b)
4.3.2
Método de Monte Carlo via Cadeia de Markov
Nessa subseção, focaremos apenas na análise dos dados reais de velocidade radial da
estrela HD 187085. Seguindo o trabalho de Balan & Lahav (2008b), que utiliza MCMC em sua
análise, o objetivo é obter resultado semelhante ao resultado do referido trabalho.
Gregory (2006) e Balan & Lahav (2008a) sugerem duas possíveis opções de escolha de
distribuições a priori. Balan & Lahav (2008a) mostra, ainda, que há uma leve diferença nos resultados obtidos em cada uma das opções, porém essa diferença não é significativamente alta.
A primeira opção de distribuições a priori é mostrada na tabela 4.3, retirado de Balan & Lahav
(2008a), em que o período, P , segue uma distribuição a priori dada por uma Jeffrey’s Prior, e a
semi-amplitude, K, e o termo de ruído, s, seguem uma Jeffrey’s Prior modificada. A forma matemática de ambas distribuições se encontram na figura. A segunda opção de distribuições a priori,
chamada de Top Hat, consiste em considerarmos todas as distribuições a priori como sendo distribuições uniforme, com limites máximos e mínimos iguais aos limites da primeira opção. Como a
diferença entre as duas opções não são significativas, por simplicidade, adotaremos a Top Hat para
a análise feita nesse trabalho.
67
Capítulo 4. Simulações e resultados
Parâmetro
P (dias)
Priori
Jeffreys
K(m.s−1 ) Mod. Jeffreys
V (m.s−1 )
e
ω
χ
s(m.s−1 )
Uniforme
Uniforme
Uniforme
Uniforme
Mod. Jeffreys
68
Forma matemática
Min
0,2
Max
15000
0
2000
-2000
0
0
0
0
2000
1
2π
1
2000
1
max )
P ln( P
Pmin
(K+K0 )−1
K +K
ln( 0 K max )
0
1
Vmax −Vmin
1
1
2π
1
(s+s0 )−1
s +s
ln( 0 s max )
0
Tabela 4.3: Distribuições a priori dos parâmetros orbitais para o método MCMC. A tabela mostra
a distribuição para cada parâmetro, a forma matemática da distribuição e os valores mínimo e
máximo de cada parâmetro. Retirada de Balan & Lahav (2008b).
A tabela 4.4 nos mostra o resultado do melhor ajuste dos parâmetros obtido por Balan
& Lahav (2008b). As distribuições posteriori e as cadeias Markovianas obtidas como resultados
desse trabalho se encontram na figura 4.20, enquanto que a curva de velocidade radial no melhor
ajuste se encontra na figura 4.21. Podemos observar que as distribuições posteriori apresentam, em
todos os parâmetros, mais de um pico. Isso se deve ao fato da equação de velocidade radial ser
não-linear e ser multimodal. O ponto inicial da cadeia foi de: K = 25, ω = 0, e = 0, 01, χ = 0, 01,
P = 1500, V = 0 e s = 25. E o número de iterações na cadeia foi de 15 milhões. Mesmo com uma
enorme quantidade de iterações, a execução do código numérico se mostrou mais rápida e eficiente
do que no caso do χ2 mínimo. Como vimos anteriormente, a média do valor dos parâmetros na
cadeia nos dá o valor de melhor ajuste dos parâmetros. Baseado no trabalho de Balan & Lahav
(2008a), o desvio padrão será utilizado como a região de confiança. Os resultados obtidos nesse
trabalho, para as médias e desvios padrão dos parâmetros, se encontram na tabela 4.5. Comparando
as tabelas de resultados, vemos que o código numérico desenvolvido para a análise desse trabalho
nos dá resultados próximos aos resultados encontrados na literatura.
68
Capítulo 4. Simulações e resultados
69
Figura 4.20: Cadeia Markoviana e distribuições posterioris para HD 187085. As variáveis var1,
var2, ..., são, respectivamente: K, ω, e, χ, P , V e s. As figuras na esquerda representam as
cadeias Markovianas dos parâmetros e as figuras na direita representação suas distribuições posteriori. Podemos observar que apesar dos valores obtidos terem sido próximos aos resultados de
Balan & Lahav (2008b), temos que as distribuições posteriori apresentam mais de um pico. Isso se
dá devido a multimodalidade da equação de velocidade radial.
69
Capítulo 4. Simulações e resultados
Parâmetro
K
ω
e
χ
P
V
s
70
Média±desvio padrão
17, 25 ± 9, 01
0, 49 ± 0, 38
0, 34 ± 0, 22
0, 12 ± 0, 06
1066, 00 ± 45, 86
−0, 99 ± 1, 63
5, 51 ± 1, 09
Tabela 4.4: Melhor ajuste dos parâmetros orbitais obtidos por Balan & Lahav (2008b). Esse resultado será usado na comparação com os resultados obtidos nesse trabalho.
Parâmetro
K
ω
e
χ
P
V
s
Média±desvio padrão
16, 74 ± 1, 00
0, 32 ± 0, 26
0, 34 ± 0, 15
0, 07 ± 0, 15
1011, 46 ± 1, 40
−2, 06 ± 0, 85
5, 57 ± 0, 88
Tabela 4.5: Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do MCMC.
Alguns parâmetros, como K e P , possuem os seus desvios padrão muito baixo, comparado aos
resultados da tabela anterior. Isso se deve ao grande número de iterações realizados nessa análise.
4.3.3
Nested Sampling
Na análise realizada através do método Nested Sampling, os objetivos serão: Obter a curva
de velocidade radial no melhor ajuste dos parâmetros, observando o quão bem se ajustam os dados,
e determinar a eficácia do método, no contexto da velocidade radial, através da comparação do seu
resultado tanto com o obtido por Balan & Lahav (2008b), quanto o obtido na análise do MCMC,
que se encontram nas tabelas 4.4 e 4.5. As distribuições a priori dos parâmetros orbitais serão dados
pelo Top Hat, para melhor comparação entre os resultados.
Análise é feita através de 5000N iterações. Temos, inicialmente, que o número do conjunto de amostras aleatórias, é de N = 100. Após as substituições dos parâmetros no conjunto de
amostra, para cada iteração, retira-se metade dos pontos do conjunto e analisamos as médias dos
parâmetros e seus desvios padrão. Foi mostrado, nas seções 4.1 e 4.2, que as médias dos parâmetros podem ser utilizadas como seus valores de melhor ajuste. A comparação entre likelihoods é
feita através do logaritmo da likelihood. Ao calcular a likelihood, o seu valor vai rapidamente a 0,
70
Capítulo 4. Simulações e resultados
71
Figura 4.21: Curva de velocidade radial, através do MCMC, para HD 187085. Podemos observar
que a curva ajusta satisfatoriamente os dados, de forma similar à curva encontrada em Balan &
Lahav (2008b).
impossibilitando a obtenção do valor mínimo das likelihoods do conjunto dos parâmteros.
A figura 4.22 ilustra a curva de velocidade radial no melhor ajuste dos parâmetros e como
essa curva se ajusta aos dados reais. O melhor ajuste dos parâmetros se encontra na tabela 4.6. Podemos perceber, da tabela, que o valor do argumento do periastro, ω, se encontra acima dos valores
contidos nas tabelas 4.4 e 4.5. A análise Nested Sampling se baseia em atualizar o conjunto de
dados, com a condição de que a likelihood nos novos parâmetros seja maior do que a dos parâmetros que estejam sendo substituídos, de modo que para um problema com variáveis multimodais,
pode ocorrer do conjunto final de dados ter uma parte de seus valores em um modo e uma parte
em outro. No caso de ω, ocorre algo semelhante, em que uma parte dos dados se encontra próximo
do valor de 0, 50 e uma pequena parte se encontra próximo do valor 5. Isso afeta o valor da média
e do desvio padrão desse parâmetro. Situação semelhante ocorre no parâmetro χ, que apresentou
também um valor alto nessa análise.
A tabela 4.7 mostra o valor de melhor ajuste dos parâmetros orbitais obtidos por Balan &
Lahav (2008b) e os valores obtidos como resultado desse trabalho, para uma maior facilidade na
comparação entre os próprios métodos e a comparação com o resultado de Balan & Lahav (2008b).
71
Capítulo 4. Simulações e resultados
72
Figura 4.22: Curva de velocidade radial, através do Nested Sampling, para HD 187085. Podemos
observar que, apesar da análise ter ajustado bem cinco dos sete parâmetros, alguns pontos ainda
permanecem distantes da curva.
Parâmetro
K
ω
e
χ
P
V
s
Média±desvio padrão
17, 29 ± 3, 17
1, 49 ± 1, 29
0, 34 ± 0, 19
0, 21 ± 0, 28
1060, 21 ± 40, 82
−0, 93 ± 1, 65
5, 32 ± 0, 76
Tabela 4.6: Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do Nested Sampling. Alguns parâmetros, como K e P , possuem os seus desvios padrão muito baixo, comparado
aos resultados da tabela anterior. Isso se deve ao grande número de iterações realizados nessa
análise.
Parâmetro
K
ω
e
χ
P
V
s
Balan & Lahav χ2 mínimo MCMC
17,25
14,8
16,74
0,49
1,12
0,32
0,34
0,21
0,34
0,12
0,13
0,07
1066
1060
1011,46
-0,99
1,3
-2,06
5,51
5,57
Nested Sampling
17,29
1,49
0,34
0,21
1060,21
-0,93
5,32
Tabela 4.7: Comparação entre os melhores ajustes dos parâmetros orbitais obtidos para HD 187085.
Na análise do χ2 mínimo, não temos o parâmetro s, relativo ao erro.
72
CAPÍTULO 5
CONCLUSÕES E PERSPECTIVAS
5.1
Conclusões
Apresentamos, neste trabalho, como inferir sobre os parâmetros orbitais de exoplanetas,
a partir da velocidade radial estelar. Para tal, estudamos detalhadamente ferramentas estatísticas
que nos permite analisar um conjunto de dados e, a partir do conhecimento do modelo matemático
teórico, inferir sobre os parâmetros desse modelo. A partir dos métodos estatísticos estudados,
foram desenvolvidas ferramentas computacionais que pudessem simular dados, com adição de um
ruído, e realizar os testes estatísticos, com a finalidade de obter os valores iniciais dos parâmetros
e analisar a função no melhor ajuste dos parâmetros, obtido como resultado da análise. Os códigos
numéricos desenvolvidos, para a realização de tais funções citadas, foram todos bem sucedidos em
seus respectivos métodos de inferência. O estudo dos testes estatísticos e das ferramentas computacionais desenvolvidas é realizado em três casos específicos: Equação linear, funções senoidais e
o caso da velocidade radial estelar. Para a velocidade radial, foram utilizados dados reais da estrela
HD 187085. Em cada caso, foram utilizados três métodos estatísticos distintos, o método do χ2
mínimo, o método de Monte Carlo via cadeia de Markov e o Nested Sampling.
A equação linear foi utilizada pela simplicidade da função. No estudo realizado, os três
métodos estatísticos conseguiram ser bem sucedidos para valores de ruídos da mesma ordem de
73
Capítulo 5. Conclusões e perspectivas
74
grandeza dos dados. Na análise feita através do χ2 mínimo, estudamos a forma como a ordem
de grandeza influencia na inferência dos parâmetros. Pôde-se perceber que para altas ordens de
grandeza do ruído, o erro na inferência das medidas se torna muito alto, de modo que o resultado
se torna pouco confiável. No MCMC, mostramos de forma bem sucedida que os valores de melhor
ajuste se encontram nas regiões de maior probabilidade das distribuições posteriori. E no Nested
Sampling, concluímos que a média dos parâmetros no conjunto ativo pode ser utilizado como o
melhor ajuste.
O caso de equações senoidais foi escolhido como forma introdutória ao caso da velocidade radial. Duas situações foram estudadas, a de uma função seno e a da soma de duas funções
cossenos, com amplitudes e frequências diferentes. Com exceção do χ2 mínimo, que não ajustou
bem os parâmetros do segundo caso, os melhores ajustes obtidos foram aproximadamente iguais
aos valores reais dos parâmetros usados para simular os dados. No caso da função seno, o método
Nested Sampling conseguiu ajustar os dados de forma mais satisfatória. Porém, no caso da soma
de cossenos, o MCMC foi o método que obteve o melhor resultado e com o menor desvio padrão
dos parâmetros.
O caso da velocidade radial, que é o objeto de estudo desse trabalho, tem uma equação
altamente complexa, em que ela é não-linear e multimodal. A inferência é feita em cima de seis
parâmetros, no método do χ2 mínimo, e de sete parâmetros, nos métodos MCMC e Nested Sampling. O método do χ2 mínimo não foi bem sucedido tanto na análise com dados simulados, quanto
na análise dos dados reais. Nesse método, os erros dos parâmetros, em relação aos seus valores
utilizados na simulação ou os obtidos por (Balan & Lahav 2008b), foram altos. O erro no resultado
do método do χ2 mínimo já era antecipado, uma vez que o método é apropriado apenas para equações lineares e pela falha do método em ajustar os parâmetros no caso trabalhado anteriormente,
da soma de cossenos. Trabalhos como o de Cumming (2004) utilizam um método do χ2 mínimo
não-linear para a inferência de parâmetros, em conjunto com o periodograma de Lomb-Scargle. O
método MCMC foi bem sucedido na inferência dos parâmetros, ajustando de forma satisfatória os
sete parâmetros livres. O resultado obtido, através desse método, foi próximo ao resultado obtido
por Balan & Lahav (2008b). Por fim, a análise através do método Nested Sampling conseguiu
ajustar bem cinco dos sete parâmetros. Os outros dois parâmetros tiveram um alto erro, em relação
74
Capítulo 5. Conclusões e perspectivas
75
aos resultados de Balan & Lahav (2008b), devido a multimodalidade da equação. Assim, necessitaríamos de um método mais robusto e que possa inferir os parâmetros de forma mais eficiente.
5.2
Perspectivas
Esse trabalho tem potencial para futuras explorações e aprofundamento. Uma análise pode
ser realizada através dos dados de velocidade radial para estrelas em sistemas multiplanetários. Métodos estatísticos mais robustos tem sido desenvolvidos dentro do contexto da astronomia, como no
trabalho de Feroz & Hobson (2008), que sugere uma generalização do Nested Sampling para a solução de problemas multimodais, e o trabalho de Brewer & Donovan (2015), que sugere uma forma
rápida e eficaz para a análise de dados de sistemas multiplanetários. Dessa forma, implementando
métodos mais eficazes, a evolução do trabalho pode levar a inferência mais precisa dos parâmetros
orbitais, de sistemas multiplanetários e de planetas de baixa massa, cuja velocidade radial estelar é
da ordem de grandeza de poucos centímetros.
75
REFERÊNCIAS
Aitken, S. & Akman, O. E. 2013, Nested Sampling for parameter inference in systems biology:
application to an exemplar circadian model (BMC Systems Biology 7:72)
Andreon, S. & Weaver, B. 2015, Bayeasian Methods for the Physical Sciences (Springer Series in
Astrostatistics)
Baglin, A. et al. 2006, CoRoT: a high precision photometer for stellar evolution and exoplanet
finding (COSPAR, plenary meeting. Vol. 36)
Balan, S. T. & Lahav, O. 2008a, ExoFit: Orbital Parameters of extra-solar planets from radial
velocity (Monthly Notices of the Royal Astronomical Society)
Balan, S. T. & Lahav, O. 2008b, ExoFit User’s Guide
Borucki, W. J. et al. 2010, Kepler Planet-Detection Mission: Introduction and First Results (Science
327, 977)
Brewer, B. J. & Donovan, C. P. 2015, Fast Bayesian Inference for Exoplanet Discovery in Radial
Velocity Data (Monthly Notices of the Royal Astronomical Society)
Campbell, B., Walker, G. A. H., & Yang, S. 1988, A search for substellar companions to Solar-type
stars (The Astrophysical Journal, vol. 331, p. 902-921)
Ceglar, H. M., Watson, C. A., Shelyag, S., & Mathioudakis, M. 2014, Understanding Astrophysical
Noise from Stellar Surface Magneto-Convection (arXiv:1408.2301v2)
Chobotov, V. A. 2002, Orbital Mechanics, 3rd edn., AIAA Education (AIAA)
76
REFERÊNCIAS
77
Cochran, W. D., Endl, M., McArthur, B., Paulson, D. B., & Walker, G. A. H. 2002, A planetary
companion to γ cephei A (The Astrophysical Journal, 599(2):1383-1384)
Cumming, A. 2004, Detectability of extrasolar planets in radial velocity surveys (Monthly Notices
of the Royal Astronomical Society)
Cumming, A., Marcy, G. W., & Butler, R. P. 1999, The lick planet search: Detectability and mass
thresholds (The Astrophysical Journal, 526:890-915)
Delrez, L., Santerne, A., Almenara, J. M., et al. 2014, WASP-121 b: a hot Jupiter in a polar orbit
and close to tidal disruption (Monthly Notices of the Royal Astronomical Society)
Dvorak, R. 2008, Extrasolar Planets: Formation, Detection and Dynamics (Wiley)
Evans, M. J. 2006, Discussion of Nested Sampling for Bayesian Computations by John Skilling
Feigelson, E. D. & Babu, G. J. 2012, Modern Statistical Methods for Astronomy with R applications (Cambridge University Press)
Feroz, F., Balan, S. T., & Hobson, M. P. 2011, Detecting extrasolar planets from stellar radial
velocities using Bayesian evidence (Monthly Notices of the Royal Astronomical Society, 415)
Feroz, F. & Hobson, M. P. 2008, Multimodal nested sampling: an efficient and robust alternative to
MCMC methods for astronomical data analysis (arXiv:0704.3704v3)
Feroz, F., Hobson, M. P., Cameron, E., & Pettitt, A. N. 2014, Importance Nested Sampling and the
MultiNest Algorithm (arXiv:1306.2144v2)
Feroz, F. & Skilling, J. 2013, Exploring Multi-Modal Distributions with Nested Sampling (arXiv:1312.5638v1)
Gavin, H. P. 2015, The Levenberg-Marquardt method for nonlinear least squares curve-fitting problems (Duke University)
Gilks, W. R., Richardson, S., & Pettitt, A. N. 1997, Markov Chain Monte Carlo in Practice (Chapman and Hall)
Gregory, P. C. 2005, A Bayesian Analysis of Extrasolar Planet Data for HD 73526 (Astrophysical
Journal, 631, 1198)
Gregory, P. C. 2006, A Bayesian Kepler Periodogram Detects a Second Planet in HD 208487
(Monthly Notices of the Royal Astronomical Society)
77
REFERÊNCIAS
78
Hansen, P. C., Pereyra, V., & Scherer, G. 2013, Least Squares Data Fitting with applications (The
John Hopkins University Press)
Himmelblau, D. M. 1972, Applied Nonlinear Programming (The University of Texas)
Hogg, R. V. & Craig, A. T. 1978, Introduction to Mathematical Statistics (Macmillan Publishing
co., inc.)
Jing, L. 2009, Nested Sampling: Introduction and Implementation (University of Texas)
Kepler, S. O. & Saraiva, M. F. 2014, Astronomia e Astrofísica (Editora Livraria da Física)
König, B., Fuhrmann, K., Neuhäuser, R., Charbonneau, D., & Jayawardhana, R. 2002, Direct
detection of the companion of χ1 Orionis (Astronomy and Astrophysics, 394)
Lampton, M., Margon, B., & Bowyer, S. 1976, Parameter estimation in X-ray Astronomy (The
Astrophysical Journal)
Lourakis, M. I. A. 2005, A Brief Description of the Levenberg-Marquardt Algorithm Implemented
by levmar (Foundation for Research and Technology in Hellas)
Marcy, G. W. & Butler, R. P. 1992, Precision Radial Velocity with an Iodine Absorption Cell
(Astronomical Society of the Pacific, Publications, vol.104, no. 674)
Mayor, M. & Queloz, D. 1995, A Jupiter-mass companion to a solar-type star (Nature,
378(6555):355-359)
Mayor, M. & Udry, S. 2008, The quest for very low-mass planets (IOP Publishing)
Murison, M. A. 2006, A Practical Method for Solving the Kepler Equation (U.S. Naval Observatory)
Okabe, N., Takada, M., Umetsu, K., Futamase, T., & Smith, G. P. 2010, LoCuSS: Subaru Weak
Lensing Study of 30 Galaxy Clusters (Astronomical Society of Japan)
Perryman, M. 2011, The Exoplanet Handbook (Cambridge University Press)
Press, W. H., Teukolsky, S. A., Vetterling, W. T., & Flannery, B. P. 1997, Numerical Recipes in
Fortran 77 (arXiv: 0901.2573v1)
Pullen, N. & Morris, R. J. 2014, Bayesian Model Comparison and Parameter Inference in Systems
Biology Using Nested Sampling (PLoS ONE 9(2))
Resnik, P. & Hardisty, E. 2010, Gibbs Sampling for the Uninitiated (University of Maryland)
78
REFERÊNCIAS
79
Rice, J. A. 2007, Mathematical Statistics and Data Analysis (University of Californa, Berkeley)
Robert, C. P. 2015, The Metropolis-Hastings algorithm (arXiv: 1504.01869v1)
Skilling, J. 2004, Nested Sampling for General Bayesian Computation
Skilling, J. 2006, Nested Sampling for Bayesian Computations
Teixeira, M. A. 2014, Expansão acelerada do universo vinculada a dados de explosões supernovas
(Monografia - Bacharelado em Física)
Tuomi, M., Jones, H. R. A., Jenkins, J. S., et al. 2012, Signals embedded in the radial velocity
noise: Periodic variations in the tau Ceti velocities (arXiv: 1212.4277v1)
Vogt, S. et al. 1994, HIRES: The High Resolution Echelle Spectometer on the Keck Ten-Meter
Telescope (The International Society for Optical Engineering)
Wilkinson, D. J. 2000, Notas de aula - Principles of Statistics, Part 2: Bayesian Inference, stochastic
simulation and MCMC (School of Mathematics and Statistics, Newcastle University)
Wolszczan, A. 1994, Confirmation of Earth-Mass Planets Orbiting the millisecond pulsar PSR
B1257+12 (Science, Vol. 264)
Wolszczan, A. & Frail, D. A. 1992, A planetary system around the millisecond pulsar PSR1257+12
(Nature, Vol. 355, p.145-147)
Yi, X., Vahala, K., Li, J., et al. 2015, Demonstration of a Near-IR Laser Comb for Precision Radial
Velocity Measurements in Astronomy (arXiv:1501.02509v1)
Zechmeister, M. & Kürster, M. 2009, The generalised Lomb-Scargle periodogram (The University
of Texas)
79