UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE FÍSICA TEÓRICA E EXPERIMENTAL PROGRAMA DE PÓS - GRADUAÇÃO EM FÍSICA F ERRAMENTAS DA A STROESTATÍSTICA PARA O ESTUDO DA VELOCIDADE RADIAL ESTELAR M ÁRCIO A SSUNÇÃO T EIXEIRA NATAL - RN J ULHO 2016 M ÁRCIO A SSUNÇÃO T EIXEIRA F ERRAMENTAS DA A STROESTATÍSTICA PARA O ESTUDO DA VELOCIDADE RADIAL ESTELAR Dissertação de Mestrado apresentada ao programa de pósgraduação em Física do Departamento de Física Teórica e experimental da Universidade Federal do Rio Grande do Norte como requisito parcial para obtenção do grau de mestre em Física. Orientador: Daniel Brito de Freitas NATAL - RN 2016 i À todos que me fizeram chegar até aqui ii AGRADECIMENTOS Agradeço, primeiramente, à minha família, por todo o incentivo e apoio durante o mestrado. À minha namorada, que esteve comigo durante as fases difíceis e de frustração. A todos os amigos do departamento, que sempre estiveram comigo, que compartilharam todas as dificuldades enfrentadas e que me ajudaram nos momentos difíceis. Ao meu orientador, Daniel, por ter me dado a orientação, durante esse período do mestrado, necessária para o meu desenvolvimento como pesquisador e preparação para um futuro doutorado, aprendizado que levarei comigo por toda minha vida acadêmica e profissional. A todos os professores que fizeram parte da minha formação, de forma direta ou indireta, por terem me dado o conhecimento necessário para a minha formação, tanto como estudante, quanto como futuro profissional. Por fim, agradeço ao CNPq, pelo apoio financeiro, através da concessão da bolsa de Mestrado, que permitiu a realização desse trabalho. iii “There are an infinite number of worlds, some like this world, others unlike it” . Epicurus iv Ferramentas da Astroestatística para o estudo da velocidade radial estelar por Márcio Assunção Teixeira R ESUMO O método da velocidade radial estelar é usada desde as descobertas dos primeiros exoplanetas. Esse método tem se mostrado bem sucedido na obtenção dos parâmetros orbitais dos exoplanetas, como, por exemplo, a excentricidade da órbita, o período de translação, a relação de massa do planeta, a distância do periastro, entre outros. A análise dos dados de velocidade radial contém vários problemas, devido a sua função matemática ser altamente não-linear e multimodal. Para a inferência desses parâmetros, métodos estatísticos adequados são necessários na análise dos dados. Nesse trabalho, desenvolvemos algoritmos que nos permite realizar inferências estatísticas. Os métodos de inferência utilizados são o método do χ2 mínimo, o método de Monte Carlo via cadeia de Markov e o Nested Sampling. Estudamos cada um dos métodos, simulando dados, com adição de ruído, e aplicando-os em dois casos: na equação linear e para funções senoidais. Por último, aplicamos os métodos estatísticos para o caso da velocidade radial estelar, fazendo uso de dados da estrela HD 187085, com o objetivo de determinar a eficácia de tais métodos, comparando os resultados com os obtidos na literatura. v Astrostatistical tools for the study of stellar radial velocity by Márcio Assunção Teixeira A BSTRACT Stellar radial velocity method has been used since the descovery of the earliest exoplanets. This method has been very successful in the obtention of exoplanets’ orbital parameters, such as, for exemple, the orbital eccentricity, the translational period, the planet’s mass relation, the periastron distance, among others. The analysis of radial velocity data has various problems due to its mathematical function, that is highly non-linear and multimodal. For parameter inference, adequated statistical methods are required, in the analysis of these datas. In this work, the development of algorithms allows the performance of statistical inference. The inference methods used are the minimum χ2 method, Markov Chain Monte Carlo method and the Nested Sampling. Each method is studied by simulating data, with noise addition, and applying these methods to two cases: a linear equation and sinusoidal functions. Finally, the statistical methods are applied in the case of the stellar radial velocity, by using the HD 187085 star’s data, aiming to determine the efficiency of such methods, by comparing the results with previously obtained results in literature. vi LISTA DE FIGURAS 1.1 Redução do fluxo relativo no método de trânsito planetário . . . . . . . . . . . . . 3 1.2 Orientações das órbitas de exoplanetas . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Desvio do espectro luminoso de uma estrela devido a presença de um planeta . . . 5 1.4 Esquematização dos métodos de detecção de planetas . . . . . . . . . . . . . . . . 8 2.1 Caracteristicas de uma órbita elíptica . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Caracteristicas de uma órbita em três dimensões . . . . . . . . . . . . . . . . . . . 15 2.3 Curvas de velocidade para e = 0, 05 . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4 Curvas de velocidade para e = 0, 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5 Curvas de velocidade para e = 0, 9 . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1 Exemplo do método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2 Exemplo do método de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . 31 3.3 Cadeias Markovianas de parâmetros orbitais . . . . . . . . . . . . . . . . . . . . . 38 3.4 Distribuição posteriori de parâmetros orbitais . . . . . . . . . . . . . . . . . . . . 38 3.5 Algoritmo de Metropolis-Hastings em conjunto com o Amostrador de Gibbs . . . . 40 vii 3.6 Evidência em termos da likelihood e da massa cumulativa a priori . . . . . . . . . 42 3.7 Contorno de likelihood no Nested Sampling . . . . . . . . . . . . . . . . . . . . . 44 3.8 Nested Sampling para sistema multi-planetários . . . . . . . . . . . . . . . . . . . 45 4.1 Simulação do teste do χ2 mínimo com ruído uniforme . . . . . . . . . . . . . . . . 48 4.2 Simulação do teste do χ2 mínimo com ruído gaussiano . . . . . . . . . . . . . . . 49 4.3 Melhor ajuste através do MCMC para prioris uniformes . . . . . . . . . . . . . . . 50 4.4 Cadeias Markovianas e distribuição posteriori para equação linear - caso 1 . . . . . 51 4.5 Melhor ajuste através do MCMC para diferentes priori . . . . . . . . . . . . . . . 52 4.6 Cadeias Markovianas e distribuição posteriori para equação linear - caso 2 . . . . . 53 4.7 Melhor ajuste através do Nested Sampling para diferentes priori . . . . . . . . . . 55 4.8 Melhor ajuste através do Nested Sampling para priori gaussiana . . . . . . . . . . 55 4.9 Curva de melhor ajuste da função seno através do χ2 mínimo . . . . . . . . . . . . 57 4.10 Curva de melhor ajuste da soma de cossenos através do χ2 mínimo . . . . . . . . . 57 4.11 Curva de melhor ajuste da função seno através do MCMC . . . . . . . . . . . . . 58 4.12 Cadeias de Markov e distribuições posteriori para a função seno . . . . . . . . . . 59 4.13 Curva de melhor ajuste da soma de cossenos para análise MCMC . . . . . . . . . . 60 4.14 Cadeias de Markov e distribuições posteriori para a soma de cossenos . . . . . . . 61 4.15 Melhor ajuste pelo método Nested Sampling para função seno . . . . . . . . . . . 62 4.16 Melhor ajuste pelo método Nested Sampling para a soma de cossenos . . . . . . . 63 4.17 Curva de velocidade radial obtido por Balan & Lahav . . . . . . . . . . . . . . . . 65 4.18 Curva de velocidade radial no melhor ajuste dos parâmetros - Simulado . . . . . . 66 4.19 Curva de velocidade radial no melhor ajuste dos parâmetros para HD 187085 através do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii 67 4.20 Cadeias Markovianas e distribuições posterioris para HD 187085 pelo método MCMC 69 4.21 Curva de velocidade radial, através do MCMC, para HD 187085 . . . . . . . . . . 71 4.22 Curva de velocidade radial, através do Nested Sampling, para HD 187085 . . . . . 72 ix LISTA DE TABELAS 2.1 Influência de diferentes companheiras em uma estrela M2 . . . . . . . . . . . . . . 22 4.1 Comparação entre os melhores ajustes para ruído uniforme . . . . . . . . . . . . . 48 4.2 Comparação entre os melhores ajustes para ruído gaussiano . . . . . . . . . . . . . 49 4.3 Distribuições a priori dos parâmetros orbitais para o método MCMC. . . . . . . . . 68 4.4 Melhor ajuste dos parâmetros orbitais obtidos por Balan & Lahav (2008b) . . . . . 70 4.5 Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do MCMC . 70 4.6 Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 72 Comparação entre os melhores ajustes dos parâmetros orbitais obtidos para HD 187085 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x 72 SUMÁRIO Resumo v Abstract vi Lista de Figuras ix Lista de Tabelas x 1 Introdução 1 1.1 Principais técnicas de detecção de exoplanetas . . . . . . . . . . . . . . . . . . . . 2 1.1.1 Trânsito planetário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.2 Velocidade radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.3 Outros métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Motivações e objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 2 Velocidade radial como forma de detectar exoplanetas 11 2.1 12 Órbitas elípticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi 3 2.2 Velocidade radial e curvas de velocidade . . . . . . . . . . . . . . . . . . . . . . . 16 2.3 Erros das medidas e ruídos astrofísicos . . . . . . . . . . . . . . . . . . . . . . . . 22 Métodos estatísticos e inferência 3.1 Método da máxima verossimilhança e o método do χ2 mínimo . . . . . . . . . . . 26 3.2 Método do mínimo quadrado não-linear . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.1 O método do máximo declive . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.2 Método de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.3 Método de Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . 30 3.3 Teorema de Bayes e a inferência Bayesiana . . . . . . . . . . . . . . . . . . . . . 32 3.4 Método de Monte Carlo via cadeia de Markov (MCMC) . . . . . . . . . . . . . . 34 3.4.1 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . 36 3.4.2 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.5 4 25 Simulações e resultados 46 4.1 Equação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.1.1 Método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.1.2 Método de Monte Carlo via Cadeia de Markov . . . . . . . . . . . . . . . 50 4.1.3 Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Senos e cossenos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.1 Método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.2 Método de Monte Carlo via Cadeia de Markov . . . . . . . . . . . . . . . 58 4.2.3 Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Velocidade radial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2 4.3 xii 5 4.3.1 Método do χ2 mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.2 Método de Monte Carlo via Cadeia de Markov . . . . . . . . . . . . . . . 67 4.3.3 Nested Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Conclusões e perspectivas 73 5.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.2 Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 xiii CAPÍTULO 1 INTRODUÇÃO A detecção de exoplanetas teve início no final da década de 80, com o trabalho de Campbell et al. (1988). Esse trabalho consistiu em analisar dezesseis estrelas, das quais, duas estrelas, χ1 Orionis A e γ Cephei A, mostravam uma variação na velocidade radial na ordem de alguns poucos km/s. As outras 14 estrelas não mostravam variações maiores do que 50 m/s. Campbell et al. (1988) sugeriram que pudessem haver companheiras para χ1 Orionis A e γ Cephei A, porém, não haviam evidências fortes o suficiente para determinar se era, de fato, um planeta ou uma anã marrom. As companheiras de ambas só foram confirmadas, coincidentemente no mesmo ano, por König et al. (2002) e Cochran et al. (2002), respectivamente. König et al. (2002) mostraram uma companheira estelar para χ1 Orionis, com massa estimada de 15% a massa do Sol. Enquanto que Cochran et al. (2002) confirmou um planeta orbitando γ Cephei A, com massa mínima de 1, 60 ± 0, 13 massas de Júpiter. Uma vez que o trabalho de Campbell et al. (1988) não tinha evidências forte o suficiente para confirmar a existência de uma companheira planetária, a descoberta do primeiro exoplaneta é atribuída ao trabalho de Wolszczan & Frail (1992). Os resultados desse trabalho mostraram, com medidas realizadas através do radiotelescópio de Arecibo, a existência de um sistema de, no mínimo, dois planetas, orbitando o pulsar PSR B1957+12. Através do método pulsar timing, foi detectado um “bamboleio” de ±0, 7m.s−1 , causado pelo movimento orbital dos planetas, o 1 Capítulo 1. Introdução 2 que levou as suas detecções. Em 1994, um terceiro planeta foi descoberto orbitando o pulsar (Wolszczan 1994). O primeiro planeta descoberto orbitando uma estrela da sequência principal foi confirmado em 1995, por Mayor & Queloz (1995). O planeta em questão tem massa mínima de metade da massa de Júpiter e orbita a sua estrela, 51 Pegasi, com período aproximado de quatro dias. O planeta, chamado de 51 Pegasi b, foi descoberto através das medidas de velocidade radial da estrela, obtidas pelo Observatório de Haute-Provence. Desde a descoberta dos primeiros exoplanetas, e com o avanço da tecnologia dos telescópios e das ferramentas de análise de dados, vários outros exoplanetas têm sido descobertos e seus parâmetros orbitais inferidos. Atualmente, mais de 3400 exoplanetas foram descobertos, de acordo com a Enciclopédia de Planetas Extrassolares12 . Desses mais de 3400 exoplanetas, 677 foram descobertos através do método da velocidade radial estelar, 2650 foram detectados através do método de transito planetário e o restante foi descoberto através de outros métodos, como o de microlentes gravitacionais ou de imagem direta. 1.1 Principais técnicas de detecção de exoplanetas Como mostrado, através dos dados da Enciclopédia de Planetas Extrassolares, dos méto- dos de detecção de planetas, dois se destacam por seus sucessos em detectar exoplanetas e inferir seus parâmetros orbitais, o método de trânsito planetário e o método da velocidade radial. Nessa seção, será mostrado os mecanismos por trás de ambos os métodos, que permitem a detecção de exoplanetas. O método da velocidade radial é o objeto de estudo do trabalho e é detalhado no capítulo 2. 1 A enciclopédia de planetas extrassolares é um catálogo que fornece os mais recentes dados e detecções obtidos por astrônomos profissionais e é usado para facilitar o progresso na exoplanetologia. O catálogo se encontra disponível online através do site: http://exoplanet.eu 2 Acesso em: 19 de Julho de 2016. 2 Capítulo 1. Introdução 1.1.1 3 Trânsito planetário O método de trânsito planetário consiste na medição da curva de luz da estrela observada, isto é, observa-se o fluxo de luz da estrela por um período de tempo. A presença de um planeta, orbitando tal estrela, irá fazer com que, no intervalo de tempo em que o planeta esteja passando “em frente” a estrela, em relação a um observador aqui na Terra, observa-se uma queda no fluxo relativo da estrela, devido a esse eclipse causado pelo planeta, como exemplificado na figura 1.1. Essa diminuição do fluxo relativo, se observado sempre após os mesmos intervalos de tempo, pode indicar que haja um planeta orbitando aquela estrela, com período orbital igual ao período entre essas diminuições do fluxo. Esse método exige que o sistema estrela-planeta observado tenham órbitas alinhadas, de tal forma que visto da Terra, o planeta possa eclipsar a estrela. A figura 1.2 ilustra dois casos em que a órbita está alinhada e dois casos em que a órbita do planeta é de tal forma que o planeta nunca afetará a curva de luz, tornando impossível a detecção do trânsito planetário. Figura 1.1: Redução do fluxo relativo no método de trânsito planetário. Exemplos de curvas de luz, em escalas de tempo e fluxo uniformes. Em cada caso, varia-se o tamanho da estrela e do planeta, para ilustrar o efeito causado em termos das dimensões dos objetos. A trajetória dos planetas são mostrados pelas linhas pontilhadas. O eixo horizontal representa o tempo, em horas, e o eixo vertical representa o fluxo relativo ou o raio dos objetos. (Perryman 2011) 3 Capítulo 1. Introdução 4 Figura 1.2: Orientações das órbitas de exoplanetas. Nos dois casos acima, temos casos em que o trânsito planetário afetará a curva de luz da estrela, sendo possível a detecção do planeta. Nos dois casos abaixo, é impossível a detecção dos planetas através do método de trânsito planetário, devido ao não alinhamento da órbita, em relação ao observador. A seta, em cada figura, mostra a direção da órbita. (Imagem retirada do “Las Cumbres Observatory Global Telescope Network”, acessível através do site: https://lcogt.net) O método de trânsito planetário pode ser utilizado para obter informações que não são possíveis em outros métodos. A massa do planeta, obtida através do método de velocidade radial, depende do ângulo de inclinação da órbita, de modo que é inferido uma massa mínima. No trânsito planetário, é possível determinar esse ângulo de inclinação da órbita. A composição da atmosfera do planeta também pode ser estudado através desse método. No período em que o planeta está passando em frente a estrela, a luz da estrela atravessará a atmosfera do planeta, em que uma parte dessa luz será absorvida. Conhecendo o espectro da estrela, pode-se comparar os dados espectrais da luz antes e durante o trânsito, assim inferindo a composição atmosférica do planeta (Perryman 2011). Os instrumentos utilizados nas medições de curva de luz são tanto telescópios terrestres, quanto observatórios espaciais. Dos telescópios terrestres, podemos destacar HATNet (Hungarian Automated Telescope Network), que descobriu, até a presente data, mais de 29 exoplanetas, e o WASP (Wide Angle Search for Planets), que detectou mais de 100 exoplanetas. Dos observatórios espaciais, o CoRoT (Baglin et al. 2006), não mais em funcionamento, conseguiu encontrar 31 exoplanetas, e o Kepler (Borucki et al. 2010), da NASA, conta com 2327 exoplanetas confirmados3 . 3 Dados do Kepler fora retirados do site da NASA, disponível em: http://kepler.nasa.gov . Acesso em: 19 de Julho 4 Capítulo 1. Introdução 1.1.2 5 Velocidade radial Dois corpos orbitantes, em que a única interação entre eles é dada pela gravidade, irão or- bitar o centro de massa do sistema. No caso de um sistema estrela-planeta, o movimento da estrela em torno do centro de massa do sistema pode ser percebido, para um observador na Terra, através do desvio das linhas espectrais causado por esse movimento. Esse desvio das linhas espectrais pode ser relacionado à velocidade radial estelar, através da equação do efeito Doppler. Quando a estrela se aproxima do observador, é detectado um desvio para o azul, e quando se afasta do observador, é detectado um desvio para o vermelho, como ilustra a figura 1.3. A ordem de grandeza da variação da velocidade radial da estrela está diretamente relacionada à massa do planeta, ou planetas, que estejam orbitando a estrela, a inclinação da órbita em relação ao observador e da distância que o planeta se encontra da estrela. Figura 1.3: Desvio do espectro luminoso de uma estrela devido a presença de um planeta. A linha vermelha representa o desvio do espectro para o vermelho e indica a recessão da estrela. A linha azul representa o desvio do espectro par o azul e indica a aproximação da estrela. A imagem não se encontra em escala, em termos de tamanhos e distâncias. (Imagem retirada do Press Kit 005 do ESO. Disponível no site: https://www.eso.org) Diferentemente do método de trânsito planetário, a velocidade radial tem uma limitação quanto a inferência de dois parâmetros. A massa do planeta e o semi-eixo maior da órbita não podem ser inferidos com precisão. O valor inferido é um valor mínimo, dado por M sin i ou a sin i, de 2016. 5 Capítulo 1. Introdução 6 em que i é a inclinação da órbita. Informações sobre a atmosfera planetária também não podem ser obtidas através deste método. Em alguns casos, os dois métodos podem ser utilizados para analisar a mesma estrela, a fim de complementar as limitações de cada um deles e ter valores mais precisos dos parâmetros, como, por exemplo, o planeta WASP-121 b (Delrez et al. 2014). Os instrumentos utilizados na obtenção de dados de velocidade radial são telescópios terrestres. Os dois telescópios principais, atualmente, devido as precisões de seus resultados, utilizam um tipo de rede de difração conhecida como “échelle”, em que há uma baixa dispersão. O primeiro deles, pertencente ao grupo do ESO (European Southern Observatory), o HARPS (High Accuracy Radial velocity Planet Searcher) (Mayor & Queloz 1995) é um telescópio de 3.6 metros, em funcionamento desde 2003. A precisão do HARPS, hoje, consegue medir variações na velocidade radial da ordem de grandeza de 1 m.s−1 . Em 2015, o ESO anunciou a instalação de um pente de frequência a laser (LFC, do inglês: Laser Frequency Comb), que tem uma precisão nas medidas de poucos centímetros por segundo, o que permite a detecção de planetas de baixa massa4 . O segundo, pertencente ao California Association for Research in Astronomy, é o HIRES, no observatório W. M. Keck (Vogt et al. 1994). O HIRES tem uma precisão também da ordem de grandeza de 1 m.s−1 e tem sido o telescópio mais bem sucedido na detecção de exoplanetas através da velocidade radial5 . No dia 27 de Janeiro de 2016, o Observatório Keck anunciou o uso de um pente de frequência a laser, que permitirá medições mais precisas. Uma descrição sobre o pente de frequência e demonstração da precisão nas medidas de velocidade radial podem ser encontrados no trabalho de Yi et al. (2015).6 1.1.3 Outros métodos Além dos dois métodos explicitados, alguns outros métodos se mostraram bem sucedidos na detecção de exoplanetas. Porém, esses métodos não são tão eficazes quanto os métodos de trânsito planetário e velocidade radial. Cada um desses métodos detectou menos de cem planetas, até a presente data desse trabalho. Alguns desses outros métodos são: 4 Informação retirada do site do ESO, disponível em: https://www.eso.org . Acesso em: 19 de Julho de 2016. Enciclopédia de Planetas Extrassolares. Acesso em: Acesso em: 19 de Julho de 2016. 6 Informações sobre o HIRES retirado do site do Observatório Keck, disponível em: http://www.keckobservatory.org . Acesso em: 19 de Julho de 2016. 5 6 Capítulo 1. Introdução 7 • Microlentes gravitacionais: Ocorre quando a luz de uma estrela mais distante atravessa o campo gravitacional de um sistema estrela-planeta. O campo gravitacional do sistema estrela-planeta funcionará como uma lente, convergindo a luz da estrela distante. Essa convergência é maior para um sistema estrela-planeta do que se não houvesse nenhum planeta, permitindo que o planeta possa ser detectado. Porém, esse método exige que as estrelas estejam praticamente alinhadas, para que ocorra o fenômeno de lente, fazendo com que apenas ocorra em um pequeno intervalo de tempo. A Enciclopédia de Planetas Extrassolares registrou 48 exoplanetas descobertos através das microlentes gravitacionais (Acesso em: 19 de Julho de 2016). • Pulsar Timing: Um pulsar é uma estrela de nêutrons que emite ondas de radio periodicamente devido a sua rotação. Por causa da regularidade da rotação de um pulsar, pequenas anomalias no tempo de observação dos pulsos de onda de rádio podem ser relacionadas com o movimento do pulsar. Se um ou mais planetas orbitam um pulsar, o movimento do pulsar em torno do centro de massa do sistema pode ser detectado, permitindo, assim, a detecção dos planetas. Esse foi o método utilizado por Wolszczan & Frail (1992) na descoberta do primeiro exoplaneta detectado. A Enciclopédia de Planetas Extrassolares registrou 23 exoplanetas descobertos através do Pulsar Timing (Acesso em: 19 de Julho de 2016). • Transit Timing Variation (TTV): Esse método consiste em considerar se, quando ocorre um trânsito planetário, o período do trânsito é regular ou sofre alguma variação. Se um planeta foi detectado através do método de trânsito planetário, uma variação na periodicidade desse trânsito pode indicar que existam outros planetas, em que os seus trânsitos não passam “na frente” da estrela e, portanto, seria impossível de ser detectado através apenas do método de trânsito planetário. A desvantagem desse método é a falta de informações sobre o planeta descoberto. Podendo ser inferido um valor máximo de massa ou se o objeto tem uma massa planetária. A Enciclopédia de Planetas Extrassolares registrou 7 exoplanetas descobertos através do método TTV (Acesso em: 19 de Julho de 2016). • Imagem direta: Todos os métodos citados anteriormente se baseiam na detecção indireta de exoplanetas. O método de imagem direta se baseia na luz refletida pelo planeta, no visível, ou através da emissão térmica do planeta, no infravermelho. A detecção através da observação 7 Capítulo 1. Introdução 8 da luz diretamente, no visível, nem sempre é possível, uma vez que a intensidade da luz refletida pelo planeta é muito baixa e tende a se “perder” antes de poder ser observada aqui na Terra. Esse método tem a vantagem de que por ser direto, tem uma confiabilidade maior nos seus resultados, e é um método menos extensivo do que os métodos de velocidade radial ou trânsito planetário. A Enciclopédia de Planetas Extrassolares registrou 70 exoplanetas descobertos através do método de imagem direta (Acesso em: 19 de Julho de 2016). A figura 1.4 mostra uma esquematização dos métodos de detecção e o número de planetas detectado por cada método, com os dados do ano de 2015. No lado esquerdo, se encontra os métodos de efeitos dinâmicos, a velocidade radial e o Timing. No centro se encontra o método de microlentes gravitacionais. E, na direita, se encontra a fotometria, que, nele, se encontra o método de trânsito planetário. Figura 1.4: Esquematização dos métodos de detecção de planetas, no ano de 2015. Cada linha na horizontal representa a massa dos planetas que os métodos conseguem detectar. A linha contínua representa métodos já existentes. A linha pontilhada representa uma projeção, para 10-20 anos no futuro. As setas pretas representam descobertas, junto com o número de planetas descobertos. Setas brancas indicam descobertas que ainda carecem de confirmação ou maiores evidências. Imagem retirada da Enciclopédia de Planetas Extrassolares. . 8 Capítulo 1. Introdução 1.2 9 Motivações e objetivos Com o avanço tecnológico dos instrumentos de medição, surge cada vez mais um maior número de dados. Esse crescente número de dados necessitam de uma análise mais detalhada, feitas através de ferramentas estatísticas robustas, capazes de nos dar resultados confiáveis. A análise de grande número de dados, também conhecido como mineração de dados, tem sido a nova tendência na astrofísica. Para tais análises, o uso de recursos computacionais é imprescindível, sendo desenvolvidos algoritmos e softwares eficientes para esse propósito. Os avanços nos telescópios também permitiram uma precisão maior nas medidas, de tal forma que, atualmente, podemos obter medidas de velocidade radial da ordem de grandeza de poucos centímetros. Esses dados mais precisos são da mesma ordem de grandeza dos ruídos astrofísicos, de modo que dificulta a detecção de um exoplaneta e a inferência de seus parâmetros orbitais. Assim, um método estatístico avançado não é somente importante, mas é necessário para a análise correta dos dados de velocidade radial. O estudo da astroestatística7 nos permite o desenvolvimento de ferramentas estatísticas e computacionais para, no escopo desse trabalho, a análise de dados de velocidade radial. Trabalhos recentes na detecção de exoplanetas e inferências de parâmetros orbitais de tais exoplanetas foram utilizados como motivação de se utilizar determinados métodos estatísticos nas análises realizadas neste trabalho, como, por exemplo, Balan & Lahav (2008a), que traz uma análise feita através do método MCMC, e Feroz et al. (2011), em que os resultados são obtidos através do método Nested Sampling. Outros trabalhos, de viés mais estatísticos, inclui Feroz & Skilling (2013), que mostra como analisar, através do método Nested Sampling, problemas com distribuições multimodais, e Andreon & Weaver (2015), um livro com uma descrição completa sobre métodos Bayesianos, com aplicações na física. Assim, no estudo da velocidade radial estelar, através de ferramentas estatísticas, temos como objetivos: • Descrição física e modulação matemática da velocidade radial estelar, explicitando sua dependência com os parâmetros orbitais; 7 A astroestatística é uma área cujo objetivo é o uso da estatística inserida nos problemas da astrofísica 9 Capítulo 1. Introdução 10 • Estudo breve das fontes de erros e ruídos nas medidas; • Estudo de diferentes ferramentas estatísticas para a inferência de parâmetros e os casos em que funcionam; • Desenvolvimento de ferramentas computacionais para a simulação e análise de dados, utilizando os métodos estatísticos estudados; • Realizar simulações de dados, com acréscimo de ruído aleatório, para o teste das ferramentas estatísticas e computacionais na inferência de parâmetros; • Utilizar as ferramentas desenvolvidas para um conjunto de dados reais de velocidade radial, a fim de inferir sobre os parâmetros orbitais e comparar os resultados com os da literatura. No Capítulo 2, faremos um estudo da velocidade radial estelar, sua relação com os parâmetros orbitais do planeta e a questão dos ruídos nas medidas. No Capítulo 3, demonstraremos os modelos e métodos estatísticos que podem ser utilizados na inferência de parâmetros, explicitando suas características, vantagens e desvantagens. No Capítulo 4, serão feitas simulações para o teste e análise de três dos métodos estatísticos estudados no capítulo 3, o método do χ2 mínimo, o MCMC e o Nested Sampling. Ainda no capítulo 4, utilizaremos esses métodos estatísticos para a análise de dados reais, no caso da velocidade radial estelar, em que comparamos os resultados com aqueles já obtidos na literatura. No Capítulo 5, temos a conclusão e perspectivas futuras para esse trabalho. 10 CAPÍTULO 2 VELOCIDADE RADIAL COMO FORMA DE DETECTAR EXOPLANETAS A detecção por velocidade radial consiste em analisar a variação da velocidade radial da estrela, devido a uma perturbação nela. Essa perturbação pode ser dada por uma companheira binária ou por um ou mais planetas. A presença de planetas ou de uma companheira binária faz com que a estrela orbite o centro de massa do sistema. Isto leva a uma variação da velocidade radial, que é perceptível através do desvio causado nas linhas espectrais destas estrelas, devido ao efeito Doppler (Kepler & Saraiva 2014). Através das medidas de velocidade radial, do modelo matemático e de uma análise estatística apropriada, podemos inferir sobre os parâmetros orbitais dos planetas, tais como a excentricidade da órbita ou o período de translação, por exemplo. Neste capítulo, iremos estudar sistemas planetários, as leis que regem e como detectar exoplanetas. Inicialmente, abordaremos as órbitas elípticas, desenvolvendo um modelo físico e matemático de um sistema planetário, explicitando os parâmetros orbitais. Em seguida, iremos modelar matematicamente a velocidade radial de uma estrela, mostrando os casos para um ou mais planetas e como a velocidade radial tem sido modelada nos testes estatísticos que se mostraram bem sucedidos na detecção de exoplanetas. Por último, será detalhada a natureza dos erros e incertezas associadas as medidas, que são devido ao movimento e ao referencial, e os ruídos astrofísicos, que 11 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 12 surgem da atividade estelar. 2.1 Órbitas elípticas Um planeta orbitando uma estrela terá sua órbita descrita por uma elipse, em acordo com a primeira lei de Kepler, que diz que a órbita de um planeta será uma elipse, com a estrela em um dos seus focos1 . O efeito gravitacional do planeta na estrela também faz com que a estrela orbite, numa elipse, o centro de massa do sistema estrela-planeta. A elipse tem um conjunto de propriedades que servem de base matemática para a descrição das órbitas. Iremos listar as propriedades mais importantes para o desenvolvimento do trabalho: 1. Em qualquer ponto da curva, a soma das distâncias desse ponto aos dois focos é constante e será igual a 2a, em que a é o semi-eixo maior. 2. Quanto maior a distância entre dois focos, maior é a excentricidade, e, da elipse. A equação da excentricidade pode ser dada por r e= a2 − b 2 , a2 (2.1) em que b é o semi-eixo menor. 3. Se considerarmos um dos focos ocupado por um estrela, o ponto da órbita mais próximo desse foco será chamado de periastro, e o ponto mais distante será chamado de apoastro. A distância do periastro e do apoastro até a estrela são dadas, respectivamente, por q = a(1 − e) , (2.2) Q = a(1 + e) . (2.3) e 4. Equação da elipse em coordenadas polares: Considerando um ponto P (r, ν) sobre a elipse (o 1 O livro "Astronomia & Astrofísica"(Kepler & Saraiva 2014) traz uma descrição completa das leis de Kepler. 12 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 13 ponto onde se encontra o planeta, na figura 2.1), em que ν é chamada de anomalia verdadeira (que equivale ao ângulo θ, nas coordenadas polares) . Pela lei dos cossenos, temos que r12 = r2 + (2ae)2 + 2r(2ae) cos ν . (2.4) Da primeira propriedade, sabemos que r1 + r = 2a. Assim, a equação 2.4 se torna r= a(1 + e2 ) . (1 + e cos ν) (2.5) Esta equação nos dá a distância do foco em que se encontra a estrela até um ponto qualquer na órbita. A figura 2.1 ilustra uma órbita planetária com uma estrela em um dos focos. A imagem mostra também os parâmetros trabalhados até então, tanto no sistema de coordenadas cartesiano, em que a origem é dada no centro da elipse (e temos os ponto (a, 0) e (0, b)), quanto no sistema de coordenadas polares, em que a origem é dada no foco F1 (e temos o vetor r até o planeta e o ângulo ν). Figura 2.1: Caracteristicas de uma órbita elíptica. Os pontos da órbita podem ser descritos tanto em termos da anomalia verdadeira (em relação a elipse), ν, quanto da anomalia excêntrica (em relação ao círculo auxiliar), E (Perryman 2011). 13 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 14 Vários ângulos no plano orbital, chamados de "anomalias", são utilizados para descrever a posição de um planeta ao longo de sua órbita, em um tempo específico (Dvorak 2008). A anomalia verdadeira, ν(t), também denotado por f (t), é o ângulo entre a direção do periastro e a posição atual do planeta. Esse é o ângulo normalmente utilizado para caracterizar uma órbita observacional. A anomalia excêntrica, E(t), é um ângulo entre a direção do periastro e um ponto acima do planeta, no círculo auxiliar. A anomalia verdadeira e a anomalia excêntrica se relacionam através das equações: cos ν(t) = cos E(t) − e , 1 − e cos E(t) ou ν(t) tan = 2 1+e 1−e 1/2 tan E(t) . 2 (2.6) (2.7) A anomalia média, M (t), é um ângulo relacionado a um movimento médio fictício em torno da órbita, usado para calcular a anomalia verdadeira. Em uma órbita completa, na qual o planeta (ou estrela) real não se move numa velocidade angular constante, uma taxa média pode ser especificada em termos do movimento médio, tal que n = 2π/P , (2.8) em que P é o período orbital. A anomalia média, num tempo t − tp , após a passagem pelo periastro é definida como M (t) = 2π (t − tp ) ≡ n(t − tp ) , P (2.9) A anomalia média se relaciona com a anomalia excêntrica pela equação: M (t) = E(t) − e sin E(t) . (2.10) A equação 2.10 não possui solução analítica, sendo necessário o uso de computação numérica para encontrar uma solução. Alguns métodos computacionais para a solução desta equação podem ser encontrados no trabalho de Murison (2006). 14 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 15 Toda a descrição, até esse ponto, tem sido feita levando em consideração um sistema em duas dimensões. Ao generalizarmos para três dimensões, alguns novos parâmetros surgem, como ilustrados na figura 2.2. Esses parâmetros são ângulos usados para representar a projeção da órbita verdadeira na órbita observada. Eles dependem apenas da orientação do observador em relação a orbita (Perryman 2011). Figura 2.2: A generalização da órbita para três dimensões causa uma dependência maior no ângulo do observador. Isso faz com que surjam três novos parâmetros (i, Ω, e ω) para a descrição completa da órbita. i é a inclinação do plano orbital. Ω define a longitude do nodo ascendente (medido no plano de referência). ω é o ângulo do nodo ascendente até o periastro. O plano de referência é tangente a esfera celeste (Perryman 2011). i é a inclinação orbital em relação ao plano de referência, variando entre 0◦ e 180◦ . O movimento do planeta é referido como sendo prógrado (na direção do aumento do ângulo da posição) se i < 90◦ , retrógrado para i > 90◦ e projetado na linha dos nodos, se i = 90◦ . Ω é a longitude do nodo ascendente, medido no plano de referência, de forma antihorária. ω é o argumento do periastro. Ele é a coordenada angular do periastro do objeto em relação ao seu nodo ascendente, medido no plano orbital e na direção do movimento (Chobotov 2002). Para um sistema de dois corpos, ambos orbitam o centro de massa de forma elíptica, com o centro de massa nos focos das elipses. Para cada um dos corpos, a terceira lei de Kepler é dada 15 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 16 por P2 = 4π 2 3 a , GM (2.11) em que M e a, respectivamente a massa do corpo e o semi-eixo maior da órbita em questão, tem diferentes valores para cada tipo de órbita medida. Com a definição dos parâmetros orbitais e de sua significância física e astronômica nos sistemas estrela-planeta, podemos agora definir a velocidade radial estelar em termos destes parâmetros. 2.2 Velocidade radial e curvas de velocidade As medidas de velocidade radial descrevem o movimento projetado da estrela, ao longo da linha de visada, enquanto essa orbita o centro de massa do sistema. A medida é feita através de um desvio Doppler no comprimento de onda das linhas de absorção do espectro da estrela. Se, no referencial do observador, a fonte luminosa está recedendo com velocidade v em um ângulo θ relativo a direção do observador à fonte, a variação no comprimento de onda é dada por ∆λ = λobs − λem , (2.12) em que λobs e λem são, respectivamente, o comprimento de onda observado e o comprimento de onda emitido pela fonte. Para v c (sem efeitos relativísticos) e θ π/2, a equação 2.12 toma a forma vr = v cos θ ≈ ∆λ λem c, (2.13) em que c é a velocidade da luz no vácuo. Por convenção, valores positivos indicam recessão, enquanto que valores negativos indicam que a fonte está se aproximando. Sabendo como a velocidade radial se relaciona com o desvio nas linhas do espectro, precisamos encontrar a relação entre a velocidade radial e os parâmetros orbitais. Considerando a figura 2.2 como uma representação da órbita da estrela em torno do centro de massa, a coordenada z da 16 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 17 estrela, ao longo da linha de visão, pode ser obtida por trigonometria e é dada por z = r(t) sin i sin(ω + ν), (2.14) em que r(t) é a distância do centro de massa. Derivando z em relação ao tempo, para encontrarmos a velocidade radial, temos que vr = ż = sin i[ṙ sin(ω + ν) + rν̇ cos(ω + ν)], ou vr = K[cos(ω + ν) + e cos ω] . (2.15) K é chamado de semi-amplitude da velocidade radial e é dada por K≡ 2π a? sin i , P (1 − e2 )1/2 (2.16) em que a? é o semi-eixo maior da estrela, em relação ao foco ocupado pelo centro de massa. Considerando a terceira lei de Kepler, dada pela equação 2.11, mas para o caso da estrela orbitando o centro de massa, podemos escrevê-la como 4π 2 3 a , GM 0 ? (2.17) Mp3 , (M? + Mp )2 (2.18) P2 = e M 0 é dado por M0 ≡ em que Mp é a massa do planeta e M? é a massa da estrela. As equações 2.16, 2.17 e 2.18 podem ser combinadas em uma expressão alternativa para K (Cumming et al. 1999) K= 2πG P 1/3 Mp sin i 1 . 2/3 (M? + Mp ) (1 − e2 )1/2 (2.19) Conhecendo a massa da estrela, através do tipo espectral e da classe de luminosidade, por exemplo, 17 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 18 podemos então determinar Mp sin i. A massa do planeta sempre estará acompanhada pelo termo sin i, assim, podemos somente inferir um limite inferior para a massa do planeta (Gregory 2005). Da mesma forma, a? também não pode ser determinado separadamente. Será inferido o valor de a? sin i. Das equações 2.15 e 2.6 - 2.10, vemos que a velocidade radial depende de cinco parâmetros livres, que são chamados de parâmetros primários (Balan & Lahav 2008a): K, ω, e, tp e P . Enquanto que os parâmetros secundários são aqueles obtidos através do valor dos parâmetros primários: Mp , a? , ap . Alguns trabalhos, como o de Feroz et al. (2011), fazem χ = tp /P um parâmetro primário, fazendo com que tp se tornasse um parâmetro secundário, e inserem um termo de fase V , que descreve a componente da velocidade radial do centro de massa do sistema relativo ao centro de massa do sistema solar, fazendo com que o número de parâmetros primários aumente para seis. A equação, neste caso, se torna vr = V − K[cos(ω + ν) + e cos ω] . (2.20) Para sistemas com mais de um planeta, as interações gravitacionais planeta-planeta são ignoradas. Supõe-se apenas a interação de cada planeta com a estrela, de forma independente. A equação 2.15 pode ser generalizada como vr = N X Ki [cos(ωi + νi ) + ei cos ωi ] , (2.21) i=1 em que N representa o número de planetas no sistema. Assim, teremos um conjunto de 5N (ou 5N + 1, no caso de V estar inserido na equação) parâmetros livres. Conhecendo os parâmetros livres e com um conjunto de dados das medições da velocidade radial, os parâmetros podem ser ajustados e ter seu melhor ajuste inferido através de ferramentas estatísticas. Nos casos de sistemas multi-planetários, pode-se ajustar os parâmetros do planeta com sinal dominante. Após feito isso, subtrai-se a contribuição deste planeta dos dados observados. O processo então é repetido até que os sinais significantes de todos os planetas seja analisado. No capítulo 3, são apresentadas tais ferramentas, de um modo geral, que nos permite analisar os dados. Alguns métodos que já se mostraram bem-sucedido, e que será apresentado, inclui o algoritmo de 18 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 19 Levenberg-Marquardt (Cumming 2004), o método de Monte Carlo via Cadeia de Markov (Balan & Lahav 2008a) e o Nested Sampling (Feroz et al. 2011). As figuras 2.3, 2.4 e 2.5 mostram as curvas de velocidade, obtidas através da equação 2.20, ilustrando como a forma da curva irá depender dos parâmetros e e ω, enquanto que os outros parâmetros influenciam apenas na amplitude e no período das curvas. Podemos ver que a influência de ω aumenta de acordo com o aumento da excentricidade. Nas figuras, os parâmetros e e ω serão variados, enquanto os outros serão fixados nos valores: K = 20 m.s−1 , P = 1200 dias e χ = 0, 6. Figura 2.3: Curvas de velocidade para e = 0, 05. Podemos ver que para um baixo valor da excentricidade, o ângulo ω não influencia tanto na forma do gráfico. 19 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 20 Figura 2.4: Curvas de velocidade para e = 0, 5. Podemos ver uma influência maior de ω na forma das curvas de velocidade. 20 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 21 Figura 2.5: Curvas de velocidade para e = 0, 9. O valor alto da excentricidade faz com a curva apresente essas regiões de rápida queda ou subida. 21 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 2.3 22 Erros das medidas e ruídos astrofísicos A precisão dos instrumentos utilizados são de extrema importância para a detecção de exoplanetas. Sistemas com planetas de pequena massa terão uma pequena variação na velocidade radial da estrela. Se o instrumento não for preciso o suficiente, a detecção de tais planetas se tornam impossíveis. Os dados obtidos através dos telescópios são contaminados por erros. O erro é algo característico do processo de medição, podendo ter vários fatores que influenciam. Os erros serão divididos, nesse trabalho, em dois tipos: o erro instrumental, que inclui também o erro devido a referenciais, e o ruído astrofísico, que é o erro devido a atividade estelar, e que não tem como ser retirado das medidas. Da mesma forma que planetas de pequena massa causarão uma pequena variação na velocidade radial, se essa variação for da ordem de grandeza dos erros das medidas, pode se tornar difícil a detecção deste planeta ou o sinal pode mimicar o sinal de um planeta. Conhecer a fonte dos erros nos ajuda a fazer uma análise mais precisa dos dados. A tabela 2.1 mostra, para uma típica estrela M2, a influência de uma companheira com diferentes massas e períodos orbitais. Podemos ver que para uma companheira estelar, a ordem de grandeza da variação da velocidade radial é muito grande, quando comparada a uma companheira planetária. Enquanto que para uma companheira com a massa da Terra, a variação é muito pequena e pode até mesmo se perder no ruído. M2 1MSol 0.08MSol 1MJupiter 1MT erra 3d 93km/s 11km/s 140m/s 0.5m/s 10 d 63km/s 7,5km/s 94m/s 0,3m/s 1 ano 19km/s 2,3km/s 28m/s 0,09m/s Tabela 2.1: Influência de diferentes tipos de companheiras para uma típica estrela M2. A primeira coluna se refere a massa das companheiras e o cabeçalho se refere ao período orbital das mesmas. Fonte: Tabela cedida pelo Astrônomo do ESO, Doutor Cláudio Melo. A equação 2.13 não considera efeitos relativísticos. Os termos correspondentes a relatividade especial causam uma mudança na velocidade radial na ordem de vários m.s−1 . A equação também omite os efeitos do índice de refração do ar no espectrômetro, nar = 1, 000277 (em condições normais de temperatura e pressão), no qual introduz erros de aproximadamente 1 m.s−1 (Marcy & Butler 1992). 22 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 23 O movimento do observador, em torno do centro de massa do Sistema Solar, devido a rotação e translação da Terra, produz contribuições as medidas. Essas contribuições, variantes no tempo, podem chegar a até 0, 5 e 30 km.s−1 , para o movimento de rotação e de translação, respectivamente. Para detectar a variação na velocidade radial, precisamos utilizar um referencial em repouso ou em movimento uniforme. Por isso, é comum adotar o centro de massa do Sistema Solar como referencial. Ajustando os efeitos que perturbam o movimento do sistema, como a influência gravitacional dos outros planetas do Sistema Solar, os termos residuais podem ser levados a um valor menor do que 1 m.s−1 (Perryman 2011). Esses tipos de efeitos, em geral, conseguem ser compensados ou separados do conjunto de dados finais. Vários telescópios atuais possuem um pipeline que já fazem a análise e retiram os erros dados por esses efeitos (em geral, relacionados ao movimento e ao próprio instrumento), como o HARPS, por exemplo, que utiliza um método "Simultaneous Thorium"2 para obtenção de uma medida precisa da velocidade radial. O ruído astrofísico (ou ruído estelar) pode ser considerado como sendo a atividade na superfície estelar, oscilações estelares, granulação da superfície, companheiros planetários não identificados, atividade magnética da estrela ou erros sistemáticos. Todos esses fatores influenciam no bamboleio (do inglês, jitter) das medidas de velocidade radial. Esses erros são relevantes e é necessário conhecê-los. Mesmo estrelas com pouca atividade magnética ainda apresentam heterogeneidade devido a convecção magnética na superfície. Quando as bolhas de plasma sobem pela fotosfera, e, portanto, se movem em direção ao observador, elas sofrem um desvio para o azul, e quando as bolhas dispersam e caem em direção ao interior da estrela, elas sofrem um desvio para o vermelho. Esse movimento causa uma assimetria nas linhas observadas do espectro. Para estrelas do tipo Sol, o resultado total dessas variações no espectro causam desvios na velocidade radial da ordem de dezenas de cm.s−1 (Ceglar et al. 2014). Os efeitos da oscilação estelar nas medidas do efeito Doppler são geralmente menores do que os efeitos produzidos por atividade estelar, mas são mais significantes para gigantes e subgigantes. Resultados do HARPS mostraram que integrações de 15 minutos são suficientes para reduzir esse efeito para menos do que 0, 2 m.s−1 (Mayor & Udry 2008). 2 Para mais informações sobre o méotodo: < http://www.eso.org/sci/facilities/lasilla/instruments/harps/overview.html > 23 Capítulo 2. Velocidade radial como forma de detectar exoplanetas 24 Apesar dos ruídos astrofísicos não serem possíveis de se retirar das medidas, alguns trabalhos, como Balan & Lahav (2008a), mostram uma modelação matemática para os dados, de modo a levar em consideração os erros. A equação para os dados tem a forma di = vi + ei + , (2.22) em que di são os dados observados, vi é a velocidade radial teórica dada pela equação 2.15, ei é uma componente de incerteza, que inclui os ruídos astrofísicos e considera-se que seja normalmente distribuído, e considera qualquer erro ou incerteza que não tenha sido previsto. Esse modelo, usado, por exemplo, em Balan & Lahav (2008a), Gregory (2005) e Feroz et al. (2011), é bastante útil na análise Bayesiana3 , ao considerar a forma como o erro se distribui. Tuomi et al. (2012) faz uma extensiva análise dos sinais que aparecem intrínsecos às medidas de velocidade radial através de comparação de modelos, utilizando estatística Bayesiana, para quantificar o número de sinais significantes e a magnitude e propriedades do ruído em excesso nos dados, para a estrela HD 10700 (τ Ceti). No trabalho, Tuomi et al. (2012) concluem que junto a um modelo de decaimento exponencial, o ruído branco4 é o que melhor se ajusta ao ruído dos conjuntos de dados. Ajustando os parâmetros do ruído, pode-se detectar sinais muito fracos, com amplitude menor do que 1 m.s−1 . 3 4 A análise Bayesiana, e os métodos estatísticos derivadas dela, serão explorados no próximo capítulo. O ruído branco é um ruído aleatório que é dado por uma distribuição gaussiana e é não-correlacionado. 24 CAPÍTULO 3 MÉTODOS ESTATÍSTICOS E INFERÊNCIA A obtenção de dados, a partir das observações e experimentos, nem sempre é o suficiente para nos dar as informações que queremos extrair. Necessitamos, então, de ferramentas matemáticas que nos permitam analisar estatisticamente o conjunto de dados obtidos, para que possamos extrair tais informações. Um dos motivos para se utilizar essas ferramentas se dá devido ao fato da imprecisão ou da interferência nas medidas, que são característicos do processo de medição (Hogg & Craig 1978). No capítulo anterior, foram mostradas as causas dessas imprecisões no caso da velocidade radial (os ruídos astrofísicos). A análise estatística, em conjunto com os dados, nos permite obter informações como, por exemplo, qual modelo teórico explica melhor os dados, qual conjunto de parâmetros melhor se adequa em comparação aos dados ou quais as distribuições de probabilidade dos parâmetros ou do modelo, em seus respectivos espaços de valores. No presente trabalho, focaremos na inferência de parâmetros. Nesse capítulo, mostraremos alguns métodos e análises estatísticas, e a teoria matemática por trás delas, explicitando os casos em que funcionam e os casos em que a análise é falha. Começaremos com modelos mais simples, baseados no mínimo quadrado e máxima verossimilhança, passando pelo teorema de Bayes e a inferência Bayesiana e, por último, mostrando métodos que se utilizam da inferência Bayesiana. 25 Capítulo 3. Métodos estatísticos e inferência 3.1 26 Método da máxima verossimilhança e o método do χ2 mínimo O método da máxima verossimilhança (referida, no resto do trabalho, como “likelihood”) é um método de inferência de parâmetros, que pode ser aplicado numa grande variedade de problemas estatísticos. O método é baseado na likelihood, isto é, na função de densidade de probabilidade (ou, para o caso discreto, na massa de probabilidade) vista como uma função dos dados, dado um conjunto particular de parâmetros do modelo (Rice 2007). Suponha que as variáveis aleatórias X1 , . . . , XN sejam descritas pela mesma função de densidade de probabilidade f (x1 , x2 , . . . , xN |θ), em que θ representa o conjunto de parâmetros do modelo. Se os Xi são independentes e identicamente distribuídas (i.i.d.), então a probabilidade conjunta será igual ao produto das densidades marginais, de modo que podemos escrever a likelihood L(θ) como (Feigelson & Babu 2012) L(θ) = N Y f (Xi |θ) . (3.1) i=1 Ao invés de maximizarmos a própria likelihood, é mais fácil maximizar o seu logaritmo natural. Para uma amostra i.i.d., o log-likelihood é l(θ) = lnL(θ) = N X lnf (Xi |θ) . (3.2) i=1 O método da máxima likelihood, então, irá depender da forma como as variáveis se distribuem. Cada problema poderá ter uma likelihood diferente, mas se a distribuição for correta para o problema, maximizar a likelihood nos permitirá inferir sobre os parâmetros. Porém, conforme o tamanho da amostra de dados vai aumentando, a distribuição amostral da média se aproxima cada vez mais de uma distribuição normal, de acordo com o teorema do limite central1 . Isto é, para um grande número de dados, podemos aproximar a função de distribuição de probabilidade como 1 O teorema do limite central diz que para uma sequência de variáveis aleatórias independentes com a mesma distribuição, a distribuição pode ser aproximada por uma Gaussiana, no limite em que o tamanho amostral tende a infinito (Feigelson & Babu 2012) 26 Capítulo 3. Métodos estatísticos e inferência 27 sendo uma gaussiana. Assim, a likelihood pode ser escrita como L(θ) = N Y i=1 " 1 1 √ exp − 2 σ 2π yi − ŷ(xi , θ) σi 2 # , (3.3) em que yi representa o conjunto de dados, ŷ(xi , θ) representa o modelo teórico para uma determinada grandeza xi (como o tempo, por exemplo) e o conjunto de parâmetros, θ, e σi é o erro relativo a i-ésima medida. O método da máxima likelihood é caracterizado por convergir para o verdadeiro valor dos parâmetros, na medida em que o número N de medidas vai aumentando. O método não possui tendência, isto é, para qualquer tamanho amostral, o parâmetro de interesse é calculado corretamente. A estimativa tem menor variância. A solução da máxima likelihood é única. Porém, para uma boa inferência, devemos conhecer a distribuição de probabilidade correta. Este método não funciona muito bem para modelos com equações não-lineares, uma vez que equações não-lineares podem ter mais de uma solução para elas, logo o método da máxima likelihood pode dar um resultado de falso melhor ajuste dos parâmetros (Hogg & Craig 1978). Outro método, conhecido como o método do χ2 (lê-se “qui-quadrado”) mínimo, pode ser obtido diretamente como consequência do método da máxima likelihood. A partir da equação (3.3), temos que maximizar a likelihood significa o mesmo que minimizar o termo da exponencial, que chamaremos de χ2 . Assim, temos que 2 χ (θ) = 2 N X yi − ŷ(xi , θ) σi i=1 . (3.4) Além das características do método da máxima likelihood, temos que o método do χ2 mínimo pode dar falsos resultados caso o modelo ou o erro não seja distribuído normalmente, ou caso exista uma forte correlação entre os parâmetros do modelo (Hansen et al. 2013). Apesar disto, o método se mostrou bem sucedido em vários problemas na física e astronomia, como, por exemplo, a determinação de melhor ajuste e regiões de confiança dos parâmetros de densidade nos modelos cosmológicos ΛCDM e XCDM (Teixeira 2014), e em estimação de parâmetros em astronomia de raio-X (Lampton et al. 1976). 27 Capítulo 3. Métodos estatísticos e inferência 28 Um exemplo, para fins ilustrativos, da inferência através do método do mínimo quadrado, na astrofísica, pode ser encontrado na figura 3.1. O problema trata de comparação de modelo e inferência de parâmetros no estudo, através de lente gravitacional fraca, da distribuição de matéria escura numa amostra de 30 grupos de galáxias luminosas em raio-X, com desvio para o vermelho entre 0,15 e 0,3.2 Figura 3.1: Comparação da massa do virial estimada para os modelos SIS e NFW para cada um dos 30 grupos de galáxias. Os pontos representam os dados observados. A linha é obtida através do melhor ajuste dos parâmetros aplicado ao modelo teórico. O eixo horizontal representa a massa do virial no modelo SIS (do inglês: singular isothermal sphere). O eixo vertical representa a massa do virial no modelo NFW (Navarro-Frenk & White). (Okabe et al. 2010). 3.2 Método do mínimo quadrado não-linear Na seção anterior, era necessário que os parâmetros aparecessem linearmente na equação do modelo teórico. Se um ou mais dos parâmetros forem não-linear, a inferência pode dar falsos melhores ajustes. Nesta seção, mostraremos como tratar o caso não-linear para a inferência, no caso do mínimo quadrado. Definimos uma função não-linear, em termos de algum parâmetro, como sendo uma função f = f (α1 , . . . , αN ) tal que ∂f /∂αi = g(αi ), para pelo menos um dos parâmetros α (caso fosse linear, a derivada seria uma constante). Isto é, sua derivada parcial em relação a um, ou 2 Para informações mais detalhadas sobre o fenômeno físico e a forma como foi utilizado o método estatístico, acessar o trabalho de Okabe et al. (2010) 28 Capítulo 3. Métodos estatísticos e inferência 29 mais, dos seus parâmetros será uma função do próprio parâmetro (Hansen et al. 2013). Para a inferência de parâmetros em tal modelo, vários métodos podem ser utilizados, como, por exemplo, o método de Newton, o método do máximo declive (em inglês, steepest descent) ou o método de Levenberg-Marquardt, que serão os três métodos abordados neste trabalho. Da equação 3.4, podemos aproximar o valor do χ2 , tal que 2 χ (θ) = 2 N X yi − ŷ(xi , θ) σi i=1 = (y − ŷ(θ))T W(y − ŷ(θ)), (3.5) em que y e ŷ são vetores agora, T indica a transposta do vetor, e W é uma matriz diagonal relativo ao peso das medidas, com Wii = 1/σi2 . Se a função ŷ é não-linear em termos dos parâmetros, então a minimização do χ2 deve ser feita através de iterações. O objetivo de cada iteração é de encontrar uma perturbação h dos parâmetros θ que reduza o χ2 . 3.2.1 O método do máximo declive O método do máximo declive é um método de minimização geral, no qual atualiza os valores dos parâmetros na direção oposta ao gradiente da função do modelo. O método converge bem para problemas com função do modelo simples. Para problemas com milhares de parâmetros, este método é, às vezes, o único método viável (Gavin 2015). O gradiente do χ2 em relação aos parâmetros do modelo é dado por ∂ 2 ∂ χ (θ) = (y − ŷ(θ))T W (y − ŷ(θ)) ∂θ ∂θ ∂ŷ(θ) = −(y − ŷ(θ))T W ∂θ T = −(y − ŷ(θ)) WJ , (3.6) em que J é a matriz Jacobiana m x n e representa a sensibilidade local da função do modelo a variação dos parâmetros. Portanto, o termo de perturbação h, que atualiza os parâmetros na direção 29 Capítulo 3. Métodos estatísticos e inferência 30 do máximo declive, pode ser escrito como hmd = αJT W(y − ŷ) , (3.7) sendo α um escalar positivo que determina o tamanho do passo na direção do máximo declive. 3.2.2 Método de Newton O método de Newton (também conhecido como método de Gauss-Newton) presume que a função do modelo é aproximadamente quadrática nos parâmetros, na região próxima do melhor ajuste. Para problemas de tamanhos moderados, o método de Newton converge mais rapidamente do que o método do máximo declive (Press et al. 1997). Perturbando a função do modelo, podemos aproximá-la localmente por uma expansão de Taylor de primeira ordem, tal que ŷ(θ + h) ≈ ŷ(θ) + ∂ŷ h = ŷ + Jh . ∂θ (3.8) Assim, substituindo ŷ(θ) na equação 3.5 e derivando χ2 em relação a perturbação, temos que ∂ 2 χ ≈ −2(y − ŷ)T WJ + 2hT JT WJ . ∂h (3.9) Minimizando χ2 , isto é, fazendo a derivada igual a zero, encontramos uma relação para o termo que atualiza os parâmetros [JT WJ]hmd = JT W(y − ŷ) . 3.2.3 (3.10) Método de Levenberg-Marquardt O método de Levenberg-Marquardt pode ser entendido como uma mistura do método de Newton e o método do máximo declive. Este método consiste em variar, de acordo com a situação, a atualização dos parâmetros entre os métodos de máximo declive e de Newton. A equação é dada por (Lourakis 2005) [JT WJ + λI]hlm = JT W(y − ŷ) , 30 (3.11) Capítulo 3. Métodos estatísticos e inferência 31 em que I é a matriz identidade e λ é um escalar. Para baixos valores de λ, temos o método de Newton, e para altos valores de λ, temos o método do máximo declive. Computacionalmente, o escalar λ é atualizado a cada iteração, fazendo com que o algoritmo alterne entre os dois métodos. Se a iteração e atualização dos parâmetros resultar num χ2 pior, então o valor de λ aumenta. Enquanto que se o valor do χ2 melhorar, o valor de λ diminui. Portanto, quando os parâmetros se encontram longe do valor de melhor ajuste, o algoritmo funciona como o método de máximo declive. E quando os parâmetros se encontram próximo do melhor ajuste, o algoritmo funciona como o método de Newton. Essa alternância entre métodos implica num resultado mais confiável e num tempo de computação reduzido, porém o método pode falhar, caso o ponto inicial dos parâmetros seja muito distante da solução (Himmelblau 1972) ou caso a equação seja multimodal, fazendo com que o resultado dado seja um mínimo local e não o mínimo global. Um exemplo do algoritmo está disponível no livro Numerical Recipes (Press et al. 1997), em C ou Fortran. Na figura 3.2, temos um exemplo do método, utilizado na detecção de exoplanetas através do método de velocidade radial. O método de Levenberg-Marquardt não é muito confiável nesta análise, uma vez que a equação é multimodal, portanto se faz necessário o auxilio de outra ferramenta. Neste caso, é utilizado um periodograma de Lomb-Scargle3 . Figura 3.2: Exemplo do método de Levenberg-Marquardt aplicado ao problema da velocidade radial na detecção de exoplanetas. Em ambos, temos a representação da velocidade radial com excentricidade e = 0.5, em que foi (gráfico de cima) e não foi (gráfico de baixo) detectado planeta. A linha pontilhada representa a órbita verdadeira e a linha sólida representa a órbita no melhor ajuste dos parâmetros. O χ2 nos dois casos é menor para a curva sólida. (Cumming 2004). 3 O periodograma de Lomb-Scargle é uma ferramenta computacional para determinar ciclos e períodos em uma série temporal. Uma análise detalhada pode ser encontrada no trabalho de Zechmeister & Kürster (2009). 31 Capítulo 3. Métodos estatísticos e inferência 3.3 32 Teorema de Bayes e a inferência Bayesiana Do estudo da probabilidade, se tivermos dois eventos, A e B, de um mesmo espaço amos- tral, Ω, a probabilidade condicional do evento A, dado o evento B é definido (Rice 2007) como P (A|B) = P (A ∩ B) , P (B) (3.12) em que P (A|B) é a probabilidade de A, dado B, P (A ∩ B) é a probabilidade da interseção entre A e B, e P (B) é a probabilidade do evento B. Como consequência da equação 3.12, obtemos a lei da multiplicação, dada por P (A ∩ B) = P (A|B)P (B) , (3.13) e pode ser generalizada para n eventos, tal que P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 ) . . . P (An−1 |A1 , . . . , An−2 ) ×P (An |A1 , . . . , An−1 ) . (3.14) Consideremos B1 , B2 , . . . , Bn como sendo partições do espaço amostral Ω, isto é, a união de todos os Bi é igual ao próprio Ω e Bi ∩ Bj = 0 para i 6= j. Então, a lei da probabilidade total nos diz que, para um evento A, teremos P (A) = n X P (A|Bi )P (Bi ) . (3.15) i=1 Dos resultados das equações 3.14 e 3.15, podemos, então, escrever o teorema de Bayes da forma P (A|Bj )P (Bj ) P (Bj |A) = Pn . i=1 P (A|Bi )P (Bi ) (3.16) Esse teorema é aplicável a qualquer forma de probabilidade e evento. Estatística Bayesiana moderna adota uma interpretação particular dessas probabilidades, sendo usada na inferência Bayesiana (Feigelson & Babu 2012). O teorema de Bayes pode ser reescrito para funções de densidade de probabilidade, sem 32 Capítulo 3. Métodos estatísticos e inferência 33 que haja perda de informação ou generalização (Andreon & Weaver 2015). Substituindo A por um observável (ou conjunto de dados) D, e B por um vetor de parâmetros θ, temos que a equação 3.16 toma a forma P (θ|D) = P (D|θ)P (θ) , P (D) (3.17) em que cada termo da expressão tem uma importância específica. P (θ|D) é a probabilidade condicional do vetor de parâmetros θ, dado o conjunto de dados D. Esse termo é chamado de probabilidade posteriori. P (D|θ) é a probabilidade condicional do observável D, dado θ, e é chamado de função de likelihood. O termo P (θ) é a probabilidade marginal do vetor de parâmetros, também chamado de informação a priori. E o termo P (D) é a probabilidade marginal do conjunto de dados D, chamado de evidência. A informação a priori será a distribuição como se acredita ou como dados coletados anteriormente nos leva a crer que tal modelo ou parâmetros sejam distribuídos. Encontrar a forma correta da informação (ou distribuição) a priori é uma das principais dificuldades deste método (Wilkinson 2000) . Outra dificuldade se encontra na análise computacional para modelos teóricos complexos. O uso de ferramentas computacionais junto a inferência Bayesiana se faz necessário para a simplificação do problema. O método de Monte Carlo via cadeia de Markov e o Nested Sampling são dois exemplos de ferramentas estatísticas que facilitam a computação e a inferência dos parâmetros. Ambos são abordados neste trabalho. A likelihood, já discutida na seção 3.1, em geral apresenta uma forma simples, como a de uma distribuição Gaussiana ou de Poisson. Porém, problemas mais complexos, em que a equação tenha muitas variáveis, seja altamente não-linear ou apresente uma função de likelihood multimodal, possuem funções de likelihood muito difíceis de definir (Feigelson & Babu 2012). Alguns métodos ainda mais avançados de inferência estatística são capazes de resolver esses casos, como um caso generalizado do Nested Sampling. Porém, a análise deste modelo generalizado encontra-se fora do escopo do trabalho. A evidência, ou a probabilidade marginal do conjunto de dados X, é a probabilidade apenas dos dados. É o foco principal do Nested Sampling, que será discutido na seção 3.5, em que se usa a evidência para inferência de parâmetros, determinar média e desvio padrão, e comparação de modelos. 33 Capítulo 3. Métodos estatísticos e inferência 34 A distribuição posteriori quantifica o que sabemos dos parâmetros depois de termos observado o conjunto de dados. Se a distribuição posteriori tiver um pico bem definido, então os parâmetros foram bem estimados. Se for uma função sem ou com vários picos, então os parâmetros foram mal estimados ou com um grau de incerteza grande (Andreon & Weaver 2015). A inferência Bayesiana tem sido utilizada com sucesso no contexto da obtenção de parâmetros orbitais através dos dados de velocidade radial. Como, por exemplo, os trabalhos de Balan & Lahav (2008a), Gregory (2005) e Brewer & Donovan (2015). 3.4 Método de Monte Carlo via cadeia de Markov (MCMC) A inferência Bayesiana é uma poderosa ferramenta para determinação de parâmetros. Contudo, para modelos mais complexos, a computação vai se tornando muito difícil e longa. Para resolvermos este problema, podemos fazer uso do método de Monte Carlo via cadeia de Markov (MCMC, do inglês: Markov Chain Monte Carlo). O MCMC tem sido bastante explorado recentemente, devido aos avanços computacionais e a sua aplicação na inferência Bayesiana. Este método tem sido utilizado com sucesso na detecção de exoplanetas e na inferência de seus parâmetros orbitais (Gregory 2006), e na reinterpretação dos dados de velocidade radial (Balan & Lahav 2008a). Na seção anterior, vimos que a distribuição posteriori era dada pela equação 3.17. A partir dela, temos que o valor esperado posterior de uma função f (θ) será dada por R E[f (θ)|D] = f (θ)P (θ)P (D|θ)dθ R , P (θ)P (D|θ)dθ (3.18) em que E[.] é o valor esperado, em que o ponto significa um argumento qualquer. A integral acima tem sido, até recentemente, uma das maiores dificuldades na inferência Bayesiana. Na maioria das aplicações, a avaliação analítica do valor esperado era impossível (Gilks et al. 1997). O MCMC é um dos métodos de se resolver a integral para os casos mais complexos ou com alta dimensionalidade. Para evitar confusão entre termos, reescreveremos a equação 3.18 de uma forma mais geral. Chamaremos de X um vetor de k variáveis aleatórias, com distribuição π(.). Em termos práticos, X será os parâmetros do modelo e π(.) será a distribuição posteriori. Assim, a equação 3.18 toma 34 Capítulo 3. Métodos estatísticos e inferência 35 a forma R E[f (X)] = f (x)π(x)dx R . π(x)dx (3.19) A equação acima presume que X seja composta de variáveis aleatórias contínuas. Porém, para o caso discreto, a integral é substituída por um somatório. A integração de Monte Carlo consiste em retirar amostras das distribuições necessárias e então aproximar os valores esperados das médias amostrais. Neste caso, para avaliarmos E[f (X)], retiramos amostras {Xt , t = 1, . . . , n} de π(.) e, então, estimamos a média populacional de f (X) pela média amostral. Assim, temos que n 1X f (Xt ) . E[f (X)] ≈ n t=1 (3.20) Uma forma de gerar as amostras {Xt } é através de uma cadeia de Markov, em que π(.) seja sua distribuição estacionária. Esse é o chamado método de Monte Carlo via Cadeia de Markov. Se gerarmos uma sequência de variáveis aleatórias, {X0 , X1 , . . . }, tal que para cada tempo t ≥ 0, o próximo estado Xt+1 será retirado de uma distribuição P (Xt+1 |Xt ), que depende apenas do estado presente da cadeia. Isto é, o estado futuro da cadeia independe dos estados passados e, consequentemente, da história da cadeia (Wilkinson 2000). Iremos presumir que a cadeia seja homogênea no tempo, ou seja, P (.|.) não depende de t. Sujeita a condições regulares e dado que a memória da cadeia só depende do valor presente (uma cadeia com memória de curto prazo), a cadeia irá, eventualmente, “esquecer” o seu estado inicial X0 e irá convergir para uma distribuição estacionária (ou invariante) única, que denotaremos por φ(.). Portanto, conforme t aumenta, os pontos das amostras {Xt } irão parecer como amostras dependentes de φ(.). Para evitar contaminação dos dados devido as amostras iniciais, devemos descartar esses pontos. Assim, podemos estimar o valor esperado E[f (X)], em que X terá distribuição φ(.) (Gilks et al. 1997). Se forem descartados m pontos, temos que o valor esperado será dado por f¯ = n X 1 f (Xt ) , n − m t=m+1 que é chamada de média ergódica. 35 (3.21) Capítulo 3. Métodos estatísticos e inferência 36 Para a análise computacional, dois algoritmos se destacam no MCMC: o algoritmo de Metropolis-Hastings e o Amostrador de Gibbs, como veremos a seguir. 3.4.1 Algoritmo de Metropolis-Hastings Sabendo como calcular o valor esperado, precisamos construir uma cadeia de Markov, em que a distribuição estacionária φ(.) seja precisamente a nossa distribuição de interesse, chamada de distribuição alvo, π(.). O algoritmo foi descrito por Hastings (1970), que é uma generalização do método inicialmente proposto por Metropolis et al. (1953), e propõe uma forma genérica de se construir uma cadeia de Markov para X, que seja ergódica e estacionária em relação a π(.). Um dos motivos para a escolha deste algoritmo é a sua simplicidade, sua versatilidade e pela diminuição no tempo de computação (Robert 2015). No algoritmo, para cada tempo t, o estado seguinte Xt+1 é escolhido, primeiramente, através de uma amostra de um ponto candidato, Y , retirado de uma distribuição proposta, q(.|Xt ). Perceba que a distribuição proposta pode depender do valor atual Xt . O ponto candidato Y é, então, aceito com probabilidade α(Xt , Y ), em que π(Y )q(X|Y ) α(X, Y ) = min 1, , π(X)q(Y |X) (3.22) min é uma função computacional que retorna o menor número em seu argumento. Se o candidato for aceito, então a cadeia se move e o próximo estado se torna Xt+1 = Y . Se o candidato for rejeitado, a cadeia não se move, isto é, Xt+1 = Xt . A distribuição proposta, q(.|.), pode ter qualquer forma e a distribuição estacionária da cadeia será π(.) (Gilks et al. 1997). Assim, podemos escrever o algoritmo de Metropolis-Hastings da seguinte forma: 1. Iniciar o contador de iteração j = 1, e iniciar a cadeia em X0 ; 2. Gerar um valor proposto Y a partir de q(.|Xt ); 3. Avaliar a probabilidade de aceitação α(Xt−1 , Y ) do valor proposto; 4. Faça Xt = Y com probabilidade α(Xt−1 , Y ), ou faça Xt = Xt−1 , caso contrário; 36 Capítulo 3. Métodos estatísticos e inferência 37 5. Mude o contador de j para j + 1 e retorne ao passo 2. No caso especial em que a distribuição proposta seja simétrica, isto é, em que q(X|Y ) = q(Y |X), a equação 3.22 pode ser reduzida à π(Y ) α(X, Y ) = min 1, π(X) . (3.23) Outros exemplos de casos especiais são: O primeiro, chamado de Caminhada aleatória de Metropolis, considera q(Y |X) = q(|X − Y |) (Robert 2015); o segundo, de cadeias independentes, a transição proposta é formada independentemente da posição anterior na cadeia, tal que q(X|Y ) = f (Y ) e q(Y |X) = f (X); o terceiro é uma cadeia híbrida, em que o algoritmo de Metropolis-Hastings é trabalhado em conjunto com o amostrado de Gibbs (que será mostrado na próxima seção). O segundo caso pode ser trabalhado dentro do contexto da inferência Bayesiana, em que ao invés de fazermos π(Y )/π(X) na equação 3.23, substituímos por L(Y )/L(X), ou seja, depende apenas da razão entre as likelihoods do ponto candidato e do ponto atual (Wilkinson 2000). A figura 3.3 apresenta um exemplo do MCMC aplicado a velocidade radial para determinação dos parâmetros orbitais da estrela HD 73526. Temos um conjunto de sete gráficos, em que cada um contém a forma da cadeia após as iterações, após a remoção dos pontos iniciais das cadeias. Percebe-se que, apesar do caráter aleatório da cadeia, ela permanece dentro de uma faixa de valores. Essa faixa corresponde a região de maior probabilidade. A figura 3.4 mostra a distribuição posteriori dos parâmetros orbitais. Comparando as duas figuras, vemos que a região de maior probabilidade da cadeia é exatamente a mesma da distribuição posteriori. As distribuições a priori utilizadas para os parâmetros foram mostrados por Balan & Lahav (2008a) e Gregory (2005) como sendo: Jeffrey’s prior4 , para T (ou P , como também é denotado o período); Jeffrey’s modificado5 , para K e s (termo relativo aos erros das medidas); e uniforme para o resto dos parâmetros. Nas figuras, os parâmetros aparecem na ordem, da esquerda para a direita e de cima para baixo: P (d), K(ms−1 ), V (ms−1 ), χ, e, ω(rad) e s(ms−1 ). 1 Jeffrey’s Prior: Nesse contexto, essa distribuição é dada por T ln(Tmax /Tmin ) 5 Jeffrey’s Modificado: Nesse contexto, essa distribuição é dada por (K+Ka ) ln((K1a +Kmax )/K0 ) 4 37 Capítulo 3. Métodos estatísticos e inferência 38 Figura 3.3: Comparação das iterações MCMC após o descarte dos pontos iniciais. Os parâmetros são de uma análise Bayesiana de dados de velocidade radial para detecção de exoplanetas e inferência dos parâmetros orbitais. O eixo horizontal representa o número de iterações e o eixo vertical representa o valor do parâmetro (Gregory 2005). Figura 3.4: Distribuição posteriori dos parâmetros orbitais da estrela HD 73526. Cada distribuição tem apenas um pico no ponto de melhor ajuste do parâmetro. O eixo horizontal representa o valor do parâmetro e o eixo vertical o valor da sua função de densidade de probabilidade (Gregory 2005). 38 Capítulo 3. Métodos estatísticos e inferência 3.4.2 39 Amostrador de Gibbs O amostrador de Gibbs é uma forma de simular a partir de distribuições multivariadas baseada na capacidade de simular a partir de distribuições condicionais. Isto é, quando X é tal que Xt = (Xt1 , Xt2 , . . . , Xtk ), em que k > 1. A ideia básica por trás do amostrador de Gibbs é que, ao invés de retirarmos um candidato para o próximo estado de uma vez, fazemos de forma separada, para cada uma das k dimensões de X, em que cada escolha dependerá das outras k − 1 dimensões (Resnik & Hardisty 2010). Considerando que a densidade de interesse seja π(Xt ), em que Xt = (Xt1 , Xt2 , . . . , Xtk ), podemos escrever o algoritmo como sendo: 1. Iniciar o contador de iteração j = 1. Iniciar o primeiro estado da cadeia X0 = (X01 , X02 , . . . , X0k ) com os valores iniciais da cadeia; 2. Obtenha um novo valor Xt , a partir de Xt−1 , por sucessivas gerações de valores: k 2 ) , . . . , Xt−1 Xt1 ∼ π(X 1 |Xt−1 k 3 ) , . . . , Xt−1 Xt2 ∼ π(X 2 |Xt1 , Xt−1 .. . Xtk ∼ π(X k |Xt1 , Xt2 , . . . , Xtk−1 ) 3. Mude o contador j para j + 1 e volte ao passo 2. Durante a iteração, os novos valores são utilizados assim que obtidos. Ou seja, após obtermos Xt1 , o valor de Xt2 será retirado da distribuição já considerando o valor novo de Xt1 , e Xt3 será retirado considerando os valores novos de Xt1 e Xt2 . Esse algoritmo define uma cadeia de Markov homogênea, uma vez que cada valor simulado depende apenas do valor simulado anteriormente, e não em qualquer outro valor simulado ou no contador de iteração j (Wilkinson 2000). Existem, hoje, vários softwares que fazem análise de dados e retornam a distribuição posteriori, baseados no amostrador de Gibbs. Alguns deles, disponíveis gratuitamente, são: JAGS6 , WinBUGs7 e OpenBUGS8 . 6 JAGS: Disponível para download em: http://mcmc-jags.sourceforge.net WinBUGs: Disponível para download em: http://www.mrc-bsu.cam.ac.uk 8 OpenBUGS: Disponível para download em: http://www.openbugs.net 7 39 Capítulo 3. Métodos estatísticos e inferência 40 O amostrador de Gibbs pode ser usado em conjunto com o algoritmo de MetropolisHastings, como dito na subseção anterior. Cada valor novo das componentes de X precisaria ser avaliado e ser aceito ou rejeitado, de acordo com o algoritmo de Metropolis-Hastings. A figura abaixo mostra uma ilustração para o caso desses dois algoritmos em conjunto para dois parâmetros, X.1 e X.2 . Os parâmetros seguem a distribuição π(.) e iniciam no estado X0 . Podemos observar que os estados se movem, dentro do espaço dos parâmetros, em uma direção de cada vez, característico do amostrador de Gibbs. Pode-se perceber, também, que temos passos que foram rejeitados, fazendo com que a cadeia não se movesse, que é característico do algoritmo de Metropolis-Hastings. Fazendo com que haja essa alternância na atualização dos parâmetros, a cadeia converge de forma mais confiável para o melhor ajuste dos parâmetros. Figura 3.5: Ilustração do amostrador de Gibbs junto do algoritmo de Metropolis-Hastings, para uma distribuição alvo bivariada. Componentes 1 e 2 são atualizados alternadamente, produzindo movimentos alternados na vertical e na horizontal 3.5 Nested Sampling Ao realizar uma análise Bayesiana, dois problemas difíceis emergem. Primeiro, na estima- tiva de parâmetros em que a distribuição posteriori seja multimodal ou apresente degenerescência. Segundo, na escolha de possíveis modelos teóricos para o problema (Feroz & Skilling 2013). O 40 Capítulo 3. Métodos estatísticos e inferência 41 Nested Sampling, desenvolvido pelo físico John Skilling (2004), é uma forma contemporânea do método de Monte Carlo que foca no cálculo eficiente da evidência, mas que ainda permite a inferência posteriori como consequência, dando meios de avaliar tanto a estimação de parâmetros, quanto a escolha de modelo (Feroz et al. 2014). A evidência, mostrada inicialmente na equação 3.17, no caso de variáveis aleatórias contínuas, é dada por Z Z= L(θ)π(θ)dθ , (3.24) em que, agora, a evidência será denotada por Z, L(.) é a função de likelihood, π(.) é densidade a priori e θ é o vetor de parâmetros de interesse. A evidência engloba a chamada navalha de Occam, isto é, um modelo menos complexo (com menos parâmetros ajustáveis) que se ajusta bem aos dados será preferido, ao invés de um modelo mais complexo (Pullen & Morris 2014). A escolha de modelo pode ser feita através da avaliação da densidade posteriori. Para dois modelos, H1 e H0 , temos que β= P r(D|H1 )P r(H1 ) Z1 P r(H1 ) = , P r(D|H0 )P r(H0 ) Z0 P r(H0 ) (3.25) em que β é chamado de fator de Bayes. Se os modelos forem equiprováveis, ou não haja nenhuma informação que favoreça qualquer um dos dois modelos, podemos fazer P r(H1 )/P r(H0 ) = 1. Assim, a comparação entre modelos pode ser facilmente calculada, uma vez que soubermos as suas respectivas evidências. Definindo a massa cumulativa a priori como Z X(λ) = π(θ)dθ , (3.26) L(θ)>λ temos que X(λ) irá cair de 1 à 0, enquanto λ cresce. Assim, a integral da evidência é transformada de um espaço de parâmetro multidimensional para um espaço unidimensional, tal que Z Z= 1 L(X)dX . (3.27) 0 Se a likelihood, L(X), for conhecida (e integrável à Riemann), ao avaliarmos as likelihoods, Li = 41 Capítulo 3. Métodos estatísticos e inferência 42 L(Xi ), para uma sequência determinística de valores de X 0 < XM < · · · < X2 < X1 < X0 < 1 , (3.28) então, a evidência pode ser aproximada numericamente usando apenas métodos de quadratura (Evans 2006), tal que Z ≈ Ẑ = M X Li ωi , (3.29) i=1 com ωi sendo o peso e dado por ωi = 1/2(Xi−1 − Xi+1 ) ou ωi = Xi − Xi+1 . M é o número total de pontos. A figura 3.6 mostra a relação inversa entre L e X. A máxima likelihood pode ser vista como o caso em que X tende a zero, assim como L vai para zero quando X tende a um. Podemos justificar a utilização do método da quadratura para aproximar a evidência devido ao fato de ser uma função contínua e dada pela área abaixo da curva. Figura 3.6: Representação da integral dada pela equação 3.27, mostrando a relação inversa entre a likelihood e a massa cumulativa a priori (Skilling 2004). O somatório na equação 3.29 pode ser resolvido da seguinte forma. Primeiro, N pontos ’ativos’ são retirados uniformemente da distribuição a priori, π(θ), e o volume a priori inicial, X0 , é definido como igual a um. Em cada iteração i subsequente, o ponto com a menor likelihood é removida do conjunto ativo de pontos e substituído por outro ponto, que é retirado uniformemente da distribuição a priori. Porém, com a condição de que sua likelihood seja maior do que a likelihood 42 Capítulo 3. Métodos estatísticos e inferência 43 do ponto no qual ele está substituindo (Jing 2009). O volume a priori contido dentro da região na i-ésima iteração é uma variável aleatória dado por Xi = ti Xi−1 , em que ti segue a distribuição P r(t) = N tN −1 . Esse processo é repetido até que o volume inteiro tenha sido atravessado. Como cada valor de log t é independente, depois de i iterações o volume a priori irá se reduzir a log Xi ≈ √ exp(−(i i)/N ) (Feroz & Skilling 2013). Portanto, podemos fazer Xi = exp(−i/N ) . (3.30) O valor médio e o desvio padrão dos parâmetros são dados, respectivamente, por (Aitken & Akman 2013): µθ = M X ωi Li i=1 Z θi , e σθ = M X ω i Li i=1 Z (3.31) !1/2 θi2 − µ2θ . (3.32) O algoritmo básico para uma análise por Nested Sampling pode feito da seguinte forma: 1. Retire N amostras no espaço dos parâmetros θ 1 , . . . , θ N da distribuição a priori π(θ); 2. Ache o ponto θ l com a menor likelihood da sequência atual de N pontos θ 1 , . . . , θ N , e faça Li = L(θ l ); 3. Faça Xi = exp(−i/N ) ou retire uma amostra ti com P (t) = N tN −1 e faça Xi = ti Xi−1 ; 4. Faça ωi = Xi−1 − Xi ou ωi = (Xi−1 − Xi+1 )/2 (caso tenha obtido Xi através da amostra de ti ); 5. Atualize Z, tal que Zi = Zi−1 + ωi Li ; 6. Retire um ponto θ k de π(θ) com restrição de que L(θ k ) > Li , e, então, substitua o valor de θ l por θ k 7. Volte ao passo 2 e repita passos 2-6 até terminação; 8. Atualize Z com adição dos pontos ativos, XN (L(θ 1 ) + · · · + L(θ N )/N 43 Capítulo 3. Métodos estatísticos e inferência 44 O último passo é baseado na consideração de efeitos de borda (Skilling 2006). A condição de terminação da repetição dos passos 2-6 é através do valor da atualização no passo 5. Se o valor ωi Li for muito pequeno em relação a Zi−1 , então a repetição pode ser terminada, pois iterações seguintes não irão contribuir mais de forma significante para o valor da evidência (Pullen & Morris 2014). Uma das dificuldades principais da computação se encontra na amostragem. Nem sempre será possível retirar uma amostra θ k de π(θ) que satisfaça a restrição L(θ k ) > Li . Mesmo quando possível, após um certo número de iterações, a likelihood vai se aproximando do valor máximo, o que torna o processo de computação cada vez mais lenta, para encontrar uma amostra que satisfaça a condição de restrição. Uma possível solução a esse problema é de transformar a distribuição a priori numa distribuição uniforme e usar MCMC para explorar um novo ponto (Jing 2009). A figura 3.7 ilustra como o método funciona. Com três pontos ativos, temos, na imagem da direita, que a cada passo, o ponto que tem menor likelihood é removido do conjunto e substituído por um outro ponto que tem likelihood maior. Na imagem da esquerda (que representa o espaço dos parâmetros), vemos como essas substituições, em cada passo da imagem da direita, levam cada vez mais ao valor real dos parâmetros. Ao topo da imagem da direita, temos o conjunto de todos os pontos utilizados, os pontos ativos que sobraram e os pontos que foram descartados. Figura 3.7: Exemplo de um procedimento utilizando Nested Sampling para N = 3. Em cada passo, um ponto é substituído e o estado seguinte se aproxima cada vez mais do melhor ajuste dos parâmetros. Os contornos de likelihood diminuem por um fator de exp(−1/3) em área (Skilling 2006). 44 Capítulo 3. Métodos estatísticos e inferência 45 No contexto da astrofísica, para velocidades radiais estelares, o trabalho de Feroz et al. (2011) mostra uma análise utilizando o Nested Sampling. A figura 3.8, retirada do referido trabalho, ilustra a curva de velocidade radial para um sistema de três planetas, da estrela HD 37124 (figura de cima). E a figura de baixo mostra o mesmo método sendo utilizado para um sistema com seis planetas, da estrela HD 10180. Ambas as figuras mostram a robustez do método para detecção e inferência de parâmetros de sistemas multi-planetários. Figura 3.8: Medidas de velocidade radial, com barras de erro de 1σ, e a curva obtida através do melhor ajuste dos parâmetros, inferidos pelo Nested Sampling, para a estrela HD 37124 (imagem de cima) e para a estrela HD 10180 (imagem de baixo). O eixo horizontal representa o tempo em que as medidas foram feitas e é medida em dias Julianos. O eixo vertical representa a variação da velocidade radial (Feroz et al. 2011). 45 CAPÍTULO 4 SIMULAÇÕES E RESULTADOS No capítulo 2, desenvolvemos a teoria física por trás da velocidade radial, no contexto de detecção de exoplanetas e determinação dos parâmetros orbitais. No capítulo 3, estudamos as ferramentas matemáticas e estatísticas para a análise de dados e inferência de parâmetros. Nesse capítulo, iremos utilizar três das ferramentas estatísticas, o método do χ2 mínimo, MCMC e Nested Sampling, em três casos de interesse físico e matemático: A equação linear, funções senoidais e a velocidade radial. Os casos são desenvolvidos na ordem do mais simples ao mais complexo. A escolha destes casos foi feita de modo que possamos nos aproximar gradativamente ao caso de interesse. Nos dois primeiros casos, serão utilizados dados simulados, em que teremos a função de interesse mais um ruído, gerado pela amostragem de uma distribuição previamente escolhida. No último caso, utilizaremos dados reais de velocidade radial. A simulação dos dados é feita através da equação que queremos trabalhar. Definimos valores “reais” dos parâmetros que serão ajustados nos testes estatísticos. Após a definição da equação e dos valores reais dos parâmetros, adicionamos um termo de ruído, fazendo amostragens aleatórias de distribuições. O teste estatístico tentará recuperar os valores reais dos parâmetros, uma vez que os valores da função estarão contaminados pelo ruído. Temos, então, como objetivos: mostrar como cada método funciona, inferir o melhor ajuste dos parâmetros para cada caso, mostrar os gráficos obtidos através do melhor ajuste dos 46 Capítulo 4. Simulações e resultados 47 parâmetros e explicitar as limitações dos métodos estatísticos apresentados. Para isso, fazemos uso de algoritmos de autoria própria, utilizando a linguagem R1 . Tais algoritmos estarão disponíveis em breve na página do NAOS Astronomy2 . 4.1 Equação linear Uma equação linear é a equação que tem a forma y(x) = ax + b . (4.1) Se recebemos um conjunto de dados, ou ao simularmos estes dados, e tentarmos ajustar esses dados com uma equação linear, teremos dois parâmetros ajustáveis, a e b. Em todas as situações e métodos estatísticos, nesse trabalho, o número de pontos simulados é de N = 50. Em cada um dos métodos estatísticos, trabalharemos com diferentes situações. Mostrando, por exemplo, como a presença do ruído influencia no teste, quais as limitações que a adição do ruído causa ou como modular o ruído, adicionando-o no modelo teórico, para um precisão melhor dos dados, assim como mostrado na equação 2.22 para o caso da velocidade radial. 4.1.1 Método do χ2 mínimo A análise foi feita em cima de uma equação linear com ruídos dados por distribuições uniforme, em que todos são equiprováveis, e gaussiana, em que os valores serão centrados num valor médio. Os valores reais dos parâmetros, escolhidos de forma arbitrária, são a = 5 e b = 10. A ordem de grandeza do ruído tem um papel muito importante no ajuste dos parâmetros. Se a ordem de grandeza do ruído for maior que a ordem de grandeza do valor “puro” das medidas, o teste não será capaz de ajustar os parâmetros de forma satisfatória. As figuras 4.1 e 4.2, mostram justamente os casos em que os ruídos têm ordem de grandeza da ordem do valor puro das medidas 1 Disponível gratuitamente para download em: < https://www.r-project.org > NAOS astronomy é o Núcleo de Astrofísica Observacional e Astroestatística da Universidade Federal do Rio Grande do Norte, cujo site pode ser acessado através do endereço: < http://naosastronomy.com > . 2 47 Capítulo 4. Simulações e resultados 48 e quando a ordem de grandeza dos ruídos é maior. O algoritmo gera valores aleatórios para os ruídos, de modo que toda vez que o programa é executado, o ruído terá um valor diferente. Portanto, para ilustrar melhor a influência da ordem de grandeza do ruído, executamos o programa dez vezes. O valor do melhor ajuste, para cada caso, se encontra nas tabelas 4.1 e 4.2. Figura 4.1: Simulação do teste do χ2 mínimo com ruído uniforme. Os valores máximos e mínimos das distribuições uniforme são, respectivamente, 5 e −5 (figura da esquerda) e 20 e −20 (figura da direita). O melhor ajuste dos parâmetros é de a = 5, 1 e b = 9, 7 (figura da esquerda) e a = 6, 2 e b = 7, 4 (figura da direita). A linha representa a função no melhor ajuste dos parâmetros. Mesma ordem de grandeza a = 5, 1 b = 9, 7 a = 4, 9 b = 9, 9 a = 5, 0 b = 9, 7 a = 4, 8 b = 11, 0 a = 5, 1 b = 9, 1 a = 5, 0 b = 9, 5 a = 5, 1 b = 9, 7 a = 5, 3 b = 9, 5 a = 4, 9 b = 10, 1 a = 5, 4 b = 9, 2 Ordem de grandeza maior a = 6, 2 b = 7, 4 a = 4, 7 b = 13, 4 a = 6, 5 b = 6, 3 a = 6, 5 b = 7, 2 a = 7, 5 b = 2, 3 a = 5, 9 b = 6, 8 a = 2, 2 b = 15, 5 a = 4, 8 b = 7, 6 a = 5, 8 b = 6, 9 a = 2, 4 b = 15, 4 Tabela 4.1: Comparação entre os melhores ajustes para diferentes ordens de grandeza dos ruídos, para o ruído uniforme. Podemos perceber que o desvio padrão nos melhores ajustes no primeiro caso (ruído da mesma ordem de grandeza) é menor do que no segundo caso (ruído com ordem de grandeza maior). Quanto maior for o valor do ruído, em comparação ao valor “puro” das medidas, menor é a confiança dos ajustes. 48 Capítulo 4. Simulações e resultados 49 Figura 4.2: Simulação do teste do χ2 mínimo com ruído gaussiano. Os valores médios e desvios padrão das distribuições são, respectivamente, 0 e 5 (figura da esquerda) e 0 e 20 (figura da direita). O melhor ajuste dos parâmetros é de a = 4, 9 e b = 9, 6 (figura da esquerda) e a = 3, 4 e b = 16, 3 (figura da direita). A linha representa a função no melhor ajuste dos parâmetros. Mesma ordem de grandeza a = 4, 9 b = 9, 6 a = 5, 3 b = 9, 3 a = 4, 7 b = 11, 0 a = 5, 2 b = 9, 8 a = 5, 0 b = 10, 0 a = 4, 9 b = 9, 4 a = 5, 4 b = 10, 0 a = 5, 2 b = 9, 3 a = 5, 4 b = 8, 6 a = 4, 4 b = 11, 2 Ordem de grandeza maior a = 2, 5 b = 12, 3 a = 4, 7 b = 11, 4 a = 6, 7 b = 1, 4 a = 2, 3 b = 13, 1 a = 2, 9 b = 18, 0 a = 5, 8 b = 3, 7 a = 3, 8 b = 10, 3 a = 6, 4 b = 9, 1 a = 6, 1 b = 5, 2 a = 5, 2 b = 11, 0 Tabela 4.2: Comparação entre os melhores ajustes para diferentes ordens de grandeza dos ruídos, para ruído gaussiano. Podemos perceber que o desvio padrão nos melhores ajustes no primeiro caso é menor do que no segundo caso. Ilustrando, assim, como a ordem de grandeza do ruído atrapalha na inferência dos parâmetros. Podemos ver, através das figuras e tabelas 4.1 e 4.2, que o método do χ2 mínimo consegue satisfatoriamente ajustar os parâmetros no caso de uma função linear. Porém, se a ordem de grandeza do ruído na medida for muito grande, em comparação ao valor “puro” da medida, temos que o teste não é mais tão confiável, sendo preferido alguma técnica mais robusta para analisar os dados. Podemos também observar que a média, para os casos em que o ruído é da mesma ordem de grandeza e nos casos em que a ordem de grandeza do ruído é maior, converge para o valor real dos parâmetros. De modo que o problema do excesso de ruído pode ser solucionado aumentando o 49 Capítulo 4. Simulações e resultados 50 número de de medidas ou o número de inferências realizadas, em acordo com o Teorema do Limite Central. 4.1.2 Método de Monte Carlo via Cadeia de Markov Na análise feita através do método MCMC, nosso objetivo será mostrar, para o único caso em que o ruído é gaussiano, o melhor ajuste dos parâmetros, a linha obtida no melhor ajuste, a cadeia Markoviana e as distribuições posteriori dos parâmetros de interesse. Serão analisados dois casos, em que cada um terá uma distribuição a priori diferente para alguns parâmetros, para o estudo de como a distribuição a priori pode, ou não, influenciar na obtenção da distribuição estacionária. Os valores reais dos parâmetros são de a = 5 e b = 10, enquanto que o ruído gaussiano é dado com média µ = 0 e desvio padrão σ = 5. O desvio padrão do ruído, nesta análise, também entra como uma variável ajustável, e o valor do seu melhor ajuste também será explicitado. A figura 4.3 representa o melhor ajuste para o caso em que as distribuições a priori dos três parâmetros são dadas por distribuições uniforme, com mínimo igual a 0, 1 e máximo igual a 50. Na figura 4.4, temos a cadeia Markoviana e a distribuição posteriori de cada parâmetro. O valor inicial da cadeia é de a = 25, b = 15 e σ = 10. O algoritmo realiza 50000 iterações, em que, após a terminação do programa, rejeitamos os dados iniciais para evitar contaminação. A rejeição de dados, para a obtenção da distribuição estacionária, é de 80% dos pontos. Figura 4.3: Melhor ajuste através do MCMC para distribuições a priori uniforme. Os valores dos parâmetros no melhor ajuste é a = 5, 10, b = 8, 97 e σ = 6, 12, com desvio padrão de, respectivamente, 0, 70, 1, 53 e 0, 77. 50 Capítulo 4. Simulações e resultados 51 Figura 4.4: À esquerda, temos as cadeias Markovianas para os três parâmetros de interesse. Enquanto que na direita, temos as suas distribuições posteriori. Em que, em ambos os casos, var1 representa a, var2 é a variável b e var3 é σ. Podemos ver, nas distribuições posteriori, que temos um pico bem definido para cada parâmetro. Podemos também perceber que, apesar do caráter aleatório, os valores na cadeia giram em torno do valor real dos parâmetros. 51 Capítulo 4. Simulações e resultados 52 As figuras 4.5 e 4.6 representam os mesmos casos anteriores, a função no melhor ajuste dos parâmetros, as cadeias Markovianas e as distribuições posteriori dos parâmetros. Mas as distribuições a priori, agora, são dadas por distribuições gaussianas, com média 0 e desvio padrão 3, para a e σ, enquanto que a distribuição a priori de b é dada por uma distribuição uniforme, com mínimo de 0 e máximo de 30. O ponto de início da cadeia é o mesmo do caso anterior, a = 25, b = 15 e σ = 10. Podemos observar que, apesar da distribuição posteriori ter uma forma levemente diferente, o que ocorre devido ao caráter aleatório do ruído que é gerado e ao caráter aleatório da própria cadeia, temos que a região de maior probabilidade ainda se encontra perto do valor real dos parâmetros. Assim, neste caso, em que a função de estudo é linear, não vemos uma relação muito grande entre a distribuição a priori e a distribuição estacionária. Figura 4.5: Melhor ajuste através do MCMC para diferentes priori. Os valores dos parâmetros no melhor ajuste é a = 4, 78, b = 10, 47 e σ = 5, 53, com desvio padrão de, respectivamente, 0, 55, 1, 57 e 0, 68. 52 Capítulo 4. Simulações e resultados 53 Figura 4.6: À esquerda, temos as cadeias Markovianas para os três parâmetros de interesse. Enquanto que na direita, temos as suas distribuições posteriori. Em que, em ambos os casos, var1 representa a, var2 é a variável b e var3 é σ. Podemos ver, nas distribuições posteriori, que temos, em alguns casos, um pico “secundário”, um pouco menor que o pico maior. Isso pode ser resolvido aumentando o número de iterações da cadeia ou ajustando a distribuição a priori. A partir das figuras apresentadas nas análises das duas situações, pode-se observar que a escolha da distribuição a priori não tem muita influência. Em ambos os casos, conseguimos ajustar bem a função no melhor ajuste dos parâmetros aos pontos. Isso se deve à simplicidade da equação e pelo fato dos parâmetros não serem correlacionados. Tendo uma ideia do valor real do parâmetro, pode-se ajustar a distribuição a priori para que seja uma gaussiana com média próxima ao valor real do parâmetro. Resultando em um valor mais confiável. 53 Capítulo 4. Simulações e resultados 4.1.3 54 Nested Sampling No método do Nested Sampling, queremos mostrar como a média dos parâmetros, no conjunto ativo se aproxima do valor real dos parâmetros. A análise não focará muito no estudo da evidência, mas no cálculo da média e desvio padrão dos parâmetros. De modo que os gráficos produzidos, como mostram as figuras 4.7 e 4.8, será da função estudada não no melhor ajuste dos parâmetros, mas no valor da média dos parâmetros. E será mostrado que a média dos parâmetros do conjunto ativo pode ser usado como o melhor ajuste dos parâmetros. Assim como no caso anterior, analisaremos duas situações distintas, em que a diferença entre elas está na distribuição nas quais serão retiradas as amostras. Evitando a repetição dos casos estudados anteriormente, a primeira situação, agora, será em que o parâmetro a e σ são dados por distribuições uniforme, com mínimo igual a 0, 1 e máximo igual a 20, e b será dado por uma distribuição gaussiana, com média 5 e desvio padrão 5 (um valor muito longe do valor real do parâmetro implicará em um erro grande). Já no segundo caso, teremos dois parâmetros com distribuições representadas por distribuições gaussianas, a e b, com médias 2 e 5, e desvios padrão 3 e 5, respectivamente. σ será representado por uma distribuição uniforme, com máximo 20 e mínimo 0, 1, para evitar erro no algoritmo, quando σ apresenta valor negativo. Isso é feito para que a distribuição não fique centrada muito próximo do valor real, mostrando de forma mais satisfatória a eficácia do algoritmo. Em ambos os casos, o número inicial do conjunto de dados será de N = 100. Após toda a análise e das substituições dos pontos, será retirado metade dos pontos, ficando, ao final, com 50 pontos ativos. O número de iterações, isto é, o número de vezes em que um valor é substituído no conjunto inicial é 1000N , para um valor mais preciso da média. Podemos ver, através da figuras, que o valor da média dos parâmetros, de fato, ajusta bem os pontos. Podemos ver, também, que este método tem um resultado bem confiável, com baixo desvio padrão. Porém, é necessário um conhecimento prévio a cerca de como os parâmetros se distribuem. Em uma distribuição gaussiana, o desvio padrão irá aumentando, conforme a média da distribuição for se afastando do valor real dos parâmetros. Assim como no caso da análise MCMC, a simplicidade da equação linear faz com que não surjam problemas devido a mudança das distribuições a priori. 54 Capítulo 4. Simulações e resultados 55 Figura 4.7: Melhor ajuste através do Nested Sampling para diferentes priori. Os valores dos parâmetros no melhor ajuste é a = 4, 97, b = 10, 06 e σ = 5, 40, com desvio padrão de, respectivamente, 0, 17, 0, 50 e 0, 17. Figura 4.8: Melhor ajuste através do Nested Sampling para priori gaussiana. Os valores dos parâmetros no melhor ajuste é a = 5, 30, b = 9, 87 e σ = 5, 42, com desvio padrão de, respectivamente, 0, 20, 0, 51 e 0, 17. 55 Capítulo 4. Simulações e resultados 4.2 56 Senos e cossenos As funções senos e cossenos são descritas, respectivamente, por y(x) = A sin(kx) , (4.2) y(x) = A cos(kx) , (4.3) e em que A é a amplitude e k é a frequência angular. A análise, para os três métodos estatísticos, consiste em estudar dois casos distintos. No primeiro, o método será aplicado nas equações da forma da equação 4.2, com adição do ruído. No segundo caso, a análise será feita em uma adição de cossenos, em que teremos quatro parâmetros ajustáveis, relativo a amplitude e da frequência de cada cosseno. Diferentemente do estudo feito na seção anterior, haverão intervalos sem pontos, simulando uma série temporal que tenha um intervalo de tempo entre um conjunto de medições e outro. A escolha do intervalo dos parâmetros e do segundo caso, a soma dos cossenos, servem como uma introdução à análise feita na seção seguinte, sobre velocidade radial, cuja equação é dada pela equação 2.15. 4.2.1 Método do χ2 mínimo O primeiro caso estudado, como mencionado anteriormente, será feito em uma equação senoidal, dada pela equação 4.2. Os valores reais dos parâmetros são A = 5 e k = 3. O ruído é dado por um ruído gaussiano, com média µ = 3 e desvio padrão σ = 4. Enquanto que no segundo caso, dado pela soma de dois cossenos, teremos quatro parâmetros livres, com valores reais dados por A1 = 3, k1 = 5, A2 = 5 e k2 = 3. O ruído, também dado por uma distribuição gaussiana, tem média µ = 1 e desvio padrão σ = 3. Podemos observar, através da figura 4.9, que, apesar do intervalo entre conjunto de pontos, o método do χ2 mínimo ainda consegue ajustar os dados de forma satisfatória. A figura 4.10 ilustra a curva de melhor ajuste para o caso da soma de cossenos. O melhor ajuste dos parâmetros nos mostra que o método do χ2 mínimo começa a apresentar erros altos para alguns parâmetros, mesmo 56 Capítulo 4. Simulações e resultados 57 com um baixo valor de ruído. Assim, o método já se torna impróprio para equações deste tipo, equações mais complexas ou com um maior número de parâmetros. Figura 4.9: Curva de melhor ajuste da função seno através do χ2 mínimo. O melhor ajuste dos parâmetros é de A = 4, 6 e k = 3. Observa-se que, apesar de alguns pontos acima da curva, o melhor ajuste foi próximo ao valor real. Figura 4.10: Curva de melhor ajuste da soma de cossenos através do χ2 mínimo. O melhor ajuste dos parâmetros é de A1 = 2, 1, k1 = 5, 0, A2 = 4, 0 e k2 = 3, 0. Observa-se que, apesar de, em geral, os pontos se encontrarem próximos a curva, o resultado do melhor ajuste se encontra distante do valor real dos parâmetros.. 57 Capítulo 4. Simulações e resultados 4.2.2 58 Método de Monte Carlo via Cadeia de Markov O objetivo da análise do método de Monte Carlo via Cadeia de Markov é a obtenção das distribuições posteriori dos parâmetros. O primeiro caso estudado, a de uma simples função seno, terá os seguintes valores reais dos parâmetros: A = 5, k = 3. O ruído, assim como na análise do χ2 mínimo é dado por uma distribuição gaussiana, que tem média µ = 3 e desvio padrão σ = 4. O desvio padrão será, além do A e k, um parâmetro a ser inferido. As distribuições a priori são dadas por distribuições gaussianas, em que para A temos média 3 e desvio padrão 3, para k temos média 5 e desvio padrão 3 e para σ temos média 1 e desvio padrão 3. O valor inicial da cadeia é dada por A = 20, k = 10 e σ = 15. O número de iterações da cadeia é de N = 100000, em que ao final das iterações, são removidos 95000 pontos. De modo que a cadeia final é dada por 5000 pontos. A figura 4.11 e 4.12 representam, respectivamente, a função no melhor ajustes dos parâmetros e as distribuições posteriori dos parâmetros. Podemos observar que a distribuição posteriori de A e σ não possui um único pico bem definido, como no caso de k. Porém, a região de maior probabilidade ainda se encontra próximo ao valor real dos parâmetros. Figura 4.11: Curva de melhor ajuste da função seno através do MCMC. O melhor ajuste dos parâmetros é dado por A = 4, 85, k = 2, 93 e σ = 5, 27. O desvio padrão dos parâmetros é dado por 0, 31 para A, 0, 09 para k e 0, 54 para σ. Apesar do intervalo entre pontos de x, o método consegue obter um resultado confiável. 58 Capítulo 4. Simulações e resultados 59 Figura 4.12: Cadeias de Markov e distribuições posteriori para a função seno. Na figura, var1 representa o parâmetro A, var2 representa k e var3 representa σ. Apesar da região de maior probabilidade de A e k estarem próximos do valor real dos parâmetros, a distribuição de σ se encontra longe do valor real. 59 Capítulo 4. Simulações e resultados 60 O segundo caso, em que temos a adição de cossenos, tem como valores reais dos parâmetros semelhantes ao do caso do χ2 mínimo: A1 = 3, k1 = 5, A2 = 5 e k2 = 3. O ruído, também semelhante ao da análise feita para o χ2 mínimo, tem média µ = 1 e desvio padrão σ = 3. As distribuições a priori são dadas por distribuições gaussianas, em que a média e desvio padrão são µ = 3 e σ = 3 para A1 e k2 , µ = 5 e σ = 3 para k1 e A2 , e µ = 1 e σ = 3 para o parâmetro σ, relacionado ao ruído. O estado inicial da cadeia é dado por A1 = 15, k1 = 10, A2 = 10, k2 = 15 e σ = 15. O número de iterações é de N = 100000 e o número de pontos finais na cadeia é de 50000. A curva da função no melhor ajuste dos parâmetros é mostrada na figura 4.13, em que observamos que a função ajusta bem os pontos simulados. As cadeias Markovianas e as distribuições posteriori são mostradas na figura 4.14. No resultado da análise, foi obtido um melhor ajuste com um erro baixo, em relação ao valor real dos parâmetros. O desvio padrão do melhor ajuste ilustra melhor a baixa taxa de erro. Figura 4.13: Curva de melhor ajuste da soma de cossenos para análise MCMC. O melhor ajuste dos parâmetros é dado por A1 = 3, 25, k1 = 5, 0, A2 = 5, 55, k2 = 2, 99 e σ = 3, 21. O desvio padrão obtido foi de 0, 65 para A1 , 0, 05 para k1 , 0, 63 para A2 , 0, 04 para k2 e 0, 30 para σ. 60 Capítulo 4. Simulações e resultados 61 Figura 4.14: Cadeias de Markov e distribuições posteriori para a soma de cossenos. Na figura, var1, var2, var3, var4 e var5 representam, respectivamente, A1 , k1 , σ, A2 e k2 . Apesar dos valores baixos dos desvios padrão e do melhor ajuste próximo ao valor real, podemos observar que alguns dos parâmetros possuem mais de um pico em valores distintos, podendo acarretar em um falso melhor ajuste para tais parâmetros. 61 Capítulo 4. Simulações e resultados 4.2.3 62 Nested Sampling Na análise realizada, através do método Nested Sampling, os valores reais dos parâmetros são levemente diferentes das análises anteriores. No primeiro caso, em que temos a função seno, teremos que os valores reais dos parâmetros são dados por A = 5, k = 3 e σ = 3. Enquanto que no segundo caso, da soma de cossenos, temos os valores A1 = 5, k1 = 3, A2 = 3, k2 = 5 e σ = 3. No primeiro caso, as distribuições a priori, de onde serão retiradas as amostras, são dadas por distribuições gaussianas, para A e k, com média 2 e 5 e desvio padrão 5 e 5, respectivamente. Para o parâmetro σ, a distribuição a priori é dada por uma distribuição uniforme, com mínimo 0, 1 e máximo 20. Já no segundo caso, σ, A1 e k1 tem as mesmas distribuições que σ, A e k do caso anterior. Porém, A2 e k2 são dados por distribuições gaussianas, com média 2 e 5 e desvio padrão 3 e 3. Os resultados, ilustrados nas figuras 4.15 e 4.16, são próximos aos valores reais dos parâmetros, porém, no segundo caso, o desvio padrão associado ao melhor ajuste dos parâmetros é maior, se comparado à análise feita na análise MCMC, encontrada na subseção anterior. Enquanto que no primeiro caso, os valores de melhor ajuste e de desvio padrão foram melhores do que na análise MCMC. Isso pode ter ocorrido devido ao caráter aleatório do ruído adicionado, cujo efeito pode ter sido mais acentuado em uma análise ou menos acentuada em outra. Figura 4.15: Melhor ajuste pelo método Nested Sampling para função seno. Os melhor ajuste dos parâmetros são dados por A = 5, 00, k = 3, 03 e σ = 3, 68. O desvio padrão é de 0, 57 para A, 0, 04 para k e 0, 27 para σ. 62 Capítulo 4. Simulações e resultados 63 Figura 4.16: Melhor ajuste pelo método Nested Sampling para a soma de cossenos. Os melhor ajuste dos parâmetros são dados por A1 = 4, 58, k1 = 3, 03, A2 = 3, 66, k2 = 5, 17 e σ = 3, 68. O desvio padrão é de 0, 86 para A1 , 0, 17 para k1 , 0, 80 para A2 , 0, 21 para k2 e 0, 46 para σ. Apesar dos valores próximos ao melhor ajuste, o desvio padrão associado foi alto, comparado ao MCMC. 4.3 Velocidade radial Após as análises de casos mais simples, analisaremos, agora, o problema central deste trabalho. A equação da velocidade radial, dada pela equação 2.20, não será a forma utilizada nesse trabalho. Alternativamente, a equação utilizada será a mesma equação de trabalhos que já se mostraram bem sucedidos em inferir parâmetros orbitais. A equação, utilizada por Balan & Lahav (2008a), Gregory (2006) e Feroz et al. (2011), é dada por vr = V − K(sin(ν + ω) + e sin(ω)) , (4.4) em que V é um termo de fase, K é a semi-amplitude de velocidade, ω é a longitude do periastro, e é a excentricidade e ν é a anomalia verdadeira, cuja equação é dada pela equação 2.7, tan ν 2 = 1+e 1−e 1/2 E tan , 2 (4.5) e E(t), a anomalia excêntrica, é dado, em termos da anomalia média, M (t), pela equação M (t) = E(t) − e sin E(t) . 63 (4.6) Capítulo 4. Simulações e resultados 64 Por fim, temos que a anomalia média é dada pela equação M (t) = 2π t −χ P , (4.7) em que P é o período orbital do sistema e χ é o fator de passagem do periastro, definido no capítulo 2. A equação 4.5 não possui solução analítica, tendo sido necessário o desenvolvimento de ferramentas computacionais para solucioná-la. Os parâmetros livres, que serão ajustados nas análises, são: V , K, ω, e, P , χ e s. s é um termo relativo ao ruído, considerado gaussiano, como modelado pelos trabalhos citados anteriormente. Por ser um termo aditivo, s tem a dimensão de velocidade. Nesse trabalho, iremos analisar dois casos similares para a velocidade radial no método do χ2 mínimo e apenas um caso nos outros dois métodos. Utilizando os valores de melhor ajuste dos parâmetros para a estrela HD 187085, iremos aplicar os métodos estatísticos primeiramente para dados simulados (somente na análise do χ2 mínimo), com ruído gaussiano adicionado, e para os dados reais da velocidade radial da estrela HD 187085. Os dados reais utilizados foram obtidos pelo Telescópio Anglo-Australiano, do observatório de mesmo nome, localizado na Austrália. O objetivo dessa seção é comparar os resultados obtidos com os resultados do trabalho de Balan & Lahav (2008b) e da enciclopédia de planetas extrassolares 3 . HD 187085 é uma estrela da sequência principal, que se encontra a uma distância de 44, 98pc, na constelação de Sagitário. Tem uma idade estimada de 3, 3Giga-anos, massa de 1, 22M , metalicidade [F e/H] de 0, 05 e pertence a classe espectral G0V. Essa estrela possui apenas um planeta descoberto até a data do presente trabalho, o planeta HD 187085b. Os valores dos parâmetros orbitais do planeta, que serão utilizados nesse trabalho como os valores reais dos parâmetros, no caso da simulação de dados, são dados por4 : K = 17, 25 m.s−1 , ω = 0, 46 rad, e = 0, 33, P = 986 dias, χ = 0, 12, V = −0, 99 e s = 5, 51. A figura 4.17 mostra a curva de velocidade radial obtida por Balan & Lahav (2008a) e será utilizada para a comparação com as curvas obtidas como resultado desse trabalho. 3 Acesso em: 19 de Julho de 2016. Dados obtidos através do trabalho de Balan & Lahav (2008a) e da enciclopédia de planetas extrassolares. A simulação de dados será utilizado apenas no método do χ2 mínimo, apenas como uma forma explorar mais o método. Em caso de conflito entre os dados, adotamos os dados da enciclopédia. 4 64 Capítulo 4. Simulações e resultados 65 Figura 4.17: Curva de velocidade radial obtido por Balan & Lahav para HD 187085. Essa curva será utilizada na comparação com os resultados obtidos nesse trabalho. (Balan & Lahav 2008b) 4.3.1 Método do χ2 mínimo Como já mencionado, o primeiro caso trabalhado é o caso em que os dados de velocidade radial são simulados e um ruído é adicionado sobre estes dados. Os objetivos são: verificar a precisão do simulador de dados, obter o melhor ajuste dos parâmetros e verificar o quão bem a curva da velocidade radial no melhor ajuste dos parâmetros ajusta os dados simulados. Por limitação do método, o parâmetro s, relativo ao ruído, não entra na análise. O primeiro problema apresentado, na utilização desse método, está no tempo de computação necessário para uma análise com seis variáveis. Para uma análise bem precisa, duas soluções foram pensadas. A primeira delas consiste em executar o código numérico, fazendo com que os parâmetros variem em um intervalo grande, mas com um passo grande nas iterações. Feito isso, executamos o código novamente, dessa vez, restringindo os valores dos parâmetros e diminuindo o tamanho do passo da iteração, de acordo com o melhor ajuste obtido anteriormente. Repete-se até que tenhamos um pequeno intervalo dos parâmetros e fazendo a iteração em pequenos passos. A segunda delas consiste em executar o código com um grande intervalo e com pequeno passo. O tempo de execução, nesse caso, pode chegar a mais de 3 dias seguidos de computação, o que não é recomendável. A execução do código para os resultados apresentados nesse trabalho foi feita seguindo a primeira opção. A figura 4.18 mostra a curva de velocidade radial no melhor ajuste dos parâmetros. Po65 Capítulo 4. Simulações e resultados 66 demos observar que, apesar da curva ter se adequado bem aos dados simulados, um pequeno ruído guassiano, com média µ = 0 e desvio padrão σ = 3, foi o suficiente para que o melhor ajuste, nos parâmetros ω e e, tenham apresentado um erro muito grande. De modo que essa sensibilidade ao ruído faz com que esse método não seja adequado na inferência de parâmetros para a velocidade radial. O segundo caso estudado, em que a análise é feita através de dados reais de velocidade radial, a curva no melhor ajuste dos parâmetros e os pontos observados são ilustrados na figura 4.19. Podemos observar que existem muitos pontos que se encontram distantes da curva, o que significa que a curva não ajusta muito bem os dados reais da velocidade radial. Vemos que, em geral, os parâmetros obtidos através do método χ2 mínimo possuem um erro alto, em relação aos parâmetros obtidos por Balan & Lahav (2008b), mostrados na tabela 4.4 da subseção seguinte, com exceção do fator de passagem do periastro, χ, e do período, P. Figura 4.18: Curva de velocidade radial no melhor ajuste dos parâmetro para dados simulados. O melhor ajuste dos parâmetros é dado por: K = 16, 5 m.s−1 , ω = 5, 09 rad, e = 0, 51, χ = 0, 1, P = 1000 dias e V = −3 m.s−1 . Apesar da curva ajustar bem os parâmetros, o erro nas medidas de ω e e faz com que o método não seja bem sucedido na inferência dos parâmetros. 66 Capítulo 4. Simulações e resultados 67 Figura 4.19: Curva de velocidade radial no melhor ajuste dos parâmetros para HD 187085 através do χ2 mínimo. O melhor ajuste dos parâmetros é dado por: K = 14, 8 m.s−1 , ω = 1, 12 rad, e = 0, 21, χ = 0, 13, P = 1060 dias e V = 1, 3 m.s−1 . Os valores do melhor ajuste ainda possuem um erro alto, comparado com o resultado obtido por Balan & Lahav (2008b) 4.3.2 Método de Monte Carlo via Cadeia de Markov Nessa subseção, focaremos apenas na análise dos dados reais de velocidade radial da estrela HD 187085. Seguindo o trabalho de Balan & Lahav (2008b), que utiliza MCMC em sua análise, o objetivo é obter resultado semelhante ao resultado do referido trabalho. Gregory (2006) e Balan & Lahav (2008a) sugerem duas possíveis opções de escolha de distribuições a priori. Balan & Lahav (2008a) mostra, ainda, que há uma leve diferença nos resultados obtidos em cada uma das opções, porém essa diferença não é significativamente alta. A primeira opção de distribuições a priori é mostrada na tabela 4.3, retirado de Balan & Lahav (2008a), em que o período, P , segue uma distribuição a priori dada por uma Jeffrey’s Prior, e a semi-amplitude, K, e o termo de ruído, s, seguem uma Jeffrey’s Prior modificada. A forma matemática de ambas distribuições se encontram na figura. A segunda opção de distribuições a priori, chamada de Top Hat, consiste em considerarmos todas as distribuições a priori como sendo distribuições uniforme, com limites máximos e mínimos iguais aos limites da primeira opção. Como a diferença entre as duas opções não são significativas, por simplicidade, adotaremos a Top Hat para a análise feita nesse trabalho. 67 Capítulo 4. Simulações e resultados Parâmetro P (dias) Priori Jeffreys K(m.s−1 ) Mod. Jeffreys V (m.s−1 ) e ω χ s(m.s−1 ) Uniforme Uniforme Uniforme Uniforme Mod. Jeffreys 68 Forma matemática Min 0,2 Max 15000 0 2000 -2000 0 0 0 0 2000 1 2π 1 2000 1 max ) P ln( P Pmin (K+K0 )−1 K +K ln( 0 K max ) 0 1 Vmax −Vmin 1 1 2π 1 (s+s0 )−1 s +s ln( 0 s max ) 0 Tabela 4.3: Distribuições a priori dos parâmetros orbitais para o método MCMC. A tabela mostra a distribuição para cada parâmetro, a forma matemática da distribuição e os valores mínimo e máximo de cada parâmetro. Retirada de Balan & Lahav (2008b). A tabela 4.4 nos mostra o resultado do melhor ajuste dos parâmetros obtido por Balan & Lahav (2008b). As distribuições posteriori e as cadeias Markovianas obtidas como resultados desse trabalho se encontram na figura 4.20, enquanto que a curva de velocidade radial no melhor ajuste se encontra na figura 4.21. Podemos observar que as distribuições posteriori apresentam, em todos os parâmetros, mais de um pico. Isso se deve ao fato da equação de velocidade radial ser não-linear e ser multimodal. O ponto inicial da cadeia foi de: K = 25, ω = 0, e = 0, 01, χ = 0, 01, P = 1500, V = 0 e s = 25. E o número de iterações na cadeia foi de 15 milhões. Mesmo com uma enorme quantidade de iterações, a execução do código numérico se mostrou mais rápida e eficiente do que no caso do χ2 mínimo. Como vimos anteriormente, a média do valor dos parâmetros na cadeia nos dá o valor de melhor ajuste dos parâmetros. Baseado no trabalho de Balan & Lahav (2008a), o desvio padrão será utilizado como a região de confiança. Os resultados obtidos nesse trabalho, para as médias e desvios padrão dos parâmetros, se encontram na tabela 4.5. Comparando as tabelas de resultados, vemos que o código numérico desenvolvido para a análise desse trabalho nos dá resultados próximos aos resultados encontrados na literatura. 68 Capítulo 4. Simulações e resultados 69 Figura 4.20: Cadeia Markoviana e distribuições posterioris para HD 187085. As variáveis var1, var2, ..., são, respectivamente: K, ω, e, χ, P , V e s. As figuras na esquerda representam as cadeias Markovianas dos parâmetros e as figuras na direita representação suas distribuições posteriori. Podemos observar que apesar dos valores obtidos terem sido próximos aos resultados de Balan & Lahav (2008b), temos que as distribuições posteriori apresentam mais de um pico. Isso se dá devido a multimodalidade da equação de velocidade radial. 69 Capítulo 4. Simulações e resultados Parâmetro K ω e χ P V s 70 Média±desvio padrão 17, 25 ± 9, 01 0, 49 ± 0, 38 0, 34 ± 0, 22 0, 12 ± 0, 06 1066, 00 ± 45, 86 −0, 99 ± 1, 63 5, 51 ± 1, 09 Tabela 4.4: Melhor ajuste dos parâmetros orbitais obtidos por Balan & Lahav (2008b). Esse resultado será usado na comparação com os resultados obtidos nesse trabalho. Parâmetro K ω e χ P V s Média±desvio padrão 16, 74 ± 1, 00 0, 32 ± 0, 26 0, 34 ± 0, 15 0, 07 ± 0, 15 1011, 46 ± 1, 40 −2, 06 ± 0, 85 5, 57 ± 0, 88 Tabela 4.5: Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do MCMC. Alguns parâmetros, como K e P , possuem os seus desvios padrão muito baixo, comparado aos resultados da tabela anterior. Isso se deve ao grande número de iterações realizados nessa análise. 4.3.3 Nested Sampling Na análise realizada através do método Nested Sampling, os objetivos serão: Obter a curva de velocidade radial no melhor ajuste dos parâmetros, observando o quão bem se ajustam os dados, e determinar a eficácia do método, no contexto da velocidade radial, através da comparação do seu resultado tanto com o obtido por Balan & Lahav (2008b), quanto o obtido na análise do MCMC, que se encontram nas tabelas 4.4 e 4.5. As distribuições a priori dos parâmetros orbitais serão dados pelo Top Hat, para melhor comparação entre os resultados. Análise é feita através de 5000N iterações. Temos, inicialmente, que o número do conjunto de amostras aleatórias, é de N = 100. Após as substituições dos parâmetros no conjunto de amostra, para cada iteração, retira-se metade dos pontos do conjunto e analisamos as médias dos parâmetros e seus desvios padrão. Foi mostrado, nas seções 4.1 e 4.2, que as médias dos parâmetros podem ser utilizadas como seus valores de melhor ajuste. A comparação entre likelihoods é feita através do logaritmo da likelihood. Ao calcular a likelihood, o seu valor vai rapidamente a 0, 70 Capítulo 4. Simulações e resultados 71 Figura 4.21: Curva de velocidade radial, através do MCMC, para HD 187085. Podemos observar que a curva ajusta satisfatoriamente os dados, de forma similar à curva encontrada em Balan & Lahav (2008b). impossibilitando a obtenção do valor mínimo das likelihoods do conjunto dos parâmteros. A figura 4.22 ilustra a curva de velocidade radial no melhor ajuste dos parâmetros e como essa curva se ajusta aos dados reais. O melhor ajuste dos parâmetros se encontra na tabela 4.6. Podemos perceber, da tabela, que o valor do argumento do periastro, ω, se encontra acima dos valores contidos nas tabelas 4.4 e 4.5. A análise Nested Sampling se baseia em atualizar o conjunto de dados, com a condição de que a likelihood nos novos parâmetros seja maior do que a dos parâmetros que estejam sendo substituídos, de modo que para um problema com variáveis multimodais, pode ocorrer do conjunto final de dados ter uma parte de seus valores em um modo e uma parte em outro. No caso de ω, ocorre algo semelhante, em que uma parte dos dados se encontra próximo do valor de 0, 50 e uma pequena parte se encontra próximo do valor 5. Isso afeta o valor da média e do desvio padrão desse parâmetro. Situação semelhante ocorre no parâmetro χ, que apresentou também um valor alto nessa análise. A tabela 4.7 mostra o valor de melhor ajuste dos parâmetros orbitais obtidos por Balan & Lahav (2008b) e os valores obtidos como resultado desse trabalho, para uma maior facilidade na comparação entre os próprios métodos e a comparação com o resultado de Balan & Lahav (2008b). 71 Capítulo 4. Simulações e resultados 72 Figura 4.22: Curva de velocidade radial, através do Nested Sampling, para HD 187085. Podemos observar que, apesar da análise ter ajustado bem cinco dos sete parâmetros, alguns pontos ainda permanecem distantes da curva. Parâmetro K ω e χ P V s Média±desvio padrão 17, 29 ± 3, 17 1, 49 ± 1, 29 0, 34 ± 0, 19 0, 21 ± 0, 28 1060, 21 ± 40, 82 −0, 93 ± 1, 65 5, 32 ± 0, 76 Tabela 4.6: Melhor ajuste dos parâmetros orbitais obtidos para HD 187085 através do Nested Sampling. Alguns parâmetros, como K e P , possuem os seus desvios padrão muito baixo, comparado aos resultados da tabela anterior. Isso se deve ao grande número de iterações realizados nessa análise. Parâmetro K ω e χ P V s Balan & Lahav χ2 mínimo MCMC 17,25 14,8 16,74 0,49 1,12 0,32 0,34 0,21 0,34 0,12 0,13 0,07 1066 1060 1011,46 -0,99 1,3 -2,06 5,51 5,57 Nested Sampling 17,29 1,49 0,34 0,21 1060,21 -0,93 5,32 Tabela 4.7: Comparação entre os melhores ajustes dos parâmetros orbitais obtidos para HD 187085. Na análise do χ2 mínimo, não temos o parâmetro s, relativo ao erro. 72 CAPÍTULO 5 CONCLUSÕES E PERSPECTIVAS 5.1 Conclusões Apresentamos, neste trabalho, como inferir sobre os parâmetros orbitais de exoplanetas, a partir da velocidade radial estelar. Para tal, estudamos detalhadamente ferramentas estatísticas que nos permite analisar um conjunto de dados e, a partir do conhecimento do modelo matemático teórico, inferir sobre os parâmetros desse modelo. A partir dos métodos estatísticos estudados, foram desenvolvidas ferramentas computacionais que pudessem simular dados, com adição de um ruído, e realizar os testes estatísticos, com a finalidade de obter os valores iniciais dos parâmetros e analisar a função no melhor ajuste dos parâmetros, obtido como resultado da análise. Os códigos numéricos desenvolvidos, para a realização de tais funções citadas, foram todos bem sucedidos em seus respectivos métodos de inferência. O estudo dos testes estatísticos e das ferramentas computacionais desenvolvidas é realizado em três casos específicos: Equação linear, funções senoidais e o caso da velocidade radial estelar. Para a velocidade radial, foram utilizados dados reais da estrela HD 187085. Em cada caso, foram utilizados três métodos estatísticos distintos, o método do χ2 mínimo, o método de Monte Carlo via cadeia de Markov e o Nested Sampling. A equação linear foi utilizada pela simplicidade da função. No estudo realizado, os três métodos estatísticos conseguiram ser bem sucedidos para valores de ruídos da mesma ordem de 73 Capítulo 5. Conclusões e perspectivas 74 grandeza dos dados. Na análise feita através do χ2 mínimo, estudamos a forma como a ordem de grandeza influencia na inferência dos parâmetros. Pôde-se perceber que para altas ordens de grandeza do ruído, o erro na inferência das medidas se torna muito alto, de modo que o resultado se torna pouco confiável. No MCMC, mostramos de forma bem sucedida que os valores de melhor ajuste se encontram nas regiões de maior probabilidade das distribuições posteriori. E no Nested Sampling, concluímos que a média dos parâmetros no conjunto ativo pode ser utilizado como o melhor ajuste. O caso de equações senoidais foi escolhido como forma introdutória ao caso da velocidade radial. Duas situações foram estudadas, a de uma função seno e a da soma de duas funções cossenos, com amplitudes e frequências diferentes. Com exceção do χ2 mínimo, que não ajustou bem os parâmetros do segundo caso, os melhores ajustes obtidos foram aproximadamente iguais aos valores reais dos parâmetros usados para simular os dados. No caso da função seno, o método Nested Sampling conseguiu ajustar os dados de forma mais satisfatória. Porém, no caso da soma de cossenos, o MCMC foi o método que obteve o melhor resultado e com o menor desvio padrão dos parâmetros. O caso da velocidade radial, que é o objeto de estudo desse trabalho, tem uma equação altamente complexa, em que ela é não-linear e multimodal. A inferência é feita em cima de seis parâmetros, no método do χ2 mínimo, e de sete parâmetros, nos métodos MCMC e Nested Sampling. O método do χ2 mínimo não foi bem sucedido tanto na análise com dados simulados, quanto na análise dos dados reais. Nesse método, os erros dos parâmetros, em relação aos seus valores utilizados na simulação ou os obtidos por (Balan & Lahav 2008b), foram altos. O erro no resultado do método do χ2 mínimo já era antecipado, uma vez que o método é apropriado apenas para equações lineares e pela falha do método em ajustar os parâmetros no caso trabalhado anteriormente, da soma de cossenos. Trabalhos como o de Cumming (2004) utilizam um método do χ2 mínimo não-linear para a inferência de parâmetros, em conjunto com o periodograma de Lomb-Scargle. O método MCMC foi bem sucedido na inferência dos parâmetros, ajustando de forma satisfatória os sete parâmetros livres. O resultado obtido, através desse método, foi próximo ao resultado obtido por Balan & Lahav (2008b). Por fim, a análise através do método Nested Sampling conseguiu ajustar bem cinco dos sete parâmetros. Os outros dois parâmetros tiveram um alto erro, em relação 74 Capítulo 5. Conclusões e perspectivas 75 aos resultados de Balan & Lahav (2008b), devido a multimodalidade da equação. Assim, necessitaríamos de um método mais robusto e que possa inferir os parâmetros de forma mais eficiente. 5.2 Perspectivas Esse trabalho tem potencial para futuras explorações e aprofundamento. Uma análise pode ser realizada através dos dados de velocidade radial para estrelas em sistemas multiplanetários. Métodos estatísticos mais robustos tem sido desenvolvidos dentro do contexto da astronomia, como no trabalho de Feroz & Hobson (2008), que sugere uma generalização do Nested Sampling para a solução de problemas multimodais, e o trabalho de Brewer & Donovan (2015), que sugere uma forma rápida e eficaz para a análise de dados de sistemas multiplanetários. Dessa forma, implementando métodos mais eficazes, a evolução do trabalho pode levar a inferência mais precisa dos parâmetros orbitais, de sistemas multiplanetários e de planetas de baixa massa, cuja velocidade radial estelar é da ordem de grandeza de poucos centímetros. 75 REFERÊNCIAS Aitken, S. & Akman, O. E. 2013, Nested Sampling for parameter inference in systems biology: application to an exemplar circadian model (BMC Systems Biology 7:72) Andreon, S. & Weaver, B. 2015, Bayeasian Methods for the Physical Sciences (Springer Series in Astrostatistics) Baglin, A. et al. 2006, CoRoT: a high precision photometer for stellar evolution and exoplanet finding (COSPAR, plenary meeting. Vol. 36) Balan, S. T. & Lahav, O. 2008a, ExoFit: Orbital Parameters of extra-solar planets from radial velocity (Monthly Notices of the Royal Astronomical Society) Balan, S. T. & Lahav, O. 2008b, ExoFit User’s Guide Borucki, W. J. et al. 2010, Kepler Planet-Detection Mission: Introduction and First Results (Science 327, 977) Brewer, B. J. & Donovan, C. P. 2015, Fast Bayesian Inference for Exoplanet Discovery in Radial Velocity Data (Monthly Notices of the Royal Astronomical Society) Campbell, B., Walker, G. A. H., & Yang, S. 1988, A search for substellar companions to Solar-type stars (The Astrophysical Journal, vol. 331, p. 902-921) Ceglar, H. M., Watson, C. A., Shelyag, S., & Mathioudakis, M. 2014, Understanding Astrophysical Noise from Stellar Surface Magneto-Convection (arXiv:1408.2301v2) Chobotov, V. A. 2002, Orbital Mechanics, 3rd edn., AIAA Education (AIAA) 76 REFERÊNCIAS 77 Cochran, W. D., Endl, M., McArthur, B., Paulson, D. B., & Walker, G. A. H. 2002, A planetary companion to γ cephei A (The Astrophysical Journal, 599(2):1383-1384) Cumming, A. 2004, Detectability of extrasolar planets in radial velocity surveys (Monthly Notices of the Royal Astronomical Society) Cumming, A., Marcy, G. W., & Butler, R. P. 1999, The lick planet search: Detectability and mass thresholds (The Astrophysical Journal, 526:890-915) Delrez, L., Santerne, A., Almenara, J. M., et al. 2014, WASP-121 b: a hot Jupiter in a polar orbit and close to tidal disruption (Monthly Notices of the Royal Astronomical Society) Dvorak, R. 2008, Extrasolar Planets: Formation, Detection and Dynamics (Wiley) Evans, M. J. 2006, Discussion of Nested Sampling for Bayesian Computations by John Skilling Feigelson, E. D. & Babu, G. J. 2012, Modern Statistical Methods for Astronomy with R applications (Cambridge University Press) Feroz, F., Balan, S. T., & Hobson, M. P. 2011, Detecting extrasolar planets from stellar radial velocities using Bayesian evidence (Monthly Notices of the Royal Astronomical Society, 415) Feroz, F. & Hobson, M. P. 2008, Multimodal nested sampling: an efficient and robust alternative to MCMC methods for astronomical data analysis (arXiv:0704.3704v3) Feroz, F., Hobson, M. P., Cameron, E., & Pettitt, A. N. 2014, Importance Nested Sampling and the MultiNest Algorithm (arXiv:1306.2144v2) Feroz, F. & Skilling, J. 2013, Exploring Multi-Modal Distributions with Nested Sampling (arXiv:1312.5638v1) Gavin, H. P. 2015, The Levenberg-Marquardt method for nonlinear least squares curve-fitting problems (Duke University) Gilks, W. R., Richardson, S., & Pettitt, A. N. 1997, Markov Chain Monte Carlo in Practice (Chapman and Hall) Gregory, P. C. 2005, A Bayesian Analysis of Extrasolar Planet Data for HD 73526 (Astrophysical Journal, 631, 1198) Gregory, P. C. 2006, A Bayesian Kepler Periodogram Detects a Second Planet in HD 208487 (Monthly Notices of the Royal Astronomical Society) 77 REFERÊNCIAS 78 Hansen, P. C., Pereyra, V., & Scherer, G. 2013, Least Squares Data Fitting with applications (The John Hopkins University Press) Himmelblau, D. M. 1972, Applied Nonlinear Programming (The University of Texas) Hogg, R. V. & Craig, A. T. 1978, Introduction to Mathematical Statistics (Macmillan Publishing co., inc.) Jing, L. 2009, Nested Sampling: Introduction and Implementation (University of Texas) Kepler, S. O. & Saraiva, M. F. 2014, Astronomia e Astrofísica (Editora Livraria da Física) König, B., Fuhrmann, K., Neuhäuser, R., Charbonneau, D., & Jayawardhana, R. 2002, Direct detection of the companion of χ1 Orionis (Astronomy and Astrophysics, 394) Lampton, M., Margon, B., & Bowyer, S. 1976, Parameter estimation in X-ray Astronomy (The Astrophysical Journal) Lourakis, M. I. A. 2005, A Brief Description of the Levenberg-Marquardt Algorithm Implemented by levmar (Foundation for Research and Technology in Hellas) Marcy, G. W. & Butler, R. P. 1992, Precision Radial Velocity with an Iodine Absorption Cell (Astronomical Society of the Pacific, Publications, vol.104, no. 674) Mayor, M. & Queloz, D. 1995, A Jupiter-mass companion to a solar-type star (Nature, 378(6555):355-359) Mayor, M. & Udry, S. 2008, The quest for very low-mass planets (IOP Publishing) Murison, M. A. 2006, A Practical Method for Solving the Kepler Equation (U.S. Naval Observatory) Okabe, N., Takada, M., Umetsu, K., Futamase, T., & Smith, G. P. 2010, LoCuSS: Subaru Weak Lensing Study of 30 Galaxy Clusters (Astronomical Society of Japan) Perryman, M. 2011, The Exoplanet Handbook (Cambridge University Press) Press, W. H., Teukolsky, S. A., Vetterling, W. T., & Flannery, B. P. 1997, Numerical Recipes in Fortran 77 (arXiv: 0901.2573v1) Pullen, N. & Morris, R. J. 2014, Bayesian Model Comparison and Parameter Inference in Systems Biology Using Nested Sampling (PLoS ONE 9(2)) Resnik, P. & Hardisty, E. 2010, Gibbs Sampling for the Uninitiated (University of Maryland) 78 REFERÊNCIAS 79 Rice, J. A. 2007, Mathematical Statistics and Data Analysis (University of Californa, Berkeley) Robert, C. P. 2015, The Metropolis-Hastings algorithm (arXiv: 1504.01869v1) Skilling, J. 2004, Nested Sampling for General Bayesian Computation Skilling, J. 2006, Nested Sampling for Bayesian Computations Teixeira, M. A. 2014, Expansão acelerada do universo vinculada a dados de explosões supernovas (Monografia - Bacharelado em Física) Tuomi, M., Jones, H. R. A., Jenkins, J. S., et al. 2012, Signals embedded in the radial velocity noise: Periodic variations in the tau Ceti velocities (arXiv: 1212.4277v1) Vogt, S. et al. 1994, HIRES: The High Resolution Echelle Spectometer on the Keck Ten-Meter Telescope (The International Society for Optical Engineering) Wilkinson, D. J. 2000, Notas de aula - Principles of Statistics, Part 2: Bayesian Inference, stochastic simulation and MCMC (School of Mathematics and Statistics, Newcastle University) Wolszczan, A. 1994, Confirmation of Earth-Mass Planets Orbiting the millisecond pulsar PSR B1257+12 (Science, Vol. 264) Wolszczan, A. & Frail, D. A. 1992, A planetary system around the millisecond pulsar PSR1257+12 (Nature, Vol. 355, p.145-147) Yi, X., Vahala, K., Li, J., et al. 2015, Demonstration of a Near-IR Laser Comb for Precision Radial Velocity Measurements in Astronomy (arXiv:1501.02509v1) Zechmeister, M. & Kürster, M. 2009, The generalised Lomb-Scargle periodogram (The University of Texas) 79