MÉTODOS ESTATÍSTICOS PARA ANÁLISE DE DADOS LEANDRO DE PAULA UFRJ Escola de Inverno do IFGW A Física de Partículas do Novo Século julho de 2014 AVISOS • Programa formal • Métodos Estatísticos (5 aulas) - Leandro • Hands on em FEAE (8 aulas) - Miriam e Jun • 13 aulas mesclando exposições e trabalhos práticos • Nos dias de aulas teremos um tempo para discussão durante os estudos orientados • Dados para exercícios em http://www.if.ufrj.br/~leandro 2 PROGRAMA DO CURSO • Introdução à Probabilidade e Estatística • Determinação de parâmetros • Ajuste de funções • Testes estatísticos • Incertezas e limites 3 BIBLIOGRAFIA • D. S. Sivia, Data Analysis: A Bayesian Tutorial, Clarenton Press, Oxford, 1996 • L. Lyons, Statistics for Nuclear and Particle Physics, Cambridge University Press, 1986 • R. Barlow, Statistic: A Guide to the Use of Statistical Methods in the Physical Science, Willey, 1989 • G. Cowan, Statistical Data Analysis, Clarenton Press, Oxford, 1998 e CERN School (http://www.pp.rhul.ac.uk/%7Ecowan/stat_cern.html) • W. Verkerke, http://www.slac.stanford.edu/~verkerke/bnd2004/ data_analysis.pdf 4 ROOT ROOT.CERN.CH 5 ROOT ROOT.CERN.CH 5 ROOT ROOT.CERN.CH 5 ROOT ROOT.CERN.CH 5 ROOT ROOT.CERN.CH 5 ROOT ROOT.CERN.CH 5 INTRODUÇÃO À PROBABILIDADE E ESTATÍSTICA TRATAMENTO DE DADOS • Qual é o papel de um experimento • Testar uma hipótese • • O bóson de Higgs existe? Medir um parâmetro • Quanto vale a sua massa? 7 PROBABILIDADE E ESTATÍSTICA • Jakob (Jacques) Bernoulli (1654-1705) Matemático suíço (Basel) • Arts Conjectandi - 1713 - estabelece os fundamentos do cálculo das probabilidades • lógica dedutiva - Probabilidade • lógica indutiva - Estatística • como relacionar as duas? 8 PROBABILIDADE E ESTATÍSTICA • Thomas Bayes (1701-1761) Matemático e religioso inglês • "An Essay towards solving a Problem in the Doctrine of Chances" - Trabalho lido na Royal Society em 1765. Teorema de Bayes que pretende resolver o problema da probabilidade inversa 9 PROBABILIDADE E ESTATÍSTICA • Pierre Simon, Marquis de Laplace (1748 - 1827) Astrônomo e matemático francês • Théorie analytique des probabilités, 1812. Generaliza e demonstra o Teorema de Bayes • Estabelece as bases da estatística 10 MEDIDA • Proposta de Jakob Bernoulli - sec XVII • Primeira formulação por Thomas Bayes • Demonstração e aplicação Laplace - sec XVII 11 MEDIDA • Proposta de Jakob Bernoulli - sec XVII • Primeira formulação por Thomas Bayes • Demonstração e aplicação Laplace - sec XVII Medida da massa de Saturno “estou pronto a apostar, a uma relação de 11000 contra 1, que este resultado não apresenta erro maior do que um centésimo de seu valor” 11 MEDIDA A discrepância entre o valor obtido por Laplace e o aceito atualmente é de 0.63% Medida da massa de Saturno “estou pronto a apostar, a uma relação de 11000 contra 1, que este resultado não apresenta erro maior do que um centésimo de seu valor” 11 MEDIDA • • • Um valor mais provável A discrepância entre o valor obtido por Uma faixa de incerteza Laplace e o aceito Um critério atualmente é de 0.63% Medida da massa de Saturno “estou pronto a apostar, a uma relação de 11000 contra 1, que este resultado não apresenta erro maior do que um centésimo de seu valor” 11 probabilidade MEDIDA • Um valor mais provável • Uma faixa de incerteza • Um critério Medida da massa de Saturno parâmetro “estou pronto a apostar, a uma relação de 11000 contra 1, que este resultado não apresenta erro maior do que um centésimo de seu valor” 11 PROBABILIDADE DEFINIÇÃO • Andrey Kolmogorov (1903-1987) Matemático soviético • Fundamentos da Teoria das Probabilidades, 1933 Axiomas de Kolmogorov Seja um conjunto U com subconjuntos Ai • P(Ai) ≥ 0 • P(U) = 1 • Se Ai∩Aj = ∅, P(Ai∪Aj) = P(Ai) + P(Aj) 12 ⊂U PROBABILIDADE PROPRIEDADES • P(Ā) = 1 - P(A), Ā = U - A • P(A∪Ā) = 1 • P(∅) = 0 • se A ⊂ B, P(A) ≤ P(B) • P(A∪B) = P(A) + P(B) - P(A∩B) 13 PROBABILIDADE CONDICIONAL • Notação P(Hipótese|Condições) = P(H|C) • P(A∩B) = P(A|B) P(B) ou Se A e B são independentes • P(A∩B) = P(A) P(B) ou P(A|B) = P(A) 14 PROBABILIDADE CONDICIONAL Quando se lança um dado e se obtém um número impar, qual é a probabilidade dele ser menor que 4? 15 PROBABILIDADE CONDICIONAL Quando se lança um dado e se obtém um número impar, qual é a probabilidade dele ser menor que 4? 15 PROBABILIDADE CONDICIONAL Quando se lança um dado e se obtém um número impar, qual é a probabilidade dele ser menor que 4? 15 PROBABILIDADE INTERPRETAÇÃO 1. Frequência relativa - usada em experimentos facilmente reprodutíveis 2. Probabilidade subjetiva P(A) é o grau de confiança de que A seja verdadeira - As duas interpretações atendem ao axioma de Kolmogorov - Só a segunda pode ser usada para experimentos de difícil reprodução 16 TEOREMA DE BAYES A definição de probabilidade condicional nos permite escrever como P(A∩B) = P(B∩A) 17 TEOREMA DE BAYES A definição de probabilidade condicional nos permite escrever como P(A∩B) = P(B∩A) ou 17 LEI DA PROBABILIDADE TOTAL U Considere um subconjunto B de U Defina um conjunto disjunto de subconjuntos de U tais que ∪Ai = U B = B∩U = B∩(∪Ai) = ∪(B∩Ai) P(B) = P(∪(B∩Ai)) = ∑P(B∩Ai) = ∑P(B|Ai) P(Ai) Teorema de Bayes 18 B Ai LEI DA PROBABILIDADE TOTAL U Considere um subconjunto B de U Defina um conjunto disjunto de subconjuntos de U tais que ∪Ai = U B = B∩U = B∩(∪Ai) = ∪(B∩Ai) P(B) = P(∪(B∩Ai)) = ∑P(B∩Ai) = ∑P(B|Ai) P(Ai) Teorema de Bayes 18 B Ai TEOREMA DE BAYES VEROSSIMILHANÇA (LIKELIHOOD) 19 TEOREMA DE BAYES VEROSSIMILHANÇA (LIKELIHOOD) Conhecimento antes da realização do experimento 19 TEOREMA DE BAYES VEROSSIMILHANÇA (LIKELIHOOD) Verossimilhança - informação obtida pelo experimento Conhecimento antes da realização do experimento 19 TEOREMA DE BAYES VEROSSIMILHANÇA (LIKELIHOOD) Verossimilhança - informação obtida pelo experimento Conhecimento antes da realização do experimento Conhecimento após a realização do experimento 19 TEOREMA DE BAYES INTERPRETAÇÃO Não há questionamento relativo à validade do Teorema de Bayes, só quanto a sua interpretação • • Frequentistas - A probabilidade é uma frequência relativa não aceitam como científica o uso de uma probabilidade a priori Bayesianos - Probabilidade subjetiva Na maior parte dos casos ambas as correntes produzem os mesmos resultados, só divergem quando as informações experimentais são poucas (baixa estatística) 20 EXEMPLO (COWAN) Suponha 0,1% da população de uma cidade tem uma determinada doença (D). Um habitante, hipocondríaco, faz um exame para saber se está contaminado e o resultado é positivo. O que pode ser concluído sabendo-se que este exame tem a probabilidade de 3% de dar um resultado falso positivo e 2%, falso negativo? Probabilidades a priori: P(D) = 0.001 e P(S) = .999 Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02 P(+|S) = 0.03 e P(-|S) = 0.97 21 EXEMPLO (COWAN) Probabilidades a priori: P(D) = 0.001 e P(S) = .999 Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02 P(+|S) = 0.03 e P(-|S) = 0.97 22 EXEMPLO (COWAN) Probabilidades a priori: P(D) = 0.001 e P(S) = .999 Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02 P(+|S) = 0.03 e P(-|S) = 0.97 Interpretações: 22 EXEMPLO (COWAN) Probabilidades a priori: P(D) = 0.001 e P(S) = .999 Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02 P(+|S) = 0.03 e P(-|S) = 0.97 Interpretações: - do médico: 3,2% das pessoas para as quais o resultado é positivo estão doentes 22 EXEMPLO (COWAN) Probabilidades a priori: P(D) = 0.001 e P(S) = .999 Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02 P(+|S) = 0.03 e P(-|S) = 0.97 Interpretações: - do médico: 3,2% das pessoas para as quais o resultado é positivo estão doentes - do hipocondríaco: a probabilidade de eu estar doente é 3,2% 22 EXERCÍCIO 1 INSPIRADO EM COWAN Suponha 0,1% da população de uma cidade de 5.000.000 habitantes tem uma doença que pode se tornar uma epidemia. De posse dessa informação, para iniciar o mais rápido possível o tratamento dos doentes, a prefeitura resolve fazer toda a população realizar um exame para determinar quais são os portadores da enfermidade. Sabendo que este exame tem a probabilidade de 3% de dar um resultado falso positivo e 2%, falso negativo calcule o número de pessoas sãs que seriam encaminhada para tratamento e de doentes que não seriam tratados? Comente o resultado com base no Teorema de Bayes. 23 EXERCÍCIO 1 P(+) = P(+|D)P(D) + P(+|S)P(S) ~ 3,1% - 154.475 pessoas Se 3,2% das pessoas que tem resultado positivo são doentes, 96,8% não tem a doença. Dos ~5.000 doentes 100 (2% - falso negativo) não seriam tratados e dos não doentes ~150.000 seriam tratados 24 TIPOS DE DISTRIBUIÇÕES • P(Parâmetros|Dados,Condições) = P(Y|{xi}) = P(Y) • Condições inclui modelo teórico e possíveis limitações experimentais • Parâmetros podem ser discretos (afirmativas) ou contínuos 25 • Variáveis discretas • afirmativas • números inteiros • histogramas - os dados são agrupados em classes (bins) Frequência por classe HISTOGRAMAS 35 30 25 20 15 10 5 0 0 26 1 2 3 4 5 6 7 8 medidas 9 TRATAMENTO DE DADOS EM FÍSICA EXPERIMENTAL DE PARTÍCULAS 27 EXERCÍCIO 2: FAROL PARTE 1 Sabendo que um farol gira com velocidade de rotação constante, mostre que a probabilidade de um flash de luz ser observado na posição xk ao longo da praia é dada por: praia x θ α β O 28 Farol SOLUÇÃO EXERCÍCIO 2.1 d✓ p(x)dx = p(✓)d✓ ) p(x) = p(✓) dx ✓ ◆ x ↵ 1 ✓ = tan x α 29 θ β SOLUÇÃO EXERCÍCIO 2.1 2 1.8 1.6 1.4 1.2 1 8 9 29 0.8 ↵)2 ] 0.6 + (x 7 2 0.4 6 ⇡[ 0.2 β 5 p(x) = α θ 4 ⇡ 2 3 p(✓)d✓ = 1 } 2 ⇡ 2 1 Z 1 C= ⇡ ↵ ⌘2 0 p(✓) = C x 0 d✓ p(x)dx = p(✓)d✓ ) p(x) = p(✓) dx ✓ ◆ 1 x ↵ d✓ 1 ✓ = tan = ⇣ dx 1+ x SOLUÇÃO EXERCÍCIO 2.1 2 1.8 1.6 1.4 1.2 29 1 10 α ↵)2 ] 0.8 β 9 + (x 0.6 α θ 8 2 0.4 7 ⇡[ 0.2 0 6 p(x) = 5 ⇡ 2 4 p(✓)d✓ = 1 } ↵ ⌘2 3 ⇡ 2 2 Z 1 C= ⇡ x 1 p(✓) = C 0 d✓ p(x)dx = p(✓)d✓ ) p(x) = p(✓) dx ✓ ◆ 1 x ↵ d✓ 1 ✓ = tan = ⇣ dx 1+ x COMPARAÇÃO DE RESULTADOS CKMfitter UTfit Tratamento frequentista Tratamento bayesiano ɣ= ɣ = (70.0+7.7-9.0)º (70.1±7.1)º ɣ = (-109.9±7.1)º 30 COMPARAÇÃO DE RESULTADOS CKMfitter UTfit Tratamento frequentista Tratamento bayesiano ɣ= ɣ = (70.0+7.7-9.0)º (70.1±7.1)º ɣ = (-109.9±7.1)º 30