MÉTODOS ESTATÍSTICOS PARA ANÁLISE DE DADOS

Propaganda
MÉTODOS ESTATÍSTICOS PARA
ANÁLISE DE DADOS
LEANDRO DE PAULA
UFRJ
Escola de Inverno do IFGW
A Física de Partículas do Novo Século
julho de 2014
AVISOS
•
Programa formal
•
Métodos Estatísticos (5 aulas) - Leandro
•
Hands on em FEAE (8 aulas) - Miriam e Jun
•
13 aulas mesclando exposições e trabalhos práticos
•
Nos dias de aulas teremos um tempo para discussão
durante os estudos orientados
•
Dados para exercícios em http://www.if.ufrj.br/~leandro
2
PROGRAMA DO CURSO
•
Introdução à Probabilidade e Estatística
•
Determinação de parâmetros
•
Ajuste de funções
•
Testes estatísticos
•
Incertezas e limites
3
BIBLIOGRAFIA
•
D. S. Sivia, Data Analysis: A Bayesian Tutorial, Clarenton Press, Oxford, 1996
•
L. Lyons, Statistics for Nuclear and Particle Physics, Cambridge University
Press, 1986
•
R. Barlow, Statistic: A Guide to the Use of Statistical Methods in the Physical
Science, Willey, 1989
•
G. Cowan, Statistical Data Analysis, Clarenton Press, Oxford, 1998 e CERN
School (http://www.pp.rhul.ac.uk/%7Ecowan/stat_cern.html)
•
W. Verkerke, http://www.slac.stanford.edu/~verkerke/bnd2004/
data_analysis.pdf
4
ROOT
ROOT.CERN.CH
5
ROOT
ROOT.CERN.CH
5
ROOT
ROOT.CERN.CH
5
ROOT
ROOT.CERN.CH
5
ROOT
ROOT.CERN.CH
5
ROOT
ROOT.CERN.CH
5
INTRODUÇÃO À
PROBABILIDADE E ESTATÍSTICA
TRATAMENTO DE DADOS
•
Qual é o papel de um experimento
•
Testar uma hipótese
•
•
O bóson de Higgs existe?
Medir um parâmetro
•
Quanto vale a sua massa?
7
PROBABILIDADE E ESTATÍSTICA
•
Jakob (Jacques) Bernoulli (1654-1705) Matemático suíço (Basel)
•
Arts Conjectandi - 1713 - estabelece os
fundamentos do cálculo das probabilidades
•
lógica dedutiva - Probabilidade
•
lógica indutiva - Estatística
•
como relacionar as duas?
8
PROBABILIDADE E ESTATÍSTICA
•
Thomas Bayes (1701-1761)
Matemático e religioso inglês
•
"An Essay towards solving a Problem in the
Doctrine of Chances" - Trabalho lido na Royal
Society em 1765. Teorema de Bayes que pretende
resolver o problema da probabilidade inversa
9
PROBABILIDADE E ESTATÍSTICA
•
Pierre Simon, Marquis de Laplace
(1748 - 1827) Astrônomo e
matemático francês
•
Théorie analytique des probabilités, 1812.
Generaliza e demonstra o Teorema de Bayes
•
Estabelece as bases da estatística
10
MEDIDA
•
Proposta de Jakob Bernoulli - sec XVII
•
Primeira formulação por Thomas Bayes
•
Demonstração e aplicação Laplace - sec XVII
11
MEDIDA
•
Proposta de Jakob Bernoulli - sec XVII
•
Primeira formulação por Thomas Bayes
•
Demonstração e aplicação Laplace - sec XVII
Medida da massa de Saturno
“estou pronto a apostar, a uma relação de
11000 contra 1, que este resultado não
apresenta erro maior do que um centésimo de
seu valor”
11
MEDIDA
A discrepância entre o
valor obtido por
Laplace e o aceito
atualmente é de 0.63%
Medida da massa de Saturno
“estou pronto a apostar, a uma relação de
11000 contra 1, que este resultado não
apresenta erro maior do que um centésimo de
seu valor”
11
MEDIDA
•
•
•
Um valor mais provável A discrepância entre o
valor obtido por
Uma faixa de incerteza
Laplace e o aceito
Um critério
atualmente é de 0.63%
Medida da massa de Saturno
“estou pronto a apostar, a uma relação de
11000 contra 1, que este resultado não
apresenta erro maior do que um centésimo de
seu valor”
11
probabilidade
MEDIDA
•
Um valor mais provável
•
Uma faixa de incerteza
•
Um critério
Medida da massa de Saturno
parâmetro
“estou pronto a apostar, a uma relação de
11000 contra 1, que este resultado não
apresenta erro maior do que um centésimo de
seu valor”
11
PROBABILIDADE
DEFINIÇÃO
•
Andrey Kolmogorov (1903-1987)
Matemático soviético
•
Fundamentos da Teoria das Probabilidades, 1933 Axiomas de Kolmogorov
Seja um conjunto U com subconjuntos Ai
• P(Ai) ≥ 0
• P(U) = 1
• Se Ai∩Aj = ∅, P(Ai∪Aj) = P(Ai) + P(Aj)
12
⊂U
PROBABILIDADE
PROPRIEDADES
•
P(Ā) = 1 - P(A), Ā = U - A
•
P(A∪Ā) = 1
•
P(∅) = 0
•
se A ⊂ B, P(A) ≤ P(B)
•
P(A∪B) = P(A) + P(B) - P(A∩B)
13
PROBABILIDADE CONDICIONAL
•
Notação
P(Hipótese|Condições) = P(H|C)
•
P(A∩B) = P(A|B) P(B) ou
Se A e B são independentes
•
P(A∩B) = P(A) P(B) ou P(A|B) = P(A)
14
PROBABILIDADE CONDICIONAL
Quando se lança um dado e se obtém um número impar,
qual é a probabilidade dele ser menor que 4?
15
PROBABILIDADE CONDICIONAL
Quando se lança um dado e se obtém um número impar,
qual é a probabilidade dele ser menor que 4?
15
PROBABILIDADE CONDICIONAL
Quando se lança um dado e se obtém um número impar,
qual é a probabilidade dele ser menor que 4?
15
PROBABILIDADE
INTERPRETAÇÃO
1. Frequência relativa - usada em experimentos facilmente
reprodutíveis
2. Probabilidade subjetiva
P(A) é o grau de confiança de que A seja verdadeira
- As duas interpretações atendem ao axioma de Kolmogorov
- Só a segunda pode ser usada para experimentos de difícil
reprodução
16
TEOREMA DE BAYES
A definição de probabilidade condicional nos
permite escrever
como P(A∩B) = P(B∩A)
17
TEOREMA DE BAYES
A definição de probabilidade condicional nos
permite escrever
como P(A∩B) = P(B∩A)
ou
17
LEI DA PROBABILIDADE TOTAL
U
Considere um subconjunto B de U
Defina um conjunto disjunto
de subconjuntos de U tais
que ∪Ai = U
B = B∩U = B∩(∪Ai) = ∪(B∩Ai)
P(B) = P(∪(B∩Ai)) = ∑P(B∩Ai) = ∑P(B|Ai) P(Ai)
Teorema de Bayes
18
B
Ai
LEI DA PROBABILIDADE TOTAL
U
Considere um subconjunto B de U
Defina um conjunto disjunto
de subconjuntos de U tais
que ∪Ai = U
B = B∩U = B∩(∪Ai) = ∪(B∩Ai)
P(B) = P(∪(B∩Ai)) = ∑P(B∩Ai) = ∑P(B|Ai) P(Ai)
Teorema de Bayes
18
B
Ai
TEOREMA DE BAYES
VEROSSIMILHANÇA (LIKELIHOOD)
19
TEOREMA DE BAYES
VEROSSIMILHANÇA (LIKELIHOOD)
Conhecimento antes da
realização do experimento
19
TEOREMA DE BAYES
VEROSSIMILHANÇA (LIKELIHOOD)
Verossimilhança - informação obtida
pelo experimento
Conhecimento antes da
realização do experimento
19
TEOREMA DE BAYES
VEROSSIMILHANÇA (LIKELIHOOD)
Verossimilhança - informação obtida
pelo experimento
Conhecimento antes da
realização do experimento
Conhecimento após a
realização do experimento
19
TEOREMA DE BAYES
INTERPRETAÇÃO
Não há questionamento relativo à validade do Teorema de
Bayes, só quanto a sua interpretação
•
•
Frequentistas - A probabilidade é uma frequência relativa não aceitam como científica o uso de uma probabilidade a
priori
Bayesianos - Probabilidade subjetiva
Na maior parte dos casos ambas as correntes produzem os
mesmos resultados, só divergem quando as informações
experimentais são poucas (baixa estatística)
20
EXEMPLO (COWAN)
Suponha 0,1% da população de uma cidade tem uma
determinada doença (D). Um habitante, hipocondríaco,
faz um exame para saber se está contaminado e o
resultado é positivo. O que pode ser concluído
sabendo-se que este exame tem a probabilidade de 3%
de dar um resultado falso positivo e 2%, falso negativo?
Probabilidades a priori: P(D) = 0.001 e P(S) = .999
Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02
P(+|S) = 0.03 e P(-|S) = 0.97
21
EXEMPLO (COWAN)
Probabilidades a priori: P(D) = 0.001 e P(S) = .999
Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02
P(+|S) = 0.03 e P(-|S) = 0.97
22
EXEMPLO (COWAN)
Probabilidades a priori: P(D) = 0.001 e P(S) = .999
Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02
P(+|S) = 0.03 e P(-|S) = 0.97
Interpretações:
22
EXEMPLO (COWAN)
Probabilidades a priori: P(D) = 0.001 e P(S) = .999
Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02
P(+|S) = 0.03 e P(-|S) = 0.97
Interpretações:
- do médico: 3,2% das pessoas para as quais o resultado é
positivo estão doentes
22
EXEMPLO (COWAN)
Probabilidades a priori: P(D) = 0.001 e P(S) = .999
Resultados dos exames: P(+|D) = 0.98 e P(-|D) = 0.02
P(+|S) = 0.03 e P(-|S) = 0.97
Interpretações:
- do médico: 3,2% das pessoas para as quais o resultado é
positivo estão doentes
- do hipocondríaco: a probabilidade de eu estar doente é
3,2%
22
EXERCÍCIO 1
INSPIRADO EM COWAN
Suponha 0,1% da população de uma cidade de 5.000.000
habitantes tem uma doença que pode se tornar uma epidemia. De
posse dessa informação, para iniciar o mais rápido possível o
tratamento dos doentes, a prefeitura resolve fazer toda a
população realizar um exame para determinar quais são os
portadores da enfermidade. Sabendo que este exame tem a
probabilidade de 3% de dar um resultado falso positivo e 2%,
falso negativo calcule o número de pessoas sãs que seriam
encaminhada para tratamento e de doentes que não seriam
tratados?
Comente o resultado com base no Teorema de Bayes.
23
EXERCÍCIO 1
P(+) = P(+|D)P(D) + P(+|S)P(S) ~ 3,1% - 154.475 pessoas
Se 3,2% das pessoas que tem resultado positivo são
doentes, 96,8% não tem a doença.
Dos ~5.000 doentes 100 (2% - falso negativo) não
seriam tratados e dos não doentes ~150.000 seriam
tratados
24
TIPOS DE DISTRIBUIÇÕES
•
P(Parâmetros|Dados,Condições) = P(Y|{xi}) = P(Y)
•
Condições inclui modelo teórico e possíveis limitações
experimentais
•
Parâmetros podem ser discretos (afirmativas) ou contínuos
25
•
Variáveis discretas
• afirmativas
• números inteiros
• histogramas - os dados
são agrupados em
classes (bins)
Frequência por classe
HISTOGRAMAS
35
30
25
20
15
10
5
0
0
26
1
2
3
4
5
6
7
8
medidas
9
TRATAMENTO DE DADOS EM FÍSICA
EXPERIMENTAL DE PARTÍCULAS
27
EXERCÍCIO 2: FAROL
PARTE 1
Sabendo que um farol gira com velocidade
de rotação constante, mostre que a
probabilidade de um flash de luz ser
observado na posição xk ao longo da praia
é dada por:
praia
x
θ
α
β
O
28
Farol
SOLUÇÃO EXERCÍCIO 2.1
d✓
p(x)dx = p(✓)d✓ ) p(x) = p(✓)
dx
✓
◆
x ↵
1
✓ = tan
x
α
29
θ
β
SOLUÇÃO EXERCÍCIO 2.1
2
1.8
1.6
1.4
1.2
1
8
9
29
0.8
↵)2 ]
0.6
+ (x
7
2
0.4
6
⇡[
0.2
β
5
p(x) =
α
θ
4
⇡
2
3
p(✓)d✓ = 1
}
2
⇡
2
1
Z
1
C=
⇡
↵
⌘2
0
p(✓) = C
x
0
d✓
p(x)dx = p(✓)d✓ ) p(x) = p(✓)
dx
✓
◆
1
x ↵
d✓
1
✓ = tan
=
⇣
dx
1+ x
SOLUÇÃO EXERCÍCIO 2.1
2
1.8
1.6
1.4
1.2
29
1
10
α
↵)2 ]
0.8
β
9
+ (x
0.6
α
θ
8
2
0.4
7
⇡[
0.2
0
6
p(x) =
5
⇡
2
4
p(✓)d✓ = 1
}
↵
⌘2
3
⇡
2
2
Z
1
C=
⇡
x
1
p(✓) = C
0
d✓
p(x)dx = p(✓)d✓ ) p(x) = p(✓)
dx
✓
◆
1
x ↵
d✓
1
✓ = tan
=
⇣
dx
1+ x
COMPARAÇÃO DE RESULTADOS
CKMfitter
UTfit
Tratamento frequentista
Tratamento bayesiano
ɣ=
ɣ = (70.0+7.7-9.0)º
(70.1±7.1)º
ɣ = (-109.9±7.1)º
30
COMPARAÇÃO DE RESULTADOS
CKMfitter
UTfit
Tratamento frequentista
Tratamento bayesiano
ɣ=
ɣ = (70.0+7.7-9.0)º
(70.1±7.1)º
ɣ = (-109.9±7.1)º
30
Download