MÉTODOS ESTATÍSTICOS PARA ANÁLISE DE DADOS

Propaganda
MÉTODOS ESTATÍSTICOS PARA
ANÁLISE DE DADOS
LEANDRO DE PAULA
UFRJ
Escola de Inverno do IFGW
A Física de Partículas do Novo Século
julho de 2014
PROGRAMA DO CURSO
•
Introdução à Probabilidade e Estatística
•
Determinação de parâmetros
•
Ajuste de funções
•
Testes estatísticos
•
Incertezas e limites
2
TESTES ESTATÍSTICOS
TESTES ESTATÍSTICOS PARA UM
FÍSICO DE PARTÍCULAS
O problema mais comum é o de identificar um sinal
Resultados de uma
medida {xij}
Possíveis processos
•
x00 → número partículas
•
xi2 → p para B → 𝛍𝛍
•
xi0 → E da partícula i
•
xi2 → p para 𝛑 → 𝛍𝝂
•
xi1 → probabilidade ser 𝛍
•
xi2 → p para K → 𝛍𝝂
•
xi2 → p da partícula i
•
xi2 → p para J/ψ → 𝛍𝛍
•
xi3 → origem da partícula i
•
xi2 → p para Λ → p𝛑
•
…
•
…
4
TESTES ESTATÍSTICOS
!
ddp (pdf) para cada grandeza
•
xi2 → p da partícula i
•
xi2 → p para B → 𝛍𝛍
•
f(xi2 | H1 (B → 𝛍𝛍)) - sinal
•
xi2 → p para 𝛑 → 𝛍𝝂
•
f(xi2 | H01 (𝛑 → 𝛍𝝂)) - ruído 1
•
xi2 → p para K → 𝛍𝝂
•
f(xi2 | H02 (K → 𝛍𝝂)) - ruído 2
•
xi2 → p para J/ψ → 𝛍𝛍
•
f(xi2 | H03 (J/ψ → 𝛍𝛍)) - ruído 3
•
xi2 → p para Λ → p𝛑
•
…..
•
…
f(xi2 | H0) - hipótese ruído
f(xi2 | H1) - hipótese sinal
5
SELECIONANDO EVENTOS
Nos três histogramas o mesmo sinal está presente
• Seleção para rejeitar o ruído
• Ajuste incluindo hipótese de sinal e de ruído
6
AJUSTE DE HIPÓTESES DE
SINAL E RUÍDO AOS DADOS
7
AJUSTE DE HIPÓTESES DE
SINAL E RUÍDO AOS DADOS
hipótese ruído
7
AJUSTE DE HIPÓTESES DE
SINAL E RUÍDO AOS DADOS
hipótese sinal
hipótese ruído
A
F (x) = p
exp
2⇡
X0 ) 2
(X
2
7
2
+ B + CX
ALGUMAS CONSIDERAÇÕES
SOBRE SIMULAÇÃO
Colisão → todos os processos Simulação de processos
físicos físicos conhecidos
Trigger Simulação do Trigger
Deteção Simulação da deteção
!
Reconstrução
!
Arquivos de simulação (DST,
ntuplas, trees …)
Arquivos de dados (DST,
ntuplas, trees …)
8
ALGUMAS CONSIDERAÇÕES
SOBRE SIMULAÇÃO
Colisão → todos os processos Simulação de processos
físicos físicos conhecidos
Trigger Simulação do Trigger
Deteção Simulação da deteção
!
Reconstrução
!
Arquivos de simulação (DST,
ntuplas, trees …)
Arquivos de dados (DST,
ntuplas, trees …)
O uso de simulação é uma ferramenta poderosa e útil,
mas deve ser evitado sempre que possível (quase nunca)
8
SELEÇÃO DE EVENTOS
hipótese ruído hipótese sinal
g(t|H0)
g(t|H1)
t({xi})
teste estatístico escalar
9
SELEÇÃO DE EVENTOS
hipótese ruído hipótese sinal
g(t|H0)
g(t|H1)
tcorte
t({xi})
teste estatístico escalar
9
SELEÇÃO DE EVENTOS
Probabilidade de rejeitar H0
mesmo sendo verdadeira
(erro tipo I)
Z 1
↵=
g(t|H0 )dt
hipótese ruído hipótese sinal
tcorte
g(t|H0)
α é o nível de significância
g(t|H1)
tcorte
t({xi})
teste estatístico escalar
9
SELEÇÃO DE EVENTOS
Probabilidade de rejeitar H0
mesmo sendo verdadeira
(erro tipo I)
Z 1
↵=
g(t|H0 )dt
hipótese ruído hipótese sinal
tcorte
g(t|H0)
α é o nível de significância
Probabilidade de aceitar H0
se H1 é verdadeira (erro tipo
II)
Z
tcorte
tcorte
=
g(t|H1)
t({xi})
teste estatístico escalar
g(t|H1 )dt
1
1-β é a potência estatística do corte
9
EFICIÊNCIA - SINAL E RUÍDO
Probabilidade de rejeitar a
hipótese de ruído para um
evento de ruído (eficiência
para o ruído)
Z 1
✏ruido =
g(t|ruido)dt = ↵
g(t|H0)
g(t|H1)
tcorte
Probabilidade de aceitar um
evento de sinal (eficiência
da seleção)
Z 1
✏sinal =
g(t|sinal)dt = 1
β
tcorte
tcorte
10
𝝰
VARIÁVEL DISCRIMINANTE
Como aumentar a pureza de uma amostra de dados?
f(xi2 |H0) hipótese ruído
11
VARIÁVEL DISCRIMINANTE
Como aumentar a pureza de uma amostra de dados?
f(xi2 | H1) hipótese sinal
f(xi2 |H0) hipótese ruído
c1
c2
Como definir os valores de c1 e c2?
11
PUREZA DE UMA AMOSTRA
Pureza de uma amostra é a probabilidade de um
evento da amostra selecionada ser de sinal
Em uma amostra inicial constituída por um sinal (s) e um
único tipo de ruído (r), se aplica uma seleção definida
por t > tcorte. A pureza da amostra resultante é dada por
P (t > tcorte |s)⇡s
✏ s ⇡s
P (s|t > tcorte ) =
=
P (t > tcorte |s)⇡s + P (t > tcorte |r)⇡r
✏ s ⇡s + ✏ r ⇡r
onde 𝜋s,r são as probabilidades (purezas) a priori
12
ESTUDO DA EFICIÊNCIA DE
CORTES USANDO SIMULAÇÃO
Para escolher possíveis variáveis
com poder de discriminação é
importante saber quais são os
processos físicos relevantes
•
•
•
t1
sem poder
discriminante
determina-se eficiências para
sinal e ruído para vários
valores de corte
t2
t3
co mpa ra-se o p oder de
discriminação das variáveis
t4
o gráfico não permite a
determinação do valor do
corte ótimo
13
ESTUDO DA EFICIÊNCIA DE
CORTES USANDO SIMULAÇÃO
Para escolher possíveis variáveis
com poder de discriminação é
importante saber quais são os
processos físicos relevantes
•
•
•
t1
sem poder
discriminante
determina-se eficiências para
sinal e ruído para vários
valores de corte
t2
t3
co mpa ra-se o p oder de
discriminação das variáveis
t4
o gráfico não permite a
determinação do valor do
corte ótimo
13
ESTUDO DA EFICIÊNCIA DE
CORTES USANDO SIMULAÇÃO
Para escolher possíveis variáveis
com poder de discriminação é
importante saber quais são os
processos físicos relevantes
•
•
•
t1
sem poder
discriminante
determina-se eficiências para
sinal e ruído para vários
valores de corte
t2
t3
co mpa ra-se o p oder de
discriminação das variáveis
t4
o gráfico não permite a
determinação do valor do
corte ótimo
13
FIGURA DE MÉRITO
Quando o número de eventos é grande pode-se maximizar
a significância do sinal
Nsinal
Incerteza em uma
S(Nsinal ) / p
Nsinal + Nruido ditribuição de Poisson
S
Sinal claro, curva sem
máximo pronunciado
Simulação
de sinal e
ruído
Sinal fraco, curva com
máximo pronunciado
c
14
FIGURA DE MÉRITO
Nsinal
S(Nsinal ) / p
Nsinal + Nruido
c
•
Se Nsinal ≪ Nruido → Nsinal + Nruido ≈ Nruido
•
Quando não há simulação confiável para o ruído e Nsinal
é pequeno, pode-se usar Nsinal + Nruido ≈ Ndados
•
Cuidado com flutuações estatísticas da simulação
15
FIGURA DE MÉRITO
Nsinal
S(Nsinal ) / p
Nsinal + Nruido
Nsinal
p
Nruido
c
•
Se Nsinal ≪ Nruido → Nsinal + Nruido ≈ Nruido
•
Quando não há simulação confiável para o ruído e Nsinal
é pequeno, pode-se usar Nsinal + Nruido ≈ Ndados
•
Cuidado com flutuações estatísticas da simulação
15
SELECIONANDO EVENTOS
x12
x22
16
SELECIONANDO EVENTOS
f(xi2 | H1) - hipótese sinal
x12
x22
f(xi2 |H0) - hipótese ruído
16
f(xi2 | H1) hipótese sinal
x22
SELECIONANDO EVENTOS
f(xi2 | H0) hipótese ruído
x12
17
SELECIONANDO EVENTOS
f(xi2 | H1) hipótese sinal
x22
H1
f(xi2 | H0) hipótese ruído
H0
17
x12
SELECIONANDO EVENTOS
f(xi2 | H1) hipótese sinal
x22
H1
x12 < c1
x22 > c2
f(xi2 | H0) hipótese ruído
H0
17
x12
SELECIONANDO EVENTOS
f(xi2 | H1) hipótese sinal
x22
H1
f(xi2 | H0) hipótese ruído
H0
17
x12
SELECIONANDO EVENTOS
f(xi2 | H1) hipótese sinal
x22
H1
f(xi2 | H0) hipótese ruído
Como determinar a melhor seleção?
17
H0
x12
TESTE ESTATÍSTICO
INÍCIO DA IMPLEMENTAÇÃO
A fronteira entre as regiões pode ser definida pelo
teste estatístico t({xi}) = tcorte
Calcula-se as ddp g(t|H0) e g(t|H1)
rejeitados
g(t|H0)
tcorte
aceitos
g(t|H1)
18
TESTE ESTATÍSTICO
INÍCIO DA IMPLEMENTAÇÃO
A fronteira entre as regiões pode ser definida pelo
teste estatístico t({xi}) = tcorte
Calcula-se as ddp g(t|H0) e g(t|H1)
rejeitados
g(t|H0)
tcorte
aceitos
g(t|H1)
18
CONSTRUINDO O TESTE
Otimização da definição do critério: lema de Neyman-Pearson
A região de crítica de maior potência estatística para um
determinado nível de significância em um teste da hipótese
H0 (ruído) contra H1 (sinal) é definida por
L(x|H1 )
t(x) =
>c
L(x|H0 )
t(x) > c
t(x) < c
19
O LEMA DE NEYMAN-PEARSON
NEM SEMPRE É ÚTIL
Em geral não se conhece L({xi}|H0) e L({xi}|H1)!
A solução é recorrer à simulação do sinal e do ruído, mas
isso implica em dois problemas
•
é preciso ter um conhecimento de todos os processos
•
para cada uma das n variáveis relevantes deve-se
n
preencher um histograma de M classes → M células
É preciso usar inteligência (conhecimentos dos processos
relevantes) na definição quais são os poucos parâmetros
relevantes para a determinação de t({xi})
20
EXEMPLO DO USO DO LEMA DE
NEYMAN-PEARSON
Determinação dos números quânticos do X(3872)
B + ! X(3872)K + e X(3872) ! ⇡ + ⇡ J/ (µ+ µ )
O spin e a paridade de X(3872) tem
relação com as seguintes
grandezas:
• θx , θ𝜋𝜋 , θJ/ψ , Δθx,𝜋𝜋 e Δθx,J/ψ
Com simulação pode-se construir
a s Ve ro s s i m i l h a n ç a s p a ra a s
hipóteses teóricas existentes:
- estado excitado de um méson
conhecido - L(J=1)
- tetraquark, quase-moléculas
L(J=2)
21
EXEMPLO DO USO DO LEMA DE
NEYMAN-PEARSON
Determinação dos números quânticos do X(3872)
B + ! X(3872)K + e X(3872) ! ⇡ + ⇡ J/ (µ+ µ )
O spin e a paridade de X(3872) tem
relação com as seguintes
grandezas:
• θx , θ𝜋𝜋 , θJ/ψ , Δθx,𝜋𝜋 e Δθx,J/ψ
Com simulação pode-se construir
a s Ve ro s s i m i l h a n ç a s p a ra a s
hipóteses teóricas existentes:
- estado excitado de um méson
conhecido - L(J=1)
- tetraquark, quase-moléculas
L(J=2)
21
EXEMPLO DO USO DO LEMA DE
NEYMAN-PEARSON
Determinação dos números quânticos do X(3872)
B + ! X(3872)K + e X(3872) ! ⇡ + ⇡ J/ (µ+ µ )
O spin e a paridade de X(3872) tem
relação com as seguintes
grandezas:
• θx , θ𝜋𝜋 , θJ/ψ , Δθx,𝜋𝜋 e Δθx,J/ψ
Com simulação pode-se construir
a s Ve ro s s i m i l h a n ç a s p a ra a s
hipóteses teóricas existentes:
- estado excitado de um méson
conhecido - L(J=1)
- tetraquark, quase-moléculas
L(J=2)
tdados
21
ESTRATÉGIA PARA CONSTRUIR
UMA SELEÇÃO
•
Criar condições para utilizar o lema de Neyman-Pearson
•
Identificar as grandezas relevantes
•
•
Usar distribuições bem estabelecidas
•
Obter distribuições dos dados
•
Obter distribuições de simulação
Definir o menor número de grandezas necessárias
•
Usar estas grandezas
•
Usar combinações de grandezas (lineares ou não lineares)
22
TESTES ESTATÍSTICOS
CORTES MULTIDIMENSIONAIS
•
Υ(4s)→B+B-, B-→D0𝜋-, D0→K+𝜋- (W. Verkerke)
•
Três variáveis relevantes
mES(B+)
E(B+) - E(Υ4s)/2
Sinal
Ruído
23
m(K+𝜋-)
TESTES ESTATÍSTICOS
CORTES MULTIDIMENSIONAIS
Sinal
Ruído
Maximizar
S(Nsinal ) / p
Nsinal
Nsinal + Nruido
em três dimensões (hipercubo)
1. Otimizar um corte de cada vez de forma cumulativa
2. Repetir o procedimento até haver convergência
24
TESTES ESTATÍSTICOS
ANÁLISE DE COMPONENTE PRINCIPAL
Uma forma de reduzir o número de dimensões do problema
25
TESTES ESTATÍSTICOS
ANÁLISE DE COMPONENTE PRINCIPAL
Uma forma de reduzir o número de dimensões do problema
25
TESTES ESTATÍSTICOS
ANÁLISE DE COMPONENTE PRINCIPAL
Uma forma de reduzir o número de dimensões do problema
25
TESTES ESTATÍSTICOS
ANÁLISE DE COMPONENTE PRINCIPAL
Uma forma de reduzir o número de dimensões do problema
25
TESTES ESTATÍSTICOS
ANÁLISE DE COMPONENTE PRINCIPAL
Transformação de
variáveis
vp
1. Montar a matriz cov({xi})
26
2.
Calcular autovalores, {λi} e
autovetores {vi}
3.
Construir a matriz de
rotação T: {xi}→ {vi}
4.
Determinar a componente
principal e realizar o corte
em vp
TESTES ESTATÍSTICOS LINEARES
t({xi}) = ∑aixi
Os parâmetros {ai} devem ser escolhidos de forma tal
maximizar a separação das ddp g(t|sinal) e g(t|ruído):
maior separação (d) e menores larguras (s1 e s2)
g(t)
d
s1
ex. cortes
s1
t
27
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
t({xi}) = ∑aixi os parâmetros {ai} são escolhidos de
2
d
forma a maximizar
s21 + s22
{ai} - determinados essencialmente por d e definem
uma superfície linear de separação
d
g(t)
s1
s1
t
28
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
t({xi}) = ∑aixi os parâmetros {ai} são escolhidos de
2
d
forma a maximizar
s21 + s22
{ai} - determinados essencialmente por d e definem
uma superfície linear de separação
d
g(t)
s1
s1
t0
t
28
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
x1
x2
O discriminante de Fisher é equivalente ao lema de N-P quando
as distribuições são gaussianas com larguras iguais
Funciona bem mesmo para larguras diferentes
29
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
x2
x1
O discriminante de Fisher é equivalente ao lema de N-P quando
as distribuições são gaussianas com larguras iguais
Funciona bem mesmo para larguras diferentes
29
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
x2
t0
x1
O discriminante de Fisher é equivalente ao lema de N-P quando
as distribuições são gaussianas com larguras iguais
Funciona bem mesmo para larguras diferentes
29
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
x2
t0
x1
O discriminante de Fisher é equivalente ao lema de N-P quando
as distribuições são gaussianas com larguras iguais
Funciona bem mesmo para larguras diferentes
29
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
30
TESTES ESTATÍSTICOS LINEARES
DISCRIMINANTE DE FISHER
30
Download