MÉTODOS ESTATÍSTICOS PARA ANÁLISE DE DADOS LEANDRO DE PAULA UFRJ Escola de Inverno do IFGW A Física de Partículas do Novo Século julho de 2014 PROGRAMA DO CURSO • Introdução à Probabilidade e Estatística • Determinação de parâmetros • Ajuste de funções • Testes estatísticos • Incertezas e limites 2 TESTES ESTATÍSTICOS TESTES ESTATÍSTICOS PARA UM FÍSICO DE PARTÍCULAS O problema mais comum é o de identificar um sinal Resultados de uma medida {xij} Possíveis processos • x00 → número partículas • xi2 → p para B → 𝛍𝛍 • xi0 → E da partícula i • xi2 → p para 𝛑 → 𝛍𝝂 • xi1 → probabilidade ser 𝛍 • xi2 → p para K → 𝛍𝝂 • xi2 → p da partícula i • xi2 → p para J/ψ → 𝛍𝛍 • xi3 → origem da partícula i • xi2 → p para Λ → p𝛑 • … • … 4 TESTES ESTATÍSTICOS ! ddp (pdf) para cada grandeza • xi2 → p da partícula i • xi2 → p para B → 𝛍𝛍 • f(xi2 | H1 (B → 𝛍𝛍)) - sinal • xi2 → p para 𝛑 → 𝛍𝝂 • f(xi2 | H01 (𝛑 → 𝛍𝝂)) - ruído 1 • xi2 → p para K → 𝛍𝝂 • f(xi2 | H02 (K → 𝛍𝝂)) - ruído 2 • xi2 → p para J/ψ → 𝛍𝛍 • f(xi2 | H03 (J/ψ → 𝛍𝛍)) - ruído 3 • xi2 → p para Λ → p𝛑 • ….. • … f(xi2 | H0) - hipótese ruído f(xi2 | H1) - hipótese sinal 5 SELECIONANDO EVENTOS Nos três histogramas o mesmo sinal está presente • Seleção para rejeitar o ruído • Ajuste incluindo hipótese de sinal e de ruído 6 AJUSTE DE HIPÓTESES DE SINAL E RUÍDO AOS DADOS 7 AJUSTE DE HIPÓTESES DE SINAL E RUÍDO AOS DADOS hipótese ruído 7 AJUSTE DE HIPÓTESES DE SINAL E RUÍDO AOS DADOS hipótese sinal hipótese ruído A F (x) = p exp 2⇡ X0 ) 2 (X 2 7 2 + B + CX ALGUMAS CONSIDERAÇÕES SOBRE SIMULAÇÃO Colisão → todos os processos Simulação de processos físicos físicos conhecidos Trigger Simulação do Trigger Deteção Simulação da deteção ! Reconstrução ! Arquivos de simulação (DST, ntuplas, trees …) Arquivos de dados (DST, ntuplas, trees …) 8 ALGUMAS CONSIDERAÇÕES SOBRE SIMULAÇÃO Colisão → todos os processos Simulação de processos físicos físicos conhecidos Trigger Simulação do Trigger Deteção Simulação da deteção ! Reconstrução ! Arquivos de simulação (DST, ntuplas, trees …) Arquivos de dados (DST, ntuplas, trees …) O uso de simulação é uma ferramenta poderosa e útil, mas deve ser evitado sempre que possível (quase nunca) 8 SELEÇÃO DE EVENTOS hipótese ruído hipótese sinal g(t|H0) g(t|H1) t({xi}) teste estatístico escalar 9 SELEÇÃO DE EVENTOS hipótese ruído hipótese sinal g(t|H0) g(t|H1) tcorte t({xi}) teste estatístico escalar 9 SELEÇÃO DE EVENTOS Probabilidade de rejeitar H0 mesmo sendo verdadeira (erro tipo I) Z 1 ↵= g(t|H0 )dt hipótese ruído hipótese sinal tcorte g(t|H0) α é o nível de significância g(t|H1) tcorte t({xi}) teste estatístico escalar 9 SELEÇÃO DE EVENTOS Probabilidade de rejeitar H0 mesmo sendo verdadeira (erro tipo I) Z 1 ↵= g(t|H0 )dt hipótese ruído hipótese sinal tcorte g(t|H0) α é o nível de significância Probabilidade de aceitar H0 se H1 é verdadeira (erro tipo II) Z tcorte tcorte = g(t|H1) t({xi}) teste estatístico escalar g(t|H1 )dt 1 1-β é a potência estatística do corte 9 EFICIÊNCIA - SINAL E RUÍDO Probabilidade de rejeitar a hipótese de ruído para um evento de ruído (eficiência para o ruído) Z 1 ✏ruido = g(t|ruido)dt = ↵ g(t|H0) g(t|H1) tcorte Probabilidade de aceitar um evento de sinal (eficiência da seleção) Z 1 ✏sinal = g(t|sinal)dt = 1 β tcorte tcorte 10 𝝰 VARIÁVEL DISCRIMINANTE Como aumentar a pureza de uma amostra de dados? f(xi2 |H0) hipótese ruído 11 VARIÁVEL DISCRIMINANTE Como aumentar a pureza de uma amostra de dados? f(xi2 | H1) hipótese sinal f(xi2 |H0) hipótese ruído c1 c2 Como definir os valores de c1 e c2? 11 PUREZA DE UMA AMOSTRA Pureza de uma amostra é a probabilidade de um evento da amostra selecionada ser de sinal Em uma amostra inicial constituída por um sinal (s) e um único tipo de ruído (r), se aplica uma seleção definida por t > tcorte. A pureza da amostra resultante é dada por P (t > tcorte |s)⇡s ✏ s ⇡s P (s|t > tcorte ) = = P (t > tcorte |s)⇡s + P (t > tcorte |r)⇡r ✏ s ⇡s + ✏ r ⇡r onde 𝜋s,r são as probabilidades (purezas) a priori 12 ESTUDO DA EFICIÊNCIA DE CORTES USANDO SIMULAÇÃO Para escolher possíveis variáveis com poder de discriminação é importante saber quais são os processos físicos relevantes • • • t1 sem poder discriminante determina-se eficiências para sinal e ruído para vários valores de corte t2 t3 co mpa ra-se o p oder de discriminação das variáveis t4 o gráfico não permite a determinação do valor do corte ótimo 13 ESTUDO DA EFICIÊNCIA DE CORTES USANDO SIMULAÇÃO Para escolher possíveis variáveis com poder de discriminação é importante saber quais são os processos físicos relevantes • • • t1 sem poder discriminante determina-se eficiências para sinal e ruído para vários valores de corte t2 t3 co mpa ra-se o p oder de discriminação das variáveis t4 o gráfico não permite a determinação do valor do corte ótimo 13 ESTUDO DA EFICIÊNCIA DE CORTES USANDO SIMULAÇÃO Para escolher possíveis variáveis com poder de discriminação é importante saber quais são os processos físicos relevantes • • • t1 sem poder discriminante determina-se eficiências para sinal e ruído para vários valores de corte t2 t3 co mpa ra-se o p oder de discriminação das variáveis t4 o gráfico não permite a determinação do valor do corte ótimo 13 FIGURA DE MÉRITO Quando o número de eventos é grande pode-se maximizar a significância do sinal Nsinal Incerteza em uma S(Nsinal ) / p Nsinal + Nruido ditribuição de Poisson S Sinal claro, curva sem máximo pronunciado Simulação de sinal e ruído Sinal fraco, curva com máximo pronunciado c 14 FIGURA DE MÉRITO Nsinal S(Nsinal ) / p Nsinal + Nruido c • Se Nsinal ≪ Nruido → Nsinal + Nruido ≈ Nruido • Quando não há simulação confiável para o ruído e Nsinal é pequeno, pode-se usar Nsinal + Nruido ≈ Ndados • Cuidado com flutuações estatísticas da simulação 15 FIGURA DE MÉRITO Nsinal S(Nsinal ) / p Nsinal + Nruido Nsinal p Nruido c • Se Nsinal ≪ Nruido → Nsinal + Nruido ≈ Nruido • Quando não há simulação confiável para o ruído e Nsinal é pequeno, pode-se usar Nsinal + Nruido ≈ Ndados • Cuidado com flutuações estatísticas da simulação 15 SELECIONANDO EVENTOS x12 x22 16 SELECIONANDO EVENTOS f(xi2 | H1) - hipótese sinal x12 x22 f(xi2 |H0) - hipótese ruído 16 f(xi2 | H1) hipótese sinal x22 SELECIONANDO EVENTOS f(xi2 | H0) hipótese ruído x12 17 SELECIONANDO EVENTOS f(xi2 | H1) hipótese sinal x22 H1 f(xi2 | H0) hipótese ruído H0 17 x12 SELECIONANDO EVENTOS f(xi2 | H1) hipótese sinal x22 H1 x12 < c1 x22 > c2 f(xi2 | H0) hipótese ruído H0 17 x12 SELECIONANDO EVENTOS f(xi2 | H1) hipótese sinal x22 H1 f(xi2 | H0) hipótese ruído H0 17 x12 SELECIONANDO EVENTOS f(xi2 | H1) hipótese sinal x22 H1 f(xi2 | H0) hipótese ruído Como determinar a melhor seleção? 17 H0 x12 TESTE ESTATÍSTICO INÍCIO DA IMPLEMENTAÇÃO A fronteira entre as regiões pode ser definida pelo teste estatístico t({xi}) = tcorte Calcula-se as ddp g(t|H0) e g(t|H1) rejeitados g(t|H0) tcorte aceitos g(t|H1) 18 TESTE ESTATÍSTICO INÍCIO DA IMPLEMENTAÇÃO A fronteira entre as regiões pode ser definida pelo teste estatístico t({xi}) = tcorte Calcula-se as ddp g(t|H0) e g(t|H1) rejeitados g(t|H0) tcorte aceitos g(t|H1) 18 CONSTRUINDO O TESTE Otimização da definição do critério: lema de Neyman-Pearson A região de crítica de maior potência estatística para um determinado nível de significância em um teste da hipótese H0 (ruído) contra H1 (sinal) é definida por L(x|H1 ) t(x) = >c L(x|H0 ) t(x) > c t(x) < c 19 O LEMA DE NEYMAN-PEARSON NEM SEMPRE É ÚTIL Em geral não se conhece L({xi}|H0) e L({xi}|H1)! A solução é recorrer à simulação do sinal e do ruído, mas isso implica em dois problemas • é preciso ter um conhecimento de todos os processos • para cada uma das n variáveis relevantes deve-se n preencher um histograma de M classes → M células É preciso usar inteligência (conhecimentos dos processos relevantes) na definição quais são os poucos parâmetros relevantes para a determinação de t({xi}) 20 EXEMPLO DO USO DO LEMA DE NEYMAN-PEARSON Determinação dos números quânticos do X(3872) B + ! X(3872)K + e X(3872) ! ⇡ + ⇡ J/ (µ+ µ ) O spin e a paridade de X(3872) tem relação com as seguintes grandezas: • θx , θ𝜋𝜋 , θJ/ψ , Δθx,𝜋𝜋 e Δθx,J/ψ Com simulação pode-se construir a s Ve ro s s i m i l h a n ç a s p a ra a s hipóteses teóricas existentes: - estado excitado de um méson conhecido - L(J=1) - tetraquark, quase-moléculas L(J=2) 21 EXEMPLO DO USO DO LEMA DE NEYMAN-PEARSON Determinação dos números quânticos do X(3872) B + ! X(3872)K + e X(3872) ! ⇡ + ⇡ J/ (µ+ µ ) O spin e a paridade de X(3872) tem relação com as seguintes grandezas: • θx , θ𝜋𝜋 , θJ/ψ , Δθx,𝜋𝜋 e Δθx,J/ψ Com simulação pode-se construir a s Ve ro s s i m i l h a n ç a s p a ra a s hipóteses teóricas existentes: - estado excitado de um méson conhecido - L(J=1) - tetraquark, quase-moléculas L(J=2) 21 EXEMPLO DO USO DO LEMA DE NEYMAN-PEARSON Determinação dos números quânticos do X(3872) B + ! X(3872)K + e X(3872) ! ⇡ + ⇡ J/ (µ+ µ ) O spin e a paridade de X(3872) tem relação com as seguintes grandezas: • θx , θ𝜋𝜋 , θJ/ψ , Δθx,𝜋𝜋 e Δθx,J/ψ Com simulação pode-se construir a s Ve ro s s i m i l h a n ç a s p a ra a s hipóteses teóricas existentes: - estado excitado de um méson conhecido - L(J=1) - tetraquark, quase-moléculas L(J=2) tdados 21 ESTRATÉGIA PARA CONSTRUIR UMA SELEÇÃO • Criar condições para utilizar o lema de Neyman-Pearson • Identificar as grandezas relevantes • • Usar distribuições bem estabelecidas • Obter distribuições dos dados • Obter distribuições de simulação Definir o menor número de grandezas necessárias • Usar estas grandezas • Usar combinações de grandezas (lineares ou não lineares) 22 TESTES ESTATÍSTICOS CORTES MULTIDIMENSIONAIS • Υ(4s)→B+B-, B-→D0𝜋-, D0→K+𝜋- (W. Verkerke) • Três variáveis relevantes mES(B+) E(B+) - E(Υ4s)/2 Sinal Ruído 23 m(K+𝜋-) TESTES ESTATÍSTICOS CORTES MULTIDIMENSIONAIS Sinal Ruído Maximizar S(Nsinal ) / p Nsinal Nsinal + Nruido em três dimensões (hipercubo) 1. Otimizar um corte de cada vez de forma cumulativa 2. Repetir o procedimento até haver convergência 24 TESTES ESTATÍSTICOS ANÁLISE DE COMPONENTE PRINCIPAL Uma forma de reduzir o número de dimensões do problema 25 TESTES ESTATÍSTICOS ANÁLISE DE COMPONENTE PRINCIPAL Uma forma de reduzir o número de dimensões do problema 25 TESTES ESTATÍSTICOS ANÁLISE DE COMPONENTE PRINCIPAL Uma forma de reduzir o número de dimensões do problema 25 TESTES ESTATÍSTICOS ANÁLISE DE COMPONENTE PRINCIPAL Uma forma de reduzir o número de dimensões do problema 25 TESTES ESTATÍSTICOS ANÁLISE DE COMPONENTE PRINCIPAL Transformação de variáveis vp 1. Montar a matriz cov({xi}) 26 2. Calcular autovalores, {λi} e autovetores {vi} 3. Construir a matriz de rotação T: {xi}→ {vi} 4. Determinar a componente principal e realizar o corte em vp TESTES ESTATÍSTICOS LINEARES t({xi}) = ∑aixi Os parâmetros {ai} devem ser escolhidos de forma tal maximizar a separação das ddp g(t|sinal) e g(t|ruído): maior separação (d) e menores larguras (s1 e s2) g(t) d s1 ex. cortes s1 t 27 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER t({xi}) = ∑aixi os parâmetros {ai} são escolhidos de 2 d forma a maximizar s21 + s22 {ai} - determinados essencialmente por d e definem uma superfície linear de separação d g(t) s1 s1 t 28 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER t({xi}) = ∑aixi os parâmetros {ai} são escolhidos de 2 d forma a maximizar s21 + s22 {ai} - determinados essencialmente por d e definem uma superfície linear de separação d g(t) s1 s1 t0 t 28 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER x1 x2 O discriminante de Fisher é equivalente ao lema de N-P quando as distribuições são gaussianas com larguras iguais Funciona bem mesmo para larguras diferentes 29 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER x2 x1 O discriminante de Fisher é equivalente ao lema de N-P quando as distribuições são gaussianas com larguras iguais Funciona bem mesmo para larguras diferentes 29 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER x2 t0 x1 O discriminante de Fisher é equivalente ao lema de N-P quando as distribuições são gaussianas com larguras iguais Funciona bem mesmo para larguras diferentes 29 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER x2 t0 x1 O discriminante de Fisher é equivalente ao lema de N-P quando as distribuições são gaussianas com larguras iguais Funciona bem mesmo para larguras diferentes 29 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER 30 TESTES ESTATÍSTICOS LINEARES DISCRIMINANTE DE FISHER 30