Virgílio A. F. Almeida DCC-UFMG 1/2005 ! " # Comparando quantitativamente sistemas experimentais: Algoritmos, protótipos, modelos, etc Significado de uma amostra Intervalos de confiança Tomando decisões e comparando alternativas Considerações especiais sobre intervalo de confiança Tamanho das amostras $ % • Duas fórmulas para intervalo de confiança – Acima de 30 amostras de qualquer distribuição: distribuição-z (Normal) – Pequenas amostras de populações normalmente distribuídas: distribuiçao-t (Student) • Um erro comum: usar distribuição-t para populações não normalmente distribuídas. – Teorema do limite central base do cálculo do nível de confiança do intervalo de confiança (IC). $ % • Por exemplo, sabendo onde 90% das médias de amostras se situam, podemos então estabelecer um intervalo de confiança de 90% • Chave: Teorema do Limite Central: – As médias de amostras são distribuidas pela Normal. – Desde que sejam independentes – Média das amostras “significa” que a média da população é µ σ – Desvio padrão (erro padrão) é n & '( • Intervalo em cada lado da média: x−x z= σ/ n x ± z1−α 2 s n • O nível de significância α é pequeno para níveis maiores do intervalo de confiança. • Existem tabelas para a variável z! & • Fórmula quase a mesma: x ± t 1− α [ ] 2 ; n −1 s n • Usável para populações normalmente distribuídas! • Funciona para pequenas amostras • Similar a Normal (bell-shaped, porem mais espalhada) e depende do tamanho da amostra n. ) * • Por que usamos intervalos de confiança? – Sumarizar o erro na média da amostra – Prover elementos para saber se a amostra é significativa – Permitir comparações à luz dos erros • Aviso: num intervalo de 90% de confiança, 10% das médias n (observações coletada) não incluem a média da população. ) + • A média da população é significativamente nãozero? • Se o intervalo de confiança inclui 0, a resposta é não! • Pode-se testar para qualquer valor (média das somas é a soma das médias) • Exemplo: as amostras de alturas são consistentes com a altura média de 1,70 m – Também consistentes com 1,60 e 1,80! • Num projeto de pesquisa, geralmente, procura-se o melhor sistema, o melhor algoritmo: – Exemplos: • Determinar o sistema que apresente a melhor relação QoS-preço, onde QoS é medido experimentalmente. • Provar que um algoritmo Y executa mais rápido que outros existentes e sejam similares funcionalmente. • Métodos diferentes para observações pareadas (com par) e não pareadas (sem par). – Pareadas se o i-ésimo teste em cada sistema foi o mesmo – Não pareadas, caso contrário , * - . 1. Tratar o problema como uma amostra de n pares 2. Para cada teste calcule as diferenças dos resultados 3. Calcule os intervalos de confiança para as diferenças 4. Se o intervalo inclui 0 (zero), os objetos de comparação (ex.: sistemas, algoritmos, etc) não são diferentes 5. Se o intervalo não inclui zero, o sinal da diferença indica qual dos objetos é melhor, baseado nos dados experimentais. . , * - • Considere dois algoritmos de IA que reconhecem objetos: A e B • Num teste com vários objetos, o algoritmo A acerta mais que o B? • Amostra de testes com 14 objetos: 40 4/ 3 2 1 5 0 56 / 5 1 56 0 9 / 44 2 2 9 9 4/ 2 2 / 7 40 8 0 0 2 7 4 2 1 0 0 / . * 3 2 1 0 / '0 '1 '2 '3 • Diferenças entre algoritmos A-B: 2 -2 -7 5 6 -1 -7 6 7 3 2 1 -1 6 (-0.75, 3.6) • Média 1.4, intervalo de 90% – Não se pode rejeitar a hipótese que a diferença é 0 e que portanto os algoritmos tem desempenho similar. – Intervalo de 70% é (0.10, 2.76), A tem desempenho melhor que B , * : - ; • Considere as amostras xa e xb para cada uma das alternativas, A e B • Comece com os intervalos de confiança – Se não houver sobreposição: < media • Algoritmos são diferentes e a maior média é melhor (pelas métricas usadas) A – Se houver sobreposição e cada IC contem a outra média: B • Algoritmos não são diferentes neste media nivel • Se estiverem próximos, pode-se abaixar o nível de confiança – Se houver sobreposição e uma média não está no outro IC • Tem de fazer o teste-t B media A B A ' =4> , 1 Compute as médias das amostras x a e 2. Compute os desvio-padrões sa e sb 3. Compute adiferença das médias = x a − 4. Compute o desvio padrão das diferenças: 2 a 2 b s s s= + na nb xb xb , ' =0> 5. Compute os graus efetivos de liberdade: ν = 6. ( s a2 / n a + s b2 / n b ) 2 a 1 s na + 1 na + 2 b 1 s nb + 1 nb Compute o intervalo de confiança: (xa − xb ) 7. 2 2 t[1−α / 2 ;ν ] s Se o intervalo inclui zero, não há diferença 2 − 2 - * • Se n1 de n experimentos dão um certo resultado, então podese dizer que a proporção das amostras é dada por: n1 p= n • Exemplos: – A precisão do algoritmo A de recuperação de informação foi superior a precisão de B em 55 dos 100 casos analisados. Com 90% de confiança pode-se dizer que A supera B em precisão? – Durante 5000 “samples” coletados, em 1000, o percentual de “system time” foi inferior a 20%. Com 95% de confiança, qual o intervalo de confiança onde o sistema operacional gasta menos de 20% dos recursos? - * • Se n1 de n experimentos dão um certo resultado, então o intervalo de confiança (IC) para a proporção: IC→ p z1−α / 2 p(1− p) n • A fórmula acima é baseada numa aproximação da distribuição binomial (variância = np(1-p)) • Na prática, deve-se ter np>10 para obter resultados válidos * 1. Selecionar um intervalo de confiança para trabalhar 2. Teste de Hipótese (aulas seguintes) 3. Intervalos de confiança de um único ado # $ % • Depende do custo de se estar errado!!! – Produção de um paper científico – Demonstração de um novo algorítmo experimentalmente – Geração de um produto • Os níveis de confiança entre 90% e 95% são os valores comuns para papers cientificos • Em geral, use o maior valor que lhe permita establecer conclusões sólidas num processo experimental! • Mas é melhor ser consistente durante todo o paper que se está trabalhando. ) ? @ • A null hypothesis (H0) é comum em estatísticas e tratamento de dados experimentais: – Pode ser confuso em negativas duplas – Provê menos informação que intervalos de confiança – Em geral mais dificil de computar • Deve-se entender que rejeitar a hipótese nula implica que o resultado é significativo. $ % 'A • Intervalos de dois lados testam se a média está fora ou dentro de uma variação definida pelos dois lados do intervalo (observe os gráficos de bandas de erro do exemplo anterior. “) • Teste de intervalos um único lado são úteis somente quando se está interessado em um limite. – Ex.: Com 90% de confiança, qual o intervalo para o tempo médio de resposta ser menor que a média R alcançada. P( R ≤ t n −1,α ) =1 − α $ % ' Limite inferior x − t[1−α ;n −1] s ,x n Limite superior x , x + t[1−α ;n −1] s , n ) ! • Amostras maiores levam a intervalos mais estreitos – Obtem-se menores valores de t e v à medida que n cresce – n in formulas • Coleta de amostras pode ser um processo caro! – Qual o mínimo que se pode querer num experimento? • Comece com um pequeno número de medições preliminares para estimar a variância. ! ) ! • Para obter um erro percentual ± r %: 100 zs n= rx 2 • Aqui z representa ou z or t qdo apropriado • Para uma proporção p = n1/n: p(1 − p) n=z 2 r 2 ! ) ! . 4 • Cinco execuções de um query levaram 22.5, 19.8, 21.1, 26.7, 20.2 seconds • Quantas execuções devem ser executadas para obter ± 5% de CI num nível de confiança de 90%? • x = 22.1, s = 2.8, t0.95;4 = 2.132 n = (1 0 0 )( 2 .1 3 2 )( 2 .8 ) ( 5 )( 2 2 .1 ) 2 = 5 . 4 2 = 2 9 .2 ! ) ! . 0 • Suponha que queremos determinar o intervalo de confiança para x tal que existe um intervalo com probabilidade 1-α tal que um valor real x esteja no intervalo. (c1 , c2 ) = ((1 − e) x , (1 + e) x ) c1 = (1 − e) x = x − z1−α / 2 c2 = (1 + e) x = x − z1−α / 2 z1−α / 2 s 2 n=( ) ex s n s n ! ) ! . 0 • Suponha que o tempo médio para gravar um arquivo é 7,94 seg com desvio padrão de 2,14. Aproximadamente, quantas medidas serão requeridas se nós desejamos um IC de 90% e que a média esteja dentro de um intervalo de 7%. • α = 0.10, 1- α/2= 0.95 e = 0.35 2 ( z1−α / 2 s ) 1.895(2.14) = n= 0.035(794) ex n = 213 2 = 212.95 & I. - B Elaboração de um documento de uma ou duas páginas no máximo, contendo os pontos abaixo: 1. 2. 3. 4. 5. Especificação do problema e contexto Definição da hipótese Decisões da carga de trabalho Metricas a serem usadas Método de testes C • Considere que seu trabalho é comparar o desempenho de dois algoritmos (A e B) de computação gráfica, que usam métodos diferentes para geração de faces humanas realísticas. • São sistema complexos cuja execução leva tempos longos para geração das faces. O sistema A foi testado 8 vezes e o sistema B apenas 5, onde em cada experimento utilizou-se o mesmo padrão de resultado a obter. • Os tempos de teste dos algoritmos estão na tabela a seguir. Com base nesses resultados, pede-se que se determine qual algoritmo teve melhor desempenho? C Experimento Algoritmo A (seg) Algoritmo B (seg) 1 1011 894 2 998 963 3 1113 1098 4 1008 982 5 1100 1046 6 1039 - 7 1003 - 8 1098 -