Métodos Quantitativos para Ciência da Computação Experimental Revisão Virgílio A. F. Almeida Maio de 2008 Departamento de Ciência da Computação Universidade Federal de Minas Gerais Revisão FOCO do curso Inferência Estatística Experimento Computacional Amostra População • A inferência estatística é o processo pelo qual obtém-se informação sobre populações a partir de amostras. • Três procedimentos: – Estimativa do ponto – Intervalo de Confiança – Teste de hipótese 2 Uso de games na Internet • O tipo de jogo disponível e ou planejado é afetado pelo tempo que os usuários (jovens?) passam em frente a tela. Assim, deseja-se saber: – Qual o tempo médio de um/uma jovem passa jogando? • Uma pesquisa hipotética foi conduzida com 100 jovens brasileiros, na qual eles gravaram o número de horas gastas em jogo por semana. • A média da amostra é: x = 27 . 191 3 Estimativa do Ponto • Um estimador do ponto realiza a inferência sobre a população ao estimar o valor de um parâmetro desconhecido usando um valor único ou um ponto. Parametro Distribuição da população ? Distribuição da amostra Estimador do ponto 4 Fraquezas do Estimador do Ponto • Qão diferente é o valor estimado do valor verdadeiro? • Quão confiável é sua estatística? • Quão confiante você se sente quanto à sua estimativa? • Como melhorar? 5 Intervalo de Estimativa • Um intervalo de estimativa faz inferências sobre a população ao estimar o valor do parâmetro desconhecido usando um intervalo. Distribuição da População Parametro Intervalo estimado Distribuição da amostra 6 Intervalo de Confiança • Um Intervalo de Confiança tem a forma: estimativa do ponto ± margem de erro • A estimativa é nosso “valor” para o valor do parametro desconhecido • A margem de erro mostra quão acurado nós acreditamos que nossa “estimativa” é , baseado na amostragem da distribuição do valor estimado. • O nível de confiança mostra a confiança nos procedimentos para capturar o parâmetro da população verdadeira, usualmente a média. 7 Intervalo de Confiança • C ou ∝: nível de confiança • Parametro de interesse: θ • Um nivel de confiança C para θ é um intervalo [L, U] computado a partir de dados das amostras tais que: • Nível de significância: 8 Intervalo de Confiança para µ • Quão confiável é o intervalo produzido por uma distribuição de amostragem? – Para estimar µ, uma amostra de tamanho n é sorteada da população, e sua média x é calculada – Sob certas condições, x é normalmente distribuída (ou aproximadamente normalmente distribuida.), assim x−µ Z= ~ N (0, 1). σ n 9 10 • Sabe-se x−µ P(− z* ≤ ≤ z* ) = C. σ/ n P( µ − z* σ n ≤ x ≤ µ + z* σ n ) = C. • Isso leva à relação P( x − z* σ n ≤ µ ≤ x + z* σ n ) = C. 11 Quatro níveis de confiança comumente usados Nível de de Nível Confianca Confianca 0.90 0.90 0.95 0.95 0.98 0.98 0.99 0.99 αα 0.10 0.10 0.05 0.05 0.02 0.02 0.01 0.01 α/22 α/ 0.05 0.05 0.025 0.025 0.01 0.01 0.005 0.005 Z∗ 1.645 1.645 1.96 1.96 2.33 2.33 2.575 2.575 12 Tempo na Internet-games • O tipo de jogo disponível e ou planejado é afetado pelo tempo que os usuários (jovens?) passam em frente a tela. Assim, deseja-se saber • Qual o tempo médio de um/uma jovem passa jogando? • Uma pesquisa hipotética foi conduzida com 100 jovens brasileiros, na qual eles gravaram o número de horas jogando por semana. A média da amostra é: x = 27 . 191 • O desvio padrão da população de Internet/games é sabido ser s = 8.0. • Estime com 95% nível de confiança o tempo em frente a tela??????????? 13 Tempo na Internet-games • O parâmetro a ser estimado é µ, o tempo médio gasto em frente a tela por um jovem por semana (de todos jovens brasileiros??). • Nós queremos 95% de intervalo de confiança para µ. 14 Como entender IC? • Um intervalo de confiança (IC) de 95% significa que o intervalo é calculado por um método que irá cobrir o valor verdadeiro da média da população em 95% em todas possíveis amostras. • Para uma dada amostra, se IC cobre o valor verdadeiro ele é deterministico. • Erro frequente: – O IC irá cobrir o valor verdadeiro com probabilidade de 95%. 15 16 Margem de erro • O comprimento de um IC é dado por: • A margem de erro é a metade do comprimento: • Margem de erro é a medida da precisão ou acurácia – Quanto menor, mais preciso 17 Precisão • A margem de erro é uma função de: – do desvio padrão da população – do nível de confiança – do tamanho da amostra • Se tudo mais permanece o mesmo, então – Quanto maior o tamanho da amostra, mais estreito o IC. – Quanto maior o nível de confiança , mais largo o IC. – Quanto maior o desvio padrão, mais largo o IC. • Uma estratégia comum é primeiro especificar ambos – O nivel de confiança desejado – A margem de erro • Então tente determinar o tamanho da amostra 18 Para levar para casa e pensar (ou seja estudar!!!) • Estimativa de um ponto • Intervalo de Confiança – Definição – Interpretação – Intervalo de confiança para a média de uma população • Margem de erro e determinação do tamanho da amostra 19