Revisão - DCC/UFMG

Propaganda
Métodos Quantitativos para
Ciência da Computação Experimental
Revisão
Virgílio A. F. Almeida
Maio de 2008
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais
Revisão
FOCO do curso
Inferência Estatística
Experimento
Computacional
Amostra
População
• A inferência estatística é o processo pelo qual obtém-se
informação sobre populações a partir de amostras.
• Três procedimentos:
– Estimativa do ponto
– Intervalo de Confiança
– Teste de hipótese
2
Uso de games na Internet
• O tipo de jogo disponível e ou planejado é afetado pelo
tempo que os usuários (jovens?) passam em frente a
tela. Assim, deseja-se saber:
– Qual o tempo médio de um/uma jovem passa jogando?
• Uma pesquisa hipotética foi conduzida com 100 jovens
brasileiros, na qual eles gravaram o número de horas
gastas em jogo por semana.
• A média da amostra é:
x = 27 . 191
3
Estimativa do Ponto
• Um estimador do ponto realiza a inferência sobre a
população ao estimar o valor de um parâmetro
desconhecido usando um valor único ou um ponto.
Parametro
Distribuição da população
?
Distribuição da amostra
Estimador do ponto
4
Fraquezas do Estimador do Ponto
• Qão diferente é o valor estimado do valor verdadeiro?
• Quão confiável é sua estatística?
• Quão confiante você se sente quanto à sua
estimativa?
• Como melhorar?
5
Intervalo de Estimativa
• Um intervalo de estimativa faz inferências sobre a
população ao estimar o valor do parâmetro desconhecido
usando um intervalo.
Distribuição da População
Parametro
Intervalo estimado
Distribuição da amostra
6
Intervalo de Confiança
• Um Intervalo de Confiança tem a forma: estimativa do
ponto ± margem de erro
• A estimativa é nosso “valor” para o valor do parametro
desconhecido
• A margem de erro mostra quão acurado nós
acreditamos que nossa “estimativa” é , baseado na
amostragem da distribuição do valor estimado.
• O nível de confiança mostra a confiança nos
procedimentos para capturar o parâmetro da população
verdadeira, usualmente a média.
7
Intervalo de Confiança
• C ou ∝: nível de confiança
• Parametro de interesse: θ
• Um nivel de confiança C para θ é um
intervalo [L, U] computado a partir de dados
das amostras tais que:
• Nível de significância:
8
Intervalo de Confiança para µ
• Quão confiável é o intervalo produzido por uma
distribuição de amostragem?
– Para estimar µ, uma amostra de tamanho n é
sorteada da população, e sua média x é calculada
– Sob certas condições, x é normalmente distribuída
(ou aproximadamente normalmente distribuida.),
assim
x−µ
Z=
~ N (0, 1).
σ n
9
10
• Sabe-se
x−µ
P(− z* ≤
≤ z* ) = C.
σ/ n
P( µ − z*
σ
n
≤ x ≤ µ + z*
σ
n
) = C.
• Isso leva à relação
P( x − z*
σ
n
≤ µ ≤ x + z*
σ
n
) = C.
11
Quatro níveis de confiança comumente usados
Nível de
de
Nível
Confianca
Confianca
0.90
0.90
0.95
0.95
0.98
0.98
0.99
0.99
αα
0.10
0.10
0.05
0.05
0.02
0.02
0.01
0.01
α/22
α/
0.05
0.05
0.025
0.025
0.01
0.01
0.005
0.005
Z∗
1.645
1.645
1.96
1.96
2.33
2.33
2.575
2.575
12
Tempo na Internet-games
• O tipo de jogo disponível e ou planejado é afetado pelo tempo que
os usuários (jovens?) passam em frente a tela. Assim, deseja-se
saber
• Qual o tempo médio de um/uma jovem passa jogando?
• Uma pesquisa hipotética foi conduzida com 100 jovens brasileiros,
na qual eles gravaram o número de horas jogando por semana. A
média da amostra é:
x = 27 . 191
• O desvio padrão da população de Internet/games é sabido ser s =
8.0.
• Estime com 95% nível de confiança o tempo em frente a
tela???????????
13
Tempo na Internet-games
• O parâmetro a ser estimado é µ, o tempo
médio gasto em frente a tela por um
jovem por semana (de todos jovens
brasileiros??).
• Nós queremos 95% de intervalo de
confiança para µ.
14
Como entender IC?
• Um intervalo de confiança (IC) de 95% significa que o
intervalo é calculado por um método que irá cobrir o
valor verdadeiro da média da população em 95% em
todas possíveis amostras.
• Para uma dada amostra, se IC cobre o valor verdadeiro
ele é deterministico.
• Erro frequente:
– O IC irá cobrir o valor verdadeiro com probabilidade de 95%.
15
16
Margem de erro
• O comprimento de um IC é dado por:
• A margem de erro é a metade do comprimento:
• Margem de erro é a medida da precisão ou acurácia
– Quanto menor, mais preciso
17
Precisão
• A margem de erro é uma função de:
– do desvio padrão da população
– do nível de confiança
– do tamanho da amostra
• Se tudo mais permanece o mesmo, então
– Quanto maior o tamanho da amostra, mais estreito o IC.
– Quanto maior o nível de confiança , mais largo o IC.
– Quanto maior o desvio padrão, mais largo o IC.
• Uma estratégia comum é primeiro especificar ambos
– O nivel de confiança desejado
– A margem de erro
• Então tente determinar o tamanho da amostra
18
Para levar para casa e pensar (ou seja estudar!!!)
• Estimativa de um ponto
• Intervalo de Confiança
– Definição
– Interpretação
– Intervalo de confiança para a média de uma
população
• Margem de erro e determinação do
tamanho da amostra
19
Download