Aula4_Estatística_DistContinua - FTP da PUC

Propaganda
Estatística
Para um dado conjunto de dados,
podemos calcular as seguintes grandezas:
•
•
•
•
1) Medidas de posição
2) Medidas de dispersão
3) Parâmetros de simetria
4) Intervalo de confiança
Medidas de posição
1) Média aritmética:
xmédio= ( ∑ xi ) /n
2) Média aritmética ponderada
xmédio= ( ∑ xi pi) / (∑ pi)
pi – pesos
xi – valores observados
Medidas de posição
3) Média para dados agrupados numa distribuição de
freqüências
xmédio= ( ∑ xi fi) / (∑ fi)
onde xi é o ponto médio de cada classe
fi é a freqüência de cada classe
4) Moda (mo): valor que se repete o maior numero de vezes , é
o valor que ocorre com maior freqüência. Um conjunto de
números pode não ter moda (amodal), ou pode possuir duas
ou mais modas (bimodal ou multimodal).
Medidas de posição
5) Mediana: termo central da série
Se n é ímpar, por exemplo n = 9.
(n+1)/2 = (9+1)/2 = 5  a mediana é o 5o termo
Se n é par, por exemplo n = 8.
As posições dos termos centrais são:
n/2 = 8/2 = 4º elemento
n/2+1 = 5º elemento
A mediana é a média entre o quarto e quinto elementos.
Medidas de Dispersão
1) Amplitude: é a diferença entre o maior e o
menor valor de um conjunto de dados
2)
Variância:
N
s2 
2
(
x


)
 i
i 1
N
Medidas de Dispersão
3) Desvio padrão: σ= √ s2
O desvio padrão indica o quanto os dados estão
dispersos em torno do valor médio.
4) Coeficiente de Variação: medida relativa de
dispersão utilizada para se comparar, em termos
relativos, o grau de concentração em torno da média de
amostras diferentes. É definido como:
CV = (s/xmédio) 100
Z-score
• O Z-score é uma medida da posição de uma amostra
considerando tanto a média quando a dispersão, medida pelo
desvio padrão. Mais especificamente o Z-score diz quantos
desvios padrão o valor está em relação à média.
Matematicamente falando x-μ dá a distância da amostra x
em relação a média. Se dividirmos este valor pelo desvio
padrão teremos quantos desvios padrão está distante da
média.
z
x   

• O valor z será positivo se x for maior que a média e será
negativo se for menor que a média.
Parâmetros de Simetria
Assimetria positiva
(assimétrica à direita):
Assimetria negativa
(assimétrica à
esquerda):
Assimetria nula:
Parâmetros de Simetria
Coeficiente de Assimetria de Pearson
As = (xmédio – mo)/σ
onde xmédio é a média amostral
mo é a moda
σ é o desvio padrão
As < 0  assimetria negativa
As > 0  assimetria positiva
As = 0  assimetria nula (curva simétrica)
Distribuição Normal
A função densidade probabilidade da
distribuição normal com média μ e
variância σ2 (de forma equivalente,
desvio padrão σ) é assim definida,
Se a variável aleatória X segue esta
distribuição
escreve-se:
X
~
N(μ,σ2). Se μ = 0 e σ = 1, a
distribuição
é
chamada
de
distribuição normal padrão e a
função
de
densidade
de
probabilidade reduz-se a,
f(x)= 1/2π exp(-x2/2)
Distribuição Log-Normal
Uma variável aleatória X
tem a distribuição lognormal quando o seu
logaritmo tem a
distribuição normal. Logo,
sua função de densidade
é:
Distribuição de Weibull
• Distribuição de Weibull,
nomeada pelo seu criador
Waloddi Weibulll, é uma
distribuição de probabilidade
contínua, usada em estudos de
tempo de vida de equipamentos e
estimativa de falhas.
• Sua função de densidade é
• para e f(x;k,λ) = 0 para x < 0,
onde k > 0 é o parâmetro de
forma e λ > 0 é o parâmetro de
escala da distribuição.
Distribuição Exponencial
Distribuição exponencial é um
tipo de distribuição contínua
de probabilidade,
representada por um
parâmetro λ:
f(x;λ) = λ exp(-λx) x ≥ 0
f(x;λ) = 0
x<0
Testes
• Para um certo conjunto de dados, qual é a
distribuição que melhor o descreve?
 testes de aderência
Graus de Liberdade
• Grau de liberdade é, o número de determinações
independentes a serem avaliados na população.
• Encontram-se mediante a fórmula n-1, onde n é o número de
elementos na amostra.
Também podem ser representados por k-1 onde k é o
número de grupos, quando se realizam operações com
grupos e não com sujeitos individuais.
Intervalo de Confiança
Intervalos de confiança (IC) são usados para indicar a confiabilidade
de uma estimativa. Um intervalo de confiança é usado para
descrever quão confiáveis são os resultados de uma pesquisa. Uma
pesquisa que resulte num IC pequeno é mais confiável do que uma
que resulte num IC maior.
Considerando que a integral da probabilidade p(x) é 1, quando se
considera um intervalo de confiança no qual é de 90%, por
exemplo, o intervalo de confiança será definido por x1< x < x2, de
modo que:
x2
∫ p(x) dx = 0,9
x1
Intervalo de Confiança
Ou seja, dado um experimento realizado n vezes onde foram obtidas a
média de cada experimento e a média geral. Se intervalo de
confiança pretendido for de 90% encontramos um valor x temos
uma probabilidade de 90% dos casos em que forem realizados n
experimentos do valor da média encontrada estar no intervalo
x1 < x < x2.
Define-se o parâmetro α como:
Probabilidade da medida estar
dentro do Intervalo de Confiança
No exemplo acima: α =0,10
=
1–α
Intervalo de Confiança: cálculo
Para uma amostra cuja média seja xmédio e o desvio padrão
σ, o intervalo de confiança é dado por:
P(xmédio - zα/2 σ/√n ≤ x ≤ xmédio+ zα/2 σ/√n) = 1 – α
onde zα/2 é um fator tabelado.
Exemplo: Seja n = 36, σ = 3 e xmédio = 24,2. Para 90% de
confiança, zα/2 = 1,65 e o intervalo será:
P(24,2 – 1,65 3/√36 ≤ x ≤ 24,2 + 1,65 3/√36) = 0,90
P(19,25 ≤ x ≤ 29,15) = 0,90
Pode-se afirmar que o valor medido estará entre 19 e 29 com
uma confiança de 90%.
Intervalo de confiança:
Distribuição t Student
Quando o desvio padrão de toda a população não é conhecido,
mas somente o da amostra, é o caso de se usar a
distribuição t –Student.
A Distribuição t é bastante parecida com a Normal, com a
diferença que a de t tem maior área nas caudas. Esta
distribuição é apropriada para um número pequeno de
medidas.
Para utilizar a tabela t é necessário conhecer o nível de
confiança desejado (1-α) e o número de graus de liberdade
(n-1).
Distribuição t Student
Exemplo: Numa amostra de 36 indivíduos, foi medida a taxa de
glicose no sangue. Foi obtida a média de 102,0 mg por 100
ml, com um desvio-padrão de 6 mg por 100 ml de sangue.
Obtenha o intervalo para o nível de 90% de confiança.
P(xmédio - tα/2 σ/√n ≤ x ≤ xmédio+ tα/2 σ/√n) = 1 – α
Para se determinar o valor de t devemos consultar a tabela,
considerando que n = 36 e α = 0,10. Isto nos fornece t = 1,69.
Inserindo estes valores na expressão acima encontramos que:
P (100,31 ≤ x ≤ 103,69) = 0,90
Distribuição t Student
• t table direto para o valor de alpha
• Retrieved from
"http://en.wikipedia.org/wiki/T-table"
Intervalo de Confiança para uma
Distribuição Normal
Quando o n é muito grande não se usa a
Distribuição-t, mas sim a normal. Neste caso o
intervalo de confiança é determinado pelo zscore.
Z-score de um certo valor x: número de desvios
padrão σ que aquele valor x está distante do
valor médio μ.
z = (x – μ)/σ
Teste de Aderência: Chi-quadrado
Teste de Aderência: Chi-quadrado
Teste de Aderência: Chi-quadrado
Teste de Aderência: Chi-quadrado
Teste de Aderência: Chi-quadrado
Exemplo: O Censo mostra que uma cidade tem 64% de
residentes brancos, 25% de negros e 11% de latinos. Uma
amostra de 350 novos empregados da cidade tem 243
brancos, 80 negros e 27 latinos. Será que o crescimento da
cidade está acompanhando as mesmas tendências da sua
população?
Se a resposta fosse sim, os valores esperados seriam:
Brancos = 0,64 * 350 = 224
Negros = 0,25 * 350 = 87,5
Latinos = 0,11 * 350 = 38,5
Χ2 = (243-224)2/224 + (80-87,5)2/87,5 + (27-38,5)2/38,5 = 5,69
Teste de Aderência: Chi-quadrado
Download