introdução à estatística

Propaganda
INTRODUÇÃO À ESTATÍSTICA
Prof. Dr. Guanis de Barros Vilela Junior
O que é Estatística?
Não é uma CIÊNCIA EXATA!!!
 É UMA CIÊNCIA PROBABILÍSTICA !!!!!!!
 Serve para “apoiar” um pressuposto teórico
 Associa probabilisticamente variáveis
 Não estabelece, via de regra, RELAÇÃO
CAUSAL!
 Pode ser manipulada! (como qualquer
conhecimento)

Objetivos
• Descrever as características de uma amostra;
•Identificar as operações matemáticas que podem
ser empregadas na análise de dados de acordo
com a escala de medida das variáveis;
•Selecionar procedimentos adequados à análise
descritiva de variáveis qualitativas e quantitativas;
•Interpretar as estatísticas utilizadas para
representar a tendência central e a dispersão
Distribuição de Frequências
A tabela abaixo mostra o gasto energético diário
(em Kcal) em atividades físicas de 15 sujeitos
Tabela
Primitiva
Sujeito Gasto
energético
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
3200
1910
2204
2435
2759
3000
3004
2805
1900
1999
2960
3232
2759
2328
2524
Rol
Crescente
Passo 1: ordenar do menor
para o maior gasto energético
Passo 2: Calcule a Amplitude
(diferença entre o maior e o
menor)
A = 3232 – 1900 = 1332
Sujeito Gasto
energético
9
2
10
3
14
4
15
5
13
8
11
6
7
1
12
1900
1910
1999
2204
2328
2435
2524
2759
2759
2805
2960
3000
3004
3200
3232
Medidas de Posição
Medidas de Posição
Medidas de
Tendência Central
Medidas Separatrizes
ou de Dispersão
Medidas de Tendência Central
Média Aritmética – é a soma das medidas dividida pelo
número de casos, represntando-se a média da população por µ
e a da amostra por x.
É uma das medidas mais usadas, entretanto, possui como
desvantagem o fato de sofrer grande influência de valores extremos.
Na tabela do gasto energético apresentada anteriormente a média é:
Σ Pi
X=
n
= (39019) / 15 = 2601,267 Kcal
Medidas de Tendência Central
Mediana: é o valor que se encontra na posição central
da série de dados.
É empregada quando há valores extremos que podem
afetar, de maneira acentuada, a média.
No rol crescente do gasto
energético, qual é a mediana?
9
2
10
3
14
4
15
5
13
8
11
6
7
1
12
1900
1910
1999
2204
2328
2435
2524
2759
2759
2805
2960
3000
3004
3200
3232
2759
Medidas de Tendência Central
Moda: é o valor mais frequente da série de dados.
É empregada em pesquisas cujas informações são de
natureza qualitativa (escala nominal ou ordinal).
Qual é a moda?
9
2
10
3
14
4
15
5
13
8
11
6
7
1
12
1900
1910
1999
2204
2328
2435
2524
2759
2759
2805
2960
3000
3004
3200
3232
2759
Medidas de Tendência Central
Quartis: são representados por Q1, Q2, Q3,
sendo chamados de primeiro, segundo e terceiro
quartil respectivamente.
Q1: é um valor que representa que abaixo existem 25% dos casos.
Q2: é um valor que representa que abaixo existem 50% dos casos.
Q3: é um valor que representa que abaixo existem 75% dos casos.
Medidas de Tendência Central
Decis: São representados por D1, D2, D3, ... , D9, sendo
chamados, respectivamente, de primeiro, segundo, terceiro, ... ,
nono decil.
D1: é o valor que representa que abaixo existem 10% dos casos
D2: é o valor que representa que abaixo existem 20% dos casos
D3: é o valor que representa que abaixo existem 30% dos casos
..... ...... ..... ...... ....... ....... ....... ....... ........ ........ ...... ..
D9: é o valor que representa que abaixo existem 90% dos casos
Medidas de Tendência Central
Percentis: São representados por P1, P2, P3, ... , P99,
sendo chamados, respectivamente, de primeiro, segundo, terceiro, ... ,
nonagésimo nono percentil.
P1: é o valor que representa que abaixo existem 10% dos casos
P2: é o valor que representa que abaixo existem 20% dos casos
P3: é o valor que representa que abaixo existem 30% dos casos
..... ...... ..... ...... ....... ....... ....... ....... ........ ........ ...... ..
P99: é o valor que representa que abaixo existem 99% dos casos
Tabelas de percentis são muito utilizadas na área da atividade física,
especialmente para avaliação do crescimento e desenvolvimento de
crianças e adolescentes.
Medidas de Dispersão
A população de duas cidades A e B possuem renda média
de R$ 5000,00. Sabemos que esta medida de tendência
central informa muito pouco sobre a distribuição da renda
nas duas cidades, ou seja, não sabemos da proporção de
ricos e pobres.
Uma das cidades pode apresentar, ao mesmo tempo, uma
esmagadora maioria muito pobre e algumas poucas famílias
muito ricas, possuindo mesmo assim uma renda média de
R$ 5000,00.
A outra cidade pode apresentar uma distribuição de renda
mais igualitária, tendo uma renda média de R$ 5000,00.
Por isto saber da dispersão da renda para estas cidades
aponta
Distribuição Normal (ou Gaussiana)
- DP +DP
+2DP
-2DP
Média
Distribuição Normal (ou Gaussiana)
68,3%
95,3%
99,7%
Medidas de Dispersão
Amplitude
É a diferença entre o maior e o menor valor do
conjunto de dados.
Na tabela de gasto energético:
A = 3232 – 1900 = 1332
Medidas de Dispersão
Desvio:
É a diferença entre a média e cada um
dos valores no conjunto de dados.
Pode ser negativo.
Variância (s2):
É a média aritmética dos
quadrados dos desvios.
Ou seja:
S2 =
Σ(x - µ)2
N
Medidas de Dispersão
Desvio Padrão (SD ou DP):
É a raiza quadrada da variância
Ou seja:
S=
Σ(x - µ)2
N
Medidas de Dispersão
Erro padrão (EP):
É a razão entre o DP e a raiz
quadrada do tamanho da amostra
Ou seja:
EP =
S
N
É muito importante para a construção de intervalos de confiança
Medidas de Dispersão
Erro padrão (EP):
EP =
S
N
Média da
população
Diferença entre o
real e o esperado
Média da amostra A
Média da amostra B
Medidas de Dispersão
Coeficiente de Variação
Expressa o Desvio Padrão
como porcentagem do
valor da média.
Ou seja:
DP
CV = média
Quanto menor o CV mais homogênea será a amostra
Medidas de Dispersão
Escore Z
Z=
Mede quanto um valor específico
afasta-se da média em unidades
de desvio – padrão.
X-X
DP
-3 -2 -1
0 +1 +2 +3
Escore Z
Medidas de Dispersão
Z=
Escore Z
X-X
DP
É muito útil para comparar valores
provenientes de diferentes estudos
É de fácil conversão para percentil
Medidas de Dispersão
Exemplo: Admitamos que para um valor específico
o escore Z = +2, então:
50%
48%
+2
50+48= 98%
Percentil 98: este valor é igual ou superior a 98% dos
valores presentes no restante da população
Exercício
Considerando as estaturas de todos os meninos com
10 anos de idade de um vilarejo, obteve-se uma
estatura média de 120 cm e um Desvio Padrão de 20 cm.
Como se localiza dentro desta população, uma
criança, que aos 10 anos de idade, apresenta estatura
de 80 cm?
Z=
X-X
DP
80 - 120 = - 2
=
20
Esta criança está no percentil 2, ou seja, ela tem uma
estatura superior ou igual à apresentada por 2% das
crianças de sua comunidade. ENTÃO ?!?!?!?!...
ESTATÍSTICA ANALÍTICA
Prof. Dr. Guanis de Barros Vilela Junior
Introdução
Permite ao pesquisador ir além da
descrição dos dados e fazer inferências
sobre a população, a partir da amostra.
 Estas inferências possuem limitações; não
se pode ter certeza absoluta sobre elas.
 A estatística inferencial permite ao
pesquisador calcular o risco que ele
assume ao chegar a determinada
conclusão.

Definição das hipóteses





A Hipótese Nula (H0) é, em geral, uma afirmação
conservadora sobre uma situação da pesquisa.
Por exemplo, se você quer testar se duas variáveis têm
relação, a hipótese nula é a de que esta relação não
existe.
A Hipótese Alternativa (H1) é formulada como
alternativa para H0 ; caso esta seja rejeitada H1 passa a
ser a resposta do problema investigado.
H0: o gasto energético é o mesmo entre homens e
mulheres na população.
H1: o gasto energético é diferente entre homens e
mulheres na população.
Testes estatísticos e o valor p
Os testes estatísticos servem para
identificar e quantificar as evidências que
poderão tornar a H0, verdadeira ou não.
 De modo geral, quanto maior o valor do
teste estatístico, maiores serão as
evidências contra a hipótese nula (H0).
 O valor encontrado no teste estatístico é
comparado com uma distribuição
teoricamente conhecida na população.

Testes estatísticos e o valor p
Esta comparação permite identificar o
valor p (entre 0 e 1) que representa a
probabilidade dos resultados encontrados
na amostra serem idênticos à distribuição
da população.
 Valor de p é a probabilidade de aceitar a
hipótese nula como verdadeira.
 Usualmente, o valor crítico de p fica
situado em 5% (0,05) ou 1% (0,01).

Testes estatísticos e o valor p
Quanto menor o valor de p maior será a
evidência contra a hipótese nula (H0).
 Na área da saúde um valor de p inferior a
0,05 é suficiente para rejeitar H0.
 Estudos que requeiram maior precisão,
como por exemplo, testar um protocolo
para avaliação de cardiopatas, adotam um
p mais rígido (0,1%).

Erros testando hipóteses
Decisão em
relação a H0
H0
Rejeitar
Aceitar
Verdadeiro
Erro Tipo 1
Sem erro
falso
Sem erro
Erro Tipo 2
Admitamos que um técnico de tênis queira pesquisar a
influência da cor dos olhos no resultado do saque!
Quais seriam H0 e H1 ?
H0: a cor dos olhos não interfere no resultado do saque
H1: a cor dos olhos interfere no resultado do saque
Cuidado com as amostras!

20 20 20 34 32 32
33 44 87 65 49 11
97 62 88 57 58 78
22 20 20 20 21 44
45
21
79
33
34
23
81
22
77
24
82
21
88
55
22
20

A = [20, 20, 20, 78]

20 20 20 34 32 32
33 44 87 65 49 11
97 62 88 57 58 78
22 20 20 20 21 44
45
21
79
33
34
23
81
22
77
24
82
21
88
55
22
20
B = [21, 21, 22, 22]

Admitamos que as duas
populações ao lado sejam
idênticas
Duas amostras de 4
números (A e B) são
extraídas aleatoriamente
de cada uma delas.
A partir destas amostras
poderíamos tirar
conclusões equivocadas
sobre as populações
A partir das mesmas
poderíamos concluir que
as duas populações são
diferentes (erro tipo 1).
Testando Hipóteses
Estabelecer uma hipótese experimental (H1)
 Estabelecer uma hipótese nula (H0)
 Determinar o tamanho da amostra
 Colher os dados
 Realizar a análise estatística para
determinar a probabilidade de que a
hipótese nula seja verdadeira
 Rejeitar ou não a hipótese nula.

Evitando erros

Para fins práticos pode-se considerar:
Amostras grandes: n > 100
Amostras médias: n > 30
Amostras pequenas: n < 30
Amostras muito pequenas: n < 12
 É importante tentar evitar amostras pequenas
e muito pequenas, pois a arsenal estatístico
para estes casos fica muito reduzido.
Teste t (t student)
É um poderoso teste utilizado para
comparar duas amostras.
 Pode ser aplicado em uma única amostra,
onde é realizada a comparação entre as
médias desta amostra e da população.
 Por exemplo, para comparar a força de
preensão isométrica de uma amostra com
a força média conhecida de uma
população.

Teste t (t student)
Verificar se a distribuição é gaussiana
 Aplicar o teste t entre as amostras
 Como?!?:

t=
Xa - Xb
EP
O EP neste caso, combina os DP do grupos
e o número de dados (n) em cada grupo
Estudo Dirigido 1




Objetivo: aplicar o teste t (student) para comparar
a força média de preensão de um grupo de 30
sujeitos, homens, idade entre 20 e 30 anos,
pertencentes a uma unidade do Exército
Brasileiro.
Procedimentos e informações:
1) fazer o download da planilha clicando aqui.
2) sabe-se que a força média de preensão da
população para esta faixa etária é de 37,42 Kgf
3) realizar a estatística descritiva para todos os
dados.
Estudo Dirigido 2
Objetivo: familiarizar-se com procedimentos
estatísticos estudados.
Tarefa: Em duplas, procurar na Internet um artigo
científico publicado no último ano que utilize em
seu tratamento estatístico o test t, preferencialmente,
em tema de seu projeto ou área afim.
Cada dupla deverá apresentar (resumidamente)
os objetivos, metodologia e resultados encontrados.
Download