estdescr

Propaganda
AULA:
ESTATÍSTICA DESCRITIVA
Vicente Garibay e Josemar Rodrigues
oO que é a estatística ?
Para muitos, a estatística não passa de conjuntos
de tabelas de dados numéricos. Os estatísticos são
pessoas que coletam esses dados.
•A estatística originou-se com a coleta e construção
de tabelas de dados para os governos
• A situação evoluiu e esta coleta de dados
representa somente um dos aspectos da estatística.
2
Definição de Estatística
A estatística é uma ciência (ou método) baseada na
teoria de Probabilidades, cujo objetivo principal é nós
auxiliar a tomar decisões ou tirar conclusões em
situação de incerteza, a partir de informações
numéricas.
3
Estatística
4
AMOSTRAGEM
Uma área importante em muitas aplicações Estatísticas é a da Tecnologia de
Amostragem.
Exemplos de Aplicação:
• Pesquisa de mercado,
• Pesquisa de opinião,
• Avaliação do processo de produção,
• Praticamente em todo experimento.
5
Amostragem Aleatória
Cada elemento da população tem a
mesma chance de ser escolhido.
Amostragem Estratificada
Classificar a população em, ao
menos dois estratos e extrair uma
amostra de cada um.
Amostragem Sistemática
Escolher cada elemento de ordem k.
6
Amostragem por Conglomerados
Dividir em seções a área populacional,
selecionar aleatoriamente algumas dessas
seções e tomar todos os elementos das
mesmas.
Amostragem de Conveniência
Utilizar resultados de fácil acesso.
7
ESTATÍSTICA DESCRITIVA
A estatística descritiva é a etapa inicial da análise
utilizada para descrever e resumir os dados. A
disponibilidade de uma grande quantidade de dados
e de métodos computacionais muito eficientes
revigorou está área da estatística.
8
PROBABILIDADE
A teoria de probabilidades nos permite
descrever os fenômenos aleatórios, ou
seja, aqueles em que está presente a
incerteza.
9
Exemplo 1
Numa pesquisa eleitoral, um instituto de pesquisa
procura, com base nos resultados de um
levantamento aplicado a uma amostra da
população, prever o resultado da eleição.
10
Na eleição Presidencial
Os Institutos de Pesquisa de opinião
colhem periodicamente amostras de
eleitores para obter as estimativas de
intenção de voto da população. As
estimativas são fornecidas com um valor e
uma margem de erro.
O quadro do Instituto Toledo &
Associados, a seguir refere-se à intenção
de voto no 1º turno das eleições para o
governo em 2002.
11
Intenção de voto para presidente do Brasil-2002
Voto estimulado,em % do total de votos.A ultima pesquisa
ouviu 2.202 eleitores- Margem de erro de 2,09%
46,3%
34,9%
40,5%
Lula(PT)
34,3%
33,6%
22,8%
23,3%
Serra(PSDB)
17,6%
13,8%
Ciro(PPS)
Garotinho(PSB) 12,6%
Maio
13,8%
12,1%
14,8%
9,0%
11,3%
10,5%
Junio
Jul /Ago
Set/Out
Fonte:Pesquisa toledo& Associados.
12
Confronto no segundo turno.
13
14
Variável
Qualquer característica associada a uma população
Classificação de variáveis
Qualitativa
Quantitativa


Nominal
Ordinal
Contínua
Discreta
sexo, cor dos olhos
Classe social, grau de instrução
Peso, altura,
Número de filhos, número de
carros,
15
Tabela 1.1 Informação do estado civil, grau de instrução, número de filhos, idade e procedência de 36
funcionários sorteados ao acaso de um empresa.
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Estado
Civil
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Casado
Casado
Grau de
Instrução
10 grau
10 grau
10 grau
20 grau
10 grau
10 grau
10 grau
10 grau
20 grau
20 grau
20 grau
10 grau
20 grau
10 grau
20 grau
20 grau
20 grau
10 grau
Superior
20 grau
20 grau
20 grau
10 grau
Superior
20 grau
20 grau
10 grau
20 grau
20 grau
20 grau
Superior
20 grau
Superior
Superior
20 grau
Superior
No de
filhos
1
2
0
1
2
3
0
1
2
1
0
2
2
0
5
2
1
3
2
3
Salário (X
Sal. Min)
4,00
4,56
5,25
5,73
6,26
6,66
6,86
7,39
7,59
7,44
8,12
8,46
8,74
8,95
9,13
9,35
9,77
9,80
10,53
10,76
11,06
11,59
12,00
12,79
13,23
13,60
13,85
14,69
14,71
15,99
16,22
16,61
17,26
18,75
19,40
23,30
Idade
Região de
anos meses procedência
26 03
Interior
32 10
Capital
36 05
Capital
20 10
Outro
40 07
Outro
28 00
Interior
41 00
Interior
43 04
Capital
34 10
Capital
23 06
Outro
33 06
Interior
27 11
Capital
37 05
Outro
44 02
Outro
30 05
Interior
38 08
Outro
31 07
Capital
39 07
Outro
25 08
Interior
37 04
Interior
30 09
Outro
34 02
Capital
41 00
Outro
26 01
Outro
32 05
Interior
35 00
Outro
46 07
Outro
29 08
Interior
40 06
Interior
35 10
Capital
31 05
Outro
36 04
Interior
43 07
Capital
33 07
Capital
48 11
Capital
42 02
Interior
16
Variáveis Quantitativas
MEDIDAS DE POSIÇÃO: Moda, Média, Mediana, Percentís,
Quartis.
MEDIDAS DE DISPERSÃO: Amplitude, Intervalo-Interquartil,
Variância, Desvio Padrão, Coeficiente de Variação.
17
Medidas de Posição
Moda(mo): É o valor (ou atributo) que
ocorre com maior freqüência.Moda
Ex: 4,5,4,6,5,8,4,4
Mo = 4
18
Média
n
x 

1
x
x
2

x
3
 ... 
n
x
n

x
i 1
i
n
Ex:2,5,3,7,8
Média = [(2+5+3+7+8)/5]=5
19
Mediana
A mediana é o valor da variável que ocupa a
posição central de um conjunto de n dados
ordenados.
Posição da mediana: (n+1)/2
Ex: 2,5,3,7,8
Dados ordenados: 2,3,5,7,8 => (5+1)/2=3
=> Md = 5
Ex: 3,5,2,1,8,6
Dados
ordenados:1,2,3,5,6,8
=>
(6+1)/2=3,5 => Md=(3+5)/2=4
20
Percentis ou Quantis
O percentil (ou quantil) de ordem p, em um
conjunto de dados de tamanho n, é o valor da
variável que ocupa a posição px(n+1) do conjunto
de dados ordenados.
O percentil de ordem p deixa px100% das
observações abaixo dele na amostra ordenada.
Casos Particulares:
Percentil 0,5= mediana ou segundo quartil (md)
Percentil 0,25= primeiro quartil (Q1)
Percentil 0,75= terceiro quartil (Q3)
21
Exemplos
Ex(1): 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
=>n=10
Posição Md:0,5(n+1)=0,5x11=>Md=(3+3,1)/2=3,05
Posição de Q1:0,25(11)=2,75=> Q1=(2+2,1)/2=2,05
Posição de Q3:0,75(11)=8,25=>Q3=(3,7+6,1)/2=4,9
Ex(2):0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6
=>n=11
Md=5,3 Q1=1,7 Q3=12,9
22
Exemplo 2: Considere as notas de um teste de 3 grupos de alunos:
Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.
G1
G2
G3
0
10
10
0
0
10
5
Temos : x 1  x3  x3  5
Md1  Md3  Md3  5
23
Medidas de Dispersão
Finalidade: encontrar um valor que resuma a
variabilidade de um conjunto de dados
Amplitude (A): A=máx-min
Para os grupos anteriores, temos:
Grupo 1, A=4
Grupo 2, A=8
Grupo 3, A=0
24
Intervalo-Interquartil (d)
É a diferença entre o terceiro quartil e o primeiro
quartil, ou seja,
d= Q3-Q1
Ex(1): 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
Q1=2,05
e Q3=4,9
d =Q3-Q1=4,9-2,05=2,85
25
Variância
n
 ( x  x )  ...  ( x  x )
(

x
)
x
1
2
n

2
S
2
2
n 1
2

2


x

x
 i
i 1
n 1
Desvio padrão S
Desvio Padrão  Variância
26
Cálculo da variância para o grupo 1:
G1:3, 4, 5, 6, 7: Vimos que:
x 5
2
2
2
2
2
(
3

5
)

(
4

5
)

(
5

5
)

(
6

5
)

(
7

5
)
10
S2 
  2,5
5 1
4
Desvio padrão
S  2,5  1,58
2
G1 : S  2,5
S  1,58
G 2 : S  10
S  3,16
G3 : S  0
S 0
2
2
27
Coeficiente de Variação (CV)
 É uma medida de dispersão relativa;
 Elimina o efeito da magnitude dos dados;
 Exprime a variabilidade em relação a média
S
CV 
 100%
X
28
Exemplo 4: Altura e peso de alunos
Média
Desvio padrão
Coeficiente de
variação
Altura
Peso
1,143m
50Kg
0,063m
5,5%
6kg
12%
Conclusão: Os alunos são, aproximadamente, duas vezes mais
dispersos quanto ao peso do que quanto a altura
29
Exemplo 3: Alturas de meninos de uma amostra e altura de
homens adultos de outra amostra.
Média
Desvio padrão
Coeficiente de
variação
Meninos
50cm
6cm
12%
Homens
160cm
16cm
10%
Conclusão: Em relação ‘as médias, as alturas dos homens e dos
meninos apresentam variabilidade quase iguais.
30
ORGANIZAÇÃO E REPRESENTAÇÃO DOS DADOS
Uma das formas de organizar e resumir a informação contida em
dados observados é por meio de tabela de freqüências e gráficos.
Tabela de freqüência: relaciona categorias (ou classes) de valores,
juntamente com contagem (ou freqüências) do número de valores que
se enquadram em cada categoria ou classe.
1. Variáveis qualitativas: Podemos construir tabela de freqüência
que os quantificam por categoria de classificação e sua
representação gráfica é mediante gráfico de barras, gráfico setorial
ou em forma de pizza.
31
Exemplo 1: Considere ao variável grau de Instrução dos dados da
tabela 1.(Variável qualitativa)
Grau
de
instrução
fi
f ri 
Contagem
fi
f ri
1o Grau
12
0,3333
2o Grau
18
0,5000
Superior
6
0,1667
total
n=36
1,0000
:Frequência absoluta da categoria i (número de indivíduos
que pertencem à categoria i
fi
:Frequência relativa da classe i
n
32
Representação gráfica de variáveis qualitativos
• Barras horizontais ou verticais
• Diagramas circulares ou “pizza”
Diagrama de barras para a variável
grau de instrução
60,00%
50,00%
50,00%
40,00%
33,33%
30,00%
20,00%
16,70%
10,00%
0,00%
1o Grau
2o Grau
Superior
33
Diagrama circular para a variavel grau de instrução
1o Grau (33.3%)
Diagrama circular para a variável grau de
instrução
Superior
17%
2o Grau (50.0%)
1o Grau
33%
Superior (16.7%)
2o Grau
50%
34
2. Organização e representação de variáveis quantitativas
2.1 Quantitativas discretos: Organizam-se mediante tabelas de
frequências e a representação gráfica é mediante gráfico de
barras ou gráfico de linha
Exemplo: Considere a variável número de filhos dos dados da tabela 1.
Tabela 2.1:Distribuição de freqüências de funcionários da empresa,
segundo o número de filhos
i
1
2
3
4
5
Número de
filhos
(Xi )
0
1
2
3
5
total
Número de
funcionários
(fi )
4
5
7
3
1
20
% de funcionários
(fri)
20%
25%
35%
15%
5%
100%
35
Observação 1: A partir da tabela 2.1 podemos recuperar as 20
observação da tabela 1.1, ou seja, aqui não temos perda de
informação dos dados originais.
Representação gráfica
35%
35
% de funcionários
25%
25
20%
15%
15
5%
5
0
1
2
3
4
5
Número
de filhos
36
Determinação das medidas de posição e medidas de dispersão para
variáveis quantitativas discretas agrupados em tabela de freqüências:
k
• Média:
X 1 f1  X 2 f 2    X k f k
X

n
X
i
fi
i 1
n
Exemplo: Considere a tabela 2.1 e determine a média de filhos dos
funcionários.
X
0  4  1  5  2  7  3  3  5  1 33

 1,65
20
20
• Mediana:
Dados ordenados:
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 5 =>
(20+1)/2=10,5
=> Md = 2
37
• Variância:
k
( X 1  X ) 2 f1  ( X 2  X ) 2 f 2    ( X k  X ) 2 f k
S 

n 1
2
Cálculo da variância para os dados da tabela 2.1
(X
i
 X )2 fi
i 1
n 1
4(0  1,65) 2  5(1  1,65) 2  7(2  1,65) 2  3(3  1,65) 2  (5  1,65) 2
S 
19
16,3125

 0,858553
19
Desvio padrão:
2
S  S 2  0,858553  0,927
38
2.2 Procedimento de construção de tabelas de freqüência para
variáveis contínuas:
1. Escolha o número de intervalos de classe (k)
2. Identifique o menor valor (MIN) e o valor máximo (MAX) dos
dados.
3. Calcule a amplitude dos dados (A): A=MAX –MIN
4. Calcule o comprimento de cada intervalo de classe (h): h  A
k
5. Arredonde o valor de h de forma que seja obtido um número
conveniente.
6. Obtenha os limites de cada intervalo de classe.
PRIMEIRO INTERVALO:
Limite inferior : LI1  MIN
Limite superior : LS1  LI 1  h
39
SEGUNDO INTERVALO :
Limite inferior : LI 2  LS 1
Limite superior : LS 2  LI 2  h
i - ÉSIMO INTERVALO:
Limite inferior : LI i  LS i 1
Limite superior : LSi  LI i  h
Continue estes cálculos até que seja obtido um intervalo que
contenha o maior valor dos dados (MAX) entre os seus limites.
7. Construa uma tabela de distribuição de freqüências, constituída
pelas seguintes colunas:
• Número de ordem de cada intervalo (i)
• Limites de cada intervalo. Os intervalos são fechados á
esquerda e aberta à direita: NOTAÇÃO:|----
40
• Ponto médio (ou marca de classe) de cada intervalo de classe:
X í´
LS i  LI i

2
• Contagem dos dados pertencentes a cada intervalo.
•Freqüências absolutas de cada intervalo de classe.
•Freqüências relativas de cada intervalo de classe.
•Freqüências acumuladas absolutas de cada intervalo de classe.
Fi  f 1  f 2    f i 
i
f
j
j 1
•Freqüências acumuladas relativa de cada intervalo de classe.
Fri  f r1  f r2    f ri 
i

j 1
Fi
f r j ; ou Fri 
n
41
Exemplo: Considere a variável salário da empresa comercializadora de
produtos de informática.
Procedimento:
1. Considere k=5.
2. MIN=4; MAX=23,30.
3. A=MAX-MIN=23,30-4=19,30
4. h=19,3/5=3,86
5. h3,9
6. Cálculo dos limites de cada intervalo:
PRIMEIRO INTERVALO
LI1  4
LS1  4  3,9  7,9
SEGUNDO INTERVALO
LI 2  7,9
LS 2  7,9  3,9  11,8
Os demais limites dos
procedimento anterior.
intervalos
foram
gerados
seguindo
o
42
• Ponto médio:
X 1´ 
4  7,9  5,95;
2
X 2´ 
7,9  11,8  9,85
2
De forma similar obtém-se os outros pontos médios.
Tabela 2.2: Distribuição de freqüências da variável salário.
i
Intervalos
de classe
1
2
3
4
5
4,0 |-- 7,9
7,9 |-- 11,8
11,8 |-- 15,7
15,7 |-- 19,6
19,6 |-- 23,5
Total
Ponto médio Freqüência Freqüência
(X´i)
Absoluta (fi) Relativa ( f ri )
Freqüência
Acumulada
Absoluta (Fi)
Freqüência
Acumulada
Relativa ( Fri )
10
12
7
6
1
36
10
22
29
35
36
0,277778
0,611111
0,805556
0,972222
1
5,95
9,85
13,75
17,65
21,55
0,277778
0,333333
0,194444
0,166667
0,027778
1,000000
Nesta organização de dados, temos perda de informação dos
dados originais
43
Representação gráfica:
• Histograma de freqüências absolutas (ou relativas (em %))
33,33%
% de funcionários
30
27,78%
19.44%
20
16,67%
10
2,7%
0
4.0
7.9
11.8
15.7
19.6
23.5
Salário
44
• Polígono de freqüências absolutas (ou relativas (em %))
35,00%
% de funcionários
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
0
10
20
30
Salário
45
Histograma de freqüência acumulada relativa (em %)
Frequência acumulada percentual (%)
•
97,22%
100
100%
80,56%
61,11%
50
27,78%
0
4.0
7.9
11.8
15.7
19.6
23.5
Salario
46
Porcentagem
•Polígono de freqüência acumulada relativa (ogiva)
120%
100%
80%
60%
40%
20%
0%
0
4
8
12
16
20
24
28
Salário
47
Medidas de posição e medidas de dispersão para variáveis
contínuas agrupadas em tabela de freqüências.
k
• Média:
X 
X 1´
f1 
X 2´
f 2   X k´
n
fk

X
´
i
fi
i 1
n
Exemplo: Considere a tabela 2.2
5,95  10  9,85  12  13,75  7  17,65  6  21,55  1
36
401,4

 11,15
35
X 
Se calculamos a média para dados não agrupados apresentadas
anteriormente resulta:
X 
X 1  X 2    X 36
4  4,36    23,30

 11,122
36
36
Este resultado difere do valor obtido anteriormente. Porque?
48
• Moda (mo):
 d1 
  h
mo  LI i  
 d1  d 2 
i : Classe modal (é aquela classe que tem maior frequência absoluta (f i ))
LI i : é o limite inferior da classe modal.
d 1  f i  f i 1
d 2  f i  f i 1
h : compriment o do intervalo de classe.
Exemplo: Considere a tabela 2.2.
Já que, f 2  12  f j j  2
TDF
i =2, é a classe modal
 d1 


12  10
  h  7,9  
  3,9  9,014
mo  LI 2  
 (12  10)  (12  7) 
 d1  d 2 
49
• Mediana (Md)
 0,5n  Fi 1 
  h
Md  LI i  
fi


i : é a classe médiana (é o intervalo de classe onde a coluna dos Fi na TDF
superou o 50% dos dados)
LI i : Limite inferior da classe mediana.
Fi-1 : é a frequência acumulada absoluta da classe anterior a classe mediana
f i : frequência absoluta da classe mediana.
h : compriment o do intervalo de classe.
Exemplo: Considere a tabela 2.2
Já que,
F2  22  n / 2  i =2, é a classe mediana
 0,5n  F1 
 18  10 
  h  7,9  
Md  LI 2  
  3,9  8,55
f
12


1


50
 f X
2
k
• Variância:
i
S2 
´
i
X

i 1
n 1
Exemplo: Considere a tabela 2.2. Vimos que
i
Intervalos
de classe
4,0 |-- 7,9
7,9 |-- 11,8
11,8 |-- 15,7
15,7 |-- 19,6
19,6 |-- 23,5
Total
1
2
3
4
5
 f X
S2 

X´i
fi
f i X i´  X
5,95
9,85
13,75
17,65
21,55
10
12
7
6
1
36
270,40
20,28
47,32
253,50
108,16
699,66

2
2
5
i
X  11,15
´
i
X
i 1
36  1


699,66
 19,99029 
35
S  4,47105 (Desvio Padrão)
51
Boxplot
O BOXPLOT representa os dados através de um retângulo
construído com os quartis e fornece informação sobre valores
extremos. (veja o esquema embaixo)
52
Exemplo de construção de um Boxplot. Com a finalidade de
aumentar o peso (em Kg) um regime alimentar foi aplicado em 12
pessoas. Os resultados (ordenados) foram:
-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.
Calculando as medidas temos:
Mediana (md ou Q2) = 5,6kg
1º.quartil (Q1) = 3,3kg
3º.quartil (Q3) = 6,25kg
d=intervalo interquartil = Q3-Q1 =2,95kg
Logo as linhas auxiliares correspondem aos pontos:
Q1-1,5d = -1,25kg
Q3+1,5d = 10,675kg
53
Exemplo: Considere os dados da tabela 1.1, o boxplot para variável
salário por educação e região de procedência dos funcionários da
empresa.
54
Boxplot de Salário por educação
Boxplot de Salário por educação
25
Grau Instrucao
15
2
1
5
1
2
3
5
Grau de Instrucao
15
25
Salario
Boxplot de Salário por região de procedência
Região de Procedência
Salario
3
Outro
Capi tal
Interi or
5
15
25
Salario
55
Exemplo: As idades dos 20 ingressantes num certo curso de
pós-graduação de uma universidade foram as seguintes: 22,
22,22, 22,23,23, 24, 24, 24,24, 25, 25 26, 26, 26, 26,
27, 28, 35 e 40.
(a) Determine a media e mediana.
(b) Determine o desvio padrão
(c) Construa o “ boxplot”
(d) Você identifica valores excepcionais dentre os que foram
observados? Se sim remova-os e recalcule os itens (a)-(b).
Comente as diferenças encontradas.
(e) Dentre as medidas de posição calculada em (a), discuta qual
delas seria mais adequada para resumir esse conjunto de
dados.
56
Descriptive Statistics
Variable
Idade
N
20
Mean
25.70
Median
24.50
Tr Mean
25.11
Variable
Idade
Min
22.00
Max
40.00
Q1
23.00
Q3
26.00
StDev
4.47
SE Mean
1.00
Boxplot of Idade
20
30
40
Idade
57
Descriptive Statistics
Variable
Idade
N
18
Mean
24.389
Median
24.000
Tr Mean
24.313
Variable
Idade
Min
22.000
Max
28.000
Q1
22.750
Q3
26.000
StDev
1.852
SE Mean
0.436
Boxplot of Idade
22
23
24
25
26
27
28
Idade
58
Exemplo: Os dados abaixo referem-se aos instantes de chamadas
para atendimentos em uma rodovia em dois dias consecutivos.
1o dia: 0,55 1,30 4,00 5,20 5,20 6,35 6,55 7,42 9,20 9,20
9,30 10,32 10,50 10,40 11,05 11,30 12,10 15,35 16,00 16,10
16,15 17,30 17,35 17,50 17,53, 19,20 20, 35 21,45 22,00
23,15 23,20 23,50.
2o Dia: 4,20 7,00 7,10 8,25 10,10 12,25 12,25 12,40 13,45
14,45 14,45, 15,35 15,20 16,30 15,30 16,42 16,42 17,00
17,00 17,00 19,05 22,55.
Faça uma análise descritiva dos dados.
59
Descriptive Statistics
Variable Dia
I_Chegad 1
2
N Mean Median Tr Mean StDev SE Mean
32 13.00 11.70
13.13
6.61
1.17
22 13.79 14.825
13.832 4.346
0.927
Min
Max
Q1
Q3
0.55 23.50 7.87 17.52
4.200 22.55 11.713 16.565
Boxplot do instante de chegada dos 2 dias
2
Dia
Variable Dia
I_Chegad 1
2
1
0
10
20
I_Chegada
60
Download