Estatística descritiva

Propaganda
Estatística descritiva
Também designada
Análise exploratória de dados ou
Análise preliminar de dados
1
Estatística descritiva vs inferencial
Estatística Descritiva: conjunto de métodos
estatísticos que visam sumariar e descrever
os atributos mais proeminentes aos dados.
Estatística Inferencial: conjunto de métodos
estatísticos que visam caracterizar (ou inferir
sobre) uma população a partir de uma parte
dela (a amostra).
2
x
Estatísticas ou medidas amostrais
Estatística ou medida amostral: uma medida
numérica que descreve alguma característica
de uma amostra. É habitualmente representada
por letras latinas. Por exemplo: x (média), s (desvio
padrão), r (coeficiente de correlação)
Amostra
Estatística / medida amostral
3
Parâmetros
Parâmetro: uma medida numérica que
descreve alguma característica de uma
população. É habitualmente representado por
letras gregas. Por exemplo: µ (média), σ (desvio
padrão), ρ (coeficiente de correlação)
População
Parâmetro
4
Ferramentas de Estatística Descritiva
Cálculo numérico de medidas amostrais.
Resumo e descrição global dos dados
através da construção de tabelas e de
gráficos.
Análise e interpretação dos resultados
obtidos.
5
Medidas amostrais
Tendência ou localização central:
média (mean),
mediana (median),
moda (mode),
média aparada (trimmed mean).
6
Medidas amostrais
Localização relativa:
Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
7
Medidas amostrais
Dispersão:
amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
coeficiente de variação (coefficient of variation),
8
Medidas amostrais
Assimetria:
Coeficiente de assimetria (skweness).
9
Tabelas de frequências
Tabelas que resumem a informação contida
na amostra, ordenando os seus valores e
agrupando-os em classes (de valores
repetidos ou de valores distribuídos por
intervalos).
10
Gráficos
Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and leaf)
Diagramas de dispersão (scatterplot)
11
Descrição resumida das várias
ferramentas de Estatística descritiva
12
Ordenação e tabela de frequências
Tipos de frequências:
Frequência absoluta
Frequência relativa
Frequência absoluta acumulada
Frequência relativa acumulada
Uma tabela de frequências é uma tabela
onde figuram os valores de pelo menos um
destes tipos de frequências.
13
Tabela de frequências
Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o nº de golfinhos
presos nas redes dos pescadores das águas Açoreanas.
nº de golfinhos presos num dia
Valid
0
1
2
3
4
5
6
8
9
13
Total
Frequency
37
45
84
52
23
11
2
1
1
1
257
Percent
14,4
17,5
32,7
20,2
8,9
4,3
,8
,4
,4
,4
100,0
Valid Percent
14,4
17,5
32,7
20,2
8,9
4,3
,8
,4
,4
,4
100,0
Cumulative
Percent
14,4
31,9
64,6
84,8
93,8
98,1
98,8
99,2
99,6
100,0
14
Medidas amostrais
Tendência ou localização central:
média (mean),
mediana (median),
moda (mode),
média aparada (trimmed mean).
15
Medidas de localização central: Média
Média: Numa amostra de n observações, x1, x2, …, xn
n
x1 + x2 + ... + xn
x=
n
∑x ∑x
=
=
i =1
i
i
n
n
Se os dados estiverem agrupados (k valores distintos)
k
x=
x f + x f + ... + x f
=
n
*
1 1
*
2 2
*
n n
*
x
∑ i fi
i =1
n
=
*
x
∑ i fi
n
onde fi designa a frequência absoluta de xi* (ou a frequência absoluta
da classe com marca xi* no caso de dados agrupados em classes)
16
Medidas de localização central: Média
A média pode ser pensada como o centro de massa
dos valores das observações, ie, o ponto de
equilibrio após dispormos as observações sobre
uma régua.
Pontos afastados ou erros nas observações podem
afastar a média do grosso das observações.
17
Medidas de localização central: Mediana
A mediana á a observação central, depois de
ordenada a amostra.
Se a amostra tiver dimensão ímpar, coincide com a
observação central. Exemplo:
Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é 2.1 .
Se a amostra tiver dimensão par, a mediana toma o valor da
média das duas observações mais centrais.
Exemplo:
Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é 0.8.
A mediana é mais robusta que a média a erros ou a
observações afastadas.
18
Medidas de localização central: Média aparada
Uma média aparada não é mais do que uma
“mistura” entre os conceitos de média e mediana
por forma a combinar as qualidades de ambas.
Uma média aparada é uma média que é calculada
excluindo uma certa proporção de observações em
cada extremo da amostra.
19
Medidas de localização central: Moda
A moda é o valor mais frequente de uma amostra.
Ao contrário do que acontece com a mediana e a
média, uma amostra pode possuir mais do que uma
moda.
Moda
20
Medidas de localização central: Moda
A moda é a única medida de localização central que
pode ser utilizada para dados numa escala nominal.
A moda pode não ter significado, especialmente em
dados de natureza contínua ou em dados discretos
com poucas observações repetidas!
Quando os dados estão agrupados em classes
podemos falar da classe modal, ou seja, da classe
com maior frequência.
21
Medidas amostrais
Localização relativa:
Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
22
Medidas de localização relativa:
Mínimo e Máximo
Mínimo – é o valor mais reduzido da amostra
Máximo – é o valor mais elevado da amostra
23
Medidas de localização relativa: Quartis
Quartis – são os valores (Q1, Q2 e Q3) que
dividem a amostra, depois de ordenada, em
quatro partes iguais (ou o mais iguais
possível). Q2 coincide com a mediana.
24
Medidas de localização relativa: Quantis e
Percentis
Quantil de ordem p (0≤ p ≤ 1)– é um valor,
xp, que divide a amostra em duas partes, tal
que à esquerda de xp está a proporção p da
amostra e à direita a proporção 1-p.
Percentil de ordem p (p vai de 1 a 100) - é o
mesmo que um quantil mas em que a
proporção é dada em percentagem.
25
Medidas amostrais
Dispersão:
amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
coeficiente de variação (coefficient of variation),
26
Medidas de dispersão: Amplitude
A amplitude de uma amostra é a diferença
entre o máximo e o mínimo.
Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a
amplitude é 2.3 - 1.2 = 1.1 .
27
Medidas de dispersão: Distância interquartil
Distância inter-quartil – é a diferença entre o
3º e o 1º quartis, Q3 - Q1.
No intervalo que vai de Q1 a Q3 encontram-se
50% das observações (as mais centrais).
28
Medidas de dispersão: variância
A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.
Habitualmente considera-se uma versão corrigida
da variância
29
Medidas de dispersão: desvio padrão
A variância não vem representada na mesma unidade das
observações. Se tomarmos a raiz quadrada da variância
obtemos o desvio padrão que também é uma medida de
dispersão e vem na mesma unidade das observações.
Nos programas de estatística e nas máquinas de calcular o
que aparece são as versões corrigidas da variância e do
desvio padrão.
O desvio padrão e a variância podem ser fortemente
afectados por erros ou observações muito afastadas.
30
Medidas de dispersão: coeficiente de
variação
O Coeficiente de variação é a razão entre o desvio
padrão e a média, v = s / x.
Trata-se de uma medida relativa de dispersão e por
isso não tem unidades.
31
Medidas amostrais: assimetria
Coeficiente de assimetria – é uma medida que
assume o valor zero quando a distribuição de
frequências da amostra é completamente
simétrica e assume valores diferentes de zero
(positivos ou negativos) quando a distribuição não
é simétrica.
Atenção que numa amostra é quase impossível observar
simetria pura. Por isso o coeficiente de assimetria assume
valores quase sempre diferentes de zero. Para termos uma
ideia se a assimetria é relevante devemos comparar o
valor do coeficiente com o erro associado. Se o coeficiente
não exceder 2 ou 3 vezes o erro, o seu valor não será
muito relevante, especialmente quando queremos
extrapolar para a população.
32
Medidas amostrais: assimetria
Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma
concentração de valores na zona de valores mais
reduzidos (alternativamente elevados) da amostra.
Assimetria positiva
Coef.ass. >0
Quase simetria
Coef.ass. ~ 0
Assimetria negativa
Coef.ass. <0
33
Medidas amostrais: assimetria
A assimetria também pode ser avaliada comparando
os valores da média, mediana e moda (desde que
esta última faça sentido).
Assimetria positiva:
moda < mediana < média
moda
média
mediana
34
Medidas amostrais: assimetria
Assimetria negativa:
média < mediana < moda
Simetria pura:
média = mediana = moda
Simetria aproximada: média ~ mediana ~ moda
35
Gráficos
Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and leaf)
Diagramas de dispersão (scatterplot)
36
Histogramas
O histograma é um gráfico que reflecte a forma da
distribuição de frequências da amostra. Também
procura reflectir a estrutura (forma) da população de
onde foi retirada a amostra.
Para construir um histograma é necessário primeiro
repartir os dados por classes e depois calcular as
respectivas frequências. O histograma é um gráfico
de frequências construído a partir desta tabela de
frequências (por classes). Os histogramas são
particularmente úteis para variáveis contínuas ou
variáveis com poucos valores repetidos.
37
Histogramas
A apresentação do histograma depende
muito do número de classes considerado.
Um número muito grande de classes produz
um histograma com demasiada
irregularidade, enquanto um histograma com
um número demasiado reduzido de classes
oculta a forma da distribuição (perde-se
demasiada informação).
38
Histogramas
Poucas classes
Muitas classes
39
Gráficos de frequências
Gráficos de frequências são gráficos de barras que
traduzem graficamente o conteúdo da tabela de
frequências. Os mais habituais são os gráficos de
frequências absolutas ou relativas, mas também
podemos construir gráficos de frequências
absolutas ou relativas acumuladas.
Os gráficos de frequências (não acumuladas) são
apropriados para dados qualitativos ou numéricos
discretos (ou que se comportam como tal). Quando
as frequências absolutas são reduzidas e a gama
de valores da amostra é dispersa os gráficos de
frequências tornam-se pouco interessantes (muito
irregulares).
40
Gráficos de frequências
Chama-se função de distribuição empírica à função
cuja imagem gráfica é o gráfico de frequências
relativas acumuladas.
100%
Exemplo:
Percent
75%
50%
25%
0%
0
1
2
3
x
41
Caixas de bigodes
Pode ser encarada como a representação
gráfica de algumas medidas de localização:
mediana
Q1
Q3
outliers e extremos
42
Caixas de bigodes
Mínimo da amostra
mas não menos de
Q1-1.5(Q3-Q1)
Máximo da amostra
mas não mais de
Q3+1.5(Q3-Q1)
43
Caixa de bigodes
Algumas caixas têm os bigodes até ao
mínimo e máximo e não têm representados
outliers.
As caixas de bigodes dão informação sobre
A localização central: mediana
Outras localizações: 1º e 3º quartis e mínimo e
máximo.
Dispersão: amplitude e distância inter-quartil
Assimetria: posição relativa da mediana na caixa,
comprimento dos bigodes.
44
Caixas de bigodes
Assimetria positiva
Simetria
Assimetria negativa
45
Caixa de bigodes comparativas
As caixas de bigodes também são úteis para
comparar várias amostras num mesmo
gráfico, caixas de bigodes comparativas.
46
Caixas de bigodes comparativas
Exercício 3 da folha 2:
47
Diagramas de caule e folha
Representa os dados, separando cada valor em
duas partes: o caule (valor à esquerda do traço
vertical) e a folha (algarismo à direita do traço
vertical)
diametro Stem-and-Leaf Plot
Exemplo:
Frequency Stem & Leaf
(10.5 10.7 10.8
11.0
11.2
11.4
12.9
13.7
14.1)
11.0
11.3
11.7
12.9
13.8
11.1
11.4
12.0
13.3
14.0
3,00
8,00
3,00
3,00
2,00
10 .
11 .
12 .
13 .
14 .
Stem width:
Each leaf:
578
00123447
099
378
01
1,00
1 case(s)
48
Diagramas de caule e folha
Outro exemplo:
altura Stem-and-Leaf Plot
Frequency
(63
64 65 66
66 69 71 71 72
………
…....85 86 87)
2,00
4,00
6,00
8,00
9,00
3,00
Stem width:
Each leaf:
Stem & Leaf
6.
6.
7.
7.
8.
8.
34
5669
112244
55566789
000001123
567
10,00
1 case(s)
Devemos multiplicar cada
valor por 10 para recuperar
os dados.
49
Formas de distribuições
Os gráficos de frequências, histogramas,
diagramas de caule-e-folhas (e em parte as
caixas de bigodes) dão-nos informação
quanto à forma da distribuição dos dados (e
consequentemente da população de onde
foram retirados)
Existem distribuições de vários tipos:
unimodais, bimodais e multimodais
50
Formas de distribuições
Exemplo:
unimodal
bimodal
51
Diagramas de dispersão
Os diagramas de dispersão são gráficos que
permitem relacionar duas variáveis entre si.
Representam-se pares de dados (x,y), onde
no eixo horizontal marcam-se os valores de x
e no eixo vertical os valores de y
52
Diagramas de dispersão
Exemplo: pesos e comprimentos de 414 recémnascidos.
53
Matrix de diagramas de dispersão
Exercício 4 da folha 2: Árvores
54
Download