Análise Preliminar de Dados

Propaganda
Estatística descritiva
Também designada
Análise exploratória de dados ou
Análise preliminar de dados
1
Estatística descritiva vs inferencial

Estatística Descritiva: conjunto de métodos
estatísticos que visam sumariar e descrever
os atributos mais proeminentes aos dados.

Estatística Inferencial: conjunto de métodos
estatísticos que visam caracterizar (ou inferir
sobre) uma população a partir de uma parte
dela (a amostra).
2
x
Estatísticas ou medidas amostrais

Estatística ou medida amostral: uma medida
numérica que descreve alguma característica
de uma amostra. É habitualmente representada
por letras latinas. Por exemplo: x (média), s (desvio
padrão), r (coeficiente de correlação)
Amostra
Estatística / medida amostral
3
Parâmetros

Parâmetro: uma medida numérica que
descreve alguma característica de uma
população. É habitualmente representado por
letras gregas. Por exemplo: μ (média), σ (desvio
padrão), ρ (coeficiente de correlação)
População
Parâmetro
4
Ferramentas de Estatística Descritiva

Cálculo numérico de medidas amostrais.

Resumo e descrição global dos dados
através da construção de tabelas e de
gráficos.

Análise e interpretação dos resultados
obtidos.
5
Medidas amostrais

Tendência ou localização central:




média (mean),
mediana (median),
moda (mode),
média aparada (trimmed mean).
6
Medidas amostrais

Localização relativa:





Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
7
Medidas amostrais

Dispersão:




amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
8
Medidas amostrais

Assimetria:

Coeficiente de assimetria (skweness).
9
Tabelas de frequências

Tabelas que resumem a informação contida
na amostra, ordenando os seus valores e
agrupando-os em classes (de valores
repetidos ou de valores distribuídos por
intervalos).
10
Gráficos





Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and leaf)
Diagramas de dispersão (scatterplot)
11
Descrição resumida das várias
ferramentas de Estatística descritiva
12
Ordenação e tabela de frequências

Tipos de frequências:





Frequência absoluta
Frequência relativa
Frequência absoluta acumulada
Frequência relativa acumulada
Uma tabela de frequências é uma tabela
onde figuram os valores de pelo menos um
destes tipos de frequências.
13
Tabela de frequências

Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o nº de golfinhos
presos nas redes dos pescadores das águas Açoreanas.
nº de golfinhos presos num dia
Valid
0
1
2
3
4
5
6
8
9
13
Total
Frequency
37
45
84
52
23
11
2
1
1
1
257
Percent
14,4
17,5
32,7
20,2
8,9
4,3
,8
,4
,4
,4
100,0
Valid Percent
14,4
17,5
32,7
20,2
8,9
4,3
,8
,4
,4
,4
100,0
Cumulative
Percent
14,4
31,9
64,6
84,8
93,8
98,1
98,8
99,2
99,6
100,0
14
Medidas amostrais

Tendência ou localização central:




média (mean),
mediana (median),
moda (mode),
média aparada (trimmed mean).
15
Medidas de localização central: Média

Média: Numa amostra de n observações, x1, x2, …, xn
n
x1  x2  ...  xn
x
n
x x


i 1
n
i
i
n
Se os dados estiverem agrupados (k valores distintos)
k
x1* f1  x2* f 2  ...  xn* f n
x

n
*
x
 i fi
i 1
n
x


*
i i
f
n
onde fi designa a frequência absoluta de xi* (ou a frequência absoluta
da classe com marca xi* no caso de dados agrupados em classes)
16
Medidas de localização central: Média

A média pode ser pensada como o centro de massa
dos valores das observações, ie, o ponto de
equilibrio após dispormos as observações sobre
uma régua.
Pontos afastados ou erros nas observações podem
afastar a média do grosso das observações.
17
Medidas de localização central: Mediana

A mediana á a observação central, depois de
ordenada a amostra.
Se a amostra tiver dimensão ímpar, coincide com a
observação central. Exemplo:
Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é 2.1 .
Se a amostra tiver dimensão par, a mediana toma o valor da
média das duas observações mais centrais.
Exemplo:
Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é 0.8.

A mediana é mais robusta que a média a erros ou a
observações afastadas.
18
Medidas de localização central: Média aparada


Uma média aparada não é mais do que uma
“mistura” entre os conceitos de média e mediana
por forma a combinar as qualidades de ambas.
Uma média aparada é uma média que é calculada
excluindo uma certa proporção de observações em
cada extremo da amostra.
19
Medidas de localização central: Moda


A moda é o valor mais frequente de uma amostra.
Ao contrário do que acontece com a mediana e a
média, uma amostra pode possuir mais do que uma
moda.
Moda
20
Medidas de localização central: Moda



A moda é a única medida de localização central que
pode ser utilizada para dados numa escala nominal.
A moda pode não ter significado, especialmente em
dados de natureza contínua ou em dados discretos
com poucas observações repetidas!
Quando os dados estão agrupados em classes
podemos falar da classe modal, ou seja, da classe
com maior frequência.
21
Medidas amostrais

Localização relativa:





Mínimo (minimum),
Máximo (maximum),
Quantil (quantile),
Quartil (quartile),
Percentil (percentile).
22
Medidas de localização relativa:
Mínimo e Máximo


Mínimo – é o valor mais reduzido da amostra
Máximo – é o valor mais elevado da amostra
23
Medidas de localização relativa: Quartis

Quartis – são os valores (Q1, Q2 e Q3) que
dividem a amostra, depois de ordenada, em
quatro partes iguais (ou o mais iguais
possível). Q2 coincide com a mediana.
24
Medidas de localização relativa: Quantis e
Percentis


Quantil de ordem p (0≤ p ≤ 1)– é um valor, xp,
que divide a amostra em duas partes, tal que
à esquerda de xp está a proporção p da
amostra e à direita a proporção 1-p.
Percentil de ordem p (p vai de 1 a 100) - é o
mesmo que um quantil mas em que a
proporção é dada em percentagem.
25
Medidas amostrais

Dispersão:




amplitude (range),
distância inter-quartil (inter-quartile range),
variância (variance),
desvio padrão (standard deviation),
26
Medidas de dispersão: Amplitude

A amplitude de uma amostra é a diferença
entre o máximo e o mínimo.
Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a
amplitude é 2.3 - 1.2 = 1.1.
27
Medidas de dispersão: Distância interquartil

Distância inter-quartil – é a diferença entre o
3º e o 1º quartis, Q3 - Q1.

No intervalo que vai de Q1 a Q3 encontram-se
50% das observações (as mais centrais).
28
Medidas de dispersão: variância

A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.

Habitualmente considera-se uma versão corrigida
da variância
29
Medidas de dispersão: desvio padrão

A variância não vem representada na mesma unidade das
observações. Se tomarmos a raiz quadrada da variância
obtemos o desvio padrão que também é uma medida de
dispersão e vem na mesma unidade das observações.

Nos programas de estatística e nas máquinas de calcular o
que aparece são as versões corrigidas da variância e do
desvio padrão.
O desvio padrão e a variância podem ser fortemente
afectados por erros ou observações muito afastadas.

30
Medidas amostrais: assimetria


Coeficiente de assimetria – é uma medida que
assume o valor zero quando a distribuição de
frequências da amostra é completamente
simétrica e assume valores diferentes de zero
(positivos ou negativos) quando a distribuição não
é simétrica.
Atenção que numa amostra é quase impossível observar
simetria pura. Por isso o coeficiente de assimetria assume
valores quase sempre diferentes de zero. Para termos uma
ideia se a assimetria é relevante devemos comparar o
valor do coeficiente com o erro associado. Se o coeficiente
não exceder 2 ou 3 vezes o erro, o seu valor não será
muito relevante, especialmente quando queremos
extrapolar para a população.
31
Medidas amostrais: assimetria

Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma
concentração de valores na zona de valores mais
reduzidos (alternativamente elevados) da amostra.
Assimetria positiva
Coef.ass. >0
Quase simetria
Coef.ass. ~ 0
Assimetria negativa
Coef.ass. <0
32
Medidas amostrais: assimetria

A assimetria também pode ser avaliada comparando
os valores da média, mediana e moda (desde que
esta última faça sentido).
Assimetria positiva:
moda < mediana < média
moda
média
mediana
33
Medidas amostrais: assimetria
Assimetria negativa:
média < mediana < moda
Simetria pura:
média = mediana = moda
Simetria aproximada: média ~ mediana ~ moda
34
Gráficos





Gráficos de frequências
Histogramas
Caixas de bigodes ou diagramas de
extremos e quartis (boxplots)
Diagramas de caule-e-folhas (stem and leaf)
Diagramas de dispersão (scatterplot)
35
Histogramas


O histograma é um gráfico que reflecte a forma da
distribuição de frequências da amostra. Também
procura reflectir a estrutura (forma) da população de
onde foi retirada a amostra.
Para construir um histograma é necessário primeiro
repartir os dados por classes e depois calcular as
respectivas frequências. O histograma é um gráfico
de frequências construído a partir desta tabela de
frequências (por classes). Os histogramas são
particularmente úteis para variáveis contínuas ou
variáveis com poucos valores repetidos.
36
Histogramas

A apresentação do histograma depende
muito do número de classes considerado.
Um número muito grande de classes produz
um histograma com demasiada
irregularidade, enquanto um histograma com
um número demasiado reduzido de classes
oculta a forma da distribuição (perde-se
demasiada informação).
37
Histogramas
Poucas classes
Muitas classes
38
Gráficos de frequências


Gráficos de frequências são gráficos de barras que
traduzem graficamente o conteúdo da tabela de
frequências. Os mais habituais são os gráficos de
frequências absolutas ou relativas, mas também
podemos construir gráficos de frequências
absolutas ou relativas acumuladas.
Os gráficos de frequências (não acumuladas) são
apropriados para dados qualitativos ou numéricos
discretos (ou que se comportam como tal). Quando
as frequências absolutas são reduzidas e a gama
de valores da amostra é dispersa os gráficos de
frequências tornam-se pouco interessantes (muito
irregulares).
39
Gráficos de frequências

Chama-se função de distribuição empírica à função
cuja imagem gráfica é o gráfico de frequências
relativas acumuladas.
100%
Exemplo:
Percent
75%
50%
25%
0%
0
1
2
3
x
40
Caixas de bigodes

Pode ser encarada como a representação
gráfica de algumas medidas de localização:
mediana
Q1
Q3
outliers e extremos
41
Caixas de bigodes
Mínimo da amostra
mas não menos de
Q1-1.5(Q3-Q1)
Máximo da amostra
mas não mais de
Q3+1.5(Q3-Q1)
42
Caixa de bigodes


Algumas caixas têm os bigodes até ao
mínimo e máximo e não têm representados
outliers.
As caixas de bigodes dão informação sobre




A localização central: mediana
Outras localizações: 1º e 3º quartis e mínimo e
máximo.
Dispersão: amplitude e distância inter-quartil
Assimetria: posição relativa da mediana na caixa,
comprimento dos bigodes.
43
Caixas de bigodes
Assimetria positiva
Simetria
Assimetria negativa
44
Caixa de bigodes comparativas

As caixas de bigodes também são úteis para
comparar várias amostras num mesmo
gráfico, caixas de bigodes comparativas.
45
Diagramas de caule e folha

Representa os dados, separando cada valor em
duas partes: o caule (valor à esquerda do traço
vertical) e a folha (algarismo à direita do traço
vertical)
diametro Stem-and-Leaf Plot
Exemplo:
Frequency Stem & Leaf
(10.5 10.7 10.8
11.0
11.2
11.4
12.9
13.7
14.1)
11.0
11.3
11.7
12.9
13.8
11.1
11.4
12.0
13.3
14.0
3,00
8,00
3,00
3,00
2,00
10 .
11 .
12 .
13 .
14 .
Stem width:
Each leaf:
578
00123447
099
378
01
1,00
1 case(s)
46
Diagramas de caule e folha
Outro exemplo:
altura Stem-and-Leaf Plot
Frequency
(63
64 65 66
66 69 71 71 72
………
…....85 86 87)
2,00
4,00
6,00
8,00
9,00
3,00
Stem width:
Each leaf:
Stem & Leaf
6.
6.
7.
7.
8.
8.
34
5669
112244
55566789
000001123
567
10,00
1 case(s)
Devemos multiplicar cada
valor por 10 para recuperar
os dados.
47
Formas de distribuições


Os gráficos de frequências, histogramas,
diagramas de caule-e-folhas (e em parte as
caixas de bigodes) dão-nos informação
quanto à forma da distribuição dos dados (e
consequentemente da população de onde
foram retirados)
Existem distribuições de vários tipos:
unimodais, bimodais e multimodais
48
Formas de distribuições
Exemplo:
unimodal
bimodal
49
Diagramas de dispersão

Os diagramas de dispersão são gráficos que
permitem relacionar duas variáveis entre si.

Representam-se pares de dados (x,y), onde
no eixo horizontal marcam-se os valores de x
e no eixo vertical os valores de y
50
Diagramas de dispersão

Exemplo: pesos e comprimentos de 414 recémnascidos.
51
Matrix de diagramas de dispersão

Exemplo: Árvores
52
Download