Estatística Descritiva

Propaganda
Estatística / Bioestatística /
Slide 0
Métodos Estatísticos /
Bioestatística e Epistemologia
da Investigação
Ana M. Abreu - 2006/07
Capítulo 1
Estatística Descritiva
Slide 1
I-1
Introdução à organização e ao processamento
de dados.
I-2
Amostra e população; cuidados a ter na
recolha da amostra.
I-3
Ordenação dos dados. Agrupamento dos
dados. Tabela de frequências.
I-4
Medidas de localização e de dispersão.
I-5
Representação gráfica dos dados: gráfico de
barras, gráfico de sectores, gráfico de caule-efolhas, caixa-de-bigodes, histograma.
Ana M. Abreu - 2006/07
Introdução
Slide 2
Um objectivo comum dos inquéritos e de
outros processos de obtenção de dados é a
recolha de informação de uma parte de um
grupo maior, de modo a aprender algo sobre o
grupo maior. Por exemplo, podemos perguntar
a 10% dos alunos qual a sua nota de entrada
na Universidade e assim ter alguma
informação sobre a totalidade dos alunos.
Ana M. Abreu - 2006/07
Definições
Slide 3
Dados estatísticos
são observações (como medidas, respostas de inquéritos,
registos de idade, sexo, naturalidade, ...) que foram recolhidas.
Estatística
a informação estatística é constituída por dados, os quais
são organizados, sumariados, apresentados, analizados,
interpretados de modo a retirar conclusões baseadas nos
dados.
Ana M. Abreu - 2006/07
Definições
Slide 4
População
a colecção completa de todos os elementos
(pessoas, animais, medidas, ...) a serem estudados.
A colecção é completa no sentido de incluir todos
os indivíduos a serem estudados.
Amostra
Um subconjunto da população escolhido
correctamente, de modo a poder ser considerado
como representativo da população.
Ana M. Abreu - 2006/07
Definições
Slide 5
Parâmetro
uma medida numérica que descreve
alguma característica de uma população.
população
parâmetro
Ana M. Abreu - 2006/07
Definições
Slide 6
Estatística
uma medida numérica que descreve
alguma característica de uma amostra.
amostra
estatística
Ana M. Abreu - 2006/07
Definições
Slide 7
Dados quantitativos
números que representam contagens ou
medidas.
Exemplo: medidas dos modelos!
Ana M. Abreu - 2006/07
Definições
Slide 8
Dados qualitativos
(ou categorizados ou atributos)
podem ser separados em diferentes
categorias, que se distinguem por alguma
característica não numérica.
Exemplo: sexo (masculino/feminino) dos
doentes.
Ana M. Abreu - 2006/07
Definições
Slide 9
Os dados quantitativos podem ser de tipo
discreto ou contínuo.
Dados discretos
surgem quando o número de valores
possíveis é finito ou contável.
0, 1, 2, 3, . . .
Exemplo: O número de ovos que uma
galinha põe.
Ana M. Abreu - 2006/07
Definições
Slide 10
Dados contínuos
(ou numéricos) surgem quando o número de valores
possíveis é infinito e corresponde a alguma escala
contínua que contempla uma amplitude de valores sem
interrupções ou saltos.
2
Exemplo: As alturas dos alunos da UMa.
Ana M. Abreu - 2006/07
3
Definições
Slide 11
Outra forma de classificar os dados consiste
em usar escalas.
escala nominal
caracterizada por dados tais como nomes,
etiquetas ou categorias.
Os dados não têm
qualquer relação de ordem (do mais pequeno
para o maior)
Exemplo: inquéritos cujas respostas são sim,
não, sem opinião.
Ana M. Abreu - 2006/07
Definições
Slide 12
escala ordinal
envolve dados que podem ser ordenados, mas
as diferenças entre eles ou não podem ser
calculadas ou não fazem sentido.
Exemplo: O nível de escolaridade.
Ana M. Abreu - 2006/07
Definições
Slide 13
escala intervalar
como a escala ordinal, mas onde é possível calcular
diferenças. No entanto, não existe um zero natural (que
pudesse corresponder a ausência da característica).
Exemplo: As temperaturas em graus Celsius e em graus
Fahrenheit (ºF=ºC(9/5)+32).
Ana M. Abreu - 2006/07
Definições
Slide 14
escala absoluta ou de razões
o zero da escala corresponde à anulação da
característica
em
estudo.
São
possíveis
comparações quer através de diferenças quer
através de quocientes.
Exemplo:
Preço das propinas (0€ representa
ausência de custo).
Ana M. Abreu - 2006/07
Resumo Escalas para os dados
Slide 15
Nominal - só categorias.
Ordinal - categorias com alguma ordem.
Intervalar - diferenças possíveis mas sem zero
natural.
Absoluta ou de razões - diferenças possíveis e
com zero natural.
Ana M. Abreu - 2006/07
Recapitulando
Slide 16
Até agora vimos:
Definições e termos básicos para descrever
os dados
Parâmetros versus estatísticas
Tipos de dados (quantitativos e qualitativos)
Escalas de medidas
Ana M. Abreu - 2006/07
Cuidados a ter na
recolha da amostra
Ana M. Abreu - 2006/07
Slide 17
Pontos fundamentais
Slide 18
Se uma amostra não é recolhida de forma
apropriada, os dados podem ser tão inúteis,
tal que, qualquer que seja a tortura a que
sejam submetidos, não confessam seja o
que for.
Tipicamente a aleatoriedade tem um papel
importante na recolha de dados.
Ana M. Abreu - 2006/07
Pontos fundamentais
Slide 19
Dimensão da amostra
usar uma amostra com dimensão
suficiente para conseguir captar as
características dos dados e recolhida de forma
apropriada, tal como baseada na aleatoriedade.
Ana M. Abreu - 2006/07
Definições
Slide 20
Amostra Aleatória
os membros da população são
seleccionados de tal forma que cada membro
tem igual possibilidade de ser escolhido.
Amostra Aleatória Simples (de
dimensão n)
os indivíduos são seleccionados de tal forma
que cada possível amostra de dimensão n tem a
mesma possibilidade de ser escolhida.
Ana M. Abreu - 2006/07
Amostra Aleatória
Slide 21
Selecção tal que cada um tem igual possibilidade
de ser escolhido.
Ana M. Abreu - 2006/07
Amostragem Sistemática
Slide 22
Seleccionar a partir de um ponto inicial e depois
seleccionar a cada K elemento na população.
Ana M. Abreu - 2006/07
Slide 23
Amostragem por conveniência
Usar os resultados que são fáceis de obter.
Ana M. Abreu - 2006/07
Amostragem Estratificada
Slide 24
subdividir a população em, pelo menos, dois
subgrupos distintos que partilham alguma
característica e, em seguida, recolher uma amostra
de cada um dos subgrupos (ou estratos).
Ana M. Abreu - 2006/07
Amostragem por Clusters
Slide 25
dividir a população em secções
(ou clusters); seleccionar aleatoriamente alguns
desses clusters; escolher todos os membros dos
clusters seleccionados.
Ana M. Abreu - 2006/07
Slide 26
Métodos de Amostragem
Aleatória
Sistemática
Por conveniência
Estratificada
Por clusters
Ana M. Abreu - 2006/07
Generalidades
Slide 27
Estatística Descritiva
resume ou descreve as características
importantes de um conjunto conhecido de dados
populacionais.
Estatística Inferencial
usa dados amostrais para fazer inferências (ou
generalizações) sobre uma população.
Ana M. Abreu - 2006/07
Características importantes dos dados
Slide 28
1. Localização: Um valor representativo ou médio
indica onde se situa o centro dos dados.
2. Variação: Uma medida do quanto os valores da
amostra variam entre si.
3. Distribuição: A natureza ou a forma de
distribuição dos dados (tal como em forma de
sino, uniforme ou assimétrica)
4. Outliers: Valores amostrais que se situam muito
afastados da maioria dos restantes valores
amostrais.
5. Tempo: Algumas características podem se
alterar ao longo do tempo.
Ana M. Abreu - 2006/07
Distribuição de Frequência
Slide 29
Distribuição de Frequência
lista dos valores dos dados (ou
individuais ou por grupos de intervalos),
juntamente com as correspondentes
frequências ou contagens.
Ana M. Abreu - 2006/07
Distribuição de Frequência
Ana M. Abreu - 2006/07
Slide 30
Ponto Médio de uma Classe
Slide 31
O ponto médio de uma classe determina-se
adicionando os limites da classe (inferior e
superior) e dividindo por dois.
Pontos
Médios
49.5
149.5
249.5
349.5
449.5
Ana M. Abreu - 2006/07
Amplitude da Classe
Slide 32
é a diferença entre dois limites superiores consecutivos
ou dois limites inferiores consecutivos.
100
Amplitude
da Classe
100
100
100
100
Ana M. Abreu - 2006/07
Razões para construir
distribuições de frequência
Slide 33
1.
Conjuntos de dados grandes podem
ser resumidos.
2.
Pode-se ganhar alguma perspectiva
sobre a natureza dos dados.
3.
Base para a construção de gráficos.
Ana M. Abreu - 2006/07
Como construir uma tabela de
frequências
Slide 34
1. Decidir o número de classes (habitualmente entre 5 e 20).
Regra de Sturges: k=nº de classes ≈ 1+[log2n]
2. Calcular (aproximando por excesso) a
(maior valor) – (menor valor)
amplitude da classe ≈
número de classes
3. Escolher o limite inferior da primeira classe.
4. Usar o limite inferior da primeira classe e a amplitude de
classe para listar, numa coluna vertical, todos os limites
inferiores.
5. Em seguida, listar os correspondentes limites
superiores.
6. Percorrer os dados, assinalando com um traço vertical a
classe onde se encontra cada dado.
Ana M. Abreu - 2006/07
Frequência Relativa
Slide 35
frequência da classe
Frequência relativa =
soma de todas as frequências
11/40 = 28%
12/40 = 30%
Frequência total = 40
etc.
Ana M. Abreu - 2006/07
Frequência acumulada
Slide 36
Frequências
acumuladas
Ana M. Abreu - 2006/07
Recapitulando
Slide 37
Acabamos de ver
Características importantes dos dados.
Distribuições de frequências.
Procedimentos para construir as
distribuições de frequência.
Frequências relativas.
Frequências acumuladas.
Ana M. Abreu - 2006/07
Medidas de localização
e de dispersão
Ana M. Abreu - 2006/07
Slide 38
Notação
Σ
Slide 39
denota a soma de um conjunto de valores.
x
é a variável usada usualmente para representar
os valores individuais.
n
representa o número de valores na amostra, ou
seja, a dimensão da amostra.
N
representa o número de valores na população
Ana M. Abreu - 2006/07
Notação
Slide 40
x pronuncia-se ‘x-barra’ e denota a média dos valores
da amostra.
Σx
x =
n
µ pronuncia-se ‘mu’ e denota a média de todos os valores
da população.
µ =
Σx
N
Ana M. Abreu - 2006/07
Definições
Slide 41
Mediana
o valor central quando os dados estão
ordenados.
❖ Se a dimensão da amostra é ímpar, a mediana
corresponde ao valor que está no centro da
amostra.
❖ Se a dimensão da amostra é par, a mediana
corresponde à média dos dois valores que estão
no centro da amostra.
Ana M. Abreu - 2006/07
5.40
1.10
0.42
0.73
0.48
1.10
0.42
0.48
0.73
1.10
1.10
5.40
Slide 42
(amostra de dimensão par – os dois valores
centrais são distintos)
0.73 + 1.10
MEDIANA é 0.915
2
5.40
1.10
0.42
0.48
1.10
0.66
0.42
0.48
0.66
0.73
1.10
1.10
5.40
(amostra de dimensão ímpar - valor exacto)
MEDIANA é 0.73
Ana M. Abreu - 2006/07
Moda
Definições
Slide 43
o valor que ocorre com maior frequência.
A moda nem sempre é única. Um conjunto de
dados pode ser:
Bimodal
Multimodal
Não ter Moda
é a única medida de localização que
pode ser usada para os dados em escala
nominal.
Ana M. Abreu - 2006/07
Exemplos
Slide 44
a. 5.40 1.10 0.42 0.73 0.48 1.10
Moda é 1.10
b. 27 27 27 55 55 55 88 88 99
Bimodal -
c. 1 2 3 6 7 8 9 10
Não existe Moda
Ana M. Abreu - 2006/07
27 e 55
Média para dados agrupados
Assuma que, em cada classe, todos os
valores são iguais ao ponto médio da
classe.
Σ (f • x)
x =
Σf
x = ponto médio
f = frequência
Σf=n
Ana M. Abreu - 2006/07
Slide 45
Definições
Slide 46
Simetria
Os dados distribuem-se de forma
simétrica quando a metade esquerda do
histograma correspondente é
sensivelmente um espelho da metade
direita.
Assimetria
Os dados distribuem-se de forma
assimétrica se se prolongam mais para um
dos lados do que para o outro.
Ana M. Abreu - 2006/07
Slide 47
Ana M. Abreu - 2006/07
Definições
Slide 48
A amplitude de um conjunto de
dados é a diferença entre o
valor mais elevado e o valor
mais pequeno.
valor
mais
elevado
-
valor
mais
pequeno
Ana M. Abreu - 2006/07
Definições
Slide 49
O desvio padrão de uma amostra é
uma medida da variação dos valores
em torno da média.
S=
Σ (x - x)
n-1
Ana M. Abreu - 2006/07
2
Slide 50
• Uma forma mais simples do desvio
padrão amostral, para efeitos de
cálculo, é a que se segue:
n (Σ
Σx ) - (Σ
Σx)
n (n - 1)
2
s=
Ana M. Abreu - 2006/07
2
Desvio padrão amostral algumas características
Slide 51
O desvio padrão é uma medida de variação de todos
os valores da amostra em torno da média
O valor do desvio padrão s é positivo
O valor do desvio padrão s pode aumentar
dramaticamente com a inclusão de um ou mais outliers
na amostra
As unidades do desvio padrão s são as mesmas dos
elementos da amostra.
Ana M. Abreu - 2006/07
Desvio padrão
populacional
σ =
Slide 52
Σ (x - µ)
2
N
Esta fórmula é semelhante à anterior, mas
neste caso é usada a média populacional e a
dimensão da população.
Ana M. Abreu - 2006/07
Definições
Slide 53
A variância é uma medida de variação de um
conjunto de valores e é igual ao quadrado do desvio
padrão
Variância amostral: quadrado do desvio padrão
amostral s
Variância populacional: quadrado do desvio
σ
padrão populacional
Ana M. Abreu - 2006/07
Variância - Notação
Slide 54
quadrado do desvio padrão
}
Notação
s
2
Variância amostral
σ
2
Variância populacional
Ana M. Abreu - 2006/07
Definições
Slide 55
O coeficiente de variação (ou CV) de uma amostra,
expresso em percentagem, descreve o desvio
padrão relativamente à média. É uma medida sem
unidades.
Amostra
CV =
s
•100%
x
População
CV =
Ana M. Abreu - 2006/07
σ
•100%
µ
Desvio padrão para
dados agrupados
n [Σ(f • x 2)] - [Σ(f • x)]2
S=
n (n - 1)
Usar os pontos médios de cada classe
Ana M. Abreu - 2006/07
Slide 56
Definições
Slide 57
Q1 (1º Quartil) separa os primeiros 25% da
amostra ordenada dos restantes 75%.
Q2 (2º Quartil) o mesmo do que a mediana;
separa os primeiros 50% da amostra
ordenada dos restantes 50%.
Q3 (3º Quartil) separa os primeiros 75% da
amostra ordenada dos restantes 25%.
Ana M. Abreu - 2006/07
Quartis
Slide 58
Q1, Q2, Q3
dividem os valores ordenados em 4 partes iguais
25%
(mínimo)
25%
25% 25%
Q1 Q2 Q3
(mediana)
Ana M. Abreu - 2006/07
(máximo)
Percentis
Slide 59
Assim como os quartis dividem os
dados em 4 partes iguais, existem 99
percentis denotados P1, P2, . . . P99,
os quais particionam os dados em
100 grupos.
Percentil do valor x =
nº de valores menores que x
nº total de valores
Ana M. Abreu - 2006/07
• 100
Representação
gráfica dos dados
Ana M. Abreu - 2006/07
Slide 60
Histograma
Slide 61
Um gráfico de barras, em que o eixo horizontal
representa as classes dos valores da amostra e o
eixo vertical a correspondente frequência.
Ana M. Abreu - 2006/07
Histograma com as frequências
relativas
Slide 62
Tem a mesma forma e escala horizontal que o
anterior, mas no eixo vertical estão indicadas as
frequências relativas.
Ana M. Abreu - 2006/07
Polígono de frequências
Usa segmentos de recta para ligar os pontos
médios das classes.
Ana M. Abreu - 2006/07
Slide 63
Ogiva
Semelhante ao anterior mas com as frequências
acumuladas
Ana M. Abreu - 2006/07
Slide 64
Gráfico de barras
Forma de representação gráfica para dados
qualitativos
Ana M. Abreu - 2006/07
Slide 65
Gráfico de sectores
Slide 66
Gráfico para dados qualitativos, representados por
sectores circulares
Ana M. Abreu - 2006/07
Gráfico de dispersão
Representação de pares de dados (x,y), onde no
eixo horizontal marcam-se os valores de x e no
eixo vertical os valores de y
Ana M. Abreu - 2006/07
Slide 67
Gráfico de caule-e-folhas
Slide 68
Representa os dados, separando cada valor em
duas partes: o caule (valor à esquerda do traço
vertical) e a folha (algarismo à direita do traço
vertical)
Ana M. Abreu - 2006/07
Caixa-de-bigodes
Ana M. Abreu - 2006/07
Slide 69
Caixa-de-bigodes
Ana M. Abreu - 2006/07
Slide 70
Definições
Slide 71
❖ A caixa-de-bigodes é um gráfico que
consiste numa linha desde o mínimo até
ao máximo, e numa caixa com extremos
nos 1º e 3º quartis e divisão na mediana.
❖ Para um conjunto de dados, o resumo de
5 números é formado pelo mínimo, 1º
quartil, mediana, 3º quartil e máximo.
Ana M. Abreu - 2006/07
Download