Estatística descritiva básica

Propaganda
ESTATÍSTICA DESCRITIVA
a) Conceito:
“ Apresentação numérica, tabular e/ou gráfica com o propósito
resumir ou sumarizar as informações contidas num conjunto de
dados observados ” (estatística: tabelas, gráficos e medidas descritivas)
Finalidade da “estatística descritiva”:
* Descrição: organização, resumo, apresentação e interpretação de dados
(tabelas, gráficos e sumários estatísticos, de posição e de dispersão)
b) Variáveis e Dados:
“ Variáveis: atributos para os quais os dados são obtidos
(levantamentos amostrais, censitários, ou de experimentos)”
- atributo comum a todas as unidades de observação (na população ou
em experimentos – parcelas), e sujeito a variação entre elas.
Notação: X, Y, ..., Z
Tipos de variávies: → tipo de tratamento estatístico dos dados
-
Qualitativas (categóricas): formas, tipos ou qualidades (Ex. cor da flor,
hábito de crescimento, estado civil, nível de instrução etc.)
-
Quantitativas: valores numéricos diferentes (Ex. número de vagens por
plantas, altura de plantas, peso de grãos, temperatura corporal etc.)
Qualitativas
Quantitativas
- Nominais: tipificação – categoriais ou modalidades sem relação clara
(Ex. raça de bovinos; sexo dos animais; cor da flor; classes de solo)
- Ordinais: graus qualitativos – categorias ou classes com alguma
ordenação (Ex.: grau de instrução; classe social; classes de
fertilidade de solo; julgamentos: bom/médio/ruim)
- Discretas: contagens - alguns valores num certo intervalo
(Ex. nº de vagens/planta, nº de leitões/parição)
- Contínuas: medições - quaisquer valores num certo intervalo
(domínio da variável). Ex.: altura, peso, temperatura, produção
de grãos, de leite etc.
- Escala intervalar (Ex. temperatura; horário): 40ºC ≠ 2x20ºC.
- Escala de razão (Ex. contagens; medidas; proporções e %):
peixe de 9 kg é três vezes mais pesado que um de 3 kg
(9 kg = 3x3 kg) zero tem significado real.
“ Dados (observação): manifestação da variável numa dada unidade de
observação (matéria-prima do trabalho estatístico)
Notação: X => {x1, x2, ..., xn}
Y => {y1, y2, ..., yn}
Z => {z1, z2, ..., zn}
c) Apresentação de dados: TABELAS e GRÁFICOS
“Se um conjunto de dados não se ajusta a uma apresentação tabular ou
gráfica, estes dados não são interpretávies”
Apresentação textual X tabular ou gráfica ?
Tabelas: arranjo de linhas e colunas para apresentação de dados
numéricos (recurso detalhista – ex. casas decimais dos valores)
Tabela 1. Animais abatidos e peso total das carcaças, no Brasil, segundo os
meses (até o 3º trimestre de 2000)
Bovinos
Suínos
Número de
Peso total
Número de
Peso total
Meses
cabeças
das
cabeças
das
abatidas
carcaças
abatidas
carcaças
(mil cab.)
(t)
(mil cab.)
(t)
Total
12.680
2.891.283
12.172
993.120
Janeiro
1.320
295.205
1.261
97.375
Fevereiro
1.362
306.009
1.286
100.229
Março
1.409
320.124
1.382
110.465
Abril
1.300
297.255
1.221
99.196
Maio
1.510
347.826
1.411
119.273
Junho
1.454
332.941
1.376
114.744
Julho
1.434
326.136
1.425
118.307
Agosto
1.519
349.052
1.461
121.388
Setembro
1.371
316.735
1.348
112.143
Fonte - IBGE/DPE/DEAGRO - Pesquisa Trimestral do Abate de Animais
Frangos
Número de Peso total
cabeças
das
abatidas
carcaças
(mil cab.)
(t)
1.963.634 3.789.424
213.519
399.886
215.949
407.214
231.772
444.727
208.262
400.232
230.707
450.812
212.976
411.608
210.584
416.217
230.126
447.204
209.738
411.522
Recomendações:
Devem ser auto-explicativas (independentes do texto)
componentes: título, cabeçalho, coluna indicadora e corpo
título: encabeça a tabela, precedido de: (ex: Tabela 1.)
sempre fechadas em cima e em baixo, nunca dos lados
cabeçalho: destacado por duas linhas horizontais
nenhuma célula em branco: sempre um número ou sinal
continuação em outra página: páginas antes de terminar não tem
o traço de fechamento, página nova, sem título (Tab.1 cont.),
repete o cabeçalho em cada folha nova, e só fecha na última
página (rodapé só ao final)
Tabelas com grande número de dados: deixar espaço branco de
dez em dez linhas, para facilitar a localização de dados no
interior do corpo da tabela.
Tabela em formato paisagem x retrato: colocá-la no volume de
modo que se deve girar o volume no sentido horário para lê-la
<ver exemplos – portal do IBGE, Ministério da Agricultura etc.>
Gráficos: como figura, são recursos de apresentação de dados, porém
menos detalhista que as tabelas; destaca tendências magnitudes
relativas de diferenças etc.
Recomendações:
Devem também ser auto-explicativos (independentes do texto)
componentes: diagrama (c/ ou s/ legenda) e título
título: vem abaixo, precedido de, por ex.: Figura 1.
não deve repetir o conteúdo de tabelas: use apenas um dos
recursos (tabela ou figura) para cada situação
boa qualidade (visualização clara): cuidado com reduções, excesso
de linhas
Tipos de gráficos:
- Diagramas de área:
a) Setoriais (gráficos tipo “Pizza”): variáveis nominais
Figura 1. Estimativas da produção brasileira de cereais, leguminosas e
oleaginosas (91,6 milhões de t) em 2001, distribuída por região.
b) Polares (Ex. Precipitação pluvial em três localidades brasileiras)
Jan
250
Dez
Goiânia (GO)
Garanhus (PE)
Fev
200
Porto Velho (RO)
150
Nov
Mar
100
50
Out
0
Abr
Set
Mai
Ago
Jun
Jul
Figura 2. Distribuição das chuvas (mm) ao longo dos meses em
três localidades brasileiras, em 2007.
- Cartogramas e Pictogramas: Uso de mapas e desenhos,
respectivamente, para a representação de dados.
<ver exemplos – livros e revistas etc.>
- Diagramas de eixos cartezianos: variáveis quantitativas
- Gráficos de dispersão (X, Y)
Y(j)
9
8
7
6
-2.4
-1.8
-1.2
-0.6
0.0
0.6
1.2
1.8
2.4
5
4
3
Figura
3.
Gráfico de ajuste de normalidade da
produtividade média de espiga de cultivares de
milho (Ramalho et al. 2000).
0.15
0.00
0.05
0.10
densidade
0.20
0.25
0.30
- Gráficos de colunas ou barras (Ex. distribuições de freqüência)
3
4
5
6
7
8
9
peso de espiga
Figura 4. Distribuição de freqüência dos dados de produtividade média
de espiga de cultivares de milho (Ramalho et al. 2000).
Colunas justapostas ou não? => f(tipo de variável)
Figura 5. Distribuição de freqüência dos dados de produtividade média de
espiga de cultivares de milho (Ramalho et al. 2000).
Figura 6. Distribuição de freqüência dos dados de produtividade média de
espiga de cultivares de milho (Ramalho et al. 2000).
0.2
0.1
0.0
dnorm
(x)
0.3
0.4
- Gráficos de linhas (Ex. distribuições teóricas, regressões)
-3
-2
-1
0
1
2
x
Figura 7. Curva normal padrão de probabilidades.
3
- Outros tipos de gráficos:
- Diagrama Ramos e Folhas
Ex. Peso (g) de frutos de tomate Santa Cruz em Goiânia-GO – dados ordenados:
{19, 22, 23, 27, 31, 33, 35, 37, 37, 42, 43, 43, 44, 45, 46, 47, 47, 49, 50, 53, 55, 57, 59, 61, 63}
Ramos
1
2
3
4
5
6
Folhas
9
237
13577
233456779
03579
13
Figura 8. Diagrama ramos e folhas do peso de frutos de tomate Santa Cruz
(Centeno, 2001).
- Gráfico de Caixas (Box Plot)
Figura 9. Diagrama de caixas do peso de espigas de 28 cultivares de milho
(Ramalho et al., 2000).
d) Distribuição de Frequência
“Forma característica de ocorrência das categorias ou valores de uma
variável, numa população ou amostra”
- organização e resumo dos dados em tabelas e/ou gráficos
- informa valores mais frequentes (mais prováveis)
- informa valores menos frequentes (menos prováveis)
- informa a variabilidade dos dados (amplitude, probabilidade de
valores centrais)
- informa valores mais frequentes (mais prováveis)
COMO FAZER?
- Variáveis nominais, ordinais, ou quantitativas discretas: mera apuração
do número de observações (ocorrências) em cada modalidade ou
categoria da variável.
- Variáveis quantitativas contínuas: é necessário estabelecer classes
(caso contrário, muitas classes com frequência absoluta unitária).
Sequência: Dados brutos Ordenação Amplitude total (At) Definição do número de classes (k): i) 5 ≤ k ≤ 20; ii) k = √n (se n ≤ 100);
k = 1 + 3,32 log10n (se n>100) ou k=5 log10n Amplitude de intervalo (Ai):
Ai = At / (k-1)] Tabela de frequência e/ou Gráficos
Exemplos (Lopes, 1984): Caracterização dos solos de Cerrado no Brasil
e) Medidas descritivas ou Sumários estatísticos
“Valores (índices numéricos) que resumem algum aspecto (certas
características) do conjunto de dados (população ou amostra)”
Se população: → parâmetros: estatísticas que caracterizam ou
descrevem algum aspecto da população – “verdades”
almejadas nos estudos estatísticos inferenciais.
(notação: letras gregas – µ, σ2, ρ, β)
Se
amostra:
→ estimativas de parâmetros ou estatísticas
amostrais:
estatísticas
que
caracterizam
ou
descrevem algum aspecto da amostra – aproximações
cujo objetivo é informar sobres as “verdades”
geralmente desconhecidas, os parâmetros. (notação:
letras gregas com “^” (chapéu) ou letras
latinas correspondentes – m, s2, r, b))
Estimador: função dos dados amostrais para produzir estimativas (a
estimativa só surge a partir da aplicação do estimador aos
dados de uma dada amostra, colhida); isto é, sem amostra
não
há
estimativas,
mas
há
estimadores.
Ex.: m=Σ
Σxi/n é o estimador da média aritmética
populacional (µ
µ) – essa expressão independe de a
amostra já ter sido obtida; já a estimativa depende
disso, ou seja, dada uma amostra como {1, 2, 3}, m =
6/3 = 2).
Classificação quanto ao tipo:
- Univariadas:
- Medidas de posição (localização) ou tendência central:
média (aritmética, ponderada, geométrica); mediana; moda;
quantis (quartis, decis, percentis etc.)
- Medidas de dispersão ou variabilidade: amplitude; desvio
absoluto médio; variância (quadrado médio); desvio padrão;
coeficiente de variação; erro padrão - da média, da
variância etc. (medidas para variáveis categóricas)
- Medidas de forma da distribuição: simetria e curtose
- Bivariadas:
- Covariância → Correlação: medida relativa [-1,+1] da
variação conjunta de duas variáveis (X e Y).
- Covariância → Regressão: medida da variação conjunta de
duas variáveis (X e Y) tomada em relação a uma delas (X variável independente; Y - variável dependente).
- Multivariadas: (outro curso) Estatística II (PPGA-UFG)
Download