ESTATÍSTICA DESCRITIVA a) Conceito: “ Apresentação numérica, tabular e/ou gráfica com o propósito resumir ou sumarizar as informações contidas num conjunto de dados observados ” (estatística: tabelas, gráficos e medidas descritivas) Finalidade da “estatística descritiva”: * Descrição: organização, resumo, apresentação e interpretação de dados (tabelas, gráficos e sumários estatísticos, de posição e de dispersão) b) Variáveis e Dados: “ Variáveis: atributos para os quais os dados são obtidos (levantamentos amostrais, censitários, ou de experimentos)” - atributo comum a todas as unidades de observação (na população ou em experimentos – parcelas), e sujeito a variação entre elas. Notação: X, Y, ..., Z Tipos de variávies: → tipo de tratamento estatístico dos dados - Qualitativas (categóricas): formas, tipos ou qualidades (Ex. cor da flor, hábito de crescimento, estado civil, nível de instrução etc.) - Quantitativas: valores numéricos diferentes (Ex. número de vagens por plantas, altura de plantas, peso de grãos, temperatura corporal etc.) Qualitativas Quantitativas - Nominais: tipificação – categoriais ou modalidades sem relação clara (Ex. raça de bovinos; sexo dos animais; cor da flor; classes de solo) - Ordinais: graus qualitativos – categorias ou classes com alguma ordenação (Ex.: grau de instrução; classe social; classes de fertilidade de solo; julgamentos: bom/médio/ruim) - Discretas: contagens - alguns valores num certo intervalo (Ex. nº de vagens/planta, nº de leitões/parição) - Contínuas: medições - quaisquer valores num certo intervalo (domínio da variável). Ex.: altura, peso, temperatura, produção de grãos, de leite etc. - Escala intervalar (Ex. temperatura; horário): 40ºC ≠ 2x20ºC. - Escala de razão (Ex. contagens; medidas; proporções e %): peixe de 9 kg é três vezes mais pesado que um de 3 kg (9 kg = 3x3 kg) zero tem significado real. “ Dados (observação): manifestação da variável numa dada unidade de observação (matéria-prima do trabalho estatístico) Notação: X => {x1, x2, ..., xn} Y => {y1, y2, ..., yn} Z => {z1, z2, ..., zn} c) Apresentação de dados: TABELAS e GRÁFICOS “Se um conjunto de dados não se ajusta a uma apresentação tabular ou gráfica, estes dados não são interpretávies” Apresentação textual X tabular ou gráfica ? Tabelas: arranjo de linhas e colunas para apresentação de dados numéricos (recurso detalhista – ex. casas decimais dos valores) Tabela 1. Animais abatidos e peso total das carcaças, no Brasil, segundo os meses (até o 3º trimestre de 2000) Bovinos Suínos Número de Peso total Número de Peso total Meses cabeças das cabeças das abatidas carcaças abatidas carcaças (mil cab.) (t) (mil cab.) (t) Total 12.680 2.891.283 12.172 993.120 Janeiro 1.320 295.205 1.261 97.375 Fevereiro 1.362 306.009 1.286 100.229 Março 1.409 320.124 1.382 110.465 Abril 1.300 297.255 1.221 99.196 Maio 1.510 347.826 1.411 119.273 Junho 1.454 332.941 1.376 114.744 Julho 1.434 326.136 1.425 118.307 Agosto 1.519 349.052 1.461 121.388 Setembro 1.371 316.735 1.348 112.143 Fonte - IBGE/DPE/DEAGRO - Pesquisa Trimestral do Abate de Animais Frangos Número de Peso total cabeças das abatidas carcaças (mil cab.) (t) 1.963.634 3.789.424 213.519 399.886 215.949 407.214 231.772 444.727 208.262 400.232 230.707 450.812 212.976 411.608 210.584 416.217 230.126 447.204 209.738 411.522 Recomendações: Devem ser auto-explicativas (independentes do texto) componentes: título, cabeçalho, coluna indicadora e corpo título: encabeça a tabela, precedido de: (ex: Tabela 1.) sempre fechadas em cima e em baixo, nunca dos lados cabeçalho: destacado por duas linhas horizontais nenhuma célula em branco: sempre um número ou sinal continuação em outra página: páginas antes de terminar não tem o traço de fechamento, página nova, sem título (Tab.1 cont.), repete o cabeçalho em cada folha nova, e só fecha na última página (rodapé só ao final) Tabelas com grande número de dados: deixar espaço branco de dez em dez linhas, para facilitar a localização de dados no interior do corpo da tabela. Tabela em formato paisagem x retrato: colocá-la no volume de modo que se deve girar o volume no sentido horário para lê-la <ver exemplos – portal do IBGE, Ministério da Agricultura etc.> Gráficos: como figura, são recursos de apresentação de dados, porém menos detalhista que as tabelas; destaca tendências magnitudes relativas de diferenças etc. Recomendações: Devem também ser auto-explicativos (independentes do texto) componentes: diagrama (c/ ou s/ legenda) e título título: vem abaixo, precedido de, por ex.: Figura 1. não deve repetir o conteúdo de tabelas: use apenas um dos recursos (tabela ou figura) para cada situação boa qualidade (visualização clara): cuidado com reduções, excesso de linhas Tipos de gráficos: - Diagramas de área: a) Setoriais (gráficos tipo “Pizza”): variáveis nominais Figura 1. Estimativas da produção brasileira de cereais, leguminosas e oleaginosas (91,6 milhões de t) em 2001, distribuída por região. b) Polares (Ex. Precipitação pluvial em três localidades brasileiras) Jan 250 Dez Goiânia (GO) Garanhus (PE) Fev 200 Porto Velho (RO) 150 Nov Mar 100 50 Out 0 Abr Set Mai Ago Jun Jul Figura 2. Distribuição das chuvas (mm) ao longo dos meses em três localidades brasileiras, em 2007. - Cartogramas e Pictogramas: Uso de mapas e desenhos, respectivamente, para a representação de dados. <ver exemplos – livros e revistas etc.> - Diagramas de eixos cartezianos: variáveis quantitativas - Gráficos de dispersão (X, Y) Y(j) 9 8 7 6 -2.4 -1.8 -1.2 -0.6 0.0 0.6 1.2 1.8 2.4 5 4 3 Figura 3. Gráfico de ajuste de normalidade da produtividade média de espiga de cultivares de milho (Ramalho et al. 2000). 0.15 0.00 0.05 0.10 densidade 0.20 0.25 0.30 - Gráficos de colunas ou barras (Ex. distribuições de freqüência) 3 4 5 6 7 8 9 peso de espiga Figura 4. Distribuição de freqüência dos dados de produtividade média de espiga de cultivares de milho (Ramalho et al. 2000). Colunas justapostas ou não? => f(tipo de variável) Figura 5. Distribuição de freqüência dos dados de produtividade média de espiga de cultivares de milho (Ramalho et al. 2000). Figura 6. Distribuição de freqüência dos dados de produtividade média de espiga de cultivares de milho (Ramalho et al. 2000). 0.2 0.1 0.0 dnorm (x) 0.3 0.4 - Gráficos de linhas (Ex. distribuições teóricas, regressões) -3 -2 -1 0 1 2 x Figura 7. Curva normal padrão de probabilidades. 3 - Outros tipos de gráficos: - Diagrama Ramos e Folhas Ex. Peso (g) de frutos de tomate Santa Cruz em Goiânia-GO – dados ordenados: {19, 22, 23, 27, 31, 33, 35, 37, 37, 42, 43, 43, 44, 45, 46, 47, 47, 49, 50, 53, 55, 57, 59, 61, 63} Ramos 1 2 3 4 5 6 Folhas 9 237 13577 233456779 03579 13 Figura 8. Diagrama ramos e folhas do peso de frutos de tomate Santa Cruz (Centeno, 2001). - Gráfico de Caixas (Box Plot) Figura 9. Diagrama de caixas do peso de espigas de 28 cultivares de milho (Ramalho et al., 2000). d) Distribuição de Frequência “Forma característica de ocorrência das categorias ou valores de uma variável, numa população ou amostra” - organização e resumo dos dados em tabelas e/ou gráficos - informa valores mais frequentes (mais prováveis) - informa valores menos frequentes (menos prováveis) - informa a variabilidade dos dados (amplitude, probabilidade de valores centrais) - informa valores mais frequentes (mais prováveis) COMO FAZER? - Variáveis nominais, ordinais, ou quantitativas discretas: mera apuração do número de observações (ocorrências) em cada modalidade ou categoria da variável. - Variáveis quantitativas contínuas: é necessário estabelecer classes (caso contrário, muitas classes com frequência absoluta unitária). Sequência: Dados brutos Ordenação Amplitude total (At) Definição do número de classes (k): i) 5 ≤ k ≤ 20; ii) k = √n (se n ≤ 100); k = 1 + 3,32 log10n (se n>100) ou k=5 log10n Amplitude de intervalo (Ai): Ai = At / (k-1)] Tabela de frequência e/ou Gráficos Exemplos (Lopes, 1984): Caracterização dos solos de Cerrado no Brasil e) Medidas descritivas ou Sumários estatísticos “Valores (índices numéricos) que resumem algum aspecto (certas características) do conjunto de dados (população ou amostra)” Se população: → parâmetros: estatísticas que caracterizam ou descrevem algum aspecto da população – “verdades” almejadas nos estudos estatísticos inferenciais. (notação: letras gregas – µ, σ2, ρ, β) Se amostra: → estimativas de parâmetros ou estatísticas amostrais: estatísticas que caracterizam ou descrevem algum aspecto da amostra – aproximações cujo objetivo é informar sobres as “verdades” geralmente desconhecidas, os parâmetros. (notação: letras gregas com “^” (chapéu) ou letras latinas correspondentes – m, s2, r, b)) Estimador: função dos dados amostrais para produzir estimativas (a estimativa só surge a partir da aplicação do estimador aos dados de uma dada amostra, colhida); isto é, sem amostra não há estimativas, mas há estimadores. Ex.: m=Σ Σxi/n é o estimador da média aritmética populacional (µ µ) – essa expressão independe de a amostra já ter sido obtida; já a estimativa depende disso, ou seja, dada uma amostra como {1, 2, 3}, m = 6/3 = 2). Classificação quanto ao tipo: - Univariadas: - Medidas de posição (localização) ou tendência central: média (aritmética, ponderada, geométrica); mediana; moda; quantis (quartis, decis, percentis etc.) - Medidas de dispersão ou variabilidade: amplitude; desvio absoluto médio; variância (quadrado médio); desvio padrão; coeficiente de variação; erro padrão - da média, da variância etc. (medidas para variáveis categóricas) - Medidas de forma da distribuição: simetria e curtose - Bivariadas: - Covariância → Correlação: medida relativa [-1,+1] da variação conjunta de duas variáveis (X e Y). - Covariância → Regressão: medida da variação conjunta de duas variáveis (X e Y) tomada em relação a uma delas (X variável independente; Y - variável dependente). - Multivariadas: (outro curso) Estatística II (PPGA-UFG)