INTRODUÇÃO A ESTATÍSTICA ESPACIAL Análise Exploratória dos Dados Estatística Descritiva Univariada Roberto Wagner Lourenço Prof. Dr. Engenharia Ambiental, UNESP Estrutura da Apresentação • Estatística descritiva e inferencial • Tipos de dados • Variável aleatória • Apresentação estatística • Distribuição de freqüências • Medidas descritivas • Modelos de distribuição • Populações estatísticas G Estatística descritiva e inferencial A estatística descritiva tem por objetivo descrever a realidade observada (população ou amostra), usando métodos numéricos e métodos gráficos e realizando comentários simples de maneira mais informativa possível. Pode-se dizer que a estatística descritiva ocupa-se do tratamento de dados quantitativos (ordenação, exposição e sumarização de registros de dados) do fenômeno em estudo. A estatística inferencial (ou indutiva) ocupa-se em formular inferências sobre uma população, com base em informações contidas na amostra. Ou seja, através de técnicas inferenciais conclui-se para o todo, a partir da observação de uma parte. Assim, os métodos de estatística inferencial só podem ser utilizados, com algum sentido, sobre dados amostrais. G Tipos de dados A experiência diária mostra a necessidade de se fazer generalizações sobre assuntos e circunstâncias que freqüentemente ultrapassam as fronteiras do quotidiano indicando que, dentro de certos limites, o conhecimento de uma parte do todo é uma informação prática e útil que pode ser aplicável à totalidade. Essa parte representativa do todo é denominada amostra. O procedimento de obtenção de uma amostra chama-se levantamento por amostragem e é utilizado para diminuir o custo total do levantamento de dados. As características numéricas de uma população chama-se parâmetros, enquanto que estatísticas são características de uma amostra. Normalmente, as estatísticas são utilizadas como base para se estimar os parâmetros populacionais. G Variável aleatória Variável em estatística, é a atribuição de um número a cada característica da unidade de observação, ou seja, é uma função matemática definida na população. É importante que se saiba distinguir entre variáveis quantitativas e qualitativas. Uma outra distinção importante é entre variáveis discretas e variáveis contínuas. Uma variável aleatória é uma variável que tem associada a si as possibilidades de assumir seus diferentes valores (no caso de a variável ser discreta) ou se encontrar dentro de intervalos determinados (no caso de ser contínua). G Uma variável aleatória também possui média e variância. A sua média, também chamado valor esperado ou esperança matemática, e que se representa por E(x), é a média aritmética dos valores assumidos pela variável ponderados por suas respectivas probabilidades. Quando a variável é discreta, tais probabilidades são dadas pela chamada função de probabilidade e, para variáveis aleatórias contínuas, pela função distribuição de probabilidade. G Apresentação estatística Uma vez coletados, os dados devem ser reunidos de forma utilizável. Geralmente isso é feito por meio de tabelas e gráficos, constituindo a chamada apresentação estatística. A forma mais simples de apresentar um banco de dados, por exemplo, é simplesmente listá-lo. A única informação, no entanto, que esse tipo de apresentação fornece é o valor da variável em cada posição espacial. Nenhum conhecimento quanto à natureza da distribuição global é agregado. G Distribuição de freqüências A distribuição de freqüências de uma variável é o conjunto das freqüências de todos os diferentes valores observados da variável. O perfil da distribuição de freqüências ajuda a identificar a forma (o padrão, o tipo) de distribuição da variável. Quando a variável for contínua ou quando houver um grande número de valores observados diferentes, deve-se agrupar as observações em intervalos de classe. As freqüências, no caso, estarão associadas não a valores individuais mas ao intervalo como um todo. Para efeitos de cálculos, supõem-se que todos os valores observados dentro de um mesmo intervalo sejam iguais ao respectivo ponto médio. G Dados 5 21 16 35 29 11 28 26 23 Dados 5 11 16 21 23 26 28 29 35 Tabela de Freqüência Intervalos de Classes 0-10 10-20 20-30 30-40 Total Freqüência Absoluta 1 2 5 1 9 Freqüência Freqüência Freqüência RelativaPercentual Acumulada 0.11 11 1 0.22 22 3 0.56 56 8 0.11 11 9 1.00 100 G O histograma é um diagrama de colunas justapostas tal que a área de cada retângulo (coluna) é proporcional à freqüência (absoluta ou relativa) da classe particular. Se os intervalos possuírem todos igual amplitude, o histograma é obtido desenhando-se colunas cujas alturas sejam iguais às freqüências (absolutas ou relativas) da classe respectiva. Uma das ferramentas estatísticas mais amplamente utilizadas, permite representar graficamente a tabela de freqüências. G • O histograma pode ser construído de maneira a contemplar toda a distribuição dos dados ou somente uma parte que se deseja detalhar; • Em caso de dados espalhados em um intervalo de várias ordens de magnitude, o uso de escala logarítmica é recomendado permite que se veja toda a distribuição; • Usando intervalos de classes regulares é possível ver toda a distribuição sem perda de detalhes; • É útil quando se procura identificar a existência de múltiplas populações. G Medidas descritivas Medidas de tendência central: • Média: aritmética, é o centro de gravidade da distribuição da variável. Requer que a variável seja quantitativa e é pouco sensível a variações nos valores centrais, enquanto que (e esta é sua maior desvantagem) é grandemente afetada pelos valores extremos da variável. 1 n m vi n i 1 • Mediana: é o valor que divide o conjunto de observações exatamente ao meio, de tal maneira que o número de observações maiores do que a mediana seja igual ao número de observações menores do que a mediana. G A aplicação da mediana requer que a variável possa ser ordenável. Uma desvantagem da mediana é ser muito afetada por ligeiras variações nos valores centrais da variável. Em compensação, ela permanece inalterada para mudanças ainda que grandes nos valores extremos da distribuição. • Moda: é a medida de tendência central mais simples e é aplicável a qualquer variável, seja quantitativa ou qualitativa. É o valor médio do intervalo de freqüência com maior quantidade de valores e é extremamente sensível a pequenas alterações nos valores observados. G • Em distribuições simétricas: Média = Mediana = Moda • Em distribuições com assimetria positiva ou para a direita: Moda < Mediana < Média • Em distribuições com assimetria negativa ou para a esquerda: Média < Mediana < Moda Assimetria Negativa Simétrica Assimetria Positiva G Medidas de localização: • Quartis: • Q1: valor no qual temos histograma cumulativo igual a 25% • Q3: valor no qual temos histograma cumulativo igual a 75% • Mínimo: valor no qual temos histograma cumulativo igual a 0% • Máximo: valor no qual temos histograma cumulativo igual a 100% • Quantis: q(p) = valor no qual temos histograma cumulativo igual a p% (divide a distribuição em duas partes) M=q(0,5) min=q(0) Q1=q(0,25) max=q(1) Q3=q(0,75) G Medidas de espalhamento: • Variância: é a diferença quadrática média entre os valores observados e sua média. É muito sensível a valores extremos e é medida na mesma unidades das amostras ao quadrado. n 1 2 (vi m)2 n i 1 • Desvio padrão: é igual à raiz quadrada da variância. É mais freqüentemente usado, já que tem unidade igual à das amostras. • Distância interquartil (IQR): não usa a média como centro da distribuição, sendo preferido como medida de espalhamento quando poucos valores extremos influenciam a média. IQR = Q3 – Q1 G Medidas de forma: • Coeficiente de assimetria (“skewness”): extremamente sensível a valores extremos, é dado por: 1 n (vi m)3 n i 1 CS 3 CS < 0 CS 0 CS > 0 G Medidas de forma: Curtose: Caracterizar a forma da distribuição quanto a seu achatamento • Assim, quanto ao seu achatamento, a distribuição normal é mesocúrtica. As distribuições mais achatadas que a normal são ditas platicúrticas e as menos achatadas são ditas leptocúrticas. Esse coeficiente é admensional, sendo menor que 0 para as platicúrticas, = 0 para mesocúrtica e > 0 para leptocúrticas. Coeficiente de variação (CV): útil como medida de assimetria para distribuições assimétricas positivas com valor mínimo igual a 0. Fornece uma indicação do grau de dificuldade para estimativas locais: < 1 problema simples CV = /m 1-2 alguma dificuldade com valores extremos, > 2 valores extremos devem gerar grande dificuldade na estimativa G Valores extremos: valores erráticos que pertencem à solução do problema e devem ter impacto significativo na estimativa. Outliers: valores normalmente elevados que não são relevantes para a solução da meta imposta pelo estudo. O que fazer com os valores extremos? i. Declará-los valores errôneos e removê-los? ii. Classificá-los como pertencentes à outra população? iii. Levantar a hipótese de tamanho diferente da amostra? iv. Estratificação da região? Utilizar parâmetros estatísticos mais robustos, que não sejam afetados pela média. Ex.: mediana, distância entre quartis (IQR). Trabalhar com dados transformados (ex.: log). Cuidado ao retornar os valores ao espaço original dos dados. G Sumário estatístico Vantagens • Compacto e portável; • Algumas estatísticas correspondem diretamente a parâmetros físicos relevantes; média = concentração esperada Mediana = permeabilidade efetiva • Podem ser usados como parâmetros de um modelo de distribuição. Desvantagens • Freqüentemente muito condensados; • Algumas estatísticas são fortemente influenciadas por valores extremos (m, , 2, assimetria, curtosidade); • Certas estatísticas são afetadas por vazios no meio da distribuição (M, Q1, Q3, IQR). G