Estatística Univariada

Propaganda
INTRODUÇÃO A ESTATÍSTICA ESPACIAL
Análise Exploratória dos Dados
Estatística Descritiva Univariada
Roberto Wagner Lourenço
Prof. Dr. Engenharia Ambiental, UNESP
Estrutura da Apresentação
• Estatística descritiva e inferencial
• Tipos de dados
• Variável aleatória
• Apresentação estatística
• Distribuição de freqüências
• Medidas descritivas
• Modelos de distribuição
• Populações estatísticas
G
Estatística descritiva e inferencial
A estatística descritiva tem por objetivo descrever a realidade
observada (população ou amostra), usando métodos
numéricos e métodos gráficos e realizando comentários
simples de maneira mais informativa possível.
Pode-se dizer que a estatística descritiva ocupa-se do
tratamento de dados quantitativos (ordenação, exposição e
sumarização de registros de dados) do fenômeno em estudo.
A estatística inferencial (ou indutiva) ocupa-se em formular
inferências sobre uma população, com base em informações
contidas na amostra. Ou seja, através de técnicas inferenciais
conclui-se para o todo, a partir da observação de uma parte.
Assim, os métodos de estatística inferencial só podem ser
utilizados, com algum sentido, sobre dados amostrais.
G
Tipos de dados
A experiência diária mostra a necessidade de se fazer
generalizações sobre assuntos e circunstâncias que
freqüentemente ultrapassam as fronteiras do quotidiano
indicando que, dentro de certos limites, o conhecimento de
uma parte do todo é uma informação prática e útil que pode
ser aplicável à totalidade. Essa parte representativa do todo é
denominada amostra.
O procedimento de obtenção de uma amostra chama-se
levantamento por amostragem e é utilizado para diminuir o
custo total do levantamento de dados.
As características numéricas de uma população chama-se
parâmetros, enquanto que estatísticas são características de
uma amostra. Normalmente, as estatísticas são utilizadas
como base para se estimar os parâmetros populacionais.
G
Variável aleatória
Variável em estatística, é a atribuição de um número a
cada característica da unidade de observação, ou seja, é
uma função matemática definida na população. É
importante que se saiba distinguir entre variáveis
quantitativas e qualitativas. Uma outra distinção
importante é entre variáveis discretas e variáveis
contínuas.
Uma variável aleatória é uma variável que tem associada
a si as possibilidades de assumir seus diferentes valores
(no caso de a variável ser discreta) ou se encontrar
dentro de intervalos determinados (no caso de ser
contínua).
G
Uma variável aleatória também possui média e variância.
A sua média, também chamado valor esperado ou
esperança matemática, e que se representa por E(x), é a
média aritmética dos valores assumidos pela variável
ponderados por suas respectivas probabilidades. Quando
a variável é discreta, tais probabilidades são dadas pela
chamada função de probabilidade e, para variáveis
aleatórias contínuas, pela função distribuição de
probabilidade.
G
Apresentação estatística
Uma vez coletados, os dados
devem ser reunidos de forma
utilizável. Geralmente isso é feito
por meio de tabelas e gráficos,
constituindo a chamada
apresentação estatística.
A forma mais simples de
apresentar um banco de dados,
por exemplo, é simplesmente
listá-lo. A única informação, no
entanto, que esse tipo de
apresentação fornece é o valor da
variável em cada posição espacial.
Nenhum conhecimento quanto à
natureza da distribuição global é
agregado.
G
Distribuição de freqüências
A distribuição de freqüências de uma variável é o conjunto
das freqüências de todos os diferentes valores observados
da variável. O perfil da distribuição de freqüências ajuda a
identificar a forma (o padrão, o tipo) de distribuição da
variável.
Quando a variável for contínua ou quando houver um
grande número de valores observados diferentes, deve-se
agrupar as observações em intervalos de classe. As
freqüências, no caso, estarão associadas não a valores
individuais mas ao intervalo como um todo. Para efeitos de
cálculos, supõem-se que todos os valores observados
dentro de um mesmo intervalo sejam iguais ao respectivo
ponto médio.
G
Dados
5
21
16
35
29
11
28
26
23
Dados
5
11
16
21
23
26
28
29
35
Tabela de Freqüência
Intervalos
de Classes
0-10
10-20
20-30
30-40
Total
Freqüência
Absoluta
1
2
5
1
9
Freqüência
Freqüência
Freqüência
RelativaPercentual
Acumulada
0.11
11
1
0.22
22
3
0.56
56
8
0.11
11
9
1.00
100
G
O histograma é um diagrama de colunas justapostas tal que
a área de cada retângulo (coluna) é proporcional à
freqüência (absoluta ou relativa) da classe particular. Se os
intervalos possuírem todos igual amplitude, o histograma é
obtido desenhando-se colunas cujas alturas sejam iguais às
freqüências (absolutas ou relativas) da classe respectiva.
Uma das ferramentas estatísticas mais amplamente
utilizadas, permite representar graficamente a tabela de
freqüências.
G
• O histograma pode ser construído de maneira a
contemplar toda a distribuição dos dados ou somente uma
parte que se deseja detalhar;
• Em caso de dados espalhados em um intervalo de várias
ordens de magnitude, o uso de escala logarítmica é
recomendado  permite que se veja toda a distribuição;
• Usando intervalos de classes regulares é possível ver toda
a distribuição sem perda de detalhes;
• É útil quando se procura identificar a existência de
múltiplas populações.
G
Medidas descritivas
Medidas de tendência central:
• Média: aritmética, é o centro de gravidade da distribuição
da variável. Requer que a variável seja quantitativa e é
pouco sensível a variações nos valores centrais, enquanto
que (e esta é sua maior desvantagem) é grandemente
afetada pelos valores extremos da variável.
1 n
m   vi
n i 1
• Mediana: é o valor que divide o conjunto de observações
exatamente ao meio, de tal maneira que o número de
observações maiores do que a mediana seja igual ao número
de observações menores do que a mediana.
G
A aplicação da mediana requer que a variável possa ser
ordenável. Uma desvantagem da mediana é ser muito
afetada por ligeiras variações nos valores centrais da
variável. Em compensação, ela permanece inalterada para
mudanças ainda que grandes nos valores extremos da
distribuição.
• Moda: é a medida de tendência central mais simples e é
aplicável a qualquer variável, seja quantitativa ou
qualitativa. É o valor médio do intervalo de freqüência com
maior quantidade de valores e é extremamente sensível a
pequenas alterações nos valores observados.
G
• Em distribuições simétricas:
Média = Mediana = Moda
• Em distribuições com assimetria positiva ou para a direita:
Moda < Mediana < Média
• Em distribuições com assimetria negativa ou para a esquerda:
Média < Mediana < Moda
Assimetria
Negativa
Simétrica
Assimetria
Positiva
G
Medidas de localização:
• Quartis:
• Q1: valor no qual temos histograma cumulativo igual a 25%
• Q3: valor no qual temos histograma cumulativo igual a 75%
• Mínimo: valor no qual temos histograma cumulativo igual a 0%
• Máximo: valor no qual temos histograma cumulativo igual a
100%
• Quantis:
q(p) = valor no qual temos histograma cumulativo igual a p%
(divide a distribuição em duas partes)
M=q(0,5)
min=q(0)
Q1=q(0,25)
max=q(1)
Q3=q(0,75)
G
Medidas de espalhamento:
• Variância: é a diferença quadrática média entre os valores
observados e sua média. É muito sensível a valores extremos e é
medida na mesma unidades das amostras ao quadrado.
n
1
2   (vi  m)2
n i 1
• Desvio padrão: é igual à raiz quadrada da variância. É mais
freqüentemente usado, já que tem unidade igual à das amostras.
• Distância interquartil (IQR): não usa a média como centro da
distribuição, sendo preferido como medida de espalhamento
quando poucos valores extremos influenciam a média.
IQR = Q3 – Q1
G
Medidas de forma:
• Coeficiente de assimetria (“skewness”): extremamente sensível
a valores extremos, é dado por:
1 n

  (vi  m)3 
n i 1


CS 
3
CS < 0
CS  0
CS > 0
G
Medidas de forma:
Curtose: Caracterizar a forma da distribuição quanto a seu achatamento
• Assim, quanto ao seu achatamento, a
distribuição normal é mesocúrtica. As
distribuições mais achatadas que a normal
são ditas platicúrticas e as menos achatadas
são ditas leptocúrticas. Esse coeficiente é
admensional, sendo menor que 0 para as
platicúrticas, = 0 para mesocúrtica e > 0
para leptocúrticas.
Coeficiente de variação (CV): útil como medida de assimetria
para distribuições assimétricas positivas com valor mínimo
igual a 0. Fornece uma indicação do grau de dificuldade para
estimativas locais:
< 1  problema simples
CV = /m
1-2  alguma dificuldade com valores extremos,
> 2  valores extremos devem gerar grande
dificuldade na estimativa
G
Valores extremos: valores erráticos que pertencem à solução
do problema e devem ter impacto significativo na estimativa.
Outliers: valores normalmente elevados que não são
relevantes para a solução da meta imposta pelo estudo.
O que fazer com os valores extremos?
i. Declará-los valores errôneos e removê-los?
ii. Classificá-los como pertencentes à outra população?
iii. Levantar a hipótese de tamanho diferente da
amostra?
iv. Estratificação da região?
Utilizar parâmetros estatísticos mais robustos, que não sejam
afetados pela média. Ex.: mediana, distância entre quartis
(IQR). Trabalhar com dados transformados (ex.: log). Cuidado
ao retornar os valores ao espaço original dos dados.
G
Sumário estatístico
Vantagens
• Compacto e portável;
• Algumas estatísticas correspondem diretamente a
parâmetros físicos relevantes;
média = concentração esperada
Mediana = permeabilidade efetiva
• Podem ser usados como parâmetros de um modelo de
distribuição.
Desvantagens
• Freqüentemente muito condensados;
• Algumas estatísticas são fortemente influenciadas por
valores extremos (m, , 2, assimetria, curtosidade);
• Certas estatísticas são afetadas por vazios no meio da
distribuição (M, Q1, Q3, IQR).
G
Download