Amostragem

Propaganda
Métodos Estatísticos
Mestrado em Gestão (MBA)
Áurea Sousa /Deptº. Matemática U.A.
Áurea Sousa /Deptº. Matemática U.A.
Objectivos
O que é a estatística?
Como pode a estatística ajudar?
Compreender o método de análise estatística;
Reconhecer problemas que podem ser
resolvidos com métodos estatísticos;
Compreender as diferenças entre as duas
principais utilizações da estatística: inferência
e estatística descritiva;
Reconhecer a metodologia de inferência e da
estatística descritiva;
Recolha de dados utilizando inquéritos;
Análise de dados e investigação por inquérito.
Áurea Sousa /Deptº. Matemática U.A.
O que é a Estatística?
estatística
descritiva
(univariada, multivariada)
visualizar
inferência
compilar, resumir
interpretar,
compreender
gerar conhecimento
teste de hipóteses
estimação
melhores decisões
Áurea Sousa /Deptº. Matemática U.A.
Estatística
Univariada
Trabalha com uma única
característica dos dados
Áurea Sousa /Deptº. Matemática U.A.
Estatística
Multivariada
Trabalha com duas ou mais
características dos dados
Áurea Sousa /Deptº. Matemática U.A.
POPULAÇÃO
(Censo)
P
R
O
B
A
B
I
L
I
D
A
D
E
Erro
Inferência
AMOSTRA
(Amostragem)
Áurea Sousa /Deptº. Matemática U.A.
Estatística
Descritiva
Probabilidade
Amostragem
Estatística
Inferencial
Áurea Sousa /Deptº. Matemática U.A.
ESTATÍSTICAS E PARÂMETROS
Valores calculados por expressões matemáticas que
resumem
dados
relativos
a
uma
característica
mensurável:
parâmetro medidas numéricas descritivas calculadas a
partir de dados sobre toda a população;
estatística medidas numéricas correspondentes às
anteriores, mas calculadas sobre uma amostra
03-10-2008
amostragem (dedução)
inferência (indução)
Áurea Sousa /Deptº. Matemática U.A.
8
Principais Parâmetros
µ
2
σ
A MÉDIA
A VARIÂNCIA
σ
O DESVIO
PADRÃO
π
A PROPORÇÃO
Áurea Sousa /Deptº. Matemática U.A.
PRINCIPAIS ESTIMADORES
2
S
X
P
A
A
MÉDIA
S
A
VARIÂNCIA
O
DESVIO
PADRÃO
Áurea Sousa /Deptº. Matemática U.A.
PROPORÇÃO
Métodos Estatísticos Clássicos
Estatística
descritiva:
resumir
e representar dados quantitativos;
uso intensivo de gráficos e tabelas;
uso de estatísticas de tendência central, dispersão
e de forma da distribuição.
Estatística
inferencial:
permite
extrapolar resultados da amostra para a
população (fazer inferência);
usa teste de hipóteses pré-formuladas;
distinguem-se entre testes paramétricos e não
paramétricos.
Áurea Sousa /Deptº. Matemática U.A.
População, Amostra e Amostragem
População – Conjunto de indivíduos ou
objectos que apresentam pelo menos uma
característica em comum.
Amostra –
população.
Subconjunto
Amostragem – Processo de selecção de
uma amostra que possibilita o estudo das
características da população.
Áurea Sousa /Deptº. Matemática
U.A.
finito
da
Cada elemento da população
unidade estatística.
Dimensão da amostra - é o número de
elementos da amostra
A amostra deve ser representativa, ou
seja, as suas características devem
aproximar-se tanto quanto possível das da
população.
Se a amostra não for bem escolhida, as
conclusões podem ser erradas.
Áurea Sousa /Deptº. Matemática U.A.
é
uma
Recenseamento ou Censo – estudo
estatístico em que se observa toda a
população.
Exemplos: recenseamento da população,
censo para o serviço militar.
Sondagem - estudo estatístico em que
se estuda uma amostra da população
Exemplos: preferência musical dos
alunos duma Escola Secundária; índice de
audiência de um programa da TV.
Áurea Sousa /Deptº. Matemática U.A.
Metodologia de Análise de Dados (exploratória):
Definir
objectivos do
estudo
Preparar e
limpar os
dados
verificação,
actualização
conhecimento de
domínio
recolha de dados em
institutos
especializados
análise de dados
recolha por
inquérito ou
entrevistas
bases de dados
de grande
dimensão
Análise de
dados
Gerar
conhecimento
novo conhecimento
gerado
Áurea Sousa /Deptº. Matemática U.A.
exemplo data mining
Áurea Sousa /Deptº. Matemática U.A.
Metodologia de Inferência (confirmatória):
indução
Definir
objectivos do
estudo
Planear a
experiência
amostragem
Recolha de
dados
Análise de
dados
Estabelecer
inferências
validação de
hipóteses
teoria
dedução
formulação de hipóteses
recolha de dados em
institutos
especializados
recolha por
inquérito ou
entrevistas
desenho de planos
experimentais
análise de dados
Inferência estatística
conclusões gerais
Em qualquer projecto de investigação é
imprescindível
Objectivos
da
Investigação
Apresentação e
Interpretação dos
Resultados
Metodologias
de
Investigação
Recolha
da
Informação
Análise
das
Informações
Áurea Sousa /Deptº. Matemática U.A.
V
A
Categóricas
ou
qualitativas
NOMINAL
ORDINAL
R
I
Á
V
E
I
S
Numéricas
ou
quantitativas
DISCRETA
CONTÍNUA
Áurea Sousa /Deptº. Matemática U.A.
Tipos de Amostragem
Amostragem Probabilística
Cada elemento da população tem uma probabilidade
fixa de ser seleccionado para a amostra.
Amostragem Não-Probabilística
A selecção da amostra resulta do julgamento do
investigador e não de procedimentos baseados na
teoria das probabilidades.
Os resultados podem conter enviezamento.
Áurea Sousa /Deptº. Matemática U.A.
Técnicas de amostragem
Probabilísticas
Não Probabilísticas
Amostr. por
conveniência
Am. aleatória
simples
Amostr. por
julgamento
Amostr. por
quotas
Amostragem
Estratificada
Amostr. em
bola de neve
Amostr. por
conglomerados
Amostr.
multi-etapas
Áurea Sousa /Deptº. Matemática U.A.
Outras técnicas
Amostragem – técnicas probabilísticas
Amostra Aleatória Simples
Elementos da amostra escolhidos de forma aleatória.
Igual probabilidade (diferente de zero) de cada
elemento da população ser seleccionado por sorteio.
População é numerada de 1 a n. Para realizar o sorteio
é utilizada, por exemplo, uma tabela de números
aleatórios.
Amostragem Estratificada
Aplicada a populações heterogéneas sendo necessário
subdividir a população em estratos (subgrupos)
homogéneos, como por exemplo, classe social, idade ,
sexo, habilitações literárias, raça, religião, preferência
política, etc.
Seleciona-se uma amostra aleatória simples de cada
estrato.
Áurea Sousa /Deptº. Matemática U.A.
Amostragem – técnicas probabilísticas
Amostragem aleatória Sistemática
Elementos da amostra seleccionados aleatoriamente
É estabelecido um intervalo de amplitude k entre esses
elementos tal que:
k = N/n
(inverso da taxa de amostragem)
onde N dimensão da população
da amostra
e
n = dimensão
Escolhe-se aleatoriamente um número entre 1 e k e iniciase a selecção.
Ex: k = 100/10
k = 10
Começa-se, por exemplo, com a 5ª unidade da amostra
Em seguida, passa-se para a 15ª e assim sucessivamente,
até se obter a dimensão n da amostra.
Áurea Sousa /Deptº. Matemática U.A.
Amostragem – técnicas probabilísticas
Amostragem por Conglomerados
A população é dividida em sub-grupos
É seleccionada uma amostra aleatória de subgrupos (clusters)
Para cada cluster seleccionado, ou todos os seus
elementos são incluidos na amostra ou é retirada
uma amostra de forma probabilística.
Áurea Sousa /Deptº. Matemática U.A.
Um exemplo
(probab. prop. à dimensão)
Como escolher probabilisticamente uma amostra de 3 freguesias de
um total de 10?
Freguesia nº
1
2
3
4
5
6
7
8
9
10
População
100 000
50 000
20 000
150 000
75 000
5 000
30 000
25 000
35 000
10 000
Acumulada
100 000
150 000
170 000
320 000
395 000
400 000
430 000
455 000
490 000
500 000
Solução: Geram-se aleatoriamente 3 números entre 1 e 500 000.
Ex: 75 235, 232 974, 429 232 ⇒ seleccionar as freguesias 1, 4 e 7
Áurea Sousa /Deptº. Matemática U.A.
Amostragem – técnicas não probabilísticas
Por Conveniência
Selecção de acordo com a conveniência do investigador.
Ex. pessoas que estão ao alcance do investigador e
dispostas a responder a um questionário.
Aspectos positivos – mais barata, mais simples
Aspectos negativos – não-conclusiva, menos confiável
Por Julgamento
Selecção
segundo
investigador.
critério
de
julgamento
do
Ex: Numa pesquisa sobre cosméticos, o investigador decide
que irá entrevistar pessoas em um grande salão de
cabeleireiros.
Áurea Sousa /Deptº. Matemática U.A.
Amostragem – técnicas não probabilísticas
Por Quotas
O investigador procura uma amostra que se
identifique em alguns aspectos com a
população (sexo, idade, etc..)
A quantidade a ser entrevistada é aleatória.
Ex: pesquisa de opinião sobre um jornal, em
que cada investigador tenha de entrevistar
uma quantidade de pessoas da classe A, da
classe B, de faixas etárias variáveis de 30 a
45 anos e de ambos os sexos.
Áurea Sousa /Deptº. Matemática U.A.
Factores que Determinam a Dimensão da
Amostra
O número de grupos e sub-grupos dentro da
amostra
O valor da informação que é recolhida no
estudo
Precisão pretendida dos resultados
Custo da amostra
Variabilidade da população
Áurea Sousa /Deptº. Matemática U.A.
ESTATÍSTICA
DESCRITIVA
Áurea Sousa /Deptº. Matemática U.A.
I
Medidas de tendência central
II
Medidas de tendência não central
III
Medidas de dispersão
IV
Medidas de assimetria
V
Medidas de achatamento
Áurea Sousa /Deptº. Matemática U.A.
Medidas de tendência central
I
A
Média
B
Mediana
C
Moda
Áurea Sousa /Deptº. Matemática U.A.
II
Medidas de tendência não central
A)
Quartis
B)
Decis
C)
Percentis
Áurea Sousa /Deptº. Matemática U.A.
III
Medidas de Dispersão
A)
Amplitude total (h)
B)
Desvio médio
C)
Variância (s2)
D)
Desvio padrão (s)
E)
Coeficiente de Variação
F)
Amplitude InterInter-quartis
Áurea Sousa /Depatemática U.A.
IV
Medidas de Assimetria (skewness
(skewness))
A)
Primeiro coeficiente de assimetria de Pearson
B)
Segundo coeficiente de assimetria de Pearson
Áurea Sousa /Deptº. Matemática U.A.
AS = 0 distribuição é simétrica (a);
AS > 0 distribuição é assimetria positiva (b);
AS < 0 distribuição é assimetria negativa (c).
Áurea Sousa /Deptº. Matemática U.A.
V
Medidas de Achatamento ou Curtose
(kurtosis
kurtosis))
Áurea Sousa /Deptº. Matemática U.A.
Áurea Sousa /Deptº. Matemática
U.A.
Áurea Sousa /Deptº. Matemática U.A.
Exemplo: Consideremos a amostra constituída
pelo nº de irmãos dos 20 alunos de uma
determinada turma: 1, 1, 2, 1, 0, 3, 4, 2, 3,
1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2
Classe
Freq. Abs. (Fi) Freq. Rel. (fi)
tabela de frequências
0
4
0.20
1
8
0.40
2
4
0.20
3
3
0.15
4
1
0.05
Total
20
1.00
Áurea Sousa /Deptº. Matemática U.A.
Exemplo: Num inquérito realizado a 150
indivíduos, estes tiveram de assinalar o sexo - M
ou F, e o estado civil - Solteiro, Casado, Viúvo ou
Divorciado.
tabela de frequências
Classe
Solteiro
Casado
Viúvo
Divorciado
Total
Freq. Abs. (Fi) Freq. Rel. (fi)
78
0.52
50
0.33
5
0.03
17
0.12
150
1.00
Áurea Sousa /Deptº. Matemática U.A.
Diagrama de Extremos e Quartis
(“caixa de bigodes”)
Áurea Sousa /Deptº. Matemática U.A.
Áurea Sousa /Deptº. Matemática U.A.
sem intervalos
entre as barras
Áurea Sousa /Deptº. Matemática U.A.
Ogiva de Galton
Áurea Sousa /Deptº. Matemática U.A.
MÉDIA ARITMÉTICA
A medida de tendência central mais utilizada;
É influenciada por valores atípicos (outliers);
uso da média aparada para evitar influência
de valores extremos.
desprezam-se de 1-5% dos
valores extremos
0 1 2 3 4 5 6 7 8 9 10
Média = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Média = 6
valor extremo influencia
muito a média
03-10-2008
Áurea Sousa /Deptº. Matemática U.A.
44
MEDIANA
Medida robusta de tendência central;
É menos
influenciada
por
valores
atípicos;
Pode ser calculada para variáveis não
categóricas com ordem.
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10 12 14
Mediana = 5
Mediana = 5
A mediana é o número central de uma
série de valores ordenados
se o número de valores é ímpar coincide
com o valor central;
se o número de valores é par calcula-se
a média entre os dois valores centrais.
03-10-2008
Áurea Sousa /Deptº. Matemática U.A.
45
MODA
Uma medida de tendência central;
Valor que ocorre com mais frequência;
Não é influenciada por valores atípicos
Pode ser usada para variáveis quantitativas ou
não quantitativas;
Pode não existir uma moda;
podem existir distribuições
Podem existir várias modas;
bimodais, trimodais, etc.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
03-10-2008
Áurea Sousa /Deptº. Matemática U.A.
0 1 2 3 4 5 6
Sem Moda
46
AMPLITUDE
Medida de dispersão;
Diferença entre o maior e o menor;
Ignora a distribuição dos restantes valores;
Muito sensível à presença de valores
atípicos.
Amplitude = 12 - 7 = 5
7
03-10-2008
8
9
10
11
12
Amplitude = 12 - 7 = 5
7
8
Áurea Sousa /Deptº. Matemática U.A.
9
10
11
12
47
VARIÂNCIA E DESVIO PADRÃO
A medida de dispersão mais usada
Usa as variações em torno da média
n
variância amostral:
∑( X
S2 =
para grandes volumes
de dados é indiferente
i =1
n −1
∑( X
para uma população:
σ =
Desvio padrão (S ou σ) tem as
mesmas unidades dos valores
originais
03-10-2008
−X)
N
2
i
2
Áurea Sousa /Deptº. Matemática U.A.
i
−µ)
2
i =1
N
média
(parâmetro)
na população
48
EXEMPLOS DE DESVIOS PADRÃO
Dados A
11 12 13 14 15 16 17 18 19 20 21
Média = 15,5
s = 3,338
Dados B
11 12 13 14 15 16 17 18 19 20 21
Média = 15,5
s = 0,926
Dados C
11 12 13 14 15 16 17 18 19 20 21
03-10-2008
Áurea Sousa /Deptº. Matemática U.A.
Média = 15,5
s = 4,57
49
FOLHA DE CÁLCULO DO MS.
EXCEL
barras de título,
de menus e de
ferramentas
barra de edição
letras referenciam
as colunas
referência ou
nome da célula
em edição
célula C6 a ser
editada
botões de edição
células com
texto, números
e formatações
separadores
identificativos das
folhas (spreadsheets)
agrupadas no livro
(workbook)
números
referenciam as
linhas
botões para
navegação entre
as várias folhas
03-10-2008
acção actual: em edição
Áurea Sousa /Deptº. Matemática U.A.
esta área da barra de
estado apresenta
resultados de cálculos
rápidos
50
OS PACOTES DE ANÁLISE ESTATÍSTICA
aplicações com grande variedade de
procedimentos estatísticos e capacidade
para elaborar gráficos complexos;
dados organizados em tabelas rígidas
onde as colunas representam variáveis
e as linhas observações ou casos;
importantes linguagens de
programação, possibilitando a
automação de tarefas muito demoradas
ou complexas;
funcionamento distinto das folhas de
cálculo, sendo as análises efectuadas
segundo uma sequência de 4 passos.
03-10-2008
Áurea Sousa /Deptº. Matemática U.A.
SAS
Statistics
Stat graphics
SPSS
R, S-Plus
51
STATISTICAL PACKAGE FOR SOCIAL
SCIENCES
análise segundo uma
sequência de 4 passos.
inserir dados na
folha de dados
1
escolher um
procedimento
2
estatístico
cada coluna
representa uma
variável
nome das
variáveis
as linhas
representam
indivíduos ou
observações
afectar variáveis e
escolher opções
3
obter
4 resultados
03-10-2008
Editor dos dados
Áurea Sousa /Deptº. Matemática U.A.
52
CAIXAS DE DIÁLOGO DOS PROD.
ESTAT.
03-10-2008
é apresentada uma lista das variáveis
definidas na folha de dados;botão usado para
transferir vars
as variáveis são
lista de variáveis
variável
colocadas nas caixas
numérica
correspondentes ao pretendido;
botões para opções,
gráficos, criação de
variável de
caracteres string
código e ajuda;
botões de opções
é possível saber
e formatações
botões padrão
informações sobre a variável seleccionada
pelo menu emergente;
é possível ler uma descrição dos controlos
nas caixas de diálogo com o menu
emergente.
Áurea Sousa /Deptº. Matemática U.A.
caixas onde se
colocam vars
53
CAIXAS DIÁLOGO DOS GRÁFICOS
INTERA.
as variáveis são arrastadas da lista para
as caixas respectivas;
usam-se separadores para definir as
propriedades dos gráficos;
as variáveis são identificadas por um
ícone que representa a
separadores
escala de medida;
para definir
formatações
a lista de variáveis
variável
pode ser reordenada
quantitativa
calculada
por diferentes atributos
variável
com o menu emergente.
quantitativa
botões para
subtipo de
gráfico
(scale)
variável
qualitativa
(categorical)
03-10-2008
Áurea Sousa /Deptº. Matemática U.A.
54
Download