3 – Tratamento da informação 3.1 Organização dos dados

Propaganda
3 – Tratamento da informação
3.1 Organização dos
dados
3.1 Organização dos dados
Recolha de dados
Apreender, estruturar e dar sentido ao que é produzido através de
observações e experimentações.
Dados
- Correspondem a um registo directo das observações, com
pouca elaboração ou tratamento.
- Representam razoavelmente os acontecimentos.
2
In Elementos da pesquisa cientíifca em Medicina
3.1 Organização dos dados
Informação
- É o resultado de uma organização, transformação e/ou análise de dados,
ou seja, do seu tratamento de modo a produzir deduções.
- Constitui uma leitura daquilo que o conjunto dos dados parece indicar.
Conhecimento:
- Argumentos e explicações que interpretam um conjunto de informações.
- Trata-se de conceitos e raciocínios lógicos essencialmente abstractos
que interligam e dão significado a fatos concretos.
- Envolve hipóteses, teses, teorias e leis.
3
In Elementos da pesquisa cientíifca em Medicina
3.1 Organização dos dados
O processo de construção de conhecimento científico envolve os dados, os
quais representam a "matéria-prima" bruta, a partir dos quais as operações
lógicas criam informações e, finalmente, estas últimas são interpretadas
para gerar conhecimento.
Fenómeno
empírico
4 In Elementos da pesquisa cientíifca em Medicina
Teoria
3.1 Organização dos dados
- Os processos pelos quais os dados são transformados em
informação envolvem a organização, transformação e análise dos
dados através de procedimentos lógicos cujas ferramentas são as
seguintes:
1. Indicadores Matemáticos:
- São produzidos pelo agrupamento e combinação de variáveis de
modo a produzir a partir delas uma nova variável que possui um
significado de interesse.
- Geralmente,
algébricas.
5
são
apresentados
através
de
expressões
In Elementos da pesquisa cientíifca em Medicina
3.1 Organização dos dados
2. Análise Estatística:
- Envolve o resumo dos dados recolhidos, a identificação da
existência ou não de relações entre as variáveis, a explicitação da
natureza de uma relação porventura existente entre determinadas
variáveis, o estudo de tendências e o cálculo do grau de precisão
dos resultados.
- A informação produzida por análise estatística permite resumir
achados, identificar/caracterizar relações e realizar previsões.
6
In Elementos da pesquisa cientíifca em Medicina
3.1 Organização dos dados
3. Modelação Matemática:
- Consiste na proposição de um conjunto de equações que
reflectem as relações e interacções entre as variáveis envolvidas
num dado fenómeno.
- Isso pode ser feito tanto a priori, ou seja, por puro raciocínio
lógico, quanto a posteriori, isto é, por análise estatística de dados
recolhidos.
7
In Elementos da pesquisa cientíifca em Medicina
3 – Tratamento da informação
3.2 Análise dos dados
3.2 Análise dos dados
Análise Estatística
9
•
Estatística Descritiva
•
Estatística inferencial
•
Distribuição t de Student e testes de Hipóteses
•
One Way Analysis of Variance (ANOVA)
•
Testes não paramétricos
•
Tabelas de Contigência e Testes de Qui-Quadrado
•
Correlação e Regressão
•
Modelos de Regressão
•
Regressão logística
•
Análise de Sobrevida
3.2 Análise dos dados
Análise Estatística
Medição:
Conjunto de operações que têm por objectivo
determinar o valor de uma grandeza
Mesuranda:
Grandeza particular submetida à medida
Incerteza da
medição:
Parâmetro associado ao resultado da medição, que
caracteriza a dispersão dos valores que podem ser
razoavelmente atribuídos à mensuranda
erro da
medição:
Diferença algébrica entre o resultado da medição e o
valor verdadeiro da mensuranda
10In Vocabulário Internacional de Metrologia
3.2 Análise dos dados
Análise Estatística:
Qualquer tipo de medição, estimativa ou previsão está sempre
envolvido por uma determinada quantidade de erro
Incerteza
A incerteza está associada a dois conceitos:
- PRECISÃO
- EXACTIDÃO
11
In Elementos da pesquisa cientíifca em Medicina
3.2 Análise dos dados
Análise Estatística
- EXACTIDÃO
Aproximação entre o resultado da medição e o valor
verdadeiro da mensuranda
In Vocabulário Internacional de Metrologia
- PRECISÃO
Dispersão dos valores em relação ao valor verdadeiro
da mensurando
Valor
verdadeiro
incerteza
12
resultado
3.2 Análise dos dados
alta
baixa
- EXACTIDÃO
Análise Estatística
baixa
- PRECISÃO
13
alta
3.2 Análise dos dados
Análise Estatística:
A avaliação do valor de uma estimativa qualquer
depende de uma verificação da capacidade dessa
avaliação de se direccionar especificamente ao
objectivo desejado (Exactidão) e de apresentar uma
margem de erro pequena (Precisão).
14
In Elementos da pesquisa cientíifca em Medicina
3.2 Análise dos dados
Análise Estatística:
Critérios para escolha do teste estatístico
Inúmeros testes e técnicas estatísticos
desorientação inicial
parâmetros básicos dos dados a
serem analisados
15
In Elementos da pesquisa cientíifca em Medicina
3.2 Análise dos dados
Análise Estatística:
Critérios para escolha do teste estatístico
Estatística descritiva
Estudo de características não uniformes não uniformes das unidades
observadas ou experimentadas.
Utiliza-se para descrever os dados através de indicadores (média,
moda, desvio padrão)
Estatística indutiva
Permite, com base nos elementos observados ou experimentados, tirar
conclusões para um domínio mais vasto de onde provieram esses
dados
16
In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Critérios para escolha do teste estatístico
Estatística indutiva (continuação)
As inferências que requerem o conhecimento das probabilidades, são
feitas através de intervalos de confiança e de testes estatísticos
paramétricos ou não paramétricos, aplicados a amostras aleatórias
17In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Critérios para escolha do teste estatístico
Table 1.1 Examples of types of data
Quantitative
Continuous
Discrete
Blood pressure, height, weight, age
Number of children
Number of attacks of asthma per week
Categorical
18
Ordinal (Ordered categories)
Nominal (Unordered categories)
Grade of breast cancer
Better, same, worse
Disagree, neutral, agree
Sex (male/female)
Alive or dead
Blood group O, A, B, AB
In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Critérios para escolha do teste estatístico
Análise univariada e multivariada
A análise pode ser univariada, bivariada ou multivariada consoante o nº
de variáveis tratadas em simultâneo.
19
- Análise univariada:
Cada variável é tratada independentemente
- Análise bivariada:
Estabelecem-se relações entre 2 variáveis
- Análise multivariada:
Estabelecem-se relações entre + de 2
variáveis
In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Critérios para escolha do teste estatístico
Relação entre variáveis
Amostras independentes:
20
Comparações de dois ou mais grupos de
sujeitos,
cujas
observações
são
independentes umas das outras.
In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Relação entre variáveis – AMOSTRAS INDEPENDENTES
ESCALAS
NOMINAL
Qui-quadrado
F-Fisher
rácio de produtos cruzados
(Odds Ratio)
Anacor
Homals
ORDINAL
Qui-quadrado
Kolmogorov-Smirnov
Mann Whitney
Kruskall-Wallis
Princals
(iguais aos da 2ª linha e 1ª
coluna)
Eta
Análise da variância
Análise da covariância
Manova e Mancova
Análise de clusters
Análise discriminante
ORDINAL
Eta
Testes t
Análise da variância
Análise da covariância
Manova e Mancova
Análise de clusters
Análise discriminante
NOMINAL
INTERVALO/RÁCIO
Kappa de Cohen
Princals
R Spearman
R Pearson, R Spearman, correlações
parciais
Análise factorial
Regressão
Path analysis
INTERVALO/
/RÁCIO
21
(iguais aos da 1ª linha e 3ª
coluna)
(iguais aos da 2ª linha e 3ª
coluna)
Ex: Comparação de insucesso escolar em duas turmas do mesmo professor
3.2 Análise dos dados
Relação entre variáveis – AMOSTRAS EMPARELHADAS
Comparam o mesmo grupo de sujeitos em diferentes condições ou
tratamentos.
1 variável indepenmdente
2 ou mais variáveis independentes
ESCALAS
2 condições
3 ou mais condições
NOMINAL
McNemar
Q de Cochran
ORDINAL
Sinal
Friedman
INTERVALO/
/RÁCIO
Wilcoxon
Teste t
2 ou mais condições
GLM Repeated Measures
Manova – factors with subject
Ex: Avaliação duma doença antes e depois da terapia
22
3.2 Análise dos dados
Uma variável – AMOSTRAS INDEPENDENTES
ESCALAS
NOMINAL
ORDINAL
23
NOMINAL
Aderência do Qui-quadrado
Binomial
Aderência de Kolmov-Smirnov
3.2 Análise dos dados
Análise univariada: estatísticas mais úteis
Escala nominal
Escala ordinal
Escala intervalo/rácio
Moda
estatística de ordem
Amplitude inter-quartis
Amplitude total
Média
Média aparada a 5%
Desvio padrão
Coeficiente de variação
MAD
Enviesamento e curtose
24
Moda
Moda
Estatística de ordem
In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Representação gráfica
A representação gráfica permite visualizar o comportamento da variável
e identificar as observações aberrantes ou outliers, que tendem a
distorcer a média e o desvio padrão
Gráfico de barras: representação gráfica de variáveis qualitativas ou
quantitativas discretas, onde se indica no eixo vertical as respectivas
frequências e no eixo horizontal as modalidades ou valores das
variáveis. Cada valor é representado por um traço ou barra vertical de
igual altura à respectiva frequência
25
In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Representação gráfica
Histograma: representação gráfica de variáveis quantitativas
contínuas, onde se indica no eixo vertical as respectivas frequências
por unidade de classe e no eixo horizontal os valores ou intensidade da
variável. O histograma é um gráfico de barras adjacentes,
representando a área de cada barra a frequência absoluta ou relativa
da classe a que respeita.
No caso das classes terem amplitudes diferentes, no eixo vertical
representa-se por F i
, ai = amplitude de cada classe
a
i
In Análise de Dados para Ciências Sociais
26
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Representação gráfica
In Análise de Dados para Ciências Sociais
27
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de localização e de tendência central
Média aritmética
∑x ×F
i
i
i
é muito sensível a outliers
n
Mediana
- Se n for ímpar, n= 2k+1, em que k é a incógnita
da igualidade, a mediana é o valor xk+1
- Se n for par, n= 2k, a mediana é indeterminada,
podendo ser qualquer valor entre xk e xk+1.
In Análise de Dados para Ciências Sociais
28
Me =
X k + X k +1
2
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de localização e de tendência central
Moda
Valor com maior frequência
Média aparada a 5%
Dispõem-se as observações por ordem crescente, seguida da eliminação
de 5% das maiores e das menores observações, fazendo uma média
aritmética das restantes. Trata-se de um parâmetro estatístico robusto.
In Análise de Dados para Ciências Sociais
29
3.2 Análise dos dados
Análise Estatística:
Valores aberrantes ou outliers
São observações aberrantes que podem existir numa distribuição de
frequências e classificam-se como severos ou moderados consoante o
seu afastamento em relação às outras observações seja mais ou menos
pronunciado.
Outliers moderados:
- Q1-3aQ<xi<Q1-1,5aQ
xi é a observação i
aQ
Outliers severos:
é a amplitude inter-quartil=Q3-Q1
xi≤Q1-3aQ
In Análise de Dados para Ciências Sociais
30
ou
xi≥Q3+3aQ
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de dispersão
Variância
∑ (x − x)
2
i
2
Dados não classificados s =
Dados classificados
i
n
∑ (x − x)
i
s2 =
i
n
2
× Fi
= ∑ ( xi − x ) 2 × f i
i
Quando n é pequeno (n≤30) o denominador da variância vem dividido por n-1
designando-se a nova variância por variância corrigida.
31In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de dispersão
Desvio padrão
∑ (x − x)
2
i
Dados classificados e n<30
s' =
n −1
i
s' =
(1)
i
∑ (x − x)
Dados classificados e n≥30
× Fi
i
n
2
× Fi
=
∑ (x − x)
i
2
× fi
i
(1) Desvio padrão corrigido
Quanto menos dispersos estiverem os valores da variável relativamente à média,
menor será o desvio padrão.
32In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de dispersão
Estimativa do erro amostral ou erro padrão
Quantifica a variabilidade da média aritmética
EP =
s
n
O cálculo do erro padrão permite a construção de intervalos de confiança sobre o
valor da média (µ) na população:
Média ± t0,975 (df) x EP ; (p=0,05); (df) =ν = ∞
Deste modo pode dizer-se com 95% de confiança que a média populacional (µ) se
situa entre ]x − 1,96 × EP; x + 1,96 × EP[
33In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de dispersão
Coeficiente de dispersão
ou covariância
Dados classificados e n<30
Dados classificados e n≥30
s'
s'
Cd =
x
s
Cd =
x
Quanto menor o valor de Cd mais regular é a distribuição da variável.
Este parâmetro é muito sensível aos outliers
34In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: Medidas de dispersão
MAD-mediana dos desvios absolutos em
relação à mediana
1- Calcula-se a mediana das observações
2- Subtrai-se a mediana a cada observação
3- Ordenam-se as observações e calcula-se de novo a mediana (MAD)
Este parâmetro é semelhante ao Cd mas é estatisticamente mais robusto
35In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: medida de assimetria (SPSS)
É dado pelo quociente entre a skewnness (g1) e o EP (g1)
g1 =
6n(n − 1)
(n − 2)(n + 1)(n + 3)
Assimétrica
negativa
< -2
Não rejeitar
assimetria
-2
0
2
Assimétrica
positiva
>2
n∑ Fi ( xi − x )3
EP g1 =
i
(n − 1)(n − 2) s 3
Este quociente é usado para não rejeitar a simetria, o que acontece se o seu
resultado for menor que 1,96 (ou aproximadamente 2 ) em valor absoluto
36In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
Análise univariada: medida achatamento ou curtose (SPSS)
É dado pelo quociente entre a curtose e o EP
Curva platicúrtica
Curva Mesocúrtica
Curva Leptocúrtica
< -1,96 (≈ -2)
1,96 (≈2)
> 1,96 (≈2)
37In Análise de Dados para Ciências Sociais
3.2 Análise dos dados
Análise Estatística:
38
3.2 Análise dos dados
Análise Estatística:
Exemplo: Num estudo de “matched” caso controlo, fez-se a análise à urina de 16 crianças
que vivem em ambiente rural e 16 que vivem em ambiente urbano, “matched” para o sexo e
para a idade
Table 1.3 Urinary concentration of lead in 16 rural children
(µmol/24h)
0.2, 0.3, 0.6, 0.7, 0.8, 1.5, 1.7, 1.8, 1.9, 1.9, 2.0, 2.0, 2.1, 2.8, 3.1,
3.4
In Statistics at Square One
39
3.2 Análise dos dados
Análise Estatística:
Figure 1.3 Dot plot of urinary lead concentrations for urban and rural children from table 1.3.
In Statistics at Square One
40
3.2 Análise dos dados
Análise Estatística:
Figure 1.4 Box-whisker plot (box-plot) of data
Máximo
50% amostra
caixa de
bigodes
3º
interquartil
Mediana
1º
interquaril
Mínimo
41In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Table 1.4 Lead concentration in 140 urban children
Concentração
de
chumbo
em
140
crianças cuja idade varia
entre 1 e <16 anos da
cidade X e que vivem
em ambiente urbano
42
Lead concentration
Number of children
0-
2
0.4-
7
0.8-
10
1.2-
16
1.6-
23
2.0-
28
2.4
19
2.8-
16
3.2-
11
3.6-
7
2.4
19
2.8-
16
3.2-
11
3.6-
7
4.0-
1
4.4-
Total
140
3.2 Análise dos dados
Análise Estatística:
Figure 1.4 Histogram of data from table 1.4.
In Statistics at Square One
43
3.2 Análise dos dados
Análise Estatística:
Das 140 crianças, 20 vivem em casas com senhorios,
70 vivem em bairros sociais e 50 vivem em casas
alugadas.
O senso realizado sugere que para esta faixa etária,
50% vivem em casas com senhorios, 30% vivem em
bairros sociais, e 20% vivem em casas alugadas.
Passar os dados de frequências absolutas para
frequências relativas (%)
44
In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Figure 1.4. Bar chart of housing data for 140 children and comparable census data
45
In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Média
Table 1.3 Urinary concentration of lead in 16 rural children
(µmol/24h)
0.2, 0.3, 0.6, 0.7, 0.8, 1.5, 1.7, 1.8, 1.9, 1.9, 2.0, 2.0, 2.1, 2.8, 3.1,
3.4
(
x ) 24
∑
x=
=
= 1,5
n
46
Mediana= (1,8+1,9)/2 = 1,85
16
In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Figure 2.1 Normal curve calculated from diastolic blood pressures of 500 men, mean 82 mmHg,
standard deviation 10 mmHg.
47
In Statistics at Square One
3.2 Análise dos dados
Table 2.1 Calculation of standard deviation (para dados não agrupados)
Total
48
n= 15,
x
= l.5
(1)
Lead concentration
(2)
Differences from mean
(3)
Differences squared
(4) Observations in col (1)
ß squared
0.1
-1.4
1.96
0.01
0.4
-1.1
1.21
0.16
0.6
-0.9
0.81
0.36
0.8
-0.7
0.49
0.64
1.1
-0.4
0.16
1.21
1.2
-0.3
0.09
1.44
1.3
-0.2
0.04
1.69
1.5
0
0
2.25
1.7
0.2
0.04
2.89
1.9
0.4
0.16
3.61
1.9
0.4
0.16
3.61
2.0
0.5
0.25
4.00
2.2
0.7
0.49
4.84
2.6
1.1
1.21
6.76
3.2
1.7
2.89
10.24
22.5
0
9.96
43.71
3.2 Análise dos dados
Análise Estatística:
Dados não agrupados
=
49
In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Table 2.2 Calculation of the standard deviation from discrete data (dados agrupados)
(1)
Number of visits to
or by doctor
50
(2)
Number of
children
(3)
Col (2) x
Col (1)
(4)
Col (1)
squared
(5)
Col (2) x
Col (4)
0
2
0
0
0
1
8
8
1
8
2
27
54
4
108
3
45
135
9
405
4
38
152
16
608
5
15
75
25
375
6
4
24
36
144
7
1
7
49
49
Total
140
455
Mean number of visits = 455/140 = 3.25.
1697
3.2 Análise dos dados
Análise Estatística:
Dados agrupados
2
I.C.(95%) =
51
In Statistics at Square One
3.2 Análise dos dados
Análise Estatística:
Transformação de dados
Table 2.3 Results fom pain score on seven patients (mm)
Original scale:
1, 1, 2, 3, 3, 6, 56
Loge scale:
0, 0, 0.69, 1.10, 1.10, 1.79, 4.03
The mean and median are 10.29 and 2, respectively, for the original data, with a
standard deviation of 20.22. Where the mean is bigger than the median, the
distribution is positively skewed.
For the logged data the mean and median are 1.24 and 1.10 respectively,
indicating that the logged data have a more symmetrical distribution. Thus it
would be better to analyse the logged transformed data in statistical tests
than using the original scale.
52
In Statistics at Square One
3 – Tratamento da informação
3.3 Análise estatística
dos questionários
3.3 Análise estatística dos
questionários
Codificar as todas as variáveis
- Cada variável deve ser codificada com apenas uma designação
54
Variável
Variável (SPSS)
codificação
Nº de Identificação
ID
Numeração de cada questionário
sexo
sexo
1= homem
2= mulher
Idade
idade
Idade em anos
Estado civil
EC
1= solteiro
2= união de facto
3= casado
4= divorciado/separado
5= viúvo
Escala de optimismo
op1 a op6
Escolher número com cruz de 1 (totalmente em
desacordo) a 5 (totalmente de acordo)
In SPSS Survival Manual
3.3 Análise estatística dos
questionários
Codificar as todas as variáveis
- Codificar respostas fechadas
Distinguir:
- “Não sei” ou “Não tenho opinião” explicitamente formuladas
- As recusas a perguntas por achá-las indiscretas
- As recusas porque se considera a pergunta mal formulada
- Perguntas evitadas ou esquecidas
- Sem tempo para responder
- Codificar respostas abertas
55
Distinguir:
- “Não sei” ou “Não tenho opinião” explicitamente formuladas
- As recusas a perguntas por achá-las indiscretas
- As recusas porque se considera a pergunta mal formulada
- Perguntas evitadas ou esquecidas
- Sem tempo para responder
In SPSS Survival Manual
3.3 Análise estatística dos
questionários
- Não-respostas
- Sem opinião; “não sabe”; “outras respostas”
- A sua proporção pode ser muito significativa
- Pode estar associado à uma categoria (idade, classe social…)
Distinguir:
- “Não sei” ou “Não tenho opinião” explicitamente formuladas
- As recusas a perguntas por achá-las indiscretas
- As recusas porque se considera a pergunta mal formulada
- Perguntas evitadas ou esquecidas
- Sem tempo para responder
- Nos questionários coerentes, as recusas a uma pergunta devem
ser eventos raros
56In O inquérito
3.3 Análise estatística dos
questionários
- Não-respostas
Analisar as não-respostas
- Ver como elas se repartem pelas diferentes categorias, como é
que a sua frequência está ligada a outras informações recolhidas
no questionário pode apresentar interesse por si só.
- Pode ser indicador da atitude a respeito do problema, mas
também o que complica a interpretação, da atitude acerca do
inquérito e da relação do indivíduo com o entrevistador
57In O inquérito
3.3 Análise estatística dos
questionários
Medir uma atitude: possibilitar a ordenação de todos os
indivíduos estudados, conforme sejam ± favoráveis a um
determinado objecto ou tendência
Ex: 1 questão: 2 categorias
Grupo 1
Grupo 2
58
Q1
Interpretação
1
Favorável
0
Desfavorável
3.3 Análise estatística dos
questionários
Medir uma atitude: possibilitar a ordenação de todos os
indivíduos estudados, conforme sejam ± favoráveis a um
determinado objecto ou tendência
Ex: 2 questões: 3 categorias
59
Q1
Q2
Interpretação
Grupo 1
1
1
Favorável
Grupo 2
0
0
Desfavorável
Grupo 3
1
0
Intermédio
Grupo 4
0
1
Intermédio
3.3 Análise estatística dos
questionários
Principais variáveis clássicas
1) Triade sexo-idade-nível social
2) Nível social
- Agrupamento em categoria: rendimento, CSP, grau de instrução
- Cerca de 20% recusam-se a indicar o seu rendimento
3) Idade e geração
- Fenómenos de maturação e envelhecimento
- Sucessão das etapas do ciclo de vida
- Diferenças entre gerações
- Diferente mortalidade entre diversos grupos socias
4) Sexo
- Masculino
- Feminino
- Transexual
60
3.3 Análise estatística dos
questionários
Distribuições de frequência e estimativas de grandezas
- Para todos os valores de cada variável X (x1, x2,…, xn) indicamos
o nº de pessoas que apresentam esse valor
estimativa de grandezas (médias, proporções)
Erros de amostragem: estimar o seu intervalo de confiança
Proporção:
Média:
61
p ± 1 , 96
p (1 − p )
N
s2
x ± 1,96
N
3.3 Análise estatística dos
questionários
Relações binárias entre X e Y:
A) X implica Y (x é suficiente)
X, Y: presença
B) Y implica X (x é necessário)
X, Y: ausência
C) X e Y implicam reciprocamente
A
B
Y
Y
X
nxY
0
X
nXY
nXY
C
Y
Y
X
nxY
nXY
X
0
nXY
Y
Y
X
nxY
0
X
0
nXY
Determinar a presença de relação entre X e Y através do teste de qui-quadrado
Não distingue os 3 casos mas um valor significativo de qui-quadrado permitirá
rejeitá-la e, portanto, inferir a existência de uma relação, mas sem precisar qual
62
3.3 Análise estatística dos
questionários
Causalidade: empregar com cautela este termo uma vez que a
relação entre as variáveis não é observável (experimentalmente)
mas resulta de uma interpretação
X causa Y
Relação observada
Interpretação
A) X implica Y
X causa Y mas Y pode ter outras causas
B) Y implica X
Só X pode causar Y mas nem sempre o causa; deve ser
associado a outras variáveis para produzir Y
C) implicação recíproca entre X e Y
X causa sempre Y e X é a única causa possível de Y
A) e B) dão explicações aproximativas
C) dá explicações científica (relação simétrica)
63
3.3 Análise estatística dos
questionários
Relações entre 3 variáveis
Tabela de contigência (impossível para > 3 variáveis)
Objectivos principais:
- Pôr em evidência causalidades complexas, fazendo intervir
várias variáveis
- Eliminar a influência de outras variáveis, para pôr em
evidência a relação “verdadeira” entre as 2 que nos interessam
- Recriar a posteriori subamostras do mesmo tipo das que
teríamos em lab onde os factores susceptíveis de influenciar os
fenómenos estudados são tornados independentes ou distribuídos de
forma aleatória entre os grupos experimentais
64
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Interpretação das relações
X1
X2
…
Xn
Total
Y1
F11
F12
…
F1n
n (Y1)=f11
Y2
0
0
…
F2n
n (Y2)=f22
…
…
…
…
…
….
Yn
Fn1
Fn2
…
Fnn
n (Y1)=fnn
Se as % não forem iguais ou se afastarem demasiado da igualdade
então rejeitaremos a hipótese da independência e concluiremos que
existe uma relação
65
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Interpretação das relações
X1
X2
X3
Total
Y1
30
45
60
135
Y2
20
30
40
90
Total
50
75
100
225
Proporções: 30/20=1,5
45/30=1,5
60/40=1,5
135/90=1,5
66
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Independência entre X e Y
% Linha
X1
X2
X3
Total
Y1
60%
60%
60%
60%
Y2
40%
40%
40%
40%
Total
50=100%
75=100%
100=100%
225=100%
Se calcularmos as % em relação à soma de cada linha (%L)
compararemos as % de uma mesma coluna
67
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Independência entre X e Y
% Coluna
X1
X2
X3
Total
Y1
22,2%
33,3%
44,4%
135=100%
Y2
22,2%
33,3%
44,4%
90=100%
Total
22,2%
33,3%
44,4%
225=100%
Se calcularmos as % em relação à soma de cada coluna (%C)
compararemos as % de uma mesma linha
68
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Dimensão da amostra
Não podemos considerar da mesma forma a uma % a partir de
amostras de 40, 400 ou 400 pessoas
Nas tabelas devemos apresentar sempre que possível a frequência e
não a % ou pelo menos indicar as frequências mesmo que apareçam
as %
69
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Para medir a intensidade da relação entre 2 variáveis dicotómicas
(coeficientes)
ad − bc
Q=
ad + bc
Y
Y
X
a
b=0
X
c=0
d
Relação perfeita: Q=1
Independência: Q=0
Se X estiver associada a Y e X a Y: Q=1
Quando aumenta Q, a relação é cada vez mais forte
Q=1 quando b=c=0. Mas se bc=0 então Q=1 (basta que uma frequência seja 0)
70
3.3 Análise estatística dos
questionários
Leitura e representação das tabelas de contigência
Utilizaremos o teste qui-quadrado para frequências >5
Qui-quadrado mede a distância em relação à independência
Y
Y
X
100
50
X
50
100
1
Y
Y
X
10
5
X
5
10
2
χtab2 =
Q=
(100 × 100 ) − (50 × 50 ) 10000 − 25000
=
= 0,6
(100 × 100 ) + (50 × 50 )
12500
χ calc 2 = 33, 2
(10×10) − (5×5) 1000− 25
= 0,6
Q=
=
(10×10) + (5×5)
1025
χcalc2 = 3,32
Rejeitamos H0 para (1): existe relação entre X e Y
Não rejeitamos H0 para (2): não existe relação entre X e Y
71
3.3 Análise estatística dos
questionários
Interpretação
A intensidade da relação mantém-se ou seja o aumento do nº de
indivíduos aumenta a sensibilidade dum teste.
Relações fracas (na população) revelar-se-ão mais provavelmente
com uma amostra importante do que com uma amostra reduzida
No quadro 1 a relação foi confirmada 10x relativamente ao quadro 2
72
3.3 Análise estatística dos
questionários
Outra forma de demonstrar a relação entre 2 variáveis
O coeficiente de determinação (R2) é a medida da dispersão de nuvem
de pontos à volta de uma linha média (tanto mais elevada que a cada
valor de X correspondem valores de Y muito próximos)
0<R2<1
A um coeficiente de determinação elevado corresponde uma nuvem de
pontos pouco dispersos entre si e a recta
Interpretação: podemos dizer que existe uma associação entre a
variável X e a variável Y (sem que isso implique uma causa efeito entre
ambas)
Um coeficiente de determinação baixo permite supor a existência de
outros factores explicativos de Y
73
3.3 Análise estatística dos
questionários
Outra forma de demonstrar a relação entre 2 variáveis
Se as 2 variáveis forem quantitativas usa-se o coeficiente de
correlação de Pearson
Análise de regressão linear simples
Recta de regressão linear ajustada aos pontos observados: y= ax+b
74
3.3 Análise estatística dos
questionários
Outra forma de demonstrar a relação entre 2 variáveis
O coeficiente de correlação (R) de Pearson é a medida de força da
relação entre as variáveis
-1<R<1
A um coeficiente de correlação elevado corresponde uma relação entre
X e Y muito provável. Pelo contrário, a um coeficiente de correlação
baixo corresponde uma relação fraca entre X e Y
Se Y varia directamente em função de X então R=1
Se a variação de Y é inversamente proporcional a X então R=-1
Se R=0 existe ausência de correlação
75
Outliers: devem ser evitados porque afectam muito o resultado
final (em pequenas amostras). Ao elaborar o gráfico deve eliminar
os valores aberrantes
3.3 Análise estatística dos
questionários
Correlação de Pearson
Sub-grupos: restringir o intervalo de valores pode afectar o
resultado do coeficiente de Pearson
Correlação vs causalidade:
O facto de A pode estar associado a B; não implica que A cause B
Significância estatística vs significado prático:
Nem sempre um valor de r significante (r≤0,2) tem significado
prático. Tenha em conta os valores de r obtidos por outros
investigadores
76
JM1
Diapositivo 76
JM1
páginas 114-119, SPSS Survival Guide
Jorge Martins; 08-08-2006
3.3 Análise estatística dos
questionários
Correlação de Pearson (Assumptions)
Só é valido para variáveis intervalo/rácio; excepcionalmente pode
incluir-se uma variável independente dicotómica (mesmo nº de
casos)
As amostras são independentes; estudos que envolvem grupos
podem afectar seriamente o CP uma vez que existe interacção
entre os membros do grupo
A distribuição das variáveis deve ser normal (histogramas)
A relação entre as variáveis deve ser linear
A variabilidade entre A e B deve ser mantida (gráfico)
77
3.3 Análise estatística dos
questionários
Correlação de Pearson (Assumptions)
Segundo Cohen (1988)
0,10<r<0,29 baixa correlação
0,3<r<0,49 correlação média
0,5<r<1,0 elevada correlação
78
Download