3 – Tratamento da informação 3.1 Organização dos dados 3.1 Organização dos dados Recolha de dados Apreender, estruturar e dar sentido ao que é produzido através de observações e experimentações. Dados - Correspondem a um registo directo das observações, com pouca elaboração ou tratamento. - Representam razoavelmente os acontecimentos. 2 In Elementos da pesquisa cientíifca em Medicina 3.1 Organização dos dados Informação - É o resultado de uma organização, transformação e/ou análise de dados, ou seja, do seu tratamento de modo a produzir deduções. - Constitui uma leitura daquilo que o conjunto dos dados parece indicar. Conhecimento: - Argumentos e explicações que interpretam um conjunto de informações. - Trata-se de conceitos e raciocínios lógicos essencialmente abstractos que interligam e dão significado a fatos concretos. - Envolve hipóteses, teses, teorias e leis. 3 In Elementos da pesquisa cientíifca em Medicina 3.1 Organização dos dados O processo de construção de conhecimento científico envolve os dados, os quais representam a "matéria-prima" bruta, a partir dos quais as operações lógicas criam informações e, finalmente, estas últimas são interpretadas para gerar conhecimento. Fenómeno empírico 4 In Elementos da pesquisa cientíifca em Medicina Teoria 3.1 Organização dos dados - Os processos pelos quais os dados são transformados em informação envolvem a organização, transformação e análise dos dados através de procedimentos lógicos cujas ferramentas são as seguintes: 1. Indicadores Matemáticos: - São produzidos pelo agrupamento e combinação de variáveis de modo a produzir a partir delas uma nova variável que possui um significado de interesse. - Geralmente, algébricas. 5 são apresentados através de expressões In Elementos da pesquisa cientíifca em Medicina 3.1 Organização dos dados 2. Análise Estatística: - Envolve o resumo dos dados recolhidos, a identificação da existência ou não de relações entre as variáveis, a explicitação da natureza de uma relação porventura existente entre determinadas variáveis, o estudo de tendências e o cálculo do grau de precisão dos resultados. - A informação produzida por análise estatística permite resumir achados, identificar/caracterizar relações e realizar previsões. 6 In Elementos da pesquisa cientíifca em Medicina 3.1 Organização dos dados 3. Modelação Matemática: - Consiste na proposição de um conjunto de equações que reflectem as relações e interacções entre as variáveis envolvidas num dado fenómeno. - Isso pode ser feito tanto a priori, ou seja, por puro raciocínio lógico, quanto a posteriori, isto é, por análise estatística de dados recolhidos. 7 In Elementos da pesquisa cientíifca em Medicina 3 – Tratamento da informação 3.2 Análise dos dados 3.2 Análise dos dados Análise Estatística 9 • Estatística Descritiva • Estatística inferencial • Distribuição t de Student e testes de Hipóteses • One Way Analysis of Variance (ANOVA) • Testes não paramétricos • Tabelas de Contigência e Testes de Qui-Quadrado • Correlação e Regressão • Modelos de Regressão • Regressão logística • Análise de Sobrevida 3.2 Análise dos dados Análise Estatística Medição: Conjunto de operações que têm por objectivo determinar o valor de uma grandeza Mesuranda: Grandeza particular submetida à medida Incerteza da medição: Parâmetro associado ao resultado da medição, que caracteriza a dispersão dos valores que podem ser razoavelmente atribuídos à mensuranda erro da medição: Diferença algébrica entre o resultado da medição e o valor verdadeiro da mensuranda 10In Vocabulário Internacional de Metrologia 3.2 Análise dos dados Análise Estatística: Qualquer tipo de medição, estimativa ou previsão está sempre envolvido por uma determinada quantidade de erro Incerteza A incerteza está associada a dois conceitos: - PRECISÃO - EXACTIDÃO 11 In Elementos da pesquisa cientíifca em Medicina 3.2 Análise dos dados Análise Estatística - EXACTIDÃO Aproximação entre o resultado da medição e o valor verdadeiro da mensuranda In Vocabulário Internacional de Metrologia - PRECISÃO Dispersão dos valores em relação ao valor verdadeiro da mensurando Valor verdadeiro incerteza 12 resultado 3.2 Análise dos dados alta baixa - EXACTIDÃO Análise Estatística baixa - PRECISÃO 13 alta 3.2 Análise dos dados Análise Estatística: A avaliação do valor de uma estimativa qualquer depende de uma verificação da capacidade dessa avaliação de se direccionar especificamente ao objectivo desejado (Exactidão) e de apresentar uma margem de erro pequena (Precisão). 14 In Elementos da pesquisa cientíifca em Medicina 3.2 Análise dos dados Análise Estatística: Critérios para escolha do teste estatístico Inúmeros testes e técnicas estatísticos desorientação inicial parâmetros básicos dos dados a serem analisados 15 In Elementos da pesquisa cientíifca em Medicina 3.2 Análise dos dados Análise Estatística: Critérios para escolha do teste estatístico Estatística descritiva Estudo de características não uniformes não uniformes das unidades observadas ou experimentadas. Utiliza-se para descrever os dados através de indicadores (média, moda, desvio padrão) Estatística indutiva Permite, com base nos elementos observados ou experimentados, tirar conclusões para um domínio mais vasto de onde provieram esses dados 16 In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Critérios para escolha do teste estatístico Estatística indutiva (continuação) As inferências que requerem o conhecimento das probabilidades, são feitas através de intervalos de confiança e de testes estatísticos paramétricos ou não paramétricos, aplicados a amostras aleatórias 17In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Critérios para escolha do teste estatístico Table 1.1 Examples of types of data Quantitative Continuous Discrete Blood pressure, height, weight, age Number of children Number of attacks of asthma per week Categorical 18 Ordinal (Ordered categories) Nominal (Unordered categories) Grade of breast cancer Better, same, worse Disagree, neutral, agree Sex (male/female) Alive or dead Blood group O, A, B, AB In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Critérios para escolha do teste estatístico Análise univariada e multivariada A análise pode ser univariada, bivariada ou multivariada consoante o nº de variáveis tratadas em simultâneo. 19 - Análise univariada: Cada variável é tratada independentemente - Análise bivariada: Estabelecem-se relações entre 2 variáveis - Análise multivariada: Estabelecem-se relações entre + de 2 variáveis In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Critérios para escolha do teste estatístico Relação entre variáveis Amostras independentes: 20 Comparações de dois ou mais grupos de sujeitos, cujas observações são independentes umas das outras. In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Relação entre variáveis – AMOSTRAS INDEPENDENTES ESCALAS NOMINAL Qui-quadrado F-Fisher rácio de produtos cruzados (Odds Ratio) Anacor Homals ORDINAL Qui-quadrado Kolmogorov-Smirnov Mann Whitney Kruskall-Wallis Princals (iguais aos da 2ª linha e 1ª coluna) Eta Análise da variância Análise da covariância Manova e Mancova Análise de clusters Análise discriminante ORDINAL Eta Testes t Análise da variância Análise da covariância Manova e Mancova Análise de clusters Análise discriminante NOMINAL INTERVALO/RÁCIO Kappa de Cohen Princals R Spearman R Pearson, R Spearman, correlações parciais Análise factorial Regressão Path analysis INTERVALO/ /RÁCIO 21 (iguais aos da 1ª linha e 3ª coluna) (iguais aos da 2ª linha e 3ª coluna) Ex: Comparação de insucesso escolar em duas turmas do mesmo professor 3.2 Análise dos dados Relação entre variáveis – AMOSTRAS EMPARELHADAS Comparam o mesmo grupo de sujeitos em diferentes condições ou tratamentos. 1 variável indepenmdente 2 ou mais variáveis independentes ESCALAS 2 condições 3 ou mais condições NOMINAL McNemar Q de Cochran ORDINAL Sinal Friedman INTERVALO/ /RÁCIO Wilcoxon Teste t 2 ou mais condições GLM Repeated Measures Manova – factors with subject Ex: Avaliação duma doença antes e depois da terapia 22 3.2 Análise dos dados Uma variável – AMOSTRAS INDEPENDENTES ESCALAS NOMINAL ORDINAL 23 NOMINAL Aderência do Qui-quadrado Binomial Aderência de Kolmov-Smirnov 3.2 Análise dos dados Análise univariada: estatísticas mais úteis Escala nominal Escala ordinal Escala intervalo/rácio Moda estatística de ordem Amplitude inter-quartis Amplitude total Média Média aparada a 5% Desvio padrão Coeficiente de variação MAD Enviesamento e curtose 24 Moda Moda Estatística de ordem In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: Representação gráfica A representação gráfica permite visualizar o comportamento da variável e identificar as observações aberrantes ou outliers, que tendem a distorcer a média e o desvio padrão Gráfico de barras: representação gráfica de variáveis qualitativas ou quantitativas discretas, onde se indica no eixo vertical as respectivas frequências e no eixo horizontal as modalidades ou valores das variáveis. Cada valor é representado por um traço ou barra vertical de igual altura à respectiva frequência 25 In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: Representação gráfica Histograma: representação gráfica de variáveis quantitativas contínuas, onde se indica no eixo vertical as respectivas frequências por unidade de classe e no eixo horizontal os valores ou intensidade da variável. O histograma é um gráfico de barras adjacentes, representando a área de cada barra a frequência absoluta ou relativa da classe a que respeita. No caso das classes terem amplitudes diferentes, no eixo vertical representa-se por F i , ai = amplitude de cada classe a i In Análise de Dados para Ciências Sociais 26 3.2 Análise dos dados Análise Estatística: Análise univariada: Representação gráfica In Análise de Dados para Ciências Sociais 27 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de localização e de tendência central Média aritmética ∑x ×F i i i é muito sensível a outliers n Mediana - Se n for ímpar, n= 2k+1, em que k é a incógnita da igualidade, a mediana é o valor xk+1 - Se n for par, n= 2k, a mediana é indeterminada, podendo ser qualquer valor entre xk e xk+1. In Análise de Dados para Ciências Sociais 28 Me = X k + X k +1 2 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de localização e de tendência central Moda Valor com maior frequência Média aparada a 5% Dispõem-se as observações por ordem crescente, seguida da eliminação de 5% das maiores e das menores observações, fazendo uma média aritmética das restantes. Trata-se de um parâmetro estatístico robusto. In Análise de Dados para Ciências Sociais 29 3.2 Análise dos dados Análise Estatística: Valores aberrantes ou outliers São observações aberrantes que podem existir numa distribuição de frequências e classificam-se como severos ou moderados consoante o seu afastamento em relação às outras observações seja mais ou menos pronunciado. Outliers moderados: - Q1-3aQ<xi<Q1-1,5aQ xi é a observação i aQ Outliers severos: é a amplitude inter-quartil=Q3-Q1 xi≤Q1-3aQ In Análise de Dados para Ciências Sociais 30 ou xi≥Q3+3aQ 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de dispersão Variância ∑ (x − x) 2 i 2 Dados não classificados s = Dados classificados i n ∑ (x − x) i s2 = i n 2 × Fi = ∑ ( xi − x ) 2 × f i i Quando n é pequeno (n≤30) o denominador da variância vem dividido por n-1 designando-se a nova variância por variância corrigida. 31In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de dispersão Desvio padrão ∑ (x − x) 2 i Dados classificados e n<30 s' = n −1 i s' = (1) i ∑ (x − x) Dados classificados e n≥30 × Fi i n 2 × Fi = ∑ (x − x) i 2 × fi i (1) Desvio padrão corrigido Quanto menos dispersos estiverem os valores da variável relativamente à média, menor será o desvio padrão. 32In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de dispersão Estimativa do erro amostral ou erro padrão Quantifica a variabilidade da média aritmética EP = s n O cálculo do erro padrão permite a construção de intervalos de confiança sobre o valor da média (µ) na população: Média ± t0,975 (df) x EP ; (p=0,05); (df) =ν = ∞ Deste modo pode dizer-se com 95% de confiança que a média populacional (µ) se situa entre ]x − 1,96 × EP; x + 1,96 × EP[ 33In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de dispersão Coeficiente de dispersão ou covariância Dados classificados e n<30 Dados classificados e n≥30 s' s' Cd = x s Cd = x Quanto menor o valor de Cd mais regular é a distribuição da variável. Este parâmetro é muito sensível aos outliers 34In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: Medidas de dispersão MAD-mediana dos desvios absolutos em relação à mediana 1- Calcula-se a mediana das observações 2- Subtrai-se a mediana a cada observação 3- Ordenam-se as observações e calcula-se de novo a mediana (MAD) Este parâmetro é semelhante ao Cd mas é estatisticamente mais robusto 35In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: medida de assimetria (SPSS) É dado pelo quociente entre a skewnness (g1) e o EP (g1) g1 = 6n(n − 1) (n − 2)(n + 1)(n + 3) Assimétrica negativa < -2 Não rejeitar assimetria -2 0 2 Assimétrica positiva >2 n∑ Fi ( xi − x )3 EP g1 = i (n − 1)(n − 2) s 3 Este quociente é usado para não rejeitar a simetria, o que acontece se o seu resultado for menor que 1,96 (ou aproximadamente 2 ) em valor absoluto 36In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: Análise univariada: medida achatamento ou curtose (SPSS) É dado pelo quociente entre a curtose e o EP Curva platicúrtica Curva Mesocúrtica Curva Leptocúrtica < -1,96 (≈ -2) 1,96 (≈2) > 1,96 (≈2) 37In Análise de Dados para Ciências Sociais 3.2 Análise dos dados Análise Estatística: 38 3.2 Análise dos dados Análise Estatística: Exemplo: Num estudo de “matched” caso controlo, fez-se a análise à urina de 16 crianças que vivem em ambiente rural e 16 que vivem em ambiente urbano, “matched” para o sexo e para a idade Table 1.3 Urinary concentration of lead in 16 rural children (µmol/24h) 0.2, 0.3, 0.6, 0.7, 0.8, 1.5, 1.7, 1.8, 1.9, 1.9, 2.0, 2.0, 2.1, 2.8, 3.1, 3.4 In Statistics at Square One 39 3.2 Análise dos dados Análise Estatística: Figure 1.3 Dot plot of urinary lead concentrations for urban and rural children from table 1.3. In Statistics at Square One 40 3.2 Análise dos dados Análise Estatística: Figure 1.4 Box-whisker plot (box-plot) of data Máximo 50% amostra caixa de bigodes 3º interquartil Mediana 1º interquaril Mínimo 41In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Table 1.4 Lead concentration in 140 urban children Concentração de chumbo em 140 crianças cuja idade varia entre 1 e <16 anos da cidade X e que vivem em ambiente urbano 42 Lead concentration Number of children 0- 2 0.4- 7 0.8- 10 1.2- 16 1.6- 23 2.0- 28 2.4 19 2.8- 16 3.2- 11 3.6- 7 2.4 19 2.8- 16 3.2- 11 3.6- 7 4.0- 1 4.4- Total 140 3.2 Análise dos dados Análise Estatística: Figure 1.4 Histogram of data from table 1.4. In Statistics at Square One 43 3.2 Análise dos dados Análise Estatística: Das 140 crianças, 20 vivem em casas com senhorios, 70 vivem em bairros sociais e 50 vivem em casas alugadas. O senso realizado sugere que para esta faixa etária, 50% vivem em casas com senhorios, 30% vivem em bairros sociais, e 20% vivem em casas alugadas. Passar os dados de frequências absolutas para frequências relativas (%) 44 In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Figure 1.4. Bar chart of housing data for 140 children and comparable census data 45 In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Média Table 1.3 Urinary concentration of lead in 16 rural children (µmol/24h) 0.2, 0.3, 0.6, 0.7, 0.8, 1.5, 1.7, 1.8, 1.9, 1.9, 2.0, 2.0, 2.1, 2.8, 3.1, 3.4 ( x ) 24 ∑ x= = = 1,5 n 46 Mediana= (1,8+1,9)/2 = 1,85 16 In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Figure 2.1 Normal curve calculated from diastolic blood pressures of 500 men, mean 82 mmHg, standard deviation 10 mmHg. 47 In Statistics at Square One 3.2 Análise dos dados Table 2.1 Calculation of standard deviation (para dados não agrupados) Total 48 n= 15, x = l.5 (1) Lead concentration (2) Differences from mean (3) Differences squared (4) Observations in col (1) ß squared 0.1 -1.4 1.96 0.01 0.4 -1.1 1.21 0.16 0.6 -0.9 0.81 0.36 0.8 -0.7 0.49 0.64 1.1 -0.4 0.16 1.21 1.2 -0.3 0.09 1.44 1.3 -0.2 0.04 1.69 1.5 0 0 2.25 1.7 0.2 0.04 2.89 1.9 0.4 0.16 3.61 1.9 0.4 0.16 3.61 2.0 0.5 0.25 4.00 2.2 0.7 0.49 4.84 2.6 1.1 1.21 6.76 3.2 1.7 2.89 10.24 22.5 0 9.96 43.71 3.2 Análise dos dados Análise Estatística: Dados não agrupados = 49 In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Table 2.2 Calculation of the standard deviation from discrete data (dados agrupados) (1) Number of visits to or by doctor 50 (2) Number of children (3) Col (2) x Col (1) (4) Col (1) squared (5) Col (2) x Col (4) 0 2 0 0 0 1 8 8 1 8 2 27 54 4 108 3 45 135 9 405 4 38 152 16 608 5 15 75 25 375 6 4 24 36 144 7 1 7 49 49 Total 140 455 Mean number of visits = 455/140 = 3.25. 1697 3.2 Análise dos dados Análise Estatística: Dados agrupados 2 I.C.(95%) = 51 In Statistics at Square One 3.2 Análise dos dados Análise Estatística: Transformação de dados Table 2.3 Results fom pain score on seven patients (mm) Original scale: 1, 1, 2, 3, 3, 6, 56 Loge scale: 0, 0, 0.69, 1.10, 1.10, 1.79, 4.03 The mean and median are 10.29 and 2, respectively, for the original data, with a standard deviation of 20.22. Where the mean is bigger than the median, the distribution is positively skewed. For the logged data the mean and median are 1.24 and 1.10 respectively, indicating that the logged data have a more symmetrical distribution. Thus it would be better to analyse the logged transformed data in statistical tests than using the original scale. 52 In Statistics at Square One 3 – Tratamento da informação 3.3 Análise estatística dos questionários 3.3 Análise estatística dos questionários Codificar as todas as variáveis - Cada variável deve ser codificada com apenas uma designação 54 Variável Variável (SPSS) codificação Nº de Identificação ID Numeração de cada questionário sexo sexo 1= homem 2= mulher Idade idade Idade em anos Estado civil EC 1= solteiro 2= união de facto 3= casado 4= divorciado/separado 5= viúvo Escala de optimismo op1 a op6 Escolher número com cruz de 1 (totalmente em desacordo) a 5 (totalmente de acordo) In SPSS Survival Manual 3.3 Análise estatística dos questionários Codificar as todas as variáveis - Codificar respostas fechadas Distinguir: - “Não sei” ou “Não tenho opinião” explicitamente formuladas - As recusas a perguntas por achá-las indiscretas - As recusas porque se considera a pergunta mal formulada - Perguntas evitadas ou esquecidas - Sem tempo para responder - Codificar respostas abertas 55 Distinguir: - “Não sei” ou “Não tenho opinião” explicitamente formuladas - As recusas a perguntas por achá-las indiscretas - As recusas porque se considera a pergunta mal formulada - Perguntas evitadas ou esquecidas - Sem tempo para responder In SPSS Survival Manual 3.3 Análise estatística dos questionários - Não-respostas - Sem opinião; “não sabe”; “outras respostas” - A sua proporção pode ser muito significativa - Pode estar associado à uma categoria (idade, classe social…) Distinguir: - “Não sei” ou “Não tenho opinião” explicitamente formuladas - As recusas a perguntas por achá-las indiscretas - As recusas porque se considera a pergunta mal formulada - Perguntas evitadas ou esquecidas - Sem tempo para responder - Nos questionários coerentes, as recusas a uma pergunta devem ser eventos raros 56In O inquérito 3.3 Análise estatística dos questionários - Não-respostas Analisar as não-respostas - Ver como elas se repartem pelas diferentes categorias, como é que a sua frequência está ligada a outras informações recolhidas no questionário pode apresentar interesse por si só. - Pode ser indicador da atitude a respeito do problema, mas também o que complica a interpretação, da atitude acerca do inquérito e da relação do indivíduo com o entrevistador 57In O inquérito 3.3 Análise estatística dos questionários Medir uma atitude: possibilitar a ordenação de todos os indivíduos estudados, conforme sejam ± favoráveis a um determinado objecto ou tendência Ex: 1 questão: 2 categorias Grupo 1 Grupo 2 58 Q1 Interpretação 1 Favorável 0 Desfavorável 3.3 Análise estatística dos questionários Medir uma atitude: possibilitar a ordenação de todos os indivíduos estudados, conforme sejam ± favoráveis a um determinado objecto ou tendência Ex: 2 questões: 3 categorias 59 Q1 Q2 Interpretação Grupo 1 1 1 Favorável Grupo 2 0 0 Desfavorável Grupo 3 1 0 Intermédio Grupo 4 0 1 Intermédio 3.3 Análise estatística dos questionários Principais variáveis clássicas 1) Triade sexo-idade-nível social 2) Nível social - Agrupamento em categoria: rendimento, CSP, grau de instrução - Cerca de 20% recusam-se a indicar o seu rendimento 3) Idade e geração - Fenómenos de maturação e envelhecimento - Sucessão das etapas do ciclo de vida - Diferenças entre gerações - Diferente mortalidade entre diversos grupos socias 4) Sexo - Masculino - Feminino - Transexual 60 3.3 Análise estatística dos questionários Distribuições de frequência e estimativas de grandezas - Para todos os valores de cada variável X (x1, x2,…, xn) indicamos o nº de pessoas que apresentam esse valor estimativa de grandezas (médias, proporções) Erros de amostragem: estimar o seu intervalo de confiança Proporção: Média: 61 p ± 1 , 96 p (1 − p ) N s2 x ± 1,96 N 3.3 Análise estatística dos questionários Relações binárias entre X e Y: A) X implica Y (x é suficiente) X, Y: presença B) Y implica X (x é necessário) X, Y: ausência C) X e Y implicam reciprocamente A B Y Y X nxY 0 X nXY nXY C Y Y X nxY nXY X 0 nXY Y Y X nxY 0 X 0 nXY Determinar a presença de relação entre X e Y através do teste de qui-quadrado Não distingue os 3 casos mas um valor significativo de qui-quadrado permitirá rejeitá-la e, portanto, inferir a existência de uma relação, mas sem precisar qual 62 3.3 Análise estatística dos questionários Causalidade: empregar com cautela este termo uma vez que a relação entre as variáveis não é observável (experimentalmente) mas resulta de uma interpretação X causa Y Relação observada Interpretação A) X implica Y X causa Y mas Y pode ter outras causas B) Y implica X Só X pode causar Y mas nem sempre o causa; deve ser associado a outras variáveis para produzir Y C) implicação recíproca entre X e Y X causa sempre Y e X é a única causa possível de Y A) e B) dão explicações aproximativas C) dá explicações científica (relação simétrica) 63 3.3 Análise estatística dos questionários Relações entre 3 variáveis Tabela de contigência (impossível para > 3 variáveis) Objectivos principais: - Pôr em evidência causalidades complexas, fazendo intervir várias variáveis - Eliminar a influência de outras variáveis, para pôr em evidência a relação “verdadeira” entre as 2 que nos interessam - Recriar a posteriori subamostras do mesmo tipo das que teríamos em lab onde os factores susceptíveis de influenciar os fenómenos estudados são tornados independentes ou distribuídos de forma aleatória entre os grupos experimentais 64 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Interpretação das relações X1 X2 … Xn Total Y1 F11 F12 … F1n n (Y1)=f11 Y2 0 0 … F2n n (Y2)=f22 … … … … … …. Yn Fn1 Fn2 … Fnn n (Y1)=fnn Se as % não forem iguais ou se afastarem demasiado da igualdade então rejeitaremos a hipótese da independência e concluiremos que existe uma relação 65 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Interpretação das relações X1 X2 X3 Total Y1 30 45 60 135 Y2 20 30 40 90 Total 50 75 100 225 Proporções: 30/20=1,5 45/30=1,5 60/40=1,5 135/90=1,5 66 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Independência entre X e Y % Linha X1 X2 X3 Total Y1 60% 60% 60% 60% Y2 40% 40% 40% 40% Total 50=100% 75=100% 100=100% 225=100% Se calcularmos as % em relação à soma de cada linha (%L) compararemos as % de uma mesma coluna 67 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Independência entre X e Y % Coluna X1 X2 X3 Total Y1 22,2% 33,3% 44,4% 135=100% Y2 22,2% 33,3% 44,4% 90=100% Total 22,2% 33,3% 44,4% 225=100% Se calcularmos as % em relação à soma de cada coluna (%C) compararemos as % de uma mesma linha 68 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Dimensão da amostra Não podemos considerar da mesma forma a uma % a partir de amostras de 40, 400 ou 400 pessoas Nas tabelas devemos apresentar sempre que possível a frequência e não a % ou pelo menos indicar as frequências mesmo que apareçam as % 69 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Para medir a intensidade da relação entre 2 variáveis dicotómicas (coeficientes) ad − bc Q= ad + bc Y Y X a b=0 X c=0 d Relação perfeita: Q=1 Independência: Q=0 Se X estiver associada a Y e X a Y: Q=1 Quando aumenta Q, a relação é cada vez mais forte Q=1 quando b=c=0. Mas se bc=0 então Q=1 (basta que uma frequência seja 0) 70 3.3 Análise estatística dos questionários Leitura e representação das tabelas de contigência Utilizaremos o teste qui-quadrado para frequências >5 Qui-quadrado mede a distância em relação à independência Y Y X 100 50 X 50 100 1 Y Y X 10 5 X 5 10 2 χtab2 = Q= (100 × 100 ) − (50 × 50 ) 10000 − 25000 = = 0,6 (100 × 100 ) + (50 × 50 ) 12500 χ calc 2 = 33, 2 (10×10) − (5×5) 1000− 25 = 0,6 Q= = (10×10) + (5×5) 1025 χcalc2 = 3,32 Rejeitamos H0 para (1): existe relação entre X e Y Não rejeitamos H0 para (2): não existe relação entre X e Y 71 3.3 Análise estatística dos questionários Interpretação A intensidade da relação mantém-se ou seja o aumento do nº de indivíduos aumenta a sensibilidade dum teste. Relações fracas (na população) revelar-se-ão mais provavelmente com uma amostra importante do que com uma amostra reduzida No quadro 1 a relação foi confirmada 10x relativamente ao quadro 2 72 3.3 Análise estatística dos questionários Outra forma de demonstrar a relação entre 2 variáveis O coeficiente de determinação (R2) é a medida da dispersão de nuvem de pontos à volta de uma linha média (tanto mais elevada que a cada valor de X correspondem valores de Y muito próximos) 0<R2<1 A um coeficiente de determinação elevado corresponde uma nuvem de pontos pouco dispersos entre si e a recta Interpretação: podemos dizer que existe uma associação entre a variável X e a variável Y (sem que isso implique uma causa efeito entre ambas) Um coeficiente de determinação baixo permite supor a existência de outros factores explicativos de Y 73 3.3 Análise estatística dos questionários Outra forma de demonstrar a relação entre 2 variáveis Se as 2 variáveis forem quantitativas usa-se o coeficiente de correlação de Pearson Análise de regressão linear simples Recta de regressão linear ajustada aos pontos observados: y= ax+b 74 3.3 Análise estatística dos questionários Outra forma de demonstrar a relação entre 2 variáveis O coeficiente de correlação (R) de Pearson é a medida de força da relação entre as variáveis -1<R<1 A um coeficiente de correlação elevado corresponde uma relação entre X e Y muito provável. Pelo contrário, a um coeficiente de correlação baixo corresponde uma relação fraca entre X e Y Se Y varia directamente em função de X então R=1 Se a variação de Y é inversamente proporcional a X então R=-1 Se R=0 existe ausência de correlação 75 Outliers: devem ser evitados porque afectam muito o resultado final (em pequenas amostras). Ao elaborar o gráfico deve eliminar os valores aberrantes 3.3 Análise estatística dos questionários Correlação de Pearson Sub-grupos: restringir o intervalo de valores pode afectar o resultado do coeficiente de Pearson Correlação vs causalidade: O facto de A pode estar associado a B; não implica que A cause B Significância estatística vs significado prático: Nem sempre um valor de r significante (r≤0,2) tem significado prático. Tenha em conta os valores de r obtidos por outros investigadores 76 JM1 Diapositivo 76 JM1 páginas 114-119, SPSS Survival Guide Jorge Martins; 08-08-2006 3.3 Análise estatística dos questionários Correlação de Pearson (Assumptions) Só é valido para variáveis intervalo/rácio; excepcionalmente pode incluir-se uma variável independente dicotómica (mesmo nº de casos) As amostras são independentes; estudos que envolvem grupos podem afectar seriamente o CP uma vez que existe interacção entre os membros do grupo A distribuição das variáveis deve ser normal (histogramas) A relação entre as variáveis deve ser linear A variabilidade entre A e B deve ser mantida (gráfico) 77 3.3 Análise estatística dos questionários Correlação de Pearson (Assumptions) Segundo Cohen (1988) 0,10<r<0,29 baixa correlação 0,3<r<0,49 correlação média 0,5<r<1,0 elevada correlação 78