Análise de Dados Classificação de variáveis O que é uma variável? – o que é observado ou medido Tipos de variáveis: – Categóricas: cada caso pode pertencer a apenas uma de várias categorias. Ordinais: se as categorias da variável têm uma ordem Nominais: se as categorias da variável não têm uma ordem – Contínuas: cada caso pode ter um valor númérico Discreta: pode tomar um número discretos de valores num determinado intervalo. Contínua: pode tomar um infinidade de valores num determinado intervalo Introdução de dados Recolha de dados: – Formulário ou questionário em papel ou electrónico – Um formulário ou questionário bem desenhado pode reduzir muito o trabalho de introdução – Todos os casos devem ter um identificador único Criação de variáveis Uma coluna - uma variável Uma linha - um caso SPSS SPSS = Statistical Package for Social Science Janelas: – Dados – Resultado – Sintaxe Codificação de variáveis É importante codificar as variáveis categóricas: – exemplo: sexo (1-feminino | 2-masculino) – casos omissos (9, 99, 999) ou não aplicáveis (8, 88, 888) Recodificação de variáveis Por vezes é necessário recodificar variáveis categóricas: – muitas categorias pouco frequentes – interesse para o estudo SPSS: Transform - Recode Criação de variáveis Por vezes é necessário criar variáveis novas a partir de outras: – somar vários items de uma escala – calcular o nº de dias usando datas – ... SPSS: Transform - Compute Verificação dos dados Erros de introdução de dados: dupla entrada Verificação - descrevendo os dados podemos verificar se: As variáveis categóricas têm códigos inexistentes? As variáveis contínuas têm valores fora do âmbito possível? As datas são todas possíveis? (ex: 31-02-2003) Há inconsistências entre as variáveis? Dados omissos – todos os dados omissos devem ser codificados como tal (ex: 9=não responde) Medidas de Sumário Medidas de posição: Média – soma de todos os valores sobre o nº de valores Mediana – ordenando os valores por ordem crescente é o valor do meio Outras medidas: moda Medida Vantagens Desvantagens Média Usa todos os dados Definida algebricamente Distorcida por valores extremos Distorcida por distribuições enviesadas Mediana Não é distorcida por valores extremos Não é distorcida por distribuições enviesadas Ignora muita informação Não definida algebricamente Quadro adaptado de: Medical Statistics at a Glance. Aviva Petrie and Caroline Sabin. Blackwell Science. 2000 Medidas de Sumário Medidas de dispersão: Âmbito – diferença entre o valor maior e menor Âmbito de percentis – ordenando os valores por ordem crescente e dividindo os valores em 100 pedaços, o valor que corresponde a x% das observações é o percentil x. Se dividir em 4 grupos iguais chamam-se quartis que correspondem ao percentil 25, 50 e 75. O âmbito interquartil é a diferença entre o percentil 25 e 75. Também se pode fazer o âmbito entre dois outros percentis. Variância – (xi-x)2/(n-1) Desvio padrão – raiz quadrada da variância Outras medidas: skewness and kurtosis Medidas de Sumário Medida Vantagens Desvantagens Âmbito Fácil de calcular Usa apenas dois valores Distorcido por valores extremos Âmbito de percentis Não é distorcida por valores extremos Não pode ser calculado para amostras pequenas Variância Usa todos os dados Definida algebricamente A unidade é o quadrado da unidade dos dados Sensível a valores extremos Não apropriada em distribuições enviesadas Desvio padrão Usa todos os dados Definida algebricamente Unidade é a mesma que a dos dados Fácil de interpretar Sensível a valores extremos Não apropriada em distribuições enviesadas Quadro adaptado de: Medical Statistics at a Glance. Aviva Petrie and Caroline Sabin. Blackwell Science. 2000 Descrição de variáveis Contínuas – Gráfico: histograma – Medidas: média, mediana, desvio padrão ou âmbito Categóricas – Gráfico: barras ou tarte – Medidas: frequências e percentagens SPSS: Analyse – Descriptive Satatistics - Frequencies Distribuições teóricas O que é uma distribuição de probabilidades? – Uma variável pode tomar qualquer valor dentro de um conjunto de valores com uma determinada probabilidade, uma distribuição de probabilidades mostra a probabilidade de todos os valores possíveis de uma variável Função densidade de probabilidade O eixo dos x representa os valores da variável e desenha-se a curva pela equação da distribuição A área total abaixo da curva representa a probabilidade de todos os valores possíveis =1 A probabilidade da variável assumir um valor entre dois possíveis é igual à área abaixo da curva entre esses dois valores. Distribuição normal - Completamente descrita por dois parâmetros (, ) - Em forma de sino - Simétrica para a média (média = mediana) Se o desvio padrão diminui a curva compacta-se mais a volta da média Distribuição normal Porque é a distribuição normal tão importante? – Muitos testes estatísticos assumem que os dados vêm de uma distribuição simétrica – A média e a variância não são dependentes – Muitos fenómenos naturais têm aproximadamente uma distribuição simétrica – Qualquer que seja a distribuição de uma variável se se fizerem várias amostras com o mesmo tamanho, a distribuição das médias destas amostras tende para uma distribuição normal com média igual á média da população e com desvio padrão igual ao da população a dividir pela raiz quadrada do tamanho das amostras. Outras distribuições t F Qui-quadrado Lognormal Binomial Poisson