Estatística / Bioestatística / Slide 0 Métodos Estatísticos / Bioestatística e Epistemologia da Investigação Ana M. Abreu - 2006/07 Capítulo 1 Estatística Descritiva Slide 1 I-1 Introdução à organização e ao processamento de dados. I-2 Amostra e população; cuidados a ter na recolha da amostra. I-3 Ordenação dos dados. Agrupamento dos dados. Tabela de frequências. I-4 Medidas de localização e de dispersão. I-5 Representação gráfica dos dados: gráfico de barras, gráfico de sectores, gráfico de caule-efolhas, caixa-de-bigodes, histograma. Ana M. Abreu - 2006/07 Introdução Slide 2 Um objectivo comum dos inquéritos e de outros processos de obtenção de dados é a recolha de informação de uma parte de um grupo maior, de modo a aprender algo sobre o grupo maior. Por exemplo, podemos perguntar a 10% dos alunos qual a sua nota de entrada na Universidade e assim ter alguma informação sobre a totalidade dos alunos. Ana M. Abreu - 2006/07 Definições Slide 3 Dados estatísticos são observações (como medidas, respostas de inquéritos, registos de idade, sexo, naturalidade, ...) que foram recolhidas. Estatística a informação estatística é constituída por dados, os quais são organizados, sumariados, apresentados, analizados, interpretados de modo a retirar conclusões baseadas nos dados. Ana M. Abreu - 2006/07 Definições Slide 4 População a colecção completa de todos os elementos (pessoas, animais, medidas, ...) a serem estudados. A colecção é completa no sentido de incluir todos os indivíduos a serem estudados. Amostra Um subconjunto da população escolhido correctamente, de modo a poder ser considerado como representativo da população. Ana M. Abreu - 2006/07 Definições Slide 5 Parâmetro uma medida numérica que descreve alguma característica de uma população. população parâmetro Ana M. Abreu - 2006/07 Definições Slide 6 Estatística uma medida numérica que descreve alguma característica de uma amostra. amostra estatística Ana M. Abreu - 2006/07 Definições Slide 7 Dados quantitativos números que representam contagens ou medidas. Exemplo: medidas dos modelos! Ana M. Abreu - 2006/07 Definições Slide 8 Dados qualitativos (ou categorizados ou atributos) podem ser separados em diferentes categorias, que se distinguem por alguma característica não numérica. Exemplo: sexo (masculino/feminino) dos doentes. Ana M. Abreu - 2006/07 Definições Slide 9 Os dados quantitativos podem ser de tipo discreto ou contínuo. Dados discretos surgem quando o número de valores possíveis é finito ou contável. 0, 1, 2, 3, . . . Exemplo: O número de ovos que uma galinha põe. Ana M. Abreu - 2006/07 Definições Slide 10 Dados contínuos (ou numéricos) surgem quando o número de valores possíveis é infinito e corresponde a alguma escala contínua que contempla uma amplitude de valores sem interrupções ou saltos. 2 Exemplo: As alturas dos alunos da UMa. Ana M. Abreu - 2006/07 3 Definições Slide 11 Outra forma de classificar os dados consiste em usar escalas. escala nominal caracterizada por dados tais como nomes, etiquetas ou categorias. Os dados não têm qualquer relação de ordem (do mais pequeno para o maior) Exemplo: inquéritos cujas respostas são sim, não, sem opinião. Ana M. Abreu - 2006/07 Definições Slide 12 escala ordinal envolve dados que podem ser ordenados, mas as diferenças entre eles ou não podem ser calculadas ou não fazem sentido. Exemplo: O nível de escolaridade. Ana M. Abreu - 2006/07 Definições Slide 13 escala intervalar como a escala ordinal, mas onde é possível calcular diferenças. No entanto, não existe um zero natural (que pudesse corresponder a ausência da característica). Exemplo: As temperaturas em graus Celsius e em graus Fahrenheit (ºF=ºC(9/5)+32). Ana M. Abreu - 2006/07 Definições Slide 14 escala absoluta ou de razões o zero da escala corresponde à anulação da característica em estudo. São possíveis comparações quer através de diferenças quer através de quocientes. Exemplo: Preço das propinas (0€ representa ausência de custo). Ana M. Abreu - 2006/07 Resumo Escalas para os dados Slide 15 Nominal - só categorias. Ordinal - categorias com alguma ordem. Intervalar - diferenças possíveis mas sem zero natural. Absoluta ou de razões - diferenças possíveis e com zero natural. Ana M. Abreu - 2006/07 Recapitulando Slide 16 Até agora vimos: Definições e termos básicos para descrever os dados Parâmetros versus estatísticas Tipos de dados (quantitativos e qualitativos) Escalas de medidas Ana M. Abreu - 2006/07 Cuidados a ter na recolha da amostra Ana M. Abreu - 2006/07 Slide 17 Pontos fundamentais Slide 18 Se uma amostra não é recolhida de forma apropriada, os dados podem ser tão inúteis, tal que, qualquer que seja a tortura a que sejam submetidos, não confessam seja o que for. Tipicamente a aleatoriedade tem um papel importante na recolha de dados. Ana M. Abreu - 2006/07 Pontos fundamentais Slide 19 Dimensão da amostra usar uma amostra com dimensão suficiente para conseguir captar as características dos dados e recolhida de forma apropriada, tal como baseada na aleatoriedade. Ana M. Abreu - 2006/07 Definições Slide 20 Amostra Aleatória os membros da população são seleccionados de tal forma que cada membro tem igual possibilidade de ser escolhido. Amostra Aleatória Simples (de dimensão n) os indivíduos são seleccionados de tal forma que cada possível amostra de dimensão n tem a mesma possibilidade de ser escolhida. Ana M. Abreu - 2006/07 Amostra Aleatória Slide 21 Selecção tal que cada um tem igual possibilidade de ser escolhido. Ana M. Abreu - 2006/07 Amostragem Sistemática Slide 22 Seleccionar a partir de um ponto inicial e depois seleccionar a cada K elemento na população. Ana M. Abreu - 2006/07 Slide 23 Amostragem por conveniência Usar os resultados que são fáceis de obter. Ana M. Abreu - 2006/07 Amostragem Estratificada Slide 24 subdividir a população em, pelo menos, dois subgrupos distintos que partilham alguma característica e, em seguida, recolher uma amostra de cada um dos subgrupos (ou estratos). Ana M. Abreu - 2006/07 Amostragem por Clusters Slide 25 dividir a população em secções (ou clusters); seleccionar aleatoriamente alguns desses clusters; escolher todos os membros dos clusters seleccionados. Ana M. Abreu - 2006/07 Slide 26 Métodos de Amostragem Aleatória Sistemática Por conveniência Estratificada Por clusters Ana M. Abreu - 2006/07 Generalidades Slide 27 Estatística Descritiva resume ou descreve as características importantes de um conjunto conhecido de dados populacionais. Estatística Inferencial usa dados amostrais para fazer inferências (ou generalizações) sobre uma população. Ana M. Abreu - 2006/07 Características importantes dos dados Slide 28 1. Localização: Um valor representativo ou médio indica onde se situa o centro dos dados. 2. Variação: Uma medida do quanto os valores da amostra variam entre si. 3. Distribuição: A natureza ou a forma de distribuição dos dados (tal como em forma de sino, uniforme ou assimétrica) 4. Outliers: Valores amostrais que se situam muito afastados da maioria dos restantes valores amostrais. 5. Tempo: Algumas características podem se alterar ao longo do tempo. Ana M. Abreu - 2006/07 Distribuição de Frequência Slide 29 Distribuição de Frequência lista dos valores dos dados (ou individuais ou por grupos de intervalos), juntamente com as correspondentes frequências ou contagens. Ana M. Abreu - 2006/07 Distribuição de Frequência Ana M. Abreu - 2006/07 Slide 30 Ponto Médio de uma Classe Slide 31 O ponto médio de uma classe determina-se adicionando os limites da classe (inferior e superior) e dividindo por dois. Pontos Médios 49.5 149.5 249.5 349.5 449.5 Ana M. Abreu - 2006/07 Amplitude da Classe Slide 32 é a diferença entre dois limites superiores consecutivos ou dois limites inferiores consecutivos. 100 Amplitude da Classe 100 100 100 100 Ana M. Abreu - 2006/07 Razões para construir distribuições de frequência Slide 33 1. Conjuntos de dados grandes podem ser resumidos. 2. Pode-se ganhar alguma perspectiva sobre a natureza dos dados. 3. Base para a construção de gráficos. Ana M. Abreu - 2006/07 Como construir uma tabela de frequências Slide 34 1. Decidir o número de classes (habitualmente entre 5 e 20). Regra de Sturges: k=nº de classes ≈ 1+[log2n] 2. Calcular (aproximando por excesso) a (maior valor) – (menor valor) amplitude da classe ≈ número de classes 3. Escolher o limite inferior da primeira classe. 4. Usar o limite inferior da primeira classe e a amplitude de classe para listar, numa coluna vertical, todos os limites inferiores. 5. Em seguida, listar os correspondentes limites superiores. 6. Percorrer os dados, assinalando com um traço vertical a classe onde se encontra cada dado. Ana M. Abreu - 2006/07 Frequência Relativa Slide 35 frequência da classe Frequência relativa = soma de todas as frequências 11/40 = 28% 12/40 = 30% Frequência total = 40 etc. Ana M. Abreu - 2006/07 Frequência acumulada Slide 36 Frequências acumuladas Ana M. Abreu - 2006/07 Recapitulando Slide 37 Acabamos de ver Características importantes dos dados. Distribuições de frequências. Procedimentos para construir as distribuições de frequência. Frequências relativas. Frequências acumuladas. Ana M. Abreu - 2006/07 Medidas de localização e de dispersão Ana M. Abreu - 2006/07 Slide 38 Notação Σ Slide 39 denota a soma de um conjunto de valores. x é a variável usada usualmente para representar os valores individuais. n representa o número de valores na amostra, ou seja, a dimensão da amostra. N representa o número de valores na população Ana M. Abreu - 2006/07 Notação Slide 40 x pronuncia-se ‘x-barra’ e denota a média dos valores da amostra. Σx x = n µ pronuncia-se ‘mu’ e denota a média de todos os valores da população. µ = Σx N Ana M. Abreu - 2006/07 Definições Slide 41 Mediana o valor central quando os dados estão ordenados. ❖ Se a dimensão da amostra é ímpar, a mediana corresponde ao valor que está no centro da amostra. ❖ Se a dimensão da amostra é par, a mediana corresponde à média dos dois valores que estão no centro da amostra. Ana M. Abreu - 2006/07 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 Slide 42 (amostra de dimensão par – os dois valores centrais são distintos) 0.73 + 1.10 MEDIANA é 0.915 2 5.40 1.10 0.42 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 (amostra de dimensão ímpar - valor exacto) MEDIANA é 0.73 Ana M. Abreu - 2006/07 Moda Definições Slide 43 o valor que ocorre com maior frequência. A moda nem sempre é única. Um conjunto de dados pode ser: Bimodal Multimodal Não ter Moda é a única medida de localização que pode ser usada para os dados em escala nominal. Ana M. Abreu - 2006/07 Exemplos Slide 44 a. 5.40 1.10 0.42 0.73 0.48 1.10 Moda é 1.10 b. 27 27 27 55 55 55 88 88 99 Bimodal - c. 1 2 3 6 7 8 9 10 Não existe Moda Ana M. Abreu - 2006/07 27 e 55 Média para dados agrupados Assuma que, em cada classe, todos os valores são iguais ao ponto médio da classe. Σ (f • x) x = Σf x = ponto médio f = frequência Σf=n Ana M. Abreu - 2006/07 Slide 45 Definições Slide 46 Simetria Os dados distribuem-se de forma simétrica quando a metade esquerda do histograma correspondente é sensivelmente um espelho da metade direita. Assimetria Os dados distribuem-se de forma assimétrica se se prolongam mais para um dos lados do que para o outro. Ana M. Abreu - 2006/07 Slide 47 Ana M. Abreu - 2006/07 Definições Slide 48 A amplitude de um conjunto de dados é a diferença entre o valor mais elevado e o valor mais pequeno. valor mais elevado - valor mais pequeno Ana M. Abreu - 2006/07 Definições Slide 49 O desvio padrão de uma amostra é uma medida da variação dos valores em torno da média. S= Σ (x - x) n-1 Ana M. Abreu - 2006/07 2 Slide 50 • Uma forma mais simples do desvio padrão amostral, para efeitos de cálculo, é a que se segue: n (Σ Σx ) - (Σ Σx) n (n - 1) 2 s= Ana M. Abreu - 2006/07 2 Desvio padrão amostral algumas características Slide 51 O desvio padrão é uma medida de variação de todos os valores da amostra em torno da média O valor do desvio padrão s é positivo O valor do desvio padrão s pode aumentar dramaticamente com a inclusão de um ou mais outliers na amostra As unidades do desvio padrão s são as mesmas dos elementos da amostra. Ana M. Abreu - 2006/07 Desvio padrão populacional σ = Slide 52 Σ (x - µ) 2 N Esta fórmula é semelhante à anterior, mas neste caso é usada a média populacional e a dimensão da população. Ana M. Abreu - 2006/07 Definições Slide 53 A variância é uma medida de variação de um conjunto de valores e é igual ao quadrado do desvio padrão Variância amostral: quadrado do desvio padrão amostral s Variância populacional: quadrado do desvio σ padrão populacional Ana M. Abreu - 2006/07 Variância - Notação Slide 54 quadrado do desvio padrão } Notação s 2 Variância amostral σ 2 Variância populacional Ana M. Abreu - 2006/07 Definições Slide 55 O coeficiente de variação (ou CV) de uma amostra, expresso em percentagem, descreve o desvio padrão relativamente à média. É uma medida sem unidades. Amostra CV = s •100% x População CV = Ana M. Abreu - 2006/07 σ •100% µ Desvio padrão para dados agrupados n [Σ(f • x 2)] - [Σ(f • x)]2 S= n (n - 1) Usar os pontos médios de cada classe Ana M. Abreu - 2006/07 Slide 56 Definições Slide 57 Q1 (1º Quartil) separa os primeiros 25% da amostra ordenada dos restantes 75%. Q2 (2º Quartil) o mesmo do que a mediana; separa os primeiros 50% da amostra ordenada dos restantes 50%. Q3 (3º Quartil) separa os primeiros 75% da amostra ordenada dos restantes 25%. Ana M. Abreu - 2006/07 Quartis Slide 58 Q1, Q2, Q3 dividem os valores ordenados em 4 partes iguais 25% (mínimo) 25% 25% 25% Q1 Q2 Q3 (mediana) Ana M. Abreu - 2006/07 (máximo) Percentis Slide 59 Assim como os quartis dividem os dados em 4 partes iguais, existem 99 percentis denotados P1, P2, . . . P99, os quais particionam os dados em 100 grupos. Percentil do valor x = nº de valores menores que x nº total de valores Ana M. Abreu - 2006/07 • 100 Representação gráfica dos dados Ana M. Abreu - 2006/07 Slide 60 Histograma Slide 61 Um gráfico de barras, em que o eixo horizontal representa as classes dos valores da amostra e o eixo vertical a correspondente frequência. Ana M. Abreu - 2006/07 Histograma com as frequências relativas Slide 62 Tem a mesma forma e escala horizontal que o anterior, mas no eixo vertical estão indicadas as frequências relativas. Ana M. Abreu - 2006/07 Polígono de frequências Usa segmentos de recta para ligar os pontos médios das classes. Ana M. Abreu - 2006/07 Slide 63 Ogiva Semelhante ao anterior mas com as frequências acumuladas Ana M. Abreu - 2006/07 Slide 64 Gráfico de barras Forma de representação gráfica para dados qualitativos Ana M. Abreu - 2006/07 Slide 65 Gráfico de sectores Slide 66 Gráfico para dados qualitativos, representados por sectores circulares Ana M. Abreu - 2006/07 Gráfico de dispersão Representação de pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y Ana M. Abreu - 2006/07 Slide 67 Gráfico de caule-e-folhas Slide 68 Representa os dados, separando cada valor em duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical) Ana M. Abreu - 2006/07 Caixa-de-bigodes Ana M. Abreu - 2006/07 Slide 69 Caixa-de-bigodes Ana M. Abreu - 2006/07 Slide 70 Definições Slide 71 ❖ A caixa-de-bigodes é um gráfico que consiste numa linha desde o mínimo até ao máximo, e numa caixa com extremos nos 1º e 3º quartis e divisão na mediana. ❖ Para um conjunto de dados, o resumo de 5 números é formado pelo mínimo, 1º quartil, mediana, 3º quartil e máximo. Ana M. Abreu - 2006/07