MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO TIPOS DE VARIÁVEIS Variável característica de interesse que se pode medir ou avaliar e que apresenta distintos resultados: idade, sexo, grupo de sangue, grau de educação, pressão arterial etc “Características que assumem valores diferentes em diferentes indivíduos, locais, situações ou objetos”. Tipos de Variáveis Qualitativa: Dados são agrupados em categorias mutuamente exclusivas. - Nominal: não há um ordenação natural. As categorias não necessariamente têm relação. Ex: estado civil, sexo, grupo de sangue, profissão, CID, raça, religião etc. -Ordinal: Há um ordenação natural Ex: status social, estágio da doença, gravidade da doença, QI, escolaridade Tipos de Variáveis Quantitativa: é expressa por números - Contínua: resulta de uma medida, assumem qualquer valor em um intervalo lógico Ex: peso, PA, nível de colesterol, estatura - Discreta: Obtida através de uma contagem Ex: FC, número de pacientes atendidos... Variáveis e causalidade Variável dependente (desfecho) A variável que é utilizada para descrever ou medir o problema investigado Variáveis independentes (explanatórias) Variáveis que são utilizadas para descrever ou medir os fatores que se supõe causar ou influenciar CARACTERÍSTICAS DA DISTRIBUIÇÃO DE FREQÜÊNCIAS Geralmente a distribuição de freqüências possui: tendência central dispersão (variação) A forma da distribuição determina qual o tipo de medida descritiva mais adequada a ser usada. MEDIDAS DESCRITIVAS Medidas de tendência central: média (aritmética, geométrica), mediana e moda. Medidas de dispersão: amplitude, padrão. amplitude interquartílica, variância, desvio MEDIDAS DE TENDÊNCIA CENTRAL Média aritmética: é o resultado da soma dos valores de todas as observações, dividida pelo número de observações. X = x1 + x2 + x3 + ... + xn N MEDIDAS DE TENDÊNCIA CENTRAL A média tem indicação de uso em distribuições simétricas. Possui o maior poder matemático e é a medida descritiva mais utilizada (e preferida). No entanto, é afetada por valores extremos e em distribuições assimétricas pode apresentar uma informação distorcida. x x N Curva de distribuição de freqüências com representação pictórica da nuvem de dispersão de pontos. dispersão de pontos com n=200 DP nº de indivíduos média altura A = {1;3;5;2;6;8;6;10} 1 3 5 2 6 8 6 10 x 5,125 8 Pesos: 1;2;3;4;5;6;7;8 (1.1) (3.2) (5.3) (2.4) (6.5) (8.6) (6.7) (10.8) xp 6,39 1 2 3 4 5 6 7 8 MEDIDAS DE TENDÊNCIA CENTRAL Mediana: é uma medida de quartil inferior posicionamento, re(Percentil 25) presentando o valor que mediana (Percentil 50) ocupa a posição central na quartil superior (Percentil 75) série, ou seja, em tese 50% dos valores estão abaixo e prega tricipital 50% acima da mediana. Não é afetada por valores Distribuição de freqüências extremos, daí ser pre-ferida com assimetria positiva em séries com distribuição assimétrica. nº de indivíduos Medidas descritivas Se n for impar, a mediana é o valor central Se n for par, a mediana é a metade da soma dos dois valores centrais Seja X={2,3,4,5,8}; então a mediana igual a 4 Seja X={0,2,3,4,5,8}; então a mediana igual a 3,5 MEDIDAS DE TENDÊNCIA CENTRAL Moda: é o valor que ocorre com maior freqüência. Tem emprego restrito em bioestatística, porém como medida descritiva pode dar uma boa idéia da distribuição dos valores. Ex.: distribuição unimodal, bimodal. Estatística Descritiva Moda – dados simples Registrou-se o número de pesquisas dos professores de organização escolar, durante doze dias, tendo-se obtido os seguintes valores: 5 7 6 8 10 7 11 7 12 9 8 6 O número de pesquisas mais freqüentes ao longo dos 12 dias é 7. Assim, a Moda é 7. MEDIDAS DE DISPERSÃO Amplitude: é o intervalo existente entre o valor máximo e o valor mínimo das observações. simples mas pouco informativa, pois refere-se a apenas dois valores. Além disso, é sensível a valores extremos. Exemplo: – A = {1,7,7,8,8,8,9,9,12,15} – Dispersão [A] = ATA = 15 - 1 = 14 – B = {3,3,4,4,8,11,13,13,14,14} – Dispersão [B] = ATB = 14 - 3 = 11 MEDIDAS DE DISPERSÃO Amplitude interquartílica: é uma medida de dispersão baseada em percentis. Os percentis são a percentagem das observações abaixo do ponto indicado quando todas as observações são ordenadas de maneira decrescente. A mediana corresponde ao percentil 50. Geralmente são apresentados os quartis, isto é, os percentis 25, 50 e 75. A amplitude interquartílica é o intervalo existente entre o percentil 25 e o percentil 75. MEDIDAS DE DISPERSÃO Amplitude interquartílica: nº de indivíduos quartil inferior (Percentil 25) mediana (Percentil 50) quartil superior (Percentil 75) prega tricipital Distribuição de freqüências com assimetria positiva Box Plot 20 MEDIDAS DE DISPERSÃO Embora medidas de tendência central forneçam um resumo parcial das informações de um conjunto de dados. A necessidade de uma medida de variação é aparente, para que nos permita, por exemplo, comparar conjuntos diferentes de valores. Algumas característica desta medida devem ser atendidos como veremos a seguir. MEDIDAS DE DISPERSÃO BASEADAS NA MÉDIA Variância Desvio Padrão MEDIDAS DE DISPERÇÃO O critério geralmente utilizado é aquele que mede a concentração dos dados em torno da média, e algumas medidas são as mais usadas: variância e desvio padrão. Ex: 3, 4, 5, 6, 7 (média 5), os desvios xi-x, são: -2, -1, 0, 1 ,2. 1, 3, 5, 7, 9 (média 5), os desvios xi-x, são: -4, -2, 0, 2, 4. Observe que a soma dos desvios é igual a zero, o que torna inviável esta medida. Opção: Considerar o total dos quadrados dos desvios. Assim teríamos: Para a amostra: 3, 4, 5, 6, 7 5 ni x i x i 1 2 = 4 + 1 + 0 + 1 + 4 = 10 VARIÂNCIA A medida que contempla os aspectos apresentados e que é mais utilizada é a Variância. A variância é representada por s2 para uma amostra. As fórmulas para a variância da amostra são apresentadas abaixo. k n xi x i i 1 2 Variância = S2 = N-1 O denominador n-1 tem o propósito de tornar a variância da amostra a estimativa da variância da população. N-1 é conhecido como grau de liberdade. A variância é uma medida que expressa um desvio quadrático médio. A unidade da variância é portanto o quadrado dos dados originais. Ex: para dados expressos em centímetros a variância será expressa em centímetros quadrados. VARIÂNCIA Para as amostras 3, 4, 5, 6, 7 e 1, 3, 5, 7, 9 As variâncias seriam: S12 = (3-5)2+ (4-5)2 + (5-5)2+ (6-5)2+ (7-5)2/4 S22 = (1-5)2+ (3-5)2+ (5-5)2+ (7-5)2+ (9-5)2/4 A amostra 3, 4, 5, 6, 7 é mais homogênea. S12 =2,5 S22 =10 DESVIO PADRÃO É a raiz quadrada da variância. DP S 2 ( x x ) i N 1 ou 2 ( x ) 2 x N DP N 1 DESVIO PADRÃO Sendo a variância uma medida que expressa um desvio quadrático médio, esta pode causar alguns problemas de interpretação. Para evitar isto, costuma-se usar o desvio padrão, que é definido como a raiz quadrada positiva da variância. Desta forma, tem-se uma medida de variabilidade expressa na mesma unidade dos valores do conjunto de dados. O desvio padrão pode ser calculado através da fórmula anterior: O DESVIO PADRÃO DAS AMOSTRAS 3, 4, 5, 6, 7 e 1, 3, 5, 7, 9 seria: S1= S2= 2,5 =1,58 10 =3,16 EXEMPLO xi (xi – x) (xi – x)2 1 2 4 -5 -4 -2 25 16 4 7 +1 1 10 12 36 +4 +6 0 16 36 98 Soma ou Média = 6 Variância (S2) = 98/5 = 19,6 DP = S = 19,6 = 4,43 Medidas de Dispersão 30 Coeficiente de Variação é uma medida de dispersão relativa elimina o efeito da magnitude dos dados exprime a variabilidade em relação à média MEDIDAS DE TENDÊNCIA CENTRAL E DISTRIBUIÇÕES DE FREQÜÊNCIAS Média, mediana e moda Distribuição Simétrica moda mediana média Distribuição com Assimetria Negativa moda mediana média Distribuição com Assimetria Positiva Gastos em electricidade: Meses JAN. Gastos 25€ (em €) FEV. MAR. ABR. MAI. JUN. 22€ 35€ 28€ 35€ 33€ Média: 29,67 25 + 22 + 35 + 28 + 35 +33 = 178 178/6 = 29,67 Moda: 35 Mediana: 30,5 Quebra-cabeça Agora que você já sabe o que é média, moda e mediana, analise o problema a seguir: Um fabricante de calçados afirmou no Encontro Anual do setor que a média salarial de sua fábrica é de R$ 550,00, provando que os funcionários são bem pagos. Ao analisar o balanço mensal da empresa um funcionário verificou que seis funcionários recebiam R$ 200,00; o gerente recebia R$ 400,00 e o patrão recebia 2.800,00 de prolabore. 1. Como o patrão chegou ao valor de R$ 550,00? 2. Qual deve ser o argumento do funcionário para se contrapor ao patrão? HABILIDADE 27 – Calcular medidas de tendência central ou de dispersão de um conjunto de dados expressos em uma tabela de freqüência de dados agrupados (não em classes) ou em gráficos. Depois de jogar um dado em forma de cubo e de faces numeradas de 1 a 6, por 10 vezes consecutivas, e anotar o numero obtido em cada jogada, construiu-se a seguinte tabela de distribuição de frequências. A media, mediana e moda dessa distribuição de frequências são, respectivamente: a) 3, 2 e 1 b) 3, 3 e 1 c) 3, 4 e 2 d) 5, 4 e 2 e) 6, 2 e 4 OBRIGADO. MARCOS TADEU ELLERY FROTA