1 Bioestatística – Relatório da aula de Medida de Tendência Central e Dispersão. Professor: Antonio Carlos Pereira Aluno: Sandra Maria Cunha Vidal e Silva – RA: 028960 1. Medidas de Tendência Central: 1.1 A média aritmética é a medida de tendência central mais conhecida e mais utilizada. Também é conhecida como simplesmente média. Obtemos a média aritmética de um conjunto de dados somando todos os dados e dividindo o resultado pelo número deles (tamanho da amostra): Média = Soma de todos os dados Tamanho da amostra A média é indicada por onde se lê x traço ou x barra e tem uma fórmula: Que se lê: x-traço é igual ao somatório de x , dividido por n. Exemplo: Uma enfermeira mediu o número de pacientes que deram entrada no período de 1/10 a 7/10/2011. Obteve os seguintes valores, respectivamente: 500 pacientes na segunda feira, ; 420 na terça; 300 na quarta; 260 na quinta; 340 na sexta feira; 230 no sábado e 218 pacientes no domingo(tabela 1.1) . Para calcular a média de pacientes atendidos neste período fazemos a somatória do número de pacientes atendidos na semana e dividimos pelo total de dias da semana (7). Devemos considerar que a média indica o centro de gravidade do conjunto de dados. Imaginemos que o eixo das abscissas sejam os braços de uma balança e que cada ponto tenha uma unidade de massa. Para obter o equilíbrio , é necessário que o fulcro da balança esteja sob a média. Abaixo , a figura 1.1 , representa esta afirmativa, apresentando os dados do Exemplo citado acima. Para ilustrar, montei a tabela de dados estudados e tentei distribui-los sobre um eixo , com a respectiva média. = 500+420+300+250+340+230+218 7 = 2268/7 = = 324 1 2 Tabela 1.1. Distribuição dos atendimentos, por dia, sobre um eixo e sua respectiva média , no período de 1 a 7/10/2011, UPA Dia da semana Nº de atendimentos Segunda 500 Terça 420 Quarta 300 Quinta 260 Sexta 340 Sábado 230 Domingo 218 2268 218 230 260 300 340 420 500 Média=324 Figura 1.1 Distribuição dos atendimentos, por dia, sobre um eixo e sua respectiva média , no período de 1 a 7/10/2011, UPA Quando a amostra é grande, os dados podem se repetir. Então, organizamos os dados numa tabela de distribuição de frequências . Exemplo: quero saber a média do número de crianças de 1 a 5 anos de idade que frequentam a creche de um determinado bairro (visita em 30 domicílios). Para tanto, procedo os seguintes passos: 1- Construo uma tabela com os dados obtidos (tabela 1) 2- Construo uma tabela com a distribuição de frequências( Tabela 1.2) 3- Realizo os cálculos conforme mostra a tabela 1.3 Tabela 1. 2. Número de crianças de 1 a 5 anos que freqüentam ou não creche 0 1 0 2 1 3 2 1 0 5 3 1 2 2 1 0 3 0 2 3 0 4 1 1 2 Fonte; USF do bairro 2 3 Tabela 1.3 Distribuição de freqüências para o número de crianças de 1 a 5 anos que freqüentam creche. Número de crianças que freqüentam creche 0 1 2 3 4 5 Freqüência 6 7 6 4 1 1 Após a distribuição de freqüências, realizamos, para obter a média, os seguintes cálculos: Multiplicamos cada valor de x (número de crianças de 1 a 5 anos que freqüentam ou não a creche) pela respectiva freqüência (f). Somamos os valores obtidos do produto; O resultado obtido Tabela1. 4. Distribuição de freqüências para o número de crianças que freqüentam ou não a creche Número de crianças (x) freqüência (f) Produto (xf) 0 6 0 1 7 7 2 6 12 3 4 12 4 1 4 5 1 5 Σf= 25 Σxf=40 Total A média é obtida dividindo 40 por 25, que resulta em 1,6 crianças de 1 a 5 anos que frequentam a creche , num determinado bairro = 0x6 +1x7 + 2x6 + 3x4 + 4x1 + 5x1 = 6+7+6+4+1+1 = 40/25 = = 1,6 3 4 Cálculo da média para variável contínua e amostra grande: São apresentadas apenas as tabelas de distribuição de frequências. Não são fornecidos os dados brutos. Para calcular a média de dados agrupados em classes, é preciso calcular o valor central de cada classe ( média de dois extremos de classe). Exemplo: Calcular a média da PA diastólica em 84 pacientes. Tabela 1.5 Medidas da Pressão arterial diastólica,em mmHg de pacientes, antes da consulta médica: classe freqüência 60 a70 70 a 80 80 a 90 90 a100 100 a110 110 a 120 120a 130 130 a 140 5 8 30 22 12 4 2 1 Valor Central x*: somamos os valores mínimo e máximo da classe e dividimos por dois: 60+70/2 = 65; 70+80/2= 75; 80+90/2 = 85, ... assim procedemos para os demais valores, como mostra a tabela1.5. Multiplicamos o valor central pela frequência de cada classe. Calculamos a somatória da frequência e do produto. A média é obtida dividindo a Σx*f pela Σf Tabela1.6. Cálculos auxiliares classe 60 a70 70 a 80 80 a 90 90 a100 100 a110 110 a 120 120a 130 130 a 140 valor central (x*) 65 75 85 95 105 115 125 135 soma freqüência 5 8 30 22 12 4 2 1 Σf = 84 produto 325 600 2550 2090 1260 460 250 135 Σx*f = 7670 Obtemos a média dividindo 7670 por 84 = 7670/84 = 91,30 ; então a média da pressão diastólica , nessa amostra é 91,30 mmHg (PADM=91,3 mmHg ) 4 5 A média é uma medida central muito usada, porém, ela é afetada pelos valores extremos, os “outliers” porisso só deve ser usada se a distribuição for simétrica. A figura abaixo representa a média dos valores de uma amostra com distribuição simétrica. Nesta distribuição a moda, mediana e amédia se coincidem. Fig. A – Representação de uma figura simétrica 1.2-Mediana da Amostra: Mediana é o valor que ocupa a posição central do conjunto dos dados ordenados. A mediana divide a amostra em duas partes : uma com números menores ou iguais a mediana e outra com números maiores ou iguais à mediana. A mediana dá o valor do ponto que delimita metade dos dados Quando o número de dados é impar, existe um único valor na posição central. Este valor é a mediana. Exemplo: o conjunto de dados: { 2, 4, 6}, tem mediana 4. porque 4 é o valor que se encontra no centro do conjunto (isto , quando os números estão em ordem crescente). Quando o número de dados é par, calculamos a média dos dois valores centrais e assim, obtemos a mediana. Exemplo: , o conjunto , {2, 4, 6, 8}; Tem a mediana : 4+6/2 = 5; porque os valores 4 e 6 estão na posição central dos números ordenados. Então: A Mediana é a média desses dois valores centrais Exemplo: Calcule a mediana da Pressão diastólica dos 20 pacientes que participaram do Grupo de orientação sobre doenças metabólicas: 5 6 Conjunto de dados obtidos em mmHg: 7 - 8 – 8 - 8 - 9 - 9 - 10 - 11 - 11 - 11 - 12 - 12 - 13 – 13 -13 - 13 - 14 - 15 - 20 - 22 Md = 11 + 12 / 2 A mediana descreve melhor a tendência central dos dados quando estas formam um conjunto com dados discrepantes ( dados com valores bem maiores ou bem menores). No exemplo abaixo, o valor....18...... puxa a média para cima, porém não afeta a grandeza da mediana: Cálculo da média e mediana dos dados da pressão arterial diastólica em 8 pacientes do sexo masculino: 6; 6; 7; 8; 8; 8; 10; 18 X= 6+6+7+8+8+8+10+18= 9,12 8 X= 9,12 Md= 8+8 = 16/2= 8 2 Md= 8 A Média é maior que a Mediana , porque o número 18 é um valor discrepante, puxando a média para cima. É usada para varáveis qualitativas ordinais ou quantitativas discrepantes. Tentei exemplificar com o seguinte exercício: quantas crianças foram consultadas por hora no período das 6 às 15horas na UPA L. Neto no dia 12/10/2011? Coleta dos dados: Tabela1. 2 Nº de crianças atendidas na UPA L. Neto ,por hora, no período das 6 às 15h no dia 12/10/2011 ; UPA L. Neto, Piracicaba, SP Hora Crianças atendidas 6 7 8 9 10 11 12 13 14 15 5 10 20 42 38 22 12 9 7 6 Média= x =Σx/n , então: X = 5+6+7+9+10+12+20+22+38+42= 171 10 6 7 x = 17,1 Mediana = 12+10/2 Md= 9,2 Gráfico 1. 2.Distribuiçaõ do atendimento das crianças na UPA L. Neto Por hora, no período de 6 as 15h, em 12/10/2011. Piracicaba, SP Este gráfico mostra que há valores discrepantes (variável quantitativa discrepante) entre os dados obtidos , portanto, a mediana é a melhor escolha para avaliarmos a tendência central dos dados.A média deu um valor maior, porque os valores 42 e 38 são discrepantes em relaçaõ aos outros. Usamos a mediana para: Variável qualitativa ordinal discrepantes (distribuição assimétrica). ou quantitativa com valores 1. 3. Moda da amostra: É o valor que ocorre com maior frequencia. Ex: 0, 0, 2, 5, 3,7 ,4 ,7 ,8 ,7 ,9 ,6. A moda é 7, porque 7 é o valor que ocorre maior número de vezes. Quando em um conjunto de dados não se repete nenhum valor maior número de vezes , não há Moda (amodal). Quando um conjunto de dados tem uma moda, chama-se inimodal,duas modas, bimodal ou quando tem mais de duas modas denomina-se multimodal. Quando uma tabela de distribuição de frequências apresenta muitos dados, é importante destacar a classe de maior frequência- a classe modal- porque esta classe nos mostra a área em que os dados estão concentrados. 7 8 Exemplos: O conjunto : 0,3,5, 6, 8 9 é amodal, ou seja, não tem moda. O cojunto : 1, 2, 2 ,3 4 , 5, 6, 6, 7, 8; é bimodal porque apresenta duas modas: 2 e 6. A distribuição da população brasileira segundo o sexo e a faixa etária (censo de 2010) é um bom exemplo para determinarmos a classe modal. Pois a distribuição de frequencia apresenta grande número de daos. A classe modal mostra a área de maior concentração. Distribuição da população BRASIL – censo de 2010 por sexo, segundo os grupos de idade A classe modal para a população feminina é de 10 a 29 anos e para a classe masculina é de 15 a 24 anos. A moda pode ser usada para descrever dados Qualitativos. Neste caso, a moda é a categoria que ocorre com mais frequência. Em suma, a moda é bastante informativa quando o conjunto de dados é muito grande. Para um conjunto com menos de 30 observações é melhor usarmos a média e a mediana pois, nestes casos, ambas darão uma melhor descrição da tendência central dos dados. As figuras abaixo ilustram uma distribuição simétrica (moda, mediana e média se coincidem) e uma distribuição assimétrica , onde a moda representa os valores de maior frequência , a mediana , a medida que ocupa a posição central dos conjunto dos dados ordenados e a média a medida de tendência central. 8 9 Figura B.Distribuição simétrica de uma amostra(A) e distribuição assimétrica de outra amostra (B) 2. Medidas de dispersão para uma amostra A média , mediana e a moda, medidas de tendência Central, não bastam para descrever um conjunto e dados devido a variabilidade. Elas informam a tendência central, porém, nada dizem sobre a variabilidade. As medidas de tendência central são tanto mais descritivas de um conjunto de dados quanto MENOR for a variabilidade. Então, para apresentarmos medidas de tendência central para descrever um conjunto de dados, devemos fornecer também uma medida de variabilidade ou dispersão. Medidas usadas para medir a variabilidade : Amplitude; Quartiil, Decil, Percentil; Desvio Padrão da amostra e variância; coeficiente de variação. 2.1 Amplitude A amplitude de um conjunto de dados é definida como a diferença entre entre o máximo e o mínimo de disperçaõ ou variabilidade. Ex O peso das crianças que aguardam consulta na USF (unidade de saúde da família) 4, 6, 7, 5, 9, 8,10 Mínimo = 4 ; Máximo= 10 Amplitude = valor max.- valor Min. Amplitude= 10 – 4 = 6 X= 4+5+6+7+8+10 = 40/6 = 6,6 9 10 Tabela 2.1 do peso das crianças Estatísticas Tamanho da amostra Média Resultados 6 6,66 Mínimo 4 Máximo 10 Amplitude 6 Apesar da Amplitude ser fácil de calcular e de interpretar, essa medida não mede bem a variabilidade dos dados porque para seu cálculo usamos apenas os dois valores extremos. Assim, dois conjuntos de dados podem apresentar variabilidades diferentes e ter a mesma amplitude, como também, um valor discrepante (muito grande ou muito pequeno) faz a amplitude aumentar muito. “A amplitude é muito sensível aos valores discrepantes”. Exemplo: pressão arterial diastólica em milímitro de mercúrio Grupo de pacientes A = 50; 60;70;80;160 Grupo de pacientes B = 60; 80; 70; 65; 50 Amplitude do Grupo A = 160-50 = 110mmHg Amplitude do grupo B = 80- 60 = 40mmHg Então , não podemos dizer que o grupo A está hipertenso. Apenas uma pessoa do grupo A apresentou valor de pressão arterial diastólica alta (ou grave) discrepante. Os deamais apresentaram valores normais. Portanto o grupo A e B estão com PAD controladas. Apenas uma pessoa do grupo A necessita de maiores cuidados. 2.2. Quartil A mediana divide um conjunto de dados em dois subconjuntos iguais, com o mesmo número de dados: o que antecede a mediana ( dados iguais ou menores que a mediana) o que sucede a mediana ( dados iguais ou maiores que a mediana). Quando o conjunto de dados for grande , o conceito de mediana se estende: A mediana divide o conjunto de dados em duas metades ; os quartis ( dividem em quatro quartos). Os quartis dividem um conjunto em quatro parte iguais, portanto são três: primeiro quartil, segundo quartil e terceiro quartil. A figura abaixo ilustra este conceito: 10 11 Figura C: Representação da divisão de de um conjunto de dados em quatro partes iguais (quartis). Obtenção dos Quartis: Organizar os dados em ordem crescente. Encontre a Mediana ( que é, também , o segundo quartil). Marcar este valor. Ache o terceiro quartil: tome o conjunto de dados à esquerda da mediana. O primeiro quatil é a mediana desse novo conjunto de dados. Ache o terceiro quartil: tome o conjunto de dados à direita da mediana, o terceiro quartil é a mediana deste novo conjunto de dados. Exemplo: determine os quartis dos conjuntos de dados abaixo: Pressão arterial Sistólica de 20 pacientes masculinos: 7; 8; 8 ;8; 9; 9; 10; 11; 11; 11; 12; 12; 13; 13; 13; 13; 14; 15; 20; 22 1º quartil mediana( 2ºquartil) 3º quartil Md= 11+12/2 = 11,5 Mediana do 1º quartil = 7; 8; 8; 8; 9; 9; 10; 11; 11 = 9 Mediana do 2ºquartil = mediana= 11,5 Mediana do 3º quartil= 12; 13; 13; 13; 13; 14; 15; 20; 22 =13 2.3. Distância Interquartílica É o espaço entre o primeiro e o terceiro quartil: Distância interquatílica= terceiro quartil – primeiro quartil. Usando o exemplo dos grupos de pacientes A e B. 11 12 Grupo de pacientes A = 50; 70; 60; 80; 160 Grupo de pacientes B = 60; 80; 70; 65; 50 Ordenando os dados: Grupo A = 50; 60; 70; 80; 160 Mediana = 70 1º quartil = 5,5 2º quartil = 80 Distância interquartílica= 80 - 5,5= 2,5 Grupo de pacientes B = 50; 60; 65; 70; 80; Mediana = 65 1ºquartil = 5,5 2º quartil= 7,5 Distância interquartílica = 7,5 - 5,5 = 2,0; então Distancia interquartílica do grupo A= 2,5 Distãncia interquartílica do grupo B = 2,0 Amplitude grupo A= 160-50 = 110 Amplitude grupo B = 80-50 = 30 As amplitudes são muito diferentes, porém , a distância interquartílica entre os dados dos dois grupos tiveram pouca diferença. 2.4. Diagrama de caixa ou Box plot; O diagrama de caixa (box plot) mostra as medidas descritas acima. Para desenhar o diagrama , são necessárias as 5 medidas: mínimo, primeiro quartil , mediana, terceiro quartil, máximo. 12 13 Exemplo: desenhe um diagrama de caixa para representar o conjunto de dados: 1; 2; 3; 4;5; 6; 7; 8; 9; 10 (Vieira, Sonia) Desenho do diagrama: 10 9 8 7 6 5 4 3 2 1 Mínimo=1 Primeiro Quartil = 3 (divide à metade o subconjunto que precede a mediana) Mediana=5,5 ( 6+5/2=5,5) Média = 55/10=5,5 Terceiro quartil= 8 (divide à metade o subconjunto que sucede a mediana) Máximo = 10 2.5. Desvio Padrão da Amostra: É uma medida de variabilidade muito usada porque é a que melhor mede a dispersão dos dados ,permitindo assim, a interpretação de interesse. Para calcular o desvio padrão é necessário calcular a Variância. 2.5.1 Variância: Quando a média indica o centro, podemos calcular o desvio de cada observação em relação à média , então; Desvio = observação - média Se os desvios forem pequenos, os dados ficarão aglomerados em torno da média, porém, se os desvios forem grandes significa observações dispersas em torno da média, portanto, uma grande variabilidade. 13 14 Calculando desvios em relação à média: Dado os pesos de um grupo de 6 crianças que são acompanhadas na USF São Pedro: 5; 6; 7; 8; 10; 12. Os desvios são obtidos subtraindo a média de cada observação: Tabela 2.2 – Cálculo dos desvios Observações x 5 6 7 8 10 12 Desvios x-x 8–5=3 8–6=2 8–7=1 8–8=0 8 – 10 = -2 8 – 12 = -4 x = Σ ×/n = 48/8= 8 A média é uma boa medida de tendência central pois , o peso dos valores positivos é igual ao peso dos valores negativos. Neste exemplo: 3 + 2 + 1 + 0 +(-2) + (-4) = 0 Para obter a variabilidade usando os desvios em relação à média , é preciso eliminar os sinais antes de somar ; para tanto, elevamos ao quadrado. A soma, assim obtida, é chamada de ; soma dos quadrados dos desvios. A partir desta soma obtem-se a Variância = s2 Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à média, dividida por (n - 1) Para o cálculo da variância utilizamos : S2 = Σ (x – x )2 n–1 Para tanto , seguimos os seguintes passos: Calcular os desvios de cada observação Elevar cada desvio ao quadrado Somar os quadrados Dividir os resultados por n-1, sendo que n = ao número de observações. 14 15 Tabela 2.3 Cálculo da Variância ( quadrado dos desvios) Observações Desvios Quadrado dos desvios x x-x 5 8 -5 = 3 6 8 - 6= 2 7 8-7=1 8 8-8=0 10 8 - 10 = -2 12 8 - 12 = -4 (x – x) 32 = 9 22 = 4 12 = 1 02 = 0 (-2)2= 4 (-4)2= 16 2 ( n- 1) = 5 S2 = Σ (x – x )2 = 34 S2 = 34/5 = 6,8 2.5.2 .Desvio Padrão : É uma medida de variabilidade muito usada porque mede bem a dispersão dos dados. O desvio padrão é a raiz quadrada da Variância, assim, obtemos uma medida de variabilidade na mesma unidade de medida dos dados. Então, desvio Padrão (s) = a raiz quadrada da Variância. Cálculo do desvio Padrão : É dada o número de faltas às aulas, em seis dias, de crianças nas classes A; B e C. Tabela 2.4 Classe A 2 3 2 3 4 4 Classe B 7 1 5 5 1 5 Classe C 9 1 1 2 9 8 15 16 Tabela 2.5 Calculos estatísticos Estatística Média Mediana Variância Desvio padrão classe A 3 2 0,8 0,89 Classe B 4 5 4,8 2,19 Classe C 5 5 16,4 4,05 Cálculo da Variância: S2 classe A=( 2- 3)2 + (3-3)2 +(2 – 3)2 +(3 - 3)2 + (3-4)2 + (3 – 4)2 S2= 1 + 0 + 1+ 0 +1 + 1 = 4/5 = 0,8 S2 classe B = (7- 4) 2 + (1 – 4)2 + (5 - 4)2 +(5 - 4)2+(1 - 4)2 –( 5 - 4)2 = S2 = 9 + 9 + 1 + 1 + 9 + 1 = 24/5 = 4,8 S2 classe C = (9 – 5)2 + (1 – 5)2 +( 1- 5)2 +(2 – 5)2 + (9 – 5)2 +(8 - 5)2 S2 = 16 + 16 + 16 + 9 + 16 + 9 = 82/5 = 16,4 Cálculo do desvio Padrão: Classe A : S= raiz quadrada de 0,8 = 0,89 Classe B : S= raiz quadrada de 4,8 = 2,19 Classe C: S= raiz quadrada de 16,4 = 4,05 Portanto, a classe que apresentou maior absenteísmo foi a Classe C. A classe A, apresentou menor absenteísmo. 2.5.3 Coeficiente de Variação É a razão entre o desvio padrão e a média. Multiplica-se o resultado por 100, para que o coeficiente de variação seja dado em porcentagem. CV = S / X x 100 O coeficiente de variação nos dá a a dispersão relativa entre os conjuntos de dados. Exemplo: Um grupo de pessoas têm idade 3; 1 e 5 anos e um outro grupo tem 55; 57 e 53. A dispersão dos dados nos dois grupos é a mesma , pois os dois grupos tem variância S2 = 4, porém, as diferenças de dois anos são muito importante no primeiro grupo, que tem média 3 , do que no segundo grupo que tem média 55. Quando calculamos o coeficiente de variação nos dois grupos , temos: 16 17 S = raiz quadrada de 4 = 2 (desvio padrão) CV = S / X x 100; temos: Primeiro grupo: CV= 2/3 x 100 = 66,67 % Segundo Grupo CV= 2/55 x 100 = 3,64% No primeiro grupo, o coeficiente de variação de 66,67% indica que a dispersão dos dados em relação a média é muito grande – a dispersão relativa é alta. A diferença de dois anos no primeiro grupo é relativamente muito mais importante quando comparado ao segundo grupo , que tem média 55 e coeficiente de variação 3,64 ( a dispersão dos dados em relação à média é muito pequena). O coeficiente de variação mede a dispersão dos dados em relação à média Bibliografia: VIEIRA, S, Introdução à Bioestatística. Rio de janeiro,campus Elsevier, 4 ed. , 3a tiragem. 2008. PEREIRA, A.C. et al. Tratado de Saúde Coletiva em Odontologia, 1 ed. São Paulo: editora Napoleão, 2009. CARVALHO, S.e CAMPOS, W. Estatística básica simplificada. Rio de Janeiro: Elsevier, 2008. 17