UNIVERSIDADE DE SÃO PAULO FACULDADE DE SAÚDE PÚBLICA DEPARTAMENTO DE EPIDEMIOLOGIA HEP 5800 - BIOESTATÍSTICA REGINA T. I. BERNAL NILZA NUNES DA SILVA MARÇO/2012 1 HEP 5732 - BIOESTATÍSTICA 1. NOTAS HISTÓRICAS ........................................................................................................................................ 3 2. DEFINIÇÃO ......................................................................................................................................................... 5 3. 4. ANÁLISE EXPLORATÓRIA DE DADOS ....................................................................................................... 7 LEVANTAMENTO DE DADOS ........................................................................................................................ 7 4.1. DEFINIÇÃO ........................................................................................................................................................... 7 4.2. FONTE DE DADOS E TEMPO ................................................................................................................................ 12 5. APRESENTAÇÃO TABULAR DE DADOS ................................................................................................... 13 5.1. TABELA DE FREQUÊNCIA ............................................................................................................................... 13 5.2. APRESENTAÇÃO ................................................................................................................................................. 15 EXERCÍCIOS ....................................................................................................................................................... 16 6. APRESENTAÇÃO GRÁFICA DE DADOS .................................................................................................... 17 6.1. VARIÁVEIS QUALITATIVAS OU QUANTITATIVA DISCRETA.................................................................................... 18 Diagrama de Superfícies em Colunas ou Barras ......................................................................................... 18 Diagramas por Superfícies em Colunas Superpostas ou Porcentagens Complementares........................... 18 Diagramas por Superfícies em Setores ........................................................................................................ 18 Diagrama por Pontos ................................................................................................................................... 18 6.2. VARIÁVEIS QUANTITATIVAS CONTÍNUAS ............................................................................................................ 19 Diagramas por Superfícies em Histogramas ............................................................................................... 19 6.3. VARIÁVEIS QUALITATIVAS ORDINAIS OU QUANTITATIVA DISCRETA .................................................................... 24 6.3. SÉRIES TEMPORAIS ............................................................................................................................................. 25 6.4. ESCALAS ARITMÉTICAS E LOGARÍTMICAS ........................................................................................................... 26 6.5 BOX PLOT ........................................................................................................................................................... 27 EXERCÍCIOS ....................................................................................................................................................... 28 7. MEDIDAS RESUMO ........................................................................................................................................ 29 7.1. MEDIDAS DE TENDÊNCIA CENTRAL ................................................................................................................... 29 Definição .............................................................................................................................................................. 29 Finalidade ............................................................................................................................................................ 29 Média aritmética .................................................................................................................................................. 29 Média Geométrica................................................................................................................................................ 31 Média Harmônica ................................................................................................................................................ 31 Mediana ............................................................................................................................................................... 32 Quartis ................................................................................................................................................................. 33 Percentis .............................................................................................................................................................. 34 Moda .................................................................................................................................................................... 34 7.2. MEDIDAS DE DISPERSÃO .................................................................................................................................... 36 X-MEDIA ............................................................................................................................................................. 36 Interquartil ........................................................................................................................................................... 37 8. REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................................................... 40 2 1. NOTAS HISTÓRICAS As primeiras aplicações da estatística estava voltadas para as necessidades de Estado, na formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração pública. A abrangência da estatística aumentou no começo do século XIX para incluir a acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada. Seus fundamentos matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos quadrados foi descrito pela primeira vez por Carl Friedrich Gauss cerca de 1794. O uso de computadores modernos tem permitido a computação de dados estatísticos em larga escala e também tornaram possível novos métodos antes impraticáveis.1 A primeira tentativa para se tirar conclusões a partir de dados numéricos foi feita somente no século 17, na Inglaterra, com o que foi denominado Aritmética Política de William Petty, que evoluiu para o que se chama hoje de demografia. A análise de Graunt foi baseada sobre razões e proporções de fatos vitais, nos quais ele observou uma regularidade estatística num grande número de dados. Os dados usados por ele compreendiam uma serie anual de 1604 a 1660, coletados nas paróquias de Londres, de onde ele tirou as seguintes conclusões: que havia maior nascimento de crianças do sexo masculino, mas havia distribuição aproximadamente igual de ambos os sexos na população geral; alta mortalidade nos primeiros anos de vida; maior mortalidade nas zonas urbanas em relação às zonas rurais.2 No passado, tratar uma quantidade grande de dados era uma tarefa custosa e cansativa, que exigia horas de trabalho tedioso. O computador contribui, positivamente, na difusão e uso dos métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar um Indivíduo sem preparo específico a utilizar técnicas inadequadas para resolver um dado problema. 3 A Estatística é área da ciência que trata da organização, descrição, análise e interpretação dos dados resultantes da observação de fenômenos coletivos. Para cada tipo de variável existe uma técnica adequada para análise dos dados. Devido à facilidade computacional na execução das análises estatísticas, o pesquisador deve ter bom senso no uso das ferramentas estatísticas e nas interpretações dos resultados. Em grandes ou pequenas amostras podem ocorrer resultados estatísticos espúrios devido ao tamanho da amostra. O importante é entender a Estatística como um meio; um instrumento e não um fim. 1 História da Estatística. Disponível <http://pt.wikipedia.org/wiki/Hist%C3%B3ria_da_estat%C3%ADstica> Memória, J.M.Breve História da Estatística. 3 Magalhães, M.N. Noções de Probabilidade e Estatística. Sexta edição. Edusp, 2008 2 3 HEP 5732 - BIOESTATÍSTICA Recursos computacionais Atualmente existem vários programas voltados para o processamento e análises estatísticas, entre os mais usados comercialmente são: SPSS e SAS. Os pacotes estatísticos utilizam algoritmos para analise de dados provenientes de amostras aleatórias simples. Com o avanço tecnológico os pacotes SAS, SPSS e STATA têm o módulo específico para análise de dados provenientes de planos complexos de amostragem. As técnicas estatísticas implantadas consideram as variáveis de planejamento da amostra. O Departamento de Epidemiologia da FSP adotou o programa STATA como ferramenta de processamento e análises estatísticas. O STATA 10.0 está disponível nos computadores do Laboratório de Informática da Epidemiologia (LIE). Esse programa será usado como ferramenta de processamento e análises estatística no curso de Bioestatística. 4 2. DEFINIÇÃO É A CIÊNCIA QUE TRATA DADOS NÚMERICOS PROVENIENTES DE MENSURAÇAO EM GRUPOS DE INDIVÍDUOS. ORGANIZAÇÃO, DESCRIÇÃO, APRESENTAÇÃO ANÁLISE E INTERPRETAÇÃO DE DADOS RESULTANTES DA OBSERVAÇÃO DE FENÔMENOS COLETIVOS. PROPRIEDADES - VARIAÇÕES ALEATÓRIAS NATURAIS E NÃO EXPLICADAS -VARIAÇÕES ENTRE INDIVÍDUOS -VARIAÇÕES ENTRE OBSERVAÇÕES EM UM MESMO INDIVÍDUO. 5 HEP 5732 - BIOESTATÍSTICA Ramos da Estatística ESTATÍSTICA DESCRITIVA ANÁLISE INTERPRETAÇÃO ORGANIZAR DESCREVER APRESENTAR probabilidade INFERÊNCIA ESTÁTISTICA DISTRIBUIÇÕES TABELAS GRÁFICOS MEDIDAS AMOSTRAGEM EXPERIMENTOS MODELAGEM “Estatística aplicada às ciências da vida” epidemiologi a Biometria Veterinária Econometria Demografia Administração 6 3. ANÁLISE EXPLORATÓRIA DE DADOS A estatística descritiva tem como objetivos: organizar, descrever, apresentar, analisar e interpretar o conjunto de dados resultantes da observação de fenômenos coletivos. 4. LEVANTAMENTO DE DADOS 4.1. Definição “ É a operação de coleta para descrição e/ou análise das características de uma população.” Usaremos como exemplo a pesquisa que descreve a experiência de acesso da população de baixa renda do município de São Paulo a medicamentos, em 2005. A população de estudo é composta por adultos com 40 anos ou mais de idade, residente no município de São Paulo, cuja renda seja inferior ou igual a R$700,00. Essa pesquisa explora a contribuição do genérico como estratégia facilitadora dessa experiência. Um dos principais objetivos é responder se a população de estudo conhece e usa os medicamentos genéricos no mercado brasileiro. Para cada elemento pesquisado existe um conjunto de características levantadas. Na estatística essas características são chamadas de variáveis. Considerando a natureza numérica dos possíveis resultados observados ou as ocorrências possíveis para as variáveis, citadas no quadro 1, podemos agrupá-las em duas grandes categorias: Variáveis qualitativas e quantitativas (Figura 1). Os resultados quantitativos, obtidos por operação de contagem e estão inseridos no conjunto dos números inteiros (0, 1, 2,...) correspondem às Variáveis Quantitativas Discretas. Enquanto, os obtidos por uso de instrumentos de mensuração, projetados no conjunto dos números reais, definem as Variáveis Quantitativas Contínuas. Também os resultados resultantes de classificação denominados de qualitativos são subdivididos em dois grupos: Variáveis Qualitativas Nominais cujos resultados de observação são expressos por termos da linguagem natural; e as Variáveis Qualitativas Ordinais que usam algum critério de ordenação para expressar os resultados. Em geral, os possíveis resultados observados nas variáveis qualitativas são representados por números, o que não altera sua natureza qualitativa. Figura 1 – Classificação das variáveis quanto a natureza numérica Tipos de Variáveis Resultantes de Classificação Resultantes de contagem ou mensuração Quantitativas Qualitativas Nominal Ordinal Ex: Sexo Estado civil Classe social Faixa etária Contínua Renda Idade Discreta N de filhos N de medicamentos 7 HEP 5732 - BIOESTATÍSTICA Quadro 1 – Dicionário de variáveis da pesquisa Questão Variável nm Descrição número sequencial dominio Estrato peso upa Peso da amostra Unidade primária de amostragem sexo idade escolaridade (B1c) 0 Não Favela 1 Favela Qual a sua idade?(anos) trabalha O (a) Sr. (a) trabalha? b3a b3b 40 a 95 0 1 2 3 1 2 3 4 5 6 1 2 Até que ano da escola o (a) se. (a) completou? Atividade econômica b2b 1 Masculino 2 Feminino Sexo ativeconomica (B1d) renda Categoria Descrição Tipo Quanto o (a) Sr (a) ganhou no mês 0 a 7000 passado? (salário bruto) O (a) Sr. (a) tem matrícula em algum posto de saúde? O (a) Sr. (a) já ouviu falar em remédio genérico? Como o (a) Sr (a) ficou conhecendo o remédio genérico? b3c O remédio genérico em relação ao de marca mais conhecida, tem preço: b3d O (a) Sr (a) confia no remédio genérico? b3e O (a) Sr (a) já comprou um remédio genérico? b3f O (a) Sr (a) já recebeu algum genérico em posto de saúde ou hospital que atende pelo SUS? b3g Qual desse remédios é genérico? 1 2 1 2 1 2 3 4 12 14 23 24 34 123 124 234 1234 1 2 3 9 1 2 9 1 2 9 1 2 9 0 1 2 9 Sem escolaridade Primeiro grau Segundo grau Terceiro grau aposentado/pensionista desempregado dona de casa trabalho com registro em carteira trabalho sem registro em carteira servidor público Não Sim Não Sim Não Sim rádio televisão jornal/revista outros rádio/televisão rádio/outros televisão/jornal/revista televisão/outros jornal/revista/outros rádio/televisão/jornal/revista rádio/televisão/outros televisão/jornal/revista/outros rádio/televisão/jornal/revista/outros igual menor maior NR/NS Não (especificar) Sim (especificar) NR/NS Não (especificar) Sim NR/NS Não Sim NR/NS 8 Pensando ... Classifique as variáveis levantadas na pesquisa de medicamentos quanto a sua natureza numérica: Variável Natureza numérica nm dominio peso upa sexo idade escolaridade (B1c) ativeconomica (B1d) trabalha renda b2b b3a b3b b3c b3d b3e b3g 9 HEP 5732 - BIOESTATÍSTICA Transformando variáveis O recurso muito utilizado na estatística é transformar variáveis quantitativas em qualitativas. Quando a variável quantitativa é transformada em 0 ou 1, essa nova variável é resultante de uma classificação e conhecida como variável dicotômica, onde o valor 1 representa o sucesso e 0 o fracasso. Para fazer essa passagem de quantitativa para qualitativa é necessário definir um critério de classificação ou definir o número de intervalos para a nova variável. Para exemplificar usaremos a variável anos de estudo que é de natureza quantitativa contínua. Adotando o critério de classificação de 0, 1 a 8 anos, 9 a 11 anos e 12 anos ou mais, construímos a nova variável denominada grau de instrução, cujos valores possíveis podem ser representados por 1, 2, 3 e 4. A categoria 1 representa os indivíduos analfabetos, a categoria 2 representa os indivíduos com 1 a 8 anos de estudo e assim sucessivamente (Figura 2). Os valores possíveis da variável grau de instrução são representados por números e a eles são atribuídos nomes para cada categoria da variável. Figura 2 – Construção da variável Grau de instrução Quantitativas Critério Qualitativa Exemplo: Critério Grau instrução 0 Anos de estudo [1 - 8] [9 – 11] >= 12 1 (Analfabeto) 2 (Fundamental) 3 (Médio) 4 (Superior) Outros exemplos: Variáveis Critérios Peso ao nascer baixo peso : menos de 2.500g inadequado: 2.500 |-- 3.000g normal : 3.000g e mais Duração da gestação pré-termo : até 258 dias a termo : 259 |-- 294 dias pós-termo : 294 dias e mais n° de gestações prévias primigesta : zero gestações anteriores secundigesta : uma gestação anterior multigesta : duas e mais gestações anteriores Idade da mãe adolescente : 10 |-- 20 anos adulta : 20 |-- 35 anos idosa : 35 anos e mais Alguns critérios para determinação do número de classes: Se for muito pequeno o número de classes, é comum acontecer que características importantes de distribuição fiquem ocultas. Por outro lado classes demais fornecerão maior número de detalhes, mas resumirão de forma menos precisa a distribuição. A fórmula de Sturges é usada para representar os possíveis valores de uma variável quantitativa em intervalos de números reais. 10 O procedimento da fórmula de Sturges: 1) Encontrar o número de intervalos (k): k=1+ 3,3*log(n), onde n é o número de registros válidos ou elementos observados com informação. 2) h Encontrar a amplitude de cada intervalo (h): max imo min imo , valor máximo e mínino do conjunto de valores possíveis. k Usando como exemplo a variável renda levantada na pesquisa de medicamentos: k=1+3,3*log(2921) = 12,43 aproximar para 12 intervalos h max imo min imo k 7000 0 12 583,33 Podemos aproximar o valor para R$585 Assim, podemos representar os possíveis valores da variável renda em 12 intervalos com amplitude de R$585,00. Intervalos [ 0,00 ; 585,00] [ 585,01; 1170,00] [1170,01 ; 1755,00] [1755,01 ; 2340,00] [2340,01 ; 2925,00] [2925,01 ; 3510,00] [3510,01 ; 4095,00] [4095,01 ; 4680,00] [4680,01 ; 5265,00] [5265,00 ; 5850,00] [5850,01 ; 6435,00] [6435,01 ; 7020,00] Valores 1 2 3 4 5 6 7 8 9 10 11 12 Nota: É importante observar que o valor máximo da variável está dentro do último intervalo. Representações dos intervalos: [x1 ; x2] ou .x1|-| x2... maior ou igual a x1 e menor ou igual a x2 [x1 ; x2) ou x1 |- x2 maior ou igual a x1 e menor que x2 (x1 ; x2) ou x1 – x2 maior que x1 e menor que x2 Dica informe o valor mínimo e máximo de cada intervalo. Principalmente no primeiro e no último intervalo. Assim, o leitor terá o conhecimento da amplitude do conjunto de valores possíveis da variável. 11 HEP 5732 - BIOESTATÍSTICA 4.2. Fonte de dados e Tempo Os levantamentos de dados são classificados em fonte de dados primários ou secundários e no tempo (contínuo, periódico ou ocasional). A fonte de dados primária ocorre no levantamento da investigação, enquanto os dados secundários, já analisados anteriormente, são disponibilizados para disseminação da informação. Todas as pesquisas levantadas pelo IBGE são de domínio público e estão disponíveis no site. No Brasil existem importantes fontes oficiais de dados secundários que devem ser aproveitados para investigações da área da saúde. O IBGE além de dispor dados socioeconômicos do Censo Demográfico, realizado a cada 10 anos, também oferece dados específicos sobre saúde, levantados quinquenalmente pela PNAD. Dados específicos sobre populações e condições de saúde podem ser encontrados no site do DATASUS-MS. Encontram-se informações demográficas e epidemiológicas já classificadas segundo sexo, faixa etária, municípios ou regiões geográficas. Importantes estudos epidemiológicos podem ser elaborados, com economia de custo e tempo, a partir do uso dessas bases de dados. Ainda o SEADE, CVE, e a Prefeitura Municipal de São Paulo dispõem, respectivamente, importantes arquivos de dados sobre doenças de notificação compulsória, mortalidade e morbidade para todos os municípios do Estado de São Paulo. 12 5. APRESENTAÇÃO TABULAR DE DADOS Nessa etapa inicial queremos conhecer os dados levantados, e para isso os valores das variáveis são resumidos e apresentados no formato de tabela. A primeira análise a ser feita é a consistência das informações coletadas. É nessa fase que identificaremos os problemas de digitação e ausência de resposta ou “missing”. Após a validação dos dados iniciaremos a análise descritiva das variáveis com objetivo de identificar o comportamento de cada variável de análise. 5.1. Tabela de frequência O resultado de contagem dos valores possíveis de uma variável organizado em tabela informa o comportamento da variável. Se a variável é qualitativa ou quantitativa discreta simplesmente os valores possíveis são listados e contados. CONTAGEM, APURAÇÃO. VARIAVEL RESULTADOS MASCULINO SEXO Variável qualitativa CONTAGEM ##### ##### ##### ##### ##### # FREQUENCIA TOTAL 26 50 FEMININO ##### ##### ##### ##### #### 24 Quando a variável é quantitativa contínua os resultados são apresentados em intervalos de valores e contados. Intervalos de Renda [ 0,00 ; 585,00] [ 585,01; 1170,00] [1170,01 ; 1755,00] [1755,01 ; 2340,00] [2340,01 ; 2925,00] [2925,01 ; 3510,00] [3510,01 ; 4095,00] [4095,01 ; 4680,00] [4680,01 ; 5265,00] [5265,00 ; 5850,00] [5850,01 ; 6435,00] [6435,01 ; 7020,00] frequência 2223 563 99 22 8 3 2 0 0 0 0 1 Além do resultado de contagem (frequência absoluta) é apresentada a frequência relativa e a acumulada. f A frequência relativa informa a proporção de cada ocorrência em relação ao total ( i ni ) e a n soma é igual a 1. A frequência relativa permite a comparação com outras fontes de dados, desde que os valores listados apresentem os mesmos intervalos de valores, no caso de uma variável quantitativa contínua, ou as mesmas ocorrências quando se trata de uma variável qualitativa ou quantitativa discreta. Na prática a frequência relativa é expressa em porcentagem e seus resultados apresentam a distribuição de frequência da variável. 13 HEP 5732 - BIOESTATÍSTICA Intervalos de Renda [ 0,00 ; 585,00] [ 585,01; 1170,00] [1170,01 ; 1755,00] [1755,01 ; 2340,00] [2340,01 ; 2925,00] [2925,01 ; 3510,00] [3510,01 ; 4095,00] [4095,01 ; 4680,00] [4680,01 ; 5265,00] [5265,00 ; 5850,00] [5850,01 ; 6435,00] [6435,01 ; 7020,00] Total Frequência (ni ) 2223 563 99 22 8 3 2 0 0 0 0 1 2921 fi 0,7610 0,1927 0,0339 0,0075 0.0027 0,0010 0,0007 0,0000 0,0000 0,0000 0,0000 0,0004 0,9999 A frequência acumulada representa as frequências relativas acumuladas de uma variável que apresente uma ordenação (qualitativa ordinal, quantitativa discreta ou contínua). Seus resultados facilitam a visualização de informações relevantes do comportamento da variável, e podem ser usados para estabelecer ponto de corte em um determinado valor da variável. E ainda informa o ponto ou o intervalo que divide a distribuição em duas partes iguais. No exemplo da variável renda nota-se que 95% dos adultos ganham até R$1170,00. Intervalos de Renda [ 0,00 ; 585,00] [ 585,01; 1170,00] [1170,01 ; 1755,00] [1755,01 ; 2340,00] [2340,01 ; 2925,00] [2925,01 ; 3510,00] [3510,01 ; 4095,00] [4095,01 ; 4680,00] [4680,01 ; 5265,00] [5265,00 ; 5850,00] [5850,01 ; 6435,00] [6435,01 ; 7020,00] Total frequência 2223 563 99 22 8 3 2 0 0 0 0 1 2921 % 76.10 19.27 3.39 0.75 0.27 0.10 0.07 0.00 0.00 0.00 0.00 0.04 99.99 %acumulada 76.10 95.38 98.77 99.52 99.79 99.90 99.97 99.97 99.97 99.97 99.97 100.00 14 5.2. Apresentação Seguiremos as normas definidas pelo IBGE com o objetivo de padronizar a apresentação tabular dos dados. As normas estão disponíveis no arquivo Normas_de_apresentação_tabular.pdf. A seguir são apresentadas as principais informações necessárias para elaboração de uma tabela. APRESENTAÇÃO TABELAS (apresenta distribuições de freqüências) NORMAS IBGE Tabela 1 Título – Distribuição de recém-nascidos segundo sexo. Brasília, 1999. SEXO N % MASCULINO TOTAL 50 100,0 Fonte: Lista de exercícios, curso HEP 5732, FSP, 2005. Tabela 2 – Recém-nascidos segundo peso ao nascer (gramas) Brasília, 1999. PESO NASCER N % 1950 |---- 2400 4 8,0 2400 |---- 2850 7 14,0 2850 |---- 3300 21 42,0 3300 |---- 3750 12 24,0 3750 |----|4200 6 12,0 50 100,0 TOTAL Fonte: Ruiz F.M Saude,Brasília, 1999. MODELO GERAL Titulo: Recém-nascidos segundo peso ao nascer (gramas) Local A, 1999. VARIÁVEL Freq. Absoluta Freq. Relativa Classes Ou Valores TOTAL 50 100,0 Fonte: 15 HEP 5732 - BIOESTATÍSTICA EXERCÍCIOS Apresente a análise descritiva dos dados da pesquisa de medicamentos usando o programa STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.xls e siga o roteiro: 1) Use o programa Stat Transf para conversão do arquivo no formato Excel para STATA/SE version 9. 2) Abra o arquivo no programa. 3) Converter as variáveis no formato texto para numérica. Use o comando decode. 4) Criar a variável faixa de renda usando a fórmula de Sturges. 5) Atribuir os nomes das variáveis e das categorias. 6) Construir as tabelas de frequências para todas as variáveis de investigação. 7) Comente os resultados encontrados. 16 6. APRESENTAÇÃO GRÁFICA DE DADOS Apesar da apresentação dos dados através de tabela ser mais precisa, a representação gráfica tem a vantagem de transmitir os dados de uma maneira mais rápida e viva, oferecendo uma visão imediata sobre o comportamento do fenômeno que estamos descrevendo. Elaborar mapas e gráficos é uma arte que somente pode ser adquirida através de prática, com os cuidados necessários para evitar posições tendenciosas, permitindo a visão clara dos pontos essenciais a serem notados. Portanto as regras básicas de elaboração de um gráfico são: simplicidade clareza veracidade A representação gráfica tem inúmeras aplicações na Estatística. Ela nos permite, por exemplo, fazer uma análise exploratória dos dados, verificando seu comportamento, detectando tendências e pontos atípicos ("outliers"), ou seja, observações demasiadamente distantes da massa do conjunto de dados. APRESENTAÇÃO GRÁFICA DE DADOS - REPRESENTAM TABELAS (distribuições, coeficientes, series) -EIXOS CARTESIANOS linhas, retângulos, círculos - FIGURAS GEOMÉTRICAS MEDIDAS GEOMÉTRICAS . Altura ou comprimento, área, ângulos Bioestatística-aula 3 21/03/2006 - REPRESENTAM TABELAS (distribuições, coeficientes, series) -EIXOS CARTESIANOS (Y) Frequencias Ou outros valores escalas X Resultados ou valores zero 17 HEP 5732 - BIOESTATÍSTICA 6.1. Variáveis qualitativas ou quantitativa discreta Diagrama de Superfícies em Colunas ou Barras Simples: representação de uma única variável por meio de retângulos dispostos verticalmente ou horizontalmente. Utiliza-se este tipo de gráfico para comparações de uma só variável. Múltiplas: permite a comparação de várias variáveis ao mesmo tempo. Essas barras são construídas com o mesmo tamanho de base, de forma a permitir a comparabilidade entre classes seja feita sempre de acordo com a altura (forma vertical) ou comprimento (horizontal). Diagramas por Complementares Superfícies em Colunas Superpostas ou Porcentagens Nesta representação as barras estarão superpostas, com uso para o caso de duas ou mais variáveis. No caso de porcentagens complementares, perde-se a comparabilidade de grandeza entre as barras, naturalmente, sendo utilizada para comparação de estrutura. Diagramas por Superfícies em Setores A representação setorial tem seu uso intenso por possibilitar uma distinção clara entre os setores envolvidos e favorecer a comparação com o total. Diagrama por Pontos Consiste na representação gráfica de uma informação por meio de pontos. Este gráfico tem seu uso quando representamos fatos na sua distribuição espacial ou regional. Número de pessoas Exemplo: 9 x x x x x x x x x 6 3 x x x x x x x x x x 1 2 2 x x 4 5 Tamanho da família 18 6.2. Variáveis quantitativas contínuas Diagramas por Superfícies em Histogramas O histograma é formado por retângulos cujas áreas representam as frequências dos intervalos de suas classes. Esta apresentação é indicada para variáveis contínuas, e, portanto não há espaço entre as barras. Número de residentes segundo idade . Muribeca, 2006. IDADE NUM. % 0 |– 5 50 5 |– 10 75 10 |– 15 100 28,6 15 |– 20 75 21,4 20|– 25 50 14,3 TOTAL 350 100,0 14,3 21,4 Fonte : IBGE, 17/03/2006 . Num. 100 - 50 | | 0 5 | | | | 10 15 20 25 idade Num. 100 - 50 | 0 | 5 | | | | 10 15 20 25 idade 19 HEP 5732 - BIOESTATÍSTICA Num. 100 - 50 | | 0 5 | | | | 10 15 20 25 | | | | 10 15 20 25 idade Num. 100 | 50 | | | 0 5 | idade Num. 100 - 50 | 0 | 5 | | | | 10 15 20 25 idade Construção de um polígono de frequência 20 Num. 100 Num. - | 100 | | 50 | - | | | | 0 5 | | | | - 50 | | | | 10 15 20 25 | idade | | 0 | | | | 5 | | | | 10 15 20 25 Num. 100 - 50 | 0 | 5 | | | | 10 15 20 25 idade Fonte : IBGE, 2006 . Contra exemplo Histograma com Intervalos de Classes Desiguais É comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas de frequências. Alguns cuidados especiais devem ser tomados quanto à análise e construção de histograma. A tabela seguinte fornece a distribuição de atendimentos em serviços de urgências de um hospital X. Um primeiro cuidado é construir a coluna que indica as amplitudes de cada classe. Um segundo passo é a construção da coluna da amplitude de cada classe, e o terceiro passo é a construção das densidades de frequências em cada classe, ou seja, a medida que indica qual a concentração por unidade da variável (ajuste na frequência em relação a amplitude). De modo análogo, pode-se construir a densidade da proporção (ou porcentagem) por unidade da variável. 21 | idade HEP 5732 - BIOESTATÍSTICA Para a construção do histograma, usa-se no eixo X o número de atendimentos e no eixo Y o valor da densidade 1 ou 2. Distribuição de atendimentos em serviço de urgência do hospital X Número de atendimentos Frequência Absoluta (A) Amplitude Densidade1 Frequência Densidade 2 (D)/(B) (B) (A)/(B) 0 |---- 10 5 10 0,5 Relativa (D) 0,02 10 |---- 20 20 10 2,0 0,08 0,008 20 |---- 30 35 10 3,5 0,14 0,014 30 |---- 40 40 10 4,0 0,16 0,016 40 |---- 60 50 20 2,5 0,20 0,010 60 |---- 80 30 20 1,5 0,12 0,006 0,002 80 |---- 100 20 20 1,0 0,08 0,004 100 |---- 140 20 40 0,5 0,08 0,002 140 |---- 180 15 40 0,38 0,06 0,0015 180 |---- 260 15 80 0,19 0,06 0,0008 Total 250 1) Construa o gráfico de barra usando no eixo da ordena os valores da freqüência absoluta Frequência absoluta 60 50 40 30 20 10 0 0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 60 60 |- 80 80 |- 100 100 |- 140 140 |- 180 180 |- 260 Número de empregados Densidade 1 (número de empresas por empregados) 2) Construa o gráfico de barra usando no eixo da ordena os valores da densidade 1 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 10 20 30 40 50 60 70 80 90 10 0 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 Número de empregados 3) Compare o gráfico 1 e 2. Qual a conclusão? 22 Pensando ... Represente graficamente a variável renda levantada na pesquisa de medicamentos no espaço quadriculado abaixo. Faixa Renda [ 0 ; 400] [401; 800] [800;7000] Total n 1957 675 289 2921 % 67.0 23.1 9.9 100.0 %ac 67.0 90.1 100.0 0 5.0e-04 .001 Density .0015 .002 Compare o gráfico anterior com a saída do histograma executado no programa STATA. Quais são as diferenças? 0 2000 4000 renda 6000 8000 23 HEP 5732 - BIOESTATÍSTICA 6.3. Variáveis qualitativas ordinais ou quantitativa discreta Ogiva É a representação gráfica de uma distribuição de frequências acumuladas, cujos segmentos perpendiculares são traçados a partir do limite superior de cada classe. As frequências (absolutas ou percentuais) são somadas conforme procedimento na ultima coluna da tabela abaixo, e marcadas como no gráfico a seguir. Tabela 2.8 - Distribuição do número de pacientes segundo idade. Programa A. Centro de Saúde X, primeiro semestre de 1999. Idade (anos) 10 15 15 20 20 25 25 30 30 35 35 40 40 45 Total .f 10 15 60 65 40 50 30 270 .f(acumulada) 10 25 85 150 190 240 270 FONTE: Centro de Saúde X Figura 2.9 - Distribuição do número acumulado de pacientes segundo idade. Programa A. Centro de Saúde X, primeiro semestre de 1999. freqüência acumulada % 250 100 90 80 200 70 60 150 50 40 100 30 20 50 10 0 0 10 15 20 25 30 35 40 45 idade (anos) Fonte: Centro de Saúde X Esse gráfico permite localizar o MEIO da distribuição (idade mediana 29 anos ) no eixo horizontal. Também possibilita visualizar, de modo aproximado, os percentis da distribuição, tais como: a) b) c) d) e) percentagem de pacientes com idade até 30 anos 56% percentagem de pacientes com idade igual a 25 anos ou mais 68,0% o valor da variável que divide a distribuição em 2 partes iguais 29 anos 70% dos pacientes apresentam idade igual ou inferior a 35 anos a percentagem de pacientes cuja idade está compreendida entre 15 e 34 anos completos 68,0 % 24 6.3. Séries temporais Consiste na representação gráfica de uma informação por meio de uma linha poligonal. O gráfico de linhas é muito utilizado para acompanhar a evolução de uma variável ou também para comparação entre duas ou mais variáveis. Nesse último caso, às vezes encontramos dificuldades quando as séries em questão possuem unidades de medida ou grandeza diferentes. O que se faz, em geral, é adotar uma escala adequada ou converter os dados para uma outra base, ou ainda se utilizar de eixo suplementar. Definição: Uma série temporal é qualquer conjunto de observações ordenadas no tempo. Exemplo extraído do DATASUS: Evolução das Condições de Nascimento em São Paulo Evolução das Condições de Nascimento 25 50 20 40 % 15 30 10 20 5 10 0 0 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Taxa Bruta de Natalidade 60 % com prematuridade % de partos cesáreos % baixo peso - geral % de mães de 10-19 anos % de mães de 10-14 anos Taxa Bruta de Natalidade Ano Fonte: SINASC. Situação da base de dados nacional em 14/12/2009. Nota: Dados de 2008 são preliminares. Coeficiente de Mortalidade para algumas causas selecionadas (por 100.000 habitantes) Causa do Óbito 2002 Aids 11.4 Neoplasia maligna da mama (/100.000 mulheres) 18.8 Neoplasia maligna do colo do útero (/100.000 mulh) 5.2 Infarto agudo do miocardio 56.0 Doenças cerebrovasculares 54.5 Diabetes mellitus 21.2 Acidentes de transporte 9.5 Agressões 50.2 Fonte: SIM. Situação da base de dados nacional em 14/12/2009. Nota: Dados de 2008 são preliminares. 2003 10.7 19.2 4.8 56.6 52.0 21.2 13.8 47.0 2004 9.5 18.6 4.4 53.8 53.8 21.5 13.4 36.8 2005 9.4 19.7 5.5 47.9 49.6 18.6 14.2 25.8 2006 9.4 20.4 4.5 49.9 50.8 19.5 14.9 23.0 2007 8.5 20.0 4.6 52.0 50.1 20.5 15.7 17.4 2008 9.3 20.8 4.2 52.9 52.6 20.7 14.3 14.9 25 HEP 5732 - BIOESTATÍSTICA 6.4. Escalas aritméticas e logarítmicas Com relação a escala, em geral utilizamos a escala aritmética, porém em várias situações a escala logarítmica se torna imprescindível. A denominação para esses gráficos é logarítmico ou semi-logaritmico. Os gráficos semi-logarítmicos são úteis quando as razões relativas de crescimento têm significado ou quando são necessárias comparações entre razões de crescimento de duas séries ou mais. Da mesma forma estes gráficos são úteis quando comparamos duas séries cujas magnitudes são bastante diferenciadas. BIOESTATISTICA 1 - 2006 (Aula 4) ESCALA SEMILOG PARA DIAGRAMAS LINEARES ano total 1968 1969 1970 1971 1972 1973 1974 a) junho 1,4 1,5 2,1 6,6 15,6 26,5 17 0,13 0,12 0,22 0,37 1,49 2,24 6,26 escala aritmética Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período de 1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano 30 Coeficiente 25 20 15 10 5 0 1968 1969 1970 1971 1972 1973 1974 Ano total junho Fonte: Ver. Saúde Pública, 10:1-16, 1976 b) escala logarítmica Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período de 1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano Ceficiente 100 10 1 0,1 1968 1969 1970 1971 1972 1973 1974 Ano total junho Fonte: Ver. Saúde Pública, 10:1-16, 1976 26 6.5 Box Plot O Box Plot (desenho esquemático ou esquema de cinco números) informa medidas de posição, dispersão, assimetria, caudas e dados atípicos (outliers). A posição central é dada pela mediana e a dispersão pela amplitude interquartílica. As medidas de posição q1, q2 e q3 informam a assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores distantes e pelos valores atípicos. Uma definição intuitiva de um "outlier" poderia ser: "uma observação que se desvia tanto das demais, que nos faz suspeitar que fosse gerada por um mecanismo diferente". Um conjunto de dados pode possuir uma ou mais observações que "parecem não pertencer ao conjunto" e, portanto, para evitar distorções, deveriam ser descartadas antes da análise dos dados. Escolher ou descartar tais observações é um processo subjetivo e, quando executado inescrupulosamente pode levar a resultados indesejáveis. Para resolver este problema, foram construídos testes que poderão ser utilizados para determinar se um "outlier aparente" está realmente além do padrão exibido pelas outras observações.Este assunto será abordado no ítem "Teste de Hipóteses". No entanto uma representação gráfica pode nos auxiliar na detecção dos "outliers". É importante lembrar que, muitas vezes, um "outlier" é uma observação pertinente, ou seja, um "outlier" pode ser uma indicação de que o fenômeno que estamos estudando é, na realidade, diferente daquele que pensamos ser. Exemplos disso ocorrem frequentemente no campo da astronomia. "Outliers", muitas vezes, indicaram a presença de astros que ainda não haviam sido descobertos pelo homem. A presença (desconhecida) destes astros pode modificar o conjunto de observações do cientista, gerando assim as "observações suspeitas". Enfim, a eliminação ou não de um "outlier" é um problema que, independentemente de análise matemática, deve ser resolvido pelo "bom senso" e crítica do especialista que está fazendo a análise. Exemplo: Saída do SPSS Outliers 3,4 Gráfico Box-Plot 10 Exemplo: Preço médio do produto A N Range Mean Median Percentil 25 Percentil 75 Interquartile Range Variance Skewness Kurtosis 90 1,2 2,99 2,98 2,94 3,05 0,11 0,02 -2,92 19,64 3,2 3o. Quartil Mediana 3,0 1o. Quartil 2,8 43 2,6 Pontos Extremos 2,4 2,2 82 2,0 N= 90 LIGA_MIN Preço médio do produto A 27 HEP 5732 - BIOESTATÍSTICA Cálculo do Box Plot ponto extremo * * Q3+3*IQ “outlier” Q3+1.5*IQ q3 q2 Inter-quartil (IQ) q1 Q1-1.5*IQ * “outlier” * Q1-3*IQ ponto extremo EXERCÍCIOS Represente graficamente as variáveis levantadas na pesquisa de medicamentos usando o programa STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.dta e siga o roteiro: 1) 2) Construir os gráficos para cada variável de investigação. Escolha o gráfico adequado para cada tipo de variável. Existe outlier na variável renda? 28 7. MEDIDAS RESUMO A sintetização dos dados sob a forma de distribuição de frequência é uma primeira etapa no estudo dos fenômenos estatísticos. Necessitamos, além disso, de medidas que resumam as características peculiares do fenômeno. Isso permite, entre outras coisas, comparar entre si, séries de dados, através do confronto desses parâmetros. As características que essas medidas devem possuir são relativas ao: seu valor central seu grau de dispersão em torno do valor central seu grau de assimetria, se existir 7.1. Medidas de Tendência Central Definição O conceito de medida de tendência, diz respeito à medida de um valor que possa melhor representar a tendência de um conjunto de números de uma variável. As três medidas mais utilizadas são a média, a mediana e a moda. Finalidade As medidas de Tendência Central indicam o centro da distribuição de frequências ou a região de maior concentração de frequência na distribuição. Média aritmética A média aritmética é a primeira idéia que ocorre quando se fala em “média” de alguma variável numérica e é calculada dividindo-se a soma dos números do conjunto pelo tamanho do mesmo. Assim a média entre 2, 4 e 6 é: (2+4+6)/3 = 4. A média populacional é convencionalmente denominada µ, e é calculada da forma genérica como: X 3 ....... X N 1 N Xi , onde, N é o tamanho da população e “i” assume N N i1 valores de 1 até N e representa cada um dos indivíduos da população. X1 X2 Já a média de uma amostra, ou média amostral, é designada por X e assume a forma: n xi x3 ....... x n i 1 X , onde n é o tamanho total da amostra e “i” assume valores de n n 1 até n e representa cada um dos indivíduos da amostra. x1 x2 Observa-se que, dada uma amostra de tamanho n retirada de uma população de tamanho N, X é apenas uma estimativa de µ, ou seja, a média amostral é uma estimativa da média populacional. 29 HEP 5732 - BIOESTATÍSTICA Propriedades da média aritmética 1. A média de qualquer conjunto pode ser sempre calculada. 2. Para um dado conjunto de números a média é única. 3. A média é afetada por todos os valores do conjunto. 4. Somando-se, subtraindo-se, multiplicando ou dividindo cada elemento do conjunto por uma constante a média também será acrescida, diminuída, multiplicada ou dividida por esta constante, respectivamente. Calculando a média de dados agrupados Considere o número de internações (X) de um hospital, observado para os trinta dias do mês de abril de 2003. Os dados são listados abaixo, por ordem cronológica. A tabela 1 apresenta sua distribuição de frequências e demais colunas para calculo da média e da mediana N = 30 dias amplitude : ( 0 =< X <=9 ) DIA 1 2 3 4 5 6 7 X = Número de 3 0 5 2 0 1 7 internações DIA X = Número de internações 8 4 9 0 10 11 12 13 14 15 0 1 9 1 3 2 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 5 2 7 5 1 0 4 6 4 0 3 5 8 5 6 Tabela 1 – Distribuição de freqüências de X X F 0 6 1 4 2 3 3 3 4 3 5 5 6 2 7 2 8 1 9 1 total 30 Tabela 2 - Procedimento para cálculo. X 0 1 2 3 4 5 6 7 8 9 Total F 6 4 3 3 3 5 2 2 1 1 30 X.f 0 4 6 9 12 25 12 14 8 9 99 Usando dados da terceira coluna ,…….. X X. f N 99 30 3,3... int ernações..... por......dia 30 Média Geométrica É calculada através de raiz n-ésima do produto das N observações da variável. N Mg X1F1 XF22 ... XFNN onde Fi é frequência Esta média é utilizada quando variável em estudo apresenta um comportamento exponencial ou segue uma progressão geométrica. Exemplos: Índice Médio Mensal da Inflação, Crescimento Populacional. Exemplo: Calcular a média geométrica dos valores 3, 6, 12, 24, 28 Mg 5 3 6 12 24 28 12 obs: F1= F2 = F3 = F4 = F5 =1 Média Harmônica É calculada através do recíproco da média aritmética dos recíprocos das observações da variável aleatória. Mh N F1 F2 X1 X2 N ... FN N XN i 1 Fi Xi N fi Obs: N i 1 Exemplo: Calcular a média harmônica para 2, 5, 8. Mh 1 3 3 1 5 1 8 3,64 31 HEP 5732 - BIOESTATÍSTICA Mediana A mediana divide um conjunto ordenado de dados em dois grupos de quantidades iguais. A metade do grupo estará abaixo e, a outra metade, acima da mediana. Isto significa que para um conjunto de dados, se os mesmos forem ordenados, a mediana ocupará o centro deste conjunto. Ex: Dada a variável x = {1, 3, 0, 2,4}, a mediana é 2, pois ordenando, temos {0,1,2,3,4} Para se calcular a mediana de um conjunto de dados deve-se: 1) ordenar o conjunto; 2) verificar se há um número par ou ímpar de valores no conjunto; 3) verificar que, se o conjunto tiver um número ímpar de elementos, a mediana será o valor que n 1 ocupa a posição central, ou seja, posição neste conjunto, mas se o conjunto tiver um número 2 par de elementos, a mediana será a média entre as duas posições centrais, ou seja, a média das n n 2 posições e (lembrando que n é o número de elementos do conjunto, ou da amostra). 2 2 Calculando a mediana em dados agrupados de uma variável discreta Usando os dados da internação calcule a mediana dos dados apresentados na tabela 3. Tabela 3– calculo da mediana em dados agrupados(frequências) X F % 0 1 2 3 4 5 6 7 8 9 total 6 4 3 3 3 5 2 2 1 1 30 20,0 13,3 10,0 10,0 10,0 16,7 6,7 6,7 3,3 3,3 100,0 % acumulada 20,0 33,3 43,3 53,3 63,3 80,0 86,7 93,4 96,7 100,0 N=30 (par).....Mediana = média dos dois valores de X que estão nas posições centrais. Note que os dois valores localizados nos postos décimo quinto (N/2) e décimo sexto (N/2)+1 são iguais a 3..Portanto......mediana = 3 internações por dia Observação : Se N for impar , o valor mediano ocupará o posto de ordem (N+1)/2 . Ou seja, a mediana é expressa pelo valor de X que se localiza exatamente no meio da distribuição de frequências . 32 Calculando a mediana de dados agregados em intervalos de valores Os valores da variável estão agrupados em classes. O ponto médio de cada classe será tomado como valor de X para calcular a média . Tabela 4 - Média e Mediana para valores de X agrupados em classes (1) (2) (3) (4) (5) (6) (7) Numero .f Ponto X . f f acumulada % % de internações Médio (X) acumulada 0 |------ 3 13 1,5 19,5 13 43,3 43,3 3 |------ 6 11 4,5 49,5 24 36,7 80,0 6 |------| 9 6 7,5 45,0 30 20,0 100,0 Total 30 114 100,0 O valor mediano ,que está no décimo quinto posto (30/2), situa-se na segunda classe. Ou seja, é maior ou igual a 3 e menor que 6 . Usando calculo proporcional>>>poderemos seguir o seguinte raciocínio . A – vemos na coluna 5 da tabela 4 que faltam apenas (15 – 13=2) 2 dias para localizar o valor mediano. B - Mediana = 3 internações + (k)int?...... k int./2 dias = 3int / 11 dias C - K interações = (3x2)/11 = 6/11 = 0,54 internações por dia B - Mediana = 3 + 0,54 = 3,54 internações por dia . Ou poderemos optar pelo uso da expressão abaixo: Mediana será calculada pela expressão Md Li ( N / 2) f ac .hmed , f med Onde : Li = é o limite inferior da classe que contém a mediana ( 3 |---- 6 ) N = 30 .fac = frequencia acumulada até a classe anterior à que contém a mediana (13) .fmed = frequência da classe que contem a mediana (11) .hmed = amplitude da classe que contem a mediana (3) Md = 3 + [(15 – 13) / 11] . 3 = 3 + 0,54 = 3,54 internações Quartis Os quartis dividem o conjunto de dados em quatro partes iguais e os percentis em 100 partes iguais. Quadro 1– Apresentação e explicação dos quartis. Estatística Notação Definição, propriedades 1º quartil Q1 2º quartil (Mediana) Q2 Me 3º quartil Q3 É o valor que ocupa a posição tal que um quarto dos dados (25%) tomam valores menores ou iguais ao valor do primeiro quartil. Coincide com o valor da mediana, ou seja 50% dos dados tomam valores menores ou iguais aos da mediana. Entre o primeiro quartil (Q1) e a mediana (Me) ficam 25% dos dados. É o valor que ocupa a posição tal que um quarto dos dados (25%) tomam valores maiores ou iguais ao valor do terceiro quartil. Entre a mediana (Me) e o terceiro quartil (Q3) ficam 25% 33 HEP 5732 - BIOESTATÍSTICA Percentis Os percentis dividem o conjunto de dados em 100 partes iguais. Quadro 2 – Percentis. Percentil 1º 5º 10º 25º 50º 75º 90º 95º 99º Notação Definição, propriedades P1 P5 P10 P25 P50 P75 P90 P95 P99 1% dos dados tomam valores menores ou iguais 5% dos dados tomam valores menores ou iguais 10% dos dados tomam valores menores ou iguais 25% dos dados tomam valores menores ou iguais (Q1) 50% dos dados tomam valores menores ou iguais (Q2 = Me) 25% dos dados tomam valores maiores ou iguais (Q3) 10% dos dados tomam valores maiores ou iguais 5% dos dados tomam valores maiores ou iguais 1% dos dados tomam valores maiores ou iguais Moda A moda é o valor que aparece com maior freqüência. É a medida menos usada. Ex: Seja x = {0, 1, 0, 2, 3, 4, 4, 0, 3, 2, 5, 6}, a moda é 0. Seja x= {3; 1; 2; 3; 3; 4; 5; 1,5; 2; 1,5; 0; 4; 1,5; 1,5; 6} a moda é 1,5. A moda (valor da variável que ocorreu com maior frequência) é igual a 0 para a variável tratada como discreta na Tabela 2. Na tabela 4, com os valores agrupados em classe, a classe ( 3 – 6 ) contém a moda. A expressão abaixo pode ser usada para calcular a moda em valores agrupados em classe, quando a classe modal for única e não estiver situada nos extremos da distribuição. calcula-se a moda pela expressão: Moda Li d1 .h d1 d 2 onde: ( L1 ) é o limite inferior da classe modal (.d1 ) a diferença entre a frequência da classe modal e a da classe imediatamente anterior . (.d2 ) a diferença entre a frequência da classe modal e da classe imediatamente seguinte, e ( h ) é a amplitude da classe modal 34 Comparação entre Média, Mediana e Moda Muitas vezes é necessário decidir qual a medida de tendência central que mais se adequada aos objetivos. A seguir, segue uma tabela que apresenta vantagens e limitações de cada uma delas. Quadro 3 – Vantagens e desvantagens de cada uma das medidas de tendência central. Vantagens Reflete todos os valores Média da amostra Menos sensível à valores Mediana extremos que a média Representa um valor Moda típico Limitações É influenciada por valores extremos Mais difícil de ser determinada para grande quantidade de dados Não tem função em certos conjunto de dados Tipo de Variáveis Contínua e Discreta Contínua e Discreta Contínua, Discreta, Nominal e Ordinal Pensando .... Durante uma verificação de qualidade no conteúdo de seis recipientes de café instantâneo, foram obtidas as seguintes as seguintes notas: 6,03 5,59 6,40 6,00 5,99 6,02 Qual a quantidade média e mediana encontrada? Suponha que o terceiro valor tenha sido incorretamente medido e que na verdade seja de 6,04. Determine novamente a nota média e mediana. Qual a conclusão? 35 HEP 5732 - BIOESTATÍSTICA 7.2. Medidas de Dispersão As medidas de tendência central nos dão uma idéia da concentração dos dados em torno de um valor. Entretanto, é preciso também conhecer suas características de espalhamento ou dispersão. Para avaliar quantitativamente o grau de variabilidade ou dispersão dos valores de um conjunto de números em torno de um valor médio, faz-se uso das denominadas medidas de dispersão: Variância e Desvio padrão Amplitude Interquartil Variância e Desvio padrão A variância e o desvio padrão é a medida de dispersão universalmente usada em variáveis discretas e contínuas. Informa a distância média de todos os valores observados de X em torno da sua média aritmética . Cálculo da Variância e do Desvio padrão: n x )2 ( xi i 1 Varância n 1 n ( xi Desvio. padrão x)2 i 1 n 1 Cálculo do desvio padrão quando os dados estão agrupados: Voltando à tabela 1, desenvolve-se o seguinte procedimento: X 0 1 2 3 4 5 6 7 8 9 F 6 4 3 3 3 5 2 2 1 1 X-MEDIA 0 - 3,3= - 3,3 1 - 3,3= - 2,3 2 - 3,3= - 1,3 3 - 3,3= - 0,3 4 - 3,3= 0,7 5 - 3,3= 1,7 6 - 3,3= 2,7 7 - 3,3= 3,7 8 - 3,3= 4,7 9 - 3,3= 5,7 30 (X-MEDIA)2 10,89 5,29 1,69 0,O9 0,49 2,89 7,29 13,69 22,09 32,49 (X-MEDIA) 2 . F 10,89 X 6=65,34 5,29 X 4 = 21,16 1,69 X 3 = 5,07 0,O9 X 3 = 0,27 0,49 X 3 = 1,47 2,89 X 5 = 14,45 7,29 X 2 = 14,58 13,69 X 2 = 27,38 22,09 X 1 = 22,09 32,49 X 1 = 32,49 204,30 Variância = 204,30 / 30 = 6,81 internações 2 Desvio padrão = 6,81 = 2,61 internações Note que a variância é igual a media dos desvios ao quadrado. Isto decorre da propriedade da média, cuja soma dos desvios simples é sempre igual a zero. 36 Coeficiente de variação = 2,61/3,3= 0,791 ou 79,1% . significa que a dispersão da distribuição em torno da média de internações é alta (muito próximo de 100%) . Ou seja, o desvio padrão é quase igual a média , o que indica que há valores muito distantes da média . Síntese: 1 - Informações descritivas Variável : numero de internações ; N = 30 Amplitude = 9 internações ( 0 – 9 ); média = 3,3 internações; dp = 2,61 internações 2 – Os cálculos serão iguais para variáveis continuas. Apenas observe que os valores de X serão expressos pelos pontos médios das classes. 3 – Observe a formula da Variância: média dos quadrados dos desvios em relação à média da distribuição. Amplitude Uma medida de dispersão é a da amplitude total do conjunto de dados calculada pela diferença entre o valor máximo menos o valor mínimo. Exemplo: x={-1, 2, 0, 3, 2, 1}, amplitude é 3 – (-1) = 4. A amplitude pode levar a erros de avaliação, pois não representa o conjunto dos dados. Muitas vezes reflete muito mal a dispersão dos mesmos. Aplicações: Controle de qualidade, Temperatura entre outras. Interquartil É uma medida de dispersão definida como a diferença entre o terceiro e o primeiro quartis. Essa medida de dispersão é usada para expressar a variabilidade em torno da mediana. Aplicações: Na construção do Box Plot e para expressar a variabilidade em torno da mediana. 37 HEP 5732 - BIOESTATÍSTICA EXERCICIO 1) Numero 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Fuma 0 0 0 1 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 11 0 1 0 0 0 1 1 1 0 0 1 0 Pressão sistólica 152 124 105 146 167 156 133 144 186 103 98 131 155 163 136 129 170 160 142 142 115 201 129 158 113 149 157 132 146 175 142 118 Pressão diastólica 71 77 61 96 120 94 89 81 138 75 67 87 99 90 74 66 112 85 86 82 76 119 83 92 70 84 98 78 88 103 79 68 IMC 1 1 1 1 2 0 0 2 1 0 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 0 0 2 2 1 1 0 a) Calcule média, mediana e moda para a pressão sistólica. b) Repita calculo das medidas anteriores para os dados separados (estratos) fumantes e não fumantes. c) Compare os resultados. Tente uma conclusão. 38 Ambos os conjuntos de dados representados na figura a seguir têm média igual a 50. Um deles tem desvio padrão de 3,8 e outro, de 5,8. Qual é qual? Calcule o coeficiente de variação e justifique sua resposta. 2) 35 35 30 30 25 25 %20 %20 15 15 10 10 5 5 0 0 39 42 45 48 51 valor 54 57 60 39 (a) 3) 42 45 48 51 54 valor 57 60 (b) Dado três conjuntos de dados A, B e C. Calcule a média e desvio padrão. Comente os resultados. Qual a conclusão? A: 4, 4, 4, 4, 4, 4, 4, 4 B: 3, 3, 3, 3, 5, 5, 5, 5 C: 1, 1, 3, 3, 5, 5, 7, 7 Associe as distribuições (4.1) com as medidas de posição (4.2): 4) (4.1) Simétrico (a) Assimétrico à direita (c) Uniforme (b) Assimétrico à esquerda (d) (4.2) Medidas de posição: 1) Média = Mediana = Moda 2) Média > Mediana 3) Média < Mediana Respostas: 5) É importante informar a média e desvio padrão de uma variável quantitativa? Justifique. 39 HEP 5732 - BIOESTATÍSTICA 8. Referências bibliográficas BUSSAB, W.O.; MORETTIN, P. A., Estatística Básica, 5a. ed., São Paulo: Saraiva, 2006. MORETIM, P.A.; TOLOI, C.M.C. Análise de Séries Temporais, Blücher, 2006. 2ª ed., São Paulo: Edgard SILVA, NN. Amostragem Probabilística. 2ª ed., São Paulo: Editora da Universidade de São Paulo, 2001. 40