Aula 1 A apresentação correcta de dados (estatística descritiva) e a tomada de decisões em relação aos mesmos (estatística inferencial) depende da compreensão da natureza das variáveis encontradas em qualquer estudo clínico. O que é a bioestatística? Um exemplo • Vacina Polio nos anos 1950’s • In 1954, 401,974 crianças vacinadas 201,229 com vacina teste 200,745 com placebo Houve um total de 143 casos de Polio: 110 placebo versus 33 para a vacina Vale a pena implementar a vacina? A bioestatística dá a resposta Tipos de dados Quantitativos (Tomam valores numéricos) Contínuas (tomam casas decimais) Altura, peso Discretas (números inteiros) e.g. Número de crianças Qualitativos (Podem tomar valores numéricos codificados) Nominais Raça, Género (sem ordem específica) Ordinais e.g. severidade da dor escala de depressão Exemplo: Podemos definir três categorias de peso à nascença (< 2.5 Kg, 2.5 – 3.0 Kg, > 3.0 Kg), hábitos tabágicos da parturiente (fumadora, não fumadora, exfumadora), e categorias de classe social (por exemplo 5 categorias de status económico de 1 a 5, crescentemente ordenadas da menos para a mais favorecida). Pode ser criada uma tabela com as contagens relativas a cada combinação de categorias) como ponto de partida no teste de hipóteses de que hábitos tabágicos da parturiente e a classe social influenciam o peso à nascença. • Este exemplo e outros revelam que as variáveis categóricas podem ser genuinamente qualitativas (fumador ou não fumador) ou quantitativas (peso do recém nascido). No caso das quantitativas os valores são discretizados/agrupados num pequeno número de intervalos de variação É crucial que os dados sejam “limpos” antes que a análise seja levada a cabo. No caso de variáveis quantitativas variáveis com valores extremos (“outliers”) pode ser necessário excluí-los se existir evidência para a sua não validade. Para variáveis qualitativas recomenda-se o uso de códigos numéricos: Por exemplo 1 = masculino e 2 = feminino, o que facilita o processo de entrada de dados e evita o perigo de erros de entrada de dados (masculino ≠ Masculino). O que está errado? Estatística descritiva Usam-se estatísticas para sumarizar um grande conjunto de dados com alguns números com significado especial. Métodos para organizar, visualizar e descrever dados usando tabelas, gráficos, e medidas de sumarização A ESTATISTICA envolve : Aquisição de dados Descrição de dados Apresentação Interpretação A estatística inferencial é um processo de descrever os resultados baseados nos resultados de uma amostra População: O conjunto completo de elementos a estudar Amostra: Um subconjunto da população Parâmetro: Uma característica de toda a população. Estatística: Uma característica da amostra. A inferência estatística consiste em : 1. Estimação dos parâmetros desconhecidos da população baseada nos resultados da amostra 2. Teste de hipótese: Uma conjectura sobre a população. São usados os dados da amostra para aceitar ou rejeitar a conjectura Um elemento de uma amostra ou população é um indivíduo ou objecto particular (pessoa, firma, estado, etc) sobre o qual a informação é coligida Uma variável é uma característica de estudo que pode assumir valores diferentes para diferentes elementos. Uma observação é o valor da variável para um elemento. Um conjunto de dados é uma colecção de observações para uma ou mais variáveis. As variáveis de que falamos são aleatórias pois são em parte o resultado de eventos relacionados com o acaso Escalas de medida Nominal ou categórica vs ordinal Escala intervalar. Diferenças equivalentes entre pontos. Temperatura Celsius Escala racional . 30 graus não significa que é duas vezes mais quente que 15 graus, mas já faz sentido falar assim de alturas corporais Métodos descritivos e de inferência distintos são usados para escalas de medida diferente • Variáveis de resposta e variáveis explicativas. As primeiras são as variáveis que descrevem a livre resposta de cada unidade amostral e são por isso sujeitas a modelação probabilística. É o caso do peso à nascença. As variáveis consideradas fixas pelo desenho experimental, ou no contexto observacional dos dados, são denominadas variáveis explanatórias ou factores. Os níveis de um factor podem ser denominados estratos. • As variáveis de efeito (”outcome”) podem também ser descritas como de resposta, dependentes, variável y, ou grupo casocontrolo. • As variáveis de exposição (“exposure”) podem ser descritas como explanatórias, independentes, variável x, factor de risco ou grupo de tratamento. Distribuições de Frequência e apresentação de dados • Imaginemos que organizamos os dados em bruto de uma determinada variável de forma a agrupar a frequência de ocorrência dos seus valores de forma ordenada. Temos então uma tabela ou gráfico de distribuição de frequências. Distribuição de frequências absolutas e relativas do consumo de álcool numa amostra de 1000 indivíduos do sexo masculino As classes são mutuamente exclusivas Os verdadeiros limites da classe 40-59 são 39.5 – 59.5 Uma forma alternativa de apresentação é o gráfico de barras, em que a altura da barra é proporcional á frequência de ocorrência do respectivo grupo de valores Note-se que a terceira coluna da tabela descrevia frequência relativas (em valores percentuais). É possível visualizar a distribuição de frequências relativas em termos de um gráfico em sector circular Uma das maneiras mais informativas de apresentar distribuições de frequência é o uso do histograma Difere do gráfico de barras nos seguintes pontos: -É usado em conexão com variáveis de tipo contínuo intervalar ou racional enquanto que os gráficos de barras são usados para variáveis categóricas, ou uma contínua que foi reduzida a um conjunto de categorias -Representam frequências relativas e mostram uma ideia da “forma da distribuição” Histograma de pesos à nascença É a área e não a altura dos blocos que é proporcional à frequência relativa O histograma dá-nos uma ideia da probabilidade de ocorrência e por isso está ligado de forma empírica à noção de distribuição teórica de probabilidade Outros métodos de visualização: Gráficos de dispersão, polígonos de distribuição (ver últimos slides, em vez de barras Temos linhas a unir os pontos médios para cada intervalo) Gráficos de caixa e bigodes Diagrama de dispersão da concentração de anticorpos contra sarampo em recém-nascidos e em suas (em unidades arbitrárias). Outros métodos de visualização: Gráficos de dispersão Gráficos de caixa e bigodes Sumário sobre forma de apresentação de dados Qualitativos tabelas simples gráficos de barras gráficos circulares Formas de apresentação de Dados quantitativos: distribuições de frequências (definição de limites, intervalos e pontos médios das classes) histogramas e polígonos de frequência (no limite, curvas de frequência) diagrama de caule e folha diagrama pontual (ou dispersão univariada) polígonos de frequência acumulada Medidas de sumarização de dados (estatísticas amostrais ou estatísticas) • Medidas de tendência central Média, mediana, moda • Medidas de dispersão (reflectem a variabilidade das distribuições) Medidas de tendência central • média aritmética, ou média amostral 𝑥 𝑥= 𝑛 Média ponderada (para pesos w) 𝑥= 𝑤𝑥 𝑤 Medidas de tendência central 𝑛+1 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = é𝑠𝑖𝑚𝑜 2 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠 Pode ser calculada para um número ímpar de observações, usando a média aritmética dos dois valores centrais. A moda pode ser definida como o valor da variável que ocorre com mais frequência. A média, moda e mediana têm posições distintas em distribuições assimétricas. Medidas de tendência central 𝑀é𝑑𝑖𝑎 𝑔𝑒𝑜𝑚é𝑡𝑟𝑖𝑐𝑎 = 𝑛 𝑥 Ou 𝑥= 𝑥 𝑛 Em que 𝑥 é a média dos dados logaritmizados A média geométrica é então dada por 10𝑥 A média geométrica pode ser usada em dados positivamente assimétricos Outras medidas de localização Tercis (dividem dados em terços), quartis (dividem dados em quartos), quintis (dividem dados em quintos), decis (dividem dados em décimos), percentis (dividem dados em centésimos) 𝑛+1 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠 4 3 × 𝑛+1 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠 4 𝑘 × 𝑛+1 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑘 = é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠 100 Medidas de dispersão 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 − 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜 Variância S2 e desvio padrão S (desvio quadrático médio). 2 𝑆 = (𝑥 − 𝑥)2 𝑛−1 Note-se que a soma dos quadrados dos desvios é dividida por (n-1) em vez de n pois pode ser mostrado matemáticamente que esta estimativa da variância é menos enviesada. O denominado n-1 é denominado o número de graus de liberdade da variância. Isto deve-se ao facto de que só n-1 dos desvios 𝑥 − 𝑥 Medidas de dispersão 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 − 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜 Variância S2 e desvio padrão S (desvio quadrático médio). 2 𝑆 = (𝑥 − 𝑥)2 𝑛−1 Note-se que a soma dos quadrados dos desvios é dividida por (n-1) em vez de n pois pode ser mostrado matemáticamente que esta estimativa da variância é menos enviesada. O denominado n-1 é denominado o número de graus de liberdade da variância. Isto deve-se ao facto de que só n-1 dos desvios 𝑥 − 𝑥 Medidas de dispersão Conceito de graus de liberdade: os graus de liberdade de qualquer estatística podem ser determinados com o número de valores independentes usado no cálculo da estatística (a partir de observações individuais) menos o número de parâmetros da estatística estimados a partir dos respectivos valores independentes (neste caso, a média). Uma desvantagem do conceito de variância é que não usa as mesmas unidades da média (mas sim as mesmas elevadas ao quadrado), pelo que frequentemente se usa a sua raiz quadrada, denominada desvio padrão. Coeficiente de variação (proporção do desvio quadrático em relação à média) 𝐶𝑉 = 𝑆 × 100 𝑥 Distribuições normais (em forma de sino) com médias e variâncias iguais e distintas Distribuições normais e assimétricas (com assimetria positiva e negativa) positiva negativa Polígono de freqüência de nascimentos por idade das mães. Polígonos de freqüência de pressão arterial sistólica antes e depois de tratamento com droga anti-hipertensiva. Polígono de freqüência acumulada de nascimentos por idade das mães. Uso de Medidas de variabilidade como introdução à inferência estatística