A apresentação correcta de dados (estatística descritiva) e a tomada

Propaganda
Aula 1
A apresentação correcta de dados
(estatística descritiva) e a tomada de
decisões em relação aos mesmos
(estatística inferencial) depende da
compreensão da natureza das variáveis
encontradas em qualquer estudo clínico.
O que é a bioestatística? Um exemplo
• Vacina Polio nos anos 1950’s
• In 1954,
401,974 crianças vacinadas
201,229 com vacina teste
200,745 com placebo
Houve um total de 143 casos de Polio:
110 placebo versus 33 para a vacina
Vale a pena implementar a vacina? A bioestatística dá a
resposta
Tipos de dados
Quantitativos
(Tomam valores
numéricos)
Contínuas (tomam
casas
decimais)
Altura, peso
Discretas
(números inteiros)
e.g. Número de
crianças
Qualitativos
(Podem tomar
valores numéricos
codificados)
Nominais
Raça, Género (sem
ordem
específica)
Ordinais
e.g. severidade da
dor
escala de depressão
Exemplo:
Podemos definir três categorias de peso à nascença
(< 2.5 Kg, 2.5 – 3.0 Kg, > 3.0 Kg), hábitos tabágicos
da parturiente (fumadora, não fumadora, exfumadora), e categorias de classe social (por
exemplo 5 categorias
de status económico de 1 a 5,
crescentemente ordenadas da menos para a mais
favorecida).
Pode ser criada uma tabela com as contagens
relativas a cada
combinação de categorias) como ponto de partida
no teste de hipóteses de que hábitos tabágicos da
parturiente e a classe social influenciam o peso à
nascença.
• Este exemplo e outros revelam que as
variáveis categóricas podem ser
genuinamente qualitativas (fumador ou não
fumador) ou quantitativas (peso do recém
nascido). No caso das quantitativas os valores
são discretizados/agrupados num pequeno
número de intervalos de variação
É crucial que os dados sejam “limpos” antes que a análise
seja levada a cabo.
No caso de variáveis quantitativas variáveis com valores
extremos (“outliers”) pode ser necessário excluí-los se
existir evidência para a sua não validade.
Para variáveis qualitativas recomenda-se o uso de códigos
numéricos:
Por exemplo
1 = masculino e 2 = feminino, o que facilita o processo de
entrada de dados e evita o perigo de erros de entrada de
dados (masculino ≠ Masculino).
O que está errado?
Estatística descritiva
Usam-se estatísticas para sumarizar um grande conjunto
de dados com alguns números com significado especial.
Métodos para organizar, visualizar e descrever dados
usando tabelas, gráficos, e medidas de sumarização
A ESTATISTICA envolve :
Aquisição de dados
Descrição de dados
Apresentação
Interpretação
A estatística inferencial é um processo de descrever os
resultados baseados nos resultados de uma amostra
População: O conjunto completo
de elementos a estudar
Amostra: Um subconjunto da
população
Parâmetro: Uma característica de
toda a população.
Estatística: Uma característica da
amostra.
A inferência estatística
consiste em :
1. Estimação dos parâmetros
desconhecidos da população
baseada nos resultados da
amostra
2. Teste de hipótese: Uma
conjectura sobre a população.
São usados os dados da
amostra para aceitar ou
rejeitar a conjectura
Um elemento de uma amostra ou população é um
indivíduo ou objecto particular (pessoa, firma, estado, etc)
sobre o qual a informação é coligida
Uma variável é uma característica de estudo que pode
assumir valores diferentes para diferentes elementos.
Uma observação é o valor da variável para um elemento.
Um conjunto de dados é uma colecção de observações
para uma ou mais variáveis.
As variáveis de que falamos são aleatórias pois são em
parte o resultado de eventos relacionados com o acaso
Escalas de medida
Nominal ou categórica vs ordinal
Escala intervalar. Diferenças equivalentes entre pontos.
Temperatura Celsius
Escala racional . 30 graus não significa que é duas vezes
mais quente que 15 graus, mas já faz sentido falar assim
de alturas corporais
Métodos descritivos e de inferência distintos são usados para
escalas de medida diferente
• Variáveis de resposta e variáveis explicativas.
As primeiras são as variáveis que descrevem a
livre resposta de cada unidade amostral e são
por isso sujeitas a modelação probabilística. É
o caso do peso à nascença. As variáveis
consideradas fixas pelo desenho experimental,
ou no contexto observacional dos dados, são
denominadas variáveis explanatórias ou
factores. Os níveis de um factor podem ser
denominados estratos.
• As variáveis de efeito (”outcome”) podem
também ser descritas como de resposta,
dependentes, variável y, ou grupo casocontrolo.
• As variáveis de exposição (“exposure”) podem
ser descritas como explanatórias,
independentes, variável x, factor de risco ou
grupo de tratamento.
Distribuições de Frequência e
apresentação de dados
• Imaginemos que organizamos os dados em
bruto de uma determinada variável de forma
a agrupar a frequência de ocorrência dos seus
valores de forma ordenada. Temos então uma
tabela ou gráfico de distribuição de
frequências.
Distribuição de frequências absolutas e relativas
do consumo de álcool numa
amostra de 1000 indivíduos do sexo masculino
As classes são mutuamente exclusivas
Os verdadeiros limites da classe 40-59 são 39.5 – 59.5
Uma forma alternativa de apresentação é o gráfico de barras, em que a altura da
barra é proporcional á frequência de ocorrência do respectivo grupo de valores
Note-se que a terceira coluna da tabela descrevia frequência relativas
(em valores percentuais). É possível visualizar a distribuição de frequências
relativas em termos de um gráfico em sector circular
Uma das maneiras mais informativas de apresentar distribuições
de frequência é o uso do histograma
Difere do gráfico de barras nos seguintes pontos:
-É usado em conexão com variáveis de tipo contínuo intervalar
ou racional enquanto que os gráficos de barras são usados para
variáveis categóricas, ou uma contínua que foi reduzida a um
conjunto de categorias
-Representam frequências relativas e mostram uma
ideia da “forma da distribuição”
Histograma de pesos à nascença
É a área e não a altura dos blocos que é proporcional à frequência relativa
O histograma dá-nos uma ideia da probabilidade de ocorrência e por isso
está ligado de forma empírica à noção de distribuição teórica de probabilidade
Outros métodos de visualização:
Gráficos de dispersão, polígonos de distribuição (ver últimos slides, em vez de barras
Temos linhas a unir os pontos médios para cada intervalo)
Gráficos de caixa e bigodes
Diagrama de dispersão da concentração de anticorpos contra sarampo
em recém-nascidos e em suas (em unidades arbitrárias).
Outros métodos de visualização:
Gráficos de dispersão
Gráficos de caixa e bigodes
Sumário sobre forma de apresentação de dados
Qualitativos
tabelas simples
gráficos de barras
gráficos circulares
Formas de apresentação de Dados quantitativos:
distribuições de frequências (definição de limites, intervalos e pontos
médios das classes)
histogramas e polígonos de frequência (no limite, curvas de frequência)
diagrama de caule e folha
diagrama pontual (ou dispersão univariada)
polígonos de frequência acumulada
Medidas de sumarização de dados
(estatísticas amostrais ou estatísticas)
• Medidas de tendência central
Média, mediana, moda
• Medidas de dispersão (reflectem a
variabilidade das distribuições)
Medidas de tendência central
• média aritmética, ou média amostral
𝑥
𝑥=
𝑛
Média ponderada (para pesos w)
𝑥=
𝑤𝑥
𝑤
Medidas de tendência central
𝑛+1
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 =
é𝑠𝑖𝑚𝑜
2
𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠
Pode ser calculada para um número ímpar de
observações, usando a média aritmética dos dois
valores centrais.
A moda pode ser definida como o valor da variável que
ocorre com mais frequência.
A média, moda e mediana têm posições distintas em
distribuições assimétricas.
Medidas de tendência central
𝑀é𝑑𝑖𝑎 𝑔𝑒𝑜𝑚é𝑡𝑟𝑖𝑐𝑎 =
𝑛
𝑥
Ou
𝑥=
𝑥
𝑛
Em que 𝑥 é a média dos dados logaritmizados
A média geométrica é então dada por 10𝑥
A média geométrica pode ser usada em dados
positivamente assimétricos
Outras medidas de localização
Tercis (dividem dados em terços), quartis (dividem dados em quartos), quintis (dividem
dados em quintos), decis (dividem dados em décimos), percentis (dividem dados em
centésimos)
𝑛+1
𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 =
é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠
4
3 × 𝑛+1
𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 =
é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠
4
𝑘 × 𝑛+1
𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑘 =
é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎𝑠
100
Medidas de dispersão
𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 − 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟
= 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜
Variância S2 e desvio padrão S (desvio quadrático médio).
2
𝑆 =
(𝑥 − 𝑥)2
𝑛−1
Note-se que a soma dos quadrados dos desvios é dividida por (n-1) em vez de n pois
pode ser mostrado matemáticamente que esta estimativa da variância é menos
enviesada.
O denominado n-1 é denominado o número de graus de liberdade da variância. Isto
deve-se ao facto de que só n-1 dos desvios 𝑥 − 𝑥
Medidas de dispersão
𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 − 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟
= 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜
Variância S2 e desvio padrão S (desvio quadrático médio).
2
𝑆 =
(𝑥 − 𝑥)2
𝑛−1
Note-se que a soma dos quadrados dos desvios é dividida por (n-1) em vez de n pois
pode ser mostrado matemáticamente que esta estimativa da variância é menos
enviesada.
O denominado n-1 é denominado o número de graus de liberdade da variância. Isto
deve-se ao facto de que só n-1 dos desvios 𝑥 − 𝑥
Medidas de dispersão
Conceito de graus de liberdade: os graus de liberdade de qualquer estatística podem ser
determinados com o número de valores independentes usado no cálculo da estatística (a
partir de observações individuais) menos o número de parâmetros da estatística
estimados a partir dos respectivos valores independentes (neste caso, a média).
Uma desvantagem do conceito de variância é que não usa as mesmas unidades da média
(mas sim as mesmas elevadas ao quadrado), pelo que frequentemente se usa a sua raiz
quadrada, denominada desvio padrão.
Coeficiente de variação (proporção do desvio quadrático em relação à média)
𝐶𝑉 =
𝑆
× 100
𝑥
Distribuições normais (em forma de sino) com médias e
variâncias iguais e distintas
Distribuições normais e assimétricas (com assimetria positiva e negativa)
positiva
negativa
Polígono de freqüência de nascimentos por idade das mães.
Polígonos de freqüência de pressão arterial sistólica
antes e depois de tratamento com droga anti-hipertensiva.
Polígono de freqüência acumulada de nascimentos por idade das mães.
Uso de Medidas de variabilidade como introdução à inferência estatística
Download