Estatística para médicos

Propaganda
editorial
Estatística para médicos
A estatística não é uma disciplina muito popular entre médicos. Muitos de nós adquirimos
certa aversão por ela nos bancos da faculdade – ainda a evitamos, apesar de nos defrontarmos
cotidianamente com ela nos noticiários de televisão ou na leitura de qualquer texto de notícias médicas.
A estatística é, ainda hoje, encarada pelo estudante de Medicina como disciplina estranha à
sua formação. É tida como obrigação curricular a ser cumprida, penosamente, para a obtenção
do certificado e, para muitos, matéria completamente desnecessária à formação do profissional
médico. Afinal, ela nada ensina a respeito da estrutura e funcionamento do organismo humano
normal. Nada fala a respeito do que produz ou não produz defeitos nas estruturas e no funcionamento do organismo. Ela não se manifesta diretamente a respeito dos modos de identificar
alterações das estruturas e promover a restauração do organismo alterado. Na perspectiva do
estudante, a estatística é, pelo menos, aparentemente imiscível à anatomia, à fisiologia, à patologia, à propedêutica e à terapêutica no preparo do profissional médico.
Muitos de nós, médicos, cultivamos ainda o modo de pensar do estudante, apesar de termos
deixado, há muito, os bancos da escola. Muitos de nós encaramos a estatística ainda como disciplina estranha ao desenvolvimento profissional, apesar de sermos constantemente desafiados
por ela, nos esforços para acompanhar os avanços de nossas especialidades. Não se pode ignorar
que o concurso da estatística é exigido, hoje e cada vez mais, na apreciação dos resultados de
qualquer relato de descoberta de novos fatos médicos, de interesse do profissional, bem como
na reavaliação dos antigos.
A presença da estatística na vida do médico é, entretanto, muito mais necessária que a
exigida pela atualização profissional. Pelo menos deveria ser. Nós cuidamos de pessoas. Nosso
trabalho implica ouvir suas queixas, procurar sinais de alterações estruturais e funcionais de
seus organismos, estabelecer o diagnóstico de seus problemas e prescrever o correto tratamento,
além de prevenir sequelas e ocorrências correlatas. Ocorre, contudo, que indivíduos fazem
parte de grandes coleções de pessoas; que os problemas apresentados por eles fazem parte de
grandes coleções de problemas; que as soluções fazem parte de grandes coleções de soluções.
O conhecimento adequado dessas coleções deve ser, portanto, passo necessário para podermos
avaliar e tratar melhor os nossos pacientes. Um dos instrumentos adequados ao estudo das
coleções é a estatística.
O conhecimento ou a caracterização das coleções não é mais fácil de ser adquirido do
que o exame dos indivíduos ou elementos que as compõem. Em primeiro lugar, não existem na natureza coleções compostas de indivíduos ou elementos idênticos. Quase todas as
coleções conhecidas são constituídas por indivíduos diferentes uns dos outros, embora suas
semelhanças possibilitem identificá-los como participantes de um determinado
grupo. A maior parte das coleções é constituída por elementos semelhantes, mas
diferentes entre si, em um ou outro aspecto. A variação é a norma. Isso significa
que o paciente diante de nós é apenas um exemplar de uma vasta coleção de pessoas parecidas umas com as outras, podendo representar a maioria das pessoas da
coleção de onde ele provém ou representar uns poucos que são bem diferentes dos
demais. O problema médico apresentado por ele pode ser a manifestação comum
de alterações pouco frequentes ou pode ser a variante rara de um problema comum.
O modo como o paciente reagirá ao tratamento prescrito pode ser o modo comum
desse tipo de reação ou um tipo extremo de resposta terapêutica de um espectro
de reações semelhantes. Conhecer as coleções de onde esses elementos provêm é
conhecer, portanto, seus padrões de variação, e esses conhecimentos podem ser
úteis para nos informar qual é a probabilidade de estarmos diante de algo raro ou
de apenas uma variação da normalidade. A estatística aplicada é a disciplina que
nos possibilita descrever coleções e compará-las ou, ainda, descrever relações entre
as características dos indivíduos ou elementos que as compõem. O uso adequado
da estatística na solução de problemas correntes requer apenas o domínio dos conceitos elementares da disciplina e o domínio das técnicas necessárias à descrição,
à comparação e ao estudo de correlações das coleções.
Na caracterização das coleções, utilizamos os denominados resumos estatísticos de coleções. Como as coleções são compostas, geralmente, de indivíduos ou
elementos semelhantes, utilizamos as características individuais desses elementos
para descrever qualquer coleção. Os resumos ou descritores das coleções são construídos com a contagem dos indivíduos ou elementos que possuem as variações de
uma determinada característica. Contar as variações apresentadas pelos indivíduos
ou elementos é a única forma de construir qualquer descritor de coleções. Não há
alternativa. Nenhuma coleção pode ser descrita, estatisticamente, sem a contagem
das variações. Nas coleções de pessoas, contamos quantas são do gênero feminino e
masculino, quantas apresentam estatura de 1,58, 1,60 e 1,67 m, respectivamente.
Nas coleções de resultados de teste clínico com um determinado medicamento,
contamos quantos tratamentos tiveram sucesso e quantos fracassaram. Nos casos
particulares das características representadas por quantidades numéricas, como
peso, altura e níveis da pressão arterial, combinamos ainda os valores observados na
coleção com as contagens de cada variação para obtermos descritores que resumam,
em um único número, uma dada característica da coleção.
Assim, construímos com as contagens as tabelas de distribuição de frequências e
calculamos percentagens, percentis, médias, modas, medianas, variâncias e desviospadrão, visando descrever, de modo resumido, as características dominantes e raras da
coleção e dar ideia a respeito da variação das características utilizadas na descrição.
Descrevemos, também, relações entre as características dos indivíduos de uma
coleção mediante contagem de ocorrências de variações de duas ou mais características,
com o objetivo de verificar se duas ou mais combinações de variações são mais ou menos frequentes que as demais. Se a contagem determinar que pessoas louras possuem
olhos azuis mais frequentemente que as morenas, ou que as mais obesas apresentam
maiores concentrações de lipídios séricos que as magras, podemos afirmar que, nas
coleções descritas, a cor dos olhos está associada à cor dos cabelos e que os níveis séricos de lipídios são proporcionais ao peso do indivíduo. Tabelas de contigência, ou
558
FEMINA | Novembro 2010 | vol 38 | nº 11
frequências cruzadas, e coeficientes de correlação e regressão são construídos com as
contagens de eventos para descrever tais relações.
Ao possibilitar a descrição de coleções ou as relações entre características dos indivíduos ou elementos de uma coleção mediante os resumos mencionados, a estatística
possibilita, ainda, a comparação de coleções umas com as outras. Possibilita ainda a
comparação de relações funcionais observadas entre características distintas dentro de
uma mesma coleção ou características de uma coleção com as demais. Essas comparações
são mais que necessárias para podermos decidir se o paciente que temos diante de nós
é apenas uma variação dos componentes de uma coleção ou se é, ao contrário, o caso
comum da outra coleção, completamente distinta da primeira.
O domínio do modo de se construir os resumos mencionados é fácil de ser adquirido. Todos nós, que passamos pelos bancos de uma faculdade de Medicina, somos
familiarizados com eles, e os que perderam a familiaridade podem readquiri-la com
a leitura de textos de estatística fundamental.
A dificuldade da estatística para todos nós, inclusive aos que se dedicam a ela, não
está na construção dos descritores apresentados acima. Tal construção é a parte fácil da
questão. A grande dificuldade decorre da escolha do tipo de coleção que se pretende
descrever: coleção completa ou amostra de uma coleção completa.
Quando se trabalha com coleções completas ou populações completas de indivíduos, objetos ou acontecimentos, o trabalho estatístico termina com a construção
dos resumos. Eles descrevem completamente as coleções e seus resultados podem ser
utilizados para qualquer finalidade. Pode-se até comparar duas coleções de pessoas
e afirmar, sem qualquer outra consideração, que a coleção A possui indivíduos mais
obesos que a coleção B, porque a média de A é 76,0 kg e a de B é 75,8 kg. Pode-se
afirmar, também sem receio de errar, que a probabilidade de se obter em pessoas com
toxoplasmose na coleção A é 30%, porque essa é a proporção de infectados na coleção
descrita. Os valores dos resumos são o que são e não necessitam de qualquer ajuste
para serem validados.
Quando se descrevem coleções com amostras de coleções, o trabalho estatístico é
mais complicado. Não se pode simplesmente afirmar que a coleção A é mais obesa que
a B somente porque uma determinada amostra de indivíduos de A apresenta média
de peso 0,2 kg maior que a de B. É necessário levar em conta a variação amostral na
determinação dos valores dos resumos comparados para, só depois, fazer a comparação
e concluir se realmente A é mais pesada que B. No caso da descrição e comparação das
amostras é necessário resolver, em primeiro lugar, o problema da amostra.
O problema da amostra decorre da impossibilidade de se ter, em uma única amostra
ou em um subconjunto da coleção, a totalidade dos elementos que fazem parte dessa
mesma coleção. Decorre também do fato de se obter, em amostragens repetidas de uma
mesma coleção, conjuntos de elementos sempre distintos uns dos outros, quando o
acaso governa a seleção dos que farão parte ou não das amostras. Esses subconjuntos são
constituídos, sempre, por apenas parte dos elementos da coleção original e, por causa
disso, as contagens das variações das características dos indivíduos ou elementos quase
nunca são exatamente as mesmas feitas na coleção completa. Em decorrência disso,
os resumos obtidos com amostras quase nunca reproduzem fielmente os construídos
com os elementos das coleções completas. Na verdade, é possível obter tantos resumos
numéricos diferentes de uma mesma coleção quantas forem as amostras utilizadas
para representá-la. No exemplo dado acima, o valor 76 kg, caso seja obtido mediante
FEMINA | Novembro 2010 | vol 38 | nº 11
559
amostra, é apenas um dos infinitos valores que podem ser obtidos com amostras semelhantes e, provavelmente, é diferente da média de peso da coleção original completa.
Um exemplo ilustra melhor o problema da amostra. Suponhamos que seja o nosso
desejo conhecer quantos homens e mulheres estão empregados na prefeitura de Belo
Horizonte. Suponhamos ainda que a prefeitura nos forneça as fichas pessoais de todos
os seus empregados. O resumo dessa coleção quanto ao gênero dos empregados da
prefeitura é obtido apenas pela contagem de homens e mulheres presentes no fichário. Digamos que, após a contagem e a realização dos cálculos pertinentes, tenhamos
encontrado 61,8% de homens e 38,2% de mulheres. Esses valores correspondem
ao resumo descritivo da coleção de empregados da prefeitura em relação ao gênero
dos mesmos. Suponhamos agora que a prefeitura nos negue a lista completa, mas se
disponha a fornecer uma lista contendo 120 empregados selecionados ao acaso (como
toda boa amostra estatística). Qual é a probabilidade de se encontrar na amostra a
proproção exata de homens e mulheres da coleção completa? É quase nula. Podemos
obter, nas amostras, proporções de homens acima e abaixo de 61,8% e de mulheres
acima e abaixo de 38,2%, mas raramente as proporções exatas. As combinações de
valores serão quase sempre diferentes das obtidas com o exame da coleção completa,
e devem variar, também, de amostra para amostra, apesar de as probabilidades de se
obter em valores próximos dos verdadeiros serem maiores do que as probabilidades
de se obter em valores distantes nos processos de amostragem.
Como se vê, os resumos obtidos com amostras são inerentemente incertos e não
podem, nem devem, ser tomados como representativos imediatos da coleção original.
Para serem úteis, esses resumos devem ser “validados”. Para serem úteis, devem ser
acompanhados de alguma “coisa” que indique se o valor do descritor obtido com a
amostra encontra-se suficientemente próximo ou distante do descritor verdadeiro, da
coleção completa. Essa “coisa” é o intervalo de confiança, e só pode ser obtida nos termos “da probabilidade de se encontrar o valor ‘verdadeiro’ no interior de um intervalo
de valores, construído em torno do que se obteve com a amostra”. Por causa disso, os
resumos obtidos mediante amostras somente têm utilidade quando são acompanhados
pelos respectivos intervalos de confiança. Como corolário dessa afirmação, os resumos
obtidos mediante amostras não têm valor quando tomados isoladamente.
O que é, afinal, o intervalo de confiança? É o determinado pela imposição de
valores acima e abaixo do descritor obtido com a amostra, de modo que atuem como
limites de um intervalo de variação de valores no interior de onde se acredita que esteja
localizado o valor verdadeiro, com uma probabilidade dada. Para tanto, especifica-se
qual é a probabilidade desejada, geralmente alta, e são calculados com os dados da
amostra e recursos da estatística teórica os valores que constituirão os limites inferior
e superior do intervalo. Depois de construído, o resumo da amostra, acompanhado
do intervalo, indica o valor provável do resumo da coleção completa e informa que
há alta probabilidade, possivelmente de 95%, de o valor verdadeiro ser representado
por qualquer coisa entre X-y e X+y, sendo que y é a metade do intervalo completo.
No exemplo dado, assumindo-se que se utilizou amostra para representar a coleção
completa, o peso médio de A só faz sentido se for acompanhado de seu intervalo de
confiança. Se esse intervalo for de 4 kg, o resumo da amostra é 76 kg, mais ou menos
2 kg, e o resumo verdadeiro da coleção completa associa-se a uma probabilidade,
digamos, de 95%, de assumir qualquer valor entre 74 e 78 kg. O intervalo de confiança “valida” o resumo feito com dados da amostras ao informar quais devem ser os
560
FEMINA | Novembro 2010 | vol 38 | nº 11
valores verdadeiros da coleção completa, com grande probabilidade de acerto. Embora
incerto, o resumo obtido mediante amostras adquire utilidade ao assegurar-nos, em
níveis baixos de incerteza, que o resumo verdadeiro pode assumir apenas um conjunto
limitado de valores que se encontram em torno do obtido com a amostra.
A construção dos intervalos de confiança é algo mais complicado que a construção
dos resumos em si. Mas pode ser dominada por qualquer um de nós que dedique algum
tempo ao aprendizado da estatística. Na verdade, não é nem mesmo necessário dominar
os detalhes do cálculo para obtê-los. Basta apenas dominar o conceito e a lógica da
construção, posto que a totalidade dos programas estatísticos de computadores faz
esse cálculo, quando adequadamente alimentados de dados.
O uso de amostras impõe restrições, também, na comparação de duas ou mais coleções,
e elas são determinadas, em grande parte, pela incerteza das grandezas comparadas.
Não se pode pretender, devido aos motivos mencionados, estabelecer comparações de
resumos obtidos com amostras tomando tais resumos como valores pontuais. Os valores
isolados são incertos e incapazes de propiciar qualquer informação sobre a grandeza
relativa dos mesmos. Na comparação de descritores amostrais é obrigatório levar em
conta os respectivos intervalos de confiança. É necessário incluir na comparação todos
os valores dos intervalos das amostras comparadas. Isso é feito, geralmente, mediante
os testes de significância estatística, e neles se procura determinar a probabilidade
de as diferenças observadas nas comparações serem determinadas, exclusivamente,
pelo acaso. Como a seleção dos participantes das amostras é determinada pelo acaso
nas amostras estatísticas, e como os descritores amostrais representam variações ao
acaso das estimativas do descritor da coleção completa, assume-se que as diferenças
observadas entre os descritores de uma ou mais amostras sejam também determinadas,
pelo menos em parte, pela sorte ou pelo azar. A comparação estatística deve dispor,
portanto, de um modo de determinar até que ponto as diferenças observadas são determinadas pelo acaso ou não. Como no caso do intervalo de confiança, o único modo
de se fazer isso é mediante a determinação da probabilidade de as diferenças terem
sido determinadas pelo acaso. Tal probabilidade é determinada mediante a realização
de testes de significância.
Todos nós, médicos, possuímos alguma familiaridade com os testes do qui-quadrado
e de Student. Tivemos contato com eles, pelo menos, no curso de graduação. Mas
muito poucos de nós retêm na memória o significado de tais testes. Poucos de nós
somos capazes de aplicá-los quando temos a oportunidade de fazê-lo. A razão disso
reside, talvez, na inexistência de tais oportunidades em nossa experiência de vida ou na
impossibilidade de encontrarmos tempo, em nossa rotina profissional, para dedicarmos
um pouco ao aprendizado da matéria. Mas muitos de nós se mantiveram afastados
da estatística e desses testes porque não encontraram modos relativamente fáceis de
serem apresentados à disciplina. Na maioria dos textos de estatística, tais testes são
apresentados como receitas particulares a serem aplicadas na solução de problemas
particulares. Isso dificulta o discernimento de regras gerais na caracterização dos testes
e torna extensa a lista do que aprender, transformando em pesadelo o aprendizado de
uma disciplina considerada marginal no currículo médico. Embora exista certa razão
nessa forma de abordar o aprendizado desses testes (afinal, as particularidades de cada
conjunto de dados e cada característica utilizada nas descrições de coleções demandam
um tipo apropriado de teste), todos possuem pontos em comum que nos ajudam a
entender a lógica desses testes e o que os diferencia. Em primeiro lugar, todos os tesFEMINA | Novembro 2010 | vol 38 | nº 11
561
tes de significância foram desenvolvidos para determinar até que ponto as diferenças
entre dois ou mais descritores podem ser produzidas, exclusivamente, pelo acaso. Em
segundo lugar, todos partem do princípio de que a diferença esperada entre o que se
compara é zero (ou qualquer outro valor alternativo) e que as diferenças efetivamente
observadas na comparação são apenas variações estatísticas, ao acaso, em torno do zero
ou do valor alternativo, produzidas pelo processo da amostragem. Em terceiro lugar,
todos os testes foram desenvolvidos para determinar o valor da probabilidade de as
diferenças observadas serem iguais a zero, ou iguais ao valor alternativo, na suposição
de que apenas a amostragem produziu tais diferenças. Na impossibilidade ou pela
dificuldade de se determinar diretamente tal probabilidade, a maioria dos testes
calcula um valor intermediário que representa, no teste, as diferenças observadas, e
se busca, em uma distribuição de probabilidades teórica desenvolvida para o teste, a
probabilidade correspondente. Portanto, nos testes de qui-quadrado, o valor calculado
representa todas as diferenças observadas nas comparações feitas com os descritores das
amostras, e ele é utilizado na busca da probabilidade correspondente, na distribuição
teórica do qui-quadrado adequada ao teste. O teste de Student cumpre o mesmo
papel na comparação das médias de duas amostras, representando o t de Student a
diferença entre as amostras comparadas e a quantidade necessária para encontrar, na
correspondente distribuição teórica de Student, o valor da probabilidade procurada.
Em ambos os testes, a probabilidade encontrada representa a probabilidade do acaso
produzir as diferenças observadas e corresponde ao valor de p encontrado nos textos de
estatística ou nos artigos especializados estudados por nós na vasta literatura médica
disponível. O mesmo raciocínio se aplica aos testes em que a comparação das grandezas se faz pela razão de um valor sobre o outro, em vez da diferença entre eles, como
ocorre nos cálculos de risco relativo e da razão de probabilidades obtidas com amostras
em estudos epidemiológicos. O único cuidado que se deve tomar aqui é entender o
valor de p como a probabilidade do acaso na produção de valores diferentes de 1 ou
de qualquer valor alternativo, especificado de antemão.
Os testes do qui-quadrado e Student não representam, naturalmente, os únicos testes
de significância disponíveis para a comparação estatística. Existem inúmeros outros, cada
um apropriado às características das coleções ou amostras comparadas. Mas quase todos
eles possuem em comum a necessidade de determinar uma quantidade intermediária
para representar as diferenças na busca do valor de p na distribuição de probabilidades
correspondente. Por outro lado, todos eles, sem exceção, necessitam de um critério para
estabelecer se um determinado valor de p encontrado em uma comparação é alto ou é
baixo. Todos necessitam, em outras palavras, de um critério para estabelecer se a probabilidade encontrada acarreta alta ou baixa probabilidade de as diferenças observadas
terem sido obtidas exclusivamente pelo acaso. Tal critério é geralmente arbitrário, e
está, via de regra, sujeito ao interesse de quem compara e ao grau de incerteza admitido
pela aplicação dos resultados das comparações. Admite-se, em geral, para comparações
de interesse científico, que valores de p iguais ou superiores a 0,05 (ou 5%) acarretam
alta probabilidade de as diferenças observadas serem produzidas pelo acaso, e que as
probabilidades são mínimas quando tal valor permanece abaixo desse limite. Mas há
casos em que o limite de significância é 0,01 ou ainda menor.
A verificação das relações existentes entre as características de indivíduos no
interior de uma dada coleção é, também, objeto da estatística, como afirmado an-
562
FEMINA | Novembro 2010 | vol 38 | nº 11
teriormente. Ela é realizada mediante a construção de descritores de relações, que
podem ser materializadas com o cálculo dos coeficientes de correlação, coeficientes
de regressão, coeficientes de concordância, tipo Kappa e outros. Todos eles descrevem
como a ocorrência de uma determinada característica dos elementos de uma coleção
é acompanhada da ocorrência de outra, ou outras. Todos eles determinam o grau de
correlação existente entre as características envolvidas na relação. Como os descritores
de relações possibilitam também comparar coleções, deve-se atentar apenas para o
fato de que tais comparações estão sujeitas às mesmas regras e critérios utilizados nas
comparações de coleções descritas de modo mais simples.
A verificação das relações de características individuais pode ser feita, também,
mediante amostras das coleções principais. Nesse caso, os coeficientes calculados com a
amostra estão também sujeitos ao “problema da amostra” e devem ser complementados
ou “validados” pelos respectivos intervalos de confiança. A comparação de coeficientes
de correlação de duas ou mais amostras somente é valida, pela mesma razão, se a ela
for aplicado também o correspondente teste de significância.
Como se pode verificar, a estatística é um campo vasto de instrumentos úteis para
o estudo de coleções e é ferramenta indispensável para se compreenderem fenômenos
que dependem das variações de características de indivíduos que possam ser estudados
em grupos. É, portanto, ferramenta insubstituível no estudo de questões médicas, que
dependem, na quase totalidade, de fatores que variam de indivíduo para indivíduo e
de grupo de pessoas para grupo de pessoas.
Apesar de toda sua complexidade, determinada quase que completamente pelo
problema da amostra, porque é relativamente fácil obter os descritores de características e relações de coleções (amostra ou não), a estatística não é o pouso seguro de
apenas alguns iluminados ou especialistas não médicos. Seu fundamento é de fácil
apreensão, e as técnicas fundamentais são de fácil manejo. Não é difícil calcular um
intervalo de confiança e nem impossível calcular o qui-quadrado ou t de Student ao
se compararem duas proporções ou duas médias. Não é difícil calcular o risco relativo da ocorrência de um mesmo evento em dois grupos distintos e nem calcular o
seu significado estatístico, principalmente porque o mecanismo de cálculo pode ser
realizado, hoje, por qualquer Epi Info.
O trabalho do estudante, aqui, consiste apenas no domínio dos conceitos utilizados na determinação das características e relações dos indivíduos das coleções
e no domínio do mecanismo de cálculo de cada descritor ou coeficiente. Consiste,
especialmente, em compreender que as características levantadas para cada coleção
dependem exclusivamente das contagens das variações, e que relações estudadas
nesse capítulo não implicam, necessariamente, relações de causa e efeito. Consiste,
principalmente, em compreender que, como no restante da Medicina, o desenvolvimento da habilidade estatística depende do domínio de alguns princípios
de aplicação geral e da disposição para aprender algo que o profissional julgue ser
realmente útil para ele.
Barbacena, 25/4/2010
Dilermando Fazito de Rezende
Professor de Metodologia Científica da Faculdade de Medicina de Barbacena.
FEMINA | Novembro 2010 | vol 38 | nº 11
563
Download