editorial Estatística para médicos A estatística não é uma disciplina muito popular entre médicos. Muitos de nós adquirimos certa aversão por ela nos bancos da faculdade – ainda a evitamos, apesar de nos defrontarmos cotidianamente com ela nos noticiários de televisão ou na leitura de qualquer texto de notícias médicas. A estatística é, ainda hoje, encarada pelo estudante de Medicina como disciplina estranha à sua formação. É tida como obrigação curricular a ser cumprida, penosamente, para a obtenção do certificado e, para muitos, matéria completamente desnecessária à formação do profissional médico. Afinal, ela nada ensina a respeito da estrutura e funcionamento do organismo humano normal. Nada fala a respeito do que produz ou não produz defeitos nas estruturas e no funcionamento do organismo. Ela não se manifesta diretamente a respeito dos modos de identificar alterações das estruturas e promover a restauração do organismo alterado. Na perspectiva do estudante, a estatística é, pelo menos, aparentemente imiscível à anatomia, à fisiologia, à patologia, à propedêutica e à terapêutica no preparo do profissional médico. Muitos de nós, médicos, cultivamos ainda o modo de pensar do estudante, apesar de termos deixado, há muito, os bancos da escola. Muitos de nós encaramos a estatística ainda como disciplina estranha ao desenvolvimento profissional, apesar de sermos constantemente desafiados por ela, nos esforços para acompanhar os avanços de nossas especialidades. Não se pode ignorar que o concurso da estatística é exigido, hoje e cada vez mais, na apreciação dos resultados de qualquer relato de descoberta de novos fatos médicos, de interesse do profissional, bem como na reavaliação dos antigos. A presença da estatística na vida do médico é, entretanto, muito mais necessária que a exigida pela atualização profissional. Pelo menos deveria ser. Nós cuidamos de pessoas. Nosso trabalho implica ouvir suas queixas, procurar sinais de alterações estruturais e funcionais de seus organismos, estabelecer o diagnóstico de seus problemas e prescrever o correto tratamento, além de prevenir sequelas e ocorrências correlatas. Ocorre, contudo, que indivíduos fazem parte de grandes coleções de pessoas; que os problemas apresentados por eles fazem parte de grandes coleções de problemas; que as soluções fazem parte de grandes coleções de soluções. O conhecimento adequado dessas coleções deve ser, portanto, passo necessário para podermos avaliar e tratar melhor os nossos pacientes. Um dos instrumentos adequados ao estudo das coleções é a estatística. O conhecimento ou a caracterização das coleções não é mais fácil de ser adquirido do que o exame dos indivíduos ou elementos que as compõem. Em primeiro lugar, não existem na natureza coleções compostas de indivíduos ou elementos idênticos. Quase todas as coleções conhecidas são constituídas por indivíduos diferentes uns dos outros, embora suas semelhanças possibilitem identificá-los como participantes de um determinado grupo. A maior parte das coleções é constituída por elementos semelhantes, mas diferentes entre si, em um ou outro aspecto. A variação é a norma. Isso significa que o paciente diante de nós é apenas um exemplar de uma vasta coleção de pessoas parecidas umas com as outras, podendo representar a maioria das pessoas da coleção de onde ele provém ou representar uns poucos que são bem diferentes dos demais. O problema médico apresentado por ele pode ser a manifestação comum de alterações pouco frequentes ou pode ser a variante rara de um problema comum. O modo como o paciente reagirá ao tratamento prescrito pode ser o modo comum desse tipo de reação ou um tipo extremo de resposta terapêutica de um espectro de reações semelhantes. Conhecer as coleções de onde esses elementos provêm é conhecer, portanto, seus padrões de variação, e esses conhecimentos podem ser úteis para nos informar qual é a probabilidade de estarmos diante de algo raro ou de apenas uma variação da normalidade. A estatística aplicada é a disciplina que nos possibilita descrever coleções e compará-las ou, ainda, descrever relações entre as características dos indivíduos ou elementos que as compõem. O uso adequado da estatística na solução de problemas correntes requer apenas o domínio dos conceitos elementares da disciplina e o domínio das técnicas necessárias à descrição, à comparação e ao estudo de correlações das coleções. Na caracterização das coleções, utilizamos os denominados resumos estatísticos de coleções. Como as coleções são compostas, geralmente, de indivíduos ou elementos semelhantes, utilizamos as características individuais desses elementos para descrever qualquer coleção. Os resumos ou descritores das coleções são construídos com a contagem dos indivíduos ou elementos que possuem as variações de uma determinada característica. Contar as variações apresentadas pelos indivíduos ou elementos é a única forma de construir qualquer descritor de coleções. Não há alternativa. Nenhuma coleção pode ser descrita, estatisticamente, sem a contagem das variações. Nas coleções de pessoas, contamos quantas são do gênero feminino e masculino, quantas apresentam estatura de 1,58, 1,60 e 1,67 m, respectivamente. Nas coleções de resultados de teste clínico com um determinado medicamento, contamos quantos tratamentos tiveram sucesso e quantos fracassaram. Nos casos particulares das características representadas por quantidades numéricas, como peso, altura e níveis da pressão arterial, combinamos ainda os valores observados na coleção com as contagens de cada variação para obtermos descritores que resumam, em um único número, uma dada característica da coleção. Assim, construímos com as contagens as tabelas de distribuição de frequências e calculamos percentagens, percentis, médias, modas, medianas, variâncias e desviospadrão, visando descrever, de modo resumido, as características dominantes e raras da coleção e dar ideia a respeito da variação das características utilizadas na descrição. Descrevemos, também, relações entre as características dos indivíduos de uma coleção mediante contagem de ocorrências de variações de duas ou mais características, com o objetivo de verificar se duas ou mais combinações de variações são mais ou menos frequentes que as demais. Se a contagem determinar que pessoas louras possuem olhos azuis mais frequentemente que as morenas, ou que as mais obesas apresentam maiores concentrações de lipídios séricos que as magras, podemos afirmar que, nas coleções descritas, a cor dos olhos está associada à cor dos cabelos e que os níveis séricos de lipídios são proporcionais ao peso do indivíduo. Tabelas de contigência, ou 558 FEMINA | Novembro 2010 | vol 38 | nº 11 frequências cruzadas, e coeficientes de correlação e regressão são construídos com as contagens de eventos para descrever tais relações. Ao possibilitar a descrição de coleções ou as relações entre características dos indivíduos ou elementos de uma coleção mediante os resumos mencionados, a estatística possibilita, ainda, a comparação de coleções umas com as outras. Possibilita ainda a comparação de relações funcionais observadas entre características distintas dentro de uma mesma coleção ou características de uma coleção com as demais. Essas comparações são mais que necessárias para podermos decidir se o paciente que temos diante de nós é apenas uma variação dos componentes de uma coleção ou se é, ao contrário, o caso comum da outra coleção, completamente distinta da primeira. O domínio do modo de se construir os resumos mencionados é fácil de ser adquirido. Todos nós, que passamos pelos bancos de uma faculdade de Medicina, somos familiarizados com eles, e os que perderam a familiaridade podem readquiri-la com a leitura de textos de estatística fundamental. A dificuldade da estatística para todos nós, inclusive aos que se dedicam a ela, não está na construção dos descritores apresentados acima. Tal construção é a parte fácil da questão. A grande dificuldade decorre da escolha do tipo de coleção que se pretende descrever: coleção completa ou amostra de uma coleção completa. Quando se trabalha com coleções completas ou populações completas de indivíduos, objetos ou acontecimentos, o trabalho estatístico termina com a construção dos resumos. Eles descrevem completamente as coleções e seus resultados podem ser utilizados para qualquer finalidade. Pode-se até comparar duas coleções de pessoas e afirmar, sem qualquer outra consideração, que a coleção A possui indivíduos mais obesos que a coleção B, porque a média de A é 76,0 kg e a de B é 75,8 kg. Pode-se afirmar, também sem receio de errar, que a probabilidade de se obter em pessoas com toxoplasmose na coleção A é 30%, porque essa é a proporção de infectados na coleção descrita. Os valores dos resumos são o que são e não necessitam de qualquer ajuste para serem validados. Quando se descrevem coleções com amostras de coleções, o trabalho estatístico é mais complicado. Não se pode simplesmente afirmar que a coleção A é mais obesa que a B somente porque uma determinada amostra de indivíduos de A apresenta média de peso 0,2 kg maior que a de B. É necessário levar em conta a variação amostral na determinação dos valores dos resumos comparados para, só depois, fazer a comparação e concluir se realmente A é mais pesada que B. No caso da descrição e comparação das amostras é necessário resolver, em primeiro lugar, o problema da amostra. O problema da amostra decorre da impossibilidade de se ter, em uma única amostra ou em um subconjunto da coleção, a totalidade dos elementos que fazem parte dessa mesma coleção. Decorre também do fato de se obter, em amostragens repetidas de uma mesma coleção, conjuntos de elementos sempre distintos uns dos outros, quando o acaso governa a seleção dos que farão parte ou não das amostras. Esses subconjuntos são constituídos, sempre, por apenas parte dos elementos da coleção original e, por causa disso, as contagens das variações das características dos indivíduos ou elementos quase nunca são exatamente as mesmas feitas na coleção completa. Em decorrência disso, os resumos obtidos com amostras quase nunca reproduzem fielmente os construídos com os elementos das coleções completas. Na verdade, é possível obter tantos resumos numéricos diferentes de uma mesma coleção quantas forem as amostras utilizadas para representá-la. No exemplo dado acima, o valor 76 kg, caso seja obtido mediante FEMINA | Novembro 2010 | vol 38 | nº 11 559 amostra, é apenas um dos infinitos valores que podem ser obtidos com amostras semelhantes e, provavelmente, é diferente da média de peso da coleção original completa. Um exemplo ilustra melhor o problema da amostra. Suponhamos que seja o nosso desejo conhecer quantos homens e mulheres estão empregados na prefeitura de Belo Horizonte. Suponhamos ainda que a prefeitura nos forneça as fichas pessoais de todos os seus empregados. O resumo dessa coleção quanto ao gênero dos empregados da prefeitura é obtido apenas pela contagem de homens e mulheres presentes no fichário. Digamos que, após a contagem e a realização dos cálculos pertinentes, tenhamos encontrado 61,8% de homens e 38,2% de mulheres. Esses valores correspondem ao resumo descritivo da coleção de empregados da prefeitura em relação ao gênero dos mesmos. Suponhamos agora que a prefeitura nos negue a lista completa, mas se disponha a fornecer uma lista contendo 120 empregados selecionados ao acaso (como toda boa amostra estatística). Qual é a probabilidade de se encontrar na amostra a proproção exata de homens e mulheres da coleção completa? É quase nula. Podemos obter, nas amostras, proporções de homens acima e abaixo de 61,8% e de mulheres acima e abaixo de 38,2%, mas raramente as proporções exatas. As combinações de valores serão quase sempre diferentes das obtidas com o exame da coleção completa, e devem variar, também, de amostra para amostra, apesar de as probabilidades de se obter em valores próximos dos verdadeiros serem maiores do que as probabilidades de se obter em valores distantes nos processos de amostragem. Como se vê, os resumos obtidos com amostras são inerentemente incertos e não podem, nem devem, ser tomados como representativos imediatos da coleção original. Para serem úteis, esses resumos devem ser “validados”. Para serem úteis, devem ser acompanhados de alguma “coisa” que indique se o valor do descritor obtido com a amostra encontra-se suficientemente próximo ou distante do descritor verdadeiro, da coleção completa. Essa “coisa” é o intervalo de confiança, e só pode ser obtida nos termos “da probabilidade de se encontrar o valor ‘verdadeiro’ no interior de um intervalo de valores, construído em torno do que se obteve com a amostra”. Por causa disso, os resumos obtidos mediante amostras somente têm utilidade quando são acompanhados pelos respectivos intervalos de confiança. Como corolário dessa afirmação, os resumos obtidos mediante amostras não têm valor quando tomados isoladamente. O que é, afinal, o intervalo de confiança? É o determinado pela imposição de valores acima e abaixo do descritor obtido com a amostra, de modo que atuem como limites de um intervalo de variação de valores no interior de onde se acredita que esteja localizado o valor verdadeiro, com uma probabilidade dada. Para tanto, especifica-se qual é a probabilidade desejada, geralmente alta, e são calculados com os dados da amostra e recursos da estatística teórica os valores que constituirão os limites inferior e superior do intervalo. Depois de construído, o resumo da amostra, acompanhado do intervalo, indica o valor provável do resumo da coleção completa e informa que há alta probabilidade, possivelmente de 95%, de o valor verdadeiro ser representado por qualquer coisa entre X-y e X+y, sendo que y é a metade do intervalo completo. No exemplo dado, assumindo-se que se utilizou amostra para representar a coleção completa, o peso médio de A só faz sentido se for acompanhado de seu intervalo de confiança. Se esse intervalo for de 4 kg, o resumo da amostra é 76 kg, mais ou menos 2 kg, e o resumo verdadeiro da coleção completa associa-se a uma probabilidade, digamos, de 95%, de assumir qualquer valor entre 74 e 78 kg. O intervalo de confiança “valida” o resumo feito com dados da amostras ao informar quais devem ser os 560 FEMINA | Novembro 2010 | vol 38 | nº 11 valores verdadeiros da coleção completa, com grande probabilidade de acerto. Embora incerto, o resumo obtido mediante amostras adquire utilidade ao assegurar-nos, em níveis baixos de incerteza, que o resumo verdadeiro pode assumir apenas um conjunto limitado de valores que se encontram em torno do obtido com a amostra. A construção dos intervalos de confiança é algo mais complicado que a construção dos resumos em si. Mas pode ser dominada por qualquer um de nós que dedique algum tempo ao aprendizado da estatística. Na verdade, não é nem mesmo necessário dominar os detalhes do cálculo para obtê-los. Basta apenas dominar o conceito e a lógica da construção, posto que a totalidade dos programas estatísticos de computadores faz esse cálculo, quando adequadamente alimentados de dados. O uso de amostras impõe restrições, também, na comparação de duas ou mais coleções, e elas são determinadas, em grande parte, pela incerteza das grandezas comparadas. Não se pode pretender, devido aos motivos mencionados, estabelecer comparações de resumos obtidos com amostras tomando tais resumos como valores pontuais. Os valores isolados são incertos e incapazes de propiciar qualquer informação sobre a grandeza relativa dos mesmos. Na comparação de descritores amostrais é obrigatório levar em conta os respectivos intervalos de confiança. É necessário incluir na comparação todos os valores dos intervalos das amostras comparadas. Isso é feito, geralmente, mediante os testes de significância estatística, e neles se procura determinar a probabilidade de as diferenças observadas nas comparações serem determinadas, exclusivamente, pelo acaso. Como a seleção dos participantes das amostras é determinada pelo acaso nas amostras estatísticas, e como os descritores amostrais representam variações ao acaso das estimativas do descritor da coleção completa, assume-se que as diferenças observadas entre os descritores de uma ou mais amostras sejam também determinadas, pelo menos em parte, pela sorte ou pelo azar. A comparação estatística deve dispor, portanto, de um modo de determinar até que ponto as diferenças observadas são determinadas pelo acaso ou não. Como no caso do intervalo de confiança, o único modo de se fazer isso é mediante a determinação da probabilidade de as diferenças terem sido determinadas pelo acaso. Tal probabilidade é determinada mediante a realização de testes de significância. Todos nós, médicos, possuímos alguma familiaridade com os testes do qui-quadrado e de Student. Tivemos contato com eles, pelo menos, no curso de graduação. Mas muito poucos de nós retêm na memória o significado de tais testes. Poucos de nós somos capazes de aplicá-los quando temos a oportunidade de fazê-lo. A razão disso reside, talvez, na inexistência de tais oportunidades em nossa experiência de vida ou na impossibilidade de encontrarmos tempo, em nossa rotina profissional, para dedicarmos um pouco ao aprendizado da matéria. Mas muitos de nós se mantiveram afastados da estatística e desses testes porque não encontraram modos relativamente fáceis de serem apresentados à disciplina. Na maioria dos textos de estatística, tais testes são apresentados como receitas particulares a serem aplicadas na solução de problemas particulares. Isso dificulta o discernimento de regras gerais na caracterização dos testes e torna extensa a lista do que aprender, transformando em pesadelo o aprendizado de uma disciplina considerada marginal no currículo médico. Embora exista certa razão nessa forma de abordar o aprendizado desses testes (afinal, as particularidades de cada conjunto de dados e cada característica utilizada nas descrições de coleções demandam um tipo apropriado de teste), todos possuem pontos em comum que nos ajudam a entender a lógica desses testes e o que os diferencia. Em primeiro lugar, todos os tesFEMINA | Novembro 2010 | vol 38 | nº 11 561 tes de significância foram desenvolvidos para determinar até que ponto as diferenças entre dois ou mais descritores podem ser produzidas, exclusivamente, pelo acaso. Em segundo lugar, todos partem do princípio de que a diferença esperada entre o que se compara é zero (ou qualquer outro valor alternativo) e que as diferenças efetivamente observadas na comparação são apenas variações estatísticas, ao acaso, em torno do zero ou do valor alternativo, produzidas pelo processo da amostragem. Em terceiro lugar, todos os testes foram desenvolvidos para determinar o valor da probabilidade de as diferenças observadas serem iguais a zero, ou iguais ao valor alternativo, na suposição de que apenas a amostragem produziu tais diferenças. Na impossibilidade ou pela dificuldade de se determinar diretamente tal probabilidade, a maioria dos testes calcula um valor intermediário que representa, no teste, as diferenças observadas, e se busca, em uma distribuição de probabilidades teórica desenvolvida para o teste, a probabilidade correspondente. Portanto, nos testes de qui-quadrado, o valor calculado representa todas as diferenças observadas nas comparações feitas com os descritores das amostras, e ele é utilizado na busca da probabilidade correspondente, na distribuição teórica do qui-quadrado adequada ao teste. O teste de Student cumpre o mesmo papel na comparação das médias de duas amostras, representando o t de Student a diferença entre as amostras comparadas e a quantidade necessária para encontrar, na correspondente distribuição teórica de Student, o valor da probabilidade procurada. Em ambos os testes, a probabilidade encontrada representa a probabilidade do acaso produzir as diferenças observadas e corresponde ao valor de p encontrado nos textos de estatística ou nos artigos especializados estudados por nós na vasta literatura médica disponível. O mesmo raciocínio se aplica aos testes em que a comparação das grandezas se faz pela razão de um valor sobre o outro, em vez da diferença entre eles, como ocorre nos cálculos de risco relativo e da razão de probabilidades obtidas com amostras em estudos epidemiológicos. O único cuidado que se deve tomar aqui é entender o valor de p como a probabilidade do acaso na produção de valores diferentes de 1 ou de qualquer valor alternativo, especificado de antemão. Os testes do qui-quadrado e Student não representam, naturalmente, os únicos testes de significância disponíveis para a comparação estatística. Existem inúmeros outros, cada um apropriado às características das coleções ou amostras comparadas. Mas quase todos eles possuem em comum a necessidade de determinar uma quantidade intermediária para representar as diferenças na busca do valor de p na distribuição de probabilidades correspondente. Por outro lado, todos eles, sem exceção, necessitam de um critério para estabelecer se um determinado valor de p encontrado em uma comparação é alto ou é baixo. Todos necessitam, em outras palavras, de um critério para estabelecer se a probabilidade encontrada acarreta alta ou baixa probabilidade de as diferenças observadas terem sido obtidas exclusivamente pelo acaso. Tal critério é geralmente arbitrário, e está, via de regra, sujeito ao interesse de quem compara e ao grau de incerteza admitido pela aplicação dos resultados das comparações. Admite-se, em geral, para comparações de interesse científico, que valores de p iguais ou superiores a 0,05 (ou 5%) acarretam alta probabilidade de as diferenças observadas serem produzidas pelo acaso, e que as probabilidades são mínimas quando tal valor permanece abaixo desse limite. Mas há casos em que o limite de significância é 0,01 ou ainda menor. A verificação das relações existentes entre as características de indivíduos no interior de uma dada coleção é, também, objeto da estatística, como afirmado an- 562 FEMINA | Novembro 2010 | vol 38 | nº 11 teriormente. Ela é realizada mediante a construção de descritores de relações, que podem ser materializadas com o cálculo dos coeficientes de correlação, coeficientes de regressão, coeficientes de concordância, tipo Kappa e outros. Todos eles descrevem como a ocorrência de uma determinada característica dos elementos de uma coleção é acompanhada da ocorrência de outra, ou outras. Todos eles determinam o grau de correlação existente entre as características envolvidas na relação. Como os descritores de relações possibilitam também comparar coleções, deve-se atentar apenas para o fato de que tais comparações estão sujeitas às mesmas regras e critérios utilizados nas comparações de coleções descritas de modo mais simples. A verificação das relações de características individuais pode ser feita, também, mediante amostras das coleções principais. Nesse caso, os coeficientes calculados com a amostra estão também sujeitos ao “problema da amostra” e devem ser complementados ou “validados” pelos respectivos intervalos de confiança. A comparação de coeficientes de correlação de duas ou mais amostras somente é valida, pela mesma razão, se a ela for aplicado também o correspondente teste de significância. Como se pode verificar, a estatística é um campo vasto de instrumentos úteis para o estudo de coleções e é ferramenta indispensável para se compreenderem fenômenos que dependem das variações de características de indivíduos que possam ser estudados em grupos. É, portanto, ferramenta insubstituível no estudo de questões médicas, que dependem, na quase totalidade, de fatores que variam de indivíduo para indivíduo e de grupo de pessoas para grupo de pessoas. Apesar de toda sua complexidade, determinada quase que completamente pelo problema da amostra, porque é relativamente fácil obter os descritores de características e relações de coleções (amostra ou não), a estatística não é o pouso seguro de apenas alguns iluminados ou especialistas não médicos. Seu fundamento é de fácil apreensão, e as técnicas fundamentais são de fácil manejo. Não é difícil calcular um intervalo de confiança e nem impossível calcular o qui-quadrado ou t de Student ao se compararem duas proporções ou duas médias. Não é difícil calcular o risco relativo da ocorrência de um mesmo evento em dois grupos distintos e nem calcular o seu significado estatístico, principalmente porque o mecanismo de cálculo pode ser realizado, hoje, por qualquer Epi Info. O trabalho do estudante, aqui, consiste apenas no domínio dos conceitos utilizados na determinação das características e relações dos indivíduos das coleções e no domínio do mecanismo de cálculo de cada descritor ou coeficiente. Consiste, especialmente, em compreender que as características levantadas para cada coleção dependem exclusivamente das contagens das variações, e que relações estudadas nesse capítulo não implicam, necessariamente, relações de causa e efeito. Consiste, principalmente, em compreender que, como no restante da Medicina, o desenvolvimento da habilidade estatística depende do domínio de alguns princípios de aplicação geral e da disposição para aprender algo que o profissional julgue ser realmente útil para ele. Barbacena, 25/4/2010 Dilermando Fazito de Rezende Professor de Metodologia Científica da Faculdade de Medicina de Barbacena. FEMINA | Novembro 2010 | vol 38 | nº 11 563