Metodologia estatística usada nos modelos de prognóstico em cuidados intensivos Trabalho realizado pelo grupo 1 da turma 10 do 1º ano do curso de medicina da Faculdade de Medicina da Universidade do Porto: Azeredo, M.A.; Ferreira, L.M.; Morgado, M.P.; Nunes, M.A.; Pires, M.F.; Rego, M.H.; Sousa, L.M. 1 Abstract O objectivo deste trabalho é apresentar a metodologia inerente à construção de modelos de prognóstico utilizados em Abstract Unidades Cuidados Intensivos. This Os modelos de prognóstico utilizados em Unidades de Cuidados Intensivos (UCI’s) começaram a ser utilizados na segunda metade os resultados esperados em doentes internados numa UCI (modelos para pacientes traumáticos). Posteriormente, foram criados novos modelos (segunda e terceira geração SAPS; APACHE; MPM) que, numa primeira fase, tinham como objectivos satisfazer necessidades de carácter ético e económico, juntando mais tarde a estes objectivos o de is centered in the methodology used in the construction of a prognostic model used in I.C.U.’s. The prognostic models for Intensive da década de 60 e tinham como principal objectivo comparar os resultados obtidos com work Care Units (I.C.U.’s) were first used in the second half of the sixtieth decade and their main goal was to compare the given results whit the expected results in an interned patient of an I.C.U. (models for traumatic patients). Posteriorly, new models have been created. These second and third generation models satisfied, at the beginning, the ethic and economic needs; later, they became truly important in comparing results of the same or comparar resultados intra e entre UCI’s. Na formulação, desenvolvimento e different I.C.U’s. validação de um modelo de prognóstico é In the formulation, development and necessário seguir alguns passos elementares. São eles: seleccionar as variáveis de resultado, seleccionar a população de pacientes a estudar, seleccionar as variáveis que são factores de risco, recolher e analisar os dados disponíveis, desenvolver o modelo estatisticamente (técnicas regressão logística múltipla) e validar o modelo (testes de discriminação - two-by-two table e curva ROC; testes de calibração - técnica de follow some elementary steps. They are: outcome variables selection, patient’s population selection, risk factors selection, available data collection and analyses, statistic development of the model (multiple logistic regression tecnics) and validation of the model (discrimination tests – two-by-two table and ROC curves; calibration tests – Hosmer- Hosmer-Lemeshow). Embora validation of a prognostic model is necessary to mantenham algumas limitações (dificuldade de acesso a informações dos pacientes, fiabilidade nas previsões dos resultados, entre outras), toda esta metodologia inerente à formação de um modelo de prognóstico, faz com estes estejam a ganhar uma maior validade e credibilidade entre a classe médica e observa-se actualmente um Lemeshow tecnics). Although they keep having some limitations (the patient’s information access is difficult, the predicted results are not so trustful in the eyes of the entire medical society, among others) all the methodology used in the creation of a prognostic model is leading to a higher utilization of the models. aumento gradual na sua utilização. 2 Introdução O que são modelos de prognóstico em Unidades de Cuidados Intensivos ? Os modelos de prognóstico em Unidades de Cuidados Intensivos (U.C.I.’s) são baseados em princípios matemáticos estatísticos, que consistem na atribuição de um índice de gravidade a doentes das unidades, sendo que este se apresenta frequentemente sob a forma de uma probabilidade de morte. Estes modelos partem normalmente de características do paciente e da medição de variáveis fisiológicas aquando da entrada na U.C.I., sendo estas posteriormente relacionadas através da construção de uma equação matemática utilizando essencialmente a técnica de regressão logística. Como resultado obtém-se um determinado valor percentual que prevê o desenvolvimento e conclusão do internamento dos pacientes.1,2,3 É também de referir que existem outras técnicas intimamente relacionadas com os modelos de prognóstico, mas estas intervêm na validação destes. A aplicação destes métodos, como as curvas ROC4 (Receiving Operating Characteristic) e testes de goodness-of-fit5, tem como principal objectivo avaliar a qualidade dos modelos estabelecendo relações entre os valores previstos e os observados.1 Antes de se passar à explicação da metodologia estatística inerente ao desenvolvimento de um modelo de prognóstico é absolutamente necessário conhecer algo mais sobre eles. De seguida são apresentadas as respostas a algumas questões que resumem aquilo que é conveniente saber acerca de um modelo de prognóstico para melhor entender os princípios que estão subjacentes à sua criação. Para que servem e por quem são utilizados estes modelos? Enquanto que os primeiros modelos de prognóstico foram criados com um único objectivo, o de comparar os resultados obtidos com os resultados esperados, alguns modelos mais recentes, nomeadamente os de segunda e terceira geração, convergiram para satisfazer duas necessidades que se fizeram sentir, especialmente, em U.C.I.’s.1,6 Uma é de carácter ético, pois tem a haver com o facto de direccionar, ou não, ao acaso, pacientes severamente doentes para U.C.I.’s. Como tal, o seu uso tem sido vital 3 na triagem clínica, ou seja, na determinação do estado de gravidade dos doentes que são posteriormente tratados por ordem dessa gravidade.1,7 A outra é de natureza económica, estando relacionada com a redução dos custos. Uma vez que os recursos disponíveis para a saúde são escassos, torna-se fundamental racionalizar ao máximo a ocupação das camas nas U.C.I.’s. Para isso, muito contribuem os modelos de prognóstico na selecção e admissão de doentes para as U.C.I.’s.2,8,9 Na posse da informação, o clínico pode mais fácil e rigorosamente escolher as técnicas disponíveis a utilizar no tratamento dos seus pacientes mediante a comparação com casos semelhantes previamente tratados, juntamente com a probabilidade relativa de que o tratamento escolhido venha a ser eficaz no doente em causa.2,10,11 A qualidade do tratamento do paciente é outra área na qual os modelos de prognóstico parecem ter impacto. Isto é feito através de uma pesquisa de resultados, abrindo a possibilidade de comparação inter-U.C.I.’s com a eventual identificação dos componentes organizativos e administrativos responsáveis por uma melhoria ou agravamento verificado em qualquer delas.2 Utilizados apropriadamente estes modelos podem então: ajudar os médicos na decisão clínica, facilitada pela estratificação das classes de gravidade, e na atitude terapêutica; possibilitar a comparação entre populações de estudo e entre diferentes U.C.I.’s, levada a cabo pelos investigadores da saúde; racionalizar a utilização de recursos, objectivo dos administradores da saúde. 2 Para além disso, são importantes em diversos estudos epidemiológicos, são usados como um meio de grande disponibilidade de informação referente aos doentes internados e possibilitam os estudos de outras variáveis sem ser a mortalidade, como por exemplo, a qualidade de vida a longo prazo depois de um internamento numa U.C.I.1,2,6 Que tipos de modelos existem actualmente? Os modelos de prognóstico nas unidades de cuidados intensivos podem ser específicos ou genéricos. Os modelos específicos são usados para certos tipos de pacientes enquanto os genéricos podem abranger todos ou quase todos os tipos de pacientes independentemente das doenças. Os modelos também podem ser anatómicos (atingem a extensão da lesão) ou fisiológicos (relacionados com o impacto da lesão na 4 função). Os resultados dos modelos anatómicos são fixos enquanto os fisiológicos podem variar à medida que a resposta fisiológica à lesão ou doença varia.6 Os primeiros modelos foram criados para pacientes traumáticos e eram do tipo anatómico e específico. Mais recentemente, os modelos de prognóstico têm sido genéricos. Actualmente têm sido utilizados dois métodos:6 - medição do risco pelo tratamento: O TISS (Therapeutic Intervention Scoring System)12,13, publicado em 1974, é um exemplo. Quanto mais doente estiver o paciente, maior o número e complexidade de tratamentos recebidos por ele. Ao contabilizar isto, pode-se obter um valor do risco que o paciente tem. - medição do risco pelas características do paciente e pelas medidas fisiológicas.6 O primeiro modelo genérico desenvolvido para quantificar a doença do paciente de acordo com as suas características fisiológicas foi o APACHE (Acute Physiology Age and Chronic Health Evaluation)2,14,15. No entanto, o modelo original era muito complexo, tendo sido desenvolvidas 2 novas derivações do original: o SAPS (Simplified Acute Physiology Score)16 e o APACHE II14. Posteriormente ambos foram adaptados a SAPS II17 (1993) e a APACHE III15 (1991), respectivamente. Um modelo alternativo é o MPM II (Mortality Probability Model)18,19 A que princípios deve um modelo de prognóstico obedecer? Qualquer modelo de prognóstico deve ter credibilidade (credibility), precisão (accuracy) e efectividade (effectiveness) e deve ser generalizável (generality). 20 Embora os melhores modelos de prognóstico tenham um forte suporte estatístico, os médicos estarão relutantes à sua utilização enquanto não acreditarem nas suas previsões. Alguns pré-requisitos para aumentar a sua credibilidade clínica são: - todos os dados clínicos relevantes referentes aos pacientes deverão ser testados a fim de serem integrados no modelo, não devendo nunca serem sonegados dados importantes;20 - a obtenção de dados deverá ser um processo simplificado, que não ocupe demasiado tempo e recursos (computorização de todo o modelo). Os dados deverão ser gerados particularmente a partir de classes de doentes cujas previsões do modelo irão servir futuramente;20 5 - os construtores dos modelos deverão evitar limites bruscos para variáveis contínuas. Por exemplo, é pouco provável que o prognóstico para uma mulher com um melanoma úlcero de 3,9 mm de espessura seja muito diferente do prognóstico para 4 mm de espessura.20 Os modelos deverão prever com rigor acentuado um evento que irá ocorrer, para que a confiança da classe médica aumente e para que os modelos possam representar uma ajuda preciosa aos profissionais de saúde.20 Mas se a percentagem de sobreviventes for maior que a prevista, não quer dizer que o modelo esteja mal calibrado e que não seja exacto. Talvez a U.C.I. em questão, diferente daquela(s) na qual o modelo foi desenvolvido, tenha melhores condições. Quanto à efectividade clínica, pode-se referir que os médicos deverão recorrer tanto ao seu senso clínico (ditado por vezes por muitos anos de prática e experiência médica), bem como a resultados ditados por ensaios clínicos e a estudos de comparação. Torna-se de vital importância neste contexto, validar as previsões com base em modelos com resultados em ensaios clínicos bem delineados (máxima eliminação de factores de erro).20 Alguns médicos acreditam que os prognósticos baseados em modelos cujos dados provêm de uma determinada população de doentes, não são aplicáveis a outra população diferente. De acordo com alguns especialistas, os modelos poderão ser generalizadamente aplicados com segurança, quando: - são testados com independência e separadamente, no tempo e no lugar com outro arranjo, recorrendo a várias técnicas estatísticas;20 - cada variável introduzida no modelo é claramente definida, utilizando critérios universalmente aceites;20 - o desenvolvimento e a validação do modelo são feitos prospectivamente, de acordo com um protocolo com premissas pré-definidas, e não retrospectivamente, recorrendo a bases de dados gerais com as suas incorrecções, susceptíveis de induzirem em erro.20 A descrição e discussão de todos os modelos de prognóstico ultrapassa este trabalho. Apenas nos referiremos aos modelos de risco gerais, isto é, aplicáveis a todas as doenças críticas. Embora os modelos específicos para uma doença tenham sido desenvolvidos acreditando que cada patologia teria um conjunto de variáveis predictivas próprias e, de uma maneira geral, se tenham revelado eficazes e úteis, interessa-nos 6 discutir sobretudo os modelos gerais, aplicáveis a qualquer doente que é admitido a uma U.C.I. com um qualquer diagnóstico, ainda que referenciados brevemente pois este trabalho estará focado na metodologia estatística base usada no desenvolvimento de qualquer modelo de prognóstico. 7 Desenvolvimento Os passos ou elementos essenciais necessários para a formulação e desenvolvimento de um modelo de prognóstico são:1 1 - seleccionar as variáveis de resultado (outcome); 2 - seleccionar a população de pacientes a estudar; 3 - seleccionar as variáveis que são os factores de risco; 4 - recolher e analisar os dados disponíveis; 5 - desenvolver o modelo estatisticamente; 6 - validar o modelo Para uma melhor compreensão dos processos que levam à formação de um modelo, iremos então dissecar cada um dos pontos acima numerados. SELECÇÃO DO RESULTADO A ESTUDAR A mortalidade é o outcome que mais fácil e objectivamente avalia um desempenho das U.C.I.’s, uma vez que apenas existem duas possibilidades finais: morrer e não morrer. A relação custo-eficiência21 dos cuidados médicos e o prognóstico (de longa duração) da qualidade de vida após internamento nas U.C.I.’s representam outros resultados que podem ser estudados nos modelos de prognóstico. No entanto, estes resultados são mais difíceis de quantificar uma vez que são de maior complexidade que a mortalidade.1, No entanto, em termos do estudo da qualidade de vida dos pacientes, têm sido desenvolvidos um razoável número de instrumentos, incluindo: the Sickness Impact Profile22, the Functional Status Questionnaire23 e the Duke-UNC Health Profile19. No entanto, estes instrumentos são muito morosos de aplicar num grande número de pacientes.1 Os resultados diferem de acordo com o método usado e o tipo de pacientes estudado. A idade e severas condições clínicas preexistentes parecem afectar grandemente a qualidade de vida depois de uma estadia numa U.C.I. Qualquer variável medida depende do equipamento, da equipa médica, do processo de tratamento (tipo, qualidade e o momento em que é feito o tratamento) e da convivência com pessoas que sofrem de outros males.6 8 SELECÇÃO DA POPULAÇÃO DE PACIENTES A ESTUDAR Quando se desenvolve um modelo de prognóstico ou quando se utiliza um instrumento já desenvolvido para uma determinada pesquisa ou clínica, devemos ter em conta qual o grupo de pacientes sobre o qual ele visa (quais as suas tendências). Por exemplo, o estudo de Fowler identificou que modelos de prognóstico para pacientes com ARDS (síndroma do distress respiratório adulto) não são um modelo válido para avaliar pacientes com COPD (doença crónica da obstrução pulmonária) ou com a doença da artéria coronária. Outros instrumentos, como os descritos por Menzies para pacientes com COPD e por Norris para indivíduos com doença da artéria coronária seriam mais eficientes na população referida.1,25,26,27 Os modelos de prognóstico gerais (APACHE, SAPS, MPM,...) têm tentado evitar viéses nas populações seleccionadas usando contínuas entradas de pacientes para as U.C.I.’s e desenvolvimento das suas bases de dados. Ainda assim, os construtores destes modelos reconhecem que o conhecimento do diagnóstico de pacientes específicos frequentemente influencia a eficácia do modelo. Desta forma, certos subgrupos de pacientes foram excluídos dos modelos gerais (o APACHE III, o SAPS e o MPM excluem pacientes queimados e com enfarte de miocárdio) limitando o seu raio de prognóstico.1 Quando um modelo de prognóstico vai ser usado, a sua eficácia deve ser validada na população-alvo e os médicos e pesquisadores devem estar conscientes das tendências do grupo de pacientes para o poderem utilizar. Isto é verdade tanto para o médico que pretende dar uma estimativa da possibilidade de morte ao paciente como para o pesquisador que está a investigar o efeito de uma nova terapia nas U.C.I.’s.1 Podemos assim concluir que os modelos de prognóstico só devem ser utilizados em populações semelhantes àquelas que serviram como base para a construção do modelo. Sempre que se prova que a eficácia de um modelo é inadequada para a população a que se destina deve ocorrer uma modificação ou uma actualização do mesmo.1 SELECÇÃO DAS VARIÁVEIS QUE SE CONSTITUEM COMO FACTORES DE RISCO 9 Pacientes de uma U.C.I. têm grande parte das vezes centenas de dados individuais criados diariamente, reflectindo sinais vitais, valores laboratoriais, resposta a terapias específicas e resultados de procedimento de diagnóstico.1 A selecção das variáveis que se apresentam como factores de risco geralmente ocorre de um ou dois métodos: - algumas vezes, equipas de estudiosos, “experts” na matéria, seleccionam variáveis relevantes da previsão para o doente em causa.1 Este tipo de selecção foi usado no desenvolvimento do modelo APACHE;14 - o outro método envolve o uso de técnicas estatísticas como a análise da função de discriminação linear, para reduzir uma lista inicial de variáveis para uma mais profunda análise.1,28,29 Este tipo de aproximação foi usado no desenvolvimento do MPM, no qual de 377 variáveis se passou a ter 12 e no desenvolvimento do SAPS.16,17,18,19 Em geral, e esquecendo o método de obtenção da variável, esta tem de ser objectiva (não sujeita a julgamentos individuais) e facilmente obtida durante a hospitalização na U.C.I.1 RECOLHA E ANÁLISE DOS DADOS DISPONÍVEIS A colecção dos dados do paciente pode ocorrer prospectivamente ou retrospectivamente. A primeira é a aproximação preferida para assegurar que os dados sejam precisos e completos. Permite-nos uma análise contínua do método de colecção de dados para minimizar viéses ou erros na sua medição que possa diminuir a confiança nos resultados que eles geram. Falta de dados sob a forma de valores anormais de laboratório ou resultados de testes, torna problemático o acesso às disfunções do sistema orgânico.1,3 Uma investigação retrospectiva pode apresentar dificuldades na reaquisição de dados importantes. Isto pode levar a uma inapropriada associação da mortalidade com um pequeno número de desarranjos orgânicos.1,3 Depois dos factores de risco serem identificados, eles usualmente são analisados ou apresentados em dois formatos: 10 - uma escala cumulativa pode ser criada usando os factores de risco identificados. Uma única escala derivada da soma do peso relativo dos factores individuais é usada no APACHE, SAPS e TISS; - métodos estatísticos directos podem ser empregues. O MPM, assim como outros novos modelos, usa técnicas estatísticas.1,30 À medida que as ciências da informática médica e investigação de resultados neste campo das U.C.I.’s se desenvolvem, novos métodos de computadores são formulados para facilitar a junção destes dados e oferecerem aproximações alternativas para a sua análise.1,31 DESENVOLVIMENTO ESTATÍSTICO DE UM MODELO DE PROGNÓSTICO Na análise de regressão linear, é possível testar se duas variáveis estão linearmente relacionadas e calcular a força da sua relação, quando essa relação é descrita na forma y=+x (A) onde y é a variável dependente (a ser prevista), x é a variável independente (cujos valores são usados para prever y), representa o valor de y quando x é zero e representa a variação em y associada a uma unidade de acréscimo em x.32 A forma usual de um modelo multivariável é a equação linear y=b0+b1x1+b2x2+...+bkxk (B) onde y é a variável dependente, x1 até xk são as variáveis independentes e b1 até bk e b0 são constantes com o mesmo significado que e respectivamente.1 No caso de um modelo de prognóstico os factores de risco não estão linearmente relacionados com a variável independente, normalmente a mortalidade (é com esta que vamos trabalhar), por isso, são feitas transformações para que modelos como o descrito na equação B possam ser usados. A técnica de análise de transformação logística é comummente usada quando lidando com pontos de determinação binários, como a mortalidade, e tem a propriedade de transformar uma curva em S numa linear. (figura 1)1 Uma possível transformação pode ser feita na variável dependente. Isto é conseguido adicionando 1 à variável e depois calculando o seu logaritmo natural. A equação de regressão fica na forma ln (y+1) = +x. Também se podem fazer transformações a nível de uma ou mais variáveis independentes.32 11 Para múltiplas variáveis, que é o que acontece nos modelos de prognóstico, este método de análise é chamado de regressão logística múltipla, descrita pela seguinte equação: P = eLT /(1+eLT) (C), em que P é a probabilidade do evento, e LT é a soma linear das variáveis significativas da equação de regressão B.1 O APACHE, o MPM e o SAPS são os modelos mais reconhecidos que usam esta técnica para desenvolver equações que relacionam o resultado com factores de risco específicos de modo a obterem o valor da variável dependente a partir da relação com as variáveis independentes. Mas a regressão logística múltipla também tem sido usada com o objectivo de identificar factores de risco adicionais que não tenham sido previamente incluídos nos instrumentos de previsão geral. Isto faz-se porque é possível determinar quais as variáveis de um conjunto que melhor prevêem a variável dependente e qual a extensão da sua influência, e porque também se pode estudar a relação de uma única variável controlando o efeito das outras na equação.1,33 De seguida apresentam-se alguns exemplos práticos para melhor se compreender como tudo funciona, nomeadamente a escolha das variáveis, a relação entre as escalas cumulativas e a regressão logística múltipla, e o emprego de outras técnicas estatísticas usadas no desenvolvimento de um modelo de prognóstico. SAPS É possível melhorar um modelo alterando as variáveis, modificando os seus pesos e incluindo informação acerca de estados de saúde e diagnóstico anteriores. O SAPS foi desenvolvido a partir de um modelo pré–existente chamado APS (Acute Physiology Score), calculado a partir de 34 variáveis fisiológicas e no qual um valor de zero a quatro é atribuído a cada variável de acordo com o grau de anormalidade e a soma de todos os valores dá-nos a pontuação final na escala predictiva do APS para um determinado paciente.16 (tabela 1) No final do desenvolvimento deste modelo, obteve-se uma ferramenta muito mais barata e que consome muito menos tempo. Enquanto que no APS demorava-se cerca de seis minutos a recolher os dados, no SAPS uma enfermeira treinada dispende apenas um minuto. E isto porque as novas variáveis são em menor número, nomeadamente as biológicas, tornando-se menos desconfortante para o paciente, e muito mais fáceis de medir.16 12 Das 34 variáveis passou-se para 13 através da análise de discriminação linear que serviu para testar a influência delas na mortalidade usando uma regressão linear múltipla. Muitos subgrupos de cinco ou seis variáveis tinham o mesmo poder discriminatório. No entanto, cada um destes subgrupos reflectia apenas um ou dois modelos fisiológicos pelo que se escolheu as 13 mais facilmente medidas que cobriam quase todos os modelos.16 A escolha das variáveis foi acertada também pelo facto de dados complexos estarem presentes numa maior percentagem de pacientes (50% em vez de 30%) e um máximo de três valores faltarem nos restantes 50%. Também o novo conjunto de variáveis aumenta o espectro de patologias sobre o qual o modelo é aplicável.16 A introdução da idade como uma décima quarta variável foi também muito importante pois constatou-se haver uma relação entre esta e a mortalidade: a maior parte das mortes em pessoas com uma pontuação pequena dá-se em pessoas idosas.16 SAPS II O SAPS entretanto também já foi melhorado e é o SAPS II que é actualmente mais utilizado pelo que vamos dar mais atenção à metodologia estatística deste. No desenvolvimento do SAPS II também foi utilizada a análise de regressão logística. Esta assistiu na (1) selecção de variáveis que constituíram o novo SAPS, (2) na decisão dos grupos apropriados e atribuição de pontos para variáveis e (3) na conversão da pontuação SAPS II numa probabilidade de morte hospitalar.17 A recolha de dados inclui informação demográfica do paciente, todas as variáveis que constituem o SAPS original, um conjunto de novas variáveis e o estado vital à entrada na U.C.I.. As variáveis fisiológicas foram recolhidas como o pior valor nas primeiras 24 horas na U.C.I. Como em qualquer modelo baseado em medições clínicas, muitas vezes pode não ser possível recolher todos os dados. Este problema foi ultrapassado assumindo que os valores não calculados estão dentro dos limites normais.17 As novas variáveis foram independentemente avaliadas pela sua relação com a mortalidade hospitalar e foram destacadas aquelas com uma maior relação utilizando-se a já referida função de discriminação linear. Como resultado, das 37 variáveis estudadas apenas 17 foram incluídas no SAPS final.17 13 A técnica LOWESS34 foi um método utilizado para produzir valores de y para valores de x identificando os chamados cut points (valores de corte) que definem os limites de uma amplitude de valores de x associados a mudanças nos valores de y.17 Para associar pontuações aos intervalos de x usou-se a análise de regressão múltipla. Os coeficientes resultantes desta análise foram multiplicados por dez e arredondados ao integral mais próximo. Assim, calculou-se o valor correspondente a cada variação de x. Depois foi usada a equação de regressão logística que vimos atrás para converter o score final numa probabilidade de morte. O LT neste caso calcular-seia da seguinte maneira: 0+1 (SAPS II score)+ 2 [ln (SAPS II score +1)].17 MPM Como o ambiente numa U.C.I. não é estático, os modelos têm de ser continuamente actualizados. O MPM não foi excepção e agora consiste de um conjunto de quatro modelos: o MPM0, MPM24, MPM48 e o MPM72., sendo os números referentes à hora a partir da qual se faz a recolha de dados.18,19 Como exemplo, apresenta-se a descrição do desenvolvimento estatístico do MPM0 para mostrar outras técnicas estatísticas usadas. Associações de variáveis independentes categóricas (tabela 2) com a mortalidade hospitalar foram alcançadas com testes 2 (qui quadrado), e a significância de variáveis contínuas foi conseguida com testes t de student principalmente.33,35 As variáveis foram então consideradas na regressão logística múltipla se estivessem significativamente relacionadas com a mortalidade num valor de probabilidade P menor que 0,1 (resultado do teste) e se pelo menos dois por cento da população exibisse esse factor. Outro método, a estatística Kappa36, foi usada para avaliar a concordância das variáveis.19 Usando o método maximum likelihood32, os coeficientes de regressão estimados e os seus Ses foram calculados. Variáveis foram eliminadas do modelo a partir também deste método.19 A tabela 3 apresenta as variáveis independentes, os coeficientes de regressão logística estimados, os Ses estimados, as odds ratios32 ajustadas e intervalos de 95% de confiança para estas, no MPM0 final. Como se pode constatar, as variáveis que melhor parecem conseguir prever a mortalidade hospitalar são o estado de coma ou o torpor profundo e insuficiência renal, cada uma tendo uma odds ratio de 4,4, o que significa que um paciente nestas condições, terá uma probabilidade 4,4 vezes maior de morrer que um outro que não sofra de nenhuma destas condições.19 14 O cálculo da probabilidade de morte com este modelo está ilustrado na tabela 4. Note-se que cada variável, excepto a idade (cujo valor entra directamente nos cálculos), recebe um valor de zero ou um, conforme não está ou está presente, respectivamente. O logit é calculado da maneira que já se viu para o SAPS e a sua transformação em probabilidade também é igual. O que diferencia este modelo dos outros, principalmente, é que não entra com uma escala cumulativa no cálculo da probabilidade de morte.19 O desenvolvimento dos MPM seguintes foi feito a partir dos mesmos princípios matemáticos e caracterizam-se por serem modelos com variáveis do modelo anterior mas também novas variáveis ,mais facilmente medidas, (tendência constante na actualização dos modelos) sendo as medições destas feitas após 24, 48 e 72 horas de estadia numa U.C.I.3 VALIDAÇÃO DOS MODELOS DE PROGNÓSTICO O número de modelos de prognóstico disponíveis cria muitas vezes confusões sobre qual o método que será mais apropriado e eficaz para o uso pretendido. Assim, é de extrema importância saber se um modelo foi validado ou não, uma vez que o objectivo principal da validação é verificar a relação correcta que existe entre a previsão e o resultado obtido. A comparação directa entre os vários modelos e também com um modelo perfeito representam uma aproximação da sua validação. No entanto, esses estudos comparativos não foram realizados e até ao momento não existe nenhum “modelo de ouro” para as U.C.I.’s. Outras técnicas foram desenvolvidas para saber da eficácia dos modelos, algumas das quais são referidas ao longo deste trabalho.1 Duas considerações devem ser levadas em conta durante a validação de um modelo – a discriminação e a calibração do instrumento de previsão. A discriminação define a qualidade com que o modelo descrimina entre os pacientes (aqueles que irão morrer contra aqueles que irão sobreviver) e é comummente representada pelas curvas ROC. A calibração refere-se à actual correlação entre a previsão e o resultado actual para a inteira amplitude de risco e é avaliada através das estatísticas goodness-of-fit.1 Discriminação Uma two-by-two table permite uma apresentação detalhada de cada cut point usado na construção de uma curva ROC. Estas tabelas (tabela 5) são usadas para comparar os resultados obtidos com os previstos e assim determinar a sensibilidade, a 15 especificidade, os valores de previsão e as correctas classificações de avaliação para o modelo. A tabela 5 ilustra um exemplo no qual um valor de corte de 50% (isto é, valores iguais ou acima de 50% são considerados como prevendo a morte e valores abaixo de 50% são tomados como prevendo a sobrevivência) foi escolhido para obter a mortalidade como resultado. Se em 100 pacientes assumimos que 50 têm uma previsão de mortalidade superior a 50% e se concluirmos que desses 50 apenas 25 realmente morrem, então a avaliação da falsa classificação será de 25% uma vez que estava previsto que todos esses 50 pacientes morressem, segundo a escolha de um ponto notável de 50%. 1 Deste modo, as curvas ROC (figura 2) desenham a razão de “verdadeiros positivos”- TP - (isto é, uma expressão de sensibilidade igual a [TP*1 / (TP + FN)], onde FN são previsões falsas negativas) no eixo vertical contra razões de falsos positivos (isto é, [FP*2 / (TN + FP)] igual a [1 – especificidade] e onde TN = previsões verdadeiras negativas) no eixo horizontal. As curvas ROC também dão informação quanto à eficácia do modelo poder atingir 100% de sensibilidade*3 e 100% de especificidade*4. À medida que a área abaixo da curva ROC se aproxima de 1.0 torna-se mais discriminante; à medida que a área se aproxima de 0,5 ele torna-se mais falível nas suas determinações.1 Calibração Para a calibração de um modelo utilizam-se as estatísticas goodness-of-fit (técnica de Hosmer-Lemeshow).1 A técnica de Hosmer-Lemeshow (tabela 6) é baseada no cálculo da mortalidade esperada em grupos formados usando intervalos de probabilidade iguais, normalmente de 10%, os quais são comparados com a mortalidade observada. Dentro de cada decil o número previsto de mortes é calculado ao somar a probabilidade de mortalidade para cada paciente naquele decil. Se a diferença entre os resultados observados e esperados nalgum(s) grupo(s) for significativa, isso significa que o modelo está mal calibrado.17,37 *1 – TP = true positive = verdadeiro positivo = número de mortes previstas / número de mortes *2 – FP = false positive = falso positivo = número de mortes previstas / número de sobreviventes *3 – Sensibilidade é a proporção de verdadeiros positivos *4 – Especificidade = (um menos a proporção de falsos positivos) 7 SAPS II 16 Para um melhor conhecimento da validação nos modelos de prognóstico nada melhor que dar um exemplo da sua aplicação num dos mais conceituados. No SAPS II, para avaliar a performance do modelo realizaram-se testes formais de goodness-of-fit (Hosmer-Lemeshow) tanto na série de dados do desenvolvimento como na série de dados da validação para avaliar a calibração. O valor da probabilidade para o teste de goodness-of-fit foi 0,883. Uma vez que este valor é largo (consideravelmente maior que 0,05), o modelo reflecte muito proximamente a verdadeira experiência de mortalidade na série de dados do desenvolvimento. Na série de dados da validade, o valor da probabilidade para o teste de goodness-of-fit foi 0,104, sugerindo que o modelo reflecte a possibilidade de mortalidade num grupo de pacientes independente daqueles no qual o modelo foi desenvolvido.17 As áreas abaixo das curva ROC para o SAPS II foram 0.88 (95% de intervalo de confiança, 0,87 a 0,90) no conjunto de dados do desenvolvimento e 0,86 (95% de intervalo de confiança, 0,84 a 0,88) na série de dados da validação. Áreas desta largura são geralmente reconhecidas como constituindo uma excelente discriminação.17 O SAPS anterior (14 variáveis) foi calculado para cada paciente na série de dados da validação. Os resultados mostram que o SAPS II (17 variáveis) oferece uma melhoria significativa em todos os aspectos. A área abaixo da curva ROC foi 0,80 para o SAPS anterior enquanto foi 0,86 para o SAPS II. Para além disso, o coeficiente de correlação entre o SAPS e o SAPS II foi 0,79, o que prova que apenas 62% da variabilidade no SAPS II pode ser explicado pelo modelo antigo.17 A performance do SAPS II demonstra de que é um modelo extremamente efectivo para estimar a probabilidade de morte para os pacientes das U.C.I.’s.17 17 Conclusão Estes modelos, pertencentes ao novo ramo da ciência biomédica – a prognosticação – apesar de ainda relativamente desconhecidos têm vindo a ganhar uma crescente importância, nomeadamente nas U.C.I.’s.2 No entanto ainda apresentam várias limitações: Apesar de se basearem em medidas prospectivas, há a necessidade de haver um fácil acesso de dados relativos ao historial do paciente. O problema reside no facto das informações não estarem disponíveis e organizadas, sendo frequente a perda de dados-chave.3,20 Muitos investigadores reconhecem que alguns modelos não são tão fiáveis na previsão de risco de morte individual como na previsão relativa a grupos de pacientes.21 A sua aplicabilidade é também posta em causa quando se trata da generalização do modelo para outras populações, além daquela onde se desenvolveu o modelo.20 Para resolver estas limitações, certos investigadores crêem que para assegurar a segurança do uso dos modelos é necessária a realização de testes que assegurem a sua eficiência.20 No entanto verifica-se que, apesar dos métodos de avaliação já estarem bem desenvolvidos, estes não são extensivamente utilizados, o que resulta na desvalorização da informação, que os modelos pouco avaliados e usados produzem.3 Como consequência destas e outras limitações, como a complexidade funcional inerente ao uso de modelos e a falta de credibilidade, os médicos encontram-se ainda muito indecisos, como se observa na seguinte afirmação: “... médicos estarão reticentes em usá-lo (o modelo) para informar os seus pacientes de decisões a menos que acreditem no modelo e suas previsões.”20 Outra limitação relativamente ao uso destes modelos no apoio à decisão clínica é a questão ética, inerente á decisão de quais indivíduos deverão ou não beneficiar de determinados recursos. Esta situação confronta os pacientes e familiares, que querem o direito e autoridade para escolher entre todas as alternativas terapêuticas com a necessidade de gestão dos recursos, uma vez que esta é cada vez mais uma questão pertinente na área da saúde.21 18 Em relação a desenvolvimentos futuros destes modelos, verifica-se que estes passarão essencialmente pela avaliação das fontes de viéses mais importantes como por exemplo: os critérios de internamento e alta dos doentes das U.C.I.’s, a qualidade de cuidados prestados, protocolo de recolha de dados e a incorporação nestes modelos de colheita automatizada de dados. Esta última evolução permitiria a facilitação do trabalho de recolha manual de variáveis e poupança a nível de recursos económicos (como por exemplo, o acesso a análises recentes, por registo electrónico, evita realizações desnecessárias de novas análises).2 Conclui-se que se, apesar de todas as suas limitações, estes modelos forem sujeitos a sérias avaliações e consequentes desenvolvimentos, podem tornar-se ferramentas extremamente úteis nas U.C.I.’s fundamentalmente no(a): No auxílio a decisões clínicas.2 A melhorar o uso de recursos.2 Permitindo comparações entre U.C.I.’s.5 Em relação a este último ponto as coisas não são assim tão lineares pois as diferentes U.C.I.’s não recebem o mesmo tipo de pacientes em relação à gravidade do seu estado e variedade de causas de internamento, nomeadamente devido à sua área de localização, e as U.C.I.’s também não são uniformes quanto aos equipamentos e pessoal de trabalho o que pode ter uma grande influência nos resultados do internamento dos pacientes.2 19 Bibliografia 1. Kollef, M.H.; Schuster, D.P.; Predicting intensive care unit outcome with scoring systems. Underlying concepts and principles; Critical care clinics; 1994 Janeiro; 10(1); pp. 1-18 2. Carneiro, A.V.; Girão, J.; Ivo, M.; Lopes, M.G.; de Pádua, F.; Prognostic systems in intensive care: general principles, development and clinical applications; Acta Med. Port.; 1993 Fevereiro; 6(2); pp. 87-93 3. Rue, Montse; Statistical issues related to applying severity models; Critical Care Medicine; 1997; 3; pp. 175-178 4. Hanley, J.A.; McNeil, B.J; The meaning and use of the area under a receiver operating characteristic (ROC) curve; Radiology; 1982; 143; pp. 29-36 5. Hosmer, D.W.; Lemeshow, S.; A review of goodness of fit statistics for use in the development of logistic regression models; Am J Epidemiol; 1982; 115; pp. 92-106 6. Gunning, Kevin; Rowan, Kathy; ABC of intensive care. Outcome data and scoring systems; BMJ;1999 Julho; 319; pp. 241-244 7. Hellman, S; Hellman D.S.; Of mice and man – problems of the randomised clinical trial; N. Engl. J. Med.; 1991; 324; pp. 1589-1991 8. Evans, R.W.; Health care technology and the inevitability of resource allocation and rationing decisions; JAMA; 1983; 249; pp. 2047-2053 9. Daly, B.; Henning, R.J.; McClish D.K; Clinical characteristics and resource utilization of ICU patients; implementation for organization of intensive care; Critical Care Medicine; 1987; 15; pp. 264-269 10. Kassirer, J.P.; Diagnostic Reasoning; Ann. Int. Med.; 1989; 110; pp. 893-900 20 11. Goldmann, L.; Neff, R.K.; Sox, H.C.; Wasson, J.H.; Clinical prediction rules: application and methodological standards; N. Engle. J. Med.; 1985; 313; pp. 793-799 12. Briggs, B.A.; Civetta, J.M.; Cullen, D.J.; Therapeutic intervention scoring system: a method for quantitative comparison of patient care; Critical Care Medicine; 1974; 2; pp. 57-60 13. Cullen, D.J.; Keene, A.R.; Therapeutic intervention scoring system: update 1983; Critical Care Medicine; 1983; 11; pp. 1-3 14. Draper, Elizabeth A.; Knaus, William A.; Wagner, Douglas P.; Zimmerman, Jack E.; APACHE II: A severity of disease classification system; Critical Care Medicine; 1985; 13 (10); pp. 818-829 15. Draper, E.A.; Knaus, W.A.; Wagner, D.P.; The APACHE III prognostic system; Risk prediction of hospital mortality for critically ill hospitalized adults; 1991; 100; pp. 1619-1636 16. Alperovitch, Annick; Glaser, Paul; Granthil, Claude; Le Gall, Jean-Roger; Loirat, Philippe; Mathieu, Daniel; Mercier, Philippe; Thomas, Remi; Villers, Daniel; A simplified acute physiology score for ICU patients; Critical Care Medicine; 1984 Novembro; 12 (11); pp. 975-977 17. Le Gall, Jean-Roger; Lemeshow, Stanley; Saulnier, Fabienne; A New Simplified Acute Physiology (SAPS II) based on a European/North American Multicenter Study; Jama; 1993 Dezembro; 270 (24); pp. 29572962 18. Avrunin, Jill Spitz; Gehlbach, Stephen H.; Klar, Janelle; Lemeshow, Stanley; Rapoport, John; Rué, Montse; Teres, Daniel; Mortality probability models for patients in the intensive care unit for 48 or 72 hours: a prospective multicenter study; Critical Care Medicine; 1994; 22 (9); pp. 1351-1358 21 19. Avrunin, Jill Spitz; Gehlbach, Stephen H.; Klar, Janelle; Lemeshow, Stanley; Rapoport, John; Teres, Daniel; Mortality Probability Models (MPM II) based on an International Cohort of Intensive Care Units Patients; Jama; 1993 Novembro; 270 (20); pp. 2478-2485 20. Altman, D.G.; Wyatt, J.C.; Commentary: Prognostic models: clinically useful or quickly forgotten?; BMJ; 1995 Dezembro; 311; pp. 1539-1541 21. Glance, G.; Laurent, K.; Tamotsu, Shinozaki; Turner, O.; Intensive care units prognostic scoring systems to predict death: A cost-effectiveness analysis; Critical Care Medicine; 1998; 26 (11); pp 1842-1849 22. Berger, M.; Bobbitt, R.A.; Carter, W.B.; The Sickness Impact Profile: development and final revision of a health status measure; Medical Care; 1981; 19; pp. 787-806 23. Cleary, P.D.; Davies, A.R.; Jette, A.M.; The Functional Status Questionnaire: Reliability and validity when used in primary care; J. Gen. Intern. Medicine; 1986; 1; pp. 143-149 24. Gehlbach S.H.; Parkerson, G.R.; Wagner, E.H.; The Duke-UNC health profile: an adult health status instrument for primary care; Medical Care; 1981; 19; pp. 806-823 25. Fowler, A.A.; Hamman, R.F.; Zerbe, G.O.; Adult respiratory distress syndrome. Prognosis after onset; Am. Rev. Respir. Dis.; 1985; 132; pp. 472478 26. Gibbons, W.; Goldberg, P.; Menzies, R.; Determinants of weaning and survival among patients with COPD who require mechanical ventilation for acute respiratory failure; 1989; pp. 398-405 27. Brandt P.W.T.; Caughy D.E.; Norris, R.M.; A new coronary prognostic index; Lancet; 1969; 1; pp. 274-278 22 28. Avrunin, J,S.; Lemeshow, S.; Teres, D.; Refining intensive care unit outcome prediction by using changing probabilities of mortality; Critical care Medicine; 1988; 16; pp. 470-477 29. Pastides, H; Lemeshow, S.; Teres, D.; A method for predicting survival and mortality of ICU patients using objectively derived weights; Critical Care Medicine; 1985; 13; pp. 519-525 30. Ferraris, V.A.; Propp, M.E.; Outcome in critical care pacients. A multivariate study; Critical Care Medicine; 1992; 20; pp. 967-976 31. Kahn, K.L.; How well does the patient’s burden of illness explain differences in outcome?; Mayo Clin. Proc.; 1992; 67; pp. 1203-1205 32. Menard, Scott; Applied logistic regression analysis; Sage publications; 1995; série 7; número 106; pp. 1-17 33. Petrie, Aviva; Watson, Paul; Statistics for Veterinary and Animal Science; Blackwell Science; 1999; pp. 114-137 34. Cleveland, W.S.; Robust locally weighted regression and smoothing scatterplots; J Am Stat Assoc.; 1979; 74; pp. 829-836 35. Haiger, Alfred; Métodos Biométricos em Produção animal; Instituto Universitário de Trás-os-Montes e Alto Douro; Vila Real; 1983; 1ª edição; pp. 77-96 36. Haynes, R.B.; Sackett, D.L.; Tugwell, P; .The clinical examination; In Clinical Epidemiology: A Basic Science for Clinical Medicine; Boston: Little Brown and Company; 1985; pp. 17-45 37. Hosmer, D.W.; Lemeshow, S.; Applied logistic regression; WilleyInterscience; 1989; pp. 135-145 23 Agradecimentos Ao Dr. Armando Teixeira Pinto pela sua colaboração e disponibilidade na orientação do nosso trabalho e na resolução das nossas dúvidas. Aos Serviços de Bioestatística e Informática Médica, Serviço de Anestesiologia, Serviço de Pediatria e Serviço de Cirurgia 2, pela disponibilização de artigos, livros e revistas necessárias na realização do trabalho. Ao Vice-Presidente da Secção Regional do Centro da Ordem dos Médicos, Dr. João Paulo A. Sousa, pelas informações prestadas. 24 Fig. 11 Tabela 1: Valores dos resultados para as 14 variáveis do SAPS16 25 Tabela 2: Variáveis categóricas do MPM0 para o estado vital na saída do hospital19 Tabela 3: Variáveis do MPM0 com os seus coeficientes estimados, SEs, odds ratios ajustadas e 95% de intervalos de confiança para as odds ratios ajustadas19 26 Tabela 4: Cálculo da probabilidade da mortalidade hospitalar19 Tabela 5: Tabela two-by-two para uma hipotética validação de um modelo 1 Fig.2 : Exemplo de uma hipotética curva de ROC demonstrando 3 diferentes pontos de corte: X (mais específico para minimizar a previsão de um resultado positivo quando ele realmente não ocorre), Y e Z (mais sensível para prever o resultado quando ele realmente ocorre) 1 27 Tabela 6: Teste de goodness-of-fit para a amostra de desenvolvimento do SAPS II em 8369 pacientes 17 28