FÁBIO ANDERSON JACQUES DOS SANTOS JULIO CESAR SANTOS ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA CURITIBA 2011 FÁBIO ANDERSON JACQUES DOS SANTOS JULIO CESAR SANTOS ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA Trabalho de Conclusão de Curso apresentado à disciplina de Laboratório de Estatística do Curso de Estatística do Departamento de Estatística do Setor de Ciências Exatas da Universidade Federal do Paraná. Orientadora: Prof.ª Silvia Emiko Shimakura CURITIBA 2011 iii AGRADECIMENTOS À Deus primeiramente, por ter nos concedido vida , oportunidade e capacidade para passar por mais esta etapa, sem ele isto não seria possível. Às nossas famílias, pelo apoio incondicional em todos os momentos de dificuldade e conquista nesse período. Aos nossos amigos pelo companheirismo e amizade ao longo desses anos. Às namoradas, pela compreensão em nossa ausência devido as atividades acadêmicas. À professora Doutora Silvia Emiko Shimakura, orientadora, pela disposição e competência nos ensinamentos ao longo do trabalho. Ao professor Mestre Elias Teixeira Krainski, pela disponibilidade em aceitar o convite para participar da banca deste trabalho. iv LISTA DE TABELAS TABELA 1 - DESCRIÇÃO DAS VARIÁVEIS UTILIZADAS NO ESTUDO..................21 TABELA 2 - FREQUÊNCIA DE OBSERVAÇÕES, FALHAS E CENSURAS.............23 TABELA 3 - TESTES WILCOXON E LOGRANK.......................................................25 TABELA 4 - CORRELAÇÕES DE PEARSON...........................................................26 TABELA 5 - MODELO DE COX.................................................................................29 v LISTA DE FIGURAS FIGURA 1 - CURVAS DE KAPLAN-MEIER...............................................................24 FIGURA 2 - RESÍDUOS PADRONIZADOS DE SCHOENFELD................................26 FIGURA 3 - RESÍDUOS DEVIANCE VERSUS PREDITOR LINEAR........................28 FIGURA 4 - RESÍDUOS DFBETAS VERSUS PREDITOR LINEAR..........................28 vi RESUMO Leucemia é o câncer das células brancas do sangue, os leucócitos. Esta doença começa na medula óssea (parte interna dos grandes ossos) e se espalha para outras partes do corpo. O transplante de medula óssea é um tipo de tratamento proposto para essas doenças, e consiste na substituição de uma medula óssea doente, ou deficitária, por células normais de medula óssea, com o objetivo de reconstituição de uma nova medula saudável. O objetivo deste trabalho foi avaliar fatores de risco ligados aos pacientes que sofreram este tipo de procedimento. O banco de dados EBMT (European Registry for Blood and Marrow Transplantation), que está presente no pacote MSTATE do software R, foi utilizado como base para os estudos. A variável resposta foi o tempo em dias até a recaída ou morte do paciente ou até o término do acompanhamento. Para iniciar as análises, foram utilizadas técnicas de Kaplan-Meier para construir as curvas de sobrevivência para as covariáveis estudadas, e os testes de logrank e Wilcoxon foram realizados para testar as diferenças entre as estimativas das curvas. Posteriormente, o modelo de Cox foi construído para estudarmos os fatores relacionados à variável resposta, assumindo a suposição de riscos proporcionais. As covariáveis presentes no modelo final foram: Subtipo da doença, Idade do paciente no ato do transplante e uma variável indicadora se houve ou não depleção do Linfócito T. Foram feitas ainda análises de resíduos para verificar a qualidade do modelo obtido, utilizando resíduos de Schoenfeld, deviance e dfbetas. Para interpretar os parâmetros, foram utilizadas razões de riscos para identificar os fatores mais influentes para aumentar ou diminuir o tempo de vida dos pacientes em estudo. Palavras-Chave: Transplante de medula óssea, leucemia, Kaplan-Meier modelo de Cox. vii SUMÁRIO 1 INTRODUÇÃO ...................................................................................................... 8 2 REVISÃO DE LITERATURA .............................................................................. 11 2.1 CONCEITOS INICIAIS: CENSURA E TEMPO DE FALHA ............................... 11 2.2 FUNÇÕES DE INTERESSE ............................................................................. 11 2.3 MÉTODOS NÃO PARAMÉTRICOS: ................................................................ 12 2.3.1 Estimador de Kaplan-Meier ............................................................................ 12 2.4 COMPARAÇÃO DAS CURVAS DE SOBREVIVÊNCIA.................................... 13 2.4.1 Teste Logrank ................................................................................................. 13 2.4.2 Teste Wilcoxon ............................................................................................... 15 2.5 MODELO DE RISCOS PROPORCIONAIS DE COX ........................................ 15 2.5.1 Estimação dos parâmetros ............................................................................. 17 2.5.2 Pressupostos do Modelo de Riscos Proporcionais de Cox............................. 18 2.5.3 Análise de resíduos ........................................................................................ 18 2.5.3.1 Resíduos de Schoenfeld ............................................................................ 19 2.5.3.2 Resíduos Martingal..................................................................................... 20 2.5.3.3 Resíduos Deviance .................................................................................... 20 2.5.3.4 Resíduos Dfbetas ....................................................................................... 21 2.5.4 Interpretação dos parâmetros ......................................................................... 21 3 MATERIAL E MÉTODOS ................................................................................... 23 3.1 BANCO DE DADOS ......................................................................................... 23 3.1.1 Visão Geral das Variáveis Estudadas ............................................................. 23 3.2 ANÁLISE ESTATÍSTICA ................................................................................... 24 3.2.1 Estatística descritiva ....................................................................................... 24 3.2.2 Ajuste do Modelo de Cox ................................................................................ 25 4 RESULTADOS E DISCUSSÕES ....................................................................... 26 4.1 ANÁLISES DESCRITIVAS ............................................................................... 26 4.2 MODELO DE REGRESSÃO DE COX .............................................................. 28 4.2.1 Adequação do Modelo Ajustado e Resíduos .................................................. 30 4.2.2 Parâmetros estimados pelo Modelo de Cox ................................................... 32 5 CONCLUSÃO ..................................................................................................... 34 REFERÊNCIAS ......................................................................................................... 36 ANEXOS .......................................................................... Erro! Indicador não definido. 8 1 INTRODUÇÃO A leucemia é uma doença maligna dos glóbulos brancos (leucócitos), geralmente, de origem desconhecida. Tem como principal característica o acúmulo de células jovens anormais na medula óssea, que substituem as células sanguíneas normais. A medula é o local de formação das células sanguíneas e ocupa a cavidade dos ossos, sendo popularmente conhecida por tutano. Nela são encontradas as células que dão origem aos glóbulos brancos, aos glóbulos vermelhos (hemácias ou eritrócitos) e às plaquetas (INCA – 2011). Depois de instalada, a doença progride rapidamente, exigindo início de tratamento rápido. As leucemias podem ser agrupadas com base em quão rapidamente a doença evolui e torna-se grave. Sob esse aspecto, a doença pode ser do tipo crônica (que geralmente agrava-se lentamente) ou aguda (que geralmente agravase rapidamente). Elas também podem ser agrupadas baseando-se nos tipos de glóbulos brancos que elas afetam: linfóides ou mieloides. As que afetam as células linfóides são chamadas de linfóide, linfocítica ou linfoblástica. A leucemia que afeta as células mieloides são chamadas mieloide ou mieloblástica (INCA – 2011). Combinando as duas classificações, existem quatro tipos mais comuns de leucemia: “Leucemia linfóide crônica”: afeta células linfóides e se desenvolve devagar. A maioria das pessoas diagnosticadas com esse tipo da doença tem mais de 55 anos. Raramente afeta crianças; “Leucemia mieloide crônica”: afeta células mieloides e se desenvolve vagarosamente, a princípio. Acometem principalmente adultos; “Leucemia linfoide aguda”: afeta células linfóides e agrava-se rapidamente. É o tipo mais comum em crianças pequenas, mas também ocorre em adultos; “Leucemia mieloide aguda”: afeta as células mieloides e avança rapidamente. Ocorre tanto em adultos como em crianças (INCA – 2011). Neste estudo, observaremos casos com “Leucemia Mielóide Aguda”, “Leucemia Linfóide Aguda” e “Leucemia Mielóide Crônica”. Para muitos destes casos, o tratamento indicado é o transplante de medula óssea. Este é um procedimento médico da área da hematologia e oncologia que envolve o transplante de células tronco hematopoiéticas provenientes da medula óssea do doador. A principal característica desse procedimento e o que a difere da maioria dos transplantes de órgãos é que nele o receptor recebe por via endovenosa um aspirado de células de medula óssea do doador, e essas células migram pelo 9 sangue até se fixarem na medula óssea do receptor e voltarem a se multiplicar e cumprir suas funções fisiológicas no hospedeiro. Apesar de aparentemente simples, ainda é um procedimento de risco e é indicado apenas para doenças graves. As principais complicações são infecções, recidivas da doença anterior e a doença do enxerto versus hospedeiro (GVHD), quando as novas células do sistema imunológico, ao não reconhecerem as células do hospedeiro, passam a destruí-las como se fossem uma infecção. Os linfócitos T na medula óssea ou sangue de um doador causam a doença do enxerto versus hospedeiro. A fim de minimizar essa reação perigosa, a medula ou a coleção de células do sangue podem ser tratadas com agentes que possibilitam a diminuição do número de linfócitos T. Este processo, conhecido como depleção do linfócito T, reduz a incidência e a gravidade da doença do enxerto versus hospedeiro, ao diminuir o número de células imunológicas causadoras da GVHD. Geralmente, anticorpos contra os linfócitos T são usados para extraí-los da amostra das células-tronco a serem utilizadas para o transplante. A diminuição da presença dos linfócitos T no transplante minimiza a intensidade da GVHD. Visto que os linfócitos T auxiliam o enxerto das células-tronco e podem suprimir células residuais do tumor no receptor, algumas células T são úteis nas células transplantadas. Os linfócitos T também são benéficos por auxiliarem as células-tronco hematopoéticas doadas a se fixarem e crescerem dentro da medula óssea do receptor. Em alguns casos, os linfócitos T atacam as células da leucemia, aumentando os efeitos de supressão do tratamento. O ataque às células residuais do tumor faz com que se torne menos provável que a doença retorne após o transplante. Assim, os médicos responsáveis pelo transplante devem ser cuidadosos sobre a quantidade de células T que serão removidas durante o procedimento. O objetivo principal do estudo será avaliar o tempo de relapso ou morte de pacientes que sofreram transplante de medula óssea, apontando os fatores de risco relacionados aos pacientes. Será utilizado o banco de dados europeu EBMT (European Registry for Blood and Marrow Transplantation), que está presente no pacote MSTATE do software R. O banco consiste em um registro com 2204 pacientes que possuem algum tipo de leucemia e que fizeram transplante de medula óssea entre 1995 e 1998. No tópico seguinte, apontaremos as metodologias nas quais foram baseados estes estudos. Em seguida, serão apresentadas algumas estatísticas descritivas, entre elas curvas de sobrevivência utilizando Kaplan-Meier para cada covariável. 10 Então testes para verificar se existe diferença entre as curvas serão realizados. Depois, um modelo de riscos proporcionais de Cox será ajustado aos dados, utilizando as covariáveis mais significativas. A análise de resíduos será feita para avaliar a qualidade do modelo obtido. Para finalizar, os parâmetros serão interpretados para observar os fatores que mais afetam a variável resposta. 11 2 REVISÃO DE LITERATURA 2.1 CONCEITOS INICIAIS: CENSURA E TEMPO DE FALHA Em análise de sobrevivência, a variável resposta em estudo é na maioria das vezes o tempo até a ocorrência de um evento de interesse. Este tempo é comumente chamado de “Tempo de falha”, que no caso do estudo em questão será o tempo em dias até o relapso ou morte do paciente que sofreu transplante de medula óssea. Tempo de falha - Tempo até a ocorrência de um evento de interesse (por exemplo, reincidência ou morte do paciente em estudo após o transplante de medula óssea). Censura – Observação incompleta da resposta. Por exemplo: tratamento interrompido por motivo de mudança de cidade, morte por motivo diferente do de interesse, término do acompanhamento, etc. Se o estudo em questão não tivesse ocorrência de censura, outra técnica estatística poderia ser aplicada, por exemplo, uma ANOVA para comparação de tratamentos. No entanto, quando há ocorrência de censuras não é possível aplicar os métodos clássicos, pois se deve considerar os tempos de falha censurados. 2.2 FUNÇÕES DE INTERESSE A função de sobrevida é muito utilizada em estudos na área da saúde e é representada por . Sendo assim, a probabilidade de um indivíduo sobreviver por mais do que um determinado tempo é descrita da seguinte forma: 12 ou pode-se interpretar também como a probabilidade de um indivíduo não sobreviver até um tempo , ou seja, o complemento da função acumulada : A função de taxa de falha, ou função de risco, é aplicada em estudos clínicos para determinar a distribuição do tempo de vida dos indivíduos em estudo. Ela é descrita da seguinte forma: A taxa de falha pode ser definida como Constante (não varia ao longo do tempo), Crescente (aumenta ao longo do tempo) ou Decrescente (diminui ao longo do tempo). Uma propriedade importante sobre a função de risco é que ela pode ser determinada como inversamente proporcional à função de sobrevida: 2.3 MÉTODOS NÃO PARAMÉTRICOS: 2.3.1 Estimador de Kaplan-Meier O estimador de Kaplan-Meier, proposto por Kaplan e Meier (1958) é um estimador não-paramétrico para estimar a função de sobrevivência, também conhecido por estimador produto-limite. Este estimador é uma adaptação da função de sobrevivência empírica que, na ausência de censuras, é definida como 13 é uma função escada com degraus nos tempos observados de falha de tamanho , em que é o tamanho da amostra. Na presença de empates em um determinado tempo , o tamanho do degrau fica multiplicado pelo número de empates. Além disso, o estimador de Kaplan-Meier, na sua construção, considera tantos intervalos de tempo quantos forem o número de falhas distintas. Ressalta-se que os limites destes intervalos são os tempos de falha da amostra. A expressão geral de condicionais, em que é escrita em termos de probabilidades , adaptado da expressão anterior, fica definido por sendo: o número de falhas em o número de indivíduos sob risco em , ou seja, os indivíduos que não foram censurados até o instante imediatamente anterior a , são os tempos distintos e ordenados de falha. O estimador de Kaplan-Meier fica definido formalmente como 2.4 COMPARAÇÃO DAS CURVAS DE SOBREVIVÊNCIA 2.4.1 Teste Logrank 14 O teste logrank, apresentado em Mantel (1966) é o mais usado em análise de sobrevivência. Ele compara a distribuição da ocorrência dos eventos observados em cada estrato com a distribuição que seria esperada se a incidência fosse igual em todos os estratos, ou seja, os extratos têm a propriedade de riscos proporcionais Se a distribuição observada for equivalente à distribuição esperada, dizemos que a curva de sobrevivência dos pacientes pertencentes ao estrato é equivalente à curva de sobrevivência dos pacientes. O teste de duas funções de sobrevivência, em que a hipótese nula considerada é a de igualdade entre as curvas será: e é baseado na estatística de teste dada por que tem uma distribuição qui-quadrado com 1 grau de liberdade para grandes amostras, na qual e é o número observado de falhas no grupo 2 em cada falha é o respectivo valor esperado de falhas, isto é, em que total de falhas observadas nos grupos 1 e 2 no tempo de falha indivíduos sob risco nos grupos 1 e 2 em grupo 2 no tempo de falha e é o número de total de falhas observadas no . E a variância, Para mais de duas funções de sobrevivência (r > 2), o teste logrank torna-se uma generalização do caso de duas funções de sobrevivência na qual a estatística T tem distribuição qui-quadrado com r – 1 graus de liberdade, em que r é o número de grupos. 15 2.4.2 Teste Wilcoxon Na comparação de funções de sobrevivência a seguinte forma geral inclui os testes mais importantes na literatura e generaliza a estatística de teste T apresentada: com sendo os pesos que especificam o teste. Sob a hipótese nula de igualdade entre as funções de sobrevivência, a estatística segue distribuição qui-quadrado com 1 grau de liberdade para amostras grandes. O teste de Wilcoxon é obtido quando se toma . O teste de Wilcoxon, que utiliza peso igual ao número de indivíduos sob risco, atribui pesos maiores na porção inicial do estudo. No início do estudo, todos os indivíduos estão sob risco e saindo do estado “sob risco” à medida que falham ou são censurados. 2.5 MODELO DE RISCOS PROPORCIONAIS DE COX Um dos modelos de regressão mais utilizado para dados de sobrevida, principalmente em estudo clínicos, ajusta a função de risco risco basal e incluindo um vetor de covariáveis , considerando um , de maneira que: 16 Aqui assume-se que as covariáveis têm um efeito multiplicativo na função de risco e, assim, a razão entre o risco de ocorrência do evento para dois indivíduos e , com covariáveis e é: ou seja, é constante ao longo do tempo. Por este motivo este modelo é denominado de modelo de riscos proporcionais (RP). O modelo de RP também pode ser escrito em termos da função de risco acumulado ou da função de sobrevida, expostos a seguir: O risco basal acumulado é dado por: e pode ser estimado através da expressão: A estimativa para a sobrevida basal pode ser estimada por: Assumindo o pressuposto de proporcionalidade, é possível estimar os efeitos das covariáveis sem ter que fazer qualquer suposição a respeito da distribuição do tempo de sobrevida. O modelo de Cox é chamado semi-paramétrico, pois não assume qualquer distribuição de probabilidade para a função de risco, 17 , assumindo apenas que as covariáveis agem multiplicativamente sobre o risco, sendo esta a parte paramétrica do modelo. 2.5.1 Estimação dos parâmetros O vetor de parâmetros é estimado a partir de uma verossimilhança parcial, eliminando a função de risco e considerando apenas, a cada tempo t, a informação dos indivíduos ainda sob risco. Esta formulação é semelhante ao modelo não-paramétrico de Kaplan-Meier, porém permite que sejam estimados os efeitos das covariáveis, ou seja, os efeitos de fatores de risco no tempo de sobrevida. Os diferentes tempos de falha de uma amostra, sem considerar a ocorrência de eventos em um mesmo tempo A função de verossimilhança individual, são ordenados da forma que: ·, é definida por: com representando uma variável indicadora que assume o valor 1 se o indivíduo estiver em risco no tempo A verossimilhança parcial e 0, caso contrário. pode ser calculada pelo produto das verossimilhanças individuais que é expressa da seguinte forma: em que é o indicador de falha. 18 Podemos observar que o numerador da verossimilhança parcial depende apenas da informação dos indivíduos que experimentam o evento, enquanto o denominador utiliza informações a respeito de todos os indivíduos que ainda não experimentaram o evento, incluindo aqueles que serão censurados mais tarde. 2.5.2 Pressupostos do Modelo de Riscos Proporcionais de Cox Para covariáveis com um pequeno número de categorias, o gráfico das curvas de sobrevida estimadas através do método de Kaplan-Meier podem dar uma idéia visual da presença ou ausência de proporcionalidade. As curvas devem ser razoavelmente paralelas ao longo de todo o tempo indicando proporcionalidade no risco entre as categorias. Se houver cruzamento ou uma grande variação nas distâncias entre as curvas de diferentes categorias, isso poderá indicar ausência de proporcionalidade. Outra maneira de verificar esta proporcionalidade seria através dos resíduos de Schoenfeld. 2.5.3 Análise de resíduos Para modelos de sobrevivência, a definição de resíduo não é simples e direta como em regressão linear. O resíduo não pode ser obtido como a resposta observada menos a esperada, pois desta forma não leva em consideração o tempo observado de um indivíduo censurado. Algumas medidas estatísticas são propostas para o modelo de riscos proporcionais de Cox, que são úteis na análise de diferentes aspectos do modelo, como: • a proporcionalidade do risco; • a log-linearidade da relação entre razão de risco e variável independente; e • o efeito de pontos influentes. 19 A seguir, apresentamos alguns resíduos que podem ser utilizados para examinar estes aspectos. 2.5.3.1 Resíduos de Schoenfeld Em alguns casos, o efeito de uma covariável pode não ser sempre o mesmo durante todo o tempo de observação. Nestes casos, o efeito da covariável é chamado de tempo-dependente. Para diagnosticar este efeito utilizamos os resíduos de Schoenfeld. Os resíduos de Schoenfeld podem ser expressos para cada tempo de ocorrência do evento por: A interpretação destes resíduos é como a diferença entre os valores observados de covariáveis de um indivíduo com tempo de ocorrência do evento os valores esperados em dado o grupo de risco O resíduo padronizado de Schoenfeld em onde é o índice das covariáveis e e . pode ser obtido por: a variância de . O gráfico dos resíduos padronizados de Schoenfeld contra o tempo de sobrevida permite verificar se estes estão distribuídos igualmente ao longo do tempo, ou se aparece uma forma sugestiva de não proporcionalidade, assim ferindo o pressuposto básico do modelo de Cox. Para que o pressuposto seja satisfeito, não deverá existir nenhuma tendência sistemática no gráfico de versus o tempo. 20 2.5.3.2 Resíduos Martingal Os resíduos martingal, , são baseados no processo de contagem individual e definidos por: onde é igual ao número de eventos observados no intervalo e é o número de eventos esperados sob o modelo ajustado no intervalo . Resumindo, é a diferença entre o número observado de eventos para um indivíduo e o número esperado dado o modelo ajustado. Os resíduos martingal são úteis na avaliação da qualidade de ajuste do modelo em duas situações importantes: • versus índice do indivíduo: permitindo revelar indivíduos mal explicados pelo modelo; • do modelo nulo versus covariável com a superposição de uma curva de alisamento: permite avaliar qual é a melhor forma funcional da covariável no modelo. O primeiro gráfico citado serve para apontar possíveis valores aberrantes no estudo, dado as covariáveis. Valores de maiores (ou menores) que 0 indicam que número de eventos observado é maior (ou menor) que o estimado pelo modelo e conseqüentemente a sobrevida estará superestimada (ou subestimada). O segundo gráfico citado permite observar qual é a forma funcional mais adequada de uma covariável contínua, ou seja, se é linear ou se alguma transformação é necessária. 2.5.3.3 Resíduos Deviance Os resíduos deviance são uma tentativa de tornar os resíduos martingal mais simétricos em torno de zero, facilitando a detecção de pontos atípicos. Se o 21 modelo for apropriado, esses resíduos devem apresentar-se aleatoriamente em torno de zero. O gráfico dos resíduos de deviance versus os tempos auxiliam a verificar a adequação do modelo ajustado e na detecção de observações atípicas. 2.5.3.4 Resíduos Dfbetas O resíduo escore, também conhecidos como resíduos dfbeta (ou dfbetas quando padronizados) são úteis na verificação da influência de cada observação no ajuste do modelo e para estimação robusta da variância dos coeficientes de regressão. A influência de cada observação deve ser proporcional à , uma vez que a observação deve estar distante do valor médio de , bem como ter um resíduo alto para exercer uma influência significativa no ajuste do modelo. Para cada indivíduo pode-se calcular a diferença entre o vetor de covariáveis estimado pelo modelo e o mesmo estimado sem o indivíduo : , que é aproximadamente igual à matriz de resíduos escore. O gráfico do resíduo escore para cada covariável versus revela os pontos de influência. O resíduo escore pode ser escalonado pelo erro padrão da respectiva covariável, facilitando a visualização. Uma vantagem destes resíduos sobre os outros é que eles são definidos para todos os tempos enquanto que os demais só são definidos nos tempos de ocorrência do evento. Esta característica é importante quando o percentual de censuras é alto. A desvantagem é que eles não indicam o tipo de desvio da suposição de riscos proporcionais quando existe uma indicação de falta de ajuste do modelo. 2.5.4 Interpretação dos parâmetros 22 A propriedade de riscos proporcionais do modelo de Cox é utilizada na interpretação dos coeficientes estimados. Tomando a razão das taxas de falhas de dois indivíduos e com os mesmos valores para as covariáveis com exceção da l-ésima, tem-se: a qual se interpreta como a razão de riscos instantânea no tempo supondo que . Por exemplo, seja uma covariável dicotômica indicando pacientes com um determinado tipo de leucemia. O risco de morte entre esses pacientes é vezes o risco de pacientes, por exemplo, livres da doença, mantendo as outras covariáveis fixas. Uma estimativa para pode ser obtida utilizando-se a propriedade de invariância do estimador de máxima verossimilhança parcial. Na construção de estimativas intervalares devemos obter uma estimativa do erro-padrão de , aqui o método delta pode ser empregado. Se o valor 1 pertencer ao intervalo estimado, temos um indicativo de que não há evidências quanto a diferenças significativas nos riscos. As covariáveis contínuas utilizam uma interpretação muito parecida. Se o efeito de uma covariável contínua for significativo e, por exemplo, para este termo, concluímos que, ao aumentarmos em uma unidade esta covariável, o risco avaliado fica aumentado em 10%. 23 3 MATERIAL E MÉTODOS 3.1 BANCO DE DADOS Os dados utilizados para a realização do estudo foram obtidos do banco de dados europeu EBMT (European Registry for Blood and Marrow Transplantation), que é uma organização sem fins lucrativos e permite que cientistas e médicos envolvidos no transplante clínico de medula óssea compartilhem suas experiências e possam desenvolver estudos. O EBMT visa promover todos os aspectos associados com o transplante de células-tronco hematopoéticas de doadores de todas as fontes e tipos, incluindo pesquisas clínicas, educação, padronização, controle de qualidade e desenvolvimento de novos procedimentos. Alguns dados deste banco encontram-se disponíveis no pacote MSTATE do software R. O banco consiste em um registro com 2204 pacientes que possuem algum tipo de leucemia e que fizeram transplante de medula óssea entre 1995 e 1998. A variável resposta estudada é o tempo em dias desde o transplante de medula óssea até a recaída ou a morte do paciente, ou o final do acompanhamento. Foram estudadas variáveis como Idade do paciente (AGE) no ato do transplante, categorizada em 2 grupos (<=40, >40), a subclassificação do tipo da doença (DOEN), ou seja, do tipo de Leucemia (Leucemia Mielóide Aguda, Leucemia Linfóide Aguda e Leucemia Mielóide Crônica), variável indicadora se houve incompatibilidade de gêneros (INCGEN) no transplante (doador sexo feminino e receptor sexo masculino, e vice-versa) e variável indicando se ocorreu depleção do linfócito T antes do transplante (TCD). 3.1.1 Visão Geral das Variáveis Estudadas 24 Foram estudadas quatro variáveis juntamente com a variável resposta tempo em dias a partir do transplante até a recaída ou o óbito do paciente. A Tabela 1 apresenta uma visão geral das variáveis estudadas: TABELA 1 - DESCRIÇÃO DAS VARIÁVEIS UTILIZADAS NO ESTUDO Covariável Descrição Categorias <=40 >40 AGE Idade do Paciente no ato do transplante DOEN Subclassificação da Leucemia AML = Leucemia Mielóide Aguda ALL = Leucemia Linfóide Aguda CML = Leucemia Mielóide Crônica INCGEN Incompatibilidade de gênero Gender mismatch (Incompatibilidade) No gender mismatch (Sem incompatibilidade) TCD Depleção das células t NO TCD TCD FONTE: O Autor (2011) 3.2 ANÁLISE ESTATÍSTICA 3.2.1 Estatística descritiva Uma tabela com freqüências observadas das covariáveis e curvas de sobrevivência utilizando o estimador não-paramétrico de Kaplan-Meier foram utilizadas para obter uma primeira visão de quais covariáveis seriam interessante incluir no modelo final. Testes de logrank e Wilcoxon foram realizados para testar a igualdade entre as curvas estimadas. 25 3.2.2 Ajuste do Modelo de Cox O modelo de regressão Cox é bastante utilizado em estudos médicos. A principal razão disso é a presença de seu componente não-paramétrico. Esta flexibilidade foi o motivo do seu uso no estudo elaborado. A suposição básica para o uso do modelo de regressão de Cox é a proporcionalidade das taxas de falha. Para checarmos a suposição utilizamos os resíduos padronizados de Schoenfeld e também o método de Kaplan-Meier. Nesta etapa observamos que não houve séria violação da suposição. O modelo final apresentou as seguintes covariáveis: Idade do paciente (Age), subclassificação da doença (DOEN) e variável indicadora de presença ou ausência de TCD. Na interpretação dos parâmetros estimados pelo modelo utilizamos a razão dos tempos medianos de sobrevivência. Tomando uma classe específica como base para comparação com as demais classes, por exemplo, tempo mediano de sobrevivência do paciente com o subtipo de doença igual à CML comparado com o subtipo de doença igual à AML (variável base). Gráficos de resíduos foram elaborados no estudo. O resíduo deviance foi utilizado para verificação de pontos atípicos (outliers). O resíduo dfbetas foi utilizado para a verificação de pontos influentes no modelo. 26 4 RESULTADOS E DISCUSSÕES A seguir demonstram-se os principais resultados obtidos a partir de uma análise realizada com o auxílio do software R versão 2.11.1. Tendo em vista os resultados, tem-se algumas análises descritivas a seguir com o intuito de verificar o comportamento das covariáveis em estudo. 4.1 ANÁLISES DESCRITIVAS Na tabela 2, temos as freqüências observadas das variáveis estudadas de acordo com o número de falhas ou censuras. TABELA 2- FREQUÊNCIAS DE OBSERVAÇÕES, FALHAS E CENSURAS RESPOSTA Recaída ou morte Censura 495 981 346 382 Covariável Categorias Frequência AGE <=40 >40 1476 728 DOEN AML = Leucemia Mielóide Aguda ALL = Leucemia Linfóide Aguda CML = Leucemia Mielóide Crônica 853 447 904 285 164 392 568 283 512 INCGEN Gender mismatch (Incompatibilidade) No gender mismatch (Sem incompatibilidade) 556 1648 216 625 340 1023 TCD NO TCD TCD 1928 276 706 135 1222 141 FONTE: O Autor (2011) Para cada covariável foram construídas curvas de Kaplan-Meier a fim de identificar se existem diferenças entre as classes. Além da análise gráfica, os testes logrank e Wilcoxon foram realizados para comprovar essas diferenças. Os gráficos são visualizados abaixo. 27 FIGURA 1 - CURVAS DE KAPLAN-MEIER FONTE: O autor (2011) Na Figura 1, podemos identificar uma diferença clara entre as classes das variáveis TCD e AGE. A variável DOEN parece também mostrar diferença significativa, o que será comprovado nos teste Wilcoxon e logrank, a seguir. 28 TABELA 3 - TESTES WILCOXON E LOGRANK Wilcoxon Covariável Qui-Quadrado P-valor Logrank Qui-Quadrado P-valor AGE 35.7 <0.001 38.3 <0.001 DOEN 3.9 0.144 8 0.0183 INCGEN 0 0.949 0 0.836 TCD 4.4 0.0353 7.2 0.00747 FONTE: O Autor (2011) As covaráveis AGE e TCD apresentam diferenças significativas entre as suas duas respectivas classes. A covariável DOEN, que é a subclassificação da doença, pode ser considerada marginalmente significativa de acordo com o teste Wilcoxon, porém significativo através de logrank. Isso ocorre porque o teste de Wilcoxon considera pesos maiores para o início do estudo, quando existem mais informações sob risco. O teste logrank considera os riscos constantes ao longo do tempo. Como parece carregar informações importantes e os resultados apontam para valores significativos, manteremos estas três variáveis para ajustar o modelo de Cox. 4.2 MODELO DE REGRESSÃO DE COX O modelo de Cox proposto conta com três das quatro covariáveis observadas anteriormente. Como vimos através dos gráficos de Kaplan-Meier, apenas a covariável DOEN deixa alguma suspeita de não satisfazer a suposição de riscos proporcionais, já que a variável INCGEN claramente não obteve resultados significativos, sendo assim excluída do estudo, e as variáveis AGE e TCD apresentam alta significância. Analisaremos os coeficientes de correlação de Pearson entre os resíduos padronizados de Schoenfeld e g (t ) = t para verificarmos possíveis tendências. A 29 seguir, mostraremos os gráficos de Schoenfeld na figura 2 e os resultados das 2 1 0 -1 -3 -2 Beta(t) for doenCML 4 2 0 -2 Beta(t) for doenALL 3 6 correlações na tabela 4. 39 89 140 360 1500 39 89 140 1500 Time 3 2 1 0 Beta(t) for age>40 -2 -1 4 2 0 -2 Beta(t) for tcdTCD 6 4 Time 360 39 89 140 360 1500 39 89 140 Time 360 1500 Time FIGURA 2 - RESÍDUOS PADRONIZADOS DE SCHOENFELD FONTE: O autor (2011) TABELA 4- CORRELAÇÕES DE PEARSON Covariável rho chisq p doenALL 0.0134 0.151 6.98e-01 doenCML 0.2053 35.642 2.37e-09 TCD 0.1266 13.752 2.09e-04 age>40 -0.0261 0.583 4.45e-01 GLOBAL NA 53.485 6.75e-11 FONTE: O Autor (2011) . 30 Fazendo uma análise geral, mantivemos as três covariáveis no estudo, visto que não apresentam cruzamentos bruscos em suas curvas de sobrevivência e não possuem resíduos padronizados de Schoenfeld tão assimétricos, além de possuírem baixos coeficientes de correlação de Pearson. Os p-valores não devem ser levados em consideração devido ao grande tamanho de amostra. Em um modelo alternativo, poderia ter sido ajustado um modelo de Cox estratificando a covariável DOEN, que apresenta o maior coeficiente de correlação de Pearson. Este método consiste em estratificar a covariável de forma que a suposição de proporcionalidade seja válida para cada estrato. A estratificação não causa problemas sérios nas estimativas dos parâmetros, mas pode causar perda de eficiência das estimativas caso seja usado de forma desnecessária. Neste estudo, consideramos o modelo de Cox como razoável para prosseguir como modelo, sem ser necessário a estratificação. 4.2.1 Adequação do Modelo Ajustado e Resíduos Para avaliar a adequação do modelo de Cox ajustado, vamos analisar os resíduos deviance e dfbetas para verificar pontos atípicos e pontos de alavanca, respectivamente. Abaixo, na Figura 3, podemos identificar os resíduos deviance. 31 FIGURA 3 - RESÍDUOS DEVIANCE VERSUS PREDITOR LINEAR FONTE: O autor (2011) Os resíduos evidenciam aleatoriedade, visto que se distribuem igualmente ao redor de zero. Não há indícios de haver pontos atípicos no modelo. Os resíduos dfbetas mostram se existem pontos influentes em cada -0.004 -0.005 0.000 Influência para Age -0.002 0.000 Influência para TCD 0.000 -0.005 Influência para Doen 0.002 0.005 0.005 0.004 covariável. Segue na Figura 4. AML A LL Doen CML No TCD TCD TCD FIGURA 4 - RESÍDUOS DFBETAS VERSUS PREDITOR LINEAR <=40 >40 A ge 32 FONTE: O autor (2011) Os resíduos dfbetas não evidenciam nenhum ponto de alavancagem em nenhuma covariável. 4.2.2 Parâmetros estimados pelo Modelo de Cox Abaixo, verificamos as estimativas para o Modelo de Cox ajustado. TABELA 5 - MODELO DE COX Covariável coef exp(coef) lower .95 upper .95 p-value DOEN (ALL) 0.16861 1.184 1.014 1.381 0.0321 DOEN (CML) 0.19306 1.213 0.999 1.473 0.0512 TCD 0.20917 1.233 1.024 1.484 0.0270 AGE > 40 0.41371 1.512 1.311 1.745 <0.001 FONTE: O Autor (2011) Devemos observar o valor exp(coef), que é a razão das taxas de falhas entre as classes de cada covariável, para realizar a interpretação dos parâmetros, levando em conta a propriedade de riscos proporcionais do modelo. Como todas as covariáveis são categóricas, teremos um subnível em cada covariável como sendo o nível de referência. Para a variável DOEN, o nível de referência foi a doença do tipo AML. Portanto, temos que o risco de recaída ou morte após o transplante de medula óssea para pacientes com o tipo de doença ALL é cerca de 1,184 vezes o risco de pacientes com o tipo de doença AML, e com um nível de confiança de 95% este risco fica entre 1,014 e 1,381. Para pacientes com o 33 tipo de doença CML, o risco de recaída ou morte é 1,213 vezes o risco de pacientes com a doença AML. O intervalo de confiança de 95% para esta razão está entre 0,999 e 1,473. Os casos em que ocorreram TCD apresentam risco de recaída ou óbito cerca de 1,233 o risco de pessoas que não sofreram este procedimento, com um intervalo de confiança de 95% que fica entre 1,024 e 1,484. Já com relação a variável idade, podemos afirmar que os pacientes com mais de 40 anos apresentam risco de recaída ou morte após o transplante de medula óssea de 1,512 o risco de pacientes com menos ou igual a 40 anos. O intervalo de confiança de 95% para este risco fica entre 1,311 e 1,745. 34 5 CONCLUSÃO Apesar da gravidade da doença, a Leucemia vem sendo tratada de várias formas, e o transplante de medula óssea é ainda uma das formas mais indicadas para casos graves. A análise desenvolvida teve como objetivo identificar quais são os fatores de maior influência na recaída ou morte de pacientes que sofreram transplante de medula óssea. Inicialmente, foram realizadas algumas estatísticas descritivas para observar o comportamento das covariáveis analisadas no estudo. Primeiro, foi construída uma tabela de freqüência para analisar a distribuição das covariáveis entre suas categorias. Curvas de Kaplan-Meier, além dos testes de logrank e Wilcoxon, foram construídas para avaliar se havia indícios para apontar diferenças entre as categorias de cada covariável. A avaliação final foi que as variáveis DOEN, TCD e AGE apresentaram diferenças significativas entre suas curvas de sobrevida. O modelo de Cox foi construído tendo por base a proporcionalidade entre os riscos. Este pressuposto foi confirmado analisando as curvas de Kaplan-Meier, os testes de logrank e Wilcoxon, a correlação de Pearson entre os resíduos de Schoenfeld e g (t ) = t e a análise gráfica dos próprios resíduos de Schoenfeld. Uma forma alternativa que poderia ser proposta seria utilizar um modelo de Cox estratificando a variável DOEN, a única que possui alguma dúvida quanto a ferir ou não o pressuposto de proporcionalidade dos riscos. Como este pressuposto não fica evidentemente ferido, obtivemos nossos resultados utilizando um modelo de Cox com riscos proporcionais. A adequação do modelo ajustado foi analisada através dos resíduos deviance e dfbetas. Nos modelos ajustados não se observou pontos de influência ou pontos atípicos. Como fatores de risco ligados aos pacientes, a idade e o tipo de doença foram bastante significativos, além da presença ou ausência do procedimento de 35 TCD. Pacientes com mais de 40 anos possuem risco de recaída ou morte de 1,512 vezes maior que os pacientes com menos de 40 anos. Se o tipo de doença for a Leucemia Linfóide Aguda, o risco é 1,184 vezes maior do que pacientes com a Leucemia Mielóide Aguda. Já os pacientes com Leucemia Mielóide Crônica apresentaram risco de 1,213 o risco de pacientes com a Leucemia Mielóide Aguda. Com relação ao TCD, os pacientes que se submeteram a este procedimento possuem risco de recaída ou morte cerca de 1,233 vezes o risco de pacientes que não sofreram depleção do linfócito T. Em nossos resultados temos indícios para afirmar que pacientes com Leucemia Mielóide Crônica, apesar de a princípio não ser tão fatal quanto as subclassificações agudas, possuem taxa de mortalidade ou reincidência da doença após o transplante maior que os pacientes com Leucemia Mielóide Aguda ou Leucemia Linfóide Aguda. Este subtipo crônico da doença pode ter alguma característica que acaba dificultando a recuperação do paciente, levando a uma melhora com menor eficiência do que entre os casos agudos da doença. A idade é outro fator significativo de risco, e neste estudo os pacientes com mais de 40 anos apresentaram taxa de mortalidade ou de reincidência da doença após o transplante consideravelmente maior do que os pacientes fora desta faixa de idade. A depleção do linfócito T apresentou um efeito negativo em nosso estudo. Apesar de este ser um procedimento para evitar um tipo de doença sério, quando as células do doador passam a atacar as células do receptor (GVHD), este processo de diminuição das células T pode dificultar que as células-tronco doadas se fixem e cresçam na medula óssea do receptor, aumentando o risco de rejeição e, conseqüentemente, aumentando o número de recidivas e óbitos. 36 REFERÊNCIAS CARVALHO, Marilia Sá; ANDREOZZI, Valeska Lima; CODEÇO, Cláudia Torres; BARBOSA, Maria Tereza Serrano; SHIMAKURA, Silvia Emiko. Análise de Sobrevida. Teoria e aplicações em Saúde. Rio de Janeiro: FIOCRUZ, 2005. COLOSIMO, Enrico A.; GIOLO, Suely R. Análise de Sobrevivência Aplicada, Edgard Blucher. Putter H, Fiocco M, Geskus RB (2007). Tutorial in biostatistics: Competing risks and multi-state models. Statistics in Medicine 26, 2389–2430. SOUZA, Carmino de. Transplante de Células – Tronco Hematopoéticas do Sangue e da Medula Óssea. Associoação Brasileira de Linfoma e Leucemia. Normas para apresentação de documentos científicos. Universidade Federal do Paraná, 2007 Kaplan, E.L., Meier, P. (1958). Nonparametric estimation from imcomplete observations. Journal of the American Statistical Association. MÄNNICH, Robert; ROCHA, Wanderson R. (2010). Análise de sobrevivência utilizando modelo de Cox em dados de pacientes em tratamento de hemodiálise. Universidade Federal do Paraná. César, Maria Mônica. Medula Óssea. ADOAS - Associação Metropolitana de Voluntários e Doadores de Sangue, 2005. Disponível no site < http://www.adoas.com.br/news.php?nID=50>. INCA, Instituto Nacional de Câncer, 1996 – 2011. Tipos de cancer - Leucemia. Disponível http://www2.inca.gov.br/wps/wcm/connect/tiposdecancer/site/home/leucemia. Cox DR. Regression models and life-tables. J R Statistic Soc B 1972. em 37 Lumley, Thomas. Survival analysis (2011). Disponível em < http://CRAN.Rproject.org/package=survival>. Lumley, Thomas. Survival analysis (2011). Disponível em < http://CRAN.Rproject.org/package=ebmt Mantel, Nathan "Evaluation of survival data and two new rank order statistics arising in its consideration.". (1966). Liesbeth C. de Wreede, Marta Fiocco, Hein Putter (2011). mstate: An R Package for the Analysis of Competing Risks and Multi-State Models. Journal of Statistical Software, 38(7), 1-30. Disponível em < http://www.jstatsoft.org/v38/i07/> .