fábio anderson jacques dos santos julio cesar santos análise de

Propaganda
FÁBIO ANDERSON JACQUES DOS SANTOS
JULIO CESAR SANTOS
ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE
PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA
CURITIBA
2011
FÁBIO ANDERSON JACQUES DOS SANTOS
JULIO CESAR SANTOS
ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE
PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA
Trabalho de Conclusão de Curso apresentado à
disciplina de Laboratório de Estatística do Curso
de Estatística do Departamento de Estatística do
Setor de Ciências Exatas da Universidade Federal
do Paraná.
Orientadora: Prof.ª Silvia Emiko Shimakura
CURITIBA
2011
iii
AGRADECIMENTOS
À Deus primeiramente, por ter nos concedido vida , oportunidade e capacidade para
passar por mais esta etapa, sem ele isto não seria possível.
Às nossas famílias, pelo apoio incondicional em todos os momentos de dificuldade e
conquista nesse período.
Aos nossos amigos pelo companheirismo e amizade ao longo desses anos.
Às namoradas, pela compreensão em nossa ausência devido as atividades
acadêmicas.
À professora Doutora Silvia Emiko Shimakura, orientadora, pela disposição e
competência nos ensinamentos ao longo do trabalho.
Ao professor Mestre Elias Teixeira Krainski, pela disponibilidade em aceitar o convite
para participar da banca deste trabalho.
iv
LISTA DE TABELAS
TABELA 1 - DESCRIÇÃO DAS VARIÁVEIS UTILIZADAS NO ESTUDO..................21
TABELA 2 - FREQUÊNCIA DE OBSERVAÇÕES, FALHAS E CENSURAS.............23
TABELA 3 - TESTES WILCOXON E LOGRANK.......................................................25
TABELA 4 - CORRELAÇÕES DE PEARSON...........................................................26
TABELA 5 - MODELO DE COX.................................................................................29
v
LISTA DE FIGURAS
FIGURA 1 - CURVAS DE KAPLAN-MEIER...............................................................24
FIGURA 2 - RESÍDUOS PADRONIZADOS DE SCHOENFELD................................26
FIGURA 3 - RESÍDUOS DEVIANCE VERSUS PREDITOR LINEAR........................28
FIGURA 4 - RESÍDUOS DFBETAS VERSUS PREDITOR LINEAR..........................28
vi
RESUMO
Leucemia é o câncer das células brancas do sangue, os leucócitos. Esta
doença começa na medula óssea (parte interna dos grandes ossos) e se espalha
para outras partes do corpo. O transplante de medula óssea é um tipo de tratamento
proposto para essas doenças, e consiste na substituição de uma medula óssea
doente, ou deficitária, por células normais de medula óssea, com o objetivo de
reconstituição de uma nova medula saudável. O objetivo deste trabalho foi avaliar
fatores de risco ligados aos pacientes que sofreram este tipo de procedimento. O
banco de dados EBMT (European Registry for Blood and Marrow Transplantation),
que está presente no pacote MSTATE do software R, foi utilizado como base para
os estudos. A variável resposta foi o tempo em dias até a recaída ou morte do
paciente ou até o término do acompanhamento.
Para iniciar as análises, foram utilizadas técnicas de Kaplan-Meier para
construir as curvas de sobrevivência para as covariáveis estudadas, e os testes de
logrank e Wilcoxon foram realizados para testar as diferenças entre as estimativas
das curvas. Posteriormente, o modelo de Cox foi construído para estudarmos os
fatores relacionados à variável resposta, assumindo a suposição de riscos
proporcionais. As covariáveis presentes no modelo final foram: Subtipo da doença,
Idade do paciente no ato do transplante e uma variável indicadora se houve ou não
depleção do Linfócito T. Foram feitas ainda análises de resíduos para verificar a
qualidade do modelo obtido, utilizando resíduos de Schoenfeld, deviance e dfbetas.
Para interpretar os parâmetros, foram utilizadas razões de riscos para identificar os
fatores mais influentes para aumentar ou diminuir o tempo de vida dos pacientes em
estudo.
Palavras-Chave: Transplante de medula óssea, leucemia, Kaplan-Meier modelo
de Cox.
vii
SUMÁRIO
1 INTRODUÇÃO ...................................................................................................... 8
2 REVISÃO DE LITERATURA .............................................................................. 11
2.1 CONCEITOS INICIAIS: CENSURA E TEMPO DE FALHA ............................... 11
2.2 FUNÇÕES DE INTERESSE ............................................................................. 11
2.3 MÉTODOS NÃO PARAMÉTRICOS: ................................................................ 12
2.3.1 Estimador de Kaplan-Meier ............................................................................ 12
2.4 COMPARAÇÃO DAS CURVAS DE SOBREVIVÊNCIA.................................... 13
2.4.1 Teste Logrank ................................................................................................. 13
2.4.2 Teste Wilcoxon ............................................................................................... 15
2.5 MODELO DE RISCOS PROPORCIONAIS DE COX ........................................ 15
2.5.1 Estimação dos parâmetros ............................................................................. 17
2.5.2 Pressupostos do Modelo de Riscos Proporcionais de Cox............................. 18
2.5.3 Análise de resíduos ........................................................................................ 18
2.5.3.1 Resíduos de Schoenfeld ............................................................................ 19
2.5.3.2 Resíduos Martingal..................................................................................... 20
2.5.3.3 Resíduos Deviance .................................................................................... 20
2.5.3.4 Resíduos Dfbetas ....................................................................................... 21
2.5.4 Interpretação dos parâmetros ......................................................................... 21
3 MATERIAL E MÉTODOS ................................................................................... 23
3.1 BANCO DE DADOS ......................................................................................... 23
3.1.1 Visão Geral das Variáveis Estudadas ............................................................. 23
3.2 ANÁLISE ESTATÍSTICA ................................................................................... 24
3.2.1 Estatística descritiva ....................................................................................... 24
3.2.2 Ajuste do Modelo de Cox ................................................................................ 25
4 RESULTADOS E DISCUSSÕES ....................................................................... 26
4.1 ANÁLISES DESCRITIVAS ............................................................................... 26
4.2 MODELO DE REGRESSÃO DE COX .............................................................. 28
4.2.1 Adequação do Modelo Ajustado e Resíduos .................................................. 30
4.2.2 Parâmetros estimados pelo Modelo de Cox ................................................... 32
5 CONCLUSÃO ..................................................................................................... 34
REFERÊNCIAS ......................................................................................................... 36
ANEXOS .......................................................................... Erro! Indicador não definido.
8
1
INTRODUÇÃO
A leucemia é uma doença maligna dos glóbulos brancos (leucócitos),
geralmente, de origem desconhecida. Tem como principal característica o acúmulo
de células jovens anormais na medula óssea, que substituem as células sanguíneas
normais. A medula é o local de formação das células sanguíneas e ocupa a
cavidade dos ossos, sendo popularmente conhecida por tutano. Nela são
encontradas as células que dão origem aos glóbulos brancos, aos glóbulos
vermelhos (hemácias ou eritrócitos) e às plaquetas (INCA – 2011). Depois de
instalada, a doença progride rapidamente, exigindo início de tratamento rápido.
As leucemias podem ser agrupadas com base em quão rapidamente a
doença evolui e torna-se grave.
Sob esse aspecto, a doença pode ser do tipo
crônica (que geralmente agrava-se lentamente) ou aguda (que geralmente agravase rapidamente). Elas também podem ser agrupadas baseando-se nos tipos de
glóbulos brancos que elas afetam: linfóides ou mieloides. As que afetam as células
linfóides são chamadas de linfóide, linfocítica ou linfoblástica. A leucemia que afeta
as células mieloides são chamadas mieloide ou mieloblástica (INCA – 2011).
Combinando as duas classificações, existem quatro tipos mais comuns de
leucemia: “Leucemia linfóide crônica”: afeta células linfóides e se desenvolve
devagar. A maioria das pessoas diagnosticadas com esse tipo da doença tem mais
de 55 anos. Raramente afeta crianças; “Leucemia mieloide crônica”: afeta células
mieloides e se desenvolve vagarosamente, a princípio. Acometem principalmente
adultos; “Leucemia linfoide aguda”: afeta células linfóides e agrava-se rapidamente.
É o tipo mais comum em crianças pequenas, mas também ocorre em adultos;
“Leucemia mieloide aguda”: afeta as células mieloides e avança rapidamente.
Ocorre tanto em adultos como em crianças (INCA – 2011).
Neste estudo, observaremos casos com “Leucemia Mielóide Aguda”,
“Leucemia Linfóide Aguda” e “Leucemia Mielóide Crônica”.
Para muitos destes casos, o tratamento indicado é o transplante de medula
óssea. Este é um procedimento médico da área da hematologia e oncologia que
envolve o transplante de células tronco hematopoiéticas provenientes da medula
óssea do doador. A principal característica desse procedimento e o que a difere da
maioria dos transplantes de órgãos é que nele o receptor recebe por via endovenosa
um aspirado de células de medula óssea do doador, e essas células migram pelo
9
sangue até se fixarem na medula óssea do receptor e voltarem a se multiplicar e
cumprir suas funções fisiológicas no hospedeiro. Apesar de aparentemente simples,
ainda é um procedimento de risco e é indicado apenas para doenças graves. As
principais complicações são infecções, recidivas da doença anterior e a doença do
enxerto versus hospedeiro (GVHD), quando as novas células do sistema
imunológico, ao não reconhecerem as células do hospedeiro, passam a destruí-las
como se fossem uma infecção. Os linfócitos T na medula óssea ou sangue de um
doador causam a doença do enxerto versus hospedeiro. A fim de minimizar essa
reação perigosa, a medula ou a coleção de células do sangue podem ser tratadas
com agentes que possibilitam a diminuição do número de linfócitos T. Este processo,
conhecido como depleção do linfócito T, reduz a incidência e a gravidade da doença
do enxerto versus hospedeiro, ao diminuir o número de células imunológicas
causadoras da GVHD. Geralmente, anticorpos contra os linfócitos T são usados
para extraí-los da amostra das células-tronco a serem utilizadas para o transplante.
A diminuição da presença dos linfócitos T no transplante minimiza a intensidade da
GVHD. Visto que os linfócitos T auxiliam o enxerto das células-tronco e podem
suprimir células residuais do tumor no receptor, algumas células T são úteis nas
células transplantadas. Os linfócitos T também são benéficos por auxiliarem as
células-tronco hematopoéticas doadas a se fixarem e crescerem dentro da medula
óssea do receptor. Em alguns casos, os linfócitos T atacam as células da leucemia,
aumentando os efeitos de supressão do tratamento. O ataque às células residuais
do tumor faz com que se torne menos provável que a doença retorne após o
transplante. Assim, os médicos responsáveis pelo transplante devem ser cuidadosos
sobre a quantidade de células T que serão removidas durante o procedimento.
O objetivo principal do estudo será avaliar o tempo de relapso ou morte de
pacientes que sofreram transplante de medula óssea, apontando os fatores de risco
relacionados aos pacientes. Será utilizado o banco de dados europeu EBMT
(European Registry for Blood and Marrow Transplantation), que está presente no
pacote MSTATE do software R. O banco consiste em um registro com 2204
pacientes que possuem algum tipo de leucemia e que fizeram transplante de medula
óssea entre 1995 e 1998.
No tópico seguinte, apontaremos as metodologias nas quais foram baseados
estes estudos. Em seguida, serão apresentadas algumas estatísticas descritivas,
entre elas curvas de sobrevivência utilizando Kaplan-Meier para cada covariável.
10
Então testes para verificar se existe diferença entre as curvas serão realizados.
Depois, um modelo de riscos proporcionais de Cox será ajustado aos dados,
utilizando as covariáveis mais significativas. A análise de resíduos será feita para
avaliar a qualidade do modelo obtido. Para finalizar, os parâmetros serão
interpretados para observar os fatores que mais afetam a variável resposta.
11
2 REVISÃO DE LITERATURA
2.1 CONCEITOS INICIAIS: CENSURA E TEMPO DE FALHA
Em análise de sobrevivência, a variável resposta em estudo é na maioria das
vezes o tempo até a ocorrência de um evento de interesse. Este tempo é
comumente chamado de “Tempo de falha”, que no caso do estudo em questão será
o tempo em dias até o relapso ou morte do paciente que sofreu transplante de
medula óssea.
Tempo de falha - Tempo até a ocorrência de um evento de interesse (por
exemplo, reincidência ou morte do paciente em estudo após o transplante de medula
óssea).
Censura – Observação incompleta da resposta. Por exemplo: tratamento
interrompido por motivo de mudança de cidade, morte por motivo diferente do de
interesse, término do acompanhamento, etc. Se o estudo em questão não tivesse
ocorrência de censura, outra técnica estatística poderia ser aplicada, por exemplo,
uma ANOVA para comparação de tratamentos. No entanto, quando há ocorrência
de censuras não é possível aplicar os métodos clássicos, pois se deve considerar os
tempos de falha censurados.
2.2 FUNÇÕES DE INTERESSE
A função de sobrevida é muito utilizada em estudos na área da saúde e é
representada por
. Sendo assim, a probabilidade de um indivíduo sobreviver por
mais do que um determinado tempo
é descrita da seguinte forma:
12
ou pode-se interpretar também como a probabilidade de um indivíduo não sobreviver
até um tempo
, ou seja, o complemento da função acumulada
:
A função de taxa de falha, ou função de risco, é aplicada em estudos clínicos
para determinar a distribuição do tempo de vida dos indivíduos em estudo. Ela é
descrita da seguinte forma:
A taxa de falha pode ser definida como Constante (não varia ao longo do
tempo), Crescente (aumenta ao longo do tempo) ou Decrescente (diminui ao longo
do tempo). Uma propriedade importante sobre a função de risco é que ela pode ser
determinada como inversamente proporcional à função de sobrevida:
2.3 MÉTODOS NÃO PARAMÉTRICOS:
2.3.1 Estimador de Kaplan-Meier
O estimador de Kaplan-Meier, proposto por Kaplan e Meier (1958) é um
estimador não-paramétrico para estimar a função de sobrevivência, também
conhecido por estimador produto-limite. Este estimador é uma adaptação da função
de sobrevivência empírica que, na ausência de censuras, é definida como
13
é uma função escada com degraus nos tempos observados de falha de
tamanho
, em que
é o tamanho da amostra. Na presença de empates em um
determinado tempo
, o tamanho do degrau fica multiplicado pelo número de
empates. Além disso, o estimador de Kaplan-Meier, na sua construção, considera
tantos intervalos de tempo quantos forem o número de falhas distintas. Ressalta-se
que os limites destes intervalos são os tempos de falha da amostra.
A expressão geral de
condicionais, em que
é escrita em termos de probabilidades
, adaptado da expressão anterior, fica definido por
sendo:
o número de falhas em
o número de indivíduos sob risco em
, ou seja, os indivíduos que não
foram censurados até o instante imediatamente anterior a
, são os
tempos distintos e ordenados de falha.
O estimador de Kaplan-Meier fica definido formalmente como
2.4 COMPARAÇÃO DAS CURVAS DE SOBREVIVÊNCIA
2.4.1 Teste Logrank
14
O teste logrank, apresentado em Mantel (1966) é o mais usado em análise
de sobrevivência. Ele compara a distribuição da ocorrência dos eventos observados
em cada estrato com a distribuição que seria esperada se a incidência fosse igual
em todos os estratos, ou seja, os extratos têm a propriedade de riscos proporcionais
Se a distribuição observada for equivalente à distribuição esperada, dizemos que a
curva de sobrevivência dos pacientes pertencentes ao estrato é equivalente à curva
de sobrevivência dos pacientes. O teste de duas funções de sobrevivência, em que
a hipótese nula considerada é a de igualdade entre as curvas será:
e é baseado na estatística de teste dada por
que tem uma distribuição qui-quadrado com 1 grau de liberdade para grandes
amostras, na qual
e
é o número observado de falhas no grupo 2 em cada falha
é o respectivo valor esperado de falhas, isto é,
em que
total de falhas observadas nos grupos 1 e 2 no tempo de falha
indivíduos sob risco nos grupos 1 e 2 em
grupo 2 no tempo de falha
e
é o número de
total de falhas observadas no
. E a variância,
Para mais de duas funções de sobrevivência (r > 2), o teste logrank torna-se
uma generalização do caso de duas funções de sobrevivência na qual a estatística T
tem distribuição qui-quadrado com r – 1 graus de liberdade, em que r é o número de
grupos.
15
2.4.2 Teste Wilcoxon
Na comparação de funções de sobrevivência a seguinte forma geral inclui os
testes mais importantes na literatura e generaliza a estatística de teste T
apresentada:
com
sendo os pesos que especificam o teste. Sob a hipótese nula de igualdade
entre as funções de sobrevivência, a estatística
segue distribuição qui-quadrado
com 1 grau de liberdade para amostras grandes. O teste de Wilcoxon é obtido
quando se toma
.
O teste de Wilcoxon, que utiliza peso igual ao número de indivíduos sob
risco, atribui pesos maiores na porção inicial do estudo. No início do estudo, todos
os indivíduos estão sob risco e saindo do estado “sob risco” à medida que falham ou
são censurados.
2.5 MODELO DE RISCOS PROPORCIONAIS DE COX
Um dos modelos de regressão mais utilizado para dados de sobrevida,
principalmente em estudo clínicos, ajusta a função de risco
risco basal
e incluindo um vetor de covariáveis
, considerando um
, de maneira que:
16
Aqui assume-se que as covariáveis têm um efeito multiplicativo na função de
risco e, assim, a razão entre o risco de ocorrência do evento para dois indivíduos
e
, com covariáveis
e
é:
ou seja, é constante ao longo do tempo. Por este motivo este modelo é denominado
de modelo de riscos proporcionais (RP). O modelo de RP também pode ser escrito
em termos da função de risco acumulado ou da função de sobrevida, expostos a
seguir:
O risco basal acumulado é dado por:
e pode ser estimado através da expressão:
A estimativa para a sobrevida basal pode ser estimada por:
Assumindo o pressuposto de proporcionalidade, é possível estimar os
efeitos das covariáveis sem ter que fazer qualquer suposição a respeito da
distribuição do tempo de sobrevida. O modelo de Cox é chamado semi-paramétrico,
pois não assume qualquer distribuição de probabilidade para a função de risco,
17
, assumindo apenas que as covariáveis agem multiplicativamente sobre o risco,
sendo esta a parte paramétrica do modelo.
2.5.1 Estimação dos parâmetros
O vetor de parâmetros
é estimado a partir de uma verossimilhança
parcial, eliminando a função de risco e considerando apenas, a cada tempo t, a
informação dos indivíduos ainda sob risco. Esta formulação é semelhante ao modelo
não-paramétrico de Kaplan-Meier, porém permite que sejam estimados os efeitos
das covariáveis, ou seja, os efeitos de fatores de risco no tempo de sobrevida.
Os
diferentes tempos de falha de uma amostra, sem considerar a
ocorrência de eventos em um mesmo tempo
A função de verossimilhança individual,
são ordenados da forma que:
·, é definida por:
com
representando uma variável indicadora que assume o valor 1 se o
indivíduo
estiver em risco no tempo
A verossimilhança parcial
e 0, caso contrário.
pode ser calculada pelo produto das
verossimilhanças individuais que é expressa da seguinte forma:
em que
é o indicador de falha.
18
Podemos observar que o numerador da verossimilhança parcial depende
apenas da informação dos indivíduos que experimentam o evento, enquanto o
denominador utiliza informações a respeito de todos os indivíduos que ainda não
experimentaram o evento, incluindo aqueles que serão censurados mais tarde.
2.5.2 Pressupostos do Modelo de Riscos Proporcionais de Cox
Para covariáveis com um pequeno número de categorias, o gráfico das
curvas de sobrevida estimadas através do método de Kaplan-Meier podem dar uma
idéia visual da presença ou ausência de proporcionalidade. As curvas devem ser
razoavelmente paralelas ao longo de todo o tempo indicando proporcionalidade no
risco entre as categorias. Se houver cruzamento ou uma grande variação nas
distâncias entre as curvas de diferentes categorias, isso poderá indicar ausência de
proporcionalidade. Outra maneira de verificar esta proporcionalidade seria através
dos resíduos de Schoenfeld.
2.5.3 Análise de resíduos
Para modelos de sobrevivência, a definição de resíduo não é simples e
direta como em regressão linear. O resíduo não pode ser obtido como a resposta
observada menos a esperada, pois desta forma não leva em consideração o tempo
observado de um indivíduo censurado. Algumas medidas estatísticas são propostas
para o modelo de riscos proporcionais de Cox, que são úteis na análise de
diferentes aspectos do modelo, como:
• a proporcionalidade do risco;
• a log-linearidade da relação entre razão de risco e variável
independente; e
• o efeito de pontos influentes.
19
A seguir, apresentamos alguns resíduos que podem ser utilizados para
examinar estes aspectos.
2.5.3.1 Resíduos de Schoenfeld
Em alguns casos, o efeito de uma covariável pode não ser sempre o mesmo
durante todo o tempo de observação. Nestes casos, o efeito da covariável é
chamado de tempo-dependente. Para diagnosticar este efeito utilizamos os resíduos
de Schoenfeld.
Os resíduos de Schoenfeld podem ser expressos para cada tempo
de
ocorrência do evento por:
A interpretação destes resíduos é como a diferença entre os valores
observados de covariáveis de um indivíduo com tempo de ocorrência do evento
os valores esperados em
dado o grupo de risco
O resíduo padronizado de Schoenfeld em
onde
é o índice das covariáveis e
e
.
pode ser obtido por:
a variância de
.
O gráfico dos resíduos padronizados de Schoenfeld contra o tempo de
sobrevida permite verificar se estes estão distribuídos igualmente ao longo do
tempo, ou se aparece uma forma sugestiva de não proporcionalidade, assim ferindo
o pressuposto básico do modelo de Cox. Para que o pressuposto seja satisfeito, não
deverá existir nenhuma tendência sistemática no gráfico de
versus o tempo.
20
2.5.3.2 Resíduos Martingal
Os resíduos martingal,
, são baseados no processo de contagem
individual e definidos por:
onde
é igual ao número de eventos observados no intervalo
e
é o
número de eventos esperados sob o modelo ajustado no intervalo
.
Resumindo, é a diferença entre o número observado de eventos para um indivíduo e
o número esperado dado o modelo ajustado.
Os resíduos martingal são úteis na avaliação da qualidade de ajuste do
modelo em duas situações importantes:
•
versus índice do indivíduo: permitindo revelar indivíduos mal
explicados pelo modelo;
•
do modelo nulo versus covariável com a superposição de uma
curva de alisamento: permite avaliar qual é a melhor forma funcional
da covariável no modelo.
O primeiro gráfico citado serve para apontar possíveis valores aberrantes no
estudo, dado as covariáveis. Valores de
maiores (ou menores) que 0 indicam
que número de eventos observado é maior (ou menor) que o estimado pelo modelo
e conseqüentemente a sobrevida estará superestimada (ou subestimada). O
segundo gráfico citado permite observar qual é a forma funcional mais adequada de
uma covariável contínua, ou seja, se é linear ou se alguma transformação é
necessária.
2.5.3.3 Resíduos Deviance
Os resíduos deviance são uma tentativa de tornar os resíduos martingal
mais simétricos em torno de zero, facilitando a detecção de pontos atípicos. Se o
21
modelo for apropriado, esses resíduos devem apresentar-se aleatoriamente em
torno de zero. O gráfico dos resíduos de deviance versus os tempos auxiliam a
verificar a adequação do modelo ajustado e na detecção de observações atípicas.
2.5.3.4 Resíduos Dfbetas
O resíduo escore, também conhecidos como resíduos dfbeta (ou dfbetas
quando padronizados) são úteis na verificação da influência de cada observação no
ajuste do modelo e para estimação robusta da variância dos coeficientes de
regressão.
A
influência
de
cada
observação
deve
ser
proporcional
à
, uma vez que a observação deve estar distante do valor médio de
, bem como ter um resíduo alto para exercer uma influência significativa no ajuste
do modelo. Para cada indivíduo
pode-se calcular a diferença entre o vetor de
covariáveis estimado pelo modelo e o mesmo estimado sem o indivíduo
:
, que é aproximadamente igual à matriz de resíduos
escore.
O gráfico do resíduo escore para cada covariável
versus
revela os
pontos de influência. O resíduo escore pode ser escalonado pelo erro padrão da
respectiva covariável, facilitando a visualização.
Uma vantagem destes resíduos sobre os outros é que eles são definidos
para todos os tempos enquanto que os demais só são definidos nos tempos de
ocorrência do evento. Esta característica é importante quando o percentual de
censuras é alto. A desvantagem é que eles não indicam o tipo de desvio da
suposição de riscos proporcionais quando existe uma indicação de falta de ajuste do
modelo.
2.5.4 Interpretação dos parâmetros
22
A propriedade de riscos proporcionais do modelo de Cox é utilizada na
interpretação dos coeficientes estimados. Tomando a razão das taxas de falhas de
dois indivíduos
e
com os mesmos valores para as covariáveis com exceção da
l-ésima, tem-se:
a qual se interpreta como a razão de riscos instantânea no tempo
supondo que
. Por exemplo,
seja uma covariável dicotômica indicando pacientes com um
determinado tipo de leucemia. O risco de morte entre esses pacientes é
vezes o risco de pacientes, por exemplo, livres da doença, mantendo as outras
covariáveis fixas.
Uma estimativa para
pode ser obtida utilizando-se a propriedade de
invariância do estimador de máxima verossimilhança parcial. Na construção de
estimativas intervalares devemos obter uma estimativa do erro-padrão de
,
aqui o método delta pode ser empregado. Se o valor 1 pertencer ao intervalo
estimado, temos um indicativo de que não há evidências quanto a diferenças
significativas nos riscos.
As covariáveis contínuas utilizam uma interpretação muito parecida. Se o
efeito de uma covariável contínua for significativo e, por exemplo,
para
este termo, concluímos que, ao aumentarmos em uma unidade esta covariável, o
risco avaliado fica aumentado em 10%.
23
3 MATERIAL E MÉTODOS
3.1 BANCO DE DADOS
Os dados utilizados para a realização do estudo foram obtidos do banco de
dados europeu EBMT (European Registry for Blood and Marrow Transplantation),
que é uma organização sem fins lucrativos e permite que cientistas e médicos
envolvidos no transplante clínico de medula óssea compartilhem suas experiências e
possam desenvolver estudos. O EBMT visa promover todos os aspectos associados
com o transplante de células-tronco hematopoéticas de doadores de todas as fontes
e tipos, incluindo pesquisas clínicas, educação, padronização, controle de qualidade
e desenvolvimento de novos procedimentos.
Alguns dados deste banco encontram-se disponíveis no pacote MSTATE do
software R. O banco consiste em um registro com 2204 pacientes que possuem
algum tipo de leucemia e que fizeram transplante de medula óssea entre 1995 e
1998.
A variável resposta estudada é o tempo em dias desde o transplante de
medula óssea até a recaída ou a morte do paciente, ou o final do acompanhamento.
Foram estudadas variáveis como Idade do paciente (AGE) no ato do transplante,
categorizada em 2 grupos (<=40, >40), a subclassificação do tipo da doença
(DOEN), ou seja, do tipo de Leucemia (Leucemia Mielóide Aguda, Leucemia Linfóide
Aguda e Leucemia Mielóide Crônica), variável indicadora se houve incompatibilidade
de gêneros (INCGEN) no transplante (doador sexo feminino e receptor sexo
masculino, e vice-versa) e variável indicando se ocorreu depleção do linfócito T
antes do transplante (TCD).
3.1.1 Visão Geral das Variáveis Estudadas
24
Foram estudadas quatro variáveis juntamente com a variável resposta tempo
em dias a partir do transplante até a recaída ou o óbito do paciente. A Tabela 1
apresenta uma visão geral das variáveis estudadas:
TABELA 1 - DESCRIÇÃO DAS VARIÁVEIS UTILIZADAS NO ESTUDO
Covariável
Descrição
Categorias
<=40
>40
AGE
Idade do Paciente no ato do transplante
DOEN
Subclassificação da Leucemia
AML = Leucemia Mielóide Aguda
ALL = Leucemia Linfóide Aguda
CML = Leucemia Mielóide Crônica
INCGEN
Incompatibilidade de gênero
Gender mismatch (Incompatibilidade)
No gender mismatch (Sem incompatibilidade)
TCD
Depleção das células t
NO TCD
TCD
FONTE: O Autor (2011)
3.2 ANÁLISE ESTATÍSTICA
3.2.1 Estatística descritiva
Uma tabela com freqüências observadas das covariáveis e curvas de
sobrevivência utilizando o estimador não-paramétrico de Kaplan-Meier foram
utilizadas para obter uma primeira visão de quais covariáveis seriam interessante
incluir no modelo final.
Testes de logrank e Wilcoxon foram realizados para testar a igualdade entre
as curvas estimadas.
25
3.2.2 Ajuste do Modelo de Cox
O modelo de regressão Cox é bastante utilizado em estudos médicos. A
principal razão disso é a presença de seu componente não-paramétrico. Esta
flexibilidade foi o motivo do seu uso no estudo elaborado.
A suposição básica para o uso do modelo de regressão de Cox é a
proporcionalidade das taxas de falha. Para checarmos a suposição utilizamos os
resíduos padronizados de Schoenfeld e também o método de Kaplan-Meier. Nesta
etapa observamos que não houve séria violação da suposição.
O modelo final apresentou as seguintes covariáveis: Idade do paciente
(Age), subclassificação da doença (DOEN) e variável indicadora de presença ou
ausência de TCD.
Na interpretação dos parâmetros estimados pelo modelo utilizamos a razão
dos tempos medianos de sobrevivência. Tomando uma classe específica como base
para comparação com as demais classes, por exemplo, tempo mediano de
sobrevivência do paciente com o subtipo de doença igual à CML comparado com o
subtipo de doença igual à AML (variável base).
Gráficos de resíduos foram elaborados no estudo. O resíduo deviance foi
utilizado para verificação de pontos atípicos (outliers). O resíduo dfbetas foi utilizado
para a verificação de pontos influentes no modelo.
26
4
RESULTADOS E DISCUSSÕES
A seguir demonstram-se os principais resultados obtidos a partir de uma
análise realizada com o auxílio do software R versão 2.11.1. Tendo em vista os
resultados, tem-se algumas análises descritivas a seguir com o intuito de verificar o
comportamento das covariáveis em estudo.
4.1
ANÁLISES DESCRITIVAS
Na tabela 2, temos as freqüências observadas das variáveis estudadas de
acordo com o número de falhas ou censuras.
TABELA 2- FREQUÊNCIAS DE OBSERVAÇÕES, FALHAS E CENSURAS
RESPOSTA
Recaída ou morte
Censura
495
981
346
382
Covariável
Categorias
Frequência
AGE
<=40
>40
1476
728
DOEN
AML = Leucemia Mielóide Aguda
ALL = Leucemia Linfóide Aguda
CML = Leucemia Mielóide Crônica
853
447
904
285
164
392
568
283
512
INCGEN
Gender mismatch (Incompatibilidade)
No gender mismatch (Sem incompatibilidade)
556
1648
216
625
340
1023
TCD
NO TCD
TCD
1928
276
706
135
1222
141
FONTE: O Autor (2011)
Para cada covariável foram construídas curvas de Kaplan-Meier a fim de
identificar se existem diferenças entre as classes. Além da análise gráfica, os testes
logrank e Wilcoxon foram realizados para comprovar essas diferenças. Os gráficos
são visualizados abaixo.
27
FIGURA 1 - CURVAS DE KAPLAN-MEIER
FONTE: O autor (2011)
Na Figura 1, podemos identificar uma diferença clara entre as classes das
variáveis TCD e AGE. A variável DOEN parece também mostrar diferença
significativa, o que será comprovado nos teste Wilcoxon e logrank, a seguir.
28
TABELA 3 - TESTES WILCOXON E LOGRANK
Wilcoxon
Covariável
Qui-Quadrado
P-valor
Logrank
Qui-Quadrado
P-valor
AGE
35.7
<0.001
38.3
<0.001
DOEN
3.9
0.144
8
0.0183
INCGEN
0
0.949
0
0.836
TCD
4.4
0.0353
7.2
0.00747
FONTE: O Autor (2011)
As covaráveis AGE e TCD apresentam diferenças significativas entre as
suas duas respectivas classes. A covariável DOEN, que é a subclassificação da
doença, pode ser considerada marginalmente significativa de acordo com o teste
Wilcoxon, porém significativo através de logrank. Isso ocorre porque o teste de
Wilcoxon considera pesos maiores para o início do estudo, quando existem mais
informações sob risco. O teste logrank considera os riscos constantes ao longo do
tempo. Como parece carregar informações importantes e os resultados apontam
para valores significativos, manteremos estas três variáveis para ajustar o modelo de
Cox.
4.2
MODELO DE REGRESSÃO DE COX
O modelo de Cox proposto conta com três das quatro covariáveis
observadas anteriormente. Como vimos através dos gráficos de Kaplan-Meier,
apenas a covariável DOEN deixa alguma suspeita de não satisfazer a suposição de
riscos proporcionais, já que a variável INCGEN claramente não obteve resultados
significativos, sendo assim excluída do estudo, e as variáveis AGE e TCD
apresentam alta significância.
Analisaremos os coeficientes de correlação de Pearson entre os resíduos
padronizados de Schoenfeld e g (t ) = t para verificarmos possíveis tendências. A
29
seguir, mostraremos os gráficos de Schoenfeld na figura 2 e os resultados das
2
1
0
-1
-3
-2
Beta(t) for doenCML
4
2
0
-2
Beta(t) for doenALL
3
6
correlações na tabela 4.
39
89
140
360
1500
39
89 140
1500
Time
3
2
1
0
Beta(t) for age>40
-2 -1
4
2
0
-2
Beta(t) for tcdTCD
6
4
Time
360
39
89
140
360
1500
39
89 140
Time
360
1500
Time
FIGURA 2 - RESÍDUOS PADRONIZADOS DE SCHOENFELD
FONTE: O autor (2011)
TABELA 4- CORRELAÇÕES DE PEARSON
Covariável
rho
chisq
p
doenALL
0.0134
0.151
6.98e-01
doenCML
0.2053
35.642
2.37e-09
TCD
0.1266
13.752
2.09e-04
age>40
-0.0261
0.583
4.45e-01
GLOBAL
NA
53.485
6.75e-11
FONTE: O Autor (2011)
.
30
Fazendo uma análise geral, mantivemos as três covariáveis no estudo, visto
que não apresentam cruzamentos bruscos em suas curvas de sobrevivência e não
possuem resíduos padronizados de Schoenfeld tão assimétricos, além de possuírem
baixos coeficientes de correlação de Pearson. Os p-valores não devem ser levados
em consideração devido ao grande tamanho de amostra.
Em um modelo alternativo, poderia ter sido ajustado um modelo de Cox
estratificando a covariável DOEN, que apresenta o maior coeficiente de correlação
de Pearson. Este método consiste em estratificar a covariável de forma que a
suposição de proporcionalidade seja válida para cada estrato. A estratificação não
causa problemas sérios nas estimativas dos parâmetros, mas pode causar perda de
eficiência das estimativas caso seja usado de forma desnecessária. Neste estudo,
consideramos o modelo de Cox como razoável para prosseguir como modelo, sem
ser necessário a estratificação.
4.2.1 Adequação do Modelo Ajustado e Resíduos
Para avaliar a adequação do modelo de Cox ajustado, vamos analisar os
resíduos deviance e dfbetas para verificar pontos atípicos e pontos de alavanca,
respectivamente.
Abaixo, na Figura 3, podemos identificar os resíduos deviance.
31
FIGURA 3 - RESÍDUOS DEVIANCE VERSUS PREDITOR LINEAR
FONTE: O autor (2011)
Os resíduos evidenciam aleatoriedade, visto que se distribuem igualmente
ao redor de zero. Não há indícios de haver pontos atípicos no modelo.
Os resíduos dfbetas mostram se existem pontos influentes em cada
-0.004
-0.005
0.000
Influência para Age
-0.002
0.000
Influência para TCD
0.000
-0.005
Influência para Doen
0.002
0.005
0.005
0.004
covariável. Segue na Figura 4.
AML
A LL
Doen
CML
No TCD
TCD
TCD
FIGURA 4 - RESÍDUOS DFBETAS VERSUS PREDITOR LINEAR
<=40
>40
A ge
32
FONTE: O autor (2011)
Os resíduos dfbetas não evidenciam nenhum ponto de alavancagem em
nenhuma covariável.
4.2.2 Parâmetros estimados pelo Modelo de Cox
Abaixo, verificamos as estimativas para o Modelo de Cox ajustado.
TABELA 5 - MODELO DE COX
Covariável
coef
exp(coef)
lower .95
upper .95
p-value
DOEN (ALL)
0.16861
1.184
1.014
1.381
0.0321
DOEN (CML)
0.19306
1.213
0.999
1.473
0.0512
TCD
0.20917
1.233
1.024
1.484
0.0270
AGE > 40
0.41371
1.512
1.311
1.745
<0.001
FONTE: O Autor (2011)
Devemos observar o valor exp(coef), que é a razão das taxas de falhas
entre as classes de cada covariável, para realizar a interpretação dos parâmetros,
levando em conta a propriedade de riscos proporcionais do modelo.
Como todas as covariáveis são categóricas, teremos um subnível em cada
covariável como sendo o nível de referência. Para a variável DOEN, o nível de
referência foi a doença do tipo AML. Portanto, temos que o risco de recaída ou
morte após o transplante de medula óssea para pacientes com o tipo de doença ALL
é cerca de 1,184 vezes o risco de pacientes com o tipo de doença AML, e com um
nível de confiança de 95% este risco fica entre 1,014 e 1,381. Para pacientes com o
33
tipo de doença CML, o risco de recaída ou morte é 1,213 vezes o risco de pacientes
com a doença AML. O intervalo de confiança de 95% para esta razão está entre
0,999 e 1,473.
Os casos em que ocorreram TCD apresentam risco de recaída ou óbito
cerca de 1,233 o risco de pessoas que não sofreram este procedimento, com um
intervalo de confiança de 95% que fica entre 1,024 e 1,484.
Já com relação a variável idade, podemos afirmar que os pacientes com
mais de 40 anos apresentam risco de recaída ou morte após o transplante de
medula óssea de 1,512 o risco de pacientes com menos ou igual a 40 anos. O
intervalo de confiança de 95% para este risco fica entre 1,311 e 1,745.
34
5 CONCLUSÃO
Apesar da gravidade da doença, a Leucemia vem sendo tratada de várias
formas, e o transplante de medula óssea é ainda uma das formas mais indicadas
para casos graves. A análise desenvolvida teve como objetivo identificar quais são
os fatores de maior influência na recaída ou morte de pacientes que sofreram
transplante de medula óssea.
Inicialmente, foram realizadas algumas estatísticas descritivas para observar
o comportamento das covariáveis analisadas no estudo. Primeiro, foi construída uma
tabela de freqüência para analisar a distribuição das covariáveis entre suas
categorias. Curvas de Kaplan-Meier, além dos testes de logrank e Wilcoxon, foram
construídas para avaliar se havia indícios para apontar diferenças entre as
categorias de cada covariável. A avaliação final foi que as variáveis DOEN, TCD e
AGE apresentaram diferenças significativas entre suas curvas de sobrevida.
O modelo de Cox foi construído tendo por base a proporcionalidade entre os
riscos. Este pressuposto foi confirmado analisando as curvas de Kaplan-Meier, os
testes de logrank e Wilcoxon, a correlação de Pearson entre os resíduos de
Schoenfeld e g (t ) = t e a análise gráfica dos próprios resíduos de Schoenfeld. Uma
forma alternativa que poderia ser proposta seria utilizar um modelo de Cox
estratificando a variável DOEN, a única que possui alguma dúvida quanto a ferir ou
não o pressuposto de proporcionalidade dos riscos. Como este pressuposto não fica
evidentemente ferido, obtivemos nossos resultados utilizando um modelo de Cox
com riscos proporcionais.
A adequação do modelo ajustado foi analisada através dos resíduos
deviance e dfbetas. Nos modelos ajustados não se observou pontos de influência ou
pontos atípicos.
Como fatores de risco ligados aos pacientes, a idade e o tipo de doença
foram bastante significativos, além da presença ou ausência do procedimento de
35
TCD. Pacientes com mais de 40 anos possuem risco de recaída ou morte de 1,512
vezes maior que os pacientes com menos de 40 anos. Se o tipo de doença for a
Leucemia Linfóide Aguda, o risco é 1,184 vezes maior do que pacientes com a
Leucemia Mielóide Aguda. Já os pacientes com Leucemia Mielóide Crônica
apresentaram risco de 1,213 o risco de pacientes com a Leucemia Mielóide Aguda.
Com relação ao TCD, os pacientes que se submeteram a este procedimento
possuem risco de recaída ou morte cerca de 1,233 vezes o risco de pacientes que
não sofreram depleção do linfócito T.
Em nossos resultados temos indícios para afirmar que pacientes com
Leucemia Mielóide Crônica, apesar de a princípio não ser tão fatal quanto as
subclassificações agudas, possuem taxa de mortalidade ou reincidência da doença
após o transplante maior que os pacientes com Leucemia Mielóide Aguda ou
Leucemia Linfóide Aguda. Este subtipo crônico da doença pode ter alguma
característica que acaba dificultando a recuperação do paciente, levando a uma
melhora com menor eficiência do que entre os casos agudos da doença.
A idade é outro fator significativo de risco, e neste estudo os pacientes com
mais de 40 anos apresentaram taxa de mortalidade ou de reincidência da doença
após o transplante consideravelmente maior do que os pacientes fora desta faixa de
idade.
A depleção do linfócito T apresentou um efeito negativo em nosso estudo.
Apesar de este ser um procedimento para evitar um tipo de doença sério, quando as
células do doador passam a atacar as células do receptor (GVHD), este processo de
diminuição das células T pode dificultar que as células-tronco doadas se fixem e
cresçam na medula óssea do receptor, aumentando o risco de rejeição e,
conseqüentemente, aumentando o número de recidivas e óbitos.
36
REFERÊNCIAS
CARVALHO, Marilia Sá; ANDREOZZI, Valeska Lima; CODEÇO, Cláudia Torres; BARBOSA,
Maria Tereza Serrano; SHIMAKURA, Silvia Emiko. Análise de Sobrevida. Teoria e
aplicações em Saúde. Rio de Janeiro: FIOCRUZ, 2005.
COLOSIMO, Enrico A.; GIOLO, Suely R. Análise de Sobrevivência Aplicada, Edgard
Blucher.
Putter H, Fiocco M, Geskus RB (2007). Tutorial in biostatistics: Competing risks and
multi-state models. Statistics in Medicine 26, 2389–2430.
SOUZA, Carmino de. Transplante de Células – Tronco Hematopoéticas do Sangue e da
Medula Óssea. Associoação Brasileira de Linfoma e Leucemia.
Normas para apresentação de documentos científicos. Universidade Federal do
Paraná, 2007
Kaplan, E.L., Meier, P. (1958). Nonparametric estimation from imcomplete
observations. Journal of the American Statistical Association.
MÄNNICH, Robert; ROCHA, Wanderson R. (2010). Análise de sobrevivência
utilizando modelo de Cox em dados de pacientes em tratamento de hemodiálise.
Universidade Federal do Paraná.
César, Maria Mônica. Medula Óssea. ADOAS - Associação Metropolitana de
Voluntários e Doadores de Sangue, 2005. Disponível no site
< http://www.adoas.com.br/news.php?nID=50>.
INCA, Instituto Nacional de Câncer, 1996 – 2011. Tipos de cancer - Leucemia.
Disponível
http://www2.inca.gov.br/wps/wcm/connect/tiposdecancer/site/home/leucemia.
Cox DR. Regression models and life-tables. J R Statistic Soc B 1972.
em
37
Lumley, Thomas. Survival analysis (2011). Disponível em < http://CRAN.Rproject.org/package=survival>.
Lumley, Thomas. Survival analysis (2011). Disponível em < http://CRAN.Rproject.org/package=ebmt
Mantel, Nathan "Evaluation of survival data and two new rank order statistics arising
in its consideration.". (1966).
Liesbeth C. de Wreede, Marta Fiocco, Hein Putter (2011). mstate: An R
Package for the Analysis of Competing Risks and Multi-State Models.
Journal of Statistical Software, 38(7), 1-30. Disponível em
< http://www.jstatsoft.org/v38/i07/> .
Download