Quantos mapas existem de fato? Minerando o atlas - DC

Quantos mapas existem de fato?
Minerando o atlas de incidência de câncer
Maurício Fernandes, Ramon Lopes, Renato Assunção
Universidade Federal de Minas Gerais, Brasil
[email protected], [email protected], [email protected]
Abstract.
Câncer é a segunda principal causa de morte na maioria dos países mais desenvolvidos e em vários em
desenvolvimento, incluindo o Brasil. O padrão geográco da ocorrência de câncer é analisado na forma de atlas, que
mostra a distribuição geográca de mais de uma centena de diferentes cânceres. Esses padrões geográcos são estudados
isoladamente por epidemiólogos em busca de fatores etiológicos e de risco para cada câncer individual. Neste trabalho,
utilizamos técnicas de mineração de dados para encontrar fatores latentes sob a hipótese de que a distribuição espacial
do risco de cada câncer pode ser explicada como uma combinação linear de tais fatores. Encontramos evidências de que
há uma imensa comunalidade na maioria dos cânceres, mesmo aqueles em regiões muito distintas e pouco conectadas
do corpo, de modo que 105 dentre os 115 tipos de cânceres considerados permaneceram bem explicados, com base
na métrica adotada, ao considerar 6 fatores latentes. Esse fato pode indicar uma nova linha de investigação para a
epidemiologia do câncer que, em vez de estudar cada um dos cânceres de forma separada, pode se concentrar no estudo
dos poucos fatores latentes que geram todos os cânceres.
Categories and Subject Descriptors: H.2.8 [Database
Learning; J.3 [Life and Medical Sciences]: Health
Applications]:
Data mining; I.2.6 [Articial
Intelligence]:
Keywords: análise espacial, epidemiologia espacial, mapeamento de doenças, fatores latentes
1.
INTRODUÇÃO
Nos últimos anos, têm-se assistido às transformações que a ciência de dados (data science, em inglês)
está promovendo em diversos setores da sociedade. Uma das maiores conferências na área de mineração
e ciência de dados, KDD, adotou como tema especial da edição de 2014 Data Mining for Social Good
com o objetivo de chamar a atenção da comunidade cientíca e de organizações para trabalhos que
contribuem para o bem social.
Dentro desse contexto, nesta edição do evento, haverá um tutorial
sobre epidemiologia computacional, que tem emergido como uma importante área de pesquisa. Nosso
trabalho orienta-se nessa direção e tem seu foco no câncer, um dos maiores problemas de saúde do
mundo. Estima-se que para o ano de 2014 nos Estados Unidos ocorrerão aproximadamente 1,5 milhão
de novos casos e meio milhão de mortes devido ao câncer [Society 2014].
Esses números tornam o
câncer a segunda maior causa de mortes entre americanos, superada apenas por doenças no coração,
e responsável por uma a cada quatro mortes. No Brasil, o câncer também é a segunda causa de morte
desde 2008, e estima-se a ocorrência de 577 mil novos casos para o ano de 2014.
O câncer traz um grande prejuízo nanceiro. No ano de 2009, nos Estados Unidos, foram gastos
US$217 bilhões, dos quais US$87 bilhões foram gastos diretos com despesas médicas e US$130 bilhões
gastos indiretamente com mortes [Society 2014]. Devido à sua importância nas estatísticas de mortalidade, um volume expressivo de recursos é dirigido para a pesquisa sobre câncer. Por exemplo, o
National Cancer Institute possui um orçamento médio anual de US$4,8 bilhões [NCI 2014]. A American Cancer Society, por sua vez, investiu uma quantia superior a US$119 milhões em 2012 [ACS
The authors thank CNPq and FAPEMIG for partial support to their research.
c 2012 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided that
Copyright
the copies are not made or distributed for commercial advantage, and that notice is given that copying is by permission
of the Sociedade Brasileira de Computação.
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
2
·
M. Fernandes and R. Lopes and R. Assunção
2014]. Embora seja claro o mecanismo básico dessa doença, que consiste na proliferação desordenada
de células, ainda luta-se para entender os fatores que tornam algumas pessoas mais predispostas à
eclosão do câncer. A pesquisa epidemiológica sobre o câncer estuda os fatores de risco (ambientais,
comportamentais e biológicos) associados com a incidência dessa doença, além de sua prevenção e
estratégias de sobrevivência.
Uma das ferramentas mais usadas por epidemiólogos é constituída pelos mapas de incidência ou
mapas de mortalidade de câncer. Agências de saúde em países como Reino Unido, Estados Unidos e
Brasil disponibilizam atlas contendo estatísticas e mapas de incidência ou de mortalidade dos diversos
tipos de cânceres existentes.
Nesses atlas, encontramos centenas de mapas, um para cada tipo de
câncer e para cada segmento populacional, em geral, separados por sexo e raça.
Em cada mapa,
pequenas áreas, tais como municípios ou condados, são coloridas de acordo com as suas taxas de
mortalidade ou de incidência. Um dos principais objetivos da confecção desses atlas é exploratório.
Espera-se que seu estudo sugira determinantes locais da doença e fatores etiológicos desconhecidos
que possam ser formulados em termos de hipóteses a serem investigadas posteriormente. No trabalho
apresentado em [Mason 1995], são listados vários estudos realizados para investigar os determinantes
ambientais dos cânceres a partir da análise dos mapas de atlas.
Estes estudos abrangem câncer
oral [Winn et al. 1981], câncer de intestino [Pickle et al. 1984], câncer de pulmão [Ziegler et al. 1984]
e, por m, câncer de bexiga [Hoover and Strasser 1980].
Estudos espaciais são quase sempre sobre cânceres individuais. Alguns estudos procuraram analisar
o padrão geográco de mais de um câncer simultaneamente [Knorr-Held and Best 2001; Held et
2005; Dabney and Wakeeld 2005; Downing et
al.
al. 2008], mas esses trabalhos se limitaram a poucos
cânceres (entre dois e quatro) cujos principais fatores de risco são sabidamente os mesmos.
Por
exemplo, os cânceres da cavidade oral, laringe, esôfago e pulmão são fortemente inuenciados pelo
consumo de tabaco.
O trabalho apresentado em [Assunção and Castro 2004] foi uma exceção ao
vericar a correlação existente entre as taxas de incidência de cânceres muito distintos e aparentemente
sem um fator causal comum. Por exemplo, a correlação entre as taxas de câncer de laringe masculino
e o câncer de cólon feminino foi igual a
0, 56.
A elevada correlação entre cânceres muito distintos
encontrada naquele trabalho foi explorada apenas para obter estimativas mais precisas de incidência
de 12 tipos de cânceres no estado de São Paulo. Uma consequência não examinada é a possibilidade de
que uma estrutura mais esparsa possa aproximar razoavelmente bem toda a variabilidade presente nas
taxas de mais de uma centena de cânceres. Se tal consequência for um fato empiricamente vericável,
poderemos estar diante de uma descoberta, via mineração de dados, que pode ter grande signicância
epidemiológica.
Em vez de serem estudados individualmente, os cânceres poderão ser vistos como
instâncias combinadas de poucos fatores latentes, não observáveis diretamente. Esta é a motivação
deste artigo.
Neste trabalho, introduzimos a hipótese de que a variação geográca de todos os cânceres, mesmo
aqueles de regiões muito distintas e pouco conectadas do corpo, pode ser explicada pela combinação
apropriada de poucos padrões geográcos latentes.
Com base na revisão bibliográca realizada, é
desconhecida a existência de algum trabalho que tenha investigado ou até mesmo sugerido tal hipótese.
Com a validação dessa hipótese, esperamos que epidemiólogos possam concentrar seus esforços sobre
poucos padrões geográcos, como também descobrir similaridades e diferenças na distribuição espacial
dos cânceres.
Neste trabalho, utilizamos uma técnica de aproximação por matrizes de baixo posto
(low-rank approximation, em inglês) para decompor a matriz de incidência relativa de novos casos dos
cânceres em uma soma de fatores. Concluímos que a imensa maioria dos cânceres pode ser explicada
considerando apenas um número reduzido de tais fatores.
2.
METODOLOGIA E DADOS
Considere uma região geográca particionada em
as taxas de incidência (ou mortalidade) das
n
n
áreas menores.
Seja
unidades geográcas para
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
X
p
uma matriz
n×p
com
diferentes cânceres.
A
·
Quantos mapas existem de fato? Minerando o atlas de incidência de câncer
y
taxa bruta é obtida pela razão entre o número de novos casos (ou mortes)
3
e uma estimativa do
número de pessoas-ano sob risco na área em um certo período de tempo, possivelmente multiplicada
por uma constante tal como 100 mil. Nossa hipótese é que cada mapa pode ser representado de forma
aproximada por uma combinação de alguns poucos mapas representando fatores latentes.
Nosso
objetivo é minerar os dados para vericar se existe evidência empírica da validade desta hipótese,
deixando para um segundo momento, em conjunto com especialistas em epidemiologia do câncer, uma
atribuição semântica a esses fatores.
Vamos aproximar a matriz
X
por uma soma de poucas matrizes
A1 , . . . , Ak ,
cada uma com posto
1, da seguinte forma:
X ≈ Xk =
k
X
Ai =
i=1
em que
k
k
X
σi ui vit
é um inteiro relativamente pequeno comparado com o número
uma sequência de constantes decrescentes e os vetores-coluna
p,
(1)
i=1
ui
e
vi
p
de cânceres,
σi > 0
forma
possuem dimensão iguais a
n
e
respectivamente. Para obter esta aproximação, vamos usar o teorema da Decomposição do Valor
Singular (SVD) que garante, para
n×n
e
p×n
X
de posto
n < p,
a existência de matrizes
U
e
V,
de dimensões
respectivamente, tais que
X = USVt
S é uma matriz diagonal n × n com elementos σi > 0 [Poole 2010]. As colunas ui da matriz
U são os n autovetores ortonormais da matriz simétrica e semi-denida positiva XXt , enquanto as
n colunas vi da matriz V são os n autovetores ortonormais associados com os maiores autovalores
t
da matriz simétrica e semi-denida positiva X X. Os elementos na diagonal da matriz S são a raiz
t
t
quadrada dos p autovalores da matriz XX , que coincidem com os p maiores autovalores de X X.
em que
A importância da decomposição em valores singulares para a mineração de dados é que ela ordena
a informação contida numa matriz numérica
X
arbitrária tanto em termos da base ortonormal dos
autovetores que geram o espaço-linha da matriz quanto em termos da base que gera o espaço-coluna
X.
de
Os autovetores dessas duas bases são ordenados em função dos autovalores comuns
matrizes de produtos cruzados (ou covariâncias empíricas) dadas por
XXt
e
Xt X.
σi
das
Quando estes
autovalores possuem uma quebra natural, com alguns poucos elementos relativamente grandes e os
demais relativamente próximos de zero, estamos na situação ideal de redução de informação.
variabilidade presente em
A
X é bem aproximada pelos poucos primeiros autovetores na forma expressa
em (1).
A aproximação SVD em (1) implica que a
j -ésima
coluna
xj
da matriz
X,
associada com o
j -ésimo
câncer, pode ser escrita, aproximadamente, como
xj ≈ σ1 v1 [j] ∗ u1 + . . . + σk vk [j] ∗ uk
(2)
v1 [j], . . . , vk [j] são as coordenadas j dos vetores v1 , . . . , vk , isto é, o padrão geográco xj
j é aproximadamente igual a uma combinação linear dos primeiros k padrões geográcos
embutidos nos vetores u1 , . . . , uk . Esses vetores serão chamados de fatores latentes ou tipos puros.
O peso de cada um destes k tipos puros para compor xj é dado pelo produto entre o autovalor
σi e o componente j do autovetor vi correspondente, com i = 1, . . . , k . Podemos interpretar o
modelo dizendo que existem apenas k diferentes mapas latentes (ou tipos puros) e que cada um dos p
em que
do câncer
cânceres é obtido como uma combinação linear desses tipos puros mais um pequeno ruído aleatório.
Se nosso modelo for conrmado pelos dados, o estudo desses poucos tipos puros pode levar a insights
epidemiológicos inovadores.
2.1
Instabilidade estocástica
Nossa intenção é trabalhar com atlas com a maior resolução geográca possível. Isto signica trabalhar
com condados (counties, em inglês) no atlas americano ou municípios no atlas brasileiro. Entretanto,
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
·
4
M. Fernandes and R. Lopes and R. Assunção
essa decisão traz grandes diculdades para a mineração apropriada dos mapas e exige um modelo
probabilístico muito mais sosticado do que o que estamos apresentando aqui.
Na verdade, nosso
modelo de análise não envolve nenhuma estrutura estocástica, mas uma modelagem probabilística
é inevitável se lidarmos com áreas muito pequenas.
O motivo é que, sendo a morte por um tipo
especíco de câncer um evento relativamente raro, as taxas de mortalidade em pequenas áreas são
muito instáveis, mesmo se calculadas usando períodos longos tais como 10 anos.
Nos EUA, por
exemplo, mais de 50% dos cânceres tiveram mais de 50% dos seus condados com zero mortes em um
período de 10 anos implicando numa taxa igual a zero para todas estas áreas.
Ao mesmo tempo,
a ocorrência de apenas uma morte casual numa área com pequena população faz com que sua taxa
dispare para níveis absurdamente altos.
A solução para esse problema é a adoção de modelos estocásticos sosticados que levem em conta
a natureza aleatória das contagens das mortes eventuais que vão compor o numerador das taxas.
Neste artigo, procuramos amenizar este problema usando duas estratégias. A primeira consiste em
considerar áreas geográcas maiores, com maiores populações e portanto com maior estabilidade nas
suas taxas.
estados.
Em nossa aplicação, isso nos levou a considerar os dados dos EUA dividido nos seus
A segunda, por sua vez, consiste em usar o método bayesiano empírico para construir as
taxas das áreas, amortecendo, então, o problema da alta varibilidade das taxas de eventos raros.
2.2
Taxa Bayesiana Empírica
Seja
yij
o número de casos novos do câncer
j
nij θij ,
distribuição Poisson com valor esperado
mínima variância do parâmetro
assume que os parâmetros
θij ,
θij .
para
i e nij o
pij = yij /nij .
na área
A taxa bruta per capita é denida pela razão
número de pessoas-ano correspondente.
Assumindo que a contagem
a taxa bruta
pij
yij
possui
é uma estimativa não-viciada de
Uma estimativa melhor, em termos do erro médio quadrático,
j
xo, sejam variáveis aleatórias independentes e identicamente
distribuídas com uma distribuição a priori com esperança
mj
e variância
Vj .
O melhor estimador
linear Bayesiano empírico [Leyland and Davies 2005] é dado por
Vj (pij − mj )
.
θbij = mj +
Vj + mj /ni j
Pmj e Vj
i nij e
Na abordagem Bayesiana empírica, os valores de
estimativas empíricas dadas por
mj =
Vj =
Esta estimativa
θbij
P
i yij /
(3)
da distribuição a priori são substituídos por
X nij (pij − mj )2
mj
P
−P
n
i ij
i nij /n
i
é também chamada de estimativa de contração (shrinkage estimate, em inglês) e é
muito menos sujeita a utuações casuais não associadas com o risco subjacente na área i, especialmente
se
nij
2.3
é pequeno.
Taxas de Incidência Relativas
Os cânceres possuem taxas de incidência muito diferentes. Enquanto alguns são muito comuns (como
o câncer de pulmão), outros são bem mais raros (como o câncer de cérebro). Trabalhar diretamente
com a matriz de taxas de incidência
θbij
torna os autovetores e autovalores da decomposição em valores
singulares altamente dependente dessa escala que afeta apenas o nível geral, ou absoluto, da incidência
de cada câncer. Como estamos interessados na varição espacial relativa, padronizamos os dados usando
as taxas de incidência relativas. Isto é, o valor
θbij
é dividido pelo valor
mj .
Dessa forma, a distribuição
dos valores continua a mesma mas os valores passam o a oscilar em torno de 1. A interpretação é
bastante simples: um valor de 1,5, por exemplo, signica que a taxa em determinada localidade é 50%
maior que a taxa global daquele câncer. Nas seções seguintes, utiliza-se a mesma notação,
essa taxa padronizada.
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
θbij ,
para
Quantos mapas existem de fato? Minerando o atlas de incidência de câncer
3.
·
5
DADOS UTILIZADOS
Para vericação de nossa hipótese, utilizamos os dados de incidência de câncer no período de 1999
a 2010 nos Estados Unidos.
Prevention (CDC)
1
Os dados foram obtidos na página do Center for Disease Control and
, junto com os dados de população residente. Utilizamos apenas os estados ame-
ricanos localizados na parte continental daquele país, totalizando 48 estados. A base de dados não
possui informações sobre o estado de Minnesota. Por uma questão de simplicação, cometeremos um
abuso de linguagem e denominaremos o tipo de câncer e o segmento populacional associado como
câncer.
Obtivemos inicialmente 81 tipos de câncer, separados por sexo e raça (brancos e negros),
totalizando 306 cânceres. Alguns cânceres são tão raros que não tiveram ocorrência alguma em vários estados durante todo o período. Na verdade, para presevar o sigilo, o CDC não fornece dados
nos estados em que o número total de casos no período é menor que 16. Decidimos, então, eliminar
os cânceres com pelo menos 2 estados com valores faltantes, imputando o valor médio nacional nas
situações restantes. Com essas restrições, camos com um total de 116 cânceres dos quais apenas 1
referia-se à população de negros. Para manter a análise mais consistente, optamos por remover este
câncer terminando, então, com 115 cânceres entre homens e mulheres brancos.
4.
RESULTADOS
Sob a hipótese inicial em que cada câncer está associado com um único fator latente, zemos uma
classicação não-supervisionada da matriz
X
de dimensão
48 × 115
com as taxas de incidência pa-
dronizadas a m de determinar cada agrupamento e seu respectivo tipo puro, correspondendo, por
exemplo, ao centróide. Usamos as colunas como itens, criando agrupamentos dos 115 cânceres. Essa
hipótese inicial foi refutada, uma vez que não foi possível identicar, por meio de métricas de similaridade e análise visual, um número pequeno de agrupamentos bem denidos e claramente separados
ao utilizar técnicas usuais (k-means, aglomeração hierárquica entre outros).
A seguir, procuramos
encontrar evidências de que os cânceres são combinações de poucos tipos puros, nossa hipótese neste
artigo.
Considerando a decomposição SVD, a Tabela I apresenta dados relativos aos 10 primeiros valores
singulares (dentre os 48 obtidos) ordenados em ordem decrescente. Nas linhas 2 e 3, apresentamos
respectivamente o valor singular e a porcentagem acumulada de variabilidade nos dados explicada
considerando os
k
primeiros valores singulares.
O primeiro valor singular é dominante em relação
aos demais e, sozinho, responde por 56,51% da variabilidade nos dados. A partir do segundo valor
singular, observa-se um decaimento lento do valor singular e um suave crescimento na porcentagem
da variabilidade explicada.
Table I: Valores singulares e porcentagem de variabilidade dos dados explicada considerando os k primeiros valores
singulares.
k
valor singular
% variabilidade
1
74.99
56.51
2
6.24
61.21
3
4.50
64.60
4
4.02
67.63
5
3.19
70.03
6
2.62
72.01
7
2.07
73.57
8
1.97
75.06
9
1.91
76.49
10
1.82
77.87
É possível que nosso modelo seja um excelente ajuste para todos os cânceres exceto alguns poucos
cânceres discrepantes. Assim, a representação esparsa dada pela aproximação (1) pode requerer um
valor de
k
bastante pequeno se não exigirmos um bom ajuste para todos os cânceres. A m de avaliar
a qualidade da aproximação de cada câncer, comparamos a coluna
j
da matrix
X
com a coluna
1 http://wonder.cdc.gov/
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
·
6
M. Fernandes and R. Lopes and R. Assunção
correspondente da matrix aproximada
Xk ,
(k)
Dj
tomando como métrica o erro médio absoluto:
=
n
X
|Xij − Xk,ij |/n
i=1
Uma vez que os valores
Xij
variam em torno de 1.0 e variações na primeira casa decimal já possuem
um impacto considerável, considera-se um câncer como mal aproximado se o seu erro médio absoluto
(k)
Dj
for maior ou igual a 0.1, ou 10% do valor típico em
X.
A Tabela II apresenta o número de cânce-
res mal aproximados em função do número de valores singulares considerados para a aproximação. Há
uma queda considerável no número de cânceres mal aproximados ao considerar 3 valores singulares.
A partir de 4 valores singulares, há uma lenta queda do número de cânceres mal aproximados, de
modo que não encontramos câncer mal explicado considerando treze ou mais valores singulares. A
aproximação obtida ao considerar um número de valores singulares entre 6 e 13 se mostrou razoável
com base na métrica adotada. Por exemplo, considerando apenas 6 valores singulares, tivemos 105
dentre 115 (ou 91%) cânceres bem aproximados. Os 10 cânceres que não se ajustaram bem a este
modelo esparso foram os seguintes:
i) Aleukemic, Subleukemic and NOS, ii) Chronic Lymphocytic
Leukemia Male White, iii) Hypopharynx Male White, iv) Male Breast Male White, v) Mesothelioma
Male White, vi) Other Female Genital Organs Female White, vii) Other Non-Epithelial Skin Male
White, viii) Peritoneum, Omentum and Mesentery Female White, ix) Thyroid Female White, x) Uterus, NOS Female White. Esses cânceres podem ser vistos como outliers em relação ao modelo adotado
neste trabalho, e, então, consideramos que o uso de 6 fatores latentes seja apropriado para explicar a
variação geográca da grande maioria dos cânceres considerados.
Table II: Número de cânceres mal aproximados em função do número de valores singulares considerados.
# valores singulares
# mal aproximados
1
49
2
46
3
28
4
18
5
15
6
10
7
8
8
5
9
4
10
2
11
2
12
1
≥ 13
0
A Figura 1 apresenta o logaritmo do módulo dos pesos associados com nove (dentre os dez primeiros) fatores latentes para os cânceres considerados. Não apresentamos o peso associado ao primeiro
fator latente, pois este é dominante e possui um valor uniformemente alto em todos os cânceres. O
j é apresentado no eixo horizontal e o índice do fator latente i é apresentado no eixo
j = 1, . . . , 115 e i = 2, . . . , 10. Na posição (i, j), apresenta-se um círculo cuja área
a log(|σk vk [j]|), isto é, o logaritmo do módulo do peso do tipo puro correspondente,
índice do câncer
vertical, em que
é proporcional
conforme apresentado em (2). Desse modo, quanto maior a área do círculo, maior o valor referente ao
fator latente
i no câncer j .
Pode-se observar que os fatores latentes, em sua maioria, apresentam pren-
dominantemente valores em tons de azul, com exceção para alguns cânceres. Os seis primeiros fatores
latentes apresentam maior variação visual dos valores associados ao longo dos cânceres, especialmente
nos fatores latentes de número três e quatro.
A Figura 2 apresenta os seis primeiros fatores latentes em forma de mapa. Conforme apresentado
na legenda, os estados são coloridos em tons que variam de azul, representando valores baixos, a
vermelho, representando valores altos. O primeiro tipo puro apresenta um contraste entre as regiões
leste e oeste, de modo que a região central apresenta a suave transição entre essas duas. O segundo
fator latente apresenta um contraste entre a região central e as duas costas. O terceiro fator latente
apresenta um contraste das regiões centro-sul e sudeste com as demais regiões. O quarto fator latente,
por sua vez, apresenta um contraste entre das regiões centro-norte e nordeste com as demais regiões. O
quinto fator latente não apresenta um padrão geográco visualmente observável. Por m, o sexto fator
latente apresenta um contraste entre das regiões sul e sudoeste com as demais regiões. É importante
ressaltar que o estado em cinza na região norte corresponde ao estado de Minnesota, para o qual não
havia dados disponíveis.
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
Quantos mapas existem de fato? Minerando o atlas de incidência de câncer
10
●
● ● ●●● ● ● ● ●●● ● ● ● ●
● ● ● ● ●●●●● ● ●
●●
●
● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ●●● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●●● ● ●●●●● ● ●● ● ●●● ● ●●●●●● ● ● ●
●
●
●
●
● ● ● ● ● ●●●●●●● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●●●●●● ●
●
● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●●●●●● ● ● ●● ● ● ●
●
Log do Valor
Absoluto
dos Pesos
● (−9,−8]
● (−8,−7]
● (−7,−6]
● (−6,−5]
● (−5,−4]
● (−4,−3]
● (−3,−2]
● (−2,−1]
● (−1,0]
● (0,1]
● (1,2]
●●●● ●●●● ● ● ● ● ● ● ● ●●● ● ●
●●● ● ●●● ●●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●●●● ●
●
●●● ● ● ● ●●● ● ●● ● ● ● ● ●● ● ●●●●●●●● ● ● ●●● ●● ● ● ● ● ● ●●● ● ●●●● ● ●●●●● ● ●●● ● ● ● ●
6
●
●
●
●
●
●
7
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●●●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●●● ● ● ● ● ● ●● ● ●●● ●
8
Fator Latente
●
●
·
●
●
●● ● ● ●● ● ●● ● ● ●
● ● ● ● ●● ●●● ● ● ● ● ● ● ●●●●● ● ● ● ● ●●● ● ● ● ● ●●● ● ●● ● ●●●● ● ●
●
●●●● ●
● ●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●●●●● ● ● ● ● ● ● ●● ● ●●●●●●● ● ●●●●●●● ● ● ● ● ● ● ● ●●●● ● ● ● ● ●●● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ●●●●● ● ● ●●●●●●
−8
−6
−4
● −2
●0
●
●●● ●●●●● ●●●●●●●●●●●●● ●●●●●●●●● ● ●● ● ● ●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●● ● ●●●●●●● ● ● ● ● ●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●
4
●
●
●● ● ●●●●●● ●●●● ● ● ● ● ●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●● ● ● ● ●● ● ●●●●●●● ● ● ●●●●● ● ● ●●●●● ●●●● ● ●●●●●●●●●● ● ● ●●●●●●
●● ●
2
●
●● ●● ● ● ● ● ● ● ● ● ● ● ●●●●●● ●●●● ● ●●●●●● ●●●●●●●●● ● ● ●● ● ●●●●●●●●●●● ● ●● ● ● ● ● ● ● ●●●●●●●● ● ● ● ●●●●● ●● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ● ● ●● ●●●●● ● ●
0
30
60
Cancer
90
120
Fig. 1: Logaritmo do módulo dos pesos associados com nove fatores latentes para os cânceres considerados.
Fator Latente 1
Fator Latente 2
Valor
Valor
−0.10
0.2
−0.12
0.0
−0.14
−0.2
−0.16
−0.4
Fator Latente 3
Fator Latente 4
Valor
Valor
0.3
0.2
0.1
0.0
−0.1
−0.2
0.2
0.1
0.0
−0.1
−0.2
−0.3
Fator Latente 5
Fator Latente 6
Valor
Valor
0.3
0.2
0.1
0.0
−0.1
−0.2
−0.3
0.2
0.1
0.0
−0.1
−0.2
−0.3
Fig. 2: Mapa dos seis primeiros fatores latentes.
5.
CONCLUSÃO
Câncer é o nome dado a um conjunto de mais de 100 doenças que têm em comum o crescimento desordenado de células que invadem tecidos e órgãos. Devido ao envelhecimento da população na maioria
dos países, o câncer é uma causa de morte cada vez mais prevalente.
O câncer é mais recorrente
em idosos por causa do envelhecimento das células e da falta de proteção hormonal, características
da idade avançada. Devido à sua importância na saúde das populações, uma imensa quantidade de
recursos tem sido devotados ao seu estudo. A maioria desses estudos considera cânceres isoladamente,
como se cada um deles fosse uma entidade separada.
Minerando os dados de atlas de incidênica,
nós procuramos encontrar fatores latentes, não diretamente observáveis, que expliquem a variabili-
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.
8
·
M. Fernandes and R. Lopes and R. Assunção
dade observada neste grande conjunto de doenças. De forma um tanto surpreendente, nós, de fato,
encontramos evidência considerável a favor de um modelo simples em que poucos fatores latentes conseguem reproduzir a enorme variabilidade geográca observada na incidência de mais de uma centena
de cânceres.
Este foi o primeiro passo de nossa pesquisa.
em várias direções.
Nós precisamos agora considerar a sua extensão
De um lado, precisamos vericar se este modelo da fatores latentes ajusta-se
aos dados de outros países, por exemplo, Brasil. Outra direção mais desaadora será a necessidade
de aumentar o nível de resolução geográca, trabalhando com unidades geográcas bem menores
que aqueles considerados neste artigo. No caso dos EUA, queremos trabalhar com os mais de 5000
condados em que o país é dividido. No caso do Brasil, queremos analisar os dados dos mais de 5000
municípios existentes atualmente. Isso vai evitar tratar regiões enormes, tais como o estado do Texas,
como uma unidade espacialmente homogênea.
Ao mesmo tempo, será inevitável desenvolver um
modelo estocástico para lidar com a enorme variância aleatória, não associada com o risco subjacente,
que afeta as taxas de pequenas áreas.
A direção mais promissora, no entanto, é aquela em que os
poucos tipos puros encontrados na nossa análise sirvam como indicadores de fatores ambientais ou de
composição populacional que possam explicar simultaneamente a variabilidade da maioria dos mais de
cem cânceres existentes. Esta análise precisa ser feita em parceria com especialistas em epidemiologia
do câncer.
Se bem sucedida, ela pode ser uma importante contribuição da mineração de dados,
atendendo ao chamado de se fazer Data Mining for Social Good.
REFERENCES
ACS.
Current investment by areas of research. www.cancer.org/research/currentlyfundedcancerresearch/
investment-by-research-areas, 2014. [Online; acessado em 4 de julho de 2014].
Assunção, R. M. and Castro, M. S. Multiple cancer sites incidence rates estimation using a multivariate bayesian
model. International Journal of Epidemioliogy 33 (3): 508516, 2004.
Dabney, A. R. and Wakefield, J. C. Issues in the mapping of two diseases. Statistical Methods in Medical
Research vol. 14, pp. 83112, 2005.
Downing, A., Forman, D., Gilthorpe, M. S., Procter, K., and Manda, S. O. M. Joint disease mapping using
six cancers in the Yorkshire region of England. International Journal of Health Geographics vol. 7, pp. 741, 2008.
Held, L., Natário, I., Fenton, S. E., Rue, H. v., and Becker, N. Towards joint disease mapping. Statistical
Methods in Medical Research 14 (1): 6182, 2005.
Hoover, R. N. and Strasser, P. H. Articial sweeteners and human bladder cancer: preliminary results. The
Lancet 315 (8173): 837841, 1980.
Knorr-Held, L. and Best, N. G. A shared component model for detecting joint and selective clustering of two
diseases. Journal of the Royal Statistical Society Series A 164 (1): 7385, 2001.
Leyland, A. H. and Davies, C. A. Empirical bayes methods for disease mapping. Statistical Methods in Medical
Research 14 (1): 1734, 2005.
Mason, T. J. The development of the series of u.s. cancer atlases: implications for the future epidemiologic research.
Statistics in Medicine vol. 14, pp. 473479, 1995.
NCI. Cancer research funding. /www.cancer.gov/cancertopics/factsheet/NCI/research-funding, 2014. [Online;
acessado em 4 de julho de 2014].
Pickle, L., Greene, M., Ziegler, R., Toledo, A., Hoover, R., Lynch, H., and Fraumeni, J. J. Colorectal
cancer in rural nebraska. Cancer Research 44 (1): 363369, 1984.
Poole, D. Linear Algebra: A Modern Introduction. Cengage Learning, 2010.
Society, A. C. Cancer facts & gures 2014. Tech. rep., American Cancer Society, 2014.
Winn, D. M., Blot, W. J., Shy, C. M., Pickle, L. W., Toledo, A., and Fraumeni Jr., J. F. Snu dipping
and oral cancer among women in the southern united states. New England Journal of Medicine 304 (13): 745749,
1981.
Ziegler, R. G., Mason, T. J., Stemhagen, A., Hoover, R., Schoenberg, J. B., Gridley, G., Virgo, P. W.,
Altman, R., and Fraumeni Jr., J. F. Dietary carotene and vitamin a and risk of lung cancer among white men
in new jersey. Journal of the National Cancer Institute 73 (6): 14291435, 1984.
Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.