Quantos mapas existem de fato? Minerando o atlas de incidência de câncer Maurício Fernandes, Ramon Lopes, Renato Assunção Universidade Federal de Minas Gerais, Brasil [email protected], [email protected], [email protected] Abstract. Câncer é a segunda principal causa de morte na maioria dos países mais desenvolvidos e em vários em desenvolvimento, incluindo o Brasil. O padrão geográco da ocorrência de câncer é analisado na forma de atlas, que mostra a distribuição geográca de mais de uma centena de diferentes cânceres. Esses padrões geográcos são estudados isoladamente por epidemiólogos em busca de fatores etiológicos e de risco para cada câncer individual. Neste trabalho, utilizamos técnicas de mineração de dados para encontrar fatores latentes sob a hipótese de que a distribuição espacial do risco de cada câncer pode ser explicada como uma combinação linear de tais fatores. Encontramos evidências de que há uma imensa comunalidade na maioria dos cânceres, mesmo aqueles em regiões muito distintas e pouco conectadas do corpo, de modo que 105 dentre os 115 tipos de cânceres considerados permaneceram bem explicados, com base na métrica adotada, ao considerar 6 fatores latentes. Esse fato pode indicar uma nova linha de investigação para a epidemiologia do câncer que, em vez de estudar cada um dos cânceres de forma separada, pode se concentrar no estudo dos poucos fatores latentes que geram todos os cânceres. Categories and Subject Descriptors: H.2.8 [Database Learning; J.3 [Life and Medical Sciences]: Health Applications]: Data mining; I.2.6 [Articial Intelligence]: Keywords: análise espacial, epidemiologia espacial, mapeamento de doenças, fatores latentes 1. INTRODUÇÃO Nos últimos anos, têm-se assistido às transformações que a ciência de dados (data science, em inglês) está promovendo em diversos setores da sociedade. Uma das maiores conferências na área de mineração e ciência de dados, KDD, adotou como tema especial da edição de 2014 Data Mining for Social Good com o objetivo de chamar a atenção da comunidade cientíca e de organizações para trabalhos que contribuem para o bem social. Dentro desse contexto, nesta edição do evento, haverá um tutorial sobre epidemiologia computacional, que tem emergido como uma importante área de pesquisa. Nosso trabalho orienta-se nessa direção e tem seu foco no câncer, um dos maiores problemas de saúde do mundo. Estima-se que para o ano de 2014 nos Estados Unidos ocorrerão aproximadamente 1,5 milhão de novos casos e meio milhão de mortes devido ao câncer [Society 2014]. Esses números tornam o câncer a segunda maior causa de mortes entre americanos, superada apenas por doenças no coração, e responsável por uma a cada quatro mortes. No Brasil, o câncer também é a segunda causa de morte desde 2008, e estima-se a ocorrência de 577 mil novos casos para o ano de 2014. O câncer traz um grande prejuízo nanceiro. No ano de 2009, nos Estados Unidos, foram gastos US$217 bilhões, dos quais US$87 bilhões foram gastos diretos com despesas médicas e US$130 bilhões gastos indiretamente com mortes [Society 2014]. Devido à sua importância nas estatísticas de mortalidade, um volume expressivo de recursos é dirigido para a pesquisa sobre câncer. Por exemplo, o National Cancer Institute possui um orçamento médio anual de US$4,8 bilhões [NCI 2014]. A American Cancer Society, por sua vez, investiu uma quantia superior a US$119 milhões em 2012 [ACS The authors thank CNPq and FAPEMIG for partial support to their research. c 2012 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided that Copyright the copies are not made or distributed for commercial advantage, and that notice is given that copying is by permission of the Sociedade Brasileira de Computação. Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. 2 · M. Fernandes and R. Lopes and R. Assunção 2014]. Embora seja claro o mecanismo básico dessa doença, que consiste na proliferação desordenada de células, ainda luta-se para entender os fatores que tornam algumas pessoas mais predispostas à eclosão do câncer. A pesquisa epidemiológica sobre o câncer estuda os fatores de risco (ambientais, comportamentais e biológicos) associados com a incidência dessa doença, além de sua prevenção e estratégias de sobrevivência. Uma das ferramentas mais usadas por epidemiólogos é constituída pelos mapas de incidência ou mapas de mortalidade de câncer. Agências de saúde em países como Reino Unido, Estados Unidos e Brasil disponibilizam atlas contendo estatísticas e mapas de incidência ou de mortalidade dos diversos tipos de cânceres existentes. Nesses atlas, encontramos centenas de mapas, um para cada tipo de câncer e para cada segmento populacional, em geral, separados por sexo e raça. Em cada mapa, pequenas áreas, tais como municípios ou condados, são coloridas de acordo com as suas taxas de mortalidade ou de incidência. Um dos principais objetivos da confecção desses atlas é exploratório. Espera-se que seu estudo sugira determinantes locais da doença e fatores etiológicos desconhecidos que possam ser formulados em termos de hipóteses a serem investigadas posteriormente. No trabalho apresentado em [Mason 1995], são listados vários estudos realizados para investigar os determinantes ambientais dos cânceres a partir da análise dos mapas de atlas. Estes estudos abrangem câncer oral [Winn et al. 1981], câncer de intestino [Pickle et al. 1984], câncer de pulmão [Ziegler et al. 1984] e, por m, câncer de bexiga [Hoover and Strasser 1980]. Estudos espaciais são quase sempre sobre cânceres individuais. Alguns estudos procuraram analisar o padrão geográco de mais de um câncer simultaneamente [Knorr-Held and Best 2001; Held et 2005; Dabney and Wakeeld 2005; Downing et al. al. 2008], mas esses trabalhos se limitaram a poucos cânceres (entre dois e quatro) cujos principais fatores de risco são sabidamente os mesmos. Por exemplo, os cânceres da cavidade oral, laringe, esôfago e pulmão são fortemente inuenciados pelo consumo de tabaco. O trabalho apresentado em [Assunção and Castro 2004] foi uma exceção ao vericar a correlação existente entre as taxas de incidência de cânceres muito distintos e aparentemente sem um fator causal comum. Por exemplo, a correlação entre as taxas de câncer de laringe masculino e o câncer de cólon feminino foi igual a 0, 56. A elevada correlação entre cânceres muito distintos encontrada naquele trabalho foi explorada apenas para obter estimativas mais precisas de incidência de 12 tipos de cânceres no estado de São Paulo. Uma consequência não examinada é a possibilidade de que uma estrutura mais esparsa possa aproximar razoavelmente bem toda a variabilidade presente nas taxas de mais de uma centena de cânceres. Se tal consequência for um fato empiricamente vericável, poderemos estar diante de uma descoberta, via mineração de dados, que pode ter grande signicância epidemiológica. Em vez de serem estudados individualmente, os cânceres poderão ser vistos como instâncias combinadas de poucos fatores latentes, não observáveis diretamente. Esta é a motivação deste artigo. Neste trabalho, introduzimos a hipótese de que a variação geográca de todos os cânceres, mesmo aqueles de regiões muito distintas e pouco conectadas do corpo, pode ser explicada pela combinação apropriada de poucos padrões geográcos latentes. Com base na revisão bibliográca realizada, é desconhecida a existência de algum trabalho que tenha investigado ou até mesmo sugerido tal hipótese. Com a validação dessa hipótese, esperamos que epidemiólogos possam concentrar seus esforços sobre poucos padrões geográcos, como também descobrir similaridades e diferenças na distribuição espacial dos cânceres. Neste trabalho, utilizamos uma técnica de aproximação por matrizes de baixo posto (low-rank approximation, em inglês) para decompor a matriz de incidência relativa de novos casos dos cânceres em uma soma de fatores. Concluímos que a imensa maioria dos cânceres pode ser explicada considerando apenas um número reduzido de tais fatores. 2. METODOLOGIA E DADOS Considere uma região geográca particionada em as taxas de incidência (ou mortalidade) das n n áreas menores. Seja unidades geográcas para Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. X p uma matriz n×p com diferentes cânceres. A · Quantos mapas existem de fato? Minerando o atlas de incidência de câncer y taxa bruta é obtida pela razão entre o número de novos casos (ou mortes) 3 e uma estimativa do número de pessoas-ano sob risco na área em um certo período de tempo, possivelmente multiplicada por uma constante tal como 100 mil. Nossa hipótese é que cada mapa pode ser representado de forma aproximada por uma combinação de alguns poucos mapas representando fatores latentes. Nosso objetivo é minerar os dados para vericar se existe evidência empírica da validade desta hipótese, deixando para um segundo momento, em conjunto com especialistas em epidemiologia do câncer, uma atribuição semântica a esses fatores. Vamos aproximar a matriz X por uma soma de poucas matrizes A1 , . . . , Ak , cada uma com posto 1, da seguinte forma: X ≈ Xk = k X Ai = i=1 em que k k X σi ui vit é um inteiro relativamente pequeno comparado com o número uma sequência de constantes decrescentes e os vetores-coluna p, (1) i=1 ui e vi p de cânceres, σi > 0 forma possuem dimensão iguais a n e respectivamente. Para obter esta aproximação, vamos usar o teorema da Decomposição do Valor Singular (SVD) que garante, para n×n e p×n X de posto n < p, a existência de matrizes U e V, de dimensões respectivamente, tais que X = USVt S é uma matriz diagonal n × n com elementos σi > 0 [Poole 2010]. As colunas ui da matriz U são os n autovetores ortonormais da matriz simétrica e semi-denida positiva XXt , enquanto as n colunas vi da matriz V são os n autovetores ortonormais associados com os maiores autovalores t da matriz simétrica e semi-denida positiva X X. Os elementos na diagonal da matriz S são a raiz t t quadrada dos p autovalores da matriz XX , que coincidem com os p maiores autovalores de X X. em que A importância da decomposição em valores singulares para a mineração de dados é que ela ordena a informação contida numa matriz numérica X arbitrária tanto em termos da base ortonormal dos autovetores que geram o espaço-linha da matriz quanto em termos da base que gera o espaço-coluna X. de Os autovetores dessas duas bases são ordenados em função dos autovalores comuns matrizes de produtos cruzados (ou covariâncias empíricas) dadas por XXt e Xt X. σi das Quando estes autovalores possuem uma quebra natural, com alguns poucos elementos relativamente grandes e os demais relativamente próximos de zero, estamos na situação ideal de redução de informação. variabilidade presente em A X é bem aproximada pelos poucos primeiros autovetores na forma expressa em (1). A aproximação SVD em (1) implica que a j -ésima coluna xj da matriz X, associada com o j -ésimo câncer, pode ser escrita, aproximadamente, como xj ≈ σ1 v1 [j] ∗ u1 + . . . + σk vk [j] ∗ uk (2) v1 [j], . . . , vk [j] são as coordenadas j dos vetores v1 , . . . , vk , isto é, o padrão geográco xj j é aproximadamente igual a uma combinação linear dos primeiros k padrões geográcos embutidos nos vetores u1 , . . . , uk . Esses vetores serão chamados de fatores latentes ou tipos puros. O peso de cada um destes k tipos puros para compor xj é dado pelo produto entre o autovalor σi e o componente j do autovetor vi correspondente, com i = 1, . . . , k . Podemos interpretar o modelo dizendo que existem apenas k diferentes mapas latentes (ou tipos puros) e que cada um dos p em que do câncer cânceres é obtido como uma combinação linear desses tipos puros mais um pequeno ruído aleatório. Se nosso modelo for conrmado pelos dados, o estudo desses poucos tipos puros pode levar a insights epidemiológicos inovadores. 2.1 Instabilidade estocástica Nossa intenção é trabalhar com atlas com a maior resolução geográca possível. Isto signica trabalhar com condados (counties, em inglês) no atlas americano ou municípios no atlas brasileiro. Entretanto, Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. · 4 M. Fernandes and R. Lopes and R. Assunção essa decisão traz grandes diculdades para a mineração apropriada dos mapas e exige um modelo probabilístico muito mais sosticado do que o que estamos apresentando aqui. Na verdade, nosso modelo de análise não envolve nenhuma estrutura estocástica, mas uma modelagem probabilística é inevitável se lidarmos com áreas muito pequenas. O motivo é que, sendo a morte por um tipo especíco de câncer um evento relativamente raro, as taxas de mortalidade em pequenas áreas são muito instáveis, mesmo se calculadas usando períodos longos tais como 10 anos. Nos EUA, por exemplo, mais de 50% dos cânceres tiveram mais de 50% dos seus condados com zero mortes em um período de 10 anos implicando numa taxa igual a zero para todas estas áreas. Ao mesmo tempo, a ocorrência de apenas uma morte casual numa área com pequena população faz com que sua taxa dispare para níveis absurdamente altos. A solução para esse problema é a adoção de modelos estocásticos sosticados que levem em conta a natureza aleatória das contagens das mortes eventuais que vão compor o numerador das taxas. Neste artigo, procuramos amenizar este problema usando duas estratégias. A primeira consiste em considerar áreas geográcas maiores, com maiores populações e portanto com maior estabilidade nas suas taxas. estados. Em nossa aplicação, isso nos levou a considerar os dados dos EUA dividido nos seus A segunda, por sua vez, consiste em usar o método bayesiano empírico para construir as taxas das áreas, amortecendo, então, o problema da alta varibilidade das taxas de eventos raros. 2.2 Taxa Bayesiana Empírica Seja yij o número de casos novos do câncer j nij θij , distribuição Poisson com valor esperado mínima variância do parâmetro assume que os parâmetros θij , θij . para i e nij o pij = yij /nij . na área A taxa bruta per capita é denida pela razão número de pessoas-ano correspondente. Assumindo que a contagem a taxa bruta pij yij possui é uma estimativa não-viciada de Uma estimativa melhor, em termos do erro médio quadrático, j xo, sejam variáveis aleatórias independentes e identicamente distribuídas com uma distribuição a priori com esperança mj e variância Vj . O melhor estimador linear Bayesiano empírico [Leyland and Davies 2005] é dado por Vj (pij − mj ) . θbij = mj + Vj + mj /ni j Pmj e Vj i nij e Na abordagem Bayesiana empírica, os valores de estimativas empíricas dadas por mj = Vj = Esta estimativa θbij P i yij / (3) da distribuição a priori são substituídos por X nij (pij − mj )2 mj P −P n i ij i nij /n i é também chamada de estimativa de contração (shrinkage estimate, em inglês) e é muito menos sujeita a utuações casuais não associadas com o risco subjacente na área i, especialmente se nij 2.3 é pequeno. Taxas de Incidência Relativas Os cânceres possuem taxas de incidência muito diferentes. Enquanto alguns são muito comuns (como o câncer de pulmão), outros são bem mais raros (como o câncer de cérebro). Trabalhar diretamente com a matriz de taxas de incidência θbij torna os autovetores e autovalores da decomposição em valores singulares altamente dependente dessa escala que afeta apenas o nível geral, ou absoluto, da incidência de cada câncer. Como estamos interessados na varição espacial relativa, padronizamos os dados usando as taxas de incidência relativas. Isto é, o valor θbij é dividido pelo valor mj . Dessa forma, a distribuição dos valores continua a mesma mas os valores passam o a oscilar em torno de 1. A interpretação é bastante simples: um valor de 1,5, por exemplo, signica que a taxa em determinada localidade é 50% maior que a taxa global daquele câncer. Nas seções seguintes, utiliza-se a mesma notação, essa taxa padronizada. Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. θbij , para Quantos mapas existem de fato? Minerando o atlas de incidência de câncer 3. · 5 DADOS UTILIZADOS Para vericação de nossa hipótese, utilizamos os dados de incidência de câncer no período de 1999 a 2010 nos Estados Unidos. Prevention (CDC) 1 Os dados foram obtidos na página do Center for Disease Control and , junto com os dados de população residente. Utilizamos apenas os estados ame- ricanos localizados na parte continental daquele país, totalizando 48 estados. A base de dados não possui informações sobre o estado de Minnesota. Por uma questão de simplicação, cometeremos um abuso de linguagem e denominaremos o tipo de câncer e o segmento populacional associado como câncer. Obtivemos inicialmente 81 tipos de câncer, separados por sexo e raça (brancos e negros), totalizando 306 cânceres. Alguns cânceres são tão raros que não tiveram ocorrência alguma em vários estados durante todo o período. Na verdade, para presevar o sigilo, o CDC não fornece dados nos estados em que o número total de casos no período é menor que 16. Decidimos, então, eliminar os cânceres com pelo menos 2 estados com valores faltantes, imputando o valor médio nacional nas situações restantes. Com essas restrições, camos com um total de 116 cânceres dos quais apenas 1 referia-se à população de negros. Para manter a análise mais consistente, optamos por remover este câncer terminando, então, com 115 cânceres entre homens e mulheres brancos. 4. RESULTADOS Sob a hipótese inicial em que cada câncer está associado com um único fator latente, zemos uma classicação não-supervisionada da matriz X de dimensão 48 × 115 com as taxas de incidência pa- dronizadas a m de determinar cada agrupamento e seu respectivo tipo puro, correspondendo, por exemplo, ao centróide. Usamos as colunas como itens, criando agrupamentos dos 115 cânceres. Essa hipótese inicial foi refutada, uma vez que não foi possível identicar, por meio de métricas de similaridade e análise visual, um número pequeno de agrupamentos bem denidos e claramente separados ao utilizar técnicas usuais (k-means, aglomeração hierárquica entre outros). A seguir, procuramos encontrar evidências de que os cânceres são combinações de poucos tipos puros, nossa hipótese neste artigo. Considerando a decomposição SVD, a Tabela I apresenta dados relativos aos 10 primeiros valores singulares (dentre os 48 obtidos) ordenados em ordem decrescente. Nas linhas 2 e 3, apresentamos respectivamente o valor singular e a porcentagem acumulada de variabilidade nos dados explicada considerando os k primeiros valores singulares. O primeiro valor singular é dominante em relação aos demais e, sozinho, responde por 56,51% da variabilidade nos dados. A partir do segundo valor singular, observa-se um decaimento lento do valor singular e um suave crescimento na porcentagem da variabilidade explicada. Table I: Valores singulares e porcentagem de variabilidade dos dados explicada considerando os k primeiros valores singulares. k valor singular % variabilidade 1 74.99 56.51 2 6.24 61.21 3 4.50 64.60 4 4.02 67.63 5 3.19 70.03 6 2.62 72.01 7 2.07 73.57 8 1.97 75.06 9 1.91 76.49 10 1.82 77.87 É possível que nosso modelo seja um excelente ajuste para todos os cânceres exceto alguns poucos cânceres discrepantes. Assim, a representação esparsa dada pela aproximação (1) pode requerer um valor de k bastante pequeno se não exigirmos um bom ajuste para todos os cânceres. A m de avaliar a qualidade da aproximação de cada câncer, comparamos a coluna j da matrix X com a coluna 1 http://wonder.cdc.gov/ Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. · 6 M. Fernandes and R. Lopes and R. Assunção correspondente da matrix aproximada Xk , (k) Dj tomando como métrica o erro médio absoluto: = n X |Xij − Xk,ij |/n i=1 Uma vez que os valores Xij variam em torno de 1.0 e variações na primeira casa decimal já possuem um impacto considerável, considera-se um câncer como mal aproximado se o seu erro médio absoluto (k) Dj for maior ou igual a 0.1, ou 10% do valor típico em X. A Tabela II apresenta o número de cânce- res mal aproximados em função do número de valores singulares considerados para a aproximação. Há uma queda considerável no número de cânceres mal aproximados ao considerar 3 valores singulares. A partir de 4 valores singulares, há uma lenta queda do número de cânceres mal aproximados, de modo que não encontramos câncer mal explicado considerando treze ou mais valores singulares. A aproximação obtida ao considerar um número de valores singulares entre 6 e 13 se mostrou razoável com base na métrica adotada. Por exemplo, considerando apenas 6 valores singulares, tivemos 105 dentre 115 (ou 91%) cânceres bem aproximados. Os 10 cânceres que não se ajustaram bem a este modelo esparso foram os seguintes: i) Aleukemic, Subleukemic and NOS, ii) Chronic Lymphocytic Leukemia Male White, iii) Hypopharynx Male White, iv) Male Breast Male White, v) Mesothelioma Male White, vi) Other Female Genital Organs Female White, vii) Other Non-Epithelial Skin Male White, viii) Peritoneum, Omentum and Mesentery Female White, ix) Thyroid Female White, x) Uterus, NOS Female White. Esses cânceres podem ser vistos como outliers em relação ao modelo adotado neste trabalho, e, então, consideramos que o uso de 6 fatores latentes seja apropriado para explicar a variação geográca da grande maioria dos cânceres considerados. Table II: Número de cânceres mal aproximados em função do número de valores singulares considerados. # valores singulares # mal aproximados 1 49 2 46 3 28 4 18 5 15 6 10 7 8 8 5 9 4 10 2 11 2 12 1 ≥ 13 0 A Figura 1 apresenta o logaritmo do módulo dos pesos associados com nove (dentre os dez primeiros) fatores latentes para os cânceres considerados. Não apresentamos o peso associado ao primeiro fator latente, pois este é dominante e possui um valor uniformemente alto em todos os cânceres. O j é apresentado no eixo horizontal e o índice do fator latente i é apresentado no eixo j = 1, . . . , 115 e i = 2, . . . , 10. Na posição (i, j), apresenta-se um círculo cuja área a log(|σk vk [j]|), isto é, o logaritmo do módulo do peso do tipo puro correspondente, índice do câncer vertical, em que é proporcional conforme apresentado em (2). Desse modo, quanto maior a área do círculo, maior o valor referente ao fator latente i no câncer j . Pode-se observar que os fatores latentes, em sua maioria, apresentam pren- dominantemente valores em tons de azul, com exceção para alguns cânceres. Os seis primeiros fatores latentes apresentam maior variação visual dos valores associados ao longo dos cânceres, especialmente nos fatores latentes de número três e quatro. A Figura 2 apresenta os seis primeiros fatores latentes em forma de mapa. Conforme apresentado na legenda, os estados são coloridos em tons que variam de azul, representando valores baixos, a vermelho, representando valores altos. O primeiro tipo puro apresenta um contraste entre as regiões leste e oeste, de modo que a região central apresenta a suave transição entre essas duas. O segundo fator latente apresenta um contraste entre a região central e as duas costas. O terceiro fator latente apresenta um contraste das regiões centro-sul e sudeste com as demais regiões. O quarto fator latente, por sua vez, apresenta um contraste entre das regiões centro-norte e nordeste com as demais regiões. O quinto fator latente não apresenta um padrão geográco visualmente observável. Por m, o sexto fator latente apresenta um contraste entre das regiões sul e sudoeste com as demais regiões. É importante ressaltar que o estado em cinza na região norte corresponde ao estado de Minnesota, para o qual não havia dados disponíveis. Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. Quantos mapas existem de fato? Minerando o atlas de incidência de câncer 10 ● ● ● ●●● ● ● ● ●●● ● ● ● ● ● ● ● ● ●●●●● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ●●● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●●● ● ●●●●● ● ●● ● ●●● ● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●●● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●●●●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●●●●●● ● ● ●● ● ● ● ● Log do Valor Absoluto dos Pesos ● (−9,−8] ● (−8,−7] ● (−7,−6] ● (−6,−5] ● (−5,−4] ● (−4,−3] ● (−3,−2] ● (−2,−1] ● (−1,0] ● (0,1] ● (1,2] ●●●● ●●●● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ●●● ●●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●●●● ● ● ●●● ● ● ● ●●● ● ●● ● ● ● ● ●● ● ●●●●●●●● ● ● ●●● ●● ● ● ● ● ● ●●● ● ●●●● ● ●●●●● ● ●●● ● ● ● ● 6 ● ● ● ● ● ● 7 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●●●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●●● ● ● ● ● ● ●● ● ●●● ● 8 Fator Latente ● ● · ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●●●●● ● ● ● ● ●●● ● ● ● ● ●●● ● ●● ● ●●●● ● ● ● ●●●● ● ● ●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●●●●● ● ● ● ● ● ● ●● ● ●●●●●●● ● ●●●●●●● ● ● ● ● ● ● ● ●●●● ● ● ● ● ●●● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ●●●●● ● ● ●●●●●● −8 −6 −4 ● −2 ●0 ● ●●● ●●●●● ●●●●●●●●●●●●● ●●●●●●●●● ● ●● ● ● ●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●● ● ●●●●●●● ● ● ● ● ●●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●● 4 ● ● ●● ● ●●●●●● ●●●● ● ● ● ● ●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●● ● ● ● ●● ● ●●●●●●● ● ● ●●●●● ● ● ●●●●● ●●●● ● ●●●●●●●●●● ● ● ●●●●●● ●● ● 2 ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●●●●● ●●●● ● ●●●●●● ●●●●●●●●● ● ● ●● ● ●●●●●●●●●●● ● ●● ● ● ● ● ● ● ●●●●●●●● ● ● ● ●●●●● ●● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ● ● ●● ●●●●● ● ● 0 30 60 Cancer 90 120 Fig. 1: Logaritmo do módulo dos pesos associados com nove fatores latentes para os cânceres considerados. Fator Latente 1 Fator Latente 2 Valor Valor −0.10 0.2 −0.12 0.0 −0.14 −0.2 −0.16 −0.4 Fator Latente 3 Fator Latente 4 Valor Valor 0.3 0.2 0.1 0.0 −0.1 −0.2 0.2 0.1 0.0 −0.1 −0.2 −0.3 Fator Latente 5 Fator Latente 6 Valor Valor 0.3 0.2 0.1 0.0 −0.1 −0.2 −0.3 0.2 0.1 0.0 −0.1 −0.2 −0.3 Fig. 2: Mapa dos seis primeiros fatores latentes. 5. CONCLUSÃO Câncer é o nome dado a um conjunto de mais de 100 doenças que têm em comum o crescimento desordenado de células que invadem tecidos e órgãos. Devido ao envelhecimento da população na maioria dos países, o câncer é uma causa de morte cada vez mais prevalente. O câncer é mais recorrente em idosos por causa do envelhecimento das células e da falta de proteção hormonal, características da idade avançada. Devido à sua importância na saúde das populações, uma imensa quantidade de recursos tem sido devotados ao seu estudo. A maioria desses estudos considera cânceres isoladamente, como se cada um deles fosse uma entidade separada. Minerando os dados de atlas de incidênica, nós procuramos encontrar fatores latentes, não diretamente observáveis, que expliquem a variabili- Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014. 8 · M. Fernandes and R. Lopes and R. Assunção dade observada neste grande conjunto de doenças. De forma um tanto surpreendente, nós, de fato, encontramos evidência considerável a favor de um modelo simples em que poucos fatores latentes conseguem reproduzir a enorme variabilidade geográca observada na incidência de mais de uma centena de cânceres. Este foi o primeiro passo de nossa pesquisa. em várias direções. Nós precisamos agora considerar a sua extensão De um lado, precisamos vericar se este modelo da fatores latentes ajusta-se aos dados de outros países, por exemplo, Brasil. Outra direção mais desaadora será a necessidade de aumentar o nível de resolução geográca, trabalhando com unidades geográcas bem menores que aqueles considerados neste artigo. No caso dos EUA, queremos trabalhar com os mais de 5000 condados em que o país é dividido. No caso do Brasil, queremos analisar os dados dos mais de 5000 municípios existentes atualmente. Isso vai evitar tratar regiões enormes, tais como o estado do Texas, como uma unidade espacialmente homogênea. Ao mesmo tempo, será inevitável desenvolver um modelo estocástico para lidar com a enorme variância aleatória, não associada com o risco subjacente, que afeta as taxas de pequenas áreas. A direção mais promissora, no entanto, é aquela em que os poucos tipos puros encontrados na nossa análise sirvam como indicadores de fatores ambientais ou de composição populacional que possam explicar simultaneamente a variabilidade da maioria dos mais de cem cânceres existentes. Esta análise precisa ser feita em parceria com especialistas em epidemiologia do câncer. Se bem sucedida, ela pode ser uma importante contribuição da mineração de dados, atendendo ao chamado de se fazer Data Mining for Social Good. REFERENCES ACS. Current investment by areas of research. www.cancer.org/research/currentlyfundedcancerresearch/ investment-by-research-areas, 2014. [Online; acessado em 4 de julho de 2014]. Assunção, R. M. and Castro, M. S. Multiple cancer sites incidence rates estimation using a multivariate bayesian model. International Journal of Epidemioliogy 33 (3): 508516, 2004. Dabney, A. R. and Wakefield, J. C. Issues in the mapping of two diseases. Statistical Methods in Medical Research vol. 14, pp. 83112, 2005. Downing, A., Forman, D., Gilthorpe, M. S., Procter, K., and Manda, S. O. M. Joint disease mapping using six cancers in the Yorkshire region of England. International Journal of Health Geographics vol. 7, pp. 741, 2008. Held, L., Natário, I., Fenton, S. E., Rue, H. v., and Becker, N. Towards joint disease mapping. Statistical Methods in Medical Research 14 (1): 6182, 2005. Hoover, R. N. and Strasser, P. H. Articial sweeteners and human bladder cancer: preliminary results. The Lancet 315 (8173): 837841, 1980. Knorr-Held, L. and Best, N. G. A shared component model for detecting joint and selective clustering of two diseases. Journal of the Royal Statistical Society Series A 164 (1): 7385, 2001. Leyland, A. H. and Davies, C. A. Empirical bayes methods for disease mapping. Statistical Methods in Medical Research 14 (1): 1734, 2005. Mason, T. J. The development of the series of u.s. cancer atlases: implications for the future epidemiologic research. Statistics in Medicine vol. 14, pp. 473479, 1995. NCI. Cancer research funding. /www.cancer.gov/cancertopics/factsheet/NCI/research-funding, 2014. [Online; acessado em 4 de julho de 2014]. Pickle, L., Greene, M., Ziegler, R., Toledo, A., Hoover, R., Lynch, H., and Fraumeni, J. J. Colorectal cancer in rural nebraska. Cancer Research 44 (1): 363369, 1984. Poole, D. Linear Algebra: A Modern Introduction. Cengage Learning, 2010. Society, A. C. Cancer facts & gures 2014. Tech. rep., American Cancer Society, 2014. Winn, D. M., Blot, W. J., Shy, C. M., Pickle, L. W., Toledo, A., and Fraumeni Jr., J. F. Snu dipping and oral cancer among women in the southern united states. New England Journal of Medicine 304 (13): 745749, 1981. Ziegler, R. G., Mason, T. J., Stemhagen, A., Hoover, R., Schoenberg, J. B., Gridley, G., Virgo, P. W., Altman, R., and Fraumeni Jr., J. F. Dietary carotene and vitamin a and risk of lung cancer among white men in new jersey. Journal of the National Cancer Institute 73 (6): 14291435, 1984. Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2014.