Identificação de Competências por meio de Taxonomia de Tópicos Hierárquicos Ricardo M. Marcacini, Rafael R. Rossi, Solange O. Rezende, Maria F. Moura Instituto de Ciências Matemáticas e Computação Universidade de São Paulo ­ USP Caixa Postal 668 – 13.560­970 – São Carlos – SP – Brasil 1 {marcacini,ragero}@grad.icmc.usp.br {solange, mnanda}@icmc.usp.br Abstract. This work presents the use of a methodology of hierarchical clustering taxonomy to represent the knowledge inside digital databases that describes, textually, the skills, talents and experiences of the people and organizations to identify competences. The goals are to organize the collection in a segmented way, getting groups of similar skills, allowing that the organizations perform the competence management of the human resources and the intellectual capital. Resumo. Este trabalho apresenta o uso de uma metodologia de taxonomias de tópicos hierárquicos para representar o conhecimento implícito em bases de dados digitais que descrevem, textualmente, as habilidades, talentos e experiências de indivíduos e organizações, de forma a identificar competências. Os objetivos são organizar a coleção de forma segmentada, obtendo grupos que reúnem habilidades semelhantes, possibilitando que as organizações realizem a gestão de competências dos recursos humanos e capital intelectual. 1. Introdução No cenário econômico atual, observa­se que o mundo corporativo está atravessando por um período de transformações em seus processos produtivos, visto que o aumento da competitividade obriga as organizações a atenderem uma demanda mais volátil e exigente (Barbosa, 2006). Como conseqüência desta transformação, as organizações têm investido, cada vez mais, em tecnologias e modelos de gestão, com o objetivo de garantir um nível de competitividade diferenciada no mercado. As estratégias para obtenção desta vantagem competitiva vem convergindo, há alguns anos, para modelos baseados em gestão de competências e de capital intelectual, enfatizando a proposta de que recursos humanos são determinantes para o sucesso organizacional (Stewart, 1998). O princípio de que o sucesso de uma organização é determinado pela união das habilidades, talentos e experiências de seus recursos humanos foi proposto inicialmente por Taylor (1911), considerado pai da administração científica (Taylorismo). Atualmente, a gestão de competências é uma área de estudo derivada da Resource­ Based Management Theory. Esta corrente teórica, além de sustentar o princípio de que a qualidade dos recursos humanos define o sucesso da organização em relação aos concorrentes, sugere ainda que as organizações promovam metas e objetivos a serem alcançados e, em seguida, que identifiquem as competências necessárias para atingir esses objetivos. A partir disto, algumas atividades são realizadas como planejamento, captação (recrutamento e seleção), desenvolvimento (treinamento e gestão de carreira) e a avaliação de resultados, conforme é ilustrado na Figura 1. Figura 1. Modelo de Gestão de Competências (Adaptado de Brandão, 1999) A identificação de competências é crítica para todo o processo, pois é a partir destes resultados que a organização irá estabelecer quais as novas competências necessárias para a estratégia adotada e quais as competências já existentes, identificando a lacuna/gap que precisa ser preenchida de acordo com os interesses da organização. O objetivo deste trabalho é apresentar uma abordagem para apoiar o processo de gestão de competências. Nesse sentido, o trabalho propõe o uso de uma metodologia de taxonomias de tópicos hierárquicos para representar o conhecimento implícito em bases de dados digitais que descrevem, textualmente, as habilidades, talentos e experiências de um grupo de pessoas. Coleções de documentos textuais são de interesse pois representam aproximadamente 80% da informação disponível nas organizações (Han, 2001), dado que é a forma mais natural de armazenar informação, e pela dificuldade de se estruturar estaticamente as informações importantes sobre as habilidades de um indivíduo, tipicamente formados por campos textuais abertos, por exemplo, trabalhos realizados, experiência profissional e publicações. Além disso, a organização hierárquica realizada permite testar a hipótese de que se um usuário está interessado em um documento específico pertencente a um grupo, deve também estar interessado em outros documentos desse grupo (Chakrabarti, 2003). Esta estratégia, aliada com a possibilidade de se rotular os grupos formados, em cada nível da hierarquia, obtendo taxonomias de tópicos hierárquicos, permite a recuperação grupos de habilidades semelhantes, promovendo a identificação de competências. Este trabalho está organizado da seguinte maneira: Na Seção 2 são apresentados os trabalhos relacionados. Na Seção 3 são descritos brevemente alguns dos principais conceitos envolvidos na metodologia para construção de taxonomia de tópicos hierárquicos. Na Seção 4 é apresentada uma abordagem para identificação de competências por meio de taxonomia de tópicos hierárquicos, apoiado pela execução e avaliação de um experimento. As considerações finais são apresentadas na Seção 5. 2. Trabalhos Relacionados Muitas ferramentas são baseadas apenas em técnicas de recuperação de informação, mas para realizar uma análise qualitativa em mapas de competências, pesquisas por palavra­ chaves geralmente não são suficientes, pois as competências têm valores diferentes dependendo do contexto que se inserem (LOH, 2004). Além disso, softwares comerciais fazem uso de algoritmos proprietários, o que torna difícil a sua adaptação e modificação para atender às necessidades do usuário/pesquisador, pois as heurísticas, estruturas e representações internas dos algoritmos não são acessíveis. Algumas ferramentas analisam apenas os perfil comportamental, baseadas em preenchimento de formulários pelos indivíduos candidatos a uma função e por aqueles que mais conhecem as funções da organização. O resultado do cruzamento dessas informações produz um mapa de competências que indica o grau de proximidade dos perfis dos grupos de candidatos encontrados para cada função da organização. Uma conhecida ferramenta desta categoria é a Universal­Knowledge (KPSOL, 2008), baseada principalmente em técnicas de recuperação de informação, focado em criar comunidades de habilidades para apoiar sistemas help­desk e e­learning. Para a identificação de perfil de conhecimentos, não há muitos sistemas computacionais reconhecidos nesta categoria, com exceção da ferramenta GINGO (Lévy, 1992). Trata­se de uma ferramenta que permite obter uma representação das habilidades disponíveis em uma organização, denominada como árvore do conhecimento. Esta árvore vai adquirindo novas ramificações à medida que novas competências vão sendo obtidas (por exemplo, contratação e/ou treinamento de funcionários) ou podam ramificações quando estas competências são perdidas. Várias empresas têm utilizado essa ferramenta com a intenção de identificar grupos de habilidades, talentos e deficiências. Existem outras abordagens para a identificação de competências, por exemplo, a ferramenta nacional Text­Mining­Suite (LOH, 2004), que utiliza técnicas de ontologias e mineração de textos para analisar conceitos em um grupo de currículos. A ferramenta apresenta as competências presentes na coleção por meio de um ranking, colocando no topo as competências mais freqüentes. Algumas técnicas computacionais são projetadas e implementadas com o objetivo de facilitar o processo de identificação de competências, mas nem todas oferecem mecanismos que permitam analisar dados em coleções textuais e que organizem a informação por meio de hierarquia de grupos. 3. Metodologia para Construção de Taxonomia de Tópicos Hierárquicos Neste trabalho, os conceitos utilizados estão baseados na metodologia proposta por Moura (2006), que possibilita a construção de taxonomias de tópicos a partir de coleções de textos com base em técnicas de mineração de textos. A mineração de textos é uma sub­área da Inteligência Artificial, que faz uso de técnicas e processos para descobrir conhecimento inovador em uma coleção de documentos textuais por meio de extração de padrões e identificação de tendências e regularidades (Rezende et All, 2003). O processo de mineração de textos, neste trabalho, é tratado como uma particularidade de um processo de mineração de dados, e é dividido em cinco etapas: identificação do conhecimento, pré­processamento, extração de padrões, pós­ processamento e, finalmente, uso do conhecimento. 3.1. Identificação do Problema A identificação do problema é uma etapa muito importante, pois não existe motivação para organização de habilidades e identificação de competências sem demanda pelo mesmo. Nesta etapa, é necessário delimitar o problema a ser solucionado, a coleção de textos a ser analisada, listar os pré­conhecimentos que possam ser utilizados na análise, o que se espera obter e como os resultados poderão ser utilizados. No modelo de gestão de competências, esta etapa é realizada no foco de estabelecimento da estratégia da organização. 3.2. Pré­Processamento Em uma coleção de dados textuais, os dados precisam ser transformados em um formato adequado para o processo de extração de padrões. Inicialmente, é realizado uma padronização dos documentos, convertendo toda a coleção para um formato texto puro. Nesta conversão, os caracteres inválidos são removido, assim como acentuação das palavras, de forma a eliminar possíveis erros de acentuação. A coleção de documentos, agora em formato texto puro, é transformada em um formato estruturado. Na metodologia proposta, a transformação aplicada à coleção de textos leva à uma representação matricial dos documentos, denominada matriz atributo­ valor (Tabela 1). Cada linha desta matriz representa um documento e cada coluna representa uma palavra (atributo) da coleção. As células contêm os valores das freqüências em que os atributos ocorrem nos documentos. Esta representação segue uma modelagem conhecida como bag­of­words, em que cada atributo é estatisticamente independente não importando sua ordem de ocorrência. palavra_1 palavra_2 ... palavra_M doc_1.txt a11 a12 ... a1M doc_2.txt a21 a22 .. a2M ... ... ... ... aN1 aN2 ... aNM ... doc_N.txt Tabela 1. Exemplo da matriz atributo­valor Um dos problemas desta abordagem é que a matriz atributo­valor geralmente é esparsa, dificultando o trabalho computacional. Para amenizar este problema, pode­se aplicar algumas técnicas bem difundidas, como: (a) Stemming: consiste em reduzir variantes de uma palavra a um termo primitivo (stem), removendo­se os sufixos e inflexões mais comuns das palavras. Por exemplo, palavras como “administração”, “administrador” e “administrar”, são reduzidas e substituídas pelo stem “administr”; (b) Lista de stopwords: são palavras que pouco caracterizam os documentos da coleção, como, artigos, preposições e conjunções, sendo ignoradas no processo de criação da matriz atributo­valor e; (c) Filtros de atributos: atributos que ocorrem em apenas um documento da coleção e atributos que ocorrem em todos os documentos da coleção, pois, nos dois casos, não colaboram na formação de grupos. Nesta atividade tem­se testado outros filtros com base em representatividade da variância dos termos (Liu et all, 2003). 3.3. Extração de Padrões Nesta metodologia vêm sendo utilizados algoritmos de agrupamento hierárquico aglomerativos como técnicas de extrações de padrões. Este algoritmos induzem grupos a partir dos dados observados, para que se tenha um melhor entendimento da coleção, em uma análise exploratória do mesmo. Os principais algoritmos utilizados nesta metodologia são o Single Linkage, Complete Linkage e o Average Linkage, mas a metodologia suporta a utilização de qualquer técnica de agrupamento hierárquico. Para a execução dos agrupamentos hierárquicos, é necessário obter as medidas de similaridade (ou dissimilaridades) entre os documentos da coleção. As medidas de similaridade levam à compreensão do quão próximo encontram­se dois documentos, enquanto que as de dissimilaridade indicam o quão longe. Ao realizar o cálculo de similaridade entre todos os documentos da coleção, é construída a matriz de similaridades. Esta matriz é então submetida ao algoritmo de agrupamento hierárquico. O resultado é uma árvore binária, na qual os nós pais agrupam os exemplos representados pelos nós filhos. Uma das maneira mais freqüentes para representar esta árvore binária é um dendrograma (Figura 2). Figura 2. Exemplo de um dendrograma. (Metz, 2006) Ainda na etapa de extração do conhecimento, a metodologia viabiliza um processo próprio de rotulação da hierarquia (Moura, 2007). Essa rotulação permite gerar uma versão da taxonomia na qual não se encontram repetições de termos ao longo do mesmo ramo; visto que rótulos de nós pais aplicam­se também aos seus filhos. 3.4. Pós­Processamento O pós­processamento consiste em analisar o conhecimento extraído na etapa anterior por meio da avaliação e refinamento dos resultados. A intenção é verificar se o conhecimento extraído pode ser utilizado para mapear grupos de habilidades. Geralmente existe dificuldade em compreender o conhecimento descoberto, ocorrendo casos em que o resultado seja complexo ou não faz sentido para os usuários. Assim, é importante o uso de ferramentas com a finalidade de auxiliar os usuários nesta análise. Para apoiar a etapa de pós­processamento, foi desenvolvida uma ferramenta para análise visual de taxonomia de tópicos hierárquicos (Marcacini, 2008), permitindo que o usuário explore toda a hierarquia com representações gráfica apropriadas, além de possibilitar a edição da taxonomia, facilitando o processo de refinamento. A Figura 3 exemplifica a exploração de um ramo da hierarquia. Figura 3. Antes e Depois: Exploração e edição de ramos da taxonomia. Ainda nesta etapa, realiza­se uma avaliação objetiva na taxonomia. Para isso, é realizado uma análise de agrupamento, com o objetivo de verificar se os grupos encontrados ocorrem "naturalmente" no conjunto de dados. Para esta análise, sucessivos agrupamentos são realizados por meio do algoritmo k­means, no qual o valor de k determina quantos grupos o algoritmo deve formar na coleção. Para um certo valor de k, uma medida de qualidade do agrupamento pode ser obtida pelo coeficiente de discriminação F, calculada pela divisão da variância inter­grupo com a variância intra­ grupo. Quanto maior for o valor de F, melhor a qualidade do agrupamento. Outra tipo de análise do agrupamento é realizado por meio da correlação cofenética. Nesta medida, tenta­se recuperar a matriz de similaridade a partir de um dendrograma e, em seguida, é realizada uma comparação entre a matriz obtida e a matriz de similaridade original. Grandes divergências entre essas duas matrizes, indicam que o agrupamento hierárquico não é representativo para o conjunto de dados. A metodologia permite, ainda, uma avaliação objetiva da rotulação do agrupamento, com base na acurácia demonstrada na recuperação de informações da coleção, utilizando­se os conjuntos de termos discriminativos como expressões de busca. Após as atividades desta etapa, caso a taxonomia não seja satisfatória, os processos anteriores podem ser repetidos ajustando­se os parâmetros ou melhorando o processo de escolha dos dados de maneira que os resultados sejam melhorados. 3.5. Uso do Conhecimento Na etapa do uso do conhecimento, a taxonomia de tópicos hierárquicos é utilizada na identificação de competências, dando suporte para todo o processo de gestão de competência da organização. A partir das estratégias estabelecidas, a organização pode então mapear as competências existentes e identificar a lacuna necessária para consecução de seus objetivos. As atividades de captação (recrutamento e seleção) e desenvolvimento (treinamento e gestão de carreiras) são executadas de forma mais precisa, além de permitir a avaliação de todo o modelo de gestão de competências da organização. 4. Validação da Metodologia: Análise de uma coleção textual de currículos. Com o objetivo de validar a metodologia utilizada para identificação de competências, foi realizado um experimento para analisar uma coleção de currículos e organizá­los em uma taxonomia de tópicos hierárquicos. A coleção de textos utilizada faz parte de um repositório contendo três mil currículos, sem referência aos dados pessoais dos candidatos, ou seja, contendo apenas informação relacionada às habilidades, como experiências profissionais e trabalhos realizados. Os currículos foram obtidos a partir do repositório online da revista Sentidos, especializada em difundir informações para inclusão de pessoas com deficiência, tanto no nível social quanto profissional. A partir da coleção de currículos limpa e padronizada, foi realizado o pré­ processamento, por meio da ferramenta Pretex (Matsubara, 2003), com o objetivo de obter os atributos na forma de unigrama, ou seja, a palavra é o próprio atributo. Neste caso, não se considera expressões como “inteligência artificial”, e sim a existência de dois atributos: “inteligência” e “artificial”. O uso de bigramas e trigramas está sendo realizado em projetos paralelos, e é objeto de trabalho futuro. Também foram realizadas as atividades para remoção da dimensionalidade da matriz atributo­valor obtida, por meio da stemmização, stopwords e filtro de atributos. Os resultados da etapa de pré­ processamento são exibidos na (Tabela 2). Número de Documentos 3000 Número de Atributos Inicial 18849 Atributos removidos pelo stemming 5554 Atributos removidos pela lista de stopwords 178 Atributos removidos pelo filtro 7086 Total de Atributos selecionados para análise 6031 Tabela 2. Resultados da etapa de Pré­processamento Uma vez que a matriz atributo­valor foi definida, é calculada a matriz de similaridade entre os documentos da coleção (extração de padrões). A medida de similaridade adotada foi o cosseno e o algoritmo de agrupamento hierárquico escolhido foi o average­linkage, pois segundo Manning (2003), é uma alternativa bastante eficiente ao complete­linkage e evita o efeito cadeia observado no single­linkage. Na hierarquia obtida, aplicou­se o algoritmo de rotulação, resultando em uma primeira “versão” da taxonomia de tópicos hierárquicos. Para a estimativa do ajuste entre a matriz de similaridade e o dendrograma gerado, foi calculado o coeficiente de correlação cofenética (r), obtendo r=0.68, considerado razoável como fator de representatividade da hierarquia (Sneath & Sokal, 1973). O algoritmo de agrupamento hierárquico utilizado gera uma árvore binária e, considerando uma coleção de 3000 currículos, a árvore final contém 5999 nós, uma valor alto para análise humana. Em função disso, é necessário obter uma versão compacta da taxonomia, indicando os grupos mais interessantes para os usuários, mas mantendo a possibilidade de detalhar as informações, caso seja desejável (pós­ processamento). Para compactar a taxonomia é realizado cortes (podas) em determinados pontos da árvore (Langfelder et all, 2008). Cada ponto de corte identifica grupos interessantes para o usuário. O processo de corte pode ser repetido em cada grupo obtido, de forma recursiva, gerando uma taxonomia mais compacta. Para avaliar se o corte da taxonomia está coerente com a quantidade de grupos natural da base de dados, foi realizado uma comparação com os testes obtidos pelo coeficiente de discriminação F, por meio da execução de várias instâncias do k­means. A Figura 4 apresenta os resultados dos agrupamentos, com boa discriminação em k=14. Figura 4. Gráfico de coeficiente de discriminação nos agrupamentos obtidos Na coleção de documentos, o primeiro corte identificou 13 grupos relevantes para o usuário. A diferença entre o número de grupos encontrados em cada método é explicado pelo fato de que o corte da taxonomia é sobre o agrupamento hierárquico, uma estrutura derivada da matriz de similaridades, e que pode não representar idealmente os exemplos da coleção, conforme observado pelo valor da correlação cofenética. Entretanto, se o valor da correlação cofenética for razoável, o baixo custo computacional favorece a utilização da técnica de corte da taxonomia como forma de obter os grupos principais, pois a execução de várias instâncias do k­means a fim de se encontrar grupos com bons coeficiente de discriminação é custoso computacionalmente. O rótulo de cada hierarquia, neste momento, são atributos candidatos a palavras­ chaves que discriminam o conceito identificado em seu agrupamento, gerado por meio da técnica proposta por (Moura, 2007). Neste trabalho, foi desenvolvido um método para a avaliação da qualidade da rotulação da hierarquia baseada em técnicas de recuperação da informação. A medida de Recall, tem seu valor baseado na proporção de documentos relevantes que são recuperados. Foi considerado que cada currículo de um determinado grupo é relevante em seu grupo, de forma que os atributos do rótulo deste grupo devem recuperar todos os currículos para ter um valor de Recall máximo (100%). A medida de qualidade da rotulação será dependente apenas do valor de Recall obtido em 25% de grupos da árvore, pois o último nível da árvore (nós folhas) e o penúltimo nível (grupos que contém apenas nós folhas) representam 75% dos total de nós da árvore e possuem rótulos com Recall máximo. Na coleção de currículos deste experimento, o cálculo da medida de qualidade (Recall médio total) foi 91,3%. Este foi considerado um valor que indica boa qualidade da rotulação. Após a validação dos rótulos da hierarquia e da determinação do número de grupos iniciais relevantes, foram mapeados os grupos de habilidades principais contidos na coleção de currículos processada (Tabela 3). O valor da variância intra­grupo determina se o grupo está bem delimitado (uma menor variância representa grupos mais naturais). Grupo basic auxili atend curs educaca vend administr Número de Currículos 572 416 377 351 321 285 245 Variância Intra­Grupo 0.0228 0.263 0.019 0.019 0.020 0.014 0.012 Grupo servic telemarketing oper desenvolv psicolog financ Número de Currículos 140 94 86 41 38 34 Variância Intra­Grupo 0.016 0.009 0.015 0.014 0.005 0.011 Tabela 3. Principais grupos da encontrados na coleção. Desta forma, grupos bem compactos como em “telemarketing” e “psicolog”, são um exemplo de grupos naturais. Grupos com valores de variância intra­grupo maiores (“auxili”, “basic”, “curs”, “atend”) sugerem a existência de sub­grupos que possam úteis para a identificação de competências. Outros refinamentos podem ser realizados na taxonomia de tópicos obtida, por exemplo, a transformação do atributo em seu formato stemmizado, como “financ”, para sua forma lematizada, por exemplo, “finanças”, melhorando a visibilidade dos rótulos. Para realizar a etapa do uso do conhecimento desta metodologia, os resultados deste experimento foram visualizados em uma implementação de TreeMap (Shneiderman, 1992), que realiza uma representação plana da taxonomia de tópicos hierárquicos na qual é possível mapear grupos de habilidades e realizar buscas nestes grupos. Na figura 5, é ilustrada uma busca por competência (“social”) na taxonomia de tópicos hierárquicos. Os grupos que satisfazem a busca são realçados no mapa para que o usuário identifique os resultados e possa, então, “clicar” e resgatar os currículos associados. Figura 5. TreeMap: visualização taxonomia de tópicos hierárquicos. 5. Considerações Finais Neste trabalho, foi apresentado uma abordagem para identificação de competências por meio de uma taxonomia de tópicos hierárquicos, utilizando como base a proposta para a construção de taxonomias de tópicos de Moura, que utiliza técnicas de mineração de textos. Além de organizar o acervo digital de uma coleção de currículos, foi realizado um agrupamento das competências, obtendo habilidades comuns nesta coleção de forma segmentada, possibilitando a execução do processo de gestão de competências de uma organização. Atualmente o processo pode ser aplicado e produz bons resultados, porém verifica­se a necessidade da incorporação de outras medidas de validação das técnicas em cada parte do processo, para otimizar o nível de qualidade dos resultados. Como trabalho futuro, pretende­se disponibilizar formas de tratamento do crescimento da taxonomia de tópicos hierárquicos; tanto no que diz respeito ao simples aumento dos currículos, mantendo os grupos originais, quanto aos desmembramentos ou acoplamentos de novos tópicos, gerenciando o mapa de competências da organização. 6. Referências Bibliográficas BARBOSA, A. Q.; RODRIGUES, M. A (2006). Alternativas metodológicas para a identificação de competências. Boletim técnico do Senac, Rio de Janeiro. BRANDÃO, H.; GUIMARÃES, A. (1999). Gestão de competências e gestão de desempenho: Tecnologias distintas ou instrumentos de um mesmo construto? CHAKRABARTI, S. (2003). Mining the Web: Discovering Knowledge from hypertext data. Morgan Kaufmann Publishers. HAN, J.; M. KAMBER. (2001). Data mining concepts and techniques. San Diego, CA: Academic. KPSOL. (2008) Knowledge Powered Solutions; Universal­Knowledge Software. Disponível em http://www.kpsol.com. Disponível em 21/05/2008. LANGFELDER, P.; ZHANG, B.; HORVATH, S. (2007) Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. BIOINFORMATICS APPLICATIONS NOTE, Vol 4, No. 5, p. 719­720. LÉVY, P., AUTHIER, Michel (1992). Les arbres de connaissances . Paris, La Découverte. LOH, S. et al. (2004). Apoio à gestão de competências: Software para análise de conceitos em currículos. INTEXT: Porto Alegre, Dezembro, 2004. MANNING, C. E SCHÜTZE, H. (2003). Foundations of Statistical Natural Language Processing. MIT Press. MARCACINI, R. M. (2008) Um ambiente interativo para análise visual de agrupamentos hierárquicos. Monografia de conclusão de curso. Instituto de Ciências Matemáticas e Computação – ICMC­USP. MATSUBARA, E. T., MARTINS, C. A., E MONARD, M. C. (2003). Pre­text: uma ferramenta para pré­processamento de textos utilizando a abordagem bag­of­words. Relatório Técnico 209, Instituto de Ciências Matemáticas e de Computação – USP – S˜ao Carlos. 9, 16, 38, 39. METZ, JEAN. (2006). Interpretação de clusters gerados por algoritmos de clustering hierárquico. Tese de mestrado, Instituto de Ciências Matemáticas e de Computação – USP – São Carlos. MOURA, M. F. (2006). Uma abordagem para a construção e atualização de taxonomias de tópicos a partir de coleções de textos dinâmicas. Monografia de Qualificação de Doutorado, Instituto de Ciências Matemáticas e de Computação – USP – São Carlos, 2006. MOURA, M. F. AND REZENDE, S. O. (2007). Proposta e experimentação de modelos de rotulação para agrupamentos hierárquicos de documentos. Technical Report 302, Instituto de Ciências Matemáticas e de Computação – USP – São Carlos. REZENDE, S. O. et all. (2003) Mineração de textos. In S. O. Rezende (Ed.), Sistemas Inteligentes: Fundamentos e Aplicações (1 ed.)., Capítulo 13, pp. 337–370. Manole. SENTIDOS. Revista Sentidos: A inclusão social da pessoa com deficiência. Disponível em: http://sentidos.uol.com.br. Disponível em 03/07/2008. SHNEIDERMAN, B. (1992) Tree Visualization with Treemaps: A 2d space filling approach. ACM Transactions on Graphics, New York, v.11, n.1, p.92­99. SILBERSCHATZ, A. & A. TUZHILIN. (1995) On subjective measures of interestingness in know ledge discovery. Proceedings of the First International Conference on Knowledge Discovery and Data Mining 1, 275­281. SNEATH, P.H.A & SOKAL, R.R. (1973). Numerical taxonomy. The principles and practice of numerical classification. W.H. Freeman & Co. 573p. STEWART, T.A (1998). Capital Intelectual: A Nova Vantagem Competitiva das Empresas. Rio de Janeiro, Ed. Campus. TAYLOR, F.W. (1970). Princípios de Administração Científica. São Paulo. Ed Atlas. T. LIU, S. LIU, Z. CHEN, AND W.­Y. MA. (2003). An evaluation on feature selection for text clustering. In Proceedings of the Twentieth International Conference on Machine Learning (ICML), pages 488–495. AAAI Press.