RLI ROSETTE Language Identifier RBL Idiomas classific ROSETTE Base Linguistics Melhor busca www.basistech.com [email protected] +1 617-386-2090 REX ROSETTE Entity Extractor Nomes de entida Melhore a velocidade RES ROSETTE Entity Resolver Verbo Artigo Real Identities Substantivo eRNIa precisão do seu aplicativo ROSETTE Name Indexer Conjunção Artigo Substantivo Preposição Pronome Identidades corr Substantivo de busca com análise RNT Preposição ROSETTE Name Translator Substantivo Conjunção Nomes traduzido Substantivo linguística avançada . Categorizer RCA ROSETTE Adjetivo Adjetivo RSA Sorted Content Pontuação ROSETTE Analyzer BuscaSentiment em diversos idiomas com alta precisão Para que os aplicativos de busca forneçam resultados relevantes e precisos, todo idioma, inclusive o português, apresenta desafios difíceis e exclusivos. O Rosette® Base Linguistics (RBL) permite que aplicativos empresariais busquem ou processem texto com eficiência em muitos idiomas, fornecendo um conjunto completo de serviços linguísticos. O RBL enriquece o texto original em seu idioma nativo para o melhor processamento de idiomas naturais, com maior velocidade e precisão. Com a profunda compreensão de especialistas em linguística na interseção entre idioma e tecnologia, a Basis Technology aprimora continuamente a família de produtos Rosette com adições de idiomas, atualizações de recursos e as mais recentes inovações do mundo acadêmico. 40 Actionable Insigh Idiomas compatíveis P RINCIPAIS RECURS OS - API simples - Alta escala e produtividade - Assistência em nível industrial - Fácil instalação - Flexível e personalizável - Integração: Java, C++ ou serviços da web - Plataforma: Unix, Linux, Mac, PC (64 ou 32 bits) - Componente do Rosette SDK - Recursos de personalização, como dicionários de usuário, normalização ortográfica e conversão de sistemas de escrita. Clientes seletos Comece hoje mesmo a usar o RBL Experimente nossa avaliação gratuita do produto www.basistech.com RLI ROSETTE Language Identifier RBL Idiomas classificados ROSETTE Base Linguistics Melhor busca Recursos morfológicos avançados REX ROSETTE Entity Extractor Nomes de entidades Language Identifier FRAGMENTAÇÃO EM TOKENS RES ROSETTE Entity Resolver Muitas ferramentas de busca usam bigramas para compreender idiomas escritos sem espaços entre as palavras. O resultado são índices grandes e baixa relevância. Em vez ROSETTE disso, o RBL identifica e separa com precisão cada palavra por meio de um modelo estatístico avançado. O resultado em tokens (também conhecido como segmentação) ROSETTE minimiza o tamanho dos índices, melhora a precisão da busca e aumenta a relevância. RNI RSA ÍNDICE ROSETTE SentimentBUSCA Analyzer RNI (aluno) BIGRAMAS Pequim 2 3 3 4 (não Universidade palavra) 4 5 (aluno) 5 6 Depto. de Biologia 6 7 (não palavra) “Aluno” corresponde incorretamente a “Departamento de Biologia da Universidade de Pequim”. Não corresponde corretamente a “Departamento de Biologia da Universidade de Pequim”. 1 2 学 Universidade de Pequim Departamento de Biologia Não corresponde corretamente a “Departamento de Biologia da Universidade de Pequim”. Compatibilidade Compatibilidade Base de código Entity Extractor Compatibilidade com plataformas REX Entity Resolver RES Make real-world connections in your data Como parte do processo de lematização, usa‑se modelagem estatística para determinar a categoria gramatical correta até mesmo em Actionablepalavras Insights ambíguas. Em seguida, cada token é marcado para melhorar a compreensão BUSCA RADICAL LEMA e a relevância da busca. Corresponde nomes em diversas Name Indexer variações animals Duas palavras não relacionadas animated podem compartilhar um radical. RNT anim animal animate Name Translator RNI EXTRAÇÃO DE SINTAGMAS NOMINAIS RNT Traduz nomes de outros idiomas o Certospara substantivos, especialmente os nomes sever several A identificação inglês several próprios, podem ser bem difíceis de identificar de radicais pode fornecer resultados indesejados. RCA como entidades únicas. O RBL agrupa substantivos e seus modificadores, o que é útil no agrupamento de documentos e na extração de conceitos. Categorizer RCA Categorize Everything In Sight spoke spoke speak (v.) Verbos e DETECÇÕES DE SENTENÇAS spoke (n.) substantivos irregulares confundem o identificador de radicais. RSA Sentiment Analyzer EUROPA OCIDENTAL - - - - - - - - - - - - - - RSA O início e o fim de cada sentença automaticamente, mesmo Detect The Sentiments Of Youré identificado Text que o uso de pontuação seja ambíguo. Idiomas disponíveis Mecanismos de busca RBL Exemplo: inglês A análise linguística é útil em todos os idiomas. No inglês, a lematização melhora a precisão e a recuperação. DESAFIO Departamento de Biologia Universidade de Pequim Base Linguistics Identidades correspondidas geralmenteprecisão resulta em recuperações adicionais Exemplo: alemão e baixa precisão. Em vez disso, o RBL encontra a Samstagmorgen é uma palavra composta forma dicionarizada de cada palavra, conhecida formada por Samstag (sábado) e morgen como lema, usando vocabulário, contexto e (manhã). A decomposição permite uma análise morfológica avançada. Como não há correspondência adequada ao buscar “Samstag”. Marca nomes de pessoas, lugares e Nomes traduzidos indexação de todas as formas flexionadas, a organizações indexação da forma raiz aumenta a relevância MARCAÇÃO DE CATEGORIA das buscas e diminui os índices de busca. Os GRAMATICAL lemas alternativos também são disponibilizados por meio de uma indexação complementar. Sorted Content Pronome Verbo Adjetivo Substantivo RES Biologia da Universidade de Pequim” e uma busca subsequente de “aluno”: 2 RBL Name Translator REX ROSETTE RCA Exemplo: chinês Categorizer Considere o problema de indexar “Departamento de RLI O RBL quebra palavras compostas em A maioria dos mecanismos de buscaReal utilizam Identities subcomponentes e fornece para indexação um método bruto de eliminar caracteres cada elemento individualmente, o que é muito no final de uma palavra, na esperança de útil para aumentar a relevância das buscas em remover diferenças sem importância. Esse Busca em diversos idiomas com alta idiomas como o alemão e o coreano. método, chamado de identificação de radicais, Name Indexer RNT 1 LEMATIZAÇÃO DECOMPOSIÇÃO RLI Identifica idiomas e codificações Alemão Catalão* Dinamarquês Espanhol Finlandês* Francês Grego Holandês Inglês Italiano Norueguês Português Sueco Tcheco EUROPA ORIENTAL ORIENTE MÉDIO ÁSIA - - - - - - - - - - - - - - - - - - - - - - - - - - Albanês* Búlgaro* Croata* Eslovaco* Esloveno* Estoniano* Húngaro Letão* Polonês Romeno Russo Sérvio* Turco Ucraniano* Árabe Hebraico Pachto Persa Urdu Chinês simplificado Chinês tradicional Coreano Indonésio Japonês Malaio* Tailandês * Assistência limitada © 2015 Basis Technology Corporation. “Basis Technology” e “Rosette” são marcas registradas da Basis Technology Corporation. Todas as outras marcas comerciais, marcas de serviços e logotipos usados neste documento pertencem a seus respectivos proprietários. (2014-12-17-RBL) SEDE FEDERAL COSTA OESTE EUROPA ÁSIA One Alewife Center Cambridge, MA USA 02140 2553 Dulles View Dr. Suite 450 Herndon, VA - USA 20171 1700 Montgomery St San Francisco, CA 94111 Furzeground Way Middlesex UB11 1BD, UK 9-6 Nibancho, Chiyoda-ku Tokyo 102-0084, Japan ROSETT Lang ROSETT Base ROSETT Entit ROSETT Entit ROSETT Nam ROSETT Nam ROSETT Cate ROSETT Sent