Melhore a velocidade e a precisão do seu aplicativo de busca com

Propaganda
RLI
ROSETTE
Language Identifier
RBL
Idiomas classific
ROSETTE
Base Linguistics
Melhor
busca
www.basistech.com
[email protected]
+1 617-386-2090
REX
ROSETTE
Entity Extractor
Nomes de entida
Melhore a velocidade
RES
ROSETTE
Entity Resolver
Verbo
Artigo
Real Identities
Substantivo
eRNIa precisão do seu aplicativo
ROSETTE
Name Indexer
Conjunção Artigo
Substantivo
Preposição
Pronome
Identidades corr
Substantivo
de busca com análise
RNT
Preposição
ROSETTE
Name Translator
Substantivo
Conjunção
Nomes traduzido
Substantivo
linguística
avançada
.
Categorizer
RCA
ROSETTE
Adjetivo
Adjetivo
RSA
Sorted Content
Pontuação
ROSETTE
Analyzer
BuscaSentiment
em diversos
idiomas com alta precisão
Para que os aplicativos de busca forneçam resultados relevantes e precisos,
todo idioma, inclusive o português, apresenta desafios difíceis e exclusivos.
O Rosette® Base Linguistics (RBL) permite que aplicativos empresariais
busquem ou processem texto com eficiência em muitos idiomas, fornecendo
um conjunto completo de serviços linguísticos. O RBL enriquece o texto
original em seu idioma nativo para o melhor processamento de idiomas
naturais, com maior velocidade e precisão.
Com a profunda compreensão de especialistas em linguística na interseção entre
idioma e tecnologia, a Basis Technology aprimora continuamente a família de
produtos Rosette com adições de idiomas, atualizações de recursos e as mais
recentes inovações do mundo acadêmico.
40
Actionable Insigh
Idiomas
compatíveis
P RINCIPAIS RECURS OS
- API simples
- Alta escala e produtividade
- Assistência em nível industrial
- Fácil instalação
- Flexível e personalizável
- Integração: Java, C++ ou serviços da web
- Plataforma: Unix, Linux, Mac, PC (64 ou
32 bits)
- Componente do Rosette SDK
- Recursos de personalização, como
dicionários de usuário, normalização
ortográfica e conversão de sistemas de
escrita.
Clientes seletos
Comece hoje mesmo a usar o RBL
Experimente nossa avaliação gratuita do produto
www.basistech.com
RLI
ROSETTE
Language Identifier
RBL
Idiomas classificados
ROSETTE
Base Linguistics
Melhor busca
Recursos
morfológicos avançados
REX ROSETTE
Entity Extractor
Nomes de entidades
Language Identifier
FRAGMENTAÇÃO EM TOKENS
RES
ROSETTE
Entity Resolver
Muitas ferramentas de busca usam bigramas
para compreender idiomas escritos sem
espaços entre as palavras. O resultado são
índices grandes
e baixa relevância. Em vez
ROSETTE
disso, o RBL identifica e separa com precisão
cada palavra por meio de um modelo
estatístico avançado. O resultado em tokens
(também conhecido como segmentação)
ROSETTE
minimiza o tamanho
dos índices, melhora
a precisão da busca e aumenta a relevância.
RNI
RSA
ÍNDICE
ROSETTE
SentimentBUSCA
Analyzer
RNI
(aluno)
BIGRAMAS
Pequim
2
3
3
4
(não
Universidade
palavra)
4
5
(aluno)
5
6
Depto. de
Biologia
6
7
(não
palavra)
“Aluno” corresponde incorretamente a “Departamento de Biologia
da Universidade de Pequim”.
Não corresponde corretamente a “Departamento de
Biologia da Universidade de Pequim”.
1
2
学
Universidade de Pequim
Departamento de Biologia
Não corresponde
corretamente a
“Departamento de
Biologia da
Universidade de
Pequim”.
Compatibilidade
Compatibilidade
Base de código
Entity Extractor
Compatibilidade com plataformas
REX
Entity Resolver
RES
Make real-world connections in your data
Como parte do processo de lematização,
usa‑se modelagem estatística para determinar
a categoria gramatical correta até mesmo em
Actionablepalavras
Insights
ambíguas. Em seguida, cada token
é marcado para melhorar a compreensão
BUSCA RADICAL
LEMA
e a relevância da busca.
Corresponde
nomes em
diversas
Name Indexer
variações
animals
Duas palavras
não relacionadas animated
podem
compartilhar um
radical.
RNT
anim
animal
animate
Name Translator
RNI
EXTRAÇÃO DE SINTAGMAS
NOMINAIS
RNT
Traduz nomes de outros idiomas
o
Certospara
substantivos,
especialmente os nomes
sever
several
A identificação
inglês several
próprios, podem ser bem difíceis de identificar
de radicais
pode fornecer
resultados
indesejados.
RCA
como entidades únicas. O RBL agrupa
substantivos e seus modificadores, o que é útil
no agrupamento de documentos e na extração
de conceitos.
Categorizer
RCA
Categorize Everything In Sight
spoke
spoke speak (v.)
Verbos e
DETECÇÕES DE SENTENÇAS
spoke (n.)
substantivos
irregulares
confundem o
identificador de
radicais.
RSA
Sentiment Analyzer
EUROPA OCIDENTAL
-
-
-
-
-
-
-
-
-
-
-
-
-
-
RSA
O início e o fim de cada sentença
automaticamente, mesmo
Detect The Sentiments Of Youré identificado
Text
que o uso de pontuação seja ambíguo.
Idiomas disponíveis
Mecanismos de busca
RBL
Exemplo: inglês
A análise linguística é útil em todos os idiomas.
No inglês, a lematização melhora a precisão e a
recuperação.
DESAFIO
Departamento
de Biologia
Universidade
de Pequim
Base Linguistics
Identidades
correspondidas
geralmenteprecisão
resulta em recuperações
adicionais
Exemplo: alemão
e baixa precisão. Em vez disso, o RBL encontra a
Samstagmorgen é uma palavra composta
forma dicionarizada de cada palavra, conhecida
formada por Samstag (sábado) e morgen
como lema, usando vocabulário, contexto e
(manhã). A decomposição permite uma
análise morfológica
avançada.
Como
não
há
correspondência
adequada ao buscar “Samstag”.
Marca nomes de pessoas,
lugares
e
Nomes
traduzidos
indexação de todas as formas flexionadas, a
organizações
indexação da forma raiz aumenta a relevância
MARCAÇÃO DE CATEGORIA
das buscas e diminui os índices de busca. Os
GRAMATICAL
lemas alternativos também são disponibilizados
por meio de uma indexação complementar.
Sorted Content
Pronome Verbo Adjetivo Substantivo
RES
Biologia da Universidade de Pequim” e uma
busca subsequente de “aluno”:
2
RBL
Name Translator REX
ROSETTE
RCA
Exemplo: chinês
Categorizer
Considere o problema de indexar “Departamento de
RLI
O RBL quebra palavras compostas em
A maioria dos mecanismos de buscaReal
utilizam
Identities
subcomponentes e fornece para indexação
um método bruto de eliminar caracteres
cada elemento individualmente, o que é muito
no final de uma palavra, na esperança de
útil para aumentar a relevância das buscas em
remover diferenças sem importância. Esse
Busca em diversos idiomas com
alta
idiomas
como o alemão e o coreano.
método, chamado de identificação de radicais,
Name Indexer
RNT
1
LEMATIZAÇÃO
DECOMPOSIÇÃO
RLI
Identifica idiomas e codificações
Alemão
Catalão*
Dinamarquês
Espanhol
Finlandês*
Francês
Grego
Holandês
Inglês
Italiano
Norueguês
Português
Sueco
Tcheco
EUROPA ORIENTAL
ORIENTE MÉDIO
ÁSIA
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Albanês*
Búlgaro*
Croata*
Eslovaco*
Esloveno*
Estoniano*
Húngaro
Letão*
Polonês
Romeno
Russo
Sérvio*
Turco
Ucraniano*
Árabe
Hebraico
Pachto
Persa
Urdu
Chinês simplificado
Chinês tradicional
Coreano
Indonésio
Japonês
Malaio*
Tailandês
* Assistência limitada
© 2015 Basis Technology Corporation. “Basis Technology” e
“Rosette” são marcas registradas da Basis Technology Corporation.
Todas as outras marcas comerciais, marcas de serviços e
logotipos usados neste documento pertencem a seus respectivos
proprietários. (2014-12-17-RBL)
SEDE
FEDERAL
COSTA OESTE
EUROPA
ÁSIA
One Alewife Center
Cambridge, MA USA
02140
2553 Dulles View Dr.
Suite 450
Herndon, VA - USA
20171
1700 Montgomery St
San Francisco, CA
94111
Furzeground Way
Middlesex UB11 1BD,
UK
9-6 Nibancho,
Chiyoda-ku
Tokyo 102-0084,
Japan
ROSETT
Lang
ROSETT
Base
ROSETT
Entit
ROSETT
Entit
ROSETT
Nam
ROSETT
Nam
ROSETT
Cate
ROSETT
Sent
Download