全文索引用于处理大文本集合,利用它人们可以在海量文本中快速获取需要的信息。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。
全文检索的核心技术是将源文档中所有的基本元素的出现信息记录到索引库中。中文全文检索技术在原理上同西文全文检索是一致的,但汉字本身的特点使中文系统的实现比西文系统更为复杂。在西文中,文档的基本元素是单词,可以以单词建立索引库,而且单词与单词之间有天然的间隔符空格,所以索引文件的建立相对简单。在中文系统中,基本元素可以是单个汉字字符,也可以是词。
灵玖Nlpir Parser智能语义平台全文搜索系统内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。
同时,全文搜索中间件可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。
其主要特色在于:
1、可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;
2、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配;
3、实现的是多线程搜索服务;
4、 每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。
5、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。
Nlpir Parser智能语义平台全文搜索系统可以适用于众多应用场景,它的广泛适用性体现在能处理结构化和非结构化的各类文本数据,能够采集各种来源文本,这些来源可能是跨越广泛地理分布的,也可以是不同介质、不同格式产生的文本。全文检索具有对检索出的文本进行处理的能力,并且以用户乐于接受的形式提供检索并加工处理文本,使检索系统功能得到了延伸。