现象:
用fast search搜索的时候发现如下现象
使用“土地工农费用、征地费用、地籍费用管理业务”无法搜索到结果。容易使对搜索结果产生怀疑,明明在数据库总有这样的数据呀。
发现:
使用“土地 工农 费用 征地 费用 管理 业务”搜索可以搜索到结果。其实这样就可以很容易看出来,原理是分词的原因。分词的好坏决定了搜索的质量。
在 FAST Search Server 2010 for SharePoint 中,您可以使用两种方法影响默认词汇切分:语言词汇切分 和子字符串词汇切分。
语言词汇切分
语言词汇切分表示根据特定语言规则将一个文本字符串拆分为单个标记。对于东亚语言,可通过创建自定义词典来影响词汇切分。如果 FAST Search Server 2010 for SharePoint 提供的系统词典中缺少单词(例如技术术语、人名或公司名称),或者默认词汇切分不正确,则可以向自定义词典中添加单词以确保根据需要对它们进行标记。
子字符串词汇切分
对于检索次数非常重要的应用程序,子字符串词汇切分尤其有用。子字符串词汇切分会移除文本中的所有空格,然后将其拆分为双字母组(与两个字符的长标记重叠)。例如“アメリカ” (美国) 可拆分为: ア,アメ,メリ,リカ (a、ame、meri、ca)。
子字符串词汇切分会增加检索次数,但会降低精确度并显著增加索引的大小。如果减小索引大小比增加检索次数更为重要,则不要使用子字符串词汇切分。为尽可能不降低精确度,可以结合使用子字符串词汇切分和语言词汇切分。
参考:http://technet.microsoft.com/zh-cn/library/gg130819.aspx
------------------------------------------------------------------------------------------------------------------------
更新一下:
1. 使用“土地工农费用、征地费用、地籍费用管理业务”也是可以的查询的。
2. 但是“有限公司”不能查询出结果,改成“有限 公司”才可以。
努力过就不会后悔