七、如何表达用户兴趣与结果的关系?
1、如何有效地处理垃圾信息?(对我们来说,暂无意义)
采用可定制的白名单的方式,过滤掉与用户无关的、使用户反感的文档或网站。
2、如何处理个性化信息(如何建立文档和用户兴趣关系的表达)?
目的是,建立文档和用户兴趣之间的关系,实现用户兴趣的建立、更新。
A、矢量空间模型
通常文档的表达是矢量空间模型,这个很容易理解,将文本文档看成由一组词条,对于每一词条,根据其在文档中的重要程度赋予一定的权重,所有的文档都表示用词条特征矢量来表示,也就保证了文档和用户兴趣之间相似性计算。
不足之处:
1、预先定义好主题词表。
2、进行精确匹配不能保证两个矢量之间存在很多相交的词。
B、概率统计模型
建立一个领域分类模型,然后计算所有文档和用户兴趣在这个分类模型上的概率分布,用该概率分布来表达文档和用户兴趣。用户在领域分类上更容易产生相似性。概率模型比矢量空间模型能更好地表达了用户的兴趣和变化。
(这是我们可能采用的方式,具体建模及计算概率公式,省略)
C、改进的地方:
概率统计模型实际上是建立另一个搜索引擎,对搜索结果中的每一篇文档都必须计算其在领域分类模型上的概率分布,这会极大地影响算法的性能,如果该搜索引擎能够预先计算好每一篇文档在领域分类模型上的概率分布,则算法的性能会得到很大的提高,从而满足实时处理的需要。
八、回顾整个个性化搜索引擎的实现流程
整个个性化模块实现步骤:
1) 对用户兴趣进行收集。
2) 用户描述信息确定、分类。
3) 资源信息特征选取、分类。
4) 建立用户和兴趣的关联,兴趣和资源的关联。
5) 利用资源和用户兴趣的关系,计算出搜索结果中的每个文档和用户兴趣的相似度,并对相似度进行排序。
6) 用户对搜索结果进行评分(或记录用户行为),更新该类用户的兴趣规则。
九、预想的能够实际实施的个性化搜索方案
只言片语,最终结果需要大家探讨。
几个实施的接入点(划分模块):
1) 用户信息、行为收集、维护。
2) 用户兴趣领域模型的建立。
3) 资源的特征捕获。
4) 相似度算法植入现有搜索引擎。
搜索后端:
立足在目前Solr引擎,通过改进建立索引时的预测计算、预留字段,对用户行为改变进行记录,周期性对某些用户关注度高的关键词,索引进行预留字段的更新。
搜索前端:
用户行为分析、隐私保护
十、结语
说到底,个性化搜索引擎技术难点主要在数据挖掘和语义分析,而优秀和卓越的差距不外乎于这两点关键。
对于目前属于争取做到优秀的我们而言,用户需求和产品设计本身也是较为重要的内外在因素。
参考文献:
1、曾春:《基于内容过滤的个性化搜索算法》,清华大学,2003
2、林洁:《基于用户的个性化综合倒排索引》,贵州电子科技信息技术学院,2008
3、魏小梅:《个性化搜索引擎技术探讨》,华中理学院,2006
4、王秀坤:《垂直搜索引擎及其个性化推荐研究 》,大连理工大学,2009