步骤一:给出多个需要过滤的、语义性比较强的例句。使用依存句法分析,将结果保存起来。
步骤二:对邮件或短信进行依存句法分析, 然后与步骤一中的结果进行依存树的相似度计算[1]。
步骤三:如果步骤二的相似度达到一定值则过滤此信息, 否则此信息通过。
注释:对于拆字、 同音替换等模糊信息。请参考文献2
参考目录:
1:基于语义依存的汉语句子相似度计算, http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=214
2:面向短信过滤的中文信息模糊匹配技术, http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=214