第十章、文本与网络数据挖掘
概述:
对于文本挖掘,半结构化和非结构化文档是最主要的数据集。文本挖掘有几个主要的类型,比如聚类、文档检索与表示,以及异常检测,文本挖掘的应用包括,但不局限于,话题追踪、文本总结与分类。对于网络挖掘,网络内容、结构和使用挖掘是网络挖掘的一个重要应用。网络挖掘也可以用于用户行为建模、个性化观点和内容注释等。从另一个方面讲,网络挖掘集成了来自挖掘技术和来自万维网的信息。
1.文本挖掘与TM包
流行的文本聚类算法包括基于距离的聚类算法包括基于距离的聚类算法、层次聚类算法和基于划分的聚类算法等。
流行的文本分类算法包括决策树、基于模式的分类、支持向量机分类和贝叶斯分类等。
作为流行的预处理步骤,这里提供了词提取算法的细节。
2.文本总结
文本总结的目标是生成一个简洁且一致的结论或者输入的主要信息的总结。大多数的总结系统执行如下3个步骤:
①构建一个包含输入文本关键点的主要部分的临时结构。
②结合第一步的输出对输入的句子评分。
③用几句话的总结来代表输入文档。
一种流行策略:去除不重要的信息、子句或句子,同时,建立分类器以确保关键信息没有被去除,从另一个角度看,就是在归纳过程中,相对重要的主题信息再次发挥作用。最后结果以连贯方式表示。
归纳总结是一个动态的不间断过程。第一步,我们需要对一套旧文档的数据集构建总结,即多个文档的总结。第二步是归纳新文件的总结。
2.1 主题表示
主题表示,比如主题签名,在文档总结系统中起着重要作用。
主题签名定义为一组相关术语,主题是目标概念,签名是具有具体权重的与主题相关的术语列表。
2.2 多文档总结算法
在这里使用多文档总结的基于图的子主题划分算法(Graph-Based Sub-topic Partition Algorithm,GSPSummary):
在此算法中还要用到排序算法:GSPRankMethod算法
2.3 最大边缘相关算法
最大边缘相关算法(Maximal Marginal Relevance,MMR)在每次句子选择迭代中选择最重要的句子,比较适合基于查询和多文档总结,可用来生成目录。每一个选择的句子与已选择的句子集具有最小相关性。
算法详细解析: https://blog.csdn.net/ZJRN1027/article/details/81136761
3.问答系统
问答系统是一个与信息检索、信息提取、自然语言处理和数据挖掘等相关的热门话题。问答系统对大量文本集进行挖掘来寻找用一定精度回答用户问题的短语或句子。
基本上存在3种类型的问答系统:槽填充(slot filling):查询和应答的形式是类似的;有限域(limited domain):词典和本体的领域是有限的;开放域(open domain):领域没有限定。问答系统一般由3个主要部分构成:用户界面;对问题的处理以及答案的生成部分。
4.网页分类
分类可以用于大型文章语料库和网页。一个流派可以用目的和实物主义来定义,它表示被广泛接受的文本分类这些文本分类是根据共同的交际目的或者其他功能特征来定义的,并且这些分类是可拓展的。另一流派还可以基于小平面、语言的复杂性、主体以及图数来定义。
对于网页分类可能的解决方案包括,但不限于,朴素贝叶斯、k近邻、支持向量机和作为分类方法的树节点等。
5.对报刊文章和新闻主题分类
5.1 基于N-gram的文本分类算法
在一个较长的字符串中,一个N字符(N-character)片段称为N-gram。该算法的关键点是计算N-gram频率的曲线。
6.使用网络日志的网络使用挖掘
网络使用挖掘表示网络日志(比如系统访问日志)和事务中的模式的发现与分析。输出是网络上用户交互与资源间的关系。用户行为可以给予这个输出来识别。网站日志记录网络用户与网络服务器、网络代理服务器和浏览器交互的踪迹。
流行的网络使用挖掘过程主要包括三个步骤:数据收集与预处理;模式发现;模式分析。
预处理包含数据清洗、会话识别和数据交换;模式发现包括路径分析、关联规则、序列模式以及聚类、分类规则。
6.1 基于形式概念分析的关联规则挖掘算法
FCA算法
7.总结
本章中主要涵盖了问答系统、主体检测和网络挖掘的介绍。
正文内容完结