A Lead-Lag Analysis of the Topic Evolution Patterns for Preprints and Publications
原文地址:http://info.slis.indiana.edu/~dingying/Publication/LeadLagfinal.pdf
这篇是丁颖和她的学生在2014年写的文章,将要发表在Journal of the Association for Information Science and Technology上。
文章对预印本论文和正式出版论文的知识演化路径进行分析和比较,发现二者区别和联系。
文献综述部分
-
预印本分析
对预印本数据库arXiv进行分析,相关研究表明,和WoS相比,arXiv的引用率较低,尤其在文章正式出版后,对arXiv的引用率急剧下降。
-
时间模式分析
- Shaparenko等建立识别文章影响力的方法,使用K-Means方法对文章中的词进行聚类,将距离类中心最近的5个词作为类的标识,并通过图形描述这些词的词频随时间变化趋势。Shaparenko等假设如果一篇论文产生了大量的后续研究(没有利用引文,具体怎么识别?),而且如果后续研究通过聚类得到的词与该论文的词相似,就说明该文章影响力很大,并基于该假设建立了超前-滞后指数(lead/lag index),通过该指数可以测度一篇文章是领导者(leader)还是跟随者(follower),最终作者通过和引文比较,发现该方法可以成功识别新的有影响力的观点的论文,而且可以识别出一些引文识别不到的内容。
这个方法有点意思,需要仔细研究下这篇论文。
- TimeMines(2003)方法,这篇文章很老了,利用词频及词共线等统计分析方法,对不同时间窗内的主题进行识别。
- Temporal Text Mining (TTM)方法(2005)[被引372次],利用马尔科夫链和KL-divergence发现主题演化趋势。
- Kleinberg (2003)的突发词识别方法,也是非常著名的算法,已经有开源的软件包可以用。
- Shi, Nallapati, Leskovec, McFarland and Jurafsky (2010)等人为了确定基金资助的研究项目是否是处于领先地位,对2万多个计算机领域的基金申请书摘要与50万篇计算机论文摘要进行了对比分析,构建了论文和基金的领先-滞后分析模型,并且基于LDA模型和时间序列分析模型建立了一个通用的方法。结果表明安全与密码学领域的论文领先基金2年时间(这个发现让该领域的基金资助者情何以堪?),但是在神经网络领域基金研究要比研究论文早3年时间。
这个研究也比较有趣,需要看下方法。
-
主题分析
主题分析的目的是主题发现算法通过词在文档中的分布自动从语料库中利用抽取主题。但是主题个数的设置方法却比较混乱(perplexity)(这一点深有体会)。
- Blei的LDA及其扩展模型,例如DTM(Dynamic Topic Model)可以识别主题演化等。
- Mann, Mimno and McCallum (2006)应用主题模型对30万篇计算机论文进行分析,从而提供基于主题的影响力分析,将期刊影响因子扩展到了主题,并引入了3个影响力测度指标。
- (1)主题差异性(不同主题间的引用)
- (2)主题转移(期刊所包含主题外的主题对该主题的引用)
- (3)主题优先级(是否首先创建了该主题)
基于上面3个指标,基于短语而不是词,开发了Topical N-Grams LDA模型。
Gerrish and Blei(2010)基于Dynamic Topic Model提出了论文影响力模型,document influence model (DIM),该方法不依赖于引文,基于以下假设
一篇论文在未来的影响力可以通过在这篇文章发表之后该领域的语言变化来证明。如果一篇文章中的词可以促进该词的词频变化,那么该文章的影响力较高。
实验结果表明该方法计算得出的影响力和引文得到的影响力相符。
LDA的问题:
- LDA的主题标签问题:LDA采用软聚类方法,每个主题使用权重较大的topN个词作为类标签,这可能造成多个类标签非常相似,也会导致类标签可解释性较低。
- LDA结果的评价问题:在不同的应用中,评价都较为主观。
实验数据与方法
-
数据来源
- (1)arXiv:从astrophysics目录下抓取数据,该目录下有6个子目录,最终获取数据117,913条,时间从1992-2011。并将所有数据在WoS中检索,然后把那些又在WoS中出现的文章移除。
- (2)WoS:从WoS中下载astrophysics类下的所有文章,时间也选择1992-2011,共得到数据166,191条研究论文。
-
LDA建模
- 数据预处理过程:
- (1)
- (2)从标题中删除30个常用的通用短语
- (3)如果出现一个短语的文献少于3篇,则删除该短语
- (4)如果一个标题的短语少于3个,则删除该文章
- (5)类的个数为50
- 使用The Stanford Topic Modeling Toolbox (Stanford TMT:http://nlp.stanford.edu/downloads/tmt/tmt-0.4/)进行LDA建模。
-
回归建模(Regression Modeling)
对主题和时间进行回归建模,没怎么看懂。
试验结果
利用LDA模型将arXiv和WoS数据集分别分为50个类,并将两个集合中的类进行对应(如何对应)。每个类的标签用前5个短语表示。