• 读《The web of topics: discovering th topology of topic evolution in a corpus》笔记


    导语:建议先看这篇论文,再来看我这篇笔记,你会有一个大体上的,思路上的把握,能够帮助你抓住文章的思路和主要路线。是怎么做的?做了什么?用最简要的话概括出来,围绕这个主线,再来展开问题,作进一步的研究和探索。

    本文中,我们研究了怎样去发现话题在时间上的演化。我们的方法可以获得文本集中的话题演化的网络结构。我们发现话题,然后连接,形成一个话题演化图。我们的方法允许话题在时间上不均匀的分布,而且不对话题演化的图做任何的拓扑结构上的限制。我们用ACM论文集验证了我们算法。得到了很好的结果。

    1. 探测新话题

    一个文本集中,一个话题是包含很多篇文章的。随着时间的推移,话题开始改变。随着改变的积累,在某个时间点上,一篇或多篇文章就开启了一个新的话题。而这个新的话题,有可能die out或者是被随后的很多篇文档所分享。如果这个话题兴起,则我们就可以对这个变化做一个量化,来形成一个新的话题。但是,新话题的是在整个文本集的背景下,或者说是环境下产生出来的。通过连接新话题和之前的话题,我们能够看到话题的演化过程。

    新话题要满足两个条件:第一,话题要有新内容。第二,这个话主题要涵盖到大量的文档。

    如下定义:

    clip_image002[6]

    clip_image004[5]

    定义背景模型为clip_image006[4]clip_image008[4]

    我们使用clip_image010[4]来表示一个话题

    1 这个话题的起始paper

    2 词分布

    3 与起始paper有共同内容的papers,相当于是一个follower

    假设我们已经按年代来扫描了t-1个文档,并且发现了k个topic,然后接下来我们要对第t篇文档进行处理:

    clip_image012[4]来表示dt的内容

    clip_image014[4]

    内容表示出来之后,我们再来判定 f 文档是不是follow dt文档的内容,用以下指标:

    clip_image016[4]

    clip_image018[4]

    为了找到这些内容为clip_image020[4]的文档,我们将那些直接引用dt的文档作为candidate pool。从中选出g值最高的q篇文档,记为集合F,称之为top followers of dt。

    为了检测dt是否含有新话题,和它的新话题是不是有很多文章跟进,用以下指标来判断:

    clip_image022[4]

    如果以上条件均满足,则产生一个新的topic clip_image024[4]

    2. 发现话题之间的关系

    在发现新话题之后,我们接下来就是要跟踪话题的演化关系了。

    为了从文本内容上来更准确的表示clip_image026[8],以前是用start paper的内容来表示,现在用 F 和 start paper联合来表示

    clip_image028[5]

    下面来认定话题clip_image026[9]的 Member:

    用 g 得分值来衡量一篇文档 d 与 话题clip_image026[10]的相关程度:

    clip_image030[6]

    得到

    clip_image032[5]

    在得到每个topic的 Member set 之后,可以开始计算两个 topic 的相关度了。

    对每一对topic ,我们使用Cross citation count 作为它们的关系数据,其定义为:

    clip_image034[5]

    clip_image035[4]

    Cross citation count

    关系强度指标:

    clip_image037[4]

    这个通过n1 * n2次的伯努立试验,详细解释见原论文,可以得到如下:

    clip_image039[4]

    由于前面这一项是常数,于是我们关注下式:

    clip_image041[4]

    c 为cross citation count(交叉引用数)。

    进一步为这个关系指标高一个阈值

    clip_image043[5]

    参考:

    Yookyung Jo, John E. Hopcroft, Carl Lagaze. The web of topics: discovering th topology of topic evolution in a corpus. In WWW, 2011

  • 相关阅读:
    【架构师必看】淘宝从百万到千万级并发的14次服务端架构演进之路
    Nginx(四)------nginx 负载均衡
    Nginx(三)------nginx 反向代理
    Nginx(二)------nginx.conf 配置文件
    Nginx(一)------简介与安装
    nginx配置ssl实现https访问
    架构设计的五大原则-SOLID
    ABP开发框架前后端开发系列
    Windows程序通用自动更新模块(C#,.NET4.5以上)
    网络通讯中粘包的处理
  • 原文地址:https://www.cnblogs.com/hengli/p/2723264.html
Copyright © 2020-2023  润新知