问MR.yang,学到了如下:
新词发现 是基于统计学习方法,用概率论知识:
新词发现整体思想:
内凝聚 外丰富
整体两大步骤:
首先得到一个已有的词库,
1.外丰富:
计算一对词之间的左熵和右熵,熵越大,越说明是一个新词。因为熵表示不确定性,所以熵越大,不确定越大,也就是这对词左右搭配越丰富,越多选择。
如: 屌丝,这个词,我们希望左右熵都很大,希望屌丝这个词左右边搭配尽可能丰富,如左边:这屌丝、臭屌丝、穷屌丝;右边:屌丝的,屌丝样、屌丝命等。左右搭配丰富
2.内凝聚: 计算一对词的互信息:互信息越大,越可能是一对新词
如: “这是” ,这两个字合在一起出现的左右熵都很大,因为“这是”造句很多,但它不是一个词,怎么判断呢。用互信息表示两者的内连。
“这“和”是“两个互信息会很小,因为”这“可以搭配很多:这个、这样、这么等,但是”这是“互信息会小。
那么左右熵和互信息两者比例权重要如何设置才设为新词发现的函数呢?
设立函数形式为 alpha*互信息+(1-alpha)*左右熵。
alpha经验得到。
问题:
1.训练集和测试集如何用呢?
2.为什么内聚就是用互信息表示的? 为什么不是用信息熵表示呢? 为什么外丰富不是用互信息表示呢?