定义:
实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。
简单实现
首先我们需要准备一个类似于下面的这种实体库:
id | 实体名 | 实体描述 |
---|---|---|
1001 | 苹果 | 美国一家高科技公司,经典的产品有Iphone手机 |
1002 | 苹果 | 水果的一种,一般产自于… |
… | … | … |
然后当我们拿到Text时,比如“今天苹果发布了新的手机”
我们可以将实体库中的实体描述,全部转换为向量,例如:
“美国一家高科技公司,经典的产品有Iphone手机”转换为向量V1
“水果的一种,一般产自于…”转换为向量V2
然后将“今天苹果发布了新的手机”中“苹果”的上下文“今天,发布了新的手机”转换为向量Vt
我们只要将Vt分别与V1和V2计算相似度,然后对比sim(Vt,V1)和sim(Vt,v2)
相似度高的,我们则将其看作“苹果”的真实语义。