如何科学化、系统化的构建行业舆情模型（关键词方案）

如何科学化、系统化的构建行业舆情模型（关键词方案）

本文转自知乎

作者：苏格兰折耳喵

—————————————————————————————————————————————————————

大家在做某个领域的舆情口碑监测时，非常关键的一步就是制作舆情模型（也叫关键词方案，一般通过“或”“与”“非”等布尔逻辑连接起来，另外还附带排除词方案，用于过滤垃圾信息），因为购置舆情系统只是一个“空壳”，需要用舆情模型注入灵魂，检索到符合业务需求且相关性极强的信息，这是监测和分析的前提条件。

根据我的日常实践，以“汽车行业”的舆情模型的构建为例，粗略步骤如下：

1. 定维度。通过调研垂直领域网站，发现该领域的结构/体系，并遵从咨询界的黄金法则---MECE原则，即“不重复、无遗漏”，主要针对消费者/用户关心的方面，并在桌面调研中建立起符合业务需求的维度，并明确每个维度的概念、范围和操作性定义（如下表所示）“。这一步是非常关键的，决定下面的各个维度词汇的选择。

2. 充词汇。爬虫垂直网站上的用户评论语料或者专业评测文章，分词后进行检索、词向量模型训练，用来探索领域内专有词汇，这一步是发散，要尽可能用检索到的词汇来丰富各维度。另：可采用业界开源的词向量模型，如腾讯AI lab近期开源的16g包含各领域语料的词向量模型。举个例子，通过词向量模型，找到“动力”相关的词汇，其中有很多是其下位词。

3. 精筛选。这一步要进行收敛，尽可能的保证各维度下的词汇具有“领域专有性”，也就是能独立代表各个维度。具体方法可以是人工挑拣，或者是利用机器学习的词聚类，最好是人机相辅的做法。

4. 做校验。将各维度的词向量通过或与非的布尔逻辑整理成关键词方案后，放置到舆情监测系统中进行测试，通过检测到的结果对监测方案进行校正，并查找到各维度对应的排除词，保证检索结果的准确性。

5. 重复-复盘-更新。以上流程是一个循环往复的闭环，需要不断更新迭代。

注：

（1）在不超过监测方案字数的情况下，最好最大限度的保留具有“语义独立性”的长词/领域专有词，这通常是在该维度方案字数较少的情况。

（2）在精简方案、合并关键词的时候，需要注意以下两种情形：

1）形容词+名词，可分离，提取核心主体词的情形，如从“多功能行车电脑”中可以抽离出“行车电脑”这个核心主体词，“多功能”是对后者的修饰。

2）不可分离，已经是最小语义单位，如“刹车片”和“刹车”，一个是“配置”里的，另一个是“行驶过程”里的。
相关阅读:
HSF原理
 Spring IOC 容器源码分析
 Spring Bean注册和加载
 CAP和BASE理论
 Java内存模型
 Java线程模型
 IO复用、多进程和多线程三种并发编程模型
 无锁编程本质论
 An Introduction to Lock-Free Programming
安装与配置ironic
原文地址：https://www.cnblogs.com/luoluo-123/p/10126654.html