作废 - 润新知

作废

近年来医疗数据挖掘发展迅速，然而目前医疗数据结构化处于起步阶段，更多的医疗数据仍然以自然语言文本形式出现，这些医学文本资料中的知识是不同地域、不同时代人们智慧的结晶，展现的是大量、未整理的文献资料以及诊疗记录，而这一点在中医学中尤为突出。
自然人的学习能力有限，因此学者们尝试通过自然语言处理（Natural Language Processing，NLP）辅助完成汇总中医知识的过程，将知识提炼出来，提取其中有用的诊疗信息，最终形成知识本体或者知识网络，从而为后续的各种文本挖掘任务提供标准和便利。NLP属于人工智能的子领域，其核心目的是使得计算机能够理解和生成人类的自然语言，任务主要包括信息抽取、机器翻译、情感分析、摘要提取等，所用到的技术包括命名体识别、语义消歧、指代消解、词性标注、结构分析等。大量医学文本资料中含有的病史、诊断、治疗方法、药物等名词，给NLP的应用提供了可能性。利用 NLP技术将隐藏在文本中的知识挖掘出来，对医学的发展具有重要意义，目前已有医学和生物学领域的相关研究[1] 。同时 20世纪80~90年代，一些医学本体数据库逐渐建立起来，如一体化医学信息系统、临床医学系统术语等，使得利用NLP 挖掘医学知识的资料和工具更为充足。

1　关联规则挖掘

2．1．1　概述　关联规则是数据挖掘的常用方法，
核心在于分析类似 “某些事情的发生引出另外一些事件的发生” 的规则，包括简单关联、时序关联、数量关联、因果关联等，核心算法是以支持度和置信度作为判断标准，确定是否存在关联关系。著名的关联算法有Apriori算法及其改进算法FP-growth ，通过计算出频繁项集来表示规则前件和后件中的事项明显同时出现。
2．1．2　关联规则在中医学中的应用　主要是方剂
的关联性挖掘，如任廷革等[2] 尝试构建了中药方剂数据库，收集了近 2000年来约 10万个方剂数据，共 100万余条数据记录，而且给出了从中挖掘关联规则的方法[3] 。王大阜[4]使用 Apriori算法对所收集的方剂数据库进行关联分析，挖掘出了当归＝＝＞生地（支持度 7.86%，置信度 78.57%）、白藓皮
＝＝＞土茯苓（支持度7.14%，置信度83.33%）等关联规则，将方剂中常用的搭配药物分析出来，对中药的配方循证起到指导作用。朱立成［５］对445例名医医案进行关联分析，挖掘出哮喘医案的病因、病位、证候与四诊信息的关联关系，病因、病位、证候、四诊信息与用药的关联关系，以及中药之间的关联关系。
2．1．3　局限性

关联分析挖掘出来的知识有限，仅仅考虑到了并发的情况，一般局限于某个术语与其他某个或某些术语共现频次较高类似的结果。大部分的应用建立在获取结构化数据的前提条件下，更多展现的是对结构化数据分析的能力。

2．2　聚类分析
2．2．1　概述　中医有阴阳五行学说，人体有五脏六腑之分，均彰显出可分类的特点，聚类分析应用于中医学中应当与中医自身的性质相契合。学者们利用聚类分析方法对中医文本挖掘进行研究，具体为症状分类和药物评价。
2．2．2　对症状的聚类　症状分类的语料多来自中医的诊断手稿，常见于从某一种特殊的疾病入手，利用诊断手稿对症状聚类，得出该疾病的表型特点。麻晓慧［６］利用有关胆道感染、胆石症病案共７３９例，将９２项临床表型聚类，得到胆病症状的表现分类特点，归纳总结了胆病的症状群。袁世宏等［７］使用聚类分析方法寻找肾虚症状的自然类群，聚类的结果与中医理论的描述基本一致，为中医的科学性提供了很好的佐证。除症状之外，何裕民等［８］使用模糊聚类，得出体质的类型分类（强壮质、虚弱质、失调质）及若干亚型。
2．2．3　药物评价聚类　药物评价方向主要是利用聚类方法将类似性状或相同功效的药物聚在一起，应用中医药理论总结知识。何前锋等［９］对中药按照功效聚类，定义药物之间的相似性，对中药分类整理做出一定的贡献。
2．2．4　局限性　相比于信息抽取，聚类分析偏向整体性质，从宏观的角度对疾病、症状、药物做出分类整理，只能得到概括性的评价，无法挖掘出具体的诊疗方法信息。

2．4　机器学习
医学中机器学习应用比较广泛的是针对结构化数据的分类方法，基于自然语言处理的方向相对较少，机器学习方法应用于文献的分类较为广泛，与文本知识挖掘为不同的研究方向，故不做赘述。中医方面，一些学者尝试使用机器学习技术就某个具体问题提出解决思路，取得一定的成效。孙燕［１２］尝试利用支持向量机及相关改进算法对《伤寒论》进行方证分析和量化研究，针对特定药材量化分析并且应用支持向量机对《伤寒论》按照八法训练分类，给出了一些结果。晏峻峰等［１３］利用粗糙集理论对中医诊断证素推理规则的获取、症状辨证素的量表制定等证素辨证研究的关键问题进行了研究，主要对症状的诊断和互相之间的关系做出一些系统性探讨。徐蕾［１４］提出将决策树方法应用于中医证候学研究的思路，说明决策树方法在中医诊断辨证中的应用前景。卢延鑫等［１５］通过词性标注规则提取名词并应用支持向量机对其分类，判定是否为致病因素并与流行病学专家给出的评测结果对比，得到了最高８０％的准确率。

3.1 命名实体识别

名词解释：生物命名实体识别，就是从生物医学文本中识别出指定类型的名称，比如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等。

研究背景：

应用领域：生物命名实体识别

应用方法：基于规则的方法[16]、词典匹配的方法[17]以及机器学习的方法，如支持向量机(SVM)[18]、最大熵[19]、条件随机场 (CRF)[20]以及隐马尔科夫(HMM)[21]等。

方法具体介绍：

3.2 信息抽取（信息提取）

1）研究背景：中医文献大都是以自然语言的方式描述的，而且纷繁复杂，医疗记录中蕴含着症状、诊断信息，医书中蕴含方剂、病理信息，药物典籍中蕴含组分、制作方法信息等，如果采用人工方法提取这些信息，耗费的人力、物力是难以估量的。然而，由于中医术语名词都包含在描述语言中，而且文献描述语言简练、逻辑简单，因此可以考虑使用信息抽取算法来自动获取结构化信息。
2）典型应用：隐马尔可夫模型为主的信息抽取　近年来，隐马尔科夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）在信息抽取领域中被广泛应用。顾铮等［１０］利用ＨＭＭ对中医古籍进行了信息抽取，将症状、病因、脉象和方剂看作模型的４种状态，然后利用命名实体识别结合人工标注的方法来从文献中提取相应的名词，最终计算出ＨＭＭ相关参数，达到了信息抽取的目的。庄力［１１］以中医临床诊疗数据面向普通公众便捷信息服务为目标，设计并实现了中医临床诊疗垂直搜索系统ＴＣＭＶＳＥ，可以完成Ｗｅｂ信息搜集、信息抽取、信息索引与检索等功能。
3）应用方法：

3.3 信息检索

1）研究背景：
2）典型应用：
3）应用方法：

3.4 医学影像

1）研究背景：
2）典型应用：
3）应用方法：

[1]王浩畅,赵铁军生物医学文本挖掘技术的研究与进展[期刊论文]-中文信息学报 2008(03)

[2]任廷革,刘晓峰,高剑波,杨斌,孔广黔,张帆,王欣 "中医药基础数据库系统"介绍[期刊论文]-中国中医药信息杂志
2001(11)
[3]任廷革,刘晓峰,张帆,孙燕,汤尔群计算技术对中医方剂知识的挖掘[期刊论文]-科技导报 2010(15)
[4]王大阜关联规则在中医方剂数据集市中的应用[期刊论文]-贵州大学学报（自然科学版） 2006(03)

5.朱立成,林色奇,薛汉荣,查青林,张启明,吕爱平名中医哮喘医案445例关联规则分析[期刊论文]-江西中医学院学报
2007(05)
6.麻晓慧,王泓午,何裕民胆病症状学聚类研究[期刊论文]-中国中医基础医学杂志 2000(12)
7.袁世宏,王米渠,王天芳,严石林,毕焕英,师建梅,赵燕聚类分析对肾虚症状的探索性研究[期刊论文]-北京中医药大
学学报 2006(04)
8.何裕民,楚更武体质的聚类研究[期刊论文]-中国中医基础医学杂志 1996(05)
9.何前锋,周雪忠,周忠眉,崔蒙,吴朝晖基于中药功效的聚类分析[期刊论文]-中国中医药信息杂志 2004(06)
10.顾铮,顾平信息抽取技术在中医研究中的应用[期刊论文]-医学信息 2007(01)
11.庄力中医临床诊疗垂直搜索系统研究[学位论文] 2009
12.孙燕.基于机器学习技术的《伤寒论》方证分析方法研
13.晏峻峰,朱文锋粗糙集理论在中医证素辨证研究中的应用[期刊论文]-中国中医基础医学杂志 2006(02)
14.徐蕾,贺佳,孟虹,贺宪民,范思昌决策树技术及其在医学中的应用[期刊论文]-数理医药学杂志 2004(02)
15.卢延鑫,姚旭峰,王松旺利用自然语言处理技术提取致病因素信息研究[期刊论文]-医学信息学杂志 2013(03)

16.Fukuda K, Tamura A, Tsunoda T, et al. Toward information extraction: identifying protein names from biological papers.[C]// Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. Pac Symp Biocomput, 1998:707-718.

17.Tuason O, Chen L, Liu H, et al. Biological nomenclatures: a source of lexical knowledge and ambiguity.[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2004:238.

18.Bakir G, Hofmann T, Schölkopf B, et al. Support Vector Machine Learning for Interdependent and Structured Output Spaces[C]// International Conference on Machine Learning. ACM, 2004:104.

19.Lin Y F, Tsai T H, Chou W C, et al. A maximum entropy approach to biomedical named entity recognition[C]// International Conference on Data Mining in Bioinformatics. Springer-Verlag, 2004:56-61.

20.Su J, Su J. Named entity recognition using an HMM-based chunk tagger[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002:473-480.

21.Li Y, Lin H, Yang Z. Incorporating rich background knowledge for gene named entity classification and recognition[J]. Bmc Bioinformatics, 2009, 10(1):1-15.

柴华, 路海明, 刘清晨. 中医自然语言处理研究方法综述[J]. 医学信息学杂志, 2015, 36(10):58-63.
相关阅读:
20175325 实现mypwd(选做，加分)
A公司推荐算法大赛总结
 CSLM 配置粗解
 iOS开发之百度地图导航
 iOS开发之百度地图的集成——地图标注&POI检索
 iOS开发之集成百度地图踩过的那些坑（基于 Xcode7.0/iOS9.2）
Swift开发第二篇——extension及fatalError
iOS开发之AFN的基本使用
 iOS开发之多线程技术——NSOperation篇
 iOS开发之多线程技术——GCD篇
原文地址：https://www.cnblogs.com/flippedkiki/p/7684729.html