• 读书笔记——中文信息处理发展报告(2016)


    本文作者:胡青云
    指导老师:杭诚方

    1. 关于原文及作者

    1.1 原文简介

    《中文信息处理发展报告(2016)》,简称 cips2016,是由中文信息学会(Chinese Information Processing Society of China)(官网)召集全国中文信息处理领域专家,对该学科方向和前沿技术梳理而成的,发布于2016年12月(原文链接)。原报告(cips2016)共153页,17万字,涉及中文自然语言处理的方方面面,笔者在抓住最核心内容,尽可能内容全面,易于理解的前提下,将字数从17万压缩到不到1万。

    1.2 定位

    《cips2016》的定位为:深度科普,旨在向政府、企业、媒体等对中文信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

    1.3 内容与参与作者

    基础研究:

    词法与句法分析:李正华、陈文亮、张民(苏州大学)
    语义分析:周国栋、李军辉(苏州大学)
    篇章分析:王厚峰、李素建(北京大学)
    语言认知模型:王少楠,宗成庆(中科院自动化研究所)
    语言表示与深度学习:黄萱菁、邱锡鹏(复旦大学)
    知识图谱与计算:李涓子、候磊(清华大学)

    应用研究:

    文本分类与聚类:涂存超,刘知远(清华大学)
    信息抽取:孙乐、韩先培(中国科学院软件研究所)
    情感分析:黄民烈(清华大学)
    自动文摘:万小军、姚金戈(北京大学)
    信息检索:刘奕群、马少平(清华大学)
    信息推荐与过滤:王斌(中科院信工所)、鲁骁(国家计算机网络应急中心)
    自动问答:赵军、刘康,何世柱(中科院自动化研究所)
    机器翻译:张家俊、宗成庆(中科院自动化研究所)
    社会媒体处理:刘挺、丁效(哈尔滨工业大学)
    语音技术:说话人识别——郑方(清华大学)、王仁宇(江苏师范大学),语音合成——陶建华(中科院自动化研究所),语音识别——王东(清华大学)
    文字识别:刘成林(中科院自动化研究所)
    多模态信息处理:陈晓鸥(北京大学)
    医疗健康信息处理:陈清财、汤步洲(哈尔滨工业大学)
    少数民族语言信息处理:吾守尔•斯拉木(新疆大学)、那顺乌日图(内蒙古大学)、海银花(内蒙古大学)等

        最后由张敏(清华大学)、韩先培(中国科学院软件研究所)、张家俊(中科院自动化研究所)、刘康(中国科学院自动化研究所)等对初稿反馈意见,校对统一成文。
    

    2. 正文

    接下来,笔者对《cips2016》中设计的各个领域进行内容提炼,并对自己感兴趣或项目相关的内容进行详尽描述。由于笔者并非少数民族,业务也不涉及这方面,因此略去关于少数民族语言处理的部分,请见谅!

    2.1 词法分析(lexical analysis)和句法分析(syntactic parsing)

    词法分析(lexical analysis)包括汉语分词(word segmentation或tokenization)和词性标注(part-of-speech tag)。

    1. 分词软件:中科院计算所的 ICTLAS 分词系统、哈工大语言技术平台 LTP、清华大学自然语 言处理工具包、海量云分词。
    2. 词性标注:最初采用的方法是隐马尔科夫生成式模型,然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也出了很多有效的基于深层神经网络的词性标注方法。传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标。进一步,如果结合循环神经网络如双向LSTM,则抽取到的信息不再受到固定窗口的约束,而是考虑整个句子。除此之外,深度学习的另一个优势是初始词向量输入本身已经刻画了词语之间的相似度信息,这对词性标注非常重要。

    句法分析(syntactic parsing)方法有依存句法分析、短语结构句法分析、深层文法句法分析和基于深度学习的句法分析。不细究具体实现。

    2.2 语义分析(Semantic Analysis)

    定义

    指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。可进一步分解为词汇级语义分析句子级语义分析以及篇章级语义分析。一般来说,词汇级语义分析关注的是如何获取或区别单词的语义,句子级语义分析则试图分析整个句子所表达的语义,而篇章级语义分析旨在研究自然语言文本的内在结构并理解文本单元(可以是句子从句或段落)间的语义关系。

    地位

    在应用上,语义分析一直是自然语言处理的核心问题,它有助于促进其他自然语言处理任务的快速发展。比如,语义分析在机器翻译任务中有着重大的应用。再比如,基于语义的搜索一直是搜索追求的目标。所谓语义搜索,是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。

    现状

    目前,语义分析技术还不完美,特别是在句子级和篇章级,它仍面临很多具体问题和困难。

    2.3 语篇分析

    定义

    又称话语分析或篇章分析,是对“语篇”整体进行的分析,包括语篇基本单元之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等等。解决例如在翻译结果,前后文主语不一致,逻辑不连贯等问题。

    技术方法

    1. 篇章性、连贯性与衔接性理论
    2. 语篇结构分析技术
    3. 指代消解技术

    现状

    近些年来,语篇分析(无论是结构分析还是同指消解)集中在分析技术的研究上。在具体实现中,主要采用了机器学习的方法,特别是有指导的学习方法,包括近几年较热的深度
    神经网络方法。然而,这些年针对语言自身问题的研究较少,新的理论模型不多。加强语篇理论模型的研究对语篇分析尤为重要,这应成为今后研究的重点。

    2.4 语言认知模型

    定义

    认知语言学(cognitive linguistics)是认知科学(cognitive science)与语言学交叉的一个研究分支,是研究人脑的思维、心智、智能、推理和认识等认知机理及其对语言进行分析和理解过程的一门学问。

    意义

    从事认知语言模型和类脑语言信息处理方法研究具有极其重要的理论意义和应用价值,它不仅可以从本质上揭示人脑进行语言学习、思维和推理的机理,探索大脑实现语义、概念和知识计算的奥秘,而且可以了解人类某些与语言能力相关的疾病形成的原因,对于改善人类的健康,提高计算机信息处理的能力,促进社会的发展,都具有非常重要的意义。

    应用与发展

    如IBM Watson 问答系统在“危险边缘”挑战赛中击败人类对手、谷歌公司利用深度学习和增强学习算法实现的AlphaGo 系统在围棋项目上打败人类对手;微软小冰机器人以情感语料为基础,利用大数据知识搜索和深度神经网络机器学习方法等,建立了满足人的情感和心理需求的人机对话系统,这些成果让我们看到了未来智能信息处理的曙光。我们完全有理由相信,语言认知计算模型研究的春天已经到来,其研究成果必将在自然语言处理等相关领域中发挥重要的作用。

    2.5 语言表示

    定义

    在人工智能里,语言表示主要指用于语言的形式化或数学的描述,以便在计算机中表
    示语言,并能让计算机程序自动处理。

    表示法

    离散表示
    早期的语言表示方法是符号化的离散表示。为了方便计算机进行计算,一般将符号或符号序列转换为高维的稀疏向量。比如词可以表示为One-Hot 向量(一维为1、其余维为0的
    向量),句子或篇章可以通过词袋模型、TF-IDF 模型、N 元模型等方法进行转换。但是离散表示的缺点是词与词之间没有距离的概念,比如“电脑”和“计算机”被看成是两个不同的
    词,这和语言的特性并不相符。这样,离散的语言表示需要引入人工知识库,比如同义词词典、上下位词典等,才能有效地进行后续的语义计算。一种改进的方法是基于聚类的词表示,比如Brown 聚类算法,通过聚类得到词的类别簇来改进词的表示。
    连续表示
    遗憾的是,离散表示无法解决的“多词一义”问题,为了解决这一问题,可以将语言单位表示为连续语义空间中的一个点,这样的表示方法称之为连续表示。基于连续表示,词与词之间
    就可以通过欧式距离或余弦距离等方式来计算相似度。常用的连续表示有两种。

    1. 一种是应用比较广泛的分布式表示(Distributional Representations)。分布式表示是基于Harris 的分布式假设,即如果两个词的上下文相似,那么这两个词也是相似的。上
      下文的类型可以为相邻词,所在句子或所在的文档等。这样我们就可以通过词与其上下文的共现矩阵来进行词的表示,即把共现矩阵的每一行看作对应词的向量表示。
    2. 另外一种是近年来在深度学习中使用的表示, 即分散式表示( Distributed Representations)。分散式表示是将语言的潜在语法或语义特征分散式地存储在一组神经元中,可以用稠密、低维、连续的向量来表示,也叫嵌入(Embeddings)。不同的深度学习技术通过不同的神经网络模型来对字、词、短语、句子以及篇章进行建模。除了可以更有效地进行语义计算之外,分散式表示也可以使特征表示和模型变得更加紧凑。

    2.6 知识图谱

    定义

    知识图谱(Knowledge Graph,KG)旨在以结构化的形式描述客观世界的概念、实体、事件及其之间的关系。其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人、动物、组织机构等。实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等。事件是客观事件的活动,如地震、买卖行为等。关系描述概念、实体、事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等。谷歌于2012 年5 月推出谷歌知识图谱,并利用其在搜索引擎中增强搜索结果,标志着大规模知识图谱在互联网语义搜索中的成功应用。

    应用

    知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些信息资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
    语义搜索:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示的满足用户需求的结构化信息内容,而不是互联网网页;
    问答系统:基于知识的问答系统将知识图谱看成一个大规模的知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
    大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。

    研究内容

    1. 知识表示:当前主要知识表示方法可以分成传统人工智能中基于符号逻辑的知识表示,如:产生式系统、谓词逻辑、框架表示、语义网等;互联网资源的开放知识表示方法,如XML、RDF 和OWL 等;基于知识图谱的表示学习通过深度学习可以将知识表示成低维连续实值稠密的实值向量空间,有助于实现高效的知识计算。
    2. 知识图谱构建:知识图谱构建方法主要由三方面因素确定,其一是从什么样的数据资源中学习知识,主要包括结构化(如数据库数据)、半结构化(如互联网上的表格数据等)和非结构化资源(如文本数据等)对象。维基类百科资源是利用群体智能建立的大规模供人阅读理解的知识资源,其中蕴含了大量的高质量的结构化知识,也是知识图谱构建时使用的重要资源。其二学习什么类型的知识,主要包括概念层次结构、事实知识、事件知识等。其三是使用什么样的学习方法获得知识,主要方法有有监督学习、半有监督学习和无监督学习方法。
    3. 知识图谱应用:基于知识图谱的大数据融合技术研究语义标注或者实体链接技术,实现不同资源类型、不同媒体类型的互联网资源的融合、管理与服务。基于知识图谱的语义搜索实现当前从基于关键词搜索到基于语义的实体和关系搜索,可以直接得到用户感兴趣的客观世界的实体和实体关系信息,而不只是包含关键词的网页文档。其中对于实体类型匹配和实体链接、以及基于实体和关系的排序是核心技术。基于知识图谱的问答系统通过将用户的提问转换成对结构化知识图谱的查询可以直接得到用户的答案,其中问题理解和基于推理的知识匹配是核心技术。

    2.7 文本分类与聚类

    定义

    文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。文本聚类(Text Clustering)任务则是根据文档之间的内容或主题相似度,将文档
    集合划分成若干个子集,每个子集内部的文档相似度较高,而子集之间的相似度较低。

    地位

    文本分类和聚类是文本挖掘的核心任务,一直以来倍受学术界和工业界的关注。

    步骤

    对文档进行分类或聚类,一般需要经过两个步骤:

    1. 文本表示:文本表示是指将无结构化的文本内容转化成结构化的特征向量形式,作为分类或聚类模型的输入。
    2. 学习分类、聚类:在得到文本对应的特征向量后,就可以采用各种分类或聚类模型,根据特征向量训练分类器或进行聚类。
      因此,文本分类或聚类的主要研究任务和相应关键科学问题如下。

    文本表示

    经典的文本分类和聚类模型为了简化文本表示,提出词袋模型(Bag of Words Model)假设,将句子看做词的集合,而忽略了词与词之间的序列信息以及句子结构信息。在词袋模型假设的基础上,向量空间模型(Vector Space Model)成为文本的主要表示方法,向量空间的每一维代表一个词项(词语或N-Gram),然后通过TF-IDF 等方式就可以计算得到
    文本在向量空间中的表示。
    但是,大规模文本中可能出现的词项非常多,并不是所有词项都可以作为文本特征。为了选取有效文本特征,降低特征空间维度,提高分类聚类的效果与效率,以特征选择(Feature
    Selection)、特征转换(Feature Transformation)和话题分析(Topic Analysis)为代表的特征降维方法被广泛研究与使用。

    文本分类模型

    近年来,文本分类模型研究层出不穷,特别是随着深度学习的发展,深度神经网络模型也在文本分类任务上取得了巨大进展。文本分类模型可划分为以下三类:基于规则的分类模型、基于机器学习的模型和基于神经网络的模型。

    文本聚类方法

    1. 基于距离的聚类算法:基于距离的聚类算法的基本思想是,首先通过相似度函数计算文本间的语义关联度,较为常见的是余弦相似度;然后根据文本间的语义相似度进行聚类。
    2. 基于概率模型的聚类方法:主题模型(Topic Model)是典型的基于概率的文本聚类方法。主题建模的思想是对文本集合学习概率生成模型。与基于距离的聚类方法不同,这种基于概率模型的聚类方法假设每篇文章是所有主题(聚集)上的概率分布,而不是仅属于一个聚集。典型的主题模型包括PLSA 和LDA 等等。

    2.8 信息抽取

    定义

    信息抽取(Information Extraction)是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。例如,从相关新闻报道中抽取出恐怖事件信息:时间、地点、袭击者、受害人、袭击目标、后果等。

    意义与现状

    信息抽取是组织、管理和分析海量文本信息的核心技术和重要手段,是大数据时代的使能技术,具有重要的经济和应用意义。目前信息抽取已被广泛应用于舆情监控、网络搜
    索、智能问答等多个重要领域。

    核心技术

    目前信息抽取的核心研究内容可以划分为命名实体识别(Named Entity Recognition, NER)、关系抽取(Relation Extraction)、事件抽取和信息集成(Information Integration)
    命名实体识别
    命名实体识别的目的是识别文本中指定类别的实体,主要包括人名、地名、机构名、专有名词等的任务。例如,识别“2016 年6 月20 日,骑士队在奥克兰击败勇士队获得NBA 冠军”这句中的地名(奥克兰)、时间(2016 年6 月20 日)、球队(骑士队、勇士队)和机构(NBA)。命名实体识别系统通常包含两个部分:实体边界识别和实体分类,其中实体边界识别判断一个字符串是否是一个实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。
    关系抽取
    关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系抽取的输出通常是一个三元组(实体1,关系类别,实体2),表示实体1 和实体2 之间存在特定类别的语义关系。
    事件抽取
    事件抽取指的是从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务。例如,从“毛主席1893 年出生于湖南湘潭”这句话中抽取事件{类型:出生,人物:毛主席,时间:1893 年,出生地:湖南湘潭}。事件抽取任务通常包含事件类型识别和事件元素填充两个子任务。
    信息集成
    实体、关系和事件分别表示了单篇文本中不同粒度的信息。在很多应用中,需要将来自不同数据源、不同文本的信息综合起来进行决策,这就需要研究信息集成技术。目前,信息抽取研究中的信息集成技术主要包括共指消解技术和实体链接技术。共指消解指的是检测同一实体/关系/事件的不同提及,并将其链接在一起的任务,例如,识别“乔布斯是苹果的创始人之一,他经历了苹果公司几十年的起落与兴衰”这句话中的“乔布斯”和“他”指的是同一实体。实体链接的目的是确定实体名所指向的真实世界实体。例如识别上一句话中的“苹果”和“乔布斯”分别指向真实世界中的苹果公司和其CEO 史蒂夫·乔布斯。

    现状

    在构建成本上,现有高质量抽取系统往往依赖于标注语料,构建成本较高。在构建方式上,现有信息抽取系统依赖于许多预处理模块(如分词、词性标注、句法分析等),缺乏端到端的自动构建方式(随着深度神经网络的使用,已经有所改善),同时也容易受预处理模块性能的影响。在自适应性上,现有抽取系统的自适应性不强,往往在更换语料、更换领域、更换知识类别时会有一个大幅度的性能下降。在系统的性能上,现有信息抽取技术在抽取复杂结构(如事件、Taxonomy)时性能仍然离实用有一定距离。

    2.9 情感分析

    定义

    狭义的情感分析(sentiment analysis)是指利用计算机实现对文本数据的观点、情感、态度、情绪等的分析挖掘。广义的情感分析则包括对图像视频、语音、文本等多模态信息的
    情感计算。简单地讲,情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。

    技术方法

    1. 基于规则的情感分析方法在早期的情感分析方法中占据了主要的地位,在情感资源构建、情感分类、情感抽取等各种任务中都有以规则为主的方法。在情感资源构建中,一般需要从一个通用的词典或种子词集合开始,例如WordNet。最常见的是采用自举(Bootstrapping)的方法,从少数已知极性的情感词汇出发,利用同义词、反义词,或其它更精细复杂的句法规则,并结合某些统计量,扩展新的情感词到情感字典中,并进行多次迭代以保证覆盖率,最后结合手工校验形成最后可用的情感词汇。基于规则的情感分类方法虽然简单,但其在情感资源丰富的一些特定领域上表现得很好。但往往也需要比较多的资源,例如情感词汇资源,词性、句法、语法规则,需要耗费大量的劳动力从数据中总结和挖掘规则,其中不可避免需要介入手工检查的工作,属于劳动密集型的方法。
    2. 基于传统机器学习的情感分析方法已有研究者采用后验正则化学习框架,将类似的discourse 关系建模为约束,对用户评论中的句子进行情感分类取得很好的效果。在属性级别的情感分类中,通常方法多采用有监督学习方法和基于字典的无监督学习方法。在有监督学习方法中,句子级别或子句级别的情感分类方法都是可用的,一个关键的不同是属性级情感分类任务需要识别一个情感表达式所作用的范围。基于字典的分类方法在属性级的情感分类中表现得很好,可以避免大量的数据标注。简单利用一个情感字典、复合表达式、情感规则、依存句法树等作为特征,同时考虑情感转化词、转折连接词等特殊的句法现象,利用简单的机器学习算法就可以取得不错的结果。
    3. 基于深度学习的情感分析方法卷积神经网络(CNN)是文本处理中较为广泛使用的深度学习模型,通常用来学习句子级别或更长粒度的表示。这些方法在处理文本的情感分类中,在标准评测中已经被证明可以获得了很好的性能。循环神经网络(Recurrent NN,ReNN)和长短期记忆模型(Long-short term memory)由于可以刻画序列单元之间的依赖和影响,因而具有很好的序列建模能力。虽然一般情况下LSTM 描述常见序列,但这个模型同样可以应用到树的结构上,在情感分类上的性能比递归神经网络模型(Recursive NN)也更好。

    现状与发展

    情感分析经过十多年的发展,在某些领域上(例如产品评论、影评、宾馆、餐馆等)已经取得了相对成熟的发展和应用,在某些领域上达到了可完全实用的水准,但从一般意义上
    来说,情感分析还需要进行长期研究和探索,其最本质的难题还是语言文字的理解问题,依然存在非常多的挑战和待解的问题。

    2.10 自动文摘

    定义

    自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。

    应用

    近二十年来,业界提出了各类自动文摘方法与模型,用于解决各类自动摘要问题,在部分自动摘要问题的研究上取得了明显的进展,并成功将自动文摘技术应用于搜索引擎、新闻阅读等产品与服务中谷歌、百度等搜索引擎均会为每项检索结果提供一个短摘要,方便用户判断检索结果相关性。

    现状

    相比机器翻译、自动问答、知识图谱、情感分析等热门领域,自动文摘在国内并没有受到足够的重视。目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。自动文摘技术还远远谈不上完美,在多文档摘要、综述自动生成等任务上还面临相当多的挑战和难题,需要广大科研工作者继续努力探索。

    技术方法

    自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive summarization)和生成式摘要(abstractive summarization)。抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。目前的自动文摘方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与选取。抽取式方法的好处
    是易于实现,能保证摘要中的每个句子具有良好的可读性。

    技术框架

    目前主流自动文摘研究工作大致遵循如下技术框架:
    内容表示 → 权重计算 → 内容选择 → 内容组织

    2.11 信息检索(Information Retrieval, IR)

    定义

    协助信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息。

    研究内容

    当前信息检索的研究包括如下四个方面的研究内容及相应的关键科学问题:

    1. 信息需求理解
    2. 资源质量度量
    3. 结果匹配排序
    4. 信息检索评价

    2.12 信息推荐与过滤

    定义

    信息推荐与过滤(Information Recommendation and Filtering)简称信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。

    意义

    人类社会进入了大数据时代,数据量极度膨胀,人们面临严重的信息过载(Information Overload)问题,从大量信息中获得满足用户需求的信息成为从现在到未来的永恒需求。信息推荐技术是实现这一需求的重要手段,具有重要的商业价值。

    研究内容

    1. 用户兴趣的建模:出于惰性或者隐私保护需要,用户并不愿意显式地提供兴趣数据,因此,隐式建模(根据用户的浏览、点击、收藏等行为数据来预测用户的兴趣)是目前更主流的用户兴趣建模方法。
    2. 物品的建模:物品建模的目的是构建物品的某种形式化表示。最常见的一种做法就是将物品表示为其重要特征或属性表示的向量。这里涉及到重要特征的选择问题和特征的表示问题。进行特征选择时,可以借用传统文本分类中的特征选择方法。在进行特征表示时,则可以借用传统文本检索中的TF-IDF 表示方法
    3. 用户兴趣-物品的匹配度计算:大体上可分为两种:基于统计的方法和基于规则的方法。基于统计的方法中,用户兴趣和物品往往表示成某种概率统计量(如向量或者属性的某种概率统计值),在进行匹配时,可以基于这些概率统计量来计算两者的匹配度。基于规则的方法中,用户的兴趣往往表示成类似于“IF…THEN…ELSE…”之类的规则表达式,用户兴趣-物品的匹配就是规则匹配的过程。

    研究难点

    1. 数据稀疏性(Data Sparsity)问题。简而言之,信息推荐可以认为是根据已有用户对物品的喜好情况(如通过评级或评分来表示)来预测未知的用户-物品喜好情况。但是,在大规模的推荐系统当中,用户数目和物品数目都非常大。而实际上用户表示过喜好的物品数目极小。也就是说,已知的喜好数据存在极大的稀疏性。数据稀疏性会带来计算过程中的偏差,比如在进行推荐时往往需要计算用户或物品间的相似度,但是数据稀疏时算出的用户或物品间的相似度可能很不准确。
    2. 冷启动(Cold Start)问题。新用户由于没有或极少对物品进行过评分,所以很难分析得到他的喜好,从而无法对他进行有效的物品推荐。同样,新物品加入系统时,也由于还没有或只有极少数用户对其表示喜好程度,因此也无法将新物品推荐给用户。
    3. 大规模计算问题。

    技术方法

    信息推荐主要包含两类方法:基于内容过滤(Content-based Filtering)的推荐方法和基于协同过滤(Collaborative Filtering)的推荐方法。

    1. 基于内容过滤的信息推荐:,其基本思想是给用户推荐与他们喜欢的物品在内容上比较相似的物品。例如,用户喜欢《机器学习》这本书,那么基于内容过滤的信息推荐系统可能会给他推荐《机器学习实战》、《机器学习导论》等书籍。
    2. 基于协同过滤的信息推荐:该算法的基本思想十分直观,即 “物以类聚,人以群分”,也就是说,喜欢相似物品的用户兴趣也相似,或具有相似兴趣的用户喜欢的物品也相似。在向某用户推荐物品时,可以先找到与该用户兴趣相似的若干用户,然后基于这些用户的喜好来推荐物品。另一种推荐方法是先找到与物品相似的其它物品,然后根据当前用户对其它物品的喜好程度来判断其对当前物品的喜好程度。
    3. 基于人口统计学的过滤方法:对于新注册用户而言,由于还没有充分了解其喜好,因此无法对其进行有效推荐,这也是前面提到的所谓“冷启动”问题。该问题的一种解决方法是利用用户的人口统计学特征。每个用户都有自己的人口统计学(Demographic)特征,包括年龄、性别、职业、学历、居住地、国籍等。
    4. 基于社会化过滤的推荐方法:。基于社交网络的推荐算法被称为社会化过滤(Social Filtering)。在社会化过滤方面,最常见的做法是在利用传统用户-物品喜好信息的基础上,增加用户的之间的信任度信息,从而联合构建信息推荐模型。在利用用户之间的信任度时,还可以对社交网络中的社区进行挖掘,从而在进行推荐时同时考虑两两朋友之间的关系及用户组的兴趣模型。
    5. 基于位置的过滤:例如,通过用户的位置,进行对用户推荐在他附近的好友,以及在他附近的他可能喜欢的商场,饭馆等。

    2.13 自动问答

    定义

    自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统
    返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。

    意义

    在万维网诞生20 周年之际,互联网搜索正处于从简单关键词搜索走向深度问答的深刻变革的风口浪尖上。以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜
    索引擎的基本形态。

    研究任务

    1. 问句理解:用户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术,需要从文本的多个维度理解其中包含的语义内容。
    2. 文本信息抽取:自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息,并抽取出相应的答案。早期基于规则模板的知识抽取方法难以突破领域和问题类型的限制,远远不能满足开放领域自动问答的知识需求。为了适应互联网实际应用的需求,越来越多的研究者和开发者开始关注开放域知识抽取技术,其特点在于:1)文本领域开放:处理的文本是不限定领域的网络文本;2)内容单元类型开放:不限定所抽取的内容单元类型,而是自动地从网络中挖掘内容单元的类型,例如实体类型、事件类型和关系类型等。
    3. 知识推理:自动问答中,由于语料库、知识库和问答库本身的覆盖度有限,并不是所有问题都能直接找到答案。这就需要在已有的知识体系中,通过知识推理的手段获取这些隐含的答案。例如,知识库中可能包括了一个人的“出生地”信息,但是没包括这个人的“国籍”信息,因此无法直接回答诸如“某某人是哪国人?”这样的问题。但是一般情况下,一个人的“出生
      地”所属的国家就是他(她)的“国籍”。在自动问答中,就需要通过推理的方式学习到这样的模式。

    知识库问答

    近些年来,无论是学术界或工业界,研究者们逐步把注意力投向知识图谱或知识库(Knowledge Graph)。其目标是把互联网文本内容组织成为以实体为基本语义单元(节点)的图结构,其中图上的边表示实体之间语义关系。目前互联网中已有的大规模知识库包括DBpedia、Freebase、YAGO 等。这些知识库多是以“实体-关系-实体”三元组为基本单元所组成的图结构。基于这样的结构化知识,问答系统的任务就是要根据用户问题的语义直接在知识库上查找、推理出相匹配的答案,这一任务称为面向知识库的问答系统或知识库答。

    重点研究方向

    1. 基于深度学习的端到端自动问答
    2. 多领域、多语言的自动问答
    3. 面向问答的深度推理
    4. 篇章阅读理解
    5. 对话

    2.14 机器翻译

    不感兴趣,略!

    2.15 社会媒体处理

    定义

    简单来讲,社会媒体处理研究的目标就是通过挖掘社会媒体中用户生成内容和社交关系网络,来衡量用户之间的相互作用,进而发现这其中蕴含的特定模式来更好地理解人类行为
    特点。

    研究内容

    社会媒体客观信息的挖掘

    1. 用户画像(User Profile)是指利用社会媒体中用户的文本、图片、社交行为等数据构建用户的未知属性信息或未知标签。
    2. 社交圈识别
    3. 信息传播分析:一条信息能够在短时间内传播到数百万计的用户。然而,大量的用户生成信息也带来了诸如信息过载、虚假信息泛滥等问题,对社会媒体信息传播的研究为解决这些问题提供了可能。

    社会媒体主观信息的挖掘

    1. 情感分析
    2. 消费意图挖掘

    基于社会媒体的应用研究

    1. 基于社会媒体的推荐
    2. 基于社会媒体的预测:基于社会媒体的预测是指通过对社会媒体数据的挖掘与分析,聚集大众的群体智慧,运用科学的知识、方法和手段,对事物未来发展趋势和状态做出科学的估计和评价。

    2.16 语音技术

    研究问题

    1. 语音合成:目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。
    2. 语音识别 (Automatic Speech Recognition, ASR):是指利用计算机实现从语音到文字自动转换的任务。在实际应用中,语音识别通常与自然语言理解、自然语言生成和语音合成
      等技术结合在一起,提供一个基于语音的自然流畅的人机交互方法。在实用价值方面,语音交互是未来人机交互的重要方式之一。
    3. 说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition, VPR),是根据语音中所包含的说话人个性信息,利用计算机以及现在的信息识别技术,自动
      鉴别说话人身份的一种生物特征识别技术。说话人识别有不会遗忘、无须记忆的优点。与此同时,说话人识别所用的采集设备成本很低,对麦克风和手机、电话录音等都没有特殊的要求,用户使用时也不用刻意接触采集设备,用户的接受程度普遍较高。

    2.17 文字识别

    不感兴趣,略!

    2.18 多模态信息处理

    不感兴趣,略!

    2.19 医疗健康信息处理

    与本人研究方向不吻合,略!

    2.10 少数民族语言文字信息处理

    不感兴趣,略!

    3 参考文献

    中文信息学会, 报告, 《中文信息处理发展报告(2016)》, 原文链接:http://cips-upload.bj.bcebos.com/cips2016.pdf
    DianeSoHungry, 博文, 《用户标签中候选标签的构建方案》, 原文链接:http://www.cnblogs.com/DianeSoHungry/p/8085932.html

  • 相关阅读:
    java连接常见数据库的连接字符串
    一个用来自动管理大容量表的Sql脚本
    Ibatis2.0使用说明(一)——入门实例篇
    态度决定你的人生高度
    jboss配置入门(二) -JBOSS3.2.3/3.2.6部署及配置修改
    如何在一个工程里面实现不同的功能打入不同的日志文件中【log4net】
    Xsl实践总结(一)
    Xsl实践总结(三)-介绍一款开发XSL不错的IDE(Stylus)
    Xsl实践总结(二)
    教你节省时间 让你个人效率翻三倍
  • 原文地址:https://www.cnblogs.com/DianeSoHungry/p/8093873.html
Copyright © 2020-2023  润新知