• 条件随机场 简介


    条件随机场 简介

    一、总结

    一句话总结:

    【条件随机场(conditional random field,简称CRF)】,是一种鉴别式机率模型,是随机场的一种,【常用于标注或分析序列资料,如自然语言文字或是生物序列】。
    条件随机场(CRF)由Lafferty等人于2001年提出,结合了【最大熵模型】和【隐马尔可夫模型】的特点,是一种【无向图模型】,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
    条件随机场是条件概率分布模型 P(Y|X) ,【表示的是给定一组输入随机变量 X 的条件下另一组输出随机变量 Y 的马尔可夫随机场】,也就是说 CRF 的特点是【假设输出随机变量构成马尔可夫随机场】。条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。

    1、条件随机场 用途?

    “条件随机场”被用于【中文分词和词性标注等词法分析工作】,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。
    例如在词性标注任务中,【两个动词相连我们可以给负分】

    2、条件随机场 实例?

    1、假设我们有Bob一天从早到晚的一系列照片,Bob想考考我们,要我们【猜这一系列的每张照片对应的活动】,比如: 工作的照片,吃饭的照片,唱歌的照片等等。
    2、一个比较直观的办法就是,我们找到Bob之前的日常生活的一系列照片,然后找Bob问清楚这些照片代表的活动标记,这样我们就可以用监督学习的方法来训练一个分类模型,比如逻辑回归,接着用模型去预测这一天的每张照片最可能的活动标记。这种办法虽然是可行的,但是却【忽略】了一个重要的问题,就是这些照片之间的顺序其实是有很大的【时间顺序关系】的,而用上面的方法则会忽略这种关系。
    3、比如我们现在看到了一张Bob闭着嘴的照片,那么这张照片我们怎么标记Bob的活动呢?比较难去打标记。但是如果我们有Bob在这一张照片前一点点时间的照片的话,那么这张照片就好标记了。【如果在时间序列上前一张的照片里Bob在吃饭,那么这张闭嘴的照片很有可能是在吃饭咀嚼。而如果在时间序列上前一张的照片里Bob在唱歌,那么这张闭嘴的照片很有可能是在唱歌。】
    4、为了让我们的分类器表现的更好,可以在标记数据的时候,可以【考虑相邻数据的标记信息】。这一点,是普通的分类器难以做到的。而这一块,也是【CRF比较擅长】的地方。在实际应用中,自然语言处理中的词性标注(POS Tagging)就是非常适合CRF使用的地方。词性标注的目标是【给出一个句子中每个词的词性(名词,动词,形容词等)】。而这些词的词性往往和上下文的词的词性有关,因此,使用CRF来处理是很适合的,当然CRF不是唯一的选择,也有很多其他的词性标注方法。

    3、词性标注 是什么?

    词性标注的目标是【给出一个句子中每个词的词性(名词,动词,形容词等)】。而这些词的词性往往和上下文的词的词性有关,因此,使用CRF来处理是很适合的,当然CRF不是唯一的选择,也有很多其他的词性标注方法。

    二、条件随机场 简介

    感觉百度百科还说的蛮浅显易懂的

    地址:https://baike.baidu.com/item/%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA/10804560?fr=aladdin

    1、简介

    条件随机场(conditional random field,简称CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。

    条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。

    条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 [1]  条件随机场是条件概率分布模型 P(Y|X) ,表示的是给定一组输入随机变量 X 的条件下另一组输出随机变量 Y 的马尔可夫随机场,也就是说 CRF 的特点是假设输出随机变量构成马尔可夫随机场。条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。
    如同马尔可夫随机场,条件随机场为具有无向的图模型,在条件随机场中,随机变量Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。
     
     

    2、用途

    “条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。
    假设我们有Bob一天从早到晚的一系列照片,Bob想考考我们,要我们猜这一系列的每张照片对应的活动,比如: 工作的照片,吃饭的照片,唱歌的照片等等。一个比较直观的办法就是,我们找到Bob之前的日常生活的一系列照片,然后找Bob问清楚这些照片代表的活动标记,这样我们就可以用监督学习的方法来训练一个分类模型,比如逻辑回归,接着用模型去预测这一天的每张照片最可能的活动标记。这种办法虽然是可行的,但是却忽略了一个重要的问题,就是这些照片之间的顺序其实是有很大的时间顺序关系的,而用上面的方法则会忽略这种关系。比如我们现在看到了一张Bob闭着嘴的照片,那么这张照片我们怎么标记Bob的活动呢?比较难去打标记。但是如果我们有Bob在这一张照片前一点点时间的照片的话,那么这张照片就好标记了。如果在时间序列上前一张的照片里Bob在吃饭,那么这张闭嘴的照片很有可能是在吃饭咀嚼。而如果在时间序列上前一张的照片里Bob在唱歌,那么这张闭嘴的照片很有可能是在唱歌。
    为了让我们的分类器表现的更好,可以在标记数据的时候,可以考虑相邻数据的标记信息。这一点,是普通的分类器难以做到的。而这一块,也是CRF比较擅长的地方。在实际应用中,自然语言处理中的词性标注(POS Tagging)就是非常适合CRF使用的地方。词性标注的目标是给出一个句子中每个词的词性(名词,动词,形容词等)。而这些词的词性往往和上下文的词的词性有关,因此,使用CRF来处理是很适合的,当然CRF不是唯一的选择,也有很多其他的词性标注方法。
     
     
    例如在词性标注任务中,两个动词相连我们可以给负分
     
     
     
     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    VMware rhel 7 网卡绑定
    VMware 克隆虚拟机后网卡无法启动
    rhel7 批量新建和删除用户
    2019.3.27 Linux 学习
    20180313前端笔试
    javascript中的一些问题
    flex布局学习笔记(阮一峰flex布局教程)
    个推面试总结
    笔试题目整理
    @JsonFormat与@DateTimeFormat注解的使用
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/14088104.html
Copyright © 2020-2023  润新知