• 自然语言处理-----机器学习术语学习


    机器学习有关术语

    模型:模型是用来指导机器自动学习出另一个算法的“元算法”。

    特征:将事物的特点转化的数值。

    特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。

    特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。

    特征工程:如何挑选特征,如何设计特征模板。

    数据集:用来得到模型参数的数据集合。

    使用数据集要考虑什么?

    1.数据集的规模。

    2.数据集标注的质量。

    3.数据集的授权。

    监督学习:结果可以标准答案作比较,然后根据误差纠正模型的错误。

    当机器经过反复的学习,反复的将误差减小,此时这一过程称为迭代

    这种在有标签的数据集上迭代学习的过程称为训练。

    无监督学习:该方法不需要标注数据。一般用于聚类降维两种方法。

    无监督学习的缺点:

    1.模型无法捕捉到用户的标准,最终预测的结果往往与用户心目中的理想答案相去甚远。

    2.准确率比有监督学习低十几个或几十个百分点。

    负样本:Negative training data

    不在关系库中且没有明确关系的样本

    前沿课题

    半监督学习:训练多个模型,对同一个实例进行预测,得到多个结果。如果结果多数一致。便将结果和实例放在一起作为新的训练样本。

    强化学习:一边预测,一边根据环境的反馈规划下次决策。

    迁移学习:  通过参数共享,层共享,实现多任务

    语料库的建设:

    1.规范制定:语言学专家分析并制定出一套标注规范。

    2.人员培训:大型语料库往往需要多人协同标注,需要标注员对规范的理解达成一致。

    3.标注软件:brat支持词性标注、命名实体识别和句法分析等任务。支持多人标注功能,拖曳式操作。

     

  • 相关阅读:
    Workbooks 对象的 Open 方法参数说明
    OLDB读取excel的数据类型不匹配的解决方案
    使用OLEDB读取Excel
    C#锁定EXCEL工作表
    smple
    C# 获取当前文件、文件夹的路径及操作环境变量
    与eval()相关的技巧
    不写var的全局变量声明方式的一个副作用(Side Effects When Forgetting var)
    关于国内浏览器的userAgent识别
    for循环的效率改进写法二则
  • 原文地址:https://www.cnblogs.com/liuguangshou123/p/13288946.html
Copyright © 2020-2023  润新知