机器学习有关术语
模型:模型是用来指导机器自动学习出另一个算法的“元算法”。
特征:将事物的特点转化的数值。
特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。
特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。
特征工程:如何挑选特征,如何设计特征模板。
数据集:用来得到模型参数的数据集合。
使用数据集要考虑什么?
1.数据集的规模。
2.数据集标注的质量。
3.数据集的授权。
监督学习:结果可以标准答案作比较,然后根据误差纠正模型的错误。
当机器经过反复的学习,反复的将误差减小,此时这一过程称为迭代。
这种在有标签的数据集上迭代学习的过程称为训练。
无监督学习:该方法不需要标注数据。一般用于聚类和降维两种方法。
无监督学习的缺点:
1.模型无法捕捉到用户的标准,最终预测的结果往往与用户心目中的理想答案相去甚远。
2.准确率比有监督学习低十几个或几十个百分点。
负样本:Negative training data
不在关系库中且没有明确关系的样本
前沿课题
半监督学习:训练多个模型,对同一个实例进行预测,得到多个结果。如果结果多数一致。便将结果和实例放在一起作为新的训练样本。
强化学习:一边预测,一边根据环境的反馈规划下次决策。
迁移学习: 通过参数共享,层共享,实现多任务
语料库的建设:
1.规范制定:语言学专家分析并制定出一套标注规范。
2.人员培训:大型语料库往往需要多人协同标注,需要标注员对规范的理解达成一致。
3.标注软件:brat支持词性标注、命名实体识别和句法分析等任务。支持多人标注功能,拖曳式操作。