《数据标注工程》第一章学习笔记及作业:数据标注概述
第一章:数据标注概述
一、数据标注的起源与发展
1、人工智能行业的发展
- AI的概念:意指让机器具有像人一般的智能行为(1956年,达特茅斯会议,由约翰·麦卡锡提出)
- AI的发展:60多年来,浮浮沉沉、三起三落
2、数据标注的起源与发展
- 前两次AI浪潮中,由于数据量级很小,数据标注主要由研究的工程师完成
- 第三次浪潮后,数据标注需求逐渐增大
- 2011年,数据标注的外包市场开启
- 2017年,数据标注行业真正爆发
3、什么是数据标注
- 概念:通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程。
4、数据标注分类概述
a. 图像标注:
- 对汽车和行人进行筛选、分类、标框等
- 对骨骼进行描点
- 对病理切片标注
b. 语音标注:
- 发音人角色标注
- 环境情景标注
- 多语种标注
- ToBI(Tones and Break Indices)韵律标注体系标注
- 噪声标注等
c. 文本标注:
- 语句分词标注
- 语义判定标注
- 文本翻译标注
- 情感色彩标注
- 拼音标注
- 多音字标注
- 数字符号标注等
5、数据标注流程概述
数据标注流程a. 数据采集:
采集来源:
- 公开数据集
- 专业数据集
获取方式:
- 用SQL从内部数据库提取
- 下载公开数据集
- 编写网页爬虫自主收集
采集要求 :
- 要考虑采集规模和预算
- 要注重采集数据的多样性
- 考虑是否适用于应用场景
- 采集方法要合法合理
b. 数据清洗:
概念:
- 清洗脏数据,将数据统一成适合于标注且与注意密切相关的标准格式,以帮助训练更为精确的数据模型和算法
方法:
- 对所有采集的数据进行筛检,最大限度的纠正数据的不一致性和不完整性
举例:
- 去除重复值
- 去除无关值
- 去除异常值
- 补充缺失值
- 平滑噪声数据
c. 数据标注:
先试标:
- 需求方算法工程师给出标注样板
- 详细阐述标注需求和标注规则
后标注:
- 有数据标注员对不同素材的数据进行标注
d. 数据质检:
目的:
- 提高输出数据的准确率
方法:
- 排查
- 抽查
二、数据标注的应用场景
1、出行行业
场景 :
- 汽车自动驾驶研发
- 规划出行路线
- 优化驾驶环境
应用:
- 矩形框或描点标注车辆
- 矩形框或描点标注人体轮廓
- 在地图上标记POI
2、金融行业
场景:
- 身份验证
- 智能投资顾问
- 风险管理
- 欺诈检测
应用:
- 通过语义分析制作合同研发软件,大大缩短合同审查工作的时间,并显著降低错误率
3、医疗行业
场景:
- 医学编码和注释
- 远程医疗
- 医疗机器人
- 医疗影像
- 药物挖掘
- 疾病预测
应用:
- 人体标框
- 3D画框
- 骨骼点标记
- 病历转录
4、家居行业
场景:
- 智能家居
应用:
- 矩形标框标记人脸
- 人脸精细分割
- 对物品进行画框标记
- 通过描点来区域划分
- 采集语音进行标注处理
5、安防行业
场景:
- 日常监控
应用:
- 人脸标注
- 视频分割
- 语音采集
- 行人标注
6、公共服务
场景:
- 内容审核
应用:
- 将同意语句归类的语义分析
- 音频转化文字的语音转录
7、电子商务
场景:
- 建立客户全生命周期数据
- 预测需求趋势
- 优化价格与库存
- 精准营销
应用:
- 搜索完善
- 情绪分析
- 人脸标注
- 语音采集
三、有多少智能,就有多少人工
1、有监督的机器学习
AI体系的三大底层:
- 数据
- 算法
- 应用
机器学习 :
- 有监督学习
- 核心在于“分类”
- 主要用于实际产品应用
- 无监督学习
- 核心在于“聚类”
- 主要用于探索研究
- 数据标注工作都是有监督学习
2、最后一批人工智能的“老师”
AI疯狂生长,标注岗位逐渐消亡:
- 由弱人工智能,到强人工智能,直至超人工智能
- 最终“学生“将超越”老师“,人工标注也将不复存在
目前阶段的AI辅助工具:
- 例如“流体标注”
四、数据越多,智能越好
深度学习的成功归功于:
- 高容量的模型
- 越来越强的计算能力
- 可用的大规模标签数据
大规模数据有助于表征学习:
- 模型性能与数据的数量级呈线性增长关系
- 随着感知智能向认知智能发展,对数据标注的维度和细化程度的要求也会增加
五、本章框架
六、作业与练习
1、如何理解数据标注与人工智能的关系?
答:人工智能意指让机器具有像人一般的智能行为,目前阶段的人工智能技术主要通过机器学习算法来达到相应的目的,而数据标注工作通过对数据进行处理,标记对象的特征,为机器学习提供了基础素材,因此数据标注可以看做是部分人工智能算法的前期基础工作。
2、什么是数据标注?
答:通过分类、画框、标注、注释等方法,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程就是数据标注。
3、数据标注对象可以划分为哪几类?
答:按标注对象为分类基础,可分为:图像标注、语音标注和文本标注等。
4、数据标注流程包括哪些环节?
答:包括四个环节,即数据采集、数据清洗、数据标注和数据质检。
5、数据标注有哪些应用场景?
答:数据标注的应用场景随着人工智能行业的发展日趋多样化,深入各行各业。例如:出行行业中的自动驾驶研发、物联网数据、交通网络大数据、车载应用技术等;金融行业中的身份验证、智能投资顾问、风险管理、欺诈检测等;医疗行业中的远程医疗、医疗机器人、医疗影像、药物挖掘、高效诊断与治疗等;家居行业丰富的智能家居场景;安防行业的日常监控、出入境管理、刑侦案件侦查等;公共服务行业的内容审核、语义分析、语音转录、视频审核等;电子商务行业的精准营销、搜索完善、情绪分析等。
6、如何理解“有多少智能,就有多少人工”?
答:机器的智能程度与数据处理的量级和质量直接相关,而目前,数据的采集、清洗、标注、质检大多由人工完成,换言之,现在的弱人工智能阶段,有监督学习的机器智能是通过人工的“老师”“教”出来的。在向强人工智能甚至超人工智能的发展过程中,有监督学习会逐渐向无监督学习或迁移学习进行转变,到时,人工的部分可能将会大幅度削减。
7、数据量级与智能程度之间存在怎样的联系?
答:数据量级越高,智能水平越高,大规模数据有助于表征学习,随着训练数据的数量级增长,模型性能呈线性增长。