• 《数据标注工程》第一章学习笔记及作业:数据标注概述(转)


    《数据标注工程》第一章学习笔记及作业:数据标注概述

    《数据标注工程》第一章学习笔记及作业:数据标注概述

    第一章:数据标注概述

    一、数据标注的起源与发展

    1、人工智能行业的发展

    • AI的概念:意指让机器具有像人一般的智能行为(1956年,达特茅斯会议,由约翰·麦卡锡提出)
    • AI的发展:60多年来,浮浮沉沉、三起三落
    人工智能发展史

    2、数据标注的起源与发展

    • 前两次AI浪潮中,由于数据量级很小,数据标注主要由研究的工程师完成
    • 第三次浪潮后,数据标注需求逐渐增大
    • 2011年,数据标注的外包市场开启
    • 2017年,数据标注行业真正爆发

    3、什么是数据标注

    • 概念:通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程。

    4、数据标注分类概述

    a. 图像标注:

    • 对汽车和行人进行筛选、分类、标框等
    • 对骨骼进行描点
    • 对病理切片标注
    图像标注

    b. 语音标注:

    • 发音人角色标注
    • 环境情景标注
    • 多语种标注
    • ToBI(Tones and Break Indices)韵律标注体系标注
    • 噪声标注等
    语音标注

    c. 文本标注:

    • 语句分词标注
    • 语义判定标注
    • 文本翻译标注
    • 情感色彩标注
    • 拼音标注
    • 多音字标注
    • 数字符号标注等
    文本标注

    5、数据标注流程概述

    数据标注流程

    a. 数据采集:

    采集来源:

      • 公开数据集
      • 专业数据集

    获取方式:

      • 用SQL从内部数据库提取
      • 下载公开数据集
      • 编写网页爬虫自主收集

    采集要求 :

      • 要考虑采集规模和预算
      • 要注重采集数据的多样性
      • 考虑是否适用于应用场景
      • 采集方法要合法合理

    b. 数据清洗:

    概念:

      • 清洗脏数据,将数据统一成适合于标注且与注意密切相关的标准格式,以帮助训练更为精确的数据模型和算法

    方法:

      • 对所有采集的数据进行筛检,最大限度的纠正数据的不一致性和不完整性

    举例:

      • 去除重复值
      • 去除无关值
      • 去除异常值
      • 补充缺失值
      • 平滑噪声数据

    c. 数据标注:

    先试标:

      • 需求方算法工程师给出标注样板
      • 详细阐述标注需求和标注规则

    后标注:

      • 有数据标注员对不同素材的数据进行标注

    d. 数据质检:

    目的:

      • 提高输出数据的准确率

    方法:

      • 排查
      • 抽查

    二、数据标注的应用场景

    1、出行行业

    场景 :

    • 汽车自动驾驶研发
    • 规划出行路线
    • 优化驾驶环境

    应用:

    • 矩形框或描点标注车辆
    • 矩形框或描点标注人体轮廓
    • 在地图上标记POI

    2、金融行业

    场景:

    • 身份验证
    • 智能投资顾问
    • 风险管理
    • 欺诈检测

    应用:

    • 通过语义分析制作合同研发软件,大大缩短合同审查工作的时间,并显著降低错误率

    3、医疗行业

    场景:

    • 医学编码和注释
    • 远程医疗
    • 医疗机器人
    • 医疗影像
    • 药物挖掘
    • 疾病预测

    应用:

    • 人体标框
    • 3D画框
    • 骨骼点标记
    • 病历转录

    4、家居行业

    场景:

    • 智能家居

    应用:

    • 矩形标框标记人脸
    • 人脸精细分割
    • 对物品进行画框标记
    • 通过描点来区域划分
    • 采集语音进行标注处理

    5、安防行业

    场景:

    • 日常监控

    应用:

    • 人脸标注
    • 视频分割
    • 语音采集
    • 行人标注

    6、公共服务

    场景:

    • 内容审核

    应用:

    • 将同意语句归类的语义分析
    • 音频转化文字的语音转录

    7、电子商务

    场景:

    • 建立客户全生命周期数据
    • 预测需求趋势
    • 优化价格与库存
    • 精准营销

    应用:

    • 搜索完善
    • 情绪分析
    • 人脸标注
    • 语音采集

    三、有多少智能,就有多少人工

    1、有监督的机器学习

    AI体系的三大底层:

    • 数据
    • 算法
    • 应用

    机器学习 :

    • 有监督学习
      • 核心在于“分类”
      • 主要用于实际产品应用
    • 无监督学习
      • 核心在于“聚类”
      • 主要用于探索研究
    1. 数据标注工作都是有监督学习

    2、最后一批人工智能的“老师”

    AI疯狂生长,标注岗位逐渐消亡:

    • 由弱人工智能,到强人工智能,直至超人工智能
    • 最终“学生“将超越”老师“,人工标注也将不复存在

    目前阶段的AI辅助工具:

    • 例如“流体标注”
    手动标注和流体标注的对比

    四、数据越多,智能越好

    深度学习的成功归功于:

    • 高容量的模型
    • 越来越强的计算能力
    • 可用的大规模标签数据

    大规模数据有助于表征学习:

    • 模型性能与数据的数量级呈线性增长关系
    测试性能随数据量呈线性增长
    • 随着感知智能向认知智能发展,对数据标注的维度和细化程度的要求也会增加

    五、本章框架

    六、作业与练习

    1、如何理解数据标注与人工智能的关系?

    答:人工智能意指让机器具有像人一般的智能行为,目前阶段的人工智能技术主要通过机器学习算法来达到相应的目的,而数据标注工作通过对数据进行处理,标记对象的特征,为机器学习提供了基础素材,因此数据标注可以看做是部分人工智能算法的前期基础工作。

    2、什么是数据标注?

    答:通过分类、画框、标注、注释等方法,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程就是数据标注。

    3、数据标注对象可以划分为哪几类?

    答:按标注对象为分类基础,可分为:图像标注、语音标注和文本标注等。

    4、数据标注流程包括哪些环节?

    答:包括四个环节,即数据采集、数据清洗、数据标注和数据质检。

    5、数据标注有哪些应用场景?

    答:数据标注的应用场景随着人工智能行业的发展日趋多样化,深入各行各业。例如:出行行业中的自动驾驶研发、物联网数据、交通网络大数据、车载应用技术等;金融行业中的身份验证、智能投资顾问、风险管理、欺诈检测等;医疗行业中的远程医疗、医疗机器人、医疗影像、药物挖掘、高效诊断与治疗等;家居行业丰富的智能家居场景;安防行业的日常监控、出入境管理、刑侦案件侦查等;公共服务行业的内容审核、语义分析、语音转录、视频审核等;电子商务行业的精准营销、搜索完善、情绪分析等。

    6、如何理解“有多少智能,就有多少人工”?

    答:机器的智能程度与数据处理的量级和质量直接相关,而目前,数据的采集、清洗、标注、质检大多由人工完成,换言之,现在的弱人工智能阶段,有监督学习的机器智能是通过人工的“老师”“教”出来的。在向强人工智能甚至超人工智能的发展过程中,有监督学习会逐渐向无监督学习或迁移学习进行转变,到时,人工的部分可能将会大幅度削减。

    7、数据量级与智能程度之间存在怎样的联系?

    答:数据量级越高,智能水平越高,大规模数据有助于表征学习,随着训练数据的数量级增长,模型性能呈线性增长。

  • 相关阅读:
    PHP封装数据库连接
    MySQL和php数据访问
    php测试题
    微信分享缩略图
    js时间戳转时间格式
    php调用微信客服消息接口给用户发送信息
    ueditor富文本
    转:【CSS/JS学习】如何实现单行/多行文本溢出的省略(...)--老司机绕过坑道的正确姿势
    jq实现div移入与移出以及获得与失去焦点
    mysql索引
  • 原文地址:https://www.cnblogs.com/NetPig/p/16540260.html
Copyright © 2020-2023  润新知