• 【数据相关】如何进行数据标注(1)


    现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。

    因此,本文主要讲解数据标注。文章共两个部分:(1)数据标注综述(2)数据标注实践要点

    本文是第一部分:数据标注综述

    1、数据标注的作用

    数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。

    数据标注的过程是通过人工贴标的方式,为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。

    2、数据标注的质量及标注流程

    数据的高质量体现在两个方面:一个标注的数量多,二是标注的质量高。

    图像标注的质量标准:图像标注的质量好坏取决于像素点的判定准确性。标注像素点越接近被标注物的边缘像素,标注的质量就越高,标注的难度也越大。如果图像标注要求的准确率为100%,标注像素点与被标注物的边缘像素点的误差应该在1个像素以内。

    语音标注的质量标准:语音标注时,语音数据发音的时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧,很容易标注到下一个发音,造成噪声数据。

    文本标注的质量标准:文本标注涉及到的任务较多,不同任务的质量标准不同。例如:分词标注的质量标准是标注好的分词与词典的词语一致,不存在歧义;情感标注的标注质量标准是对标注句子的情感分类级别正确。

    多数投票算法(majority voting,MV)是常用的标注质量评估算法。MV 算法是由约翰逊提出的一种通用性强的质量控制算法。它将绝大多数用户选择的结果视为最终结果。其基本思想为:假设有(m)个图像标注任务((t_1,t_2,...t_m)),每个任务(t_i)对应一个二元分类。为提高标注质量和标注可靠性,将需要标注的对象(x_i)分配给(N)个员工(一共(M)个员工,(N≤M))。每个工人的标注结果为(y_i^jinleft{ 0,1 ight}),再根据((y_i^1,...y_i^N))推断出(x_i)的最终标签,其计算公式为:

    (hat{y_i}= egin{cases}1,
    & dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}>dfrac{1}{2}\ random guess,
    & dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}=dfrac{1}{2} \ 0,
    & dfrac{1}{N}egin{matrix} sum_{j=1}^N y_i^j end{matrix}<dfrac{1}{2} 
    end{cases})

    图像数据的标注流程为:

    (1)数据清洗:排除数据存在缺失值、噪声数据、重复数据等质量问题。

    (2)数据标注:划分标注任务、制定标注规范。进行标注任务。

    (3)标注检验:由标注审核员或机器质检机制,审核标注质量

    3、常用的标注工具

    点击标注工具的名称,即可获取下载地址。每个链接我都试了,如果连接不上可能是需要挂梯子。

    名称 简介 运行平台 标注形式 标注格式
    LabelImg 著名的图像标注工具 

    Windows,Linux,Mac

    矩形框 VOC和YOLO格式
    LabelMe

    著名的图形界面标注工具,能够标注图像和视频 

    Windows,Linux,Mac

    多边形、矩形、圆形、多段线、线段、点

    VOC 和 COCO 格式

    RectLabel

    图像标注 Mac

    多边形、矩形、多段线线段、点 

    YOLO、KITTI、 COCO1、CSV 
    VOTT

    基于 Web 方式本地部署的标注工具,能够标注图像和视频

    Windows,Linux,Mac

    多边形、矩形、点

    TFRecord、CSV、VoTT 

    LabelBox

    适用于大型项目的标注工具,基于Web,能够标注图像、视频和文本

    -

    多边形、矩形、线、 点、嵌套分类

    JSON 格式 
    VIA

    VGG的图像标注工具,也支持视频和音频标注

    -

    矩形、圆、椭圆、多边形、点和线

    JSON 格式 
    COCO UI

    用于标注 COCO 数据集的工具,基于 Web 方式

    -

    矩形、多边形、 点和线

    COCO格式
    Vatic

    Vatic 是一个带有目标跟踪的视频标注工具,适合目标检测任务

    Linux  - VOC 格式 
    BRAT

    基于 Web 的文本标注工具,主要用于对文本的结构化标注

    Linux  - ANN 格式
    DeepDive 处理非结构化文本的标注工具  Linux  - NLP 格式
    Praat 语音标注工具 

    Windows,Unix,Linux,Mac

    - JSON 格式
    精灵标注助手 多功能标注工具 

    Windows,Linux,Mac

    矩形、多边形和曲线  XML 格式

    Reference

    [1]蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(02):302-320.

  • 相关阅读:
    2020年下半年学习进度04
    2020年下半年学习进度03
    2020年下半年学习进度02
    2020年下半年学习进度01
    数据爬取
    个人课程总结
    Syncnavigator V8.6.2在线说明书
    SyncNavigator V8.6.2企业版下载链接
    Syncnavigator V8.6.2帮助文档(说明书)下载
    SQL Server 自动同步到 MySQL
  • 原文地址:https://www.cnblogs.com/lky-learning/p/12572554.html
Copyright © 2020-2023  润新知