• bert中除cls和sep的其他特殊编码


    bert中的其他特殊编码

    为什么要其他的特殊编码呢?
    首先回顾下cls是做什么的:

    • [CLS]单文本分类任务:对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本分类。可以理解为:与文本中已有的其它字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。(CLS不是第一个句子的表征,是一个分类标志位。经过self attention 可以融合两个句子和分类相关的信息,然后用在预训练或者后续任务分类上)。

    • [SEP]语句对分类任务:该任务的实际应用场景包括:问答(判断一个问题与一个答案是否匹配)、语句匹配(两句话是否表达同一个意思)等。对于该任务,BERT模型除了添加[CLS]符号并将对应的输出作为文本的语义表示,还对输入的两句话用一个[SEP]符号作分割,并分别对两句话附加两个不同的文本向量以作区分,Mr_不想起床

    还有两个特殊的分别是unknown和mask

    [UNK]标志指的是未知字符
    [MASK]标志用于遮盖句子中的一些单词,将单词用 [MASK] 遮盖之后,再利用 BERT 输出的 [MASK] 向量预测单词是什么。

    其他特殊token

    pinyin token。
    全词embedding,这个可以看考chinesebert的结构了。

    笔者觉得,Google的原生bert也好,还是其他的各种预训练骚操作也好,基本上一问世就是英文预训练,即使想huggface上开源的中文,也和实际中的预料相差较大,替换各种魔改的bert(roberta,xlnet,t5,pangu,spanbert等等不如拿自己的预料做continue pretrian效果提升的多)

    如有不对的地方,欢迎批评指教,

  • 相关阅读:
    C# 正则 获取 Img Src路径
    .NET动态加载用户控件并传值的方法
    ViewState压缩技术
    BookStrap中关于button和图片的注意点
    在idea中使用Git
    了解Git的使用
    javascript-----DOM文档对象模型
    浅谈java集合
    javaI/O流
    二进制和十进制的转换
  • 原文地址:https://www.cnblogs.com/gaowenxingxing/p/15005130.html
Copyright © 2020-2023  润新知