• nlp——词袋模型BOW


    词袋模型也称为BOW,亦即bag of words

     

    下面通过一个列子说明词袋模型

    有两个文本文档如下A和B:

    A:John likes to watch movies. Mary likes too.
    B:John also likes to watch football games.

     

    具体实现方式:

    基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

    {"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

    上面的词典中包含10个单词, 每个单词有唯一的索引, 那么对应A和B文本我们可以使用一个10维的向量来表示。如下:

    A:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] #John在A中出现一次,likes在A中出现2次,.......,also在A中出现0次

    B:[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

    对向量解释如下:

    向量的维度根据词典中不重复单词的个数确定。

    向量中每个位置的指代的单词与文本中单词出现的顺序没有关系,与词典中的单词顺序——对应。

    向量中每个数值是词典中每个单词在文本中出现的频率——即词频表示。

    缺点:

    无法考虑词语之间的顺序。

  • 相关阅读:
    SQL Server的日期格式转换
    Typora激活
    第六章28
    第六章27
    第六章30
    第六章32
    垃圾回收机制
    成员运算与身份运算
    编程语言的发展史
    字符编码
  • 原文地址:https://www.cnblogs.com/AntonioSu/p/12259348.html
Copyright © 2020-2023  润新知