• 文本挖掘预处理之分词 / 向量化 / TF-IDF / Hash trick 附代码 Demo


    分词(tokenizing)

    对于一个句子,首先需要将其分为多个单词或多个词组。

    例如, “I come from New York" => "I/come from/New York"

    通过标准语料库,为了简化计算,通常使用马尔科夫假设,即每一个分词出现的概率仅仅和前一个分词有关,可以近似的计算出所有的分词之间的二元条件概率。

    利用语料库建立的统计概率,对于一个新的句子,我们就可以通过计算各种分词方法对应的联合分布概率,找到最大概率对应的分词方法,即为最优分词。

    常用的分词工具

    • 简单的英文分词不需要任何工具,通过空格和标点符号就可以分词了,而进一步的英文分词推荐使用nltk

    • 对于中文分词,则推荐用结巴分词(jieba

    向量化(vectorize)与Hash Trick

    词袋模型

    词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用TF-IDF进行特征的权重修正,再将特征进行标准化。 再进行一些其他的特征工程后,就可以将数据带入机器学习算法进行分类聚类了。

    每一维的向量依次对应了下面的19个词。另外由于词"I"在英文中是停用词,不参加词频的统计。一共有19个词,所以4个文本都是19维的特征向量。

    ["I come to China to travel", 
        "This is a car polupar in China",          
        "I love tea and Apple ",   
        "The work is to write some papers in science"]
    
    ###
    
    [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0]
     [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0]
     [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0]
     [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]]
    

    由于大部分的文本都只会使用词汇表中的很少一部分的词,因此我们的词向量中会有大量的0。也就是说词向量是稀疏的。在实际应用中一般使用稀疏矩阵来存储。

    由于词汇量很大,所以向量化后的维度就很大,将对应的样本对应特征矩阵载入内存,有可能将内存撑爆,要进行特征的降维,而Hash Trick就是非常常用的文本特征降维方法。

    Hash Trick 降维

    在Hash Trick里,我们会定义一个特征Hash后对应的哈希表的大小,这个哈希表的维度会远远小于我们的词汇表的特征维度,因此可以看成是降维。具体的方法是,对应任意一个特征名,我们会用Hash函数找到对应哈希表的位置,然后将该特征名对应的词频统计值累加到该哈希表位置。

    如果用数学语言表示,假如哈希函数h使第i个特征哈希到位置j,即h(i)=j,则第i个原始特征的词频数值ϕ(i)将累加到哈希后的第j个特征的词频数值ϕ上

    TF-IDF (Term Frequency - Inverse Document Frequency)

    • TF 词频统计:文本中各个词的出现频率统计。
    • IDF 逆文本频率:N代表语料库中文本的总数,而N(x)代表语料库中包含词x的文本总数。

    由以上可得,TF−IDF(x)=TF(x)∗IDF(x)

    TF-IDF是非常常用的文本挖掘预处理基本步骤,但是如果预处理中使用了Hash Trick,则一般就无法使用TF-IDF了,因为Hash Trick后我们已经无法得到哈希后的各特征的IDF的值。使用了IF-IDF并标准化以后,我们就可以使用各个文本的词特征向量作为文本的特征,进行分类或者聚类分析。

    英文文本挖掘预处理

    1. 除去数据中非文本部分:直接用Python的正则表达式(re)删除

    2. 拼写检查:pyenchant

    3. 拼写更正:pyspellchecker

    4. 词干提取(stemming)和词形还原(lemmatization): 在实际的英文文本挖掘预处理的时候,建议使用基于wordnet的词形还原就可以。nltk中的WordNetLemmatizer类

    5. 转化为小写:lower()

    6. 引入停用词: 在英文文本中有很多无效的词,比如“a”,“to”,一些短词,还有一些标点符号,这些我们不想在文本分析的时候引入,因此需要去掉,这些词就是停用词。download link

    7. 特征处理: [1] Sklearn中的TfidfVectorizer类可以帮助我们完成向量化,TF-IDF和标准化三步。[2] word2vec

    Demo

    spaCy自然语言文本处理库 - 基本操作

    文本挖掘预处理 - 分词 / 向量化 / TF-IDF / Hash trick

  • 相关阅读:
    孙权劝学
    劝学
    为学
    字符串的全排列
    剑指offer面试题3二维数组中的查找
    如何正确安装软件
    写给自己的话
    Linux常用命令
    第三届华为杯
    D^3ctf两道 pwn
  • 原文地址:https://www.cnblogs.com/linzhenyu/p/13578360.html
Copyright © 2020-2023  润新知