• python自然语言处理——3.6 规范化文本


    微信公众号:数据运营人
    本系列为博主的读书学习笔记,如需转载请注明出处。

    第三章 加工原料文本

    3.6 规范化文本词干提取器词形归并

    3.6 规范化文本

    词干提取器

    所谓的词干提取器就是去除词缀得到词根的过程——得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能导到满意的结果,即使该词干不是词的有效根。例如 “stemmer”、“stemming”和“stemmed”是基于词根“stem”。

    import nltk
    raw = """DENNIS: Listen, strange women lying in ponds distributing swords
    ... is no basis for a system of government. Supreme executive power derives from
    ... a mandate from the masses, not from some farcical aquatic ceremony."""

    tokens = nltk.word_tokenize(raw)
    # porter和Lancaster词干提取器按照它们自己的规则剥离词缀
    porter = nltk.PorterStemmer()
    lancaster = nltk.LancasterStemmer()
    print([porter.stem(t) for t in tokens])
    print([lancaster.stem(t) for t in tokens])
    词形归并

    WordNet词形归并器删除词缀产生的词都是在它的字典中的词。这个额外的检查过程使词形归并器比刚才提到的词干提取器要慢。 请注意, 它并没有处理“ lying”, 但它将“ women” 转换为“ woman”。
    ```python
    wnl = nltk.WordNetLemmatizer()
    print([wnl.lemmatize(t) for t in tokens])

  • 相关阅读:
    并发编程(IO多路复用)
    411. 格雷编码
    120. 单词接龙 (BFS)
    1244. Minimum Genetic Mutation
    47.Majority Element I & II
    86. 二叉查找树迭代器
    1183. 排序数组中的单个元素
    163. 不同的二叉查找树
    428.x的n次幂
    156. 合并区间
  • 原文地址:https://www.cnblogs.com/ly803744/p/10426396.html
Copyright © 2020-2023  润新知