• NLP&Python笔记——nltk模块基础操作


    nltk是一款常用的基于python的NLP工具包,本文介绍了nlkt的安装导入以及一些基础的函数操作。

    1. 安装

    (1)安装nltk库:  pip install nlkt

    (2)下载nltk库中的book文件:

    import nltk
    nltk.download()

    运行--> 弹出下载界面 --> 选择book--> 设置好路径--> Download

    (3)下载好后,加载nltk的book模块中所有条目:

    from nltk.book import *

    (4)加载后,就可以使用库中包含的文档了。如,text1/tex2/tex3.....

    2. 几个基础函数

    (1)搜索文本:text.concordance(word)

    例如,在text1中搜索词”is”在文本中出现的次数以及上下文的词:text1.concordance("is")

    (2)搜索上下文相似的词:text.similar(word)

    例如,在text1中搜索哪些相似的词出现在词”is”的上下文中:text1.similar("is")

    (3)搜索几个词汇上下文的公共词汇:text.common_contexts([word1,word2…])

    例如,在text1中搜索哪些词是”is”和“that”上下文中的公共词汇:text1.common_contexts(["is","that"])

    (4)离散图表示词出现的位置序列:text.dispersion_plot([word1, word2,])

    例如,用离散图表示词"am","is","are","the","a"在text1中出现的位置,即从开头算起的第多少个词:text1.dispersion_plot(["am","is","are","the","a"])

    (5)统计文本标示符(单词和标点符号)的个数:len(text)

    (6)获取文本的词汇表(含标点符号):set(text)

    (7)获取词汇表并排序:sorted(set(text))

    (8)统计词汇表的大小:len(set(text))

  • 相关阅读:
    十天冲刺4
    单词统计
    十天冲刺3
    学习进度第十周
    十天冲刺2
    十天冲刺1
    梦断代码阅读笔记03
    学习进度第九周
    [强网杯 2019]Upload
    [2020 新春红包题]1
  • 原文地址:https://www.cnblogs.com/yucen/p/9343551.html
Copyright © 2020-2023  润新知