• jieba学习


    安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jieba
    jieba中默认精准模式2
    1、全模式

    import jieba
    sentence="我喜欢上海东方明珠"
    #cut_all设置模式,Ture全模式
    w1=jieba.cut(sentence,cut_all=True)
    #结果通过循环显示
    for item in w1:
    print(item)

    2、精准

    import jieba
    sentence="我喜欢上海东方明珠"
    #cut_all设置模式,False精准模式
    w2=jieba.cut(sentence,cut_all=False)
    for item in w2:
        print(item)
    print("")

    3、使用搜索引擎切分:cut_for_search

    w3=jieba.cut_for_search(sentence)
    for item in w3:
        print(item)

    词性标注posseg

    import jieba.posseg
    sentence2=("天善智能公司是很好的机构")
    w5=jieba.posseg.cut(sentence2)
    #.flag属性调用词性
      #word调用词语  
    for i in w5:
        print(i)#print(item.word+"---"+item.flag)
    a:形容词
    c:连词
    d:副词
    e:叹词
    f:方位词
    i:成语
    m:数次
    n:名词
    nr:人名
    ns:地名
    nt:机构团体
    nz:其他专有名词
    p:介词
    r:代词
    t:时间
    u:助词
    v:动词
    vn:动名词
    w,标点符号
    un:未知词语

    词典加载:(别忘了编码)utf-8

    jieba.load_userdict("新建文件地址")
    sentence2="天善智能公司是很好的机构"
    w6=jieba.cut(sentence2)
    for item in w6:
        print(item)
    #加在原来的词典dict中,会持久性输出
    #加在自己建的词典里,不会

    更改词频

    sentence="我喜欢上海东方明珠"
    w7=jieba.cut(sentence)
    for i in w7:
        print(i)
    
    jieb.suggest_freq("上海东方",True)
    w8=jieba.cut(sentence)
    for item in w8:
        print(item)

    返回文本中频数多的词语

    sentence="我喜欢上海东方明珠"
    #提取关键词
    tag=jieba.analyse.extract_tags(sentence,3)
    print(tag)

    返回词语位置

    sentence="我喜欢上海东方明珠"
    w9=jieba.tokenize(sentence)
    for item in w9:
        print(item)
    
    w10=jieba.tokenize(sentence,mode="search")
    for item in w9:
        print(item)

    实战:提取盗墓笔记中的关键字

    import jieba.analyse
    data=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read()
    tag=jieba.analyse.extract_tags(data,20)
    print(tag)

     

  • 相关阅读:
    json schema相关
    好看的记录片和电影
    java函数局部变量的坑(非常隐藏)
    maven操作
    Js数组的常用的方法概述
    深入理解JS各种this指向问题
    浅谈ES5和ES6继承和区别
    vue
    使用 vue-i18n 切换中英文
    js_数组对象的浅克隆
  • 原文地址:https://www.cnblogs.com/qiuyuyu/p/9158070.html
Copyright © 2020-2023  润新知