• 中文词频统计与词云生成


    中文词频统计

    1. 下载一长篇中文小说。

      《 神雕侠侣》金庸

    2. 从文件读取待分析文本。

    text=open('artical.txt',encoding='utf-8').read();

    e=''',,.。??!!-::《》< >"“”、 u3000 ufeff'''
    for in e:
        text=text.replace(i,"")

    3. 生成词频统计

    代码

    dict={}

    for in tokens:
        if not in dict:
            dict[i]=tokens.count(i)
    print(dict)
     

    ('杨过', 816),
    ('孙婆婆', 720),
    ('师父', 240),
    ('小龙女', 216),
    ('少女', 192),
    ('婆婆', 168),
    ('一个', 168),
    ('孩子', 168),
    ('不知', 144),
    ('只是', 144),
    ('自己', 120),
    ('罢', 120),
    ('却', 120),
    ('老妇', 120),
    ('声音', 120)

    4. 排除语法型词汇,代词、冠词、连词等停用词。

    5. 输出词频最大TOP20,把结果存放到文件里

    result=[]

    for in range(20):
        result.append(word[i])
    pd.DataFrame(data=result).to_csv('f.csv',encoding='utf-8')
    print(result)

    6. 生成词云。

  • 相关阅读:
    驱动
    设备编号
    makefile 中的赋值
    UART
    c 语言的复杂声明
    linux下arm汇编的常用指令解析
    linux下的arm汇编程序
    ok6410下的uboot分析与实现
    层级选择器的理解
    css外部样式的理解
  • 原文地址:https://www.cnblogs.com/gzcchyf/p/10595045.html
Copyright © 2020-2023  润新知