• 信息领域热词分类分析02


    1) 项目名称:信息化领域热词分类分析及解释

    2) 功能设计:
    1)
    数据采集:要求从定期自动从网络中爬取信息领域的相关热
    词;
    2)
    数据清洗:对热词信息进行数据清洗,并采用自动分类技术
    生成信息领域热词目录,;
    3)
    热词解释:针对每个热词名词自动添加中文解释(参照百度
    百科或维基百科);
    4)
    热词引用:并对近期引用热词的文章或新闻进行标记,生成
    超链接目录,用户可以点击访问;
    5)
    数据可视化展示:
    ① 用字符云或热词图进行可视化展示;
    ② 用关系图标识热词之间的紧密程度。6) 数据报告:可将所有热词目录和名词解释生成 WORD 版报告
    形式导出。

    今天对爬取到的新闻进行了分词操作,使用jieba进行分词:

    对于jieba的使用,首先需要导入这个包。

    一般使用import之后没有的包会提示你导入,当然也可以自己手动导入:

     点击+号,查询jieba即可。

     说说jieba的使用,jieba有三种运行模式。

    精确模式、全模式、搜索引擎模式。

    精确模式,试图将句子精确的分开,适用于文本分析。

    全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。

    搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。

    精确模式:jieba.cut(值,cut_all=False);

    全模式:jieba.cut(值,cut_all=True);

    搜索引擎模式:jieba.cut_for_search(值)

    使用jieba.cut();默认情况下是精确模式。

    import jieba
    import pandas as pd
    import re
    from collections import Counter
    
    if __name__ == '__main__':
        filehandle = open("Hotword.txt", "r", encoding='utf-8');
        file=open("final_hotword2.txt","w",encoding='utf-8');
        filepaixu = open("final_hotword.txt","w",encoding='utf-8');
        mystr = filehandle.read()
        seg_list = jieba.cut(mystr)  # 默认是精确模式
        print(seg_list)
        # all_words = cut_words.split()
        # print(all_words)
        stopwords = {}.fromkeys([line.rstrip() for line in open(r'final.txt', encoding='UTF-8')])
        c = Counter()
        for x in seg_list:
            if x not in stopwords:
                if len(x) > 1 and x != '
    ' and x != 'quot':
                    c[x] += 1
    
        print('
    词频统计结果:')
        for (k, v) in c.most_common(100):  # 输出词频最高的前两个词
            print("%s:%d" % (k, v))
            file.write(k+'
    ')
            filepaixu.write(k+":"+str(v)+'
    ')
    
        # print(mystr)
        filehandle.close();
        file.close()
        filepaixu()
        # seg2 = jieba.cut("好好学学python,有用。", cut_all=False)
        # print("精确模式(也是默认模式):", ' '.join(seg2))

    今天就到这里,明天继续学习。

    作者:哦心有
    本文版权归作者和博客园共有,欢迎转载,但必须给出原文链接,并保留此段声明,否则保留追究法律责任的权利。
  • 相关阅读:
    8086汇编中的逻辑地址与物理地址转换
    wepy开发踩坑记录
    cordova开发的坑
    express转发请求
    Hybrid app(cordova) 环境配置记录
    laravel-mix 热重载404的问题
    练习
    git 使用记录
    Vue全家桶开发笔记
    微信小程序开发踩坑记录
  • 原文地址:https://www.cnblogs.com/haobox/p/15129813.html
Copyright © 2020-2023  润新知