• 计算与软件工程作业四


    作业一

    评论博文(https://edu.cnblogs.com/campus/jssf/infor_computation17-31?filter=all_members)

    评论博文(https://www.cnblogs.com/zxy123456/p/12449427.html#4538571)

    评论博文(https://www.cnblogs.com/sunsijiao/p/12461182.html#4538578)

    评论博文(https://www.cnblogs.com/chenyu666/p/12353096.html#4538489)

    评论博文(https://www.cnblogs.com/limin123/p/12455500.html#4538514)

    评论博文(https://www.cnblogs.com/limin123/p/12377468.html#4538532)

    评论博文(https://www.cnblogs.com/tang-yuan-yuan/p/12433514.html#4538548)

    评论博文(https://www.cnblogs.com/tang-yuan-yuan/p/12433514.html#4538548)

    作业二 结队编程

    要求

    1.实现一个简单而完整的软件工具(中文文本文件人物统计程序):针对小说《红楼梦》要求能分析得出各个人物在每一个章回中各自出现的次数,将这些统计结果能写入到一个csv格式的文件。
    2.进行单元测试、回归测试、效能测试,在实现上述程序的过程中使用相关的工具。
    3.进行个人软件过程(PSP)的实践,逐步记录自己在每个软件工程环节花费的时间。
    4.使用源代码管理系统 (GitHub, Gitee, Coding.net, 等);
    5.针对上述形成的软件程序,对于新的文本小说《水浒传》分析各个章节人物出现次数,来考察代码。
    6.将上述程序开发结对编程过程记录到新的博客中,尤其是需要通过各种形式展现结对编程过程,并将程序获得的《红楼梦》与《水浒传》各个章节人物出现次数与全
    本人物出现总次数,通过柱状图、饼图、表格等形式展现。《红楼梦》与《水浒传》的文本小说将会发到群里。

    组队是和 https://www.cnblogs.com/chenyu666/p/12549111.html

    我们通过下载Python,并下载了matplotlib(一个Python的绘图库),jieba库,进行绘图和计数。安装过程遇到很多困难,但是通过我们两人的共同讨论查找资料,都得到了解决。jieba是用来分词的,可以把一句话拆分成多个词;也可以从一句话(一段话)中提取最重要的几个关键词。我们完成这个统计每个人出现的次数主要就是应用这个jieba

    先下载Python

    下载链接是(https://www.python.org/downloads/release/python-380/ )我们下载的版本是Python 3.8(64位)

    下面是安装jieba、matplotlib的过程(在命令提示符即CMD里输入的):

    特别要注意下载matplotlib的版本一定要符合你下的python版本,

    下面是代码运行:

    import jieba
    import csv
    class NameCount():
         def getNameTimesSort(self, name_list, txt_path):
             # 添加jieba分词
            mydict = ['琏二奶奶', '凤哥儿', '凤丫头', '宝姑娘', '颦儿', '二姑娘', '三姑娘', '四姑娘', '云妹妹', '蓉大奶奶']
            for item in mydict:
                jieba.add_word(item)
            #打开并读取txt文件
            txt = open(txt_path, "r", encoding='utf-8').read()
             # 定义别名列表
            bieming = [["王熙凤", "凤丫头", '琏二奶奶', '凤姐', '凤哥儿', '凤辣子','熙凤'],["林妹妹", "黛玉", '林姑娘', '林黛玉'], ["宝钗", '宝姑娘', '宝丫头', '宝姐姐', '薛宝钗'],
                       ['探春', '三姑娘', '贾探春'], ['湘云', '云妹妹', '史湘云'],['迎春', '二姑娘', '贾迎春'],['元春', '大姑娘', '娘娘', '贵妃', '元妃', '贾元春'],
                       ['惜春', '四姑娘', '贾惜春'], ['妙玉'],['巧姐'], ['李纨', '大嫂子'], ['秦可卿', '可卿', '蓉大奶奶']]
            words = jieba.lcut(txt)
            counts = {}
            for word in words:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word, 0) + 1
            # 计算出场次数(各个别名的合计次数)
            lst = list()
            for i in range(12):
                lt = 0
                for item in bieming[i]:
                    lt += counts.get(item, 0)
                lst.append(lt)
            items = list()
            for i in range(12):
                items.append([name_list[i], lst[i]])
            items.sort(key=lambda x: x[1], reverse=True)
            # csv文件
            f = open('红楼梦人物统计.csv', 'w', newline='', encoding='utf-8')
            csv_writer = csv.writer(f)
            csv_writer.writerow(['红楼梦人物统计'])
            csv_writer.writerow(["姓名", "出现次数"])
            for i in range(12):
                word, count = items[i]
                csv_writer.writerow([word, count])
                print("{0:<10}{1:>5}".format(word, count))
            f.close()
            return items
    if __name__ == '__main__':
        # 参与统计的人名列表,可修改成自己想要的列表
        name_list = ['熙凤', '黛玉', '宝钗', '探春', '湘云', '迎春', '元春', '惜春', '妙玉', '巧姐', '李纨', '可卿']
        # txt文件所在路径
        txt_path = 'C:/Users/Think/Desktop/hl.txt'
        NameCount().getNameTimesSort(name_list,txt_path)
    
    

    结果截图

    csv文件

    画图代码

    import jieba
    from collections import Counter
    import matplotlib.pyplot as plt
    import numpy as np
    
    
    class HlmNameCount():
        # 此函数用于绘制条形图
        def showNameBar(self,name_list_sort,name_list_count):
            # x代表条形数量
            x = np.arange(len(name_list_sort))
            # 处理中文乱码
            plt.rcParams['font.sans-serif'] = ['SimHei']
            # 绘制条形图,bars相当于句柄
            bars = plt.bar(x,name_list_count)
            # 给各条形打上标签
            plt.xticks(x,name_list_sort)
            # 显示各条形具体数量
            i = 0
            for bar in bars:
                plt.text((bar.get_x() + bar.get_width() / 2), bar.get_height(), '%d' % name_list_count[i], ha='center', va='bottom')
                i += 1
            # 显示图形
            plt.show()
    
        # 此函数用于绘制饼状图
        def showNamePie(self, name_list_sort, name_list_fracs):
            # 处理中文乱码
            plt.rcParams['font.sans-serif'] = ['SimHei']
            # 绘制饼状图
            plt.pie(name_list_fracs, labels=name_list_sort, autopct='%1.2f%%', shadow=True)
            # 显示图形
            plt.show()
    
        def getNameTimesSort(self,name_list,txt_path):
            # 将所有人名临时添加到jieba所用字典,以使jieba能识别所有人名
            for k in name_list:
                jieba.add_word(k)
            # 打开并读取txt文件
            file_obj = open(txt_path, 'rb').read()
            # jieba分词
            jieba_cut = jieba.cut(file_obj)
            # Counter重新组装以方便读取
            book_counter = Counter(jieba_cut)
            # 人名列表,因为要处理凤姐所以不直接用name_list
            name_dict ={}
            # 人名出现的总次数,用于后边计算百分比
            name_total_count = 0
            for k in name_list:
                if k == '熙凤':
                    # 将熙凤出现的次数合并到凤姐
                    name_dict['凤姐'] += book_counter[k]
                else:
                    name_dict[k] = book_counter[k]
                name_total_count += book_counter[k]
            # Counter重新组装以使用most_common排序
            name_counter = Counter(name_dict)
            # 按出现次数排序后的人名列表
            name_list_sort = []
            # 按出现次数排序后的人名百分比列表
            name_list_fracs = []
            # 按出现次数排序后的人名次数列表
            name_list_count = []
            for k,v in name_counter.most_common():
                name_list_sort.append(k)
                name_list_fracs.append(round(v/name_total_count,2)*100)
                name_list_count.append(v)
                # print(k+':'+str(v))
            # 绘制条形图
            self.showNameBar(name_list_sort, name_list_count)
            # 绘制饼状图
            self.showNamePie(name_list_sort,name_list_fracs)
            
    
    if __name__ == '__main__':
        # 参与统计的人名列表,可修改成自己想要的列表
        name_list = ['宝玉', '黛玉', '宝钗', '元春', '探春', '湘云', '妙玉', '迎春', '惜春', '凤姐', '熙凤', '巧姐', '李纨', '可卿', '贾母', '贾珍', '贾蓉', '贾赦', '贾政', '王夫人', '贾琏', '薛蟠', '香菱', '宝琴', '袭人', '晴雯', '平儿', '紫鹃', '莺儿']
        # 红楼梦txt文件所在路径,修改成自己文件所在路径
        txt_path = 'C:/Users/Think/Desktop/hl.txt'
        hnc = HlmNameCount()
        hnc.getNameTimesSort(name_list,txt_path)
    

    画出的图

    单元测试

    import unittest
    from four import NameCount
    class MyTestCase(unittest.TestCase):
        def setUp(self):
            print("测试开始")
        def test_something(self):
            name_list = ['熙凤', '黛玉', '宝钗', '探春', '湘云', '迎春', '元春', '惜春', '妙玉', '巧姐', '李纨', '可卿']
            txt_path = 'C:/Users/Think/Desktop/hl.txt'
            name_list_count = [1149, 953, 696, 448, 393, 146, 126, 105, 81, 40, 36, 14]
            items = list()
            for i in range(12):
                items.append([name_list[i], name_list_count[i]])
            self.assertEqual(items, NameCount().getNameTimesSort(name_list,txt_path))
        def tearDown(self):
            print("测试结束")
    if __name__ == '__main__':
        unittest.main()
    

    代码托管

    码云链接:
    https://gitee.com/ling_ling_li/statistics_times

  • 相关阅读:
    如何写UCHOME移动接口
    无限分类数据树形格式化
    linux下安装eclipse
    python编辑器对比和推荐
    黑马程序员面向对象07天6 (final)
    黑马程序员面向对象07天4 (super,this)
    黑马程序员面向对象07天8 (模版方法)
    黑马程序员面向对象07天7 (接口Interface)
    黑马程序员面向对象08天2 (多态)
    黑马程序员面向对象07天2 (抽象类测试)
  • 原文地址:https://www.cnblogs.com/li-lingling/p/12620082.html
Copyright © 2020-2023  润新知