计算与软件工程 作业四
作业要求 | https://edu.cnblogs.com/campus/jssf/infor_computation17-31/homework/10534 |
---|---|
课程目标 | 完成简单软件功能的开发,会对简单代码进行审核,学会结对编程,和队友搭档一起开发新的功能,会对代码进行单元测试等,分析代码的利用率 |
该次作业在程序效能方面实现我的目标 | 和队友搭档完成本次程序开发,进行代码复审,代码测试,简单修改代码提高代码利用率 |
参考文献 | https://www.cnblogs.com/xinz/archive/2011/11/20/2255971.html https://www.cnblogs.com/xinz/archive/2011/08/07/2130332.html https://blog.csdn.net/iamtsf/article/details/86305351 http://c.biancheng.net/view/5804.html |
作业正文 | https://www.cnblogs.com/wanghuiru/p/12635796.html |
作业一:
1.https://www.cnblogs.com/yangqiuyan/p/12434874.html#commentform
2.https://www.cnblogs.com/chenyue666/p/12456244.html
3.https://www.cnblogs.com/shixiaomao12138/p/12451805.html
4.https://www.cnblogs.com/youmine/p/12451670.html
5.https://www.cnblogs.com/liziye/p/12443639.html
6.https://www.cnblogs.com/zxy123456/p/12449427.html
7.https://www.cnblogs.com/yzzzw/p/12462010.html
8.https://www.cnblogs.com/lazycat777/p/12483269.html
总体感受:
大部分代码的完成度挺高的,也都符合代码规范。但注释方面却都不太重视,有的有些必要的注释,有的没有注释;缩进方面也有些问题,缩进的空格数没有一定的标准,给读者的观感不好。所以在这些方面我们今后应该加强代码规范。
作业二:结对编程
具体要求
1.实现一个简单而完整的软件工具(中文文本文件人物统计程序):针对小说《红楼梦》要求能分析得出各个人物在每一个章回中各自出现的次数,将这些统计结果能写入到一个csv格式的文件。
2.进行单元测试、回归测试、效能测试,在实现上述程序的过程中使用相关的工具。
进行个人软件过程(PSP)的实践,逐步记录自己在每个软件工程环节花费的时间。
使用源代码管理系统 (GitHub, Gitee, Coding.net, 等);
3.针对上述形成的软件程序,对于新的文本小说《水浒传》分析各个章节人物出现次数,来考察代码。
4.将上述程序开发结对编程过程记录到新的博客中,尤其是需要通过各种形式展现结对编程过程,并将程序获得的《红楼梦》与《水浒传》各个章节人物出现次数与全本人物出现总次数,通过柱状图、饼图、表格等形式展现。
下面是得到的结果截图:
csv文件:
水浒传的相关结果:
水浒传的csv输出:
水浒传的人物出现次数统计结果:
水浒传的效能测试结果:
水浒传的测试结果:
红楼梦的相关结果:
红楼梦的csv输出:
红楼梦的人物出场次数的统计结果:
红楼梦文件的效能测试结果:
红楼梦的测试结果:
PSP表格:
PSP | Personal Software Process Stages | 预估耗时 | 实际耗时 |
---|---|---|---|
Planning | 计划 | 一天 | 一天 |
Estimate | 估计这个任务需要多少时间 | 一周 | 两周 |
Development | 开发 | 一周 | 一周多 |
Analysis | 需求分析(包括学习新技术) | 二天 | 3天 |
Coding Standard | 代码规范 | 1小时 | 1小时 |
Design | 具体设计 | 2天 | 2天 |
Coding | 具体编码 | 3天 | 5天 |
Code Review | 代码复审 | 2小时 | 3小时 |
Test | 测试 | 1小时 | 2小时 |
Reporting | 报告 | 1小时 | 2小时 |
Size Measurement | 计算工作量 | 1小时 | 1小时 |
Postmortem&Process Improvement Plan | 事后总结,并提出过程改进计划 | 1小时 | 1小时 |
合计 | --- | 两周 | 两周 |
实验总结:
本次作业中主要进行Python软件的学习与应用,在结对编程的条件下进行代码开发,极大程度地结合了两个人的优势与能力,在问题解决上速度效率较高,但在实现初期学习时工作分配不均,不易提高效率。
本次实验通过测试两个经典文本中的人物出现频率进行人物分析等操作,在一开始想用C++或Java语言进行开发,但随着进一步深入发现,c++只适合英文输入下的文本分析,中文的效率较低,不易表达。参考网络中代码,其实可以很快发现Python语言更加适合本次实验要求,更加清晰地可以统计出人物出场次数。同时通过测试也可以分析代码测试的速率。所以我们经考虑,决定用Python语言进行本次作业实现。
遇到困难:安装pycharm和之前的软件安装不大相同,主要是后台控制,随着实验需要其实还需要进一步安装其他库来实现需要。在编写测试文件时,由于任务出场顺序读入顺序问题,出现过多次不匹配情况,最终在网上找到了类似错误的解决方案。
还需解决的问题:本次我们并没有研究出分章节讨论任务出场频率的分析,如果要细分,其实要人工操作,并没有想到好的解决方案。最后的测试也较为单一,没办法对方面分析代码。
代码托管:
此次托管只需将新文件提交到个人仓库中。
码云链接:https://gitee.com/wang_hui_ru/fristwork
附录:
红楼梦的相关代码文件:
# -*- coding: gb2312 -*-
# 红楼梦csv统计输出
import jieba
import csv
class NameCount():
def getNameTimesSort(self, name_list, txt_path):
# 添加jieba分词
mydict = ['琏二奶奶', '凤哥儿', '凤丫头', '宝姑娘', '颦儿', '二姑娘', '三姑娘', '四姑娘', '云妹妹', '蓉大奶奶']
for item in mydict:
jieba.add_word(item)
#打开并读取txt文件
txt = open(txt_path, "r", encoding='utf-8').read()
# 定义别名列表
bieming = [["王熙凤", "凤丫头", '琏二奶奶', '凤姐', '凤哥儿', '凤辣子','熙凤'],["林妹妹", "黛玉", '林姑娘', '林黛玉'], ["宝钗", '宝姑娘', '宝丫头', '宝姐姐', '薛宝钗'],
['探春', '三姑娘', '贾探春'], ['湘云', '云妹妹', '史湘云'],['迎春', '二姑娘', '贾迎春'],['元春', '大姑娘', '娘娘', '贵妃', '元妃', '贾元春'],
['惜春', '四姑娘', '贾惜春'], ['妙玉'],['巧姐'], ['李纨', '大嫂子'], ['秦可卿', '可卿', '蓉大奶奶']]
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word, 0) + 1
# 计算出场次数(各个别名的合计次数)
lst = list()
for i in range(12):
lt = 0
for item in bieming[i]:
lt += counts.get(item, 0)
lst.append(lt)
items = list()
for i in range(12):
items.append([name_list[i], lst[i]])
items.sort(key=lambda x: x[1], reverse=True)
f = open('红楼梦人物统计.csv', 'w', newline='', encoding='utf-8')
csv_writer = csv.writer(f)
csv_writer.writerow(['红楼梦人物统计'])
csv_writer.writerow(["姓名", "出现次数"])
for i in range(12):
word, count = items[i]
csv_writer.writerow([word, count])
print("{0:<10}{1:>5}".format(word, count))
f.close()
return items
if __name__ == '__main__':
# 参与统计的人名列表,可修改成自己想要的列表
name_list = ['熙凤', '黛玉', '宝钗', '探春', '湘云', '迎春', '元春', '惜春', '妙玉', '巧姐', '李纨', '可卿']
# txt文件所在路径
txt_path = 'D:红楼梦.txt'
NameCount().getNameTimesSort(name_list,txt_path)
import pstats
import profile
if __name__ == '__main__':
print("效能测试:")
profile.run('NameCount()', 'result')
# 直接把分析结果打印到控制台
p = pstats.Stats('result') # 创建Stats对象
p.strip_dirs().sort_stats("call").print_stats() # 按照调用的次数排序
p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序
红楼梦的测试文件:
# -*- coding: gb2312 -*-
import unittest
from Hlm import*
class MyTestCase(unittest.TestCase):
def setUp(self):
pass
def test_something(self):
name_list = ['熙凤', '黛玉', '宝钗', '探春', '湘云', '迎春', '元春', '惜春', '妙玉', '巧姐', '李纨', '可卿']
txt_path = 'D:红楼梦.txt'
name_list_count = [1149, 953, 696, 448, 393, 146, 126, 105, 81, 40, 36, 14]
items = list()
for i in range(12):
items.append([name_list[i], name_list_count[i]])
self.assertEqual(items, NameCount().getNameTimesSort(name_list,txt_path))
def tearDown(self):
pass
if __name__ == '__main__':
unittest.main()
水浒传的相关文件:
# -*- coding: gb2312 -*-
import jieba
import csv
import pstats
import profile
class NameCount():
def getNameTimesSort(self, name_list, txt_path):
mydict = ['及时雨','黑旋风', '行者','豹子头','花和尚', '智多星', '玉麒麟', '神行太保', '小李广','九纹龙','青面兽', '高太尉','鼓上蚤']
for item in mydict:
jieba.add_word(item)
txt = open(txt_path, "r", encoding='utf-8').read()
bieming = [['及时雨', '宋江', '呼保义', '孝义黑三郎', '宋公明', '宋押司'],['黑旋风', '李逵', '铁牛'],['武松', '武二郎', '行者', '武行者', '武都头'],['豹子头', '林冲', '林教头'],
['鲁提辖', '鲁达', '智深', '花和尚', '鲁智深'],['智多星', '吴用', '吴学究', '吴加亮', '赛诸葛', '加亮先生'],['卢俊义', '玉麒麟', '卢员外'], ['戴宗','戴院长','神行太保'],['花荣', '花知寨', '小李广'],
['九纹龙', '史进'], ['杨志', '杨制使', '杨提辖', '青面兽'], ['高俅,‘高二','高太尉'],['时迁','鼓上蚤'] ]
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word, 0) + 1
# 计算出场次数(各个别名的合计次数)
lst = list()
for i in range(13):
lt = 0
for item in bieming[i]:
lt += counts.get(item, 0)
lst.append(lt)
items = list()
for i in range(13):
items.append([name_list[i], lst[i]])
items.sort(key=lambda x: x[1], reverse=True)
f = open('水浒传人物统计.csv', 'w', newline='', encoding='utf-8')
csv_writer = csv.writer(f)
csv_writer.writerow(['水浒传人物统计'])
csv_writer.writerow(["姓名", "出现次数"])
for i in range(13):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
csv_writer.writerow([word, count])
f.close()
return items
if __name__ == '__main__':
# 参与统计的人名列表,可修改成自己想要的列表
name_list = ['宋江', '鲁智深', '花荣', '武松', '吴用', '高俅', '史进', '卢俊义', '李逵', '林冲', '杨志','戴宗','时迁']
# 水浒传txt文件所在路径
txt_path = 'D:水浒传.txt'
NameCount().getNameTimesSort(name_list, txt_path)
print("效能测试:")
profile.run('NameCount()', "result")
# 直接把分析结果打印到控制台
p = pstats.Stats('result') # 创建Stats对象
p.strip_dirs().sort_stats("call").print_stats() # 按照调用的次数排序
p.strip_dirs().sort_stats("cumulative").print_stats() # 按执行时间次数排序
水浒传的测试文件:
# -*- coding: gb2312 -*-
import unittest
from count1 import*
class MyTestCase(unittest.TestCase):
def test_something(self):
name_list = ['宋江','鲁智深 ', '花荣', '武松', '吴用','高俅','史进 ', '卢俊义','李逵', '林冲', '杨志', '戴宗','时迁']
txt_path = 'D:水浒传.txt'
name_list_count = [2765, 1247, 1151, 759, 647, 639, 632, 343, 282, 242, 239, 216,183]
items = list()
for i in range(13):
items.append([name_list[i], name_list_count[i]])
self.assertEqual(items, NameCount().getNameTimesSort(name_list, txt_path))
if __name__ == '__main__':
unittest.main()