一、描述模块设计
1、 -m 指定需统计的词组长度
2、 -n 指定需要输出的词频排行的前n项
3、 -i 指定输入文件
4、 -o 指定程序的输出文件
其中,参数之间的顺序并不固定,并且:
-i 、-o 参数一定会出现
-m、-n参数可能都不出现,可能只出现一个,也可能都出现
1、未出现 -m 参数时,不启用词组词频统计功能,默认对单词进行词频统计
2、未出现 -n 参数时,不启用自定义词频统计输出功能,默认输出10个(不够指定数目时,按实际数目输出)
1、统计文件的字符数:
- 只需要统计Ascii码,汉字不需考虑
- 空格,水平制表符,换行符,均算字符
2、统计文件的的单词总数,单词:至少以4个英文字母开头,跟上字母数字符号,单词以分隔符分割。 - 英文字母: A-Z,a-z
- 字母数字符号:A-Z, a-z,0-9
- 分割符:空格,非字母数字符号
例:file123是一个单词, 123file不是一个单词。
3、统计文件的有效行数:任何包含非空白字符的行,都需要统计。
4、统计文件中各词组(单词)的出现次数,最终只按照字典序输出频率最高的n个,n由输入参数指定。 - 该功能不影响单词总数统计
- 同一词组(单词)不区分大小写;例如,file、File和FILE是同一个单词
- 频率相同的单词,优先输出字典序靠前的单词,例如,windows95,windows98和windows2000同时出现时,则先输出windows2000
- 输出的单词统一为小写格式。
二、组员职责分工
队员 | 分工 |
---|---|
马连政 | 统计文件的的单词总数,单词 |
胡庆寿 | 统计文件的字符数 |
蔡劭凡 | 统计文件的有效行数 |
杨成锦 | 统计文件中各词组(单词)的出现次数 |
刘清宏 | 命令行程序的输入 |
江家舟 | 命令行程序的输出 |
吴斯桓 | 命令行程序的输入输出 |
王振雄 | Github 汇总 |