Begin
上次用C#把《全唐诗》和《唐诗三百首》整理成为QData格式之后,就开始进行各种分析…
详细内容可以看看上次这篇文章,《用C#来学习唐诗三百首和全唐诗》
接下来讲一下分析的内容,由于笔者不是很懂文学和大数据统计什么的,所以只好随便分析一通,首先分析的有:标题、作者、单字分析、还有诗句字数(也就是“五言”、“七言”)
标题分析
标题分析就是分析有多少首诗采用了某一个标题啦~
首先是《唐诗三百首》
从统计可以看到《子夜四时歌》出现的次数是最多的= =.. 虽然不懂是什么,但觉得蛮厉害的
接下来看看《全唐诗》的分析结果
哇,这下可就厉害了,我的《全唐诗》数据文件中共有42904首诗,虽然不全,不足以称之为“全”唐诗,但是也胜在基数之大。
从分析结果看到,排名第一的标题是《句》,共有437首诗采用这个标题,看起来就很非主流的一个标题居然深受唐朝文人骚客的喜爱;排名第二的是《古意》,不过这个和第一名的差距可就大了,总共只有39首,可不知道这个”古意“是怀古之意还是古人之意。
作者分析
作者分析就是统计每个诗人总共写了多少首诗,以及总字数。
先来看看《唐诗三百首》的结果
嗯,不错,杜甫摘取桂冠。不过《三百首》毕竟是小样本,真正的还得看大块头的。
惊呆了,杜甫的第一名被白居易抢走了,而且差距有点大。
在《全唐诗》中,白居易2643首作品获得”写诗达人“称号= =.. 他写了《全唐诗》中6%以上的诗,不过为何白居易在《唐诗三百首》里只有6首作品呢?笔者大胆猜测《唐诗三百首》选入的诗可能是比较high bigger的,而白居易的诗词以通俗易懂闻名,”邻家的老奶奶都能看懂“,可能是这个原因导致了《三百首》中收录的不多。
再看看第二名杜甫,收录进《全唐诗》的有1151首诗,是以和白居易共同占据了唐朝近一成的古诗量,在唐朝这个文化高度繁荣鼎盛的朝代能有这样的成就实属难能。
第三名就是大名鼎鼎的诗仙李白了,总共897首诗,是以既有数量亦有质量,如果李白看到这里,会不会突然来一句”仰天大笑出门去“呢..
呃,接下来第四名居然是”佚名“,看来唐朝写诗的人实在太多了,不知作者名的唐诗竟然有842首之多。
嗯,第五名是齐己,表示比较陌生,笔者读书太少了..
紧随其后的分别是刘禹锡、元稹、李商隐等。
笔者特别喜欢元稹的一首诗:
离思五首·其四
曾经沧海难为水,除却巫山不是云。
取次花丛懒回顾,半缘修道半缘君。
关于作者分析的,在本文中就到此为止了。
单字分析
单字分析便是分析每个字出现的次数以及所占的比例。
先看《三百首》中的结果
《唐诗三百首》中共有 23719 个字,在去除重复之后剩下 2511 字。
可以看到,使用得最多的这些字都是我们平常很常见的字,所以古人虽然满肚子墨水,但是用的字词也是最平常不过的。果然印证了一句话”艺术来源于生活..“
出现频率最高的前四名分别是”不“、”人“、”山“、”无“。
再来看看《全唐诗》的情况。
《全唐诗》中共有 3163391 个字,去除重复之后剩下 7543 字。
《全唐诗》里的字果然和《唐诗三百首》不是同一个数量级的。
不过,不知道你们有没有发现,数量最多的前四个字,和《唐诗三百首》里的是一样的,连顺序也是一样的,都是”不“、”人“、”山“、”无“。(这可以说是小样本预测总体情况吗?..
还有一个现象,出现最多的字里面,多是”不“、”无“这样具有否定意义的字,为什么否定意义的字占得最多呢,对此笔者专门请教了文学院专业的同学,根据她给的专业解释,大概可以总结为以下几点:
-
唐朝虽然繁荣昌盛,但是极盛时期占整个唐朝历史并不多,作为文人墨客,大都是忧国忧民,”先天下之忧而忧“
-
消极的情绪可以给人带来灵感,诗人官场失意、怀才不遇,这时壮志难酬,作为文人,只能用墨字抒发自己的忧愁了。
嗯,我觉得也是,一个人的生活如果波澜不惊,一帆风顺,那他怎么会产生丰富的情感,就如南唐李后主李煜,大家都道他文采非凡,可是他许多惊艳世人的作品都是在亡国之后被宋主赵匡胤俘虏软禁时创作的。
五言七言分析
文章的最后贴出这个结果,其实应该也没什么意义的,就是统计诗句的长度。
《唐诗三百首》
《全唐诗》
对于诗句长度,我只是简单的做了数字-汉字的转换,比如”17“转换为”一七“,所以看起来会比较别扭,不过因为不知道这个结果有什么可以分析的,所以未加优化。