我作的论文主要是信息检索用汉语分词算法研究以及实现汉语分词系统。
最近几天主要工作及进展:
浏览大量的期刊论文以及硕博士论文 60%
对自适应汉语分词算法进行相关的改进 90%
分词系统的整体设计 70%
硕士论文撰写 20%
总体进度 40%
最近一个星期主要专注于系统的设计与实现,同时继续优化算法效率。
1)设计系统的整体界面以及实现大部分功能。
2)测试算法,优化算法效率,算法切词速率可达200kb/s,均值在100kb/s。
体会到两点:
1)一个实用的分词系统需要作很多界面以及UI功能方面的设计。
2)算法的效率还可以改进,不过词表模块部分需要作部分调整,在算法的准确度上也还得作文章。