• StoneAge Dict 技术方案的可行性[2]


    经过近一天的词库格式实验,解决了一些问题(heap overflow,etc.),并转换了一个朗道英汉字典5.0的词库。

    实验统计数据如下:

    环境:Pm1.86G CPU, 1G DD2 memory

    转换词数:100, 000

    耗时:13m34s

    目标XML词库:9.9M,经过Zip压缩后为1.6M

     

    根据这个实验,可以推断,完全转换一个40W词汇量的词库为XML格式的化压缩后大小大概10M,消耗的时间可以不考虑。

    结论:只是作为存储的话XML可以满足我们的要求,但是如果只使用XML存储词库的话查询效率是个很大的问题。

             在标准词库上,我们还是基于前人(StarDict、dict.org等)的研究成果,使用StarDict的标准词库作为词汇的查询。

             而这些标准词库不能做到“开放式”、“实时”的需求特点,因为它们的数据文件和索引文件已经固定,要做出调整代价太大。

    再分析了客户的需求,并结合客户给出的使用场景,决定采用StarDict的词库作为基础标准词库,开放式实时的词库采用XML。因为这类词库的

    词汇量不可能太大,以XML作为存储可以方便地进行词汇更新、词汇搜索以及用户词库的交换。

    至此,我们StoneAge Dictionary的词库基本解决方案如下:

    1. StarDict词库处理子系统,用于StarDict所有词库的处理

    2. XML开放式词库处理子系统,用于用户自定义词库的处理

    根据这几天的实验,StarDict词库处理子系统基本完成,还存在一些Bugs需要解决。XML开放式词库的格式已经完成,现在我们需要深入地分析一下用户素材了。


    P.S. 由于这几天过年,大家可能不能经常上网。项目经理家那边也经常停电- -!所以我们团队急需找个时间开个网络会议了。

     
  • 相关阅读:
    秋意浓浓回成都2月杂记
    验证表单的js代码段
    C#算法小程序(1)
    C#数据结构之单向链表
    Excel VBA编程的常用代码
    我的漫漫系分路
    2007年下半年系统分析师上午试卷及参考答案
    「2014年間休日カレンダー」のご案内
    Eclipse的几点使用技巧
    沧海一粟小组(第一次作业)
  • 原文地址:https://www.cnblogs.com/lanzhi/p/6470689.html
Copyright © 2020-2023  润新知