StoneAge Dict 技术方案的可行性[2]

经过近一天的词库格式实验，解决了一些问题（heap overflow，etc.），并转换了一个朗道英汉字典5.0的词库。

实验统计数据如下：

环境：Pm1.86G CPU, 1G DD2 memory

转换词数：100, 000

耗时：13m34s

目标XML词库：9.9M，经过Zip压缩后为1.6M

根据这个实验，可以推断，完全转换一个40W词汇量的词库为XML格式的化压缩后大小大概10M，消耗的时间可以不考虑。

结论：只是作为存储的话XML可以满足我们的要求，但是如果只使用XML存储词库的话查询效率是个很大的问题。

在标准词库上，我们还是基于前人（StarDict、dict.org等）的研究成果，使用StarDict的标准词库作为词汇的查询。

而这些标准词库不能做到“开放式”、“实时”的需求特点，因为它们的数据文件和索引文件已经固定，要做出调整代价太大。

再分析了客户的需求，并结合客户给出的使用场景，决定采用StarDict的词库作为基础标准词库，开放式实时的词库采用XML。因为这类词库的

词汇量不可能太大，以XML作为存储可以方便地进行词汇更新、词汇搜索以及用户词库的交换。

至此，我们StoneAge Dictionary的词库基本解决方案如下：

1. StarDict词库处理子系统，用于StarDict所有词库的处理

2. XML开放式词库处理子系统，用于用户自定义词库的处理

根据这几天的实验，StarDict词库处理子系统基本完成，还存在一些Bugs需要解决。XML开放式词库的格式已经完成，现在我们需要深入地分析一下用户素材了。

P.S. 由于这几天过年，大家可能不能经常上网。项目经理家那边也经常停电－－！所以我们团队急需找个时间开个网络会议了。

相关阅读:
Selct 大全
Web API
其他
ADO.NET Entity Framework
ORACLE SQL前端补0的三种方式。
linux常用命令
oracle 创建修改 job
oracle 如何恢复误删的表记录数据
myeclipse上SVN代码合并详细步骤图解
SVN创建资源与分支详解

原文地址：https://www.cnblogs.com/lanzhi/p/6470689.html