tesseract-orc 合并识别结果

tesseract-orc 合并识别结果

在实际使用 tesseract-orc 识别库的时候，初次制作的识别库很有可能识别率不太理想，需要后期慢慢补充

本文演示如何将多个修正过的box文件合并成一个识别库。

首先，需要图片样本.tif文件，位置文件.box ,只要有这两个文件在，就可以合并字典

假设已存在如下样品图片和修正过的box文件：

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相对应的 .tr 文件

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字符

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字体特征文件

新建 font_properties 文件（注意没有后缀名）把所有box文件对应的字体特征都加进去

font 0 0 0 0 0

4、执行如下命令

mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 文件

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重命名文件

将如下文件重命名，在前面增加字体的名称，这里我使用【CK】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

重命名后各文件名如下

CK.unicharset

CK.inttemp

CK.normproto

CK.pfftable

CK.shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

7、合并所有文件生成一个大的字库文件

combine_tessdata CK.

打完收工
相关阅读:
SAP 移动类型整理
 VB6及VS2005 相关的树TREE控件，网格控件、电子表格控件、网络图及甘持图控件（项目进度）
金蝶 PK 用友，第三方评论与自我评价（1）
谁在开发“工作流”WORKFLOW 产品？
协同及ERP开发平台，我们如何选择？
关注“北京广联达软件公司”的项目成本管理系统！
一个免费提供的开发平台___"KCOM 商业工程"
企业 ISO“质量、安全和环境” 三大体系认证的管理系统的开发者！
MAXWELL 万胜系统软件公司——为工程建设承包商提供优秀的软件套件！
Contractor Anywhere （任何地方的承包商）也被 SAGE “赛捷”公司收购！
原文地址：https://www.cnblogs.com/waw/p/5494265.html