tesseract-orc 合并识别结果

tesseract-orc 合并识别结果
在实际使用 tesseract-orc 识别库的时候，初次制作的识别库很有可能识别率不太理想，需要后期慢慢补充

本文演示如何将多个修正过的box文件合并成一个识别库。

首先，需要图片样本.tif文件，位置文件.box ,只要有这两个文件在，就可以合并字典

假设已存在如下样品图片和修正过的box文件：

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相对应的 .tr 文件

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字符

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字体特征文件

新建 font_properties 文件（注意没有后缀名）把所有box文件对应的字体特征都加进去

font 0 0 0 0 0

4、执行如下命令

mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 文件

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重命名文件

将如下文件重命名，在前面增加字体的名称，这里我使用【CK】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

重命名后各文件名如下

CK.unicharset

CK.inttemp

CK.normproto

CK.pfftable

CK.shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

7、合并所有文件生成一个大的字库文件

combine_tessdata CK.

打完收工
相关阅读:
java之Arrays.asList
MySql索引
 Maven私服搭建
 基于Docker的GitLab搭建
 ubuntu新建组合用户命令不管用
 Linux 安装jdk
消息队列
 Netty之大动脉Pipeline
Netty之大名鼎鼎的EventLoop
Netty之揭开BootStrap 的神秘面纱
原文地址：https://www.cnblogs.com/tdhao/p/5451813.html