Tesseract-OCR 训练教程（二）合并新的训练文件 - 润新知

Tesseract-OCR 训练教程（二）合并新的训练文件

在原有训练数据的基础上，如果有新的字符训练信息需要加入，所有数据重新校准一遍就累死人了。。。。

经研究找到实用合并方法（红色部分为示例，实际应为你自己生成的文件名）：

在新的训练数据生成.box 和.tr文件后，

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合并训练数据(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr文件：

cntraining add.font.exp0.tr new.font.exp0.tr

重命名文件，我把unicharset, inttemp, normproto, pfftable ，shapetable这几个文件加了前缀added.（注：added.只是我给合成的字典的命名，个人随意）

合并所有文件，生成一个大的资库文件。

命令：combine_tessdata added.
相关阅读:
在 Java 中遍历 HashMap 的5种最佳方式
 Java 8 Stream.reduce() 使用示例
 Redis 为什么这么快？
java8 常用代码
 为什么我们越娱乐反而会越无聊？
Arrays.sort() VS Arrays.parallelSort()
Java中枚举类型Enum的一种使用方式
 An illegal reflective access operation has occurred
多线程中常见锁概述
 Java中创建多线程的三种方式
原文地址：https://www.cnblogs.com/password1/p/9213908.html

Copyright © 2020-2023 润新知