• Tesseract_OCR 合并字库


    1.前期准备工作:

        1.需要生成的字符集    .tif文件,位置文件     .box文件

       现在有三个需要合并的字典

    (1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)

    (2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)

     (3).  (zwp83.test.exp0.tif,  zwp83.test.exp0.box)

    box和tif文件

    2.合并过程:

      1、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步)

       tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

       tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

       tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

    生成.tr文件

    2、从所有文件中提取字符

       unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

    所有文件中提取字符

    3、生成字体特征文件

       新建的font.txt文件,在文件中把所有box文件对应的字体特征都加进去(如果不知道,可以去原来考出来的字库文件找font_properties文件查看)

       test 0 0 0 0 0

       test 0 0 0 0 0

       test 0 0 0 0 0

    然后执行如下命令:

       mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

    生成字体特征文件

    4 、聚集所有.tr 文件

       cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

    聚集所有.tr 文件

    5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀zwpnew. (目的是为了后面的聚集合并)

       rename normproto zwpnew.normproto

       rename inttemp zwpnew.inttemp

       rename pffmtable zwpnew.pffmtable

       rename shapetable zwpnew.shapetable

       rename unicharset zwpnew.unicharset

    重命名文件

    6、合并所有文件 生成一个大的字库文件

       combine_tessdata zwpnew.

    合并文件

    7、最后文件夹中就可以看到生成的.traineddata训练库

    .traineddata训练库
  • 相关阅读:
    HDU.4352.XHXJ's LIS(数位DP 状压 LIS)
    AGC 015C.Nuske vs Phantom Thnook(思路 前缀和)
    window下域名解析系统DNS诊断命令nslookup详解
    Nginx入门篇-基础知识与linux下安装操作
    物理服务器Linux下软RAID和UUID方式挂载方法--Megacli64
    Linux下进程与线程的区别及查询方法
    Linux系统下DNS主从配置详解
    CactiEZ中文解决方案和使用教程
    关于MyBase 7.0 破解的方法
    git分支与合并(3)
  • 原文地址:https://www.cnblogs.com/interdrp/p/14615574.html
Copyright © 2020-2023  润新知