• Tesseract5.0训练字库,提高OCR特殊场景识别率,合并字库(二)


    一、准备工作

      需要的文件 tif文件和box文件。

      如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif box 文件,如下:

      

    二、生成对应的 .tr 训练文件

      根据不同的tif文件依次使用下面这个命令

      tesseract qyc.word.exp4.tif qyc.word.exp4 nobatch box.train

      完成后效果是这样的,每个组合都会有一个对应的 .tr 文件

      

    三、从所有文件中提取字符

      unicharset_extractor fst.word.exp0.box fst.word.exp1.box fst.word.exp2.box fst.word.exp3.box qyc.word .exp0.box qyc.word.exp4.box

      执行完这个命令会在当前目录生成一个unicharset文件

      

    四、生成字体特征文件

      这个是设置字体格式的,会生成一个无后缀名的font+properties文件

      echo word 0 0 0 0 0 > font_properties

    五、生成聚字符特征文件

      会生成 inttemp、pffmtable、shapetable 三个文件

      mftraining -F font_properties -U unicharset fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.wo rd.exp3.tr qyc.word.exp0.tr qyc.word.exp4.tr

    六、聚集所有 .tr 文件

      执行下面命令,会生成 normproto 文件。

      cntraining fst.word.exp0.tr fst.word.exp1.tr fst.word.exp2.tr fst.word.exp3.tr qyc.word.exp0.tr qyc.w ord.exp4.tr

    七、重命名文件,把unicharset,inttemp,normproto,pfftable,shapetable  这五个文件加上前缀word.

      rename unicharset word.unicharset

      剩下四个同上

    八、合并所有文件,生成一个大的 .traineddata 字库文件

      combine_tessdata word.

      

  • 相关阅读:
    JSP学习-JSP访问数据库-JavaBean封装
    JSP学习-sessionDemo
    第十次随笔
    第九次随笔
    第八次随笔
    第七次随笔
    第六次随笔
    第五次随笔
    第四次随笔
    第三次随笔
  • 原文地址:https://www.cnblogs.com/pyweb/p/11527465.html
Copyright © 2020-2023  润新知