• Tesseract-OCR样本训练


    个人博客

    http://www.milovetingting.cn

    下载Tesseract

    https://github.com/UB-Mannheim/tesseract/wiki
    

    下载jTessBoxEditor

    https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-2.3.1.zip/download
    

    安装Tesseract

    一路Next,在选择组件界面,全选所有组件

    安装jTessBoxEditor

    解压后,直接运行jTessBoxEditor.jar

    制作训练样本

    运行jTessBoxEditor工具,点击Tools-Merge TIFF,选择需要合并的tif文件,保存文件名称格式:[lang].[fontname].exp[num],如zh.song.exp0

    生成Box文件

    进入Tesseract安装目录

    tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
    

    [lang].[fontname].exp[num].tif 即为上面生成的合并文件

    [lang].[fontname].exp[num]为新生成的box文件,文件名为输入文件名称一致

    校正box文件

    将上面两步生成的.tif和.box文件放在同一目录下,jTessBoxEditor软件中选择Box Editor,open,选择之前的tif文件,打开后可以校正结果后保存。

    创建 font_properties 文件

    文件内容:

    <fontname> <italic> <bold> <fixed> <serif> <fraktur>
    

    song 0 0 0 0 0 
    

    生成字符特征文件

    新建bat文件

    rem 产生字符特征文件
    tesseract zh.song.exp0.tif zh.song.exp0.tif box.train
    
    rem 计算字符集
    unicharset_extractor zh.song.exp0.box
    
    rem 聚集字符特征
    mftraining -F font_properties -U unicharset -O zh.unicharset zh.song.exp0.tr
    
    rem 生成字符形状正常化特征文件
    cntraining zh.song.exp0.tr
    
    rem 文件重命名
    ren shapetable zh.shapetable
    ren normproto zh.normproto
    ren inttemp zh.inttemp
    ren pffmtable zh.pffmtable
    
    rem 生成tessdata文件
    combine_tessdata zh.
    
    pause
    
    

    执行bat文件,即可生成zh.traineddata。

    Android代码搬运工一枚,欢迎留言讨论交流!
    个人主页:http://www.milovetingting.cn
  • 相关阅读:
    phpmyadmin 设置密码
    php 单向链表反转 reverse (没有空的头结点)
    vue 学习资料
    vue 熟悉项目结构 创建第一个自己的组件
    vue开发环境配置
    vue.js 配置axios 用来ajax请求数据
    javascript 中介者模式 mediator
    PHP 相对路径转换为绝对路径 realpath
    Typescript, ES6
    POST、GET、@RequestBody和@RequestParam区别
  • 原文地址:https://www.cnblogs.com/milovetingting/p/14968726.html
Copyright © 2020-2023  润新知