用Tesseract-OCR做识别库的时候,生成字典非常麻烦,就写了一个批处理,用来生成字典还是蛮方便的,希望大家有用,该批处理已经自动生成font_properties文件,各位无需手动创建
下载地址:http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exe
下面简单说下怎么训练
1、批量下载、并保存需要识别的图片(验证码);
2、预处理图片(降噪、剪裁、灰度);
3、使用 jTessBoxEditor 生成 tif 文件(注:jTessBoxEditor是java软件,需要安装java jdk)
4、复制我这个批处理文件到生成的tif目录下执行
5、输入tif的完整文件名
6、输入字典项目名称
7、是否生成box文件,没有生成的,选择y,已经生成并修正过的就选择n
8、生成完毕
下面是批处理的内容,复制下面内容,保存一个.bat文件
echo off cls set /p img=请输入图片名: set /p pro=请输入项目名: set /p level=是否生成box? if %level% NEQ n goto step2 if %level% NEQ N goto step2 echo 1、生成%img%的box文件,项目名【%pro%】 pause tesseract.exe %img% %pro% batch.nochop digits makebox cls echo 生成box文件完成,请使用jTessBoxEditor校正识别信息。 pause :step2 tesseract.exe %img% %pro% nobatch box.train unicharset_extractor.exe %pro%.box echo 生成font_properties文件 set val=%pro% 1 0 0 1 0 echo %val%>font_properties cntraining.exe %pro%.tr mftraining.exe -F font_properties -U unicharset %pro%.tr echo 重命名文件 rename inttemp %pro%.inttemp rename unicharset %pro%.unicharset rename normproto %pro%.normproto rename pffmtable %pro%.pffmtable rename shapetable %pro%.shapetable
echo 生成字典文件... combine_tessdata %pro%. echo 字典生成完毕,已生成字典:%pro%.traineddata
注:3.0.2 增加了一个 shapetable 文件,在重命名时这个文件也需要重名命