一. Steps:
学习图片库--->处理图片(初步处理)--->校正.学习图片
二. Tesseract:
1. 采集图片库(一般每个出现的字符出现20次左右识别效果比较好),根据图片特点进行初步处理(二值化/灰度化/滤波/降噪等处理),并保存为.tif格式(x.tif);
2. 使用JTessBoxEditor ,将得到的.tif图片合并为一张图片(Tool—>MergeTiff);
3. 下载安装tesseract-ocr-setup-3.01-1.exe;
4. 安装后,运行命令行到.tif格式(x.tif)文件夹中,输入tesseract.exe x.tif x batch.nochop makebox;(PS:保存为 同名同文件夹下)
5. 使用JTessBoxEditor打开x.tif文件进行逐个校正;(PS:每次校正后都得保存)
6.校正后,命令行执行:
tesseract.exe x.tif x nobatch box.train;
unicharset_extractor.exe x.box;
7. 在目录下建立名为“font_properties”的文件,并输入内容:x 1 0 0 1 0;
8.命令行执行:
cntraining.exe x.tr;
mftraining.exe –F font_properties –U unicharset x.tr;
9. 将目录下生成的文件其中几个unicharset/inttemp/normproto/pffmtable文件加上训练名前缀“x.”;
10.命令行执行:
combine_tessdata x. 生成最终的校验学习数据x.traineddata文件;
生成最终的文件示例如下:
11.将x.traineddata拷贝到tesseract-ocr-setup-3.01-1.exe安装好的tesseract-ocr目录下的tessdata下,找一张
经过初步处理的图片,运行命令行执行:tesseract.exe xx.jpg out –l lm;在同级目录下就会生成一个out.txt文件,里面的内容就是识别后的字符串。