通过安装包直接安装 Tesseract
-
下载 Tesseract (可以选择最新的64位版本)
-
安装 Tesseract(可以全部点击下一步)
-
添加系统环境变量
1)将安装目录添加到 Path (参考值 C:Program FilesTesseract-OCR)
2)新建名为 TESSDATA_PREFIX 的系统变量,它的值指向 tessdata 文件夹(参考值 C:Program FilesTesseract-OCR essdata) -
下载训练数据,解压并复制到 tessdata 文件夹(chi-sim 为简体中文)
通过命令行使用 Tesseract
tesseract [image] [output] -l [lang]
image:图像文件路径
output:输出文件路径,默认输出的文件格式为文本格式
lang:训练数据文件路径
注:cmd 需要使用管理员模式打开,不然无法正常加载训练数据
编译 Tesseract
-
使用 Git 运行下面命令
git clone https://github.com/tesseract-ocr/tesseract tesseract cd tesseract cppan # 32位 mkdir win32 && cd win32 cmake .. # 64位 mkdir win64 && cd win64 cmake .. -G "Visual Studio 14 2015 Win64"
-
使用 vs 2015 打开生成的解决方案,编译。如果出现编译错误,尝试更改错误文件的编码格式。