Windows环境安装tesseract-ocr 4.00并配置环境变量

Windows环境安装tesseract-ocr 4.00并配置环境变量

第一步：
官方安装包下载地址：download
因为只包含英文语言包，如果需要其他语言包下载地址：download the appropriate training data
并将语言包解压至tessdata目录。

最常用的简体字识别包：https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata，也可以从上面的语言包下载地址获取各种你所需要的语言包
第二步：
直接执行下载好的tesseract-ocr-setup-4.00.00dev.exe（我的），下一步、下一步安装。其中

如果可以，也可以全部勾选，避免以后再单独下载字符库，其实我是全部下载，不过过程有点漫长，超级慢，我是隔夜安装好的。

第三步：配置环境变量
注意：我的系统是win7，其他系统应该差不多，跟配置java变量一样
复制你的安装地址，我的是安装在C:Program Files (x86)Tesseract-OCR，界面如下：

复制安装路径“C:Program Files (x86)Tesseract-OCR”，进入“控制面板系统和安全系统”，点击
“系统保护”（就是修改环境变量）

刚才的安装路径“C:Program Files (x86)Tesseract-OCR”添加到的PATH中
配置好了点击保存。

打开命令终端，输入：tesseract -v，可以看到版本信息

如果出现报错，估计是环境变量没配置好。
到这里，我们就算安装完成了，但是，我们的系统还是无法识别中文的，我们要去下载简体汉字、繁体汉字语言包（上文给了地址了），下载好之后放到安装目录的tessconfigs目录下即可。
补充：因为没有配置全局变量，无法跨盘执行数据转换，这里我们在环境变量那增加一个配置信息
系统变量—->新建：

增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:Program Files (x86)Tesseract-OCR;
命令行操作：
查看Tesseract-OCR支持语言
tesseract --list-langs
利用Tesseract-OCR识别
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
如输入：
tesseract 1.jpg 1.txt -l chi_sim+equ+eng
然后回车
1.jpg是当前目录中的1.jpg图片
1.txt是指定结果输出到文本文件
-l是指定使用的包
chi_sim是中文识别包，equ是数学公式包，eng是英文包
相关阅读:
【Neo4j cypher命令】使用
 【Neo4j】 Neo4j数据插入的几种方式总结
 【Ubuntu】解决无法获得锁 /var/lib/dpkg/lock-frontend
【python】win10配置pycharm 关于Error processing line 7 of D:softwaresAnaconda3libsite-packagespywin32.pth 问题的解决
 win10环境配置XShell6.0绿色版
 【python】 Anaconda3配置好后，启动jupyter服务异常的解决方法
 利用python+win32api获取标题对应的窗口句柄id，并且操作为当前活动窗口
 利用python+win32获取windows中任务中所有的窗口标题
 C++核心知识
 C++基础知识
原文地址：https://www.cnblogs.com/mxhmxh/p/9367677.html