python下以api形式调用tesseract识别图片验证码

python下以api形式调用tesseract识别图片验证码
一、背景

之前在博文中介绍在python中如何调用tesseract ocr引擎，当时主要介绍了shell模式，shell模式需要安装tesseract程序，并且效率相对略低。

今天介绍api形式的调用方式，因为博主主要是基于windows环境进行开发，所以这里的api调用主要是指dll调用（linux之类是.so调用）

二、tesseract dll下载网址

https://github.com/charlesw/tesseract 这个网址中包含了编译好的exe及dll文件，而且x86，x64两种架构都有。

（特别说明：选择x86还是x64版本dll，只依赖于你的python架构，而不是操作系统的架构，即便是在64位操作系统，假如你的python是32位版本，这里也要选用x86版本dll）。

博主使用的64位Python，所以进入 tesseract/src/lib/TesseractOcr/x64/目录，分别下载 liblept172.dll、libtesseract304.dll 两个dll。（若是你想用shell形式调用，也可以下载tesseract.exe，与之前的博文改善的地方，就是免去安装tesseract。）

三、语言包下载网址（tessdata）

注意说明里有这一段话，You will also need to download the language data files for tesseract 3.04 from tesseract-ocr.

网址：https://github.com/tesseract-ocr/tesseract ，下载其中的tessdata目录即可，跟dll放到同一目录。

四、vc 2015++发行包下载

注意说明里这一段话：

Since tesseract and leptonica binaries are compiled with Visual Studio 2015 you'll need to ensure you have the Visual Studio 2015 Runtime installed.

意思就是，这个tesseract 的dll是使用vs 2015编译的，所以必须安装其发行包，同样分X64，X86两个版本，还是依赖于你的开发环境，不依赖于操作系统。

五、安装pyocr for python 包

用pip就可以安装： pip install pyocr，也可以到官网下载源码，手动安装： https://github.com/jflesch/pyocr

最新的pyocr是0.4.1，其源码还是基于tesseract 3.0.2 ，而前文下载的tesseract 已经是3.0.4版本了，所以需要改下pyocr源码。（需要说明的是pyocr包，比起以前博文提的pytesseract包要更复杂一些，同时支持shell、api 、Cuneiform 三种形式。）

修改源码文件：C:Python27Libsite-packagespyocrlibtesseractlibtesseract_raw.py文件。

如下所示：红色字体行，把302dll改成304dll
```
TESSDATA_PREFIX = os.getenv('TESSDATA_PREFIX', None)


if sys.platform[:3] == "win":
    libnames = [
        # Jflesch> Don't they have the equivalent of LD_LIBRARY_PATH on
        # Windows ?
        "../vs2010/DLL_Release/libtesseract302.dll",
        "libtesseract304.dll", #libtesseract302.dll
    ]
else:
    libnames = [
        "libtesseract.so.3",
    ]
```
　　

六、编写测试程序

直接放源码 pyocr-test.py ：
```
#coding=utf-8 

'''
当前目录必须有tessdata ,libtesseract304.dll ,liblept172.dll
'''

import os ,sys
tessdir = os.getenv('TESSDATA_PREFIX', None)
if tessdir is None  :
    tessdir = os.path.split(os.path.realpath(__file__))[0] 
    os.environ['TESSDATA_PREFIX'] = tessdir
if tessdir not in os.environ['PATH']:
    os.environ['PATH']= tessdir+';' +os.environ['PATH']
    #sys.path.append(tessdir)


print os.environ['PATH']
print os.environ['TESSDATA_PREFIX']

from pyocr import libtesseract
from pyocr.builders import TextBuilder
from PIL import Image

filename ='1.png'
img = Image.open(filename)
#不设置成单行模式,没有输出
bu = TextBuilder(tesseract_layout=7)
#lang为语言,默认使用eng
print libtesseract.image_to_string(img,lang='fontet',builder=bu)
```
几个注意点：

1、前文下载的dll 与tessdata语言包文件夹，默认放到 pyocr-test.py 的同一目录下；

2、必须安装vc++ 2015 发行包（vc_redist.x86.exe 或vc_redist.x64.exe），否则会ctypes.cdll.LoadLibrary(libname)会调用dll失败。

3、源码里的第一段，主要就是用来解决python找不到dll的问题，这段代码主要功能：把当前目录加到系统PATH环境变量里，以确保dll能被搜到。

这个地方容易出问题，主要是os.path.realpath 、__file__这几个内部函数和常量，貌似在不同的开发环境，甚至不同的开发工具下都会有不同的结果，跟pyocr无关，主要是python的问题。
```
import os
tessdir = os.getenv('TESSDATA_PREFIX', None)
if tessdir is None  :
    tessdir = os.path.split(os.path.realpath(__file__))[0] 
    os.environ['TESSDATA_PREFIX'] = tessdir
if tessdir not in os.environ['PATH']:
    os.environ['PATH']= tessdir+';' +os.environ['PATH']
```
4、实测时发现，bu = TextBuilder(tesseract_layout=7) 这一段不写，会导致识别出错，这个等于以前博文提到-psm 7函数，也就是单行模式。

以上
相关阅读:
长连接和短连接
 4GLTE@NB-IOT
JavaScript匿名类整理学习笔记
 关于javaScript注册事件传递参数的浅析
 动态加载javascript增强版
 JavaScript的gzip静态压缩方法记录
 JavaScript判断浏览器类型及版本
 NodeJS与Javascript时代
 《javascript征途》学习笔记
 超酷的JavaScript叙事性时间轴(Timeline)类库
原文地址：https://www.cnblogs.com/zhongtang/p/5757406.html

python下以api形式调用tesseract识别图片验证码

一、背景

二、tesseract dll下载网址

三、语言包 下载网址（tessdata）

四、vc 2015++发行包下载

五、安装pyocr for python 包

六、编写测试程序

三、语言包下载网址（tessdata）