爬虫-识别图形验证码-tesserocr

爬虫-识别图形验证码-tesserocr
引入：

　　在学习爬虫的过程中，需要解决识别图形验证码的这一难题，网上推荐的方法都是通过tesserocr模块来实现，下面就是安装步骤以及过程中遇到的问题，记录一下。

介绍：

tesserocr 是 Python 的一个 OCR 识别库，但其实是对 tesseract 做的一层 Python API 封装，所以它的核心是 tesseract。因此，在安装 tesserocr 之前，我们需要先安装 tesseract 。例如：对于下图的验证码，我们可以通过 OCR 技术将其转换成电子文本，然后爬虫将识别的结果提交给服务器，便可以达到自动识别验证码的过程。

我的环境：

OS：win10

python：3.6.5

相关链接

tesserocr GitHub: https://github.com/sirfz/tesserocr

tesserocr PyPI: https://pypi.python.org/pypi/tesserocr

tesseract 下载地址: http://digi.bib.uni-mannheim.de/tesseract

tesseract GitHub: https://github.com/tesseract-ocr/tesseract

tesseract 语言包: http://github.com/tesseract-ocr/tessdata

tesseract 文档: https://github.com/tesseract-ocr/tesseract/wiki/Documentation

安装

在 Windows 下，首先需要下载 tesseract，它为 tesserocr 提供了支持。

进入下载页面，可以看到有各种 .exe 文件的下载列表，这里可以选择下载 3.0 版本。如下图所示为 3.05 版本。
```
其中文件名中带有 dev 的为开发版本，不带 dev 的为稳定版本，可以选择下载不带 dev 的版本， 例如可以选择下载 tesseract-ocr-setup-3 .05.01.exe。

下载完成后双击运行，安装程序。需要注意的是，需要句选 Additional language data(download）选项来安装 OCR 识别支持的语言包，这样 OCR 便可以识别多国语言 
```
给tesseract配置环境变量：

（1）将tesseract安装路径添加到path环境变量中

（2）将tesseract的语言包添加到环境变量中，在环境变量中新建一个系统变量，变量名称为TESSDATA_PREFIX，tessdata是放置语言包的文件夹，一般在你安装tesseract的目录下，tesseract的安装目录就是tessdata的父目录，把TESSDATA_PREFIX的值设置为它即可

接下来，再安装 tesserocr ：
```
pip install tesserocr pillow
```
pip安装tesserocr时出错：

在命令行中输入：pip3 install tesserocr pillow ,一直出现error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools错误。

解决办法：

用.whl文件下载tesserocr库，就不会出现这个问题，下载地址：

https://github.com/simonflueckiger/tesserocr-windows_build/releases

我下载的是tesserocr-2.4.0-cp36-cp36m-win_amd64.whl，然后在命令行中输入：
```
pip install tesserocr-2.4.0-cp36-cp36m-win_amd64.whl
```
安装成功，问题解决

验证安装

测试样例：

图片下载：http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png

（1）用 tesseract 命令测试：
```
tesseract test.png stdout -l eng 
```
运行结果如下：

（2）利用 Python 代码测试：
```
Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open(r'C:UsersTianl	est.png')
>>> result = tesserocr.image_to_text(image)
>>> print(result)
PythonWebSpider

>>>
```
另外，还可以直接调用 tesserocr 模块的 file_to_text() 方法，可以达到同样的效果：
```
Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import tesserocr
>>> print(tesserocr.file_to_text(r'C:UsersTianl	est.png'))
PythonWebSpider

>>>
```
如果成功输出结果，则证明 tesseract 和 tesserocr 都已经安装成功，以上是安装以及简单使用。

pycharm中安装导入tesserocr

直接把上面通过pip安装好的文件夹拷贝到pycharm创建的项目的site-packages目录中即可使用
相关阅读:
MARKY一下。
从一个git仓库拷贝到另一个git仓库
 Git：四、连接GitHub远程仓库
 木门工厂木门、门套、套线公式和算法
 设计模式之代理模式
 2018年软件开发状态报告
 产品研发流程与周期(非原创）
软件工程师的核心竞争力
 linux下安装redis安装使用
 8 个 Tips 让你更好的进行 Code Review
原文地址：https://www.cnblogs.com/tianleblog/p/11652507.html

爬虫-识别图形验证码-tesserocr

引入：

介绍：

我的环境：

相关链接

安装

接下来 ， 再安装 tesserocr ：

pip安装tesserocr时出错：

解决办法：

验证安装

pycharm中安装导入tesserocr

接下来，再安装 tesserocr ：