本文链接:https://www.cnblogs.com/tujia/p/14451134.html
说明:使用 pillow 和 pytesseract 两个库,配合 Tesseract-OCR.exe 做简单图片验证码进行识别
一、安装依赖包
pip install Pillow
pip install tesseract
二、安装及配置 Tesseract-OCR.exe
1)下载 Tesseract-OCR.exe,传送门:https://github.com/UB-Mannheim/tesseract/wiki
2)安装 Tesseract-OCR.exe
注:在Additional language data(download)选项里找到并勾选Chinese(Simplified),点击下一步,选项一个安装目录,安装完成即可
3)配置 Tesseract 环境变量 或 修改 pytesseract.py 源码
修改系统的环境变量增加 Tesseract 的程序目录,或者修改 D:xxxpythonxxxlibsite-packagespytesseractpytesseract.py 里的 tesseract_cmd 变量为 tesseract.exe 的文件路径
注:推荐修改系统环境变量
4)验证码识别
from PIL import Image import pytesseract # 图片处理 im = Image.open('verifycode.jpg')# 根据实际情况,可能需要做一些图片处理 # im = im.convert('L') # im = im.crop((1, 1, im.width, im.height)) # im = im.resize((200, 97)) content = pytesseract.image_to_string(im) print(content)