Tesseract的安装
windows安装包:https://digi.bib.uni-mannheim.de/tesseract/,最后一个是最新的。
默认安装路径 C:Program Files (x86)Tesseract-OCR, 将其添加到系统环境变量Path。
安装完成之后,在命令行输入 tesseract -v
测试是否安装成功。
识别图片:
tesseract 图片路径 输出文件
识别
1. 直接识别
import pytesseract from PIL import Image captcha = Image.open("b.jpg") result = pytesseract.image_to_string(captcha) print(result) #6067
2.二值化处理
二值化处理前必须先转成灰度图,然后再设定一个阈值。
import pytesseract from PIL import Image def convert_img(img, threshold): img = img.convert("L") # 处理灰度 pixels = img.load() for x in range(img.width): for y in range(img.height): if pixels[x, y] > threshold: pixels[x, y] = 255 else: pixels[x, y] = 0 return img captcha = Image.open("e.jpg") captcha = convert_img(captcha, 150) captcha.show() captcha.save("threshold.jpg") result = pytesseract.image_to_string(captcha) print(result) #3n3D
参考链接: