今天介绍一个简单验证的识别。
主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。
验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947
需要识别的验证码是:
识别结果是:
识别率百分之八十。10个有两个错误。
识别代码:
#coding:utf-8 from common.contest import * from PIL import Image import pytesseract def recognize_captcha(img_path): im = Image.open(img_path) tessdata_dir_config = '--tessdata-dir "C:\Program Files (x86)\Tesseract-OCR\tessdata"' num = pytesseract.image_to_string(im,config=tessdata_dir_config) return num if __name__ == '__main__': for i in range(1, 11): img_path = "4/" + str(i) + ".jpg" res = recognize_captcha(img_path) strs = res.split(" ") print strs[0].replace(" ",'')