• Python3.7 tesseract-ocr 验证码识别配置以及常见错误


    当前为Windows环境

    1.首先安装Tesseract-OCR,链接:https://pan.baidu.com/s/12zazgAYWsNnxn8AxPjGfaw 提取码: esif 

      下载后默认安装就好,在安装过程中存在选项安装的情况,此时为选择语言,可略过

    2.Tesseract-OCR安装完毕后,设置环境变量

      设置tesseract.exe的环境变量

      新建TESSDATA_PREFIX环境变量,值为C:Program Files (x86)Tesseract-OCR essdata,如图

    3.验证Tesseract-OCR

      3.1 进入cmd 输入下面的命令查看版本,正常运行则安装成功:

        tesseract --version
      

        

      3.2 识别图片

        tesseract 图片路径 输出文件

        

          识别成功!!

    4.进入cmd安装python依赖

      4.1 安装依赖

        

    pip install pytesseract
    pip install pillow

      4.2 编写代码

        识别下面的验证码

        代码如下:

    import pytesseract
    from PIL import Image
    
    image = Image.open("F:/imooc2.png")
    text = pytesseract.image_to_string(image)
    print(text)

    结果为6067,识别成功

    5.此时特别容易出现错误

    解决方案1:仔细查看环境变量是否正确

    解决方案2:在代码中添加相关变量参数

    #coding=utf-8
    import pytesseract
    from PIL import Image
    pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)//Tesseract-OCR//tesseract.exe'
    tessdata_dir_config = '--tessdata-dir "C://Program Files (x86)//Tesseract-OCR//tessdata"'
    image = Image.open("F:/imooc2.png")
    text = pytesseract.image_to_string(image, lang ='eng', config=tessdata_dir_config)
    print(text)

      

     解决方案出处:https://www.cnblogs.com/chenshengkai/p/11318387.html

    
    
    
  • 相关阅读:
    【HNOI2016模拟4.14】B
    【NOIP2010提高组】引水入城
    【NOIP2010提高组】机器翻译
    【NOIP2010提高组】乌龟棋
    【NOIP2010提高组】关押罪犯
    【USACO题库】3.3.2 Shopping Offers商店购物
    【USACO题库】3.1.5 Contact联系
    【USACO题库】3.1.4 Shaping Regions形成的区域
    【USACO题库】3.1.3 Humble Numbers丑数
    c语言学习——printf格式规定符
  • 原文地址:https://www.cnblogs.com/Testcase/p/11386453.html
Copyright © 2020-2023  润新知