• 10.tesseract


    1.Tesseract-OCR简介

     一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本,支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。

    2.Tesseract安装

    下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:Application esseract,将D:Application esseract添加到环境变量的path中。
    注:
    tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。
            如果想能识别其他语言,可以到https://github.com/tesseract-ocr/tessdata下载对应的语言的字库文件。
         下载完成后将该文件剪切到tessdata目录下去就可以了。

     新增环境变量TESSDATA_PREFIX,值为D:Application esseract

    3.Tesseract 使用
    a. tesseract C:'Userppzc1.jpg result  默认英文
    b. tesseract C:'Userppzc2.jpg result  -l chi_sim  指定中文
     
    4.简单使用
    a.使用中文
    import pytesseract
    from PIL import Image
    
    pytesseract.pytesseract.tesseract_cmd=r"D:	esseract	esseract.exe"
    imgs=Image.open("1.png")
    text1=pytesseract.image_to_string(imgs,lang="chi_sim")
    print(text1)

    b.使用默认英文

    import pytesseract
    from PIL import Image
    
    pytesseract.pytesseract.tesseract_cmd=r"D:	esseract	esseract.exe"
    imgs=Image.open("2.jpg")
    text1=pytesseract.image_to_string(imgs)
    print(text1)

    5.案例

    import pytesseract
    from urllib import request
    from PIL import Image
    import time
    
    def main():
        pytesseract.pytesseract.tesseract_cmd=r'D:	esseract	esseract.exe'
        url="https://passport.lagou.com/vcode/create?from=register&refresh=1513082291955"
        while True:
            request.urlretrieve(url,"1.png")
            image=Image.open("1.png")
            text=pytesseract.image_to_string(image)
            print(text)
            time.sleep(2)
    
    if __name__=="__main__":
        main()

    6.

  • 相关阅读:
    敏捷开发流程的8个步骤
    PingCode Wiki ——国内最顶级的产研团队知识库产品介绍
    国内外最知名的9大工作任务管理软件盘点
    国内外最好用的18个协同办公系统盘点
    知识库的作用
    国内外好用的OKR管理工具有哪些?
    敏捷宣言及完整解读
    如何在敏捷中管理和减少技术负债?
    敏捷开发框架都有哪些
    PingCode与Jira 敏捷开发管理能力的对比
  • 原文地址:https://www.cnblogs.com/hbxZJ/p/9585142.html
Copyright © 2020-2023  润新知