• tesseract-ocr


    标签:pytesseract.pytesseract   winerror   

    其实也不算自己写的,在网上东找找西找找,合一块问题就解决了。

    和谐社会的程序猿不都这样么。。技术分享

    上正菜。

    先安装pillow

    windows 10上面先打开命令提示符:

    注:不知道为啥我装python 3.5的时候蛋疼的选择了管理员安装,所以运行命令提示符的话也需要管理员权限。怎么操作就不说了。

    1. 安装Pillow

    技术分享

    2. 安装pytesseract

    技术分享

    3. 再安装tesseract-ocr,注意这个很关系是文字识别的核心程序。

    技术分享

    报错了,看来前面太顺了,python看不过去了。

    至于报错的信息:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

    让我去这个网站装   Microsoft Visual C++ 14.0相关的东东,N N D 我打开网站,下载之后安装,看所需要的空间 4GB。玩不起,还是算了,我是菜鸟,太多的东西不懂,所以不要为难我。

    所以找其它方法装tesseract-ocr

    这里面有tesseract-ocr for windows的安装方法。安装步骤我们强大的度娘就有:

    http://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html 

    安装时要什么字库自己选。

    懒人连接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

    MAC  LINUX  WINDOWS 各版本下载

    https://github.com/tesseract-ocr/tesseract/wiki

    相关的程序基本安装完了。

    开始做一个小程序参考图如下:

    技术分享

    我是在pycharm中练习的,代码如下:

    from PIL import Image
    import pytesseract
    img = Image.open()
    text = pytesseract.image_to_string(img)
    print (text)

    注:我把上面的参考图命名为22.png了,因为我太2了

    装好几个程序了,看看效果运行:

    "C:Program FilesPython35python.exe" D:/Python_Study3.5/test/pli_png.py
    Traceback (most recent call last):
      File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
        text = pytesseract.image_to_string(img)
      File "C:Program FilesPython35libsite-packagespytesseractpytesseract.py", line 122, in image_to_string
        config=config)
      File "C:Program FilesPython35libsite-packagespytesseractpytesseract.py", line 46, in run_tesseract
        proc = subprocess.Popen(command, stderr=subprocess.PIPE)
      File "C:Program FilesPython35libsubprocess.py", line 676, in __init__
        restore_signals, start_new_session)
      File "C:Program FilesPython35libsubprocess.py", line 957, in _execute_child
        startupinfo)
    FileNotFoundError: [WinError 2] 系统找不到指定的文件。

    M D 找不到指定文件,到这里我也不懂,继续百度。然后找到的文章说要更改 pytesseract.py这个文件的一些配置(第二个安装的模块)。因为这里面配置有一些相关于tesseract-ocr(即第三个安装的程序)

    更改如下:

    在pycharm中如图打开pytesseract.py:

    技术分享

    在右边打开的窗口找到:tesseract_cmd 这行代码:

    这一行注释掉:因为pytesseract.py文件内默认的tesseract-ocr的主程序环境变量不知道怎么变的,到了windows 下面就不能运行,上面执行的报错代码中找不到文件,其实就是找不到主程序。所以注释掉原来的,我们再新加一行。上面的路径就是你安装Tesseract-ocr程序时的路径:

    #tesseract_cmd = ‘tesseract‘

    新增加一行:

    tesseract_cmd = r‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe‘

    技术分享

    保存,运行我们写的代码,看看效果。

    技术分享

    又报错了,伤不起

    "C:Program FilesPython35python.exe" D:/Python_Study3.5/test/pli_png.py
    Traceback (most recent call last):
      File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
        text = pytesseract.image_to_string(img)
      File "C:Program FilesPython35libsite-packagespytesseractpytesseract.py", line 125, in image_to_string
        raise TesseractError(status, errors)
    pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \Program Files (x86)Tesseract-OCR\eng.traineddata‘)
    Process finished with exit code 1

    这次报的错,貌似是找不到tesseract-ocr的配置文件。看来还得改pytesseract.py文件。

    于是又从网上找了一些东西,继续更改。

    如图

    技术分享

    保存,接着运行程序:

    技术分享

    啥啥成功了,虽然识别多了一个小数点,不过至少不报错了。

    就试到这里了,多的我也不会。

    以上大部分内容都是来自网上。我不过做下整理。

    那里说错了,莫怪,我了解的也不多。

    本文出自 “学习之路” 博客,请务必保留此出处http://13136244.blog.51cto.com/13126244/1972816

    python3 for win10X64下Pillow,pytesserac和tesseract文字识别简单配置。

    标签:pytesseract.pytesseract   winerror   

    原文地址:http://13136244.blog.51cto.com/13126244/1972816

    Tesseract-OCR的简单使用与训练:https://www.cnblogs.com/cnlian/p/5765871.html

    Tesseract 3.02中文字库训练----整理:http://blog.csdn.net/liulina603/article/details/45071485

    Tesseract-OCR识别中文与训练字库实例:https://www.cnblogs.com/wzben/p/5930538.html

    Tesseract训练中文字体识别:https://www.jianshu.com/p/31afd7fc5813

    Tesseract.js 一个几乎能识别出图片中所有语言的JS库:https://segmentfault.com/p/1210000007152346

    用于62种语言的纯Javascript Javascript OCR:https://github.com/naptha/tesseract.js#docs

  • 相关阅读:
    Composite in Javascript
    Model Validation in Asp.net MVC
    HttpRuntime.Cache vs. HttpContext.Current.Cache
    Controller Extensibility in ASP.NET MVC
    The Decorator Pattern in Javascript
    The Flyweight Pattern in Javascript
    Model Binding in ASP.NET MVC
    Asp.net MVC
    jQuery Ajax 实例 全解析
    ASP.NET AJAX入门系列
  • 原文地址:https://www.cnblogs.com/cxscode/p/8306842.html
Copyright © 2020-2023  润新知