• python tesseract-ocr 图文识别 (windows基础环境搭建)


    python tesseract-ocr 图文识别

    一,先进行Tesserocr安装下载

    1,先点击进入下面的百度网盘
    链接: https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取码: mp1u
    打开百度网盘之后知道下面这两个文件
    tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
    tesseract-ocr-w64-setup-v5.0.0.20190623.exe
    如果上面百度网盘打不开,可以尝试打开下面的百度网盘:
    链接:https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ 提取码:yd7i
    链接:https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA 提取码:1yhh

    2,待下载完毕之后运行tesseract-ocr-w64-setup-v5.0.0.20190623.exe文件,

    我的是安装在F:Tesseract-OCR一直next下去。

    需要选择的选项,看下图。其中语言要选择简体中文,安装时会下载语言包,可能等待一段时间。

     

    安装完成之后的目录如下:

    我的tesseract-ocr是安装在F:Tesseract-OCR,

    下面开始最重要的步骤:

    将F:Tesseract-OCR里面的 tessdata 整个文件夹一起复制到python安装目录下面

     把上面网盘下载的另一个文件(tesserocr-2.4.0-cp37-cp37m-win_amd64.whl)也复制到python安装目录下面

     

      3,开始创建tesseract-ocr环境变量

    将“F:Tesseract-OCR”添加到环境变量中。如图:

     增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径F:Tesseract-OCR essdata这是将语言字库文件夹添加到变量中。

    打开命令终端,输入:tesseract -v,可以看到版本信息

     用命令tesseract --list-langs来查看Tesseract-OCR支持语言。

    二,用pip或者pycharm 安装 tesseract 和 pytesseract

    1,用pip安装

    其实只需安装tesseract,默认pytesseract会随着tesseract一起安装的
    执行pip install tesseract
    如果pytesseract没有自动安装的话,可以再次主动安装pytesseract

    2,用pycharm安装

     

    最后pytesseract,tesseract,tesserocr 都安装成功之之后,显示如下:

    三,在网上下载中文识别库 chi_sim.traineddata

    可以在官网下载https://github.com/tesseract-ocr/tessdata

    如果官网下载很慢的话也可以在百度网盘下载 https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取码: mp1u

     四,测试一下识别效果:

    用下面三张图片进行识别

     代码如下:

    import pytesseract
    from PIL import Image
    import tesserocr
    
    im=Image.open('ying_shu.png')
    print(pytesseract.image_to_string(im))
    im1=Image.open('ying_jianti.png')
    print(pytesseract.image_to_string(im1,lang='chi_sim'))
    im2=Image.open('fanti.png')
    print(pytesseract.image_to_string(im2,lang='chi_tra'))

    识别结果如下:

     可以看到识别结果存在一定的错误,这就是识别率的问题,后期再进行优化

  • 相关阅读:
    vue-autoui自匹配webapi的UI控件
    BeetleX.FastHttpApi之测试插件集成
    BeetleX之XRPC远程委托调用
    BeetleX.AdminUI介绍
    使用NetBenchmark压测TCP,HTTP和Websocket服务
    Beetlex实现完整的HTTP协议
    beetlex网关之聚合和url请求过虑
    XRPC之接口双向调用
    XGBoost类库使用小结
    XGBoost算法原理小结
  • 原文地址:https://www.cnblogs.com/111testing/p/12383290.html
Copyright © 2020-2023  润新知