• linux 安装Tesseract-OCR


    linux 安装Tesseract-OCR

    准备工作:
    一.编译环境:

    1. gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)  

    yum install gcc gcc-c++ make

    2. 依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)

        autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:

    yum install autoconf automake libtool
    yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

    二. leptonica 需要源码编译安装

     参考资料: 

    http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113 

    http://www.leptonica.org/source/README.html 

    下载leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz


     解压后切换到leptonica-1.68 根目录  

    ./configure ;
    make ; make install ;

    三.tesseract安装:
     依赖安装完毕后开始安装tesseract
     下载tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz


     解压后切换到tesseract-3.01 根目录

      --如果在make时遇到类似strngs.h:1: error: stray '357' in program 的错误,请将tesseract-3.01/ccutil/strngs.h 文件转为ANSI 编码保存,再重新编译

    ./autogen.sh
    
    ./configure
    
    make
    
    make install
    
    ldconfig

    tesseract英文语言包安装:  
     下载tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz
     解压后将tesseract-ocr/tessdata 下的所有文件全部拷贝到/usr/local/share/tessdata 下

    安装完毕.
    测试一下:
     切换到解压后的tesseract-3.01 根目录(这个目录下有一个自带的phototest.tif 可以做测试用)
     命令行:

    tesseract phototest.tif phototest -l eng

    输出:

    Tesseract Open Source OCR Engine v3.01 with Leptonica
    
    Page 0

     这时应该在当前目录生成一个phototest.txt 文本文件,内容就是phototest.tif 显示的文字.
     
      摘自 雪人的博客

  • 相关阅读:
    check_mysql.sh
    shell 数组长度
    Shell脚本中计算字符串长度的5种方法
    非缓冲文件编程(实时操作)
    ferror,clearerr和EOF含义
    密码库生成
    筛选出多个数据并判断
    扫描有分隔符的数据
    unicode文件处理(如果是ANSI编码就不需要了)
    ferror,perror,cleaner
  • 原文地址:https://www.cnblogs.com/mjorcen/p/3806626.html
Copyright © 2020-2023  润新知