• Ubuntu16.04 安装tesseract


    原文链接:https://blog.csdn.net/tintinetmilou/article/details/80212305

    必要包安装:

    sudo apt-get install autoconf automake libtool autoconf-archive pkg-config libpng12-dev libjpeg8-dev libtiff5-dev zlib1g-dev -y 

    直接: 如果不行,在执行后面的步骤:(可选)

    可以通过 apt-get 安装: $sudo apt-get tesseract-ocr

    要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新的环境变量 $TESSDATA_PREFIX,让 Tesseract 知道训练的数据文件存储在哪里,然后搞一份tessdata数据文件,放到Tesseract目录下。
    • 在大多数 Linux 系统和 Mac OS X 系统上,你可以这么设置: $export TESSDATA_PREFIX=/usr/local/share/Tesseract

    • 在 Windows 系统上也类似,你可以通过下面这行命令设置环境变量: #setx TESSDATA_PREFIX C:Program FilesTesseract OCRTesseract

    如果要用tesseract自己训练,就需要安装training,那下面这些依赖也要安装:

    sudo apt-get install libicu-dev libpango1.0-dev libcairo2-dev 

    leptonica安装

    sudo apt install git  
    git clone https://github.com/DanBloomberg/leptonica   
    cd leptonica  
    autoreconf -vi  
    ./autobuild  
    ./configure  
    make -j8
    sudo make install 
    

    安装tesseract

    git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git  
    cd tesseract  
    ./autogen.sh  
    ./configure --enable-debug  
    LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make -j8 
    sudo make install  
    sudo ldconfig  

    检测安装成与否

    tesseract -v

    安装训练文件(如果要训练自己的数据)

    make training -j8  
    sudo make training-install  

    下载语言包
    这个包比较大,可以通过下面命令下载也可以通过迅雷等下载工具下载,,下载完成后将里面的各种包放到tesseract目录的tessdata文件夹中。

    git clone https://github.com/tesseract-ocr/tessdata

    添加环境变量

    gedit ~/.bashrc

    在末尾添加(根据自己tesseract的实际目录进行相应修改):

    export TESSDATA_PREFIX=/home/XX/tesseract/tessdata

    重启终端,使得刚才环境变量生效。

    拿张图片测试一下:

    输入以下命令(1.jpg:待检测图片,out:输出txt文档的名字,-l:指定语言库进行检测,chi_sim:用简体中文库):

    tesseract 1.jpg out -l chi_sim

    out.txt输出:



  • 相关阅读:
    R语言大小写字母转换
    SparkR(R on Spark)编程指南 含 dataframe操作
    SparkR(R on Spark)编程指南 含 dataframe操作
    R-table和tapply函数
    r table
    多变量频率统计——r
    R语言-查看加载包、卸除加载包及安装包与卸载包
    flask 电子邮件进阶实践-用模板发送163邮件 --
    flask 电子邮件Flask-Mail --
    数据库进阶实践-事件监听 --
  • 原文地址:https://www.cnblogs.com/lshan/p/11928602.html
Copyright © 2020-2023  润新知