OCR4：Tesseract 4

OCR4：Tesseract 4
Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络（LSTM），该引擎专注于线路识别，但仍然支持Tesseract 3的传统Tesseract OCR引擎，该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式（--oem 0）启用与Tesseract 3的兼容性。它还需要训练有素的数据文件，这些文件支持传统引擎，例如来自tessdata存储库的文件
tesseract 4.0已经加入LSTM了，在用命令行执行的时候，添加 “–oem 1”参数即可，但是pythonocr模块里并没有提供使用oem参数的init函数，查看tesseract的源码，capi.cpp定位到257行有

在外部调用的时候，只需要将以前的
- handle = tesseract_raw.init(lang='eng')
修改成：
- handle = tesseract_raw.init(lang='eng', oem=1)
即可。下载最新支持lstm的tessdata数据包，识别结果会比之前有大大的提高！如何在调用API的时候使用多语言，就如同命令行下的 -l eng+chi这种，还在摸索中

tesseract 4.0： https://digi.bib.uni-mannheim.de/tesseract/

安装包：https://github.com/UB-Mannheim/tesseract/wiki
安装完后测试：
参考资料
- https://www.oschina.net/p/tesseract-ocr
- https://blog.csdn.net/qq_36810544/article/details/82380161
相关阅读:
三列自适应等高且中列宽度自适
 两列高度自适应（转）
Transform 1
跟我一起透彻理解template模板模式
 走进C++程序世界-----operator new delete 重载
 linux下maven的安装
 JavaScript权威指南第01章 JavaScript 概述
 切勿辜负青春一场
 C++ 模板应用实现一个Queue 队列
 从头认识java-14.4 Java提供的数组的有用功能（2）
原文地址：https://www.cnblogs.com/tgzhu/p/11512101.html