python TesseractOCR、pytesseract 图片文字识别

python TesseractOCR、pytesseract 图片文字识别
1.安装 pytesseract
```
pip install pytesseract
```
2.安装 Tesseract-OCR
下载地址：https://tesseract-ocr.github.io/tessdoc/Home.html#binaries

　　2.1 根据系统选择相应的版本 (这里以windows 64位为例)

　　点击后跳转下载页：

　　2.2 安装：一直点 “NEXT” 直到安装完成 (记得安装目录后面要配置环境变量)。

3.配置环境变量

　　

4.到此为止，已经可以识别文字了。

　　

　　

4.1 识别中文

但是只能识别英文，默认不支持中文，需要下载语言包 (语言包下载地址：https://tesseract-ocr.github.io/tessdoc/Data-Files )，放到 tessdata 文件夹下

　　

　　然后配置 tessdata 环境变量：

　　

　　最后在代码中设置识别中文语言：lang='chi_sim'

　　

　　设置后，中英文都可以识别。

　

　　

　　嗯，好像有些字识别错了...

　　完整代码：
```
from PIL import Image
import pytesseract
import os
os.chdir("G:\py\img")
img = Image.open('js.png')
# lang='chi_sim' 指定识别的语言为中文
text = pytesseract.image_to_string(img, lang='chi_sim')
print(text)
```
参考：https://blog.csdn.net/m0_62501574/article/details/122388612

　　　https://blog.csdn.net/ungoing/article/details/123579251
相关阅读:
CMD 下运行python的unittest测试脚本无输出
 Python2 HTMLTestRunner自动化测试报告美化
 Python3 HTMLTestRunner自动化测试报告美化
 Python+Selenium练习篇之5-利用partial link text定位元素
 Python+Selenium练习篇之6-利用class name定位元素
 Python+Selenium练习篇之3-利用tag name定位元素
 Python+Selenium练习篇之4-利用link text定位元素
 Python+Selenium练习篇之2-利用ID定位元素
 Python+Selenium练习篇之1-摘取网页上全部邮箱
 Python+Selenium基础篇之5-第一个完整的自动化测试脚本
原文地址：https://www.cnblogs.com/sener/p/16393850.html