1.安装pip install pytesseract
2.安装tesseract-ocr,下载地址:https://github.com/UB-Mannheim/tesseract/wiki,我安装的版本tesseract-ocr-setup-3.05.01.exe,安装的时候选择把chi_sim(中文简体)和chi_tra(中文繁体)数据库安装上
3.设置环境变量
4.vcode=pytesseract.image_to_string(im_text, lang='chi_sim')会出错:pytesseract FileNotFoundError: [WinError 2] 系统找不到指定的文件。
解决方法:pytesseract.pytesseract.tesseract_cmd = r'C:Program Files (x86)Tesseract-OCR esseract.exe'
其中 r'C:Program Files (x86)Tesseract-OCR esseract.exe'是tesseract-ocr安装路径
5.
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \Tesseract-OCR\tessdata/eng.traineddata')
解决方法:
方法1[推荐]:
将tessdata目录的上级目录所在路径(默认为tesseract-ocr安装目录)添加至TESSDATA_PREFIX环境变量中
例如: C:Program Files (x86)Tesseract-OCR
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
方法2: 在.py文件配置中指定tessdata-dir
tessdata_dir_config = '--tessdata-dir "D:\Tesseract-OCR\tessdata"' # tessdata_dir_config = '--tessdata-dir "'C:\Program Files (x86)\Tesseract-OCR\tessdata"' pytesseract.image_to_string(image, config=tessdata_dir_config)
设置完环境变量重启pycharm