PDF复制乱码问题解决方案

问题描述

PDF格式文件一般分为文字版和图片版：文字版文件较小，方便搜索，可以方便地转换成其他格式；而图片版文件较大，可防止他们直接复制。而今天要说的文字版本却无法搜索，这给文件使用带来了极大的不便。主要表现为：

(1)文件较小，文字可选择；

(2)文字可复制，复制的结果为乱码，如下图的"基础"二字，粘贴的结果是"!""；

(3)无法复制，很急人；

(4)编辑时，格式中的字体是显示"乱码"；

在菜单栏[文档]-[属性]-[字体]中，可以看到有较多已嵌入了自定义编码字体，这是发布者处理的，以防止复制和搜索，一般是一种不可逆的操作。

网络上大多的解决方案是使用ABBYY OCR来识别，重新编排一份文档，但这样的效率还是很慢，特别是当文件分辨率并不高的情况下。通过测试发了一种方案。具体操作如下：

先用Adobe Acrobat打开文件，使用印刷制作工具

打开印前检查进行PDF修正，通过分析和处理，将字体转为空心。

修正后，使用扫描和OCR工具"增强"，进行识别处理后，保存即可。这样的操作方法简单，速度较快，结果正确，无需进行核查。

相关阅读:
解决Failure to transfer org.apache.maven.plugins:maven-surefire-plugin:pom:2.7
java.net.ConnectException: Connection timed out: no further information
private static final long serialVersionUID = 1L;
判断input[type=file]上传文件格式
toString()和toLocaleString()有什么区别
js时间与时间戳互相转换
获取手机校验码倒计时
jq判断网页是在什么浏览器打开的
使用navigator.userAgent.toLowerCase()判断移动端类型
jq回车触发绑定点击事件

原文地址：https://www.cnblogs.com/liweis/p/13372078.html