有些 pdf 是通过图片弄出来的,或者被 protect 了. 我们会无法 copy 里面的字.
这个时候可以用 OCR (Optical character recognition) 就是从图片中识别出字的魔力.
做法可以是这样
1. pdf -> images -> word -> merge word
http://pdftoimage.com (pdf -> images)
https://www.onlineocr.net (image -> word)
https://support.microsoft.com/en-us/help/2665750/how-to-merge-multiple-word-documents-into-one---eeekb (merge word)
就是把 pdf 转换成图,然后转换成 microsof word, 最后把多个 word merge 起来就可以了。