• C#读取PDF文档内容


    一、下载PDFBox

          访问网址http://sourceforge.net/projects/pdfbox/ (这个绝对是个好网站)


    二、引用动态链接库

        解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
        IKVM.GNU.Classpath.dll
        PDFBox-0.7.3.dll
        FontBox-0.1.0-dev.dll
        IKVM.Runtime.dll


    将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
        using org.pdfbox.pdmodel;
        using org.pdfbox.util;

    三、API的使用方法

    using System.IO;
    using System.Text;
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;
    
    namespace PDFReader
    {
        class Program
        {
            public static void pdf2txt(FileInfo pdffile, FileInfo txtfile)
            {
                PDDocument doc = PDDocument.load(pdffile.FullName);
                PDFTextStripper pdfStripper = new PDFTextStripper();
                string text = pdfStripper.getText(doc);
                StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
                swPdfChange.Write(text);
                swPdfChange.Close();
            }
            static void Main(string[] args)
            {
                pdf2txt(new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.pdf"), new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.txt"));
            }
        }
    }
  • 相关阅读:
    HDU-5980
    HDU-5974
    HDU-5979
    关于position的定位
    javascript学习笔记w3chool
    表单相关css技巧
    fis压缩工具的使用
    将HTML页面内容存入json数组
    中介PHP连接前台HTML与数据库MySQL
    lesscss的使用
  • 原文地址:https://www.cnblogs.com/swtool/p/4860049.html
Copyright © 2020-2023  润新知