• 解析pdf文档 (lucene3.5)


    //今天根据课本写了个 解析pdf文档的小程序
     
     
     
    import java.io.FileWriter;
    import java.io.IOException;
    import java.io.PrintWriter;
    
    import org.pdfbox.pdmodel.PDDocument;
    import org.pdfbox.util.PDFTextStripper;
    
    
    public class ExtractorPDF {
    
    	/**
    	 * @param args
    	 */
    	public static String getText(String file) //throws Exception
    	{String pdfFile=file;
    	PDDocument document=null;
    	String s=null;
    	try {
    		//装载文件
    		document=PDDocument.load(pdfFile);
    		//用PDFTextStripper来提取 文件
    		PDFTextStripper stripper=new PDFTextStripper();
    		s=stripper.getText(document);
    		
    	} catch (IOException e) {
    		// TODO Auto-generated catch block
    		e.printStackTrace();
    	}
    	finally {
    		if (document!=null)
    			try {
    				document.close();
    			} catch (IOException e) {
    				// TODO Auto-generated catch block
    				e.printStackTrace();
    			}
    		
    		
    	}
    	return s;
    	
    	}
    	
    	public static void toTextFile(String file,String txt)
    	{
    		String pdfFile=file;
    		PDDocument document=null;
    		try {
    			//加载文件
    			document=PDDocument.load(pdfFile);
    			//用PDFTextStripper提取文件
    			PDFTextStripper stripper=new PDFTextStripper();
    			PrintWriter pw=new PrintWriter(new FileWriter(txt));
    			stripper.writeText(document, pw);
    			pw.close();
    			System.out.println("成功写入文本文件"+txt);
    		} catch (IOException e) {
    			// TODO Auto-generated catch block
    			System.out.println("文本写入失败");
    			e.printStackTrace();
    		}
    		finally
    		{
    			if(document!=null)
    			{try {
    				document.close();
    			} catch (IOException e) {
    				// TODO Auto-generated catch block
    				e.printStackTrace();
    			}}
    				
    		}
    				
    		
    	}
    	
    	
    	public static void main(String[] args) {
    		// TODO Auto-generated method stub
    		String s=getText("G:/学习资料/软件大赛学习资料/网上淘宝.pdf ");
    		System.out.println(s);
    		 toTextFile("G:/学习资料/软件大赛学习资料/网上淘宝.pdf ","G:/Lucene/PDF.txt");
    
    	}
    
    }
    

  • 相关阅读:
    跨域现象及原理分析
    git的commit撤销
    什么是幂等,什么情况下需要幂等,如何实现幂等
    flowable表简要说明
    关于SpringCloud、SpringBoot简单讲解
    常用的maven仓库地址
    Python安装第三方库常用方法
    反编译pyinstaller打包的exe安装包
    测试用例-需要添加@Transactional 这样 就不会再数据库里面留下痕迹了
    断点 太多了 调试运行特别慢-把所有的历史断点都去掉就快了
  • 原文地址:https://www.cnblogs.com/lixingle/p/3313042.html
Copyright © 2020-2023  润新知