• Tika提取文件元数据


    Tika可以从文件中提取元数据。

    什么是元数据:

    元数据是文件所提供的的附件信息即文件的属性。  

    word文档的元数据:

      

    Tika提取元数据:

    我们可以使用文件parse()方法提取元数据,传递一个空的元数据对象作为一个参数。这种方法提取指定的文件的元数据(如果该文件中包含有),并将它们放置在元数据对象。因此,在使用parse()解析文件后,就可以提取该对象的元数据。

    下面是完成提取元数据的例子

      @Test
        public void getMetadataToImg() throws IOException, TikaException, SAXException {
            File file = new File("F:\页面\数字档案室\html - 副本\style\erms\images\hintIcon.png");
            Parser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            FileInputStream inputstream = new FileInputStream(file);
            ParseContext context = new ParseContext();
            parser.parse(inputstream, handler, metadata, context);
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        }

    获取结果:

     文档参考网址:https://www.sxt.cn/tika/tika_metadata_extraction.html

  • 相关阅读:
    2016-8-29
    2016-8-25
    2016-8-24
    2016-8-23
    2016-8-22
    2016-8-16
    2016-8-15
    深圳_多测师面试 __腾讯云/_高级讲师肖sir
    深圳_多测师面试 _新字节跳动(2020年10月23日)_高级讲师肖sir
    多测师讲解自动化 _RF_(202)高级讲师肖sir
  • 原文地址:https://www.cnblogs.com/hww-2429/p/11556151.html
Copyright © 2020-2023  润新知