• excel 大文件解析原理实现


     问题

    目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列。

    之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是程序写的很复杂。

    解决方案

    我们知道excel 文件实际上是一个压缩包来的,我们将excel 直接改名为rar或zip文件。

    我们可以将文件解压出来。

    我们可以看到excel 实际上是一堆xml文件的集合。

    worksheets 中实际存了 这个excel的sheets数据。

    但是excel 在存数据的时候,他会将字符串数据存在在sharedString.xml 文件中。

    sharedString.xml 文件数据如下:

    <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
    <sst
        xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="6" uniqueCount="4">
        <si>
            <t>guangzhou</t>
        </si>
        <si>
            <t>beijing</t>
        </si>
        <si>
            <t>hujun</t>
        </si>
        <si>
            <t>c</t>
        </si>
    </sst>

    这个数据存放了字符串的数据。

    sheet 表文件也是一个xml文件,格式如下图:

    我们查看xml文件可以得知。

     这里0,1,2,3 存的是 sharedString.xml 字符串的下标。

    数字和日期型数据是直接存放在sheets 数据中的。

    日期型数据的存储有些特殊

    比如这个 他的日期实际是 2019-5-29日,这个是怎么计算的呢,他实际是从1900-0-0 开始加上43614天。

    因此 明白了excel的结构 ,我们就很容易去实现读excel的代码,可以绕开poi哪些api。

    直接读取xml。

    实现思路

    1.将文件解压。

    2.读取sharedString.xml 将数据读取到list列表。

    3.读取sheet.xml文件数据,遍历这个数据,将字符串的数据,去上面的列表中查找,其他类型的数据直接在sheet.xml 中读取。

  • 相关阅读:
    像调试java一样来调试Redis lua
    微言限流
    性能测试遭遇TPS抖动问题
    你所不知道的堆外缓存
    基于JMH的Benchmark解决方案
    基于FastJson的通用泛型解决方案
    你所不知道的日志异步落库
    mac上配置java开发环境
    你所不知道的库存超限做法
    服务器一般达到多少qps比较好[转]
  • 原文地址:https://www.cnblogs.com/yg_zhang/p/10946943.html
Copyright © 2020-2023  润新知