• excel 大文件解析原理实现


     问题

    目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列。

    之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是程序写的很复杂。

    解决方案

    我们知道excel 文件实际上是一个压缩包来的,我们将excel 直接改名为rar或zip文件。

    我们可以将文件解压出来。

    我们可以看到excel 实际上是一堆xml文件的集合。

    worksheets 中实际存了 这个excel的sheets数据。

    但是excel 在存数据的时候,他会将字符串数据存在在sharedString.xml 文件中。

    sharedString.xml 文件数据如下:

    <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
    <sst
        xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="6" uniqueCount="4">
        <si>
            <t>guangzhou</t>
        </si>
        <si>
            <t>beijing</t>
        </si>
        <si>
            <t>hujun</t>
        </si>
        <si>
            <t>c</t>
        </si>
    </sst>

    这个数据存放了字符串的数据。

    sheet 表文件也是一个xml文件,格式如下图:

    我们查看xml文件可以得知。

     这里0,1,2,3 存的是 sharedString.xml 字符串的下标。

    数字和日期型数据是直接存放在sheets 数据中的。

    日期型数据的存储有些特殊

    比如这个 他的日期实际是 2019-5-29日,这个是怎么计算的呢,他实际是从1900-0-0 开始加上43614天。

    因此 明白了excel的结构 ,我们就很容易去实现读excel的代码,可以绕开poi哪些api。

    直接读取xml。

    实现思路

    1.将文件解压。

    2.读取sharedString.xml 将数据读取到list列表。

    3.读取sheet.xml文件数据,遍历这个数据,将字符串的数据,去上面的列表中查找,其他类型的数据直接在sheet.xml 中读取。

  • 相关阅读:
    tp3.2 企业转账到零钱
    nodejs 定时器
    lake counting DFS 搜索
    巧抓纪念币 BFS 剪枝优化
    E Road Reduction BFS & Dijkstra
    CPU Scheduling in Operating Systems
    D Together Square
    Dijkstra's algorithm a greedy or dynamic programming algorithm?
    K Swap 归并排序
    C#和Java,究竟选哪个方向?我只说事实,你自己分析……
  • 原文地址:https://www.cnblogs.com/yg_zhang/p/10946943.html
Copyright © 2020-2023  润新知