• 从图像中检测和识别表格,北航&微软提出新型数据集 TableBank


    纯学术 的识别表格的文章:

    http://hrb-br.com/5007404/20190321A0B99Y00.html

    https://github.com/doc-analysis/TableBank

    该研究中,来自北航和微软亚研的研究者联合创建了一个基于图像的表格检测和识别新型数据集 TableBank,该数据集是通过对网上的 Word 和 Latex 文档进行弱监督而建立的。该数据集包含 417K 个高质量标注表格,通过此数据集作者利用深度神经网络 SOTA 模型建立了数个强大的基线,从而助力更多研究将深度学习方法应用到表格检测与识别任务中。目前 TableBank 已开源。

    本文给出该数据集的下载地址,如果有人研究表格识别问题,这个下载链接会方便一些。(本链接是从官方获得的,官方下载较慢,于是分享下自己保存的地址)

    链接:**********************************************
    提取码:   ****
        

    --------------------------------------------------------------------------------------------------------

    Because some data has copyright issues and should not be released, we filtered all the data and excluded them. We also retrain all the baseline model on the changed dataset and list them on the leaderboard website.

    Leaderboard: https://doc-analysis.github.io/

    If you use the corpus in published work, please cite it:

    @article{li2019tablebank,

      title={TableBank: Table Benchmark for Image-based Table Detection and Recognition},

      author={Li, Minghao and Cui, Lei and Huang, Shaohan and Wei, Furu and Zhou, Ming and Li, Zhoujun},

      journal={arXiv preprint arXiv:1903.01949},

      year={2019}

    }

    -----------------------------------------------------------------------------------

    Related Resources

    • [Gilani et al., 2017] A. Gilani, S. R. Qasim, I. Malik, and F. Shafait. Table detection using deep learning. In Proc. of ICDAR 2017, volume 01, pages 771–776, Nov 2017.
  • 相关阅读:
    elasticsearch head插件安装
    ELK部署配置使用记录
    windows 安装mysql
    vs2017创建dotnetcore web项目,并部署到centos7上
    CentOS 7 安装jdk
    CentOS 7 配置网络
    Surging 记录
    记录一下地址
    net core 依懒注入 中间件
    Elasticsearch 配置文件
  • 原文地址:https://www.cnblogs.com/devilmaycry812839668/p/10642021.html
Copyright © 2020-2023  润新知