- ICDAR 表格识别竞赛
- TableBank
- DocBank
- TABLE2LATEX-450K
- DECO
https://github.com/doc-analysis/TableBank
微软发布
word和latex两种格式。
https://github.com/doc-analysis/DocBank
https://github.com/bloomberg/TABLE2LATEX
该数据集包含约46.6万个表格-Latex代码对样例,从文档层面分为了训练集(约44.7万)、验证集(约0.9万)和测试集(约0.9万)。这个数据集实际上将表格结构识别任务作为了一个图像到文本(Image2Text)的转化任务。
DECO
《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通过抽取EnronCorpus,得到了一个包含1165份文件的数据集。该数据将表格的非空单元格标注为表格头、数据和注释等,同时注明了表格边界。对于不含表格的文件,使用了例如:模板、表单、报表等类别进行标注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/
ICDAR2019
ICDAR2019表格检测与识别比赛(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一个面向表格检测与识别任务的比赛,比赛官方网站为http://sac.founderit.com/。