VIMER-StrucTexT 2.0类别文心-CV大模型应用OCR识别和结构化模型概述VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型,创新性地提出“单模态图像输入、多模态表征学习”预训练框架,在 5 项不同文档图像理解任务上刷新 SOTA 结果。模型简介VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架
VIMER-StrucTexT 2.0
类别文心-CV大模型
应用OCR识别和结构化
模型概述
VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型,创新性地提出“单模态图像输入、多模态表征学习”预训练框架,在 5 项不同文档图像理解任务上刷新 SOTA 结果。
VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架,仅通过单一文档图像的输入,就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,包括文档图像分类、文档版式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传统 OCR + NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。
VIMER-StrucTexT 2.0 预训练环节采用的是 CV&NLP 前沿的 Mask-Predict 机制。预训练流程包括四个环节:1)基于网络公开数据抓取超 1 亿张文档图像数据,采用百度高精 OCR 服务进行文字检测和识别,保留高置信度文字内容(包括文字位置信息和文本识别内容);2)将文档图像进行随机文本区域遮罩,并输入给 Encoder (如 CNN 和 Transformer 结合结构)进行特征高效编码;3)利用文字位置信息对遮盖的文本区域特征进行提取,得到每个文本区域的表征信息; 4)最后将表征信息分别输入给两个任务分支图像重建和文本推理,通过大数据的加持能够让 Encoder 充分学习多模态知识。
图像重建:采用图像生成模型设计方式,还原被遮罩的文本区域图像。
文本推理:利用文本区域表征信息直接做判决,推理出被遮罩的文本内容。
经过大数据预训练产出的 VIMER-StrucTexT 2.0 模型,可以作为下游应用任务的基础模型,加持不同任务分支网络和对应训练数据即可高效调优,常见的文档理解应用任务包括文档图像分类、文档版式分析、表格结构解析、文档 OCR 和端到端信息抽取等,具体任务描述如下:
文档图像分类:根据文档数据的行业属性一般可以将文档图像归类为合同、简历、表单、卡证、票据等;
文档版式分析:根据文档数据的内容和空间布局信息,可以将文档图像按照不同属性的进行空间划分包括标题、段落、图、列表、表格等;
表格结构解析:需要完成对表格数据进行单元格排列信息的解析;
文档 OCR:对文档图像中出现的文字进行高准确检测和识别;
端到端信息抽取:完整的文档理解服务需要完成用户定义的关键字段文字信息提取,既要完成字段的准确分类,也要完成对应文字内容的识别。
任务类型 | 测评集合 | 评价方式 | V2.0 |
---|---|---|---|
文档图像分类 | RVL-CDIP | Accuray | 93.3 |
文档版式分析 | PubLayNet | F1-score | 95.4 |
表格结构解析 | PubTabNet | TEDs | 97.1 |
文档 OCR | FUNSD | 1-NED | 84.1 |
中文信息抽取 | XFUND-CHN | 1-NED | 67.5 |
泛卡证票据信息抽取应用,可广泛适用于身份认证、金融开户、征信评估、商户入驻等业务场景,性能相较 VIMER-StrucTexT 1.0 提升 30% 以上。
政务办公文档还原应用,对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等,方便对文档类图片进行结构化分析,版式分析和表格结构化解析等能力最大错误率下降达 50%。
VIMER-StrucTexT 2.0 相关模型将陆续开放,了解详细信息。
VIMER-StrucTexT 2.0 近期也将陆续升级百度 AI 开放平台相关 OCR 产品矩阵,以及百度零门槛 AI 开放平台产品 EasyDL-OCR,敬请期待。
7x24小时服务热线:400-996-8756
公司地址:河南省郑州市姚砦路133号金成时代广场6号楼13层
法律顾问:河南天坤律师事务所-段志刚律师