VIMER-StrucTexT 2.0 模型

VIMER-StrucTexT 2.0类别文心-CV大模型应用OCR识别和结构化模型概述VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型，创新性地提出“单模态图像输入、多模态表征学习”预训练框架，在 5 项不同文档图像理解任务上刷新 SOTA 结果。模型简介VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架

*.2折
官方价格:咨询
*.2折
官方价格:咨询
*.2折
官方价格:咨询

VIMER-StrucTexT 2.0

类别文心-CV大模型

应用OCR识别和结构化

模型概述

VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型，创新性地提出“单模态图像输入、多模态表征学习”预训练框架，在 5 项不同文档图像理解任务上刷新 SOTA 结果。

模型简介

VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架，仅通过单一文档图像的输入，就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型，显著提高文档理解全景应用任务效果，包括文档图像分类、文档版式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传统 OCR + NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题，能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。

预训练任务

VIMER-StrucTexT 2.0 预训练环节采用的是 CV&NLP 前沿的 Mask-Predict 机制。预训练流程包括四个环节：1）基于网络公开数据抓取超 1 亿张文档图像数据，采用百度高精 OCR 服务进行文字检测和识别，保留高置信度文字内容（包括文字位置信息和文本识别内容）；2）将文档图像进行随机文本区域遮罩，并输入给 Encoder （如 CNN 和 Transformer 结合结构）进行特征高效编码；3）利用文字位置信息对遮盖的文本区域特征进行提取，得到每个文本区域的表征信息； 4）最后将表征信息分别输入给两个任务分支图像重建和文本推理，通过大数据的加持能够让 Encoder 充分学习多模态知识。

图像重建：采用图像生成模型设计方式，还原被遮罩的文本区域图像。
文本推理：利用文本区域表征信息直接做判决，推理出被遮罩的文本内容。

应用任务

经过大数据预训练产出的 VIMER-StrucTexT 2.0 模型，可以作为下游应用任务的基础模型，加持不同任务分支网络和对应训练数据即可高效调优，常见的文档理解应用任务包括文档图像分类、文档版式分析、表格结构解析、文档 OCR 和端到端信息抽取等，具体任务描述如下：

文档图像分类：根据文档数据的行业属性一般可以将文档图像归类为合同、简历、表单、卡证、票据等；

文档版式分析：根据文档数据的内容和空间布局信息，可以将文档图像按照不同属性的进行空间划分包括标题、段落、图、列表、表格等；

表格结构解析：需要完成对表格数据进行单元格排列信息的解析；

文档 OCR：对文档图像中出现的文字进行高准确检测和识别；

端到端信息抽取：完整的文档理解服务需要完成用户定义的关键字段文字信息提取，既要完成字段的准确分类，也要完成对应文字内容的识别。

模型效果

任务类型	测评集合	评价方式	V2.0
文档图像分类	RVL-CDIP	Accuray	93.3
文档版式分析	PubLayNet	F1-score	95.4
表格结构解析	PubTabNet	TEDs	97.1
文档 OCR	FUNSD	1-NED	84.1
中文信息抽取	XFUND-CHN	1-NED	67.5

典型应用场景

泛卡证票据信息抽取应用，可广泛适用于身份认证、金融开户、征信评估、商户入驻等业务场景，性能相较 VIMER-StrucTexT 1.0 提升 30% 以上。
政务办公文档还原应用，对办公场景的各类文档进行结构化识别，如企业年报、论文、行业报告等，方便对文档类图片进行结构化分析，版式分析和表格结构化解析等能力最大错误率下降达 50%。

使用方法

VIMER-StrucTexT 2.0 相关模型将陆续开放，了解详细信息。
VIMER-StrucTexT 2.0 近期也将陆续升级百度 AI 开放平台相关 OCR 产品矩阵，以及百度零门槛 AI 开放平台产品 EasyDL-OCR，敬请期待。

新闻资讯

关注人脸、文字识别、关注ai智能未来

7x24小时服务热线：400-996-8756

公司地址：河南省郑州市姚砦路133号金成时代广场6号楼13层

I CP备案号：豫B2-20110005-1

公安备案号: 41010502003271

法律顾问：河南天坤律师事务所-段志刚律师