百度文心·跨模态大模型

发布时间：2022-01-18 作者：创始人

　　百度文心自发布以来经过多次迭代升级已发布多个模型，今天给大家分享的是文心·跨模态大模型，下面我们一起来了解下！

　　以知识增强的跨模态语义理解关键技术为基础，实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建，AI助力产业智能化转型升级。

百度文心·跨模态大模型

　　1、ERNIE-ViL

　　首个知识增强跨模态大模型，将场景图的结构化知识融入预训练，在视觉问答、跨模态检索等5个典型跨模态任务上刷新世界最好效果。

　　ERNIE-ViLG

　　2、ERNIE-ViLG

　　全球最大中文跨模态生成模型，具备文本生成图像、图像生成文本的双向生成能力，支持多种图文跨模态生成任务。

　　3、ERNIE-UNIMO

　　业界首创的语言视觉一体化大模型，首次同时解决视觉、语言和跨模态任务，同时登顶VQA、VCR、aNLI等三个视觉与文本权威榜单。

　　4、ERNIE-Layout

　　跨模态文档理解模型，首次将布局知识增强技术融入跨模态文档预训练，在4项文档理解任务上刷新世界最好效果，登顶DocVQA榜首。

　　5、ERNIE-FAT

　　文心跨模态大模型，由语音和语言跨模态联合预训练，显著增强语音语言跨模态任务效果。

　　更多百度文心·跨模态大模型相关内容，百度云服务中心持续分享中！

标签：百度文心跨模态大模型知识增强跨模态语义理解跨模态检索图文生成信息抽取视觉问答跨模态文档理解