百度文心自发布以来经过多次迭代升级已发布多个模型,今天给大家分享的是文心·跨模态大模型,下面我们一起来了解下!
以知识增强的跨模态语义理解关键技术为基础,实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建,AI助力产业智能化转型升级。
1、ERNIE-ViL
首个知识增强跨模态大模型,将场景图的结构化知识融入预训练,在视觉问答、跨模态检索等5个典型跨模态任务上刷新世界最好效果。
ERNIE-ViLG
2、ERNIE-ViLG
全球最大中文跨模态生成模型,具备文本生成图像、图像生成文本的双向生成能力,支持多种图文跨模态生成任务。
3、ERNIE-UNIMO
业界首创的语言视觉一体化大模型,首次同时解决视觉、语言和跨模态任务,同时登顶VQA、VCR、aNLI等三个视觉与文本权威榜单。
4、ERNIE-Layout
跨模态文档理解模型,首次将布局知识增强技术融入跨模态文档预训练,在4项文档理解任务上刷新世界最好效果,登顶DocVQA榜首。
5、ERNIE-FAT
文心跨模态大模型,由语音和语言跨模态联合预训练,显著增强语音语言跨模态任务效果。
更多百度文心·跨模态大模型相关内容,百度云服务中心持续分享中!
推荐阅读:百度文心·CV大模型