ERNIE-ViLG 2.0类别文心·跨模态大模型应用图像生成、艺术创作、虚拟现实、AI 辅助设计等文心 ERNIE-ViLG 2.0 采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模型,也是目前全球参数规模最大的 AI 作画大模型,在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前
ERNIE-ViLG 2.0
类别文心·跨模态大模型
应用图像生成、艺术创作、虚拟现实、AI 辅助设计等
文心 ERNIE-ViLG 2.0 采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模型,也是目前全球参数规模最大的 AI 作画大模型,在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的世界最好效果,并在语义可控性、图像清晰度、中国文化理解等方面展现出了显著优势。
模型说明
文心 ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。同时,ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专家模型来提升模型建模能力,让模型在不同的生成阶段选择不同的“降噪专家”网络,从而实现更加细致的降噪任务建模,提升生成图像的质量。
基于语言和图像知识的知识增强算法。 为提升生成图像的语义一致性和可控性,ERNIE ViLG 2.0 将知识增强算法融入扩散模型学习,在扩散模型学习过程中,引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素,同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法,对图文的语义一致性进行针对性学习,进而实现精准的细粒度语义控制。
混合降噪专家网络。 针对模型建模能力不足,导致图像质量不够好的问题,ERNIE ViLG 2.0 提出了针对不同阶段选择不同网络(降噪专家)进行建模的框架,有效地解决了不同阶段对模型能力要求不一致的问题,减少降噪任务的互相干扰,提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成,实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。
相较于 DALL-E 2、Imagen、Parti 等模型,文心 ERNIE-ViLG 2.0 在文本生成图像权威集合 MS-COCO 上取得了当前最好效果,刷新了该任务的基准。( FID 指标代表了模型生成图像的逼真程度,数值越低代表模型越好)
在图文相关性和图像保真度两个维度的人工评估上,ERNIE-ViLG 2.0 相对 DALL-E 2 和 Stable Diffusion 同样具有有较大优势。
文心 ERNIE-ViLG 2.0 可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景,激发设计者创作灵感,提升内容生产的效率。通过简单的描述,模型便可以在短短几十秒内得到图像,极大地提升了设计效率、降低商业出图的门槛。
作为百度文心大模型“家族”中重要一员,ERNIE-ViLG 2.0 代表着百度在 AIGC 领域迈出的坚实步伐,将进一步加速 AI 辅助视觉内容创作与生产时代的来临,从技术自主创新和加速产业应用方面持续推动中国 AI 发展。
通过ERNIE-ViLG文生图体验专区在线体验 ERNIE-ViLG 2.0 的文生图能力,您可自定义输入文本,并选择古风、二次元、油画、未来主义等修饰词风格以及方图(1024x1024)、长图(1024x1536)、横图(1536x1024)等不同分辨率尺寸的的图片要求,模型会根据输入内容自动创作出符合要求的图片。
ERNIE-ViLG 2.0 提供 API 体验调用的入口,您可以在开放API ERNIE-ViLG文生图 体验专区的头像入口查看或申请 AK/SK 进行接口调用体验,接口文档可通过体验专区点击使用文档进行查看,或者点击代码调用复制代码进行调用体验。
7x24小时服务热线:400-996-8756
公司地址:河南省郑州市姚砦路133号金成时代广场6号楼13层
法律顾问:河南天坤律师事务所-段志刚律师