近日,百度发布知识增强跨模态大模型——ERNIE-ViLG 2.0,在 AI 作画领域取得新突破。该模型采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模型,也是目前全球参数规模最大的 AI 作画大模型。据了解,ERNIE-ViLG 2.0在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的世界最好效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。
论文链接:
https://arxiv.org/pdf/2210.15257.pdf
体验链接:
https://wenxin.baidu.com/ernie-vilg
文心 ERNIE-ViLG 2.0
最强中文 AI 作画大模型
AIGC(AI-Generated Content)是继 UGC、PGC 之后,利用 AI 技术自动生成内容的新型生产方式。AI 作画作为 AIGC 重要方向之一,蕴含了极大的产业应用价值。相比于人类创作者,AI 作画展现出了创作成本低、速度快且易于批量化生产的巨大优势。近一年来,该领域迅猛发展,国际科技巨头和初创企业争相涌入,国内也出现了众多 AI 作画产品,这些产品背后主要使用基于扩散生成算法的 DALL-E 2 和 Stable Diffusion 等国外模型。目前,这类基础模型在国内尚处空白,ERNIE-ViLG 2.0是国内首个在该方向取得突破的工作。
当前 AI 作画技术在图像细节纹理的流畅度、清晰度、语义的可控性等方面还存在诸多问题。基于此,百度提出了基于知识增强的混合降噪专家(Mixture-of-Denoising-Experts,MoDE)建模的跨模态大模型 ERNIE-ViLG 2.0,在训练过程中,通过引入视觉知识和语言知识,提升模型跨模态语义理解能力与可控生成能力;在扩散降噪过程中,通过混合专家网络建模,增强模型建模能力,提升图像的生成质量。ERNIE-ViLG 2.0可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景,激发设计者创作灵感,提升内容生产的效率。通过简单的描述,模型便可以在短短几十秒内生成设计图,极大地提升了设计效率、降低商业出图的门槛。
7x24小时服务热线:400-996-8756
公司地址:河南省郑州市姚砦路133号金成时代广场6号楼13层
法律顾问:河南天坤律师事务所-段志刚律师