掀起一股中国风，最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

发布时间：2022-11-01 作者：创始人

近日，百度发布知识增强跨模态大模型——ERNIE-ViLG 2.0，在 AI 作画领域取得新突破。该模型采用基于知识增强算法的混合降噪专家建模，是全球首个知识增强的 AI 作画大模型，也是目前全球参数规模最大的 AI 作画大模型。据了解，ERNIE-ViLG 2.0在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了当前该领域的世界最好效果，在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。

Screenshot_20221101_160016_com

Screenshot_20221101_160022_com

论文链接：

https://arxiv.org/pdf/2210.15257.pdf

体验链接：

https://wenxin.baidu.com/ernie-vilg

文心 ERNIE-ViLG 2.0

最强中文 AI 作画大模型

AIGC（AI-Generated Content）是继 UGC、PGC 之后，利用 AI 技术自动生成内容的新型生产方式。AI 作画作为 AIGC 重要方向之一，蕴含了极大的产业应用价值。相比于人类创作者，AI 作画展现出了创作成本低、速度快且易于批量化生产的巨大优势。近一年来，该领域迅猛发展，国际科技巨头和初创企业争相涌入，国内也出现了众多 AI 作画产品，这些产品背后主要使用基于扩散生成算法的 DALL-E 2 和 Stable Diffusion 等国外模型。目前，这类基础模型在国内尚处空白，ERNIE-ViLG 2.0是国内首个在该方向取得突破的工作。

Screenshot_20221101_155956_com

当前 AI 作画技术在图像细节纹理的流畅度、清晰度、语义的可控性等方面还存在诸多问题。基于此，百度提出了基于知识增强的混合降噪专家（Mixture-of-Denoising-Experts，MoDE）建模的跨模态大模型 ERNIE-ViLG 2.0，在训练过程中，通过引入视觉知识和语言知识，提升模型跨模态语义理解能力与可控生成能力；在扩散降噪过程中，通过混合专家网络建模，增强模型建模能力，提升图像的生成质量。ERNIE-ViLG 2.0可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景，激发设计者创作灵感，提升内容生产的效率。通过简单的描述，模型便可以在短短几十秒内生成设计图，极大地提升了设计效率、降低商业出图的门槛。

标签：文心 ERNIE-ViLG 文心大模型

上一篇：双十一百度AI新人专享福利来啦！

下一篇：人脸识别、文字识别技术双十一活动来袭

掀起一股中国风，最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

热门资讯