VIMER-UMS类别文心·CV大模型应用商品识别、多模态搜索与推荐、零售快消数字化等模型概述基于海量的互联网商品图文信息,百度提出多源信息统一建模的商品图文表征预训练模型 VIMER-UMS (Unified Multi-Source Pre-training for Product),是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对图文多模态建模中模态信息残缺问题,通过构
VIMER-UMS
类别文心·CV大模型
应用商品识别、多模态搜索与推荐、零售快消数字化等
模型概述
基于海量的互联网商品图文信息,百度提出多源信息统一建模的商品图文表征预训练模型 VIMER-UMS (Unified Multi-Source Pre-training for Product),是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对图文多模态建模中模态信息残缺问题,通过构建视觉特征与多源图文对比的多任务学习框架,实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,可以显著改善商品视觉检索和商品多模态检索体验。
基于海量的互联网商品图文信息,百度提出多源信息统一建模的商品图文表征预训练模型 VIMER-UMS (Unified Multi-Source Pre-training for Product),是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对图文多模态建模中模态信息残缺问题,通过构建视觉特征与多源图文对比的多任务学习框架,实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,显著优化商品视觉检索、广告识别、多模态商品搜索推荐体验,高效提升线下零售商品识别效果,解决小样本定制优化痛点。
现有多模态图文预训练方法主要面向图文跨模态搜索、多模态理解与生成任务,侧重对图文模态特征的关系表征,对单模态视觉下游任务效果支持不足。以 OpenAI CLIP、Google Align 为代表的大规模图文预训练方法依赖大量训练资源及亿级大数据,高昂成本制约多模态大模型的规模化应用。
此外,真实场景中的多模态关联数据不仅限于简单的图文对。相比两维的图文对形式,多源信息是指具有多维度的信息来源,以商品搜索场景为例,包括文本模态(搜索输入、场景文字、文本标题、类目标签)、视觉模态(商品图、同款标签)的多维多模态信息,其中蕴含丰富的语义关联,具有极大的挖掘利用潜力与应用价值。然而,在实际应用中,多源商品信息通常存在模态信息缺失的问题,是多源信息模态建模应用面临的重要挑战。
针对以上问题,百度面向商品搜索场景,提出了多源信息统一建模的商品图文表征预训练模型 VIMER-UMS,旨在统一视觉模态、图文多模态搜索表征任务,克服多源信息场景下模态信息残缺的问题,同时提升视觉、多模态搜索任务效果。
VIMER-UMS 基于端到端 Transformer 训练方式,通过视觉编码、文本编码、融合编码、搜索查询编码,提供多源商品信息的统一表达结构。
由于现有主流多模态预训练方法依靠语言作为弱监督关联信号,视觉表征能力存在退化现象。为了解决该问题,VIMER-UMS 通过建立视觉与多源图文对比多任务预训练,实现视觉特征、图文特征的统一增强表征。
针对实际业务应用,基于 VIMER-UMS 商品图文表征预训练模型,使用少量标注或无标注数据,高效实现下游商品视觉检索、细粒度识别、多模态搜索能力。
基于 VIMER-UMS 商品图文表征预训练模型,实现多个商品下游视觉检索、跨模态检索任务 SOTA 效果,支持直接部署落地与预训练微调应用。
数据集
SOP 数据集包含 22,634 款商品、共 120,053 张有标注图片用于评估商品视觉检索效果。训练图片 59,551 张、商品11,318 类,测试图片60,502 张、商品11,316 类。
InShop 数据集包含每个商品的不同角度图片共 52,712 张,包含7,982 件商品。
实验 商品SOP、服饰InShop下游任务微调结果:商品视觉检索基于Recall@1进行效果评估,基于PaddlePaddle GPU预测库,支持单卡快速部署应用。
预训练模型 | 下游微调方法 | 分辨率 | SOP | InShop |
---|---|---|---|---|
UMS(ViT-Base) | Rank Loss | 224 | 88.72 | 94.70 |
数据集
Product1M 多模态商品数据集包含 1,182,083 个训练样本(一对商品图与标题文本描述)、2,673 个测试样本以及 40,033 个商品底库样本作为搜索评测数据。
实验 商品多模态检索Product1M下游任务微调结果:采用mAP@R指标(mean Average Precision)对搜索排序效果进行评估。
预训练模型 | 分辨率 | mAP@10 | mAP@50 | mAP@100 |
---|---|---|---|---|
UMS(ViT-Base) | 224 | 85.68 | 83.10 | 81.13 |
VIMER-UMS 商品图文表征预训练,可以在实际拍照商品识别、多模态商品识别、商品广告识别与零售线下数字化等多个业务场景中应用,解决单模态、多模态下游任务多样难题,缓解线下零售商品识别定制优化低效的行业痛点问题。
商品搜索:文本搜商品、图片搜商品等功能,用于找同款及相似款商品、拍照识货场景,便于搜索商品以及相关商品推荐。
商品推荐:面向电商搜索平台,对内容进行商品识别和带货意图识别,提升商品展现质量与数量,进而提升平台转化和变现能力。
线下零售数字化:面向快速消费品行业,精准识别货架、冰柜和端架及陈列商品种类与数量,赋能品牌商实现网点数字化洞察与高效销售决策。
VIMER-UMS 商品图文表征预训练评测模型和代码脚本已开源,了解详细信息可访问:https://github.com/PaddlePaddle/VIMER/tree/main/UMS。
VIMER-UMS 商品图文表征预训练近期将集成至百度零门槛 AI 开发平台-零售版 EasyDL 零售行业版 中,敬请期待。
7x24小时服务热线:400-996-8756
公司地址:河南省郑州市姚砦路133号金成时代广场6号楼13层
法律顾问:河南天坤律师事务所-段志刚律师