VIMER-CAE 模型

VIMER-CAE

VIMER-CAE类别文心·CV大模型应用图像分类、图像检测、图像分割模型概述VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。模型说明模型简介VIMER-CAE 基于自监督图像掩码建模原理,创新

  • *.2折
    官方价格:咨询
  • *.2折
    官方价格:咨询
  • *.2折
    官方价格:咨询

VIMER-CAE

类别文心·CV大模型

应用图像分类、图像检测、图像分割


模型概述

VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。


模型说明

模型简介

VIMER-CAE 基于自监督图像掩码建模原理,创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,对编码模块和解码模块进行分离,通过编码模块对输入的图像块进行特征表达,并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复,在图像掩码建模问题上提高了预训练模型的图像表征能力。基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,其中在目标检测、实例分割、语义分割等任务的指标上达到最优水平。

1df9a75e698a57f284a012c03_1df9a75

预训练任务

VIMER-CAE 预训练任务包括 4 个部分:1) Encoder;2) Latent contextual regressor;3) Decoder;4) Alignment module。Encoder 是一个 ViT 模型,负责学习图像表征;Latent contextual regressor 通过非掩码区域的特征去预测掩码区域特征;Decoder 通过掩码区域特征去预测某些性质或者恢复成原始像素的形式;Alignment module 通过特征对齐的操作,使表征学习的任务只由 Encoder 承担。

下游应用任务

经过大数据预训练产出的 VIMER-CAE 模型,可以作为下游应用任务的基础模型,加持不同任务分支网络和对应训练数据即可高效调优,常见的应用任务包括图像分类、目标检测、语义分割等任务,具体任务描述如下:

  • 图像分类:对图像进行分类

  • 目标检测:检测图像里的具体目标并预测类别

  • 语义分割:对图像里的不同区域进行分割

模型效果

1)分类场景 ImageNet-1K 数据集上的结果

ModelPretrainLinear Prob(Top-1)Attentive Prob(Top-1)Finetune(Top-1)
Vit-Base800e69.3%76.7%83.7%
Vit-Large1600e78.1%81.2%86.3%

2)目标检测 COCO 数据集上的结果

BackboneMethodEpochBox APMask AP
Vit-Base-800eMask-RCNN12e49.8%43.9%
Vit-Large-1600eMask-RCNN12e54.5%47.6%

3)分割场景 ADE20K 数据集上的结果

BackboneMethodCrop SizeLr SchdmIoU
Vit-Base-800eUperNet512x512160K49.7%
Vit-Large-1600eUperNet512x512160K54.7%

应用场景

VIMER-CAE 通用表征预训练,可以在通用场景数据以及各个视觉任务中应用,利用海量无标注数据去提升预训练模型的表征能力,进而用于多种视觉下游任务,比如图像分类任务、目标检测任务、实例分割任务等等。

使用方法

  1. VIMER-CAE 通用表征预训练评测模型和代码脚本已开源,了解详细信息可访问:https://github.com/PaddlePaddle/VIMER/tree/main/CAE。


7x24小时服务热线:400-996-8756

公司地址:河南省郑州市姚砦路133号金成时代广场6号楼13层

I CP备案号:豫B2-20110005-1

公安备案号: 41010502003271

法律顾问:河南天坤律师事务所-段志刚律师