【计算机视觉 | 语义分割】OVSeg:分割一切后,SAM又能分辨类别了,Meta/UTAustin提出全新开放类分割模型

news/2024/5/20 10:14:38 标签: 计算机视觉, 语义分割, OVSeg

文章目录

  • 一、前言
  • 二、研究背景
  • 三、论文解读
    • 3.1 动机
    • 3.2 方法
    • 3.3 结果

一、前言

前几日,Meta 推出了「分割一切」AI 模型 Segment Anything,令网友直呼 CV 不存在了?!

而在另一篇被 CVPR 2023 收录的论文中,Meta、UTAustin 联合提出了新的开放语言风格模型(open-vocabulary segmentation, OVSeg),它能让 Segment Anything 模型知道所要分隔的类别。

在这里插入图片描述
论文地址:

https://arxiv.org/pdf/2210.04150.pdf

从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。

比如下图 1 中识别花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

在这里插入图片描述
即刻体验的地址:

https://huggingface.co/spaces/facebook/ov-seg

项目地址:

https://jeff-liangf.github.io/projects/ovseg/

二、研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型,因为它在掩膜图像上表现不佳。

为了解决这个问题,研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配,从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签(例如 COCO-Stuff)相比,研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外,研究者还使用了被掩膜图像中的「空白」区域,使用了他们称之为掩膜提示微调的方法。

实验表明,掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进,并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时,研究者的最佳模型实现了 29.6%的 mIoU,比先前的最先进技术高出 8.5%。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配,而不需要特定于数据集的适应。

三、论文解读

3.1 动机

研究者的分析表明,预训练的 CLIP 在掩膜建议上表现不佳,成为两阶段方法的性能瓶颈。

在这里插入图片描述

  • CLIP 是使用很少的数据增强在自然图像上进行预训练的。
  • 两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议,然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像,与自然图像存在巨大的领域差距。
  • 我们的分析表明,预训练的 CLIP 在掩膜图像上表现不佳。

3.2 方法

研究者的模型包括一个分割模型(例如 MaskFormer)和一个 CLIP 模型。

在这里插入图片描述

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线(第 3.1 节),然后从图像标题中收集多样的掩膜-类别对(第 3.2 节),并适应 CLIP 用于掩膜图像(第 3.3 节)。

3.3 结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

在这里插入图片描述
更多分类示例如下所示:

在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/253669.html

相关文章

去后厂村开游戏厅吧!基于PP-TinyPose的简易体感游戏开发框架

‍ 项目简介 近年来,随着虚拟现实技术和计算机图形学技术的迅猛发展,越来越多的体感游戏在市场上出现并受到欢迎。要让体感游戏具备良好的表现,就需要使用大量的传感器,甚至需要使用高性能的计算机和图形处理器。这不仅会增加游戏…

VBA智慧办公9——图例控件教程

如图,利用VBA进行可视化交互界面的设计,在界面中我们用到了label,button,text,title等多个工具,在进行框图效果的逐一实现后可进行相应的操作和效果实现。 VBA(Visual Basic for Applications&a…

JavaSE 09 File 类 IO 流 - Part 02

文章目录 概览IO 字符流字符流的意义编码表基础知识字符集常见的字符集字符串中的编码解码问题字符流中的编码解码问题字符流写数据的五种方式字符流读数据的两种方式案例一:字符流复制 Java 文件案例二:字符流复制 Java 文件改进版字符缓冲流案例三:字符缓冲流复制 Java 文…

某医院网络安全分析案例

背景 我们已将NetInside流量分析系统部署到某市医院的机房内,使用流量分析系统提供实时和历史原始流量。本次分析重点针对网络流量安全进行分析,以供安全取证、网络质量监测以及深层网络分析。 分析时间 报告分析时间范围为:2023-04-12 16…

MyBatis Mapper常用动态SQL之foreach 、if、choose、where、when

if语句 <if>判断语句&#xff0c;用于单条件分支条件判断 使用<if>元素对参数username和jobs进行非空判断&#xff0c;并动态组装SQL&#xff1a; select * from t_person where 11 <if test"username !null and username !">and username like…

oracle常用函数

1、查看表结构&#xff1a; DESC employee; 2、删除表&#xff1a; drop table myemp; 3、修改表&#xff1a; RENAME employee TO myemp; 4、增加列 ALTER TABLE myemp ADD(hiredate DATE DEFAULT SYSDATE); 5、删除列 ALTER TABLE myemp DROP(hiredate); 6、修改列 ALTE…

【京东】商品详情页+商品列表数据采集

作为国内最大的电商平台之一&#xff0c;京东数据采集具有多个维度。 有人需要采集商品信息&#xff0c;包括品类、品牌、产品名、价格、销量等字段&#xff0c;以了解商品销售状况、热门商品属性&#xff0c;进行市场扩大和重要决策&#xff1b; 有人需要采集产品评论&…

通过logstash实现mysql与es的双向数据同步

参考题目 一种基于MySQL和Elasticsearch的数据同步方法及系统基于MySQL和Elasticsearch的数据同步方法一种基于MySQL和Elasticsearch的数据同步系统基于MySQL和Elasticsearch的数据同步技术 目录 1【理论调研】 方案1&#xff1a;使用Logstash实现数据同步 方案2&#xff1a…