将FastSAM中的TextPrompt迁移到MobileSAM中

news/2024/5/20 6:39:44 标签: 大模型, 实例分割, 语义分割

本博文简单介绍了SAM、FastSAM与MobileSAM,主要关注于TextPrompt功能的使用。从性能上看MobileSAM是最实用的,但其没有提供TextPrompt功能,故而参考FastSAM中的实现,在MobileSAM中嵌入TextPrompt类。并将TextPrompt能力嵌入到MobileSAM官方项目提供的gradio.py部署代码中,实现效果如下图所示,由于FastSAM全景实列分割比MobileSAM略差,故MobileSAM的text prompt分割效果比FastSAM要好很多。
在这里插入图片描述
在这里插入图片描述

1、 SAM系列模型介绍

1.1 SAM

SAM项目代码:https://github.com/facebookresearch/segment-anything
SAM是一个项目体系,而非某个网络模型。其核心是对数据的利用,对模型输入输出格式的调整。其网络模型均依赖VIT模型,其结构体系为提示分割模型(与普通语义分割模型多了提示这一层)。SAM参考NLP,认为其具备强大的下游泛化能力是因为提示输入,其认为分割任务的提示输入为点、推荐框、mask和文本(对于文本输入的理解使用CLIP编码器),通过给定提示输


http://www.niftyadmin.cn/n/5434988.html

相关文章

二叉树进阶面试题(精华总结)【C++版本】

快乐的流畅:个人主页 个人专栏:《C语言》《数据结构世界》《进击的C》 远方有一堆篝火,在为久候之人燃烧! 文章目录 一、根据二叉树创建字符串二、二叉树的层序遍历三、二叉树的最近公共祖先四、二叉搜索树转换双向链表五、构造二…

idea warning:java源值已过时将在未来所有发行版中删除

在idea中运行maven项目 如果出现idea warning:java源值已过时将在未来所有发行版中删除,详见如下截图所示: 注意:jdk8 要解决这个警告需要设置3个地方 首先打开File->Project Structure中的Project,将SDK和language level都设…

Ubuntu 16.04 设置 root 密码

Ubuntu 16.04 设置 root 密码 1. sudo2. parserReferences 1. sudo sudo (/ˈsuːduː/ or /ˈsuːdoʊ/) is a program for Unix-like computer operating systems that allows users to run programs with the security privileges of another user, by default the superus…

UnityShader:IBL

效果: 实现: Shader "MyShader/IBL" {Properties{_CubeMap ("环境贴图", Cube) "white" {}_Exposure("曝光",float)1.0_Color("颜色",color)(1,1,1,1)_NormalMap("法线贴图",2d)"bu…

深度学习 精选笔记(13.1)卷积神经网络-LeNet模型

学习参考: 动手学深度学习2.0Deep-Learning-with-TensorFlow-bookpytorchlightning ①如有冒犯、请联系侵删。 ②已写完的笔记文章会不定时一直修订修改(删、改、增),以达到集多方教程的精华于一文的目的。 ③非常推荐上面(学习参考&#x…

面试算法-42-单词拆分

题目 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。如果可以利用字典中出现的一个或多个单词拼接出 s 则返回 true。 注意:不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。 示例 1: 输入: s “leetcode”, …

WEB前端项目开发——(一)(2024)

目录 1 通过Git Bash安装 vue-cli 2 创建项目 3 解决Git Bash方向键失效 4 重新进行项目创建 5 浏览器输入地址查看 6 案例——简单修改v3-calendar中的内容 7 测试页面效果 本篇文章介绍通过了Git Bash创建v3-calendar项目,之后对v3-calendar进行简单…

【AI】计算机视觉是什么

更多内容欢迎参考我之前的文章“大厂AI课系列”。 计算机视觉是什么? 一、定义 计算机视觉,作为人工智能领域的一个重要分支,是指通过计算机和相关设备模拟人类视觉系统的功能,从图像或视频中获取信息、理解内容并作出决策的一…