学习记录——BiSeNet V2

news/2024/5/20 8:22:51 标签: 语义分割

BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation

BiSeNet V2:基于引导聚合的双边网络实时语义分割

  摘要语义分割中,低级细节和高级语义都是必不可少的。然而,为了加快模型推理的速度,目前的方法几乎总是牺牲底层的细节,这导致精度大大降低。我们建议将这些空间细节和范畴语义分开处理,以实现高精度和高效率的实时语义分割。为此,我们提出了一种高效的架构,在速度和精度之间进行了良好的权衡,称为双边分割网络(BiSeNet V2)。该架构包括:(i)一个细节分支,具有宽通道和浅层,用于捕获低级细节并生成高分辨率特征表示;(ii)语义分支,通道窄,层次深,获取高级语义上下文。语义分支是轻量级的,因为它减少了信道容量和快速降采样策略。此外,我们设计了一个引导聚合层来增强相互连接并融合两种类型的特征表示。此外,设计了一种增强训练策略,在不增加推理成本的情况下提高分割性能。广泛的定量和定性评估表明,支持提出的体系结构对一些最先进的实时语义分割方法表现良好。具体来说,对于2,048×1,024输入,我们在cityscape测试集上实现了72.6%的Mean IoU,在一个NVIDIA GeForce GTX 1080 Ti卡上的速度为156 FPS,这比现有方法快得多,但我们实现了更好的分割精度。代码和经过培训的模型将公开提供。

引言

  语义分割是为每个像素分配语义标签的任务。它是计算机视觉中的一个基本问题,有着广泛的应用,包括场景理解(Zhou等人,2019)、自动驾驶(Cordts等人,2016;[c] . Geiger et al ., 2012),人类科学[j] . vol . 14:2004.02147 - v1。2020年4月5日机器交互和视频监控,仅举几例。近年来,随着卷积神经网络(Krizhevsky et al ., 2012)的发展,一系列语义分割方法(Zhao et al ., 2017;Chen et al ., 2017;Yu et al ., 2018b;Chen et al ., 2018;Zhang et al ., 2018a)基于全卷积网络(FCN) (Long et al ., 2015)不断提升了最先进的性能。

  这些方法的高精度依赖于它们的骨干网络。骨干网主要有两种架构:(i)扩展骨干网,去除下采样操作,并对相应的滤波核进行上采样,以保持高分辨率的特征表示(Chen et al ., 2015, 2018;赵等,2017,2018b;Fu et al ., 2019;Yu et al, 2020),如图2 (a)所示。(ii)编码器-解码器主干,采用自顶向下和跳过连接,以恢复解码器部分的高分辨率特征表示(Lin et al, 2017;Peng et al ., 2017;Yu等人,2018b),如图2 (b)所示。然而,这两种架构都是为一般的语义分割任务而设计的,不太关心推理速度和计算成本。在扩展主干中,扩展卷积耗时长,去除下采样操作带来了巨大的计算复杂度和内存占用。编码器-解码器架构中的许多连接对内存访问成本不太友好(Ma et al, 2018)。然而,实时语义分割应用对高效的推理速度提出了要求。
  面对这一需求,基于骨干网、现有方法(Badrinarayanan et al ., 2017;Paszke et al, 2016;赵等,2018a;Romera等人,2018;Mazzini, 2018)主要采用两种方法来加速模型:(i)输入限制。在相同的网络架构下,输入分辨率越小,计算成本越低。为了实现实时推理速度,许多算法(Zhao et al ., 2018a;Romera等人,2018;马志尼、2018;Romera et al, 2018)试图限制输入大小以降低整个计算复杂度;(2)通道修剪。它是一种直接的加速方法,特别是在早期阶段修剪通道以提高推理速度(Badrinarayanan et al ., 2017;Paszke et al, 2016;Chollet, 2017)。虽然这两种方式都能在一定程度上提高推理速度,但它们都牺牲了低级细节和空间容量,导致精度急剧下降。因此,为了同时实现高效率和高精度,开发一种特定的实时语义分割架构具有挑战性和重要性。
  我们观察到,低级细节和高级语义对于语义层都是至关重要的心理状态的任务。在一般的语义分割任务中,深层网络和广义网络同时对这两种信息进行编码。然而,在实时语义分割任务中,我们可以将空间细节和类别语义分开处理,以实现准确率和推理速度之间的权衡。
  为此,我们提出了一种双路径架构,称为双边分割网络(BiSeNet V2),用于实时语义分割。其中一条通道被设计为用宽通道和浅层捕捉空间细节,称为细节分支。另一种通道窄、层次深的分类语义提取方法称为语义分支(Semantic Branch)。语义分支只需要一个大的接受域来捕获语义上下文,而细节信息可以由细节分支提供。因此,语义分支可以用更少的通道和快速下采样策略来实现轻量级。将两种类型的特征表示进行合并,以构建更强、更全面的特征表示。这种概念设计为实时语义分割提供了高效的架构,如图2 ©所示。

  具体而言,在本研究中,我们设计了一个引导聚合层来有效地合并这两种类型的特征。为了在不增加推理复杂性的情况下进一步提高性能,我们提出了一种带有一系列辅助预测头的增强训练策略,这些辅助预测


http://www.niftyadmin.cn/n/5294318.html

相关文章

基于Freeswitch实现的Volte网视频通知应用

现在运营商的Volte网络已经很好的支持视频通话了,因此在原来的电话语音通知的基础上,可以更进一步实现视频的通知,让用户有更好的体验,本文就从技术角度,基于Freeswitch来实现此类应用(本文假设读者已对Fre…

使用ChatGLM3自定义工具实现大模型查询MySQL数据库

ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。 什么是工具调用 大模型虽然强大,但是由于…

SONiC和ONL所依赖的Debian版本说明

Debian 的最新几个版本 下一代 Debian 正式发行版的代号为 trixie — 测试(testing)版 Debian 12 (bookworm) — 当前的稳定(stable)版 Debian 11 (bullseye) — 当前的旧的稳定(oldstable)版 Debian 10&a…

Vue - 表单输入绑定详解

Vue.js 表单输入绑定详解 在Web开发中,表单是用户与应用程序交互的重要方式之一。Vue.js 提供了强大的表单输入绑定机制,使得在处理用户输入时变得更加简洁和高效。本篇博客将深入探讨 Vue.js 中表单输入绑定的各种用法,包括文本输入、多行文…

MongoDB 根据 _id 获取记录的创建时间并回填记录中

1、单条更新 MongoDB 集合 test1,有字段 _id,createTime,createTimeStr,name字段 , 查询createTime不为空的,根据 _id 生成该条记录的创建时间时间戳并填写到字段 createTime 字段中 ,并打印时间戳…

java使用JSON工具解析字符串、数组详解

一:问题 1.最近自己在前后端数据交互时需要进行JSON格式字符串、数组数据进行转换,进行问题整理 2.遇到需要JSON字符串转换的朋友可以阅读 二:解析步骤 1.第一点首先确定需求,明确需要转的字符串是一个对象还是一个数组&#…

大数据学习(30)-Spark Shuffle

&&大数据学习&& 🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一下博主哦&#x1f91…

超维空间S2无人机使用说明书——53、进阶版——添加滤波后使用PID算法进行基于yolo的目标跟踪

引言:为了提高识别效果,采用递推均值滤波的算法对图像返回的识别准确度和位置信息进行处理,在实际应用过程中有着不错的表现。本小节内容是在52小节的基础上进行优化,可以先参考52小节,在此基础上再参考此处代码即可。…