CV计算机视觉每日开源代码Paper with code速览-2023.10.20

 精华置顶

墙裂推荐!小白如何1个月系统学习CV核心知识:链接

点击@CV计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【目标检测】Click on Mask: A Labor-efficient Annotation Framework with Level Set for Infrared Small Target Detection

  • 论文地址:https://arxiv.org//pdf/2310.12562

  • 开源代码:https://github.com/Li-Haoqing/COM

2.【图像分割】Not Just Learning from Others but Relying on Yourself: A New Perspective on Few-Shot Segmentation in Remote Sensing

  • 论文地址:https://arxiv.org//pdf/2310.12452

  • 开源代码(即将开源):https://github.com/HanboBizl/DMNet/

3.【语义分割】Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers

  • 论文地址:https://arxiv.org//pdf/2310.12755

  • 开源代码(即将开源):https://github.com/ydhongHIT/PlainSeg

4.【OCR】DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond

  • 论文地址:https://arxiv.org//pdf/2310.12430

  • 开源代码:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/Applications/DocXChain

5.【点云分割】2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

  • 论文地址:https://arxiv.org//pdf/2310.12817

  • 工程主页:MIT

  • 开源代码:https://github.com/jimmy15923/mit

6.【医学图像分割】DA-TransUNet: Integrating Spatial and Channel Dual Attention with Transformer U-Net for Medical Image Segmentation

  • 论文地址:https://arxiv.org//pdf/2310.12570

  • 开源代码:https://github.com/SUN-1024/DA-TransUnet

7.【多模态】Frozen Transformers in Language Models Are Effective Visual Encoder Layers

  • 论文地址:https://arxiv.org//pdf/2310.12973

  • 开源代码:https://github.com/ziqipang/LM4VisualEncoding

8.【多模态】CLAIR: Evaluating Image Captions with Large Language Models

  • 论文地址:https://arxiv.org//pdf/2310.12971

  • 工程主页:CLAIR: Evaluating Image Captions with Large Language Models

  • 开源代码:https://github.com/davidmchan/clair

9.【人体运动生成】HumanTOMATO: Text-aligned Whole-body Motion Generation

  • 论文地址:https://arxiv.org//pdf/2310.12978

  • 工程主页:HumanTOMATO: Text-aligned Whole-body Motion Generation

  • 开源代码(即将开源):https://github.com/IDEA-Research/HumanTOMATO

10.【人体运动生成】TapMo: Shape-aware Motion Generation of Skeleton-free Characters

  • 论文地址:https://arxiv.org//pdf/2310.12678

  • 工程主页:TapMo

  • 代码即将开源

11.【三维重建】Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping

  • 论文地址:https://arxiv.org//pdf/2310.12474

  • 开源代码:https://github.com/fudan-zvg/PGC-3D

12.【运动预测】Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding

  • 论文地址:https://arxiv.org//pdf/2310.12970

  • 开源代码(即将开源):https://github.com/zhejz/HPTR

论文已打包,点击进入—>下载界面

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.10.19

CV计算机视觉每日开源代码Paper with code速览-2023.10.18

CV计算机视觉每日开源代码Paper with code速览-2023.10.17

CV计算机视觉每日开源代码Paper with code速览-2023.10.16

使用目标之间的先验关系提升目标检测器性能

港科大提出适用于夜间场景语义分割的无监督域自适应新方法

HSN:微调预训练ViT用于目标检测语义分割,华南理工和阿里巴巴联合提出

EViT:借鉴鹰眼视觉结构,南开大学等提出ViT新骨干架构,在多个任务上涨点

如何优雅地读取网络的中间特征?

 


http://www.niftyadmin.cn/n/5109551.html

相关文章

【USRP】软件无线电基础篇:短波通信

短波通信 短波(Shortwave)通信以下是短波通信的一些关键特点:应用不同短波技术 技术天线设计与选择现代集成与技术现代 短波通信 技术 国际上著名的短波通信系统广播军事用途 短波(Shortwave)通信 是指使用短波频段进…

安装.net framework报错“...扩展属性不一致”

Windows操作系统中安装.net framework4.8,双击安装文件直接报错“…扩展属性不一致”,最初以为是操作系统补丁没有装全或者是没有管理员权限造成的,但是打了几个补丁,同时以管理员身份运行安装文件后,依然报同样的错误…

android FileOutputStream 写入文件,但是文件大小为空

最近做录音 pcm文件转 mp3,再分段重复录制功能时,刚停止又重新开始录制;发现写入的文件运行都正常,最终的.mp3文件没有; 排查发现: Logger.i(TAG, "run() FileOutputStream之前; file.ex…

一种基于HTTPS实现的Web账号登录Linux桌面系统的实现方案

问题由来 客户需求计划列入支持第三方帐号系统,包括Web账号。需求来源是用户想要用它们的帐号直接登录Linux Deepin操作系统。一个失败的实现方案是用户以较小的成本改造帐号管理系统发布HTTP服务,我们开发一个PAM模块与Web服务器交互,数据格…

面试算法33:变位词组

题目 给定一组单词,请将它们按照变位词分组。例如,输入一组单词[“eat”,“tea”,“tan”,“ate”,“nat”,“bat”],这组单词可以分成3组,分别是[“eat”,“…

好的代码就像写给接手者的一封情书

我们经常将编程浪漫化,将其视为一种抽象的艺术形式、科学,甚至是一种魔法。然而,事实却更加务实和接地气。代码,从本质上来说,是一种沟通。 好的代码,就像一封情书 一封情书是私密的、真诚的和体贴的。它是…

【FPGA零基础学习之旅#16】嵌入式块RAM-双口ram的使用

🎉欢迎来到FPGA专栏~双口ram的使用 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒🍹 ✨博客主页:小夏与酒的博客 🎈该系列文章专栏:FPGA学习之旅 文章作者技术和水平有限,如果文中出现错误,希望大家能指正…

C#面对对象(英雄联盟人物管理系统)增加,查询,删除

目录 英雄信息类 因为要在两个窗体里面调用字典,所以要写一个字典的静态变量 添加功能 查询功能 删除功能 英雄信息类 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; namespace Windo…