【AI视野·今日CV 计算机视觉论文速览 291期】Wed, 17 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 17 Jan 2024
Totally 182 papers
👉上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

Authors Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan
人类拥有在积极探索 3D 世界并与之互动的同时增加多种多感官线索的能力。然而，当前的多模态大语言模型被动地吸收感官数据作为输入，缺乏与3D环境中的对象主动交互并动态收集其多感官信息的能力。为了引领这一领域的研究，我们提出了MultiPLY，一种多感官体现的大语言模型，可以将包括视觉、音频、触觉和热信息在内的多感官交互数据纳入大语言模型中，从而建立单词、动作、语言之间的相关性。和感知。为此，我们首先通过部署 LLM 支持的实体代理来与 3D 环境进行交互来收集 Multisensory Universe，这是一个包含 50 万数据的大规模多感官交互数据集。为了使用预先训练的 LLM 对此类生成的数据执行指令调整，我们首先将 3D 场景编码为以对象为中心的抽象表示，然后引入表示具体代理在环境中采取某些操作的动作标记，以及表示多感官的状态标记状态代理在每个时间步的观察结果。在推理时间内，MultiPLY 可以生成动作令牌，指示智能体在环境中采取动作并获得下一个多感官状态观察。然后，观察结果通过状态标记附加回 LLM，以生成后续文本或操作标记。

RoHM: Robust Human Motion Reconstruction via Diffusion

Authors Siwei Zhang, Bharat Lal Bhatnagar, Yuanlu Xu, Alexander Winkler, Petr Kadlecek, Siyu Tang, Federica Bogo
我们提出了 RoHM，一种在存在噪声和遮挡的情况下从单眼 RGB D 视频进行鲁棒 3D 人体运动重建的方法。以前的大多数方法要么训练神经网络直接回归 3D 运动，要么学习数据驱动的运动先验，并在测试时将它们与优化相结合。前者不能恢复全局相干运动，并且在遮挡下会失败，后者非常耗时，容易出现局部极小值，并且需要手动调整。为了克服这些缺点，我们利用扩散模型的迭代、去噪特性。 RoHM 是一种新颖的基于扩散的运动模型，以噪声和遮挡的输入数据为条件，在一致的全局坐标中重建完整、合理的运动。考虑到问题的复杂性，需要解决不同的任务去噪和填充不同的解决方案空间局部和全局运动，我们将其分解为两个子任务并学习两个模型，一个用于全局轨迹，一个用于局部运动。为了捕捉两者之间的相关性，我们引入了一种新颖的调节模块，并将其与迭代推理方案相结合。我们将 RoHM 应用于从运动重建和去噪到空间和时间填充的各种任务。对三个流行数据集的广泛实验表明，我们的方法在定性和定量上都优于最先进的方法，同时在测试时速度更快。

Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation

Authors Mathis Petrovich, Or Litany, Umar Iqbal, Michael J. Black, G l Varol, Xue Bin Peng, Davis Rempe
生成建模的最新进展在从文本合成 3D 人体运动方面取得了有希望的进展，其方法可以根据短提示和指定的持续时间生成角色动画。然而，使用单个文本提示作为输入缺乏动画师所需的细粒度控制，例如组合多个动作和定义运动部分的精确持续时间。为了解决这个问题，我们引入了文本驱动运动合成的时间线控制的新问题，它为用户提供了直观但细粒度的输入界面。用户可以指定以可能重叠的时间间隔组织的多个提示的多轨时间线，而不是单个提示。这样可以指定每个动作的确切时间，并按顺序或以重叠的间隔组成多个动作。为了从多轨道时间线生成复合动画，我们提出了一种新的测试时间去噪方法。该方法可以与任何预先训练的运动扩散模型集成，以合成准确反映时间线的真实运动。在去噪的每个步骤中，我们的方法单独处理每个时间线间隔文本提示，随后考虑参与每个动作的特定身体部位来聚合预测。实验比较和消融验证了我们的方法可以产生尊重给定文本提示的语义和时间的真实动作。

Scalable Pre-training of Large Autoregressive Image Models

Authors Alaaeldin El Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin
本文介绍了 AIM，这是一组经过自回归目标预训练的视觉模型。这些模型受到其文本对应模型（即大型语言模型 LLM）的启发，并表现出类似的扩展特性。具体来说，我们强调两个关键发现：1 视觉特征的性能与模型容量和数据量相关；2 目标函数的值与模型在下游任务上的性能相关。我们通过在 20 亿张图像上预训练 70 亿个参数的 AIM 来说明这些发现的实际意义，该 AIM 在具有冻结主干的 ImageNet 1k 上达到 84.0。有趣的是，即使在这个规模上，我们也没有观察到性能饱和的迹象，这表明 AIM 可能代表了训练大规模视觉模型的新领域。

MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level Image-Concept Alignment

Authors Yequan Bie, Luyang Luo, Hao Chen
黑盒深度学习方法在医学图像分析领域展示了巨大的潜力。然而，医疗领域固有的严格可信度要求促进了对可解释人工智能 XAI 的利用的研究，特别关注基于概念的方法。现有的基于概念的方法主要从单一角度（例如全局水平）应用概念注释，忽略了医学图像中嵌入的子区域和概念之间微妙的语义关系。这导致有价值的医疗信息的利用不足，并可能导致模型在采用概念瓶颈等固有可解释架构时无法和谐地平衡可解释性和性能。为了减轻这些缺点，我们提出了一种多模式可解释的疾病诊断框架，该框架在多个层次上在语义上精心对齐医学图像和临床相关概念，包括图像级别、标记级别和概念级别。此外，我们的方法允许模型干预，并根据人类可解释的概念提供文本和视觉解释。

Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine Strategy

Authors Zihao Yu, Fengbin Guan, Yiting Lu, Xin Li, Zhibo Chen
非参考视频质量评估的目的是在不访问参考高清参考的情况下评估失真视频的质量。在本研究中，我们引入了一个增强的空间感知模块，在多个图像质量评估数据集上进行了预训练，以及一个轻量级的时间融合模块来解决无参考视觉质量评估 NR VQA 任务。该模型将 Swin Transformer V2 实现为本地级空间特征提取器，并通过一系列转换器层融合这些多级表示。此外，时间转换器用于跨视频的时空特征融合。为了适应不同比特率的压缩视频，我们采用了从粗到细的对比策略，以丰富模型区分不同比特率视频特征的能力。

PPSURF: Combining Patches and Point Convolutions for Detailed Surface Reconstruction

Authors Philipp Erler, Lizeth Fuentes, Pedro Hermosilla, Paul Guerrero, Renato Pajarola Michael Wimmer
从点云进行 3D 表面重建是内容创作、考古学、数字文化遗产和工程等领域的关键一步。当前的方法要么尝试优化非数据驱动的表面表示以适应点，要么先学习数据驱动的常见表面的分布以及它们如何与潜在的噪声点云相关。数据驱动方法能够对噪声进行鲁棒处理，并且通常关注全局或局部先验，这在全局端的噪声鲁棒性和本地端的表面细节保留之间进行权衡。我们提出 PPSurf 作为一种结合了基于点卷积的全局先验和基于处理局部点云补丁的局部先验的方法。

Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis

Authors Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao
一次性 3D 说话肖像生成旨在从看不见的图像中重建 3D 头像，然后使用参考视频或音频对其进行动画处理，以生成说话肖像视频。现有方法无法同时实现精确的3D头像重建和稳定的说话人脸动画的目标。此外，虽然现有的作品主要集中在合成头部，但生成自然的躯干和背景片段对于获得逼真的说话肖像视频也至关重要。为了解决这些限制，我们提出了 Real3D Potrait，这是一个框架，该框架 1 通过大型图像到平面模型提高了单次 3D 重建能力，该模型从 3D 面部生成模型中提取 3D 先验知识 2 通过高效的运动适配器促进精确的运动条件动画3 使用头部躯干背景超分辨率模型合成具有自然躯干运动和可切换背景的逼真视频，4 通过可概括的音频到运动模型支持单次音频驱动的说话脸部生成。

TUMTraf Event: Calibration and Fusion Resulting in a Dataset for Roadside Event-Based and RGB Cameras

Authors Christian Cre , Walter Zimmer, Nils Purschke, Bach Ngoc Doan, Venkatnarayanan Lakshminarasimhan, Leah Strand, Alois C. Knoll
基于事件的摄像机注定适用于智能交通系统 ITS。它们提供非常高的时间分辨率和动态范围，可以消除运动模糊并使物体在夜间更容易识别。然而，与传统 RGB 相机的图像相比，基于事件的图像缺乏颜色和纹理。考虑到这一点，基于事件的相机和传统相机之间的数据融合可以结合两种模式的优势。为此，需要进行外部校准。据我们所知，基于事件的相机和 RGB 相机之间不存在能够处理多个移动物体的无目标校准，也不存在针对路边 ITS 领域优化的数据融合，也不存在 ITS 领域中的同步的基于事件和 RGB 相机数据集。为了填补这些研究空白，基于我们之前的工作，我们用聚类方法扩展了无目标校准方法来处理多个移动物体。此外，我们还开发了一种早期融合、简单的后期融合和一种新颖的时空后期融合方法。最后，我们发布了 TUMTraf 事件数据集，其中包含超过 4k 个基于同步事件的 RGB 图像，以及 21.9k 个标记的 2D 框。在我们广泛的实验中，我们验证了我们的校准方法对多个移动物体的有效性。此外，与单个 RGB 相机相比，我们通过提出的基于事件的传感器融合方法，将白天的检测性能提高了高达 16 mAP，在充满挑战的夜晚将检测性能提高了高达 12 mAP。

Instilling Multi-round Thinking to Text-guided Image Generation

Authors Lidong Zeng, Zhedong Zheng, Yinwei Wei, Tat seng Chua
在本文中，我们研究了文本引导图像生成任务。我们的重点在于根据用户文本反馈修改参考图像，以使其具有特定的所需属性。尽管最近在这一领域取得了长足的进步，但一个持续的挑战仍然存在，即单轮优化经常忽略关键细节，特别是在鞋子或袖子等细粒度变化领域。这种错位积累显着阻碍了交互过程中的多轮定制。为了应对这一挑战，我们在现有框架中引入了一种新的自监督正则化，即多轮正则化。它建立在修改顺序不会影响最终结果的观察之上。顾名思义，多轮正则化鼓励模型在不同修改顺序之间保持一致性。具体来说，我们提出的方法解决了以下问题：与传统的一轮学习相反，最初未能捕获细粒度细节会导致多轮后出现巨大差异。定性和定量实验都表明，所提出的方法在文本引导生成任务上实现了高保真度生成质量，特别是局部修改。

U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts

Authors Silvia Zottin, Axel De Nardin, Emanuela Colombi, Claudio Piciarelli, Filippo Pavan, Gian Luca Foresti
文档布局分析是识别文档页面内不同语义区域的任务，是计算机科学家和人文学者都非常感兴趣的课题，因为它代表了前者进一步分析任务的基本步骤，也是计算机科学家和人文学者进一步分析任务的一个强大工具。改进和促进后者文件的研究。然而，目前文献中的许多工作，特别是在涉及可用数据集时，无法满足两个世界的需求，特别是倾向于倾向于计算机科学方面的需求和共同实践，导致不代表人文学科实际需求的资源。为此，本文介绍了 U DIADS Bib，这是一种新颖的、像素精确的、非重叠且无噪声的文档布局分析数据集，是计算机视觉和人文领域专家密切合作开发的。此外，我们提出了一种新颖的计算机辅助分割流程，以减轻手动注释耗时的过程所带来的负担，这是生成地面实况分割图所必需的。最后，我们提出了数据集 U DIADS BibFS 的标准化少样本版本，目的是鼓励开发能够用尽可能少的样本来解决此任务的模型和解决方案，这将允许在现实世界中更有效地使用

Improving Limited Supervised Foot Ulcer Segmentation Using Cross-Domain Augmentation

Authors Shang Jui Kuo, Po Han Huang, Chia Ching Lin, Jeng Lin Li, Ming Ching Chang
糖尿病足溃疡会带来健康风险，包括较高的发病率、死亡率和截肢率。监测伤口区域对于正确护理至关重要，但由于复杂的伤口特征和背景变化，手动分割是主观的。专家注释成本高昂且耗时，因此阻碍了大型数据集的创建。依赖于广泛注释的现有分割模型在注释数据有限的现实场景中是不切实际的。在本文中，我们提出了一种名为 TransMix 的跨域增强方法，该方法结合了增强全局预训练 AGP 和局部 CutMix 微调 LCF 来丰富模型学习的伤口分割数据。 TransMix 可以利用非溃疡皮肤或伤口上的其他皮肤病学数据集，有效改进足部溃疡分割模型训练。 AGP 有效地增加了整体图像的变异性，而 LCF 则增加了伤口区域的多样性。

Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence Mining

Authors Jiahao Nie, Yun Xing, Gongjie Zhang, Pei Yan, Aoran Xiao, Yap Peng Tan, Alex C. Kot, Shijian Lu
跨域少镜头分割 CD FSS 提出了仅使用有限的示例从不同域中分割新类别的挑战。在本文中，我们对 CD FSS 进行了全面的研究，并揭示了两个重要的见解：一是微调阶段的必要性，以有效地将学到的元知识跨领域迁移；二是由于稀缺性而导致的简单微调过程中的过度拟合风险。新颖的类别示例。有了这些见解，我们提出了一种新颖的跨域微调策略，可以解决具有挑战性的 CD FSS 任务。我们首先设计了双向少样本预测 BFP，它以双向方式建立支持查询对应关系，精心设计增强监督以降低过度拟合风险。然后，我们进一步将 BFP 扩展为 Iterative Few shot Adapter IFA ，这是一个递归框架，用于迭代捕获支持查询对应关系，目标是最大限度地利用稀疏新类别样本中的监督信号。广泛的实证评估表明，我们的方法显着优于最先进的方法 7.8，这验证了 IFA 解决了跨域挑战并同时减轻了过度拟合。

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding

Authors Yun Liu, Haolin Yang, Xu Si, Ling Liu, Zipeng Li, Yuxiang Zhang, Yebin Liu, Li Yi
人类在日常生活中通常会处理多个物体，并且可以通过理解物体的功能规律直观地将操作技能转移到新的物体上。然而，现有的分析和合成手部物体操纵的技术方法由于缺乏数据支持，大多局限于处理单手和物体。为了解决这个问题，我们构建了 TACO，一个广泛的双手对象交互数据集，涵盖了人类日常活动的各种工具动作对象组合。 TACO 包含 2.5K 个运动序列，搭配第三人称和自我中心视图、精确的手部对象 3D 网格和动作标签。为了快速扩大数据规模，我们提出了一种将多视图传感与光学运动捕捉系统相结合的全自动数据采集管道。利用 TACO 提供的广阔研究领域，我们对三个可泛化手部对象交互任务进行了基准测试：组合动作识别、可泛化手部对象运动预测和协作抓取合成。大量的实验揭示了推进可推广的手部物体运动分析和合成研究的新见解、挑战和机遇。

Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine

Authors Qiao Jin, Fangyuan Chen, Yiliang Zhou, Ziyang Xu, Justin M. Cheung, Robert Chen, Ronald M. Summers, Justin F. Rousseau, Peiyun Ni, Marc J Landsman, Sally L. Baxter, Subhi J. Al Aref, Yijia Li, Michael F. Chiang, Yifan Peng, Zhiyong Lu
最近的研究表明，使用 Vision GPT 4V 进行预训练的 Transformer 4 在医疗挑战任务中的表现优于人类医生。然而，这些评估主要集中于多项选择题的准确性。我们的研究通过对 GPT 4V 图像理解、医学知识回忆以及在解决新英格兰医学杂志 NEJM 图像挑战（旨在测试知识和知识的成像测验）时逐步进行多模态推理的基本原理进行全面分析，扩展了当前的范围。医疗专业人员的诊断能力。评估结果证实，GPT 4V 在多项选择准确率方面优于人类医生，分别为 88.0 和 77.0，p 0.034。 GPT 4V 在医生回答错误的情况下也表现良好，准确率超过 80。然而，我们发现 GPT 4V 在做出正确的最终选择 27.3 的情况下经常呈现出有缺陷的基本原理，这在图像理解中最为突出 21.6 。

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models

Authors Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang
由于大型语言模型法学硕士的能力，人工智能代理领域正在以前所未有的速度发展。然而，LLM驱动的视觉智能体主要专注于解决图像模态的任务，这限制了它们理解现实世界动态本质的能力，使其与现实生活中的应用（例如指导学生进行实验室实验并识别他们的错误）相距甚远。。考虑到视频模态更好地反映了现实世界场景不断变化和感知密集的本质，我们设计了 DoraemonGPT，这是一个由法学硕士驱动的全面且概念优雅的系统，用于处理动态视频任务。给定一个带有问题任务的视频，DoraemonGPT 首先将具有大量内容的输入视频转换为存储 textit 任务相关属性的符号内存。这种结构化表示允许通过子任务工具进行时空查询和推理，从而产生简洁且相关的中间结果。认识到法学硕士在专业领域（例如分析实验背后的科学原理）方面的内部知识有限，我们采用即插即用工具来评估外部知识并解决不同领域的任务。此外，我们引入了一种基于蒙特卡罗树搜索的新型 LLM 驱动规划器，以有效地探索用于调度各种工具的大型规划空间。规划器通过反向传播结果的奖励来迭代地找到可行的解决方案，并且多个解决方案可以总结为改进的最终答案。

SAMF: Small-Area-Aware Multi-focus Image Fusion for Object Detection

Authors Xilai Li, Xiaosong Li, Haishu Tan, Jinyang Li
现有的多焦点图像融合MFIF方法通常无法保留不确定的过渡区域并准确检测大散焦区域内的小焦点区域。为了解决这个问题，本研究提出了一种新的小区域感知 MFIF 算法来增强目标检测能力。首先，我们增强小焦点和边界区域内的像素属性，随后将其与视觉显着性检测相结合，以获得用于区分焦点像素分布的预融合结果。为了准确地确保像素聚焦，我们将源图像视为聚焦、散焦和不确定区域的组合，并提出了三区域分割策略。最后，我们设计有效的像素选择规则来生成分割决策图并获得最终的融合结果。实验表明，该方法能够准确检测小且平滑的聚焦区域，同时提高目标检测性能，在主观和客观评估方面均优于现有方法。

Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF)

Authors Fei Guo, YiKang Wang, Han Qi, WenPing Jin, Li Zhu
近年来，很少有镜头动作识别引起越来越多的关注。它一般采用元学习的范式。在这一领域，基于有限的样本，克服类和异常值的重叠分布仍然是一个具有挑战性的问题。我们相信多模态和多视图的结合可以通过信息互补来改善这个问题。因此，我们提出了一种基于多模态融合的多视图蒸馏方法。首先，构造查询的概率提示选择器，以基于支持的提示嵌入与查询的视觉嵌入之间的比较分数来生成概率提示嵌入。其次，我们建立了多视图。在每个视图中，我们将提示嵌入作为与视觉和全局或局部时间上下文一致的信息融合，以克服类和异常值的重叠分布。第三，我们对多视图进行距离融合，并相互升华匹配能力，使模型对分布偏差更加鲁棒。

Generative Denoise Distillation: Simple Stochastic Noises Induce Efficient Knowledge Transfer for Dense Prediction

Authors Zhaoge Liu, Xiaohao Xu, Yunkang Cao, Weiming Shen
知识蒸馏就是将知识从更强大的大模范老师转移到更简单的对口学生的过程。当前的许多方法都涉及学生直接模仿老师的知识。然而，通过这些流行的方法学习到的表示仍然存在冗余，这些方法往往不加区别地学习每个空间位置的特征。为了从教师那里获得更紧凑的表示概念特征，受人类认知的启发，我们提出了一种创新方法，称为生成去噪蒸馏 GDD，其中随机噪声被添加到学生的概念特征中，以将它们嵌入到生成的实例特征中浅层网络。然后，生成的实例特征与教师提供的实例知识相匹配。我们对对象检测、实例分割和语义分割进行了广泛的实验，以证明我们方法的多功能性和有效性。值得注意的是，GDD 在上述任务中实现了最先进的性能。我们通过增强 PspNet 和 DeepLabV3 在语义分割方面取得了实质性的改进，这两个模型都基于 ResNet 18，其 mIoU 分数分别为 74.67 和 77.69，超过了它们之前在 20 个类别的 Cityscapes 数据集上的分数 69.85 和 73.20。

Un-Mixing Test-Time Normalization Statistics: Combatting Label Temporal Correlation

Authors Devavrat Tomar, Guillaume Vray, Jean Philippe Thiran, Behzad Bozorgtabar
在测试时间适应方法越来越依赖于批量归一化 BN 参数的细致操作的时代，一个关键假设经常被忽视，即独立同分布的独立同分布。针对未知标签测试批次。这种假设最终会导致 BN 统计数据的估计出现偏差，并危及非独立同分布下的系统稳定性。状况。这篇论文开创了对独立同分布的背离。范式通过引入称为 Un Mixing Test Time Normalization Statistics UnMix TNS 的突破性策略。 UnMix TNS 通过将实例与多个未混合的统计组件混合来重新校准用于标准化批次中每个实例的实例统计数据，从而从本质上模拟独立同分布。环境。关键在于我们创新的在线分解程序，该程序通过利用传入测试批次中最接近的实例来持续完善这些统计组件。 UnMix TNS 的设计非常通用，它与一系列最先进的测试时间适应方法和配备 BN 层的预训练架构无缝集成。实证评估证实了 UnMix TNS 在从单一域转换到连续域转换和混合域转换的各种场景下的稳健性。 UnMix TNS 在处理具有时间相关性的测试数据流（包括那些具有损坏的现实世界非独立同分布的数据流）时脱颖而出。即使在最小批量和单个样品的情况下也能维持其功效。

AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception

Authors Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu, Pengfei Chen, Yuzhe Yang, Leida Li, Weisi Lin
在大家的共同努力下，多模态大语言模型MLLM正在蓬勃发展。然而，它们在图像美学感知上的表现仍然不确定，这在现实世界的应用中是非常需要的。一个明显的障碍在于缺乏具体的基准来评估 MLLM 对审美感知的有效性。这种盲目的摸索可能会阻碍更先进的具有审美感知能力的MLLM的进一步发展。为了解决这一困境，我们提出了 AesBench，这是一个专家基准，旨在通过跨双面的精心设计来综合评估 MLLM 的美感能力。 1 我们构建了一个专家标记的美学感知数据库EAPD，该数据库具有多样化的图像内容和由专业美学专家提供的高质量注释。 2 我们提出了一套综合标准，从四个角度衡量 MLLM 的审美感知能力，包括感知 AesP、移情 AesE、评估 AesA 和解释 AesI。大量的实验结果表明，目前的MLLM仅具备初级的审美感知能力，与人类相比仍存在显着差距。我们希望这项工作能够激发社区对 MLLM 的美学潜力进行更深入的探索。

Modeling Spoof Noise by De-spoofing Diffusion and its Application in Face Anti-spoofing

Authors Bin Zhang, Xiangyu Zhu, Xiaoyu Zhang, Zhen Lei
人脸反欺骗对于确保人脸识别系统的安全性和可靠性至关重要。几种现有的面部反欺骗方法利用类似 GAN 的网络，通过估计欺骗图像的噪声模式并恢复相应的真实图像来检测呈现攻击。但GAN有限的人脸外观空间导致去噪后的人脸无法覆盖真实人脸的完整数据分布，从而削弱了此类方法的泛化性能。在这项工作中，我们提出了利用扩散模型对恶搞图像进行去噪并恢复真实图像的开创性尝试。这两个图像之间的差异被认为是欺骗噪声，它可以作为面部反欺骗的判别线索。

Siamese Content-based Search Engine for a More Transparent Skin and Breast Cancer Diagnosis through Histological Imaging

Authors Zahra Tabatabaei, Adri n Colomer, JAvier Oliver Moll, Valery Naranjo
计算机辅助诊断 CAD 使用基于深度学习 DL 的工具开发了数字病理学，以协助病理学家做出决策。基于内容的组织病理学图像检索 CBHIR 是一种新颖的工具，可根据组织病理学特征的相似性寻找高度相关的斑块。在这项工作中，我们提出了两种针对乳房乳房双胞胎和皮肤癌皮肤双胞胎数据集的 CBHIR 方法，以实现稳健且准确的斑块级检索，并将定制的连体网络集成为特征提取器。所提出的 Siamese 网络能够通过关注输入对的相似组织病理学特征来概括未见过的图像。所提出的 CBHIR 方法在乳房公共和皮肤私有数据集上进行评估，具有最高 K 精度。找到 K 的最佳量具有挑战性，而且随着 K 的增加，查询和返回图像之间的差异也会增加，这可能会误导病理学家。据作者所知，本文通过评估最先检索到的图像，首次在组织病理学图像上解决了这个问题。乳房双胞胎模型首先获得了 70 的 F1score，这超过了 K 值更高的其他最先进的方法，例如 5 和 400。皮肤双胞胎比最近提出的卷积自动编码器 CAE 高出 67，从而提高了精确。此外，皮肤双胞胎模型解决了不确定恶性潜能STUMP的Spitzoid肿瘤的挑战，以帮助病理学家检索前K张图像及其相应的标签。

Multi-Technique Sequential Information Consistency For Dynamic Visual Place Recognition In Changing Environments

Authors Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald Maier, Shoaib Ehsan
视觉地点识别 VPR 是机器人导航和定位系统的重要组成部分，使机器人能够仅使用图像数据来识别地点。 VPR 具有挑战性，因为不同的日常光照、季节性天气变化和不同的观点会导致地方外观发生显着变化。目前，没有一种 VPR 技术能够适应所有环境条件，每种技术都具有独特的优点和缺点，因此结合多种技术可以实现更可靠的 VPR 性能。目前的多方法方法要么依赖于通常不可用的在线真实信息，要么依赖于强力技术组合，可能会降低高方差技术集的性能。针对这些缺点，我们提出了一种称为多序列信息一致性 MuSIC 的 VPR 系统，它利用序列信息在每帧在线的基础上选择最具凝聚力的技术。对于集合中的每种技术，MuSIC 通过分析其最佳匹配候选者的帧到帧连续性来计算其各自的顺序一致性，然后直接比较这些技术以选择当前查询图像的最佳技术。

Multitask Learning in Minimally Invasive Surgical Vision: A Review

Authors Oluwatosin Alabi, Tom Vercauteren, Miaojing Shi
微创手术 MIS 彻底改变了许多手术方法，缩短了患者的康复时间并降低了患者受伤的风险。然而，MIS 给手术团队带来了额外的复杂性和负担。数据驱动的手术视觉算法被认为是开发未来具有更高自主性的 MIS 系统的关键构建模块。机器学习和计算机视觉的最新进展已成功应用于分析从 MIS 获得的视频，有望缓解 MIS 视频中的挑战。手术场景和动作理解包含多个相关任务，当单独解决这些任务时，这些任务可能会占用大量内存、效率低下，并且无法捕获任务关系。多任务学习 MTL 是一种利用多个相关任务的信息来提高性能并帮助泛化的学习范式，非常适合对 MIS 数据进行细粒度和高水平的理解。这篇评论概述了利用从 MIS 获得的视频的当前最先进的 MTL 系统。除了列出已发布的方法之外，我们还讨论了这些 MTL 系统的优点和局限性。

Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video Localization

Authors Chongzhi Zhang, Mingyuan Zhang, Zhiyang Teng, Jiayi Li, Xizhou Zhu, Lewei Lu, Ziwei Liu, Aixin Sun
自然语言视频本地化 NLVL，即从自然语言描述到相应视频片段的基础短语，是视频理解中一项复杂但关键的任务。尽管不断取得进步，但许多现有解决方案缺乏全局捕获视频数据的时间动态的能力。在这项研究中，我们提出了一种新的 NLVL 方法，旨在解决这个问题。我们的方法涉及基于输入视频和语言查询，通过条件去噪扩散过程直接生成全局 2D 时间图。主要挑战是设计扩散解码器时二维时间图固有的稀疏性和不连续性。为了应对这些挑战，我们引入了多尺度技术并开发了一种创新的扩散解码器。我们的方法有效地封装了不同时间尺度的查询和视频数据之间的交互。

Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication

Authors Hanjia Lyu, Weihong Qi, Zhongyu Wei, Jiebo Luo
利用大型多模态模型 LMM 来模拟处理多模态信息时的人类行为，尤其是在社交媒体背景下，由于其广泛的潜力和深远的影响而引起了人们的极大兴趣。表情符号作为数字通信最独特的方面之一，对于丰富并常常澄清情感和语气维度至关重要。然而，在理解这些先进模型（例如 GPT 4V）如何在微妙的在线交互环境中解释和使用表情符号方面存在显着差距。本研究旨在通过检查 GPT 4V 在复制人类表情符号使用方面的行为来弥补这一差距。

ModelNet-O: A Large-Scale Synthetic Dataset for Occlusion-Aware Point Cloud Classification

Authors Zhongbin Fang, Xia Li, Xiangtai Li, Shen Zhao, Mengyuan Liu
最近，3D 点云分类在许多数据集的帮助下取得了重大进展。然而，这些数据集并不能反映现实世界点云因遮挡而导致的不完整性质，这限制了当前方法的实际应用。为了弥补这一差距，我们提出了 ModelNet O，这是一个包含 123,041 个样本的大规模合成数据集，它模拟现实世界的点云，并通过单目相机扫描引起自遮挡。 ModelNet O 比现有数据集大 10 倍，并提供更具挑战性的案例来评估现有方法的稳健性。我们对 ModelNet O 的观察表明，精心设计的稀疏结构可以在遮挡下保留点云的结构信息，这促使我们提出一种鲁棒的点云处理方法，该方法以多级方式利用关键点采样 CPS 策略。我们将我们的方法称为 PointMLS。通过大量的实验，我们证明了我们的 PointMLS 在 ModelNet O 上取得了最先进的结果，并在常规数据集上取得了有竞争力的结果，并且它是稳健且有效的。

Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary

Authors Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu
单图像超分辨率是一个经典的计算机视觉问题，涉及从低分辨率 LR 图像估计高分辨率 HR 图像。尽管深度神经网络 DNN，特别是用于超分辨率的 Transformer，近年来取得了重大进展，但挑战仍然存在，特别是在基于窗口的自注意力引起的有限感受野方面。为了解决这些问题，我们向 SR Transformer 引入一组辅助的 Adapeive Token Dictionary，并建立了 ATD SR 方法。引入的标记字典可以从训练数据中学习先验信息，并通过自适应细化步骤将学习到的先验信息适应特定的测试图像。细化策略不仅可以为所有输入标记提供全局信息，还可以将图像标记分组为类别。基于类别划分，我们进一步提出了一种基于类别的自注意力机制，旨在利用遥远但相似的标记来增强输入特征。

End-to-End Optimized Image Compression with the Frequency-Oriented Transform

Authors Yuefeng Zhang, Kai Lin
图像压缩是信息爆炸时代的重大挑战。最近采用深度学习方法的研究证明了基于学习的图像压缩方法比传统编解码器具有优越的性能。然而，与这些方法相关的固有挑战在于它们缺乏可解释性。在分析不同频段的不同程度的压缩退化之后，我们提出了由面向频率的变换促进的端到端优化的图像压缩模型。所提出的端到端图像压缩模型由空间采样、频率定向变换、熵估计和频率感知融合四个部分组成。面向频率的变换将原始图像信号分成不同的频带，与人类可解释的概念保持一致。利用非重叠假设，该模型通过选择性传输任意频率分量来实现可扩展编码。进行了大量的实验来证明我们的模型优于所有传统编解码器，包括基于 MS SSIM 指标的下一代标准 H.266 VVC。

DPAFNet:Dual Path Attention Fusion Network for Single Image Deraining

Authors Bingcai Wei
阴雨天气会对成像系统的正常运行产生较大影响。基于这个前提，图像除雨一直是低级视觉任务的一个流行分支，尤其是使用深度神经网络的方法。然而，大多数神经网络都是分支的，例如仅使用卷积神经网络或Transformers，这不利于图像特征的多维融合。为了解决这个问题，本文提出了双分支注意力融合网络。首先，提出了一种两分支网络结构。其次，提出了一个注意力融合模块来选择性地融合两个分支提取的特征，而不是简单地将它们相加。

Key-point Guided Deformable Image Manipulation Using Diffusion Model

Authors Seok Hwan Oh, Guil Jung, Myeong Gee Kim, Sang Yun Kim, Young Min Kim, Hyeon Jik Lee, Hyuk Sool Kwon, Hyeon Min Bae
在本文中，我们介绍了一种关键点引导扩散概率模型 KDM，它通过操纵对象的关键点来获得对图像的精确控制。我们提出了一个两阶段生成模型，其中包含光流图作为中间输出。通过这样做，可以配置对图像和稀疏关键点之间的语义关系的密集像素级理解，从而生成更真实的图像。此外，光流的集成有助于调节序列图像的帧间方差，展示真实的序列图像生成。

Completely Occluded and Dense Object Instance Segmentation Using Box Prompt-Based Segmentation Foundation Models

Authors Zhen Zhou, Junfeng Fan, Yunkai Ma, Sihan Zhao, Fengshui Jing, Min Tan
完全遮挡和密集的对象实例分割是一项重要且具有挑战性的任务。尽管当前的非模态IS方法可以预测被遮挡物体的不可见区域，但它们很难直接预测完全被遮挡的物体。对于密集对象 IS，现有的基于框的方法过度依赖于边界框检测的性能。在本文中，我们提出了 CFNet，一个针对完全遮挡和密集对象的从粗到细的 IS 框架，它基于基于框提示的分割基础模型 BSM。具体来说，CFNet 首先检测定向边界框 OBB 以区分实例并提供粗略的定位信息。然后，它预测 OBB 提示相关的掩模以进行精细分割。为了预测完全遮挡的对象实例，CFNet 对遮挡器执行 IS 并利用先验几何属性，克服了直接预测完全遮挡的对象实例的困难。此外，基于 BSM，CFNet 减少了对边界框检测性能的依赖，提高了密集对象 IS 性能。此外，我们为 BSM 提出了一种新颖的 OBB 提示编码器。为了使CFNet更加轻量级，我们对其进行知识蒸馏，并为教师目标引入高斯平滑方法。

Deep Linear Array Pushbroom Image Restoration: A Degradation Pipeline and Jitter-Aware Restoration Network

Authors Zida Chen, Ziran Zhang, Haoying Li, Menghao Li, Yueting Chen, Qi Li, Huajun Feng, Zhihai Xu, Shiqi Chen
线阵推扫式LAP成像技术广泛应用于遥感领域。然而，由于相机抖动，通过 LAP 获取的图像总是会出现失真和模糊。用于恢复 LAP 图像的传统方法（例如估计点扩散函数 PSF 的算法）表现出有限的性能。为了解决这个问题，我们提出了抖动感知恢复网络 JARNet，以分两个阶段消除失真和模糊。在第一阶段，我们制定光流校正 OFC 块来细化退化 LAP 图像的光流，从而产生预校正图像，其中大部分失真得到缓解。在第二阶段，为了进一步增强预校正图像，我们在空间和频率残余 SFRes 模块中集成了两种抖动感知技术，将坐标注意 CoA 引入到 SFRes 模块中，以便捕获正交方向上的抖动状态 2 操纵图像空间和频率域中的特征可以利用局部和全局先验。此外，我们开发了一个数据合成管道，它应用连续动态拍摄模型 CDSM 来模拟 LAP 图像中的真实退化。所提出的 JARNet 和 LAP 图像合成管道都为解决这一复杂的挑战奠定了基础。大量实验表明，所提出的两阶段方法优于最先进的图像恢复模型。

Learned Image Compression with ROI-Weighted Distortion and Bit Allocation

Authors Wei Jiang, Yongqi Zhai, Hangyu Li, Ronggang Wang
这篇一页纸描述了我们跟踪图像压缩的方法。为了获得更好的感知质量，我们使用对抗性损失来生成逼真的纹理，使用感兴趣区域 ROI 掩模来指导不同区域的位分配。

ProvNeRF: Modeling per Point Provenance in NeRFs as a Stochastic Process

Authors Kiyohiro Nakayama, Mikaela Angelina Uy, Yang You, Ke Li, Leonidas Guibas
神经辐射场 NeRF 在各种应用中广受欢迎。然而，它们在稀疏视图设置中面临挑战，缺乏体渲染的足够约束。从稀疏且不受约束的相机中重建和理解 3D 场景是具有多种应用的经典计算机视觉中长期存在的问题。虽然最近的工作在稀疏、无约束的视图场景中探索了 NeRF，但他们的重点主要集中在增强重建和新颖的视图合成上。我们的方法采取了更广阔的视角，提出了从哪里看到每个点的问题，这决定了我们如何理解和重建它。换句话说，我们的目标是在稀疏、无约束的视图下确定每个 3D 点及其相关信息的起源或出处。我们引入了 ProvNeRF，该模型通过合并每个点的出处、对每个点可能的源位置进行建模来丰富传统的 NeRF 表示。我们通过扩展随机过程的隐式最大似然估计 IMLE 来实现这一点。值得注意的是，我们的方法与任何预先训练的 NeRF 模型和相关的训练相机姿势兼容。

The Devil is in the Details: Boosting Guided Depth Super-Resolution via Rethinking Cross-Modal Alignment and Aggregation

Authors Xinni Jiang, Zengsheng Kuang, Chunle Guo, Ruixun Zhang, Lei Cai, Xiao Fan, Chongyi Li
引导深度超分辨率 GDSR 涉及使用同一场景的高分辨率 RGB 图像来恢复丢失的深度细节。以前的方法一直在努力解决多模态输入的异质性和互补性，并忽略了模态错位、几何错位和特征选择的问题。在这项研究中，我们重新思考了 GDSR 网络中的一些重要组成部分，并提出了一种简单而有效的动态双重对齐和聚合网络 D2A2。 D2A2 主要由 1 个动态双对齐模块组成，该模块通过可学习的域对齐块来缓解模态未对齐，并通过学习偏移量来几何对齐跨模态特征；2 个使用门控机制和像素注意力的掩模到像素特征聚合模块从 RGB 特征中过滤掉不相关的纹理噪声，并将有用的特征与深度特征结合起来。通过结合 RGB 和深度特征的优势，同时最大限度地减少 RGB 图像引入的干扰，我们的方法通过简单地重用和重新设计基本组件，在多个基准数据集上实现了最先进的性能。

E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning

Authors Qiang Qu, Yiran Shen, Xiaoming Chen, Yuk Ying Chung, Tongliang Liu
受生物启发的事件相机或动态视觉传感器能够以高时间分辨率和高动态范围异步捕获每个像素的亮度变化，称为事件流。然而，非结构性时空事件流使得为人类视觉提供具有丰富语义信息的直观可视化变得具有挑战性。它需要事件到视频 E2V 解决方案，该解决方案将事件流作为输入并生成高质量的视频帧以实现直观的可视化。然而，当前的解决方案主要是数据驱动的，没有考虑与事件流和视频帧相关的底层统计数据的先验知识。它高度依赖深度神经网络的非线性和泛化能力，因此，当场景复杂时，很难重建详细的纹理。在这项工作中，我们提出了 textbf E2HQV，一种新颖的 E2V 范例，旨在从事件中生成高质量的视频帧。这种方法利用了模型辅助的深度学习框架，以理论启发的 E2V 模型为基础，该模型是从事件摄像机的基本成像原理中精心推导出来的。为了解决 E2HQV 循环组件中的状态重置问题，我们还设计了时间移位嵌入模块以进一步提高视频帧的质量。

No-Clean-Reference Image Super-Resolution: Application to Electron Microscopy

Authors Mohammad Khateri, Morteza Ghahremani, Alejandra Sierra, Jussi Tohka
无法在较大的脑组织体积上获取清晰的高分辨率 HR 电子显微镜 EM 图像阻碍了许多神经科学研究。为了应对这一挑战，我们提出了一种基于深度学习的图像超分辨率 SR 方法，可以从嘈杂的低分辨率 LR 采集中计算重建具有大视场 FoV 的干净 HR 3D EM。我们的贡LR 和 HR 图像对，即没有受真实损坏污染的干净参考的真实图像对、合成 LR 和采集的 HR 图像对，以及采集的 LR 和降噪 HR 对。对九个大脑数据集的实验表明，使用真实配对进行训练可以产生高质量的超分辨率结果，证明了使用非干净参考对两种损失函数进行训练的可行性。此外，当使用去噪和噪声参考进行训练时，在视觉和数字上都观察到了可比较的结果。此外，事实证明，利用由 HR 对应对象合成生成的 LR 图像训练的网络可以有效地产生令人满意的 SR 结果，即使在某些情况下，其性能也优于使用真实图像对进行的训练。

Mobile Contactless Palmprint Recognition: Use of Multiscale, Multimodel Embeddings

Authors Steven A. Grosz, Akash Godbole, Anil K. Jain
非接触式掌纹由全局和局部判别特征组成。大多数先前的工作都集中于单独提取全局特征或局部特征来进行掌纹匹配，而本研究引入了一种结合全局和局部特征的新颖框架，以提高掌纹匹配的准确性。利用深度学习的最新进展，本研究集成了视觉转换器 ViT 和卷积神经网络 CNN，以提取互补的局部和全局特征。接下来，开发了一种基于移动设备的端到端掌纹识别系统，称为 Palm ID。除了 ViT 和 CNN 功能之外，Palm ID 还集成了掌纹增强模块和高效降维，以实现更快的匹配。 Palm ID 平衡了准确性和延迟之间的权衡，只需 18 毫秒即可提取大小为 516 字节的模板，并且可以在使用 128 个线程的 AMD EPYC 7543 32 核 CPU 上，在 0.33 毫秒内有效地搜索 10,000 个掌纹库。跨数据库匹配协议和对大规模操作数据集的评估证明了所提出方法的稳健性，在新收集的时间分离数据集上实现了 98.06 的 TAR（FAR 0.01）。

Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

Authors Yixuan Li, Peilin Chen, Hanwei Zhu, Keyan Ding, Leida Li, Shiqi Wang
意见无意识盲图像质量评估 OU BIQA 模型旨在预测图像质量，无需对参考图像和主观质量分数进行训练。其中，图像统计比较是经典范例，但其性能受到视觉描述符的表示能力的限制。在最近的研究中，作为视觉描述符的深层特征提高了 IQA，但人们发现它们具有高度纹理偏差且缺乏形状偏差。在此基础上，我们发现图像形状和纹理线索对扭曲的反应不同，并且其中任何一个的缺失都会导致图像表示不完整。因此，为了对图像制定全面的统计描述，我们同时利用深度神经网络 DNN 产生的形状偏差和纹理偏差深度特征。更具体地说，我们设计了一个形状纹理自适应融合 STAF 模块来合并形状和纹理信息，并在此基础上制定与质量相关的图像统计数据。感知质量通过内部和外部形状纹理统计DSTS之间的变体马哈拉诺比斯距离进行量化，其中内部和外部统计分别描述失真图像和自然图像的质量指纹。

Hardware Acceleration for Real-Time Wildfire Detection Onboard Drone Networks

Authors Austin Briley, Fatemeh Afghah
偏远地区和森林地区的早期野火检测对于最大限度地减少破坏和保护生态系统至关重要。自主无人机可以灵活地进入偏远、具有挑战性的地形，配备先进的成像技术，可提供高时间和详细的空间分辨率，使其成为早期发现和监测野火的宝贵资产。然而，无人机有限的计算和电池资源对实现稳健且高效的图像分类模型提出了重大挑战。目前该领域的工作通常是离线运行的，考虑到无人机的限制，强调需要能够实时进行推理的解决方案。为了应对这些挑战，本文旨在开发实时图像分类和火灾分割模型。它对使用 Jetson Nano P3450 的硬件加速以及 NVIDIA 高性能深度学习推理库 TensorRT 对火灾分类准确性和速度的影响进行了全面调查。该研究包括量化感知训练 QAT 、自动混合精度 AMP 和后训练机制的实现，并将它们与火灾分割和分类的最新基线进行比较。所有实验都利用 FLAME 数据集，这是在规定的森林火灾期间由低空无人机收集的图像数据集。这项工作有助于持续努力，为无人机提供实时机载野火检测功能，解决这些关键监测系统的速度、计算和能源限制。结果显示，与未经硬件优化的类似模型相比，分类速度提高了 13 倍。

KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain

Authors Anh Cuong Pham, Van Quang Nguyen, Thi Hong Vuong, Quang Thuy Ha
图像字幕是一项关键任务，其应用范围广泛，包括医疗保健和教育。尽管对英语图像字幕数据集进行了广泛的研究，但此类越南语数据集的可用性仍然有限，现有的数据集只有两个。在本研究中，我们介绍了 KTVIC，这是一个专注于生活领域的综合越南图像字幕数据集，涵盖了广泛的日常活动。该数据集包含 4,327 张图像和 21,635 个越南语字幕，是推进越南语图像字幕的宝贵资源。我们使用各种深度神经网络作为数据集的基线进行实验，并使用标准图像字幕指标（包括 BLEU、METEOR、CIDEr 和 ROUGE）对其进行评估。

Inpainting Normal Maps for Lightstage data

Authors Hancheng Zuo, Bernard Tiddeman
本研究介绍了一种使用生成对抗网络 GAN 修复法线贴图的新方法。法线贴图通常源自光场，对于表演捕捉至关重要，但可能会因手臂、头发或道具等运动而遮挡某些区域。修复用可信的数据填充了这些缺失的区域。我们的方法扩展了以前的通用图像修复技术，采用像领结一样的生成器网络和鉴别器网络，并具有交替的训练阶段。生成器的目的是合成与真实情况一致的图像并欺骗鉴别器，鉴别器区分真实图像和处理后的图像。鉴别器定期接受再训练，以增强其识别处理图像的能力。重要的是，我们的方法适应了法线贴图数据的独特特征，需要对损失函数进行修改。我们使用余弦损失而不是均方误差损失来进行生成器训练。考虑到输入数据的具体性质，即使使用合成数据集，训练数据的可用性也有限，需要大量增强。这包括适当的图像翻转和平面内旋转以准确地改变法向矢量。在整个训练过程中，我们监控了生成器的平均损失、结构相似性指数测量 SSIM 和峰值信噪比 PSNR 等关键指标，以及鉴别器的平均损失和准确性。我们的研究结果表明，所提出的模型可以有效地生成高质量、逼真的修复法线贴图，适合表演捕捉应用。

Spatial-Semantic Collaborative Cropping for User Generated Content

Authors Yukun Su, Yiwen Cao, Jingliang Deng, Fengyun Rao, Qingyao Wu
每天都有大量的用户生成内容UGC上传到互联网上，并通过手机、PC等客户端广泛展示给全世界的人们。这需要裁剪算法在不同设备上以特定的宽高比生成美观的缩略图。然而，现有的图像裁剪工作主要集中在地标或风景图像，未能对UGC中复杂背景的多个对象之间的关系进行建模。此外，以前的方法仅考虑裁剪图像的美观性，而忽略了内容完整性，而内容完整性对于 UGC 裁剪至关重要。在本文中，我们提出了一种空间语义协作裁剪网络 S2CNet，用于任意用户生成的内容，并附带新的裁剪基准。具体来说，我们首先挖掘潜在物体的视觉基因。然后，建议的自适应注意力图将该任务重新定义为视觉节点上的信息关联过程。底层的空间和语义关系最终通过可微分的消息传递集中到候选作物上，这有助于我们的网络有效地保持美观和内容完整性。对所提出的 UGCrop5K 和其他公共数据集进行的广泛实验证明了我们的方法相对于最先进的同行的优越性。

UV-SAM: Adapting Segment Anything Model for Urban Village Identification

Authors Xin Zhang, Yu Liu, Yuming Lin, Qingming Liao, Yong Li
城中村被定义为城市中心及其周边的非正规居住区，其特点是基础设施不足、生活条件差，与可持续发展目标中关于贫困、适足住房和可持续城市的目标密切相关。传统上，政府严重依赖实地调查方法来监测城中村，但这种方法费时、费力，而且可能会造成延误。由于卫星图像广泛可用且及时更新，最近的研究开发了计算机视觉技术来有效地检测城中村。然而，现有研究要么侧重于简单的城中村图像分类，要么无法提供准确的边界信息。为了从卫星图像中准确识别城中村边界，我们利用视觉基础模型的强大功能，将 Segment Anything Model SAM 应用于城中村分割，称为 UV SAM。具体来说，UV SAM 首先利用小型语义分割模型为城中村生成混合提示，包括掩模、边界框和图像表示，然后将其输入 SAM 进行细粒度边界识别。在中国两个数据集上的大量实验结果表明，UV SAM 优于现有基线，并且多年的识别结果表明，城中村的数量和面积都随着时间的推移而减少，为城中村的发展趋势提供了更深入的见解，并提供了启示可持续城市的愿景基础模型。

Adversarial Masking Contrastive Learning for vein recognition

Authors Huafeng Qin, Yiquan Wu, Mounim A. El Yacoubi, Jun Wang, Guangxiang Yang
静脉识别因其较高的安全性和隐私性而受到越来越多的关注。最近，卷积神经网络 CNN 和 Transformers 等深度神经网络被引入静脉识别领域，并取得了最先进的性能。然而，尽管最近取得了进展，但由于训练图像样本稀缺，现有的指静脉特征提取解决方案仍然不是最佳的。为了克服这个问题，在本文中，我们提出了一种对抗性掩蔽对比学习 AMCL 方法，通过交替优化对比学习模型中的编码器和一组潜在变量。首先，生成大量掩码来训练鲁棒的生成对抗网络 GAN。经过训练的生成器将潜在变量从潜在变量空间转换为掩码空间。然后，我们将经过训练的生成器与对比学习模型相结合以获得我们的 AMCL，其中生成器生成具有挑战性的掩蔽图像以增加对比损失，并且对比学习模型基于更难的图像进行训练以学习更鲁棒的特征表示。训练后，对比学习模型中经过训练的编码器与分类层相结合来构建分类器，该分类器在标记的训练数据上进一步微调以进行静脉识别。

Representation Learning on Event Stream via an Elastic Net-incorporated Tensor Network

Authors Beibei Yang, Weiling Li, Yan Fang
事件相机是神经形态传感器，可在每个像素亮度发生变化时捕获异步且稀疏的事件流。用于事件信号的现有技术处理方法通常将事件聚合到帧或网格中。然而，事件在时间上是密集的，由于堆叠，这些工作仅限于事件的局部信息。在本文中，我们提出了一种新颖的时空表示学习方法，该方法可以通过张量分解同时捕获事件流中所有事件的全局相关性。此外，由于事件在空间上稀疏，我们提出了一种结合弹性网络的张量网络ENTN模型，以获得有关事件流的更多空间和时间细节。

Achieve Fairness without Demographics for Dermatological Disease Diagnosis

Authors Ching Hao Chiu, Yu Jen Chen, Yawen Wu, Yiyu Shi, Tsung Yi Ho
在医学图像诊断中，公平性变得越来越重要。如果不减少偏见，部署不公平的人工智能将损害弱势群体的利益，并可能导致社会分裂。最近的研究通过在训练期间利用人口敏感属性信息来解决深度学习模型中有关人口群体（例如性别、年龄和种族）的预测偏差。然而，皮肤病图像中自然存在许多敏感属性。如果训练后的模型仅针对特定属性的公平性，那么对于其他属性来说仍然不公平。此外，由于隐私问题，训练可以容纳多个敏感属性的模型是不切实际的。为了克服这个问题，我们提出了一种方法，可以在测试阶段对敏感属性进行公平预测，而无需在训练期间使用此类信息。受到先前强调特征纠缠对公平性影响的工作的启发，我们通过捕获与敏感属性和目标属性相关的特征并规范相应类之间的特征纠缠来增强模型特征。这保证了模型只能基于与目标属性相关的特征进行分类，而不依赖于与敏感属性相关的特征，从而提高公平性和准确性。此外，我们使用 Segment Anything Model SAM 中的疾病掩模来提高学习特征的质量。

Toward Clinically Trustworthy Deep Learning: Applying Conformal Prediction to Intracranial Hemorrhage Detection

Authors Cooper Gamble, Shahriar Faghani, Bradley J. Erickson
随着深度学习 DL 继续展示其在放射学任务中的能力，我们优化临床 DL 解决方案以确保安全性至关重要。深度学习工具临床采用的主要问题之一是信任。本研究旨在应用保形预测作为放射学中 DL 可信度的一步。这是对 CQ500 数据集中 491 个非对比头部 CT 的回顾性研究，其中三名高级放射科医生对包含颅内出血 ICH 的切片进行了注释。数据集被分为明确的和具有挑战性的子集，其中具有挑战性的图像被定义为读者之间存在分歧的图像。对来自明确数据训练数据集的 146 名患者的 10,815 个切片训练 DL 模型，以对五类 ICH 进行 ICH 定位和分类。为了开发不确定性感知 DL 模型，使用 1,546 例确定数据校准数据集进行蒙德里安保形预测 MCP。不确定性感知深度学习模型在 8,401 个明确且具有挑战性的案例上进行了测试，以评估其识别具有挑战性的案例的能力。经过 MCP 程序后，该模型在测试数据集上的 ICH 分类 F1 得分为 0.920。此外，它正确地将 6,856 个具有挑战性的案例中的 6,837 个识别为具有 99.7 准确度的挑战。它并没有错误地将任何明确的案例标记为具有挑战性。不确定性感知 ICH 检测器的性能与最先进的模型相当。

Robust Tiny Object Detection in Aerial Images amidst Label Noise

Authors Haoran Zhu, Chang Xu, Wen Yang, Ruixiang Zhang, Yan Zhang, Gui Song Xia
由于视觉信息有限且在场景中频繁出现，遥感图像中微小物体的精确检测仍然是一个重大挑战。与手动注释相关的实际负担和固有错误进一步加剧了这一挑战，对微小对象进行注释既费力又容易出错，即标签噪声。使用噪声标签训练此类对象的检测器通常会导致性能不佳，网络往往会在噪声标签上过度拟合。在这项研究中，我们解决了噪声标签监督下微小物体检测的复杂问题。我们系统地研究了各种类型的噪声对网络训练的影响，揭示了对象检测器对类别转换和微小对象不准确的边界框的脆弱性。为了缓解这些挑战，我们提出了一种降噪微型对象检测器 DN TOD，它结合了类感知标签校正 CLC 方案来解决类转移问题，并采用趋势引导学习策略 TLS 来处理边界框噪声。 CLC 通过识别和过滤掉类转移的正样本来减轻不准确的类监督，而 TLS 通过样本重新加权和边界框重新生成来减少噪声框引起的错误监督。此外，我们的方法可以无缝集成到一级和两级目标检测管道中。对合成（即噪声 AI TOD v2.0 和 DOTA v2.0）和现实世界（即 AI TOD 噪声数据集）进行的综合实验证明了 DN TOD 在各种类型的标签噪声下的鲁棒性。值得注意的是，当应用于强基线 RFLA 时，DN TOD 在 40 个混合噪声下表现出 4.9 点的显着性能改进。

SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation

Authors Zhixuan Liu, Peter Schaldenbrand, Beverley Claire Okogwu, Wenxuan Peng, Youngsik Yun, Andrew Hundt, Jihie Kim, Jean Oh
众所周知，媒体的准确报道可以改善媒体受众的福祉。众所周知，在大型网络爬取数据集（例如 LAION）上训练的生成图像模型会生成带有有害刻板印象和歪曲文化的图像。我们通过 1 与社区合作收集具有文化代表性的数据集（我们称之为跨文化理解基准 CCUB）和 2 提出一种新颖的自我对比微调 SCoFT 方法来改善生成图像的包容性表示，该方法利用模型的已知偏差进行自我改进。 SCoFT 旨在防止小数据集上的过度拟合，仅对数据中的高级信息进行编码，并使生成的分布远离预训练模型中编码的错误表示。我们根据来自 5 个不同国家的 51 名参与者根据他们自己选择的国家文化归属对他们进行的用户研究表明，与稳定扩散基线相比，CCUB 上的微调始终生成具有更高文化相关性和更少刻板印象的图像，我们的 SCoFT 进一步改进了这一点

EmoTalker: Emotionally Editable Talking Face Generation via Diffusion Model

Authors Bingyuan Zhang, Xulong Zhang, Ning Cheng, Jun Yu, Jing Xiao, Jianzong Wang
近年来，说话面孔生成领域引起了相当大的关注，某些方法擅长生成令人信服地模仿人类表情的虚拟面孔。然而，现有方法面临着泛化能力有限的挑战，特别是在处理具有挑战性的身份时。此外，编辑表情的方法往往局限于单一的情感，无法适应复杂的情感。为了克服这些挑战，本文提出了 EmoTalker，一种基于扩散模型的情感可编辑肖像动画方法。 EmoTalker 修改了去噪过程，以确保在推理过程中保留原始肖像的身份。为了增强对文本输入的情感理解，引入了情感强度模块来分析来自提示的细粒度情感和强度。此外，还利用精心设计的数据集来增强提示中的情感理解。

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Authors Xu Yan, Haiming Zhang, Yingjie Cai, Jingming Guo, Weichao Qiu, Bin Gao, Kaiqiang Zhou, Yue Zhao, Huan Jin, Jiantao Gao, Zhen Li, Lihui Jiang, Wei Zhang, Hongbo Zhang, Dengxin Dai, Bingbing Liu
在大量数据集上进行训练的大型基础模型的兴起正在彻底改变人工智能领域。 SAM、DALL E2 和 GPT 4 等模型通过提取复杂的模式并在不同的任务中有效执行来展示其适应性，从而成为各种人工智能应用程序的有效构建块。自动驾驶是人工智能应用领域的一个充满活力的前沿领域，但由于缺乏专用的视觉基础模型 VFM，仍然面临着挑战。综合训练数据的缺乏、多传感器集成的需求以及特定任务架构的多样化给 VFM 在该领域的发展带来了重大障碍。本文深入探讨了专门为自动驾驶打造 VFM 的关键挑战，同时也概述了未来的方向。通过对 250 多篇论文的系统分析，我们剖析了 VFM 开发的基本技术，包括数据准备、预训练策略和下游任务适应。此外，我们还探索了 NeRF、扩散模型、3D 高斯分布和世界模型等关键进展，为未来的研究提供了全面的路线图。

3D Lane Detection from Front or Surround-View using Joint-Modeling & Matching

Authors Haibin Zhou, Jun Chang, Tao Lu, Huabing Zhou
与 2D 车道相比，3D 车道可以更全面地了解路面几何形状，从而为驾驶决策和轨迹规划提供重要参考。虽然许多努力旨在提高预测准确性，但我们认识到高效的网络可以使结果更接近车道建模。然而，如果建模数据不精确，结果可能无法准确捕捉现实世界的场景。因此，准确的车道建模对于使预测结果与环境紧密结合至关重要。本研究以高效、准确的车道建模为中心，提出了一种结合贝塞尔曲线和插值方法的联合建模方法。此外，基于这种车道建模方法，我们开发了一种带有贝塞尔曲线控制点和关键点的全局到局部车道匹配方法，作为一个综合解决方案，利用两个数学模型的层次特征来确保精确匹配。我们还引入了一种新颖的 3D 空间构造器，代表了对 3D 环视车道检测研究的探索。该框架适用于前视或环视3D车道检测。通过直接输出3D空间中的车道关键点，克服了基于anchor的方法的局限性，能够准确预测闭环或U形车道，有效适应复杂路况。

BanglaNet: Bangla Handwritten Character Recognition using Ensembling of Convolutional Neural Network

Authors Chandrika Saha, Md. Mostafijur Rahman
手写字符识别因其丰富的应用而成为一项至关重要的任务。由于孟加拉语字符的草书性质以及存在多种书写方式的复合字符，孟加拉语手写字符的识别任务尤其具有挑战性。本文提出了一种基于多个卷积神经网络 CNN 集成的分类模型，即 BanglaNet，对孟加拉语基本字符、复合字符、数字和修饰语进行分类。基于最先进的 CNN 模型（如 Inception、ResNet 和 DenseNet）理念的三种不同模型已经使用增强和非增强输入进行了训练。最后，对所有这些模型进行平均或集成以获得最终模型。与最近一些基于 CNN 的研究相比，对三个基准孟加拉语手写字符数据集（CMATERdb、BanglaLekhaisolated 和 Ekush）进行的严格实验显示出显着的识别精度。

Small Object Detection by DETR via Information Augmentation and Adaptive Feature Fusion

Authors Ji Huang, Hui Wang
小物体检测算法的主要挑战是在追求实时性的同时保证精度。 RT DETR模型在实时物体检测方面表现良好，但在小物体检测精度方面表现较差。为了弥补RT DETR模型在小目标检测方面的缺点，本研究提出了两个关键改进。首先，RT DETR 使用仅从 Backbone 功能的最后一层接收输入的 Transformer。这意味着 Transformer 的输入仅接收来自深度网络中最高抽象级别的语义信息，而忽略对较低抽象级别的小物体的位置至关重要的边缘、纹理或颜色渐变等详细信息。仅包含深层特征会引入额外的背景噪声。这会对小物体检测的准确性产生负面影响。为了解决这个问题，我们提出了细粒度路径增强方法。该方法通过向深层网络提供详细信息，有助于更准确地定位小物体。因此，变压器的输入包含语义和详细信息。其次，在RT DETR中，解码器将不同级别的特征图等权重连接后作为输入。然而，这种操作在处理不同尺寸的特征图捕获的多尺度信息的复杂关系时并不有效。因此，我们提出了一种自适应特征融合算法，将可学习的参数分配给不同级别的每个特征图。这使得模型能够自适应地融合不同级别的特征图，并有效地集成不同尺度的特征信息。

Convolutional Neural Network Compression via Dynamic Parameter Rank Pruning

Authors Manish Sharma, Jamison Heard, Eli Saber, Panos P. Markopoulos
虽然卷积神经网络 CNN 擅长学习复杂的潜在空间表示，但它们的过度参数化可能会导致过度拟合和性能下降，尤其是在数据有限的情况下。这加上其高计算和内存需求，限制了 CNN 在边缘部署中的适用性。低秩矩阵近似已成为减少 CNN 参数的一种有前途的方法，但其应用面临包括秩选择和性能损失在内的挑战。为了解决这些问题，我们提出了一种通过动态参数秩剪枝进行 CNN 压缩的有效训练方法。我们的方法集成了高效的矩阵分解和新颖的正则化技术，形成了用于动态降级和模型压缩的强大框架。我们使用奇异值分解 SVD 对低秩卷积滤波器和密集权重矩阵进行建模，并通过以端到端方式反向传播训练 SVD 因子来实现模型压缩。我们在一系列现代 CNN（包括 ResNet 18、ResNet 20 和 ResNet 32）以及 CIFAR 10、CIFAR 100 和 ImageNet 2012 等数据集上评估我们的方法，展示了其在计算机视觉中的适用性。

Jewelry Recognition via Encoder-Decoder Models

Authors Jos M. Alcalde Llergo, Enrique Yeguas Bol var, Andrea Zingoni, Alejandro Fuerte Jurado
由于配饰的款式和设计不同，珠宝识别是一项复杂的任务。如今，只有珠宝领域的专家才能对各种配件进行精确描述。在这项工作中，我们提出了一种使用计算机视觉技术和图像字幕进行珠宝识别的方法，试图模拟这种专家分析配件的人类行为。所提出的方法包括使用不同的图像字幕模型来检测图像中的珠宝并生成配件的自然语言描述。然后，该描述还用于对配件进行不同细节级别的分类。生成的标题包括珠宝类型、颜色、材料和设计等详细信息。为了证明所提出的方法在准确识别不同类型珠宝方面的有效性，创建了一个由属于西班牙 Crdoba 珠宝店的配饰图像组成的数据集。在测试了设计的不同图像字幕架构后，最终模型的字幕准确率达到了 95 。

Image Similarity using An Ensemble of Context-Sensitive Models

Authors Zukang Liao, Min Chen
图像相似性在计算机视觉领域得到了广泛的研究。近年来，机器学习模型已经显示出比传统多元指标能够编码更多语义的能力。然而，在标记相似度时，为一对图像分配数值分数不如确定图像 A 是否比另一图像 B 更接近参考图像 R 更直观。在这项工作中，我们提出了一种构建图像相似度的新方法基于 A R 与 B R 形式的标记数据的模型。我们通过使用集成模型解决了图像空间 R、A、B 中稀疏采样的挑战以及使用基于上下文的数据训练的模型中的偏差。特别是，我们采用了两种 ML 技术来构建这样的集成模型，即降维和 MLP 回归器。我们的测试结果表明，构建的集成模型的性能比最好的单独上下文敏感模型好 5 倍。它们的表现也比使用混合图像数据训练的模型以及现有的相似性模型（例如 CLIP 和 DINO）要好。

Transformer-based Video Saliency Prediction with High Temporal Dimension Decoding

Authors Morteza Moradi, Simone Palazzo, Concetto Spampinato
近年来，寻找有效且高效的利用空间和时间信息的策略一直是视频显着性预测VSP的热门研究课题。随着时空变换器的出现，现有策略（例如 3D 卷积网络和基于 LSTM 的网络）在捕获长距离依赖性方面的弱点得到了有效的弥补。虽然 VSP 从时空转换器中获益，但找到聚合时间特征的最有效方法仍然具有挑战性。为了解决这个问题，我们提出了一种基于变压器的视频显着性预测方法，具有高时间维度解码网络 THTD Net 。该策略特别考虑到从基于变换器的时空编码器提取的特征之间缺乏复杂的层次交互，它不需要多个解码器，并且旨在逐渐减少解码器中的时间特征维度。

Vertical Federated Image Segmentation

Authors Paul K. Mandal, Cole Leo
随着针对基于图像的问题的人工智能解决方案的普及，人们越来越关注数据隐私和获取。在很多情况下，信息位于单独的数据孤岛中，开发人员可能很难以适合机器学习模型开发的方式整合所有信息。除此之外，这些局部数据区域的一部分可能无法访问标记的地面事实。这表明他们有能力得出数字结论，但由于缺乏相关信息而无法进行分类。这种确定通常可以忽略不计，尤其是在尝试开发通常需要这种功能的基于图像的解决方案时。在这种情况下，我们提出了一种创新的垂直联合学习 VFL 模型架构，可以在这种常见条件下运行。这是第一个也是目前唯一一个可以在 VFL 环境的约束下工作并在保持标称精度的同时执行图像分割的系统实现。我们通过利用 FCN 来实现这一目标，该 FCN 能够在缺乏标记数据的联邦上运行，并与中央服务器私下共享各自的权重，中央服务器托管分类所需的功能。

Machine Learning Based Object Tracking

Authors Md Rakibul Karim Akanda, Joshua Reynolds, Treylin Jackson, Milijah Gray
本文执行了基于机器学习的对象检测以及对象跟踪。作者能够使用开放计算机视觉（更广为人知的名称为 OpenCV）围绕对象设置一系列感兴趣的 ROI。接下来，使用跟踪算法来保持对物体的跟踪，同时操作两个伺服电机以保持物体在框架中居中。

$M^{2}$Fusion: Bayesian-based Multimodal Multi-level Fusion on Colorectal Cancer Microsatellite Instability Prediction

Authors Quan Liu, Jiawen Yao, Lisha Yao, Xin Chen, Jingren Zhou, Le Lu, Ling Zhang, Zaiyi Liu, Yuankai Huo
结直肠癌 CRC 微卫星不稳定性组织病理学图像的 MSI 预测是一项具有挑战性的弱监督学习任务，涉及十亿像素图像的多实例学习。迄今为止，放射学图像已被证明具有 CRC MSI 信息和高效的患者成像技术。不同数据模式的集成提供了提高 MSI 预测的准确性和稳健性的机会。尽管从整个幻灯片图像 WSI 的表示学习以及探索利用放射学数据的潜力方面取得了进展，但 CRC MSI 预测仍然是融合来自多种数据模式（例如病理学 WSI 和放射学 CT 图像）的信息的挑战。在本文中，我们提出了 M 2 Fusion，一种用于 CRC MSI 的基于贝叶斯的多模态多级融合管道。所提出的融合模型 M 2 Fusion 能够在模态内部和跨模态发现更多新颖的模式，这比单独使用单一模态以及其他融合方法更有利于预测 MSI。该论文的贡献是三倍 1 M 2 Fusion 是第一个在病理 WSI 和 3D 放射学 CT 图像上进行多级融合的管道，用于 MSI 预测 2 CT 图像首次集成到多模态融合中，用于 CRC MSI 预测 3 特征级融合基于 Transformer 和基于 CNN 的方法对策略进行评估。

VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness

Authors Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du, Shanghang Zhang
微调预训练视觉模型 PVM 是学习下游视觉任务的常用技术。使用随机采样数据点的传统微调过程会导致训练效率降低。为了解决这个缺点，我们提出了一种新颖的方法，即 VLM 授权的协作主动微调 VeCAF。 VeCAF 通过结合正在调整的模型的训练目标来优化参数数据选择模型。实际上，这可以通过提高数据和计算效率来引导 PVM 实现性能目标。由于视觉语言模型 VLM 通过在图像和语言域之间建立强大的连接而取得了显着的进步，我们利用文本嵌入空间固有的语义丰富性，并利用预训练的 VLM 模型的文本嵌入来增强 PVM 图像特征，以实现更好的数据选择和微调。此外，文本域增强的灵活性使 VeCAF 具有独特的能力，无需外部增强数据即可处理分发场景。大量实验表明，VeCAF 在分布和分布外图像分类任务中均优于基线，具有领先的性能和高效率。

Phenotyping calcification in vascular tissues using artificial intelligence

Authors Mehdi Ramezanpour, Anne M. Robertson, Yasutaka Tobe, Xiaowei Jia, Juan R. Cebral
血管钙化是主要不良心血管事件 MACE（包括心脏病发作和中风）的重要因素。关于如何将不同形式的血管钙化整合到临床风险评估工具中仍然存在争议。即使是常用的冠状动脉钙评分（假设风险与总钙化成正比）也存在严重的不一致。需要进行基础研究来确定不同钙化表型如何影响风险。然而，由于缺乏用于对成像数据集中的钙化进行分类的高通量、客观和非破坏性工具，此类研究受到阻碍。在这里，我们引入了一种新的钙化表型分类系统，以及半自动化、非破坏性的管道，甚至可以在动脉粥样硬化组织中区分这些表型。该管道包括一个基于深度学习的框架，用于在嘈杂的微 CT 图像中分割脂质池，以及一个无监督的聚类框架，用于根据大小、聚类和拓扑对钙化进行分类。该方法以 5 个血管标本为例进行了说明，可在不到 7 小时的时间内对多达 3200 张图像中的数千个钙化颗粒进行表型分析。组织和脂质池的平均 Dice 相似系数分别为 0.96 和 0.87，尽管这些组织具有很高的异质性，但仅需要 13 张图像进行训练和验证。

Uncovering the Full Potential of Visual Grounding Methods in VQA

Authors Daniel Reich, Tanja Schultz
视觉问答 VQA 中的视觉接地 VG 方法试图通过加强模型对问题相关视觉信息的依赖来提高 VQA 性能。在训练和测试中通常假设视觉输入中存在此类相关信息。然而，在处理大规模 VQA 中常见的不完美图像表示时，这种假设本质上是有缺陷的，其中视觉特征携带的信息经常偏离预期的地面真实内容。

Pedestrian Detection in Low-Light Conditions: A Comprehensive Survey

Authors Bahareh Ghari, Ali Tourani, Asadollah Shahbahrami, Georgi Gaydadjiev
行人检测仍然是计算机视觉、监控和自动驾驶等各个领域的一个关键问题。特别是，在弱光条件和能见度较低的情况下准确、即时地检测行人对于自动驾驶汽车预防事故和挽救生命至关重要。本文旨在全面调查专门针对弱光条件的各种行人检测方法、基线和数据集。该调查讨论了夜间检测行人所面临的挑战，并探讨了近年来提出的解决这一问题的最先进方法。这些方法涵盖了不同的范围，包括基于深度学习、基于特征和混合方法，这些方法在增强具有挑战性的照明条件下的行人检测性能方面显示出了有希望的结果。此外，本文还强调了该领域当前的研究方向，并确定了值得研究人员进一步研究的潜在解决方案。通过彻底检查弱光条件下的行人检测技术，该调查旨在促进更安全、更可靠的自动驾驶系统以及与行人安全相关的其他应用的发展。因此，该领域当前的大多数方法都使用基于深度学习的图像融合方法，即早期融合、中途融合和晚期融合，以实现准确可靠的行人检测。

Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification

Authors Nathan Painchaud, Pierre Yves Courand, Pierre Marc Jodoin, Nicolas Duchateau, Olivier Bernard
深度学习现在可以从超声心动图序列中自动、稳健地提取心脏功能描述符，例如射血分数或应变。这些描述符提供了医生考虑的细粒度信息，结合临床记录中的更多全局变量来评估患者状况。利用应用于表格数据（例如电子健康记录中的变量）的新型变压器模型，我们提出了一种方法，该方法考虑从病历和超声心动图提取的所有描述符，以学习难以表征的心血管病理学的表示，即高血压。我们的方法首先使用特定于模态的方法将每个变量投影到其自己的表示空间中。然后，这些多模态数据的标准化表示被馈送到变压器编码器，编码器学习通过预测临床评级的借口任务将它们合并成患者的综合表示。该借口任务被表述为顺序分类，以在表示空间中强制执行病态连续体。我们观察了 239 名高血压患者的主要趋势，以前所未有的分级描述高血压对许多心功能指标的影响。我们的分析表明，i 即使数据少于 200 个训练样本，来自基础模型的预训练权重也能达到良好的性能 83 准确度，ii 整个人群的趋势在训练之间是可重现的，iii 对于与高血压相互作用的描述符有详细记录，

Improving OCR Quality in 19th Century Historical Documents Using a Combined Machine Learning Based Approach

Authors David Fleischhacker, Wolfgang Goederle, Roman Kern
本文讨论了 19 世纪历史研究面临的重大挑战。大量资源首次以数字方式提供，但提取技术却相对滞后。因此，我们研究了机器学习 ML 模型，以识别和提取高价值历史主要来源 Schematismus 中的复杂数据结构。它记录了 1702 年至 1918 年间哈布斯堡王朝公务员队伍中某一等级以上的每一个人，并记录了两个世纪以来中央行政机构的起源。其错综复杂的结构以及庞大的规模，迄今无法根据这一资料对后来的哈布斯堡帝国的行政和社会结构进行更全面的分析。我们追求两个中心目标：首先是提高 OCR 质量，为此我们认为改进结构识别对于后续课程至关重要，事实证明这也使得数据结构的提取成为可能。我们选择 Faster R CNN 作为结构识别 ML 架构的基础。为了快速、经济地获得所需数量的训练数据，我们合成了 Hof und Staatsschematismus 风格的数据，用于训练我们的模型。然后使用较小的一组手动注释的历史源数据对该模型进行微调。然后，我们使用 Tesseract OCR（针对我们文档的风格进行了进一步优化）来完成结构提取和 OCR 的组合过程。结果显示 OCR 性能的两个标准参数 WER 和 CER 显着下降，其中值越低越好。

Towards A Better Metric for Text-to-Video Generation

Authors Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
生成模型在合成高质量文本、图像和视频方面表现出了卓越的能力。对于视频生成，当代文本到视频模型展示了令人印象深刻的功能，可以制作视觉上令人惊叹的视频。尽管如此，评估此类视频仍面临重大挑战。目前的研究主要采用 FVD、IS 和 CLIP Score 等自动化指标。然而，这些指标提供的分析不完整，特别是在视频内容的时间评估方面，因此使它们成为真实视频质量的不可靠指标。此外，虽然用户研究有可能准确反映人类的感知，但它们因其耗时和费力的性质而受到阻碍，其结果往往受到主观偏见的影响。在本文中，我们研究了现有指标固有的局限性，并引入了一种新颖的评估管道，即文本到视频评分 T2VScore 。该指标集成了两个关键标准：1 文本视频对齐，仔细检查视频在表示给定文本描述方面的保真度；2 视频质量，由专家共同评估视频的整体制作水平。此外，为了评估所提出的指标并促进未来的改进，我们提出了 TVGE 数据集，收集了 2,543 个文本到视频生成的视频在这两个标准上的人类判断。

Seeing the Unseen: Visual Common Sense for Semantic Placement

Authors Ram Ramrakhya, Aniruddha Kembhavi, Dhruv Batra, Zsolt Kira, Kuo Hao Zeng, Luca Weihs
计算机视觉任务通常涉及描述图像中存在的内容，例如分类、检测、分割和字幕。我们研究一项视觉常识任务，需要理解不存在的东西。具体来说，给定一个图像，例如客厅的名称和物体垫的名称，要求视觉系统预测图像中具有语义意义的区域掩模或边界框，其中该物体可以放置或可能由人类放置，例如在沙发上。我们将此任务称为“语义放置 SP”，并相信这种常识性视觉理解对于主动机器人整理房屋以及 AR 设备自动在用户空间中渲染对象至关重要。研究看不见的事物是困难的。用于图像描述的数据集通常是通过整理相关图像并要求人类注释图像内容来构建的，对于图像中不存在的对象来说，这两个步骤都不是简单的。我们通过相反的方向操作来克服这一挑战，我们从网络上下文中的对象图像开始，然后通过修复从图像中删除该对象。该自动化管道将非结构化 Web 数据转换为包含不包含对象的图像对的数据集。使用它，我们收集了一个新颖的数据集，其中包含 9 个对象类别的 130 万张模拟图像，并训练了一个名为 CLIP UNet 的 SP 预测模型。 CLIP UNet 优于现有的 VLM 和基线，将语义先验与现实世界和模拟图像上的对象检测器相结合。在我们的用户研究中，我们发现与真实图像和模拟图像上的 4 个 SP 基线相比，CLIP UNet 预测的 SP 掩模的受欢迎程度分别是 43.7 倍和 31.3 倍。

Low-light Stereo Image Enhancement and De-noising in the Low-frequency Information Enhanced Image Space

Authors Minghua Zhao, Xiangdong Qin, Shuangli Du, Xuefei Bai, Jiahao Lyu, Yiguang Liu
与单图像任务不同，立体图像增强可以使用另一个视图信息，其关键阶段是如何进行跨视图特征交互以从另一个视图中提取有用信息。然而，现有方法忽略了低光图像中的复杂噪声及其对后续特征编码和交互的影响。本文提出了一种同时进行增强和去噪的方法。首先，为了减少不需要的噪声干扰，提出了低频信息增强模块IEM来抑制噪声并产生新的图像空间。此外，提出了跨通道和空间上下文信息挖掘模块CSM来编码长距离空间依赖性并增强通道间特征交互。依靠CSM，构建了编码器解码器结构，结合跨视图和跨尺度特征交互，在新的图像空间中进行增强。最后，在空间域和频域损失的约束下训练网络。对合成数据集和真实数据集的大量实验表明，与最先进的方法相比，我们的方法获得了更好的细节恢复和噪声消除。此外，使用立体相机 ZED2 捕获真实的立体图像增强数据集。

Sparsity-based background removal for STORM super-resolution images

Authors Patris Valera, Josu Page Vizca no, Tobias Lasser
单分子定位显微镜技术，如随机光学重建显微镜 STORM，通过随机激发稀疏闪烁发射器来可视化生物样本。原始图像受到不需要的背景荧光的影响，必须将其去除才能实现超分辨率。我们通过适应不同显微镜领域的神经网络 SLNet 引入了一种基于稀疏性的背景去除方法。 SLNet 计算图像的低秩表示，然后通过从原始图像中减去它，计算稀疏分量，表示没有背景的帧。我们在两个常用的 STORM 数据集（一个胶质细胞数据集和一个微管数据集）上将我们的方法与广泛使用的背景去除方法（例如中值背景去除或滚球算法）进行了比较。 SLNet 提供背景较少的 STORM 帧，从而比常用方法具有更高的发射器定位精度和更高分辨率的重建图像。值得注意的是，SLNet 是轻量级的并且易于训练 5 分钟。由于它是以无监督的方式进行训练的，因此不需要先验信息，并且可以应用于任何 STORM 数据集。我们将预先训练的 SLNet 上传到 Bioimage 模型库，可以通过 ImageJ 轻松访问。

MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation

Authors Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang
开放词汇表 3D 实例分割已成为一个前沿主题，因为它能够对超出预定义类别集的 3D 实例进行分割。然而，与 2D 领域的重大进展相比，3D 开放词汇实例分割方法受到高质量注释 3D 数据规模有限的阻碍。为了利用 2D 模型的功能，最近的工作重点是根据几何和语义相似性等指标合并 2D 掩模以形成 3D 实例。与这些局部指标相比，我们提出了一种称为视图共识的新指标，以更好地利用多视图观察。关键的见解是，如果来自其他视图的大量其他 2D 蒙版同时包含这两个蒙版，则应将这两个 2D 蒙版视为属于同一实例。基于这个指标，我们构建了一个全局掩模图并迭代地对掩模进行聚类，优先考虑具有可靠视图共识的掩模对。这些 2D 掩模簇对应的 3D 点簇可以被视为 3D 实例，以及来自簇状 2D 掩模的融合开放词汇特征。通过这种多视图验证和融合机制，我们的方法有效地利用了视觉基础模型预测的大量 2D 掩模的先验知识，从而消除了对 3D 数据进行训练的需要。在公开数据集（包括 ScanNet200 和 MatterPort3D）上进行的实验表明，我们的方法在开放词汇实例分割和类无关掩码生成方面均实现了最先进的性能。

SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction

Authors Prarthana Bhattacharyya, Chengjie Huang, Krzysztof Czarnecki
本文讨论了多智能体环境中的运动预测，这对于确保自动驾驶车辆的安全至关重要。传统的以及最近的数据驱动的边缘轨迹预测方法都很难正确学习非线性智能体与智能体之间的交互。我们提出了 SSL Interactions，它提出了借口任务来增强轨迹预测的交互建模。我们引入了四个交互感知借口任务来封装代理交互范围间隙预测、最近距离预测、运动方向预测和交互类型预测的各个方面。我们进一步提出了一种从数据集中管理交互密集场景的方法。这些精选数据有两个优点：它为交互模型提供了更强的学习信号，并有助于为以交互为中心的借口任务生成伪标签。我们还提出了三个专门用于评估交互式场景中的预测的新指标。

HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation

Authors Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai, Fatih Porikli, Guillaume Berger
尽管生成建模领域取得了显着进展，但根据文本提示高效生成高质量 3D 资源仍然是一项艰巨的任务。一个关键挑战在于数据稀缺，最广泛的 3D 数据集仅包含数百万个资产，而其 2D 数据集包含数十亿个文本图像对。为了解决这个问题，我们提出了一种利用大型预训练二维扩散模型的力量的新方法。更具体地说，我们的方法 HexaGen3D 对预训练的文本到图像模型进行微调，以联合预测 6 个正交投影和相应的潜在三平面。然后我们解码这些潜在变量以生成纹理网格。 HexaGen3D 不需要对每个样本进行优化，并且可以在 7 秒内根据文本提示推断出高质量和多样化的对象，与现有方法相比，为延迟权衡提供了显着更好的质量。

Graph Transformer GANs with Graph Masked Modeling for Architectural Layout Generation

Authors Hao Tang, Ling Shao, Nicu Sebe, Luc Van Gool
我们提出了一种新颖的图 Transformer 生成对抗网络 GTGAN，以端到端的方式学习有效的图节点关系，以应对具有挑战性的图约束架构布局生成任务。所提出的基于图 Transformer 的生成器包括一种新颖的图 Transformer 编码器，它将图卷积和自注意力结合在 Transformer 中，以对连接和非连接图节点之间的局部和全局交互进行建模。具体来说，所提出的连接节点注意 CNA 和非连接节点注意 NNA 旨在分别捕获输入图中连接节点和非连接节点之间的全局关系。所提出的图建模块 GMB 旨在利用基于房屋布局拓扑的局部顶点交互。此外，我们提出了一种新的基于节点分类的鉴别器，以保留不同房屋组件的高级语义和判别节点特征。为了维持真实图和预测图之间的相对空间关系，我们还提出了一种基于循环一致性损失的新颖图。最后，我们提出了一种新颖的用于图表示学习的自引导预训练方法。该方法涉及以较高的掩码比（即 40）同时掩码节点和边缘，并使用非对称图中心自动编码器架构对其进行后续重建。该方法显着提高了模型的学习熟练度和便捷性。使用三个公共数据集对三个具有挑战性的图约束建筑布局生成任务（即房屋布局生成、房屋屋顶生成和建筑布局生成）进行的实验证明了该方法在客观定量得分和主观视觉真实感方面的有效性。

Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks

Authors Siyu Zou, Jiji Tang, Yiyi Zhou, Jing He, Chaoyi Zhao, Rongsheng Zhang, Zhipeng Hu, Xiaoshuai Sun
基于扩散的图像编辑DIE是一个新兴的研究热点，它通常应用语义掩模来控制基于扩散的编辑的目标区域。然而，现有的解决方案大多通过手动操作或离线处理来获取这些掩模，大大降低了效率。在本文中，我们为文本到图像 T2I 扩散模型提出了一种新颖且高效的图像编辑方法，称为即时扩散编辑 InstDiffEdit 。特别是，InstDiffEdit 旨在利用现有扩散模型的跨模式注意能力，在扩散步骤中实现即时掩模引导。为了减少注意力图的噪声并实现全自动，我们为 InstDiffEdit 配备了免训练细化方案，以自适应聚合注意力分布，以自动且准确地生成掩模。同时，为了补充 DIE 的现有评估，我们提出了一个名为 Editing Mask 的新基准来检查现有方法的掩模准确性和本地编辑能力。为了验证 InstDiffEdit，我们还在 ImageNet 和 Imagen 上进行了广泛的实验，并将其与一堆 SOTA 方法进行了比较。实验结果表明，InstDiffEdit不仅在图像质量和编辑结果上都优于SOTA方法，而且推理速度也快得多，达到5到6倍。

FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos

Authors Darshan Singh S, Zeeshan Khan, Makarand Tapaswi
虽然对比语言图像预训练 CLIP 通过学习高度语义和广义表示表现出了令人印象深刻的性能，但最近的工作暴露了其句法属性的根本缺陷，包括解释细粒度属性、动作、空间关系、状态和需要组合推理的细节。原因之一是自然字幕通常无法捕捉场景的所有视觉细节。这导致未解决的视觉概念被错误地归因于错误的词语。合并的图像和文本特征最终会充当一个词袋，从而丢失语法信息。在这项工作中，我们询问是否有可能在不损害其语义属性的情况下增强 CLIP 的细粒度和句法能力。我们证明，通过在高质量、全面且相对较小的数据集上有效地适应 CLIP，这是可能的。我们在 VidSitu 上展示了我们的适应策略，VidSitu 是一个用动词和丰富的语义角色标签 SRL 注释的视频情境识别数据集。我们使用 SRL 和动词信息来创建基于规则的详细标题，确保它们捕获大部分视觉概念。结合硬底片和层次损失，这些注释使我们能够学习强大的视觉表示，称为细粒度 CLIP FiGCLIP，它在面向细节的同时保留语义理解。

Foundation Models for Biomedical Image Segmentation: A Survey

Authors Ho Hin Lee, Yu Gu, Theodore Zhao, Yanbo Xu, Jianwei Yang, Naoto Usuyama, Cliff Wong, Mu Wei, Bennett A. Landman, Yuankai Huo, Alberto Santamaria Pang, Hoifung Poon
Segment Anything Model SAM 极大地推动了生物医学图像分析领域的最新进展。这项变革性技术最初是为通用计算机视觉而开发的，现已在医学图像处理中得到快速应用。去年，SAM 发表了 100 多篇出版物，展示了其在医学成像零样本学习改编方面的实力。 SAM 的基本前提在于其能够在不事先了解对象类型或成像模式的情况下分割或识别图像中的对象。这种方法与人类视觉系统可实现的任务非常吻合，尽管其在非生物视觉环境中的应用在理论上仍然更具挑战性。 SAM 的一个显着特征是它能够根据指定的分辨率尺度或感兴趣的区域调整分割，类似于语义启动。这种适应性激发了将 SAM 应用于医学成像的创造力和创新浪潮。我们的审查重点关注2023年4月1日至2023年9月30日期间，这是首次发布后关键的前六个月。我们研究了 SAM 的适应和集成，以解决长期存在的临床挑战，特别是在我们分析中涵盖的 33 个开放数据集的背景下。虽然 SAM 在许多应用中接近或达到了最先进的性能，但它在某些领域存在不足，例如颈动脉、肾上腺、视神经和下颌骨的分割。

SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting

Authors Mingxin Huang, Dezhi Peng, Hongliang Li, Zhenghao Peng, Chongyu Liu, Dahua Lin, Yuliang Liu, Xiang Bai, Lianwen Jin
端到端场景文本识别旨在读取自然图像中的文本，近年来引起了广泛关注。然而，最近最先进的方法通常只是通过共享主干来结合检测和识别，这并没有直接利用两个任务之间的特征交互。在本文中，我们提出了一种新的端到端场景文本识别框架，称为 SwinTextSpotter v2，旨在找到文本检测和识别之间更好的协同作用。具体来说，我们使用新颖的识别转换和识别对齐模块来增强两个任务之间的关系。识别转换通过识别损失明确指导文本定位，而识别对齐则通过检测预测动态提取文本特征以进行识别。这种简单而有效的设计产生了一个简洁的框架，既不需要额外的纠正模块，也不需要对任意形状的文本进行字符级注释。此外，通过引入 Box Selection Schedule，探测器的参数大大减少，而性能却没有降低。定性和定量实验表明，SwinTextSpotter v2 在各种多语言英语、中文和越南语基准测试中实现了最先进的性能。

Fine-Grained Prototypes Distillation for Few-Shot Object Detection

Authors Zichen Wang, Bo Yang, Haonan Yue, Zhenghao Ma
Few Shot 物体检测 FSOD 旨在扩展通用检测器，仅使用少量训练示例即可进行新物体检测。由于其实际意义，它最近引起了人们的极大关注。元学习已被证明是这项任务的有效范例。一般来说，基于元学习的方法采用额外的支持分支将新颖的示例（也称为支持图像）编码为类原型，然后将其与查询分支融合以促进模型预测。然而，类级原型很难精确生成，而且缺乏详细信息，导致性能不稳定。需要新的方法来捕获独特的局部上下文，以实现更鲁棒的新物体检测。为此，我们建议将最具代表性的支持功能提炼成细粒度的原型。然后根据匹配结果将这些原型分配到查询特征图中，对两个分支之间的详细特征关系进行建模。这个过程是通过我们的细粒度特征聚合 FFA 模块实现的。此外，在高级特征融合方面，我们从不同角度提出了平衡类不可知采样B CAS策略和非线性融合NLF模块。它们相互补充，更有效地描述高层特征关系。对 PASCAL VOC 和 MS COCO 基准的大量实验表明，我们的方法在大多数设置中都达到了最先进的性能。

Multimodal Crowd Counting with Pix2Pix GANs

Authors Muhammad Asif Khan, Hamid Menouar, Ridha Hamila
大多数最先进的人群计数方法都使用彩色 RGB 图像来了解人群的密度图。然而，这些方法通常难以在光照较差的拥挤场景中实现更高的准确度。最近，一些研究报告称，结合使用 RGB 和热图像，可以提高人群计数模型的准确性。尽管多模态数据可以带来更好的预测，但多模态数据可能并不总是事先可用。在本文中，我们提出使用生成对抗网络 GAN 从彩色 RGB 图像自动生成热红外 TIR 图像，并使用两者来训练人群计数模型以实现更高的精度。我们首先使用 Pix2Pix GAN 网络将 RGB 图像转换为 TIR 图像。

Curriculum for Crowd Counting -- Is it Worthy?

Authors Muhammad Asif Khan, Hamid Menouar, Ridha Hamila
深度学习技术的最新进展在多个计算机视觉问题上取得了显着的性能。最近引入了一种称为课程学习 CL 的直观技术，用于训练深度学习模型。令人惊讶的是，课程学习在某些任务中取得了显着的改善，但在其他任务中却取得了微小的改善或没有改善。因此，关于采用它作为训练监督学习模型的标准方法仍然存在争议。在这项工作中，我们使用密度估计方法研究了课程学习对人群计数的影响。我们使用六种不同的 CL 设置和八种不同的人群模型进行了 112 项实验，进行了详细的调查。

Collaboratively Self-supervised Video Representation Learning for Action Recognition

Authors Jie Zhang, Zhifan Wan, Lanqing Hu, Stephen Lin, Shuzhe Wu, Shiguang Shan
考虑到动作识别和人体姿势估计之间的密切联系，我们通过联合考虑生成姿势预测和判别性上下文匹配作为借口任务，设计了一个专门针对动作识别的协作自监督视频表示 CSVR 学习框架。具体来说，我们的 CSVR 由三个分支组成：生成姿势预测分支、判别上下文匹配分支和视频生成分支。其中，第一个分支通过利用条件 GAN 来预测未来帧的人体姿势来编码动态运动特征，第二个分支通过将同一视频中的剪辑和压缩关键帧的表示拉到一起，同时推开它们来提取静态上下文特征。来自不同视频的配对。第三个分支旨在恢复当前视频帧并预测未来视频帧，以协同改进动态运动特征和静态上下文特征。

PMFSNet: Polarized Multi-scale Feature Self-attention Network For Lightweight Medical Image Segmentation

Authors Jiahui Zhong, Wenhong Tian, Yuanlun Xie, Zhijia Liu, Jie Ou, Taoran Tian, Lei Zhang
当前最先进的医学图像分割方法优先考虑准确性，但通常以增加计算需求和更大的模型尺寸为代价。将这些大规模模型应用于规模相对有限的医学图像数据集往往会引起冗余计算，使过程复杂化，但没有带来必要的好处。这种方法不仅增加了复杂性，而且给边缘设备上轻量级模型的集成和部署带来了挑战。例如，最近基于 Transformer 的模型由于其广泛的感受野和高参数数量而在 2D 和 3D 医学图像分割中表现出色。然而，当应用于小型数据集时，它们的有效性会带来过度拟合的风险，并且常常忽略了卷积神经网络 CNN 的重要归纳偏差，这对于局部特征表示至关重要。在这项工作中，我们提出了 PMFSNet，一种新颖的医学成像分割模型，它有效地平衡全局和局部特征处理，同时避免较大模型中典型的计算冗余。 PMFSNet简化了基于UNet的层次结构，并简化了自注意力机制的计算复杂度，使其适合轻量级应用。它包含一个即插即用的 PMFS 块，这是一个基于注意力机制的多尺度特征增强模块，用于捕获长期依赖性。广泛的综合结果表明，即使模型参数少于 100 万个，我们的方法在不同数据规模的各种分割任务中也能实现卓越的性能。它在牙齿 CT CBCT 、卵巢肿瘤超声 MMOTU 和皮肤病变皮肤镜图像 ISIC 2018 的公共数据集上分别实现了 84.68 、82.02 和 78.82 的 IoU 指标。

Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding

Authors Qi Sun, Xiao Cui, Wengang Zhou, Houqiang Li
在这项研究中，我们解决了对点云中的对象类别进行分类的挑战，由于 CLIP 架构的固有局限性，PointCLIP 等之前的工作很难解决这个问题。我们的方法利用 GPT 4 Vision GPT 4V 来克服这些挑战，通过利用其先进的生成能力，实现更具适应性和稳健的分类过程。我们采用GPT 4V的应用来处理复杂的3D数据，使其能够在不改变底层模型架构的情况下实现零镜头识别能力。我们的方法还包括点云图像可视化、缩小域差距和提高 GPT 4V 效率的系统策略。

A Bi-Pyramid Multimodal Fusion Method for the Diagnosis of Bipolar Disorders

Authors Guoxin Wang, Sheng Shi, Shan An, Fengmei Fan, Wenshu Ge, Qi Wang, Feng Yu, Zhiren Wang
以往双相情感障碍诊断的研究主要集中在静息态功能磁共振成像。但其准确性无法满足临床诊断的要求。高效的多模态融合策略在多模态数据中具有巨大的应用潜力，可以进一步提高医学诊断模型的性能。在这项工作中，我们利用 sMRI 和 fMRI 数据，提出了一种新型的双相情感障碍多模态诊断模型。所提出的补丁金字塔特征提取模块提取sMRI特征，时空金字塔结构提取fMRI特征。最后，通过融合模块将它们融合，用分类器输出诊断结果。

Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy for Temporal Sentence Grounding in Video

Authors Zhaobo Qi, Yibo Yuan, Xiaowen Ruan, Shuhui Wang, Weigang Zhang, Qingming Huang
视频中的时间句子基础 TSGV 受到数据集偏差问题的困扰，这是由于输入视频或查询文本中具有相似语义成分的样本的目标时刻时间分布不均匀造成的。现有的方法诉诸于利用有关偏见的先验知识来人为地打破这种不均匀的分布，这只能消除有限数量的显着语言偏见。在这项工作中，我们提出了偏差冲突样本合成和对抗性消除去偏差策略 BSSARD，它通过明确利用单模态特征和目标时刻的时间位置之间的潜在虚假相关性来动态生成偏差冲突样本。通过对抗性训练，其偏差生成器不断引入偏差并生成偏差冲突样本来欺骗其接地模型。同时，接地模型不断消除引入的偏差，这要求它能够对多模态对齐信息进行建模。 BSSARD 将涵盖大多数类型的耦合关系，并同时破坏语言和视觉偏见。在 Charades CD 和 ActivityNet CD 上进行的大量实验证明了 BSSARD 有前途的去偏能力。

Combining Image- and Geometric-based Deep Learning for Shape Regression: A Comparison to Pixel-level Methods for Segmentation in Chest X-Ray

Authors Ron Keuth, Mattias Heinrich
在解决分割任务时，由于将目标对象几何理解为形状，形状基础方法比像素分类更有利，可以防止生成不可信的解剖学预测，特别是对于损坏的数据。在这项工作中，我们提出了一种新颖的混合方法，它将轻量级 CNN 主干与几何神经网络 Point Transformer 相结合以进行形状回归。使用相同的 CNN 编码器，Point Transformer 达到了当前最先进的卷积解码器的分割质量：4 pm1.9 vs 3.9 pm2.9 mm 误差和 85 pm13 vs 88 pm10 Dice，但最重要的是，对于图像来说更稳定扭曲，在腐败水平为 30 时开始超越他们。

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception

Authors Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang
多模态大语言模型 MLLM 最近在视觉感知和理解方面表现出了非凡的能力。然而，如何全面评估MLLM的能力仍然是一个挑战。现有的基准测试大多主要侧重于评估感知、认知和推理，而忽略了自我意识的能力，指的是模型对自身能力边界的认知。在我们的研究中，我们关注图像感知中的自我意识，并引入 MLLM 的知识象限，它清楚地定义了感知中的已知和未知。基于此，我们提出了一个新的基准，专门设计用于评估 MLLM MM SAP 感知中的自我意识功能。 MM SAP 包含三个不同的子数据集，每个子数据集侧重于自我意识的不同方面。我们使用 MM SAP 评估了八个知名的 MLLM，分析他们的自我意识并提供详细的见解。

One for All: Toward Unified Foundation Models for Earth Vision

Authors Zhitong Xiong, Yi Wang, Fahong Zhang, Xiao Xiang Zhu
以广泛参数为特征并在大规模数据集上进行训练的基础模型在遥感数据的各种下游任务中表现出了显着的功效。当前的遥感基础模型通常专注于单一模态或特定的空间分辨率范围，限制了其下游数据集的多功能性。虽然已经尝试开发多模态遥感基础模型，但它们通常对每种模态或空间分辨率采用单独的视觉编码器，因此需要根据输入数据在主干网中进行切换。为了解决这个问题，我们引入了一种简单而有效的方法，称为 OFA Net One For All Network，采用单个共享 Transformer 主干来处理具有不同空间分辨率的多种数据模式。使用掩模图像建模机制，我们通过这种简单的设计在精选的多模态数据集上预训练单个 Transformer 主干。然后骨干模型可以用于不同的下游任务，从而为地球视觉中的统一基础骨干模型开辟道路。

InstantID: Zero-shot Identity-Preserving Generation in Seconds

Authors Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
通过 Textual Inversion、DreamBooth 和 LoRA 等方法，个性化图像合成取得了重大进展。然而，它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。相反，现有的基于 ID 嵌入的方法虽然只需要一次前向推理，但面临着挑战，它们要么需要对众多模型参数进行广泛的微调，缺乏与社区预训练模型的兼容性，要么无法保持高面部保真度。为了解决这些限制，我们引入了 InstantID，这是一种基于扩散模型的强大解决方案。我们的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化，同时确保高保真度。为了实现这一目标，我们设计了一个新颖的 IdentityNet，通过强加语义和弱空间条件，将面部和地标图像与文本提示相结合来引导图像生成。 InstantID 展示了卓越的性能和效率，在身份保存至关重要的现实世界应用中非常有用。此外，我们的工作与流行的预训练文本到图像扩散模型（如 SD1.5 和 SDXL）无缝集成，作为一个适应性强的插件。

PolMERLIN: Self-Supervised Polarimetric Complex SAR Image Despeckling with Masked Networks

Authors Shunya Kato, Masaki Saito, Katsuhiko Ishiguro, Sol Cummings
去斑是提高合成孔径雷达 SAR 图像质量的一项关键降噪任务。直接获取无噪声 SAR 图像是一项具有挑战性的任务，阻碍了精确去斑算法的发展。深度学习的出现促进了仅从噪声 SAR 图像中学习的去噪模型的研究。然而，现有方法仅处理单偏振图像，无法处理现代卫星捕获的多偏振图像。在这项工作中，我们提出了对现有模型的扩展，用于生成单偏振 SAR 图像以处理多偏振 SAR 图像。具体来说，我们提出了一种称为通道掩蔽的新型自监督去斑方法，它利用了偏振之间的关系。此外，我们利用空间掩蔽方法来解决像素到像素的相关性，以进一步增强我们方法的性能。

Compositional Oil Spill Detection Based on Object Detector and Adapted Segment Anything Model from SAR Images

Authors Wenhui Wu, Man Sing Wong, Xinyu Yu, Guoqiang Shi, Coco Yin Tung Kwok, Kang Zou
基于语义分割的方法在 SAR 图像溢油检测中引起了广泛的关注。然而，现有的方法在训练阶段需要大量精细注释的分割样本。为了缓解这个问题，我们提出了一种复合漏油检测框架 SAM OIL，包括一个目标检测器（例如 YOLOv8）、一个改编的分段任意模型 SAM 和一个有序掩模融合 OMF 模块。 SAM OIL 是功能强大的 SAM 在溢油检测中的首次应用。具体来说，SAM OIL策略使用YOLOv8获取漏油相关对象的类别和边界框，然后将边界框输入到适配的SAM中以检索类别不可知掩模，最后采用Ordered Mask Fusion OMF模块来融合掩模和类别。适配的 SAM 将冻结的 SAM 与可学习的适配器模块相结合，可以增强 SAM 分割模糊对象的能力。 OMF模块是一种无参数方法，可以有效解决SAM内的像素类别冲突。实验结果表明，SAM OIL 超越了现有的基于语义分割的溢油检测方法，实现了 69.52 的 mIoU 。

Harnessing Deep Learning and Satellite Imagery for Post-Buyout Land Cover Mapping

Authors Hakan T. Otal, Elyse Zavar, Sherri B. Binder, Alex Greer, M. Abdullah Canbaz
洪水、飓风和野火等环境灾害日益威胁着世界各地的社区，催生了各种缓解策略。其中，财产收购已成为减少未来灾害脆弱性的重要方法。这一战略涉及政府从自愿卖家那里购买有风险的房产，并将土地转变为开放空间，表面上减少了未来的灾害风险和影响。然而，这些收购的后果，特别是有关土地使用模式和社区影响的后果，仍有待探讨。这项研究旨在通过采用卫星图像分析和深度学习等创新技术来研究这些模式来填补这一空白。为了实现这一目标，我们采用了 FEMA 的减灾拨款计划 HMGP 买断数据集，其中包含 1989 年至 2017 年间这些买断房产的超过 41,004 个地址。利用 Google 的 Maps Static API，我们收集了与这些买断土地相对应的 40,053 个卫星图像。随后，我们实施了五个前沿的机器学习模型来评估它们在土地覆盖类型分类方面的表现。

CascadeV-Det: Cascade Point Voting for 3D Object Detection

Authors Yingping Liang, Ying Fu
无锚目标检测器在执行基于点的预测方面非常高效，无需对锚进行额外的后处理。然而，与 2D 网格不同，这些检测器中使用的 3D 点通常远离地面实况中心，这使得准确回归边界框具有挑战性。为了解决这个问题，我们提出了级联投票 CascadeV 策略，该策略提供高质量的 3D 对象检测和基于点的预测。具体来说，CascadeV 使用新颖的级联投票解码器执行级联检测，该解码器结合了两个新组件实例感知投票 IA 投票和级联点分配 CPA 模块。 IA 投票模块使用条件反距离加权来更新边界框中更新的提议点的对象特征。这种方法可以防止特征在实例外部聚合，并有助于提高对象检测的准确性。此外，由于模型训练可能会因缺乏高中心度的提案点而受到影响，因此我们开发了 CPA 模块，以通过级联阶段缩小正分配阈值。这种方法放松了前期对提案中心度的依赖，同时保证了后期有充足的中心度高的正例。实验表明，FCAF3D 与我们的 CascadeV 实现了最先进的 3D 对象检测结果，在 SUN RGB D 上达到了 70.4 mAP 0.25 和 51.6 mAP 0.5，并且在 ScanNet 上取得了具有竞争力的结果。

A Deep Hierarchical Feature Sparse Framework for Occluded Person Re-Identification

Authors Yihu Song, Shuaishi Liu
大多数现有方法通过利用辅助模型来解决被遮挡人员重新识别ReID的问题，导致ReID框架复杂且低效，对于实时应用来说是不可接受的。在这项工作中，提出了一种名为 SUReID 的加速人员 ReID 框架，以减轻遮挡干扰，同时加速推理。 SUReID 由三个关键组件组成：分层令牌稀疏 HTS 策略、非参数特征对齐知识蒸馏 NPKD 和噪声遮挡数据增强 NODA。 HTS 策略通过修剪视觉转换器中的冗余标记来实现高效的自注意力计算并消除遮挡或背景噪声的干扰。然而，修剪后的令牌可能包含人类部分特征，这些特征会污染特征表示并降低性能。为了解决这个问题，采用NPKD来监督HTS策略，保留更多有辨别力的标记并丢弃无意义的标记。此外，NODA 旨在引入更多噪声样本，进一步训练 HTS 解开不同 token 的能力。

Semantic Segmentation in Multiple Adverse Weather Conditions with Domain Knowledge Retention

Authors Xin Yang, Wending Yan, Yuan Yuan, Michael Bi Mi, Robby T. Tan
当应用于未标记的恶劣天气条件时，语义分割的性能通常会受到影响。无监督域适应是增强模型对恶劣天气的适应性和鲁棒性的潜在方法。然而，现有方法在依次使模型适应多种未标记的恶劣天气条件时遇到困难。

Concept-Guided Prompt Learning for Generalization in Vision-Language Models

Authors Yi Zhang, Ce Zhang, Ke Yu, Yushun Tang, Zhihai He
对比语言图像预训练 CLIP 模型在建立文本和图像之间的跨模态连接方面表现出了显着的功效，通过微调在广泛的下游应用程序中产生了令人印象深刻的性能。然而，对于泛化任务，当前的 CLIP 微调方法（例如 CoOp 和 CoCoOp）在某些细粒度数据集上表现出相对较低的性能。我们认识到根本原因是这些以前的方法仅将全局特征投射到提示中，忽略了各种视觉概念，例如颜色、形状和大小，这些概念可以自然地跨领域转移并在泛化任务中发挥至关重要的作用。为了解决这个问题，在这项工作中，我们提出了针对视觉语言模型的概念引导提示学习 CPL。具体来说，我们利用 CLIP 的丰富知识来创建视觉概念缓存，以实现概念引导提示。为了细化文本特征，我们进一步开发了一种将多级视觉特征转换为文本特征的投影仪。我们观察到，这种概念引导的即时学习方法能够增强视觉和语言模式之间的一致性。

Hierarchical Fashion Design with Multi-stage Diffusion Models

Authors Zhifeng Xie, Hao li, Huiming Ding, Mengtian Li, Ying Cao
跨模态时装合成与编辑通过实现设计稿的自动生成和本地修改，为时装设计师提供智能支持。虽然当前的扩散模型在图像合成方面表现出令人称赞的稳定性和可控性，但在从抽象设计元素生成时装设计方面仍面临重大挑战办公室、商务、派对等抽象的感官表达构成了高层设计概念，而袖长、领型、裤长等可测量的方面被认为是服装的低层属性。控制和编辑时尚

Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion

Authors Tingxuan Huang, Jiacheng Miao, Shizhuo Deng, Tong, Dongyue Chen
深度补全是处理缺失像素的深度图像的一项关键任务，这可能会对进一步的应用产生负面影响。最近的方法利用卷积神经网络 CNN 在彩色图像的帮助下重建深度图像。然而，普通卷积在处理丢失像素方面具有不可忽视的缺点。为了解决这个问题，我们提出了一种基于编码器解码器结构的深度补全新模型。我们的模型引入了两个关键组件：Mask 自适应门控卷积 MagaConv 架构和双向渐进融合 BP Fusion 模块。 MagaConv 架构旨在通过迭代更新掩模来调制卷积运算来获取精确的深度特征，而 BP Fusion 模块则逐步集成深度和颜色特征，在全局视角下利用连续的双向融合结构。对流行基准（包括 NYU Depth V2、DIML 和 SUN RGB D）的大量实验证明了我们的模型相对于最先进方法的优越性。

BoNuS: Boundary Mining for Nuclei Segmentation with Partial Point Labels

Authors Yi Lin, Zeyu Wang, Dong Zhang, Kwang Ting Cheng, Hao Chen
细胞核分割是数字病理工作流程的基本先决条件。细胞核分割自动化方法的发展使得能够对组织病理学图像中细胞核形态测量的广泛存在和巨大差异进行定量分析。然而，对数以万计的细胞核进行手动注释既繁琐又耗时，需要大量的人力和特定领域的专业知识。为了缓解这个问题，在本文中，我们提出了一种弱监督的核分割方法，仅需要核的部分点标签。具体来说，我们提出了一种用于核分割的新型边界挖掘框架，名为BoNuS，它同时从点标签中学习核内部和边界信息。为了实现这一目标，我们提出了一种新颖的边界挖掘损失，它引导模型通过以多实例学习方式探索成对像素亲和力来学习边界信息。然后，我们考虑一个更具挑战性的问题，即部分点标签，我们提出了一个具有课程学习的核检测模块，以利用先验形态学知识来检测丢失的核。所提出的方法在三个公共数据集 MoNuSeg、CPM 和 CoNIC 数据集上进行了验证。实验结果证明我们的方法比最先进的弱监督核分割方法具有优越的性能。

Improved Implicity Neural Representation with Fourier Bases Reparameterized Training

Authors Kexuan Shi, Xingyu Zhou, Shuhang Gu
隐式神经表示 INR 作为一种强大的表示范式，最近在各种计算机视觉任务中取得了成功。由于普通多层感知器 MLP 的低频偏差问题，现有方法研究了位置编码和周期性激活函数等先进技术，以提高 INR 的准确性。在本文中，我们将网络训练偏差与重新参数化技术联系起来，并从理论上证明权重重新参数化可以为我们提供减轻 MLP 谱偏差的机会。基于我们的理论分析，我们提出了一种傅里叶重新参数化方法，该方法学习固定傅里叶基的系数矩阵来组成 MLP 的权重。我们在具有各种 MLP 架构的不同 INR 任务上评估了所提出的傅里叶重参数化方法，包括普通 MLP、具有位置编码的 MLP 和具有高级激活函数的 MLP 等。不同 MLP 架构上的优越性近似结果清楚地验证了我们提出的方法的优势。

Cross Domain Early Crop Mapping using CropGAN and CNN Classifier

Authors Yiqun Wang, Hui Huang, Radu State
在丰富的卫星图像的推动下，基于机器学习的方法最近得到推广，可以生成高分辨率作物种植地图，以支持许多农业应用。这些方法面临的主要挑战之一是地面真实标签的可用性有限。在缺乏基本事实的情况下，现有的工作通常采用直接迁移策略，使用从其他区域收集的历史标签来训练分类器，然后将训练后的模型应用于目标区域。不幸的是，由于土壤成分、气候条件和作物生长的变化，农作物的光谱特征表现出区域间和年度间的变异性，由此产生的模型在新的和未见过的区域或年份上表现不佳。本文提出了作物生成对抗网络 CropGAN 来解决上述跨域问题。我们的方法不需要来自目标域的标签。相反，它学习一个映射函数，将目标域的光谱特征转换到带有标签的源域，同时保留其局部结构。由源域数据训练的分类器可以直接应用于转换后的数据，以生成目标域的高精度早期作物图。不同地区和年份的综合实验证明了所提出方法的好处和有效性。

A Strong Inductive Bias: Gzip for binary image classification

Authors Marco Scilipoti, Marina Fuster, Rodrigo Ramele
深度学习网络已成为工业和研究计算机视觉的事实上的标准。然而，其近亲自然语言处理 NLP 的最新发展表明，在某些领域，具有强归纳偏差的无参数模型可以作为计算成本更低、更简单的替代方案。我们提出了这样一种用于二值图像分类的模型：最近邻分类器与 Gzip 等通用压缩器相结合。我们将其与 Resnet、EfficientNet 和 Mobilenet 等流行的深度学习网络进行测试和比较，结果表明，它在几个镜头设置内实现了更高的准确性，并且利用的空间显着减少，超过两个数量级。

Efficient approximation of Earth Mover's Distance Based on Nearest Neighbor Search

Authors Guangyu Meng, Ruyu Zhou, Liu Liu, Peixian Liang, Fang Liu, Danny Chen, Michael Niemier, X.Sharon Hu
Earth Mover 的距离 EMD 是两个分布之间的重要相似性度量，用于计算机视觉和许多其他应用领域。然而，它的精确计算是计算和内存密集型的，这阻碍了它的可扩展性和对大规模问题的适用性。人们已经提出了各种近似 EMD 算法来降低计算成本，但它们的精度较低，并且可能需要额外的内存使用或手动参数调整。在本文中，我们提出了一种新颖的方法 NNS EMD，使用最近邻搜索 NNS 来近似 EMD，以实现高精度、低时间复杂度和高内存效率。 NNS 操作减少了每次 NNS 迭代中比较的数据点数量，并提供了并行处理的机会。我们通过 GPU 上的矢量化进一步加速 NNS EMD，这对于大型数据集特别有益。我们将 NNS EMD 与图像分类和检索任务上的精确 EMD 和最先进的近似 EMD 算法进行比较。我们还应用 NNS EMD 来计算传输映射并实现图像之间的颜色传输。

Generation of Synthetic Images for Pedestrian Detection Using a Sequence of GANs

Authors Viktor Seib, Malte Roosen, Ida Germann, Stefan Wirtz, Dietrich Paulus
创建带注释的数据集需要大量的手动工作。在这个概念验证工作中，我们通过提出一种新颖的图像生成管道来解决这个问题。该管道由先前发布的三个不同的生成对抗网络组成，以一种新颖的方式组合起来以增强行人检测的数据集。尽管生成的图像并不总是让人眼愉悦，但我们的检测基准显示结果大大超过了基线。

Harnessing Machine Learning for Discerning AI-Generated Synthetic Images

Authors Yuyang Wang, Yizhi Hao, Amando Xu Cong
在数字媒体领域，人工智能生成的合成图像的出现给区分真实和伪造的视觉内容带来了重大挑战。这些图像通常与真实图像难以区分，对数字媒体的可信度构成威胁，并可能导致虚假信息和欺诈。我们的研究通过采用机器学习技术来区分人工智能生成的图像和真实图像来解决这一挑战。我们方法的核心是 CIFAKE 数据集，这是标记为 Real 和 Fake 的图像的综合集合。我们改进和调整了 ResNet、VGGNet 和 DenseNet 等先进的深度学习架构，利用迁移学习来提高识别合成图像的精度。我们还将它们与包含普通支持向量机 SVM 和自定义卷积神经网络 CNN 的基线模型进行比较。实验结果显着，表明我们优化的深度学习模型优于传统方法，DenseNet 的准确率达到 97.74。我们的应用研究通过应用和优化这些用于合成图像检测的先进模型、使用各种指标进行比较分析以及展示其在识别人工智能生成的图像方面优于传统机器学习技术的能力来做出贡献。

MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction

Authors Toyota Li
高清高清地图对于自动驾驶导航至关重要。将运行时轻量级高清地图构建能力集成到自动驾驶系统中最近成为一个有前途的方向。在这一浪潮中，仅视觉感知脱颖而出，因为相机设备仍然可以感知立体信息，更不用说其便携性和经济性的吸引人的标志了。最新的MapTR架构以端到端的方式解决了在线高清地图构建任务，但其潜力仍有待探索。在这项工作中，我们提出了 MapTR 的全面升级，并提出了下一代高清地图学习架构 MapNeXt，从模型训练和缩放角度做出了重大贡献。在阐明MapTR的训练动态并充分利用地图元素的监督之后，MapNeXt Tiny将MapTR Tiny的mAP从49.0提高到54.8，而没有任何架构修改。享受地图分割预训练的成果后，MapNeXt Base 将 mAP 进一步提升至 63.9，比现有技术（多模态 MapTR）提高了 1.4 倍，同时速度提高了 sim1.8 倍。为了将性能前沿推向新的水平，我们得出两个结论：实际模型扩展增加的查询有利于更大的解码器网络以进行充分消化，大型骨干网稳定地提高最终的准确性，而无需花哨。基于这两条经验法则，MapNeXt Huge 在具有挑战性的 nuScenes 基准测试中实现了最先进的性能。

RSUD20K: A Dataset for Road Scene Understanding In Autonomous Driving

Authors Hasib Zunair, Shakib Khan, A. Ben Hamza
道路场景理解对于自动驾驶至关重要，它使机器能够感知视觉环境。然而，最近为学习从某些地理位置收集的数据集而定制的物体检测器很难在不同的位置进行泛化。在本文中，我们提出了 RSUD20K，这是一个用于道路场景理解的新数据集，由孟加拉国道路驾驶视角的超过 20K 高分辨率图像组成，并包含 13 个物体的 130K 边界框注释。这个具有挑战性的数据集涵盖了不同的道路场景、狭窄的街道和高速公路，具有不同视角的物体以及来自拥挤环境、物体密集和各种天气条件的场景。我们的工作显着改进了以前的工作，提供了详细的注释并增加了对象的复杂性。

Semi-supervised Semantic Segmentation using Redesigned Self-Training for White Blood Cel

Authors Vinh Quoc Luu, Duy Khanh Le, Huy Thanh Nguyen, Minh Thanh Nguyen, Thinh Tien Nguyen, Vinh Quang Dinh
人工智能在医疗保健领域，特别是在白细胞癌症诊断方面，受到两个主要挑战的阻碍：缺乏用于白细胞 WBC 分割的大规模标记数据集和过时的分割方法。为了解决第一个挑战，应该引入半监督学习框架来有效地注释大型数据集。在这项工作中，我们通过提出一种结合 FixMatch 的新颖的自我训练管道来解决这个问题。我们发现，通过将 FixMatch 合并到自训练管道中，大多数情况下性能都会提高。

City Scene Super-Resolution via Geometric Error Minimization

Authors Zhengyang Lu, Feng Wang
超分辨率技术对于提高图像粒度至关重要，特别是在复杂的城市场景中，其中保留几何结构对于数据知情的文化遗产应用至关重要。在本文中，我们提出了一种通过几何误差最小化的城市场景超分辨率方法。几何一致机制利用霍夫变换提取城市场景中的规则几何特征，从而能够计算低分辨率和高分辨率图像之间的几何误差。通过最小化超分辨率过程中的混合均方误差和几何对准误差，该方法有效地恢复了细节和几何规律。

SpineCLUE: Automatic Vertebrae Identification Using Contrastive Learning and Uncertainty Estimation

Authors Sheng Zhang, Minheng Chen, Junxian Wu, Ziyue Zhang, Tonglong Li, Cheng Xue, Youyong Kong
任意视野中的椎骨识别在诊断脊柱疾病中起着至关重要的作用。大多数脊柱 CT 仅包含局部区域，例如颈部、胸部和腹部。因此，识别不应依赖于特定的椎骨或可见的特定数量的椎骨。脊柱层面的现有方法无法应对这一挑战。在本文中，我们提出了一种三阶段方法来解决椎骨级别 3D CT 椎骨识别的挑战。通过顺序执行椎骨定位、分割和识别的任务，在整个过程中有效地利用了椎骨的解剖先验信息。具体来说，我们引入了双因子密度聚类算法来获取单个椎骨的定位信息，从而促进后续的分割和识别过程。此外，为了解决类间相似性和类内变异性问题，我们通过使用监督对比学习方法来预训练我们的识别网络。为了进一步优化识别结果，我们估计了分类网络的不确定性，并利用消息融合模块来组合不确定性分数，同时聚合有关脊柱的全局信息。我们的方法在 VerSe19 和 VerSe20 挑战基准上取得了最先进的结果。

3D Landmark Detection on Human Point Clouds: A Benchmark and A Dual Cascade Point Transformer Framework

Authors Fan Zhang, Shuyi Mao, Qing Li, Xiaojiang Peng
3D 地标检测在 3D 配准、姿态估计和虚拟试穿等各种应用中发挥着关键作用。尽管在 2D 人体地标检测或姿态估计方面取得了相当大的成功，但有关无序 3D 点云中地标检测的报道工作却明显缺乏。本文介绍了一个新的挑战，即人体点云上的 3D 地标检测，提出了两个主要贡献。首先，我们建立了一个全面的人体点云数据集，名为 HPoint103，旨在支持 3D 地标检测社区。该数据集包含使用商业软件和参与者创建的 103 个人类点云，每个点云均手动注释有 11 个稳定地标。其次，我们提出了一种双级联点变压器 D CPT 模型，用于基于点的精确地标检测。 D CPT 通过跨整个点云流的级联 Transformer 解码器层逐渐细化地标，同时使用 RefineNet 在局部区域增强地标坐标。在 HPoint103 和公共数据集 DHP19 上与流行的基于点的方法进行的比较评估证明了我们的 D CPT 的显着优异性能。

MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for Facial Expression Recognition

Authors Fan Zhang, Xiaobao Guo, Xiaojiang Peng, Alex Kot
面部表情识别 FER 的前沿研究目前倾向于使用卷积神经网络 CNN 主干，该主干在面部识别数据集上进行有监督的预训练以进行特征提取。然而，由于人脸识别数据集规模庞大，而且收集人脸标签的成本很高，这种预训练范式会产生大量费用。为此，我们建议通过中型通用图像数据集的自监督方法来预训练视觉 Transformers ViT。此外，与人脸数据集和 FER 数据集之间存在的域差异相比，通用数据集和 FER 数据集之间的差异更加明显。因此，我们提出了一种对比微调方法来有效减轻这种域差异。具体来说，我们引入了一种新颖的 FER 训练范例，名为 Mask Image pretraining with MIx Contrastive Finetuning MIMIC 。在初始阶段，我们通过一般图像上的掩模图像重建来预训练 ViT。随后，在微调阶段，我们引入了混合监督对比学习过程，通过混合策略以更广泛的正样本增强模型。通过对三个基准数据集进行的广泛实验，我们证明了我们的 MIMIC 优于之前的训练范式，显示了其学习更好表示的能力。值得注意的是，结果表明普通 ViT 无需复杂的辅助设计模块即可实现令人印象深刻的性能。

Application of 2D Homography for High Resolution Traffic Data Collection using CCTV Cameras

Authors Linlin Zhang, Xiang Yu, Abdulateef Daud, Abdul Rashid Mussah, Yaw Adu Gyamfi
交通摄像头仍然是拥堵和事件监控等监控活动的主要来源数据。迄今为止，由于当前自动视觉系统的局限性，包括复杂的相机校准要求和无法生成高分辨率数据，国家机构继续依靠手动从网络相机中提取数据。本研究实施了一个三阶段视频分析框架，用于从基础设施安装的闭路电视摄像机中提取高分辨率交通数据，例如车辆数量、速度和加速度。该框架的关键组件包括对象识别、透视变换和用于交通数据收集的车辆轨迹重建。首先，采用最先进的车辆识别模型来检测和分类车辆。接下来，为了校正摄像机失真并减少部分遮挡，采用受两点线性透视启发的算法自动提取感兴趣区域 ROI，同时 2D 单应性技术将 CCTV 视图转换为鸟瞰图 BEV。相机使用两层矩阵系统进行校准，通过将图像坐标转换为现实世界的测量值来提取速度和加速度。使用两个基于时空特征的对象跟踪器（即 Motpy 和 BYTETrack）在 BEV 中构建和比较各个车辆轨迹。当前研究的结果显示，与探测数据源的估计相比，定向交通计数的错误率约为 4.5，摄像机估计之间的速度偏差小于 10 MSE。

Self-supervised Event-based Monocular Depth Estimation using Cross-modal Consistency

Authors Junyu Zhu, Lina Liu, Bofeng Jiang, Feng Wen, Hongbo Zhang, Wanlong Li, Yong Liu
事件相机是一种新颖的视觉传感器，可以捕获每个像素的亮度变化并输出异步事件流。在高速运动和具有挑战性的照明条件的场景中，它比传统相机具有高时间分辨率、高动态范围、低带宽、低功耗和无运动模糊的优势。因此，提出了几种基于事件的有监督单目深度估计来解决传统相机难以处理的场景。然而，深度注释成本高昂且耗时。在本文中，为了降低注释成本，我们提出了一种基于自监督事件的单目深度估计框架，名为 EMoDepth。 EMoDepth 使用与像素坐标中的事件对齐的强度帧的跨模式一致性来约束训练过程。而且，在推理中，仅使用事件来进行单目深度预测。此外，我们设计了一种多尺度跳跃连接架构，以有效融合深度估计的特征，同时保持高推理速度。

Depth-agnostic Single Image Dehazing

Authors Honglei Xu, Yan Shu, Shaohui Liu
单图像去雾是一个具有挑战性的不适定问题。用于训练基于深度学习的方法的现有数据集可以通过手工制作或合成方案生成。然而，前者通常会受到小尺度的影响，而后者则迫使模型学习场景深度而不是雾霾分布，从而降低了其去雾能力。为了克服这个问题，我们提出了一种简单而新颖的合成方法来解耦雾霾密度和场景深度之间的关系，通过该方法生成与深度无关的数据集 DA HAZE。同时，提出了全局洗牌策略GSS，用于生成不同尺度的数据集，从而增强模型的泛化能力。大量实验表明，在 DA HAZE 上训练的模型在现实世界基准上取得了显着改进，SOTS 与 DA HAZE 测试集 DA SOTS 之间的差异较小。此外，由于缺乏先验深度，深度无关的去雾是一项更加复杂的任务。因此，需要一种具有更强特征建模能力和更少计算成本的高效架构。我们重新审视基于 U Net 的去雾架构，其中包含专门设计的模块。然而，块的性能受到有限的特征融合方法的限制。为此，我们提出了一个卷积跳跃连接 CSC 模块，允许普通特征融合方法以最小的成本实现有希望的结果。大量的实验结果证明了当前最先进的方法。

Enhanced Few-Shot Class-Incremental Learning via Ensemble Models

Authors Mingli Zhu, Zihao Zhu, Sihong Chen, Chen Chen, Baoyuan Wu
Few Shot 类增量学习 FSCIL 旨在不断地用有限的训练数据适应新的类，同时保持以前学习的类的性能。主要挑战是过度拟合罕见的新训练样本和忘记旧课程。虽然灾难性遗忘已被广泛研究，但过拟合问题在 FSCIL 中引起的关注较少。为了解决过度拟合的挑战，我们设计了一个新的集成模型框架，与数据增强相结合以提高泛化能力。这样，增强模型就像一个存储丰富特征的库，以保证快速适应下游任务。具体来说，多输入多输出集成结构应用了空间感知数据增强策略，旨在使特征提取器多样化并减轻增量会话中的过度拟合。此外，还集成了自监督学习，进一步提高模型泛化能力。

Unsupervised Domain Adaptation Using Compact Internal Representations

Authors Mohammad Rostami
解决无监督域适应的主要技术涉及将源域和目标域的数据点映射到共享嵌入空间。训练映射编码器到嵌入空间，使得嵌入空间变得与域无关，从而允许在源域上训练的分类器在目标域上很好地泛化。为了进一步增强无监督域适应 UDA 的性能，我们开发了一种附加技术，使源域的内部分布更加紧凑，从而提高模型在目标域中的泛化能力。我们证明，通过增加数据之间的间隔通过嵌入空间中不同类的表示，我们可以提高 UDA 的模型性能。为了使内部表示更加紧凑，我们将内部学习的源域多模态分布估计为高斯混合模型 GMM 。利用估计的 GMM，我们增强了源域中不同类之间的分离，从而减轻了域移位的影响。我们提供理论分析来支持我们的方法的表现。为了评估我们方法的有效性，我们对广泛使用的 UDA 基准 UDA 数据集进行了实验。

Exploring Compressed Image Representation as a Perceptual Proxy: A Study

Authors Chen Hsiu Huang, Ja Ling Wu
我们提出了一种端到端学习图像压缩编解码器，其中分析变换与对象分类任务联合训练。这项研究证实，压缩的潜在表示可以预测人类感知距离判断，其准确度可与定制的基于 DNN 的质量指标相媲美。我们进一步研究了各种神经编码器，并证明了使用分析变换作为感知损失网络来处理超出质量判断的图像任务的有效性。我们的实验表明，现成的神经编码器在感知建模方面表现出色，无需额外的 VGG 网络。

Left-right Discrepancy for Adversarial Attack on Stereo Networks

Authors Pengfei Wang, Xiaofei Hui, Beijia Lu, Nimrod Lilith, Jun Liu, Sameer Alam
立体匹配神经网络通常涉及连体结构，以从左图像和右图像中提取中间特征。这些中间左右特征之间的相似性显着影响视差估计的准确性。在本文中，我们介绍了一种新颖的对抗性攻击方法，该方法生成专门设计用于最大化左右图像特征之间的差异的扰动噪声。大量的实验证明了我们的方法在立体神经网络中引起更大的预测误差的卓越能力，例如在 KITTI 数据集上比现有最先进的攻击方法高出 219 MAE，在 Scene Flow 数据集上比现有最先进的攻击方法高出 85 MAE。此外，我们扩展了我们的方法，包括代理网络黑盒攻击方法，消除了访问立体神经网络的需要。该方法利用来自不同视觉任务的任意网络作为代理来生成对抗性噪声，从而有效地导致立体网络产生错误的预测。

A New Method of Pixel-level In-situ U-value Measurement for Building Envelopes Based on Infrared Thermography

Authors Zihao Wang, Yu Hou, Lucio Soibelman
老化建筑潜在的能源损失使业主陷入运营资金不足和维护成本过高的恶性循环。想要生成目标建筑的能源模型以进行性能评估的能源审计员可能很难获得准确的结果，因为在计算建筑围护结构的 U 值时没有考虑温度的空间分布。本文提出一种基于红外热成像IRT的像素级方法，考虑目标墙体室外和室内表面的二维2D空间温度分布，生成墙体的2D U值图。

Deep Blind Super-Resolution for Satellite Video

Authors Yi Xiao, Qiangqiang Yuan, Qiang Zhang, Liangpei Zhang
最近的努力见证了卫星视频超分辨率SVSR的显着进展。然而，大多数 SVSR 方法通常假设退化是固定且已知的，例如双三次下采样，这使得它们在具有多个未知退化的现实世界场景中很容易受到攻击。为了缓解这一问题，盲SR因此成为研究热点。然而，现有方法主要从事模糊核估计，而忽视了 VSR 任务时间补偿的另一个关键方面，特别是补偿严重退化的卫星视频中具有重要清晰度的模糊和平滑像素。因此，本文提出了一种实用的盲SVSR算法BSVSR，通过从粗到细的方式考虑像素模糊级别来探索更清晰的线索。具体来说，我们采用多尺度可变形卷积，通过窗口滑动渐进融合将时间冗余粗略地聚合到相邻帧中。然后使用可变形注意力将相邻特征精细地合并到中间特征中，该特征测量像素的模糊程度并为信息像素分配更多权重，从而激发锐度的表示。此外，我们设计了金字塔空间变换模块来调整锐中间特征的解空间，从而在多级域中实现灵活的特征适应。对模拟和现实世界卫星视频的定量和定性评估表明，我们的 BSVSR 的性能优于最先进的非盲和盲 SR 模型。

Concrete Surface Crack Detection with Convolutional-based Deep Learning Models

Authors Sara Shomal Zadeh, Sina Aalipour birgani, Meisam Khorshidi, Farhad Kooban
有效的裂缝检测对于建筑物的结构健康监测和检查至关重要。由于裂缝固有的微妙性质，该任务对计算机视觉技术提出了巨大的挑战，裂缝通常表现出低级特征，很容易与背景纹理、异物或结构中的不规则性混淆。此外，照明不均匀和施工不规则等问题的存在给建筑检查和监控期间的自动裂缝检测带来了重大障碍。卷积神经网络 CNN 已成为一种很有前景的裂纹检测框架，可提供高水平的准确度和精确度。此外，通过迁移学习调整预训练网络的能力为用户提供了宝贵的工具，无需深入了解算法的复杂性。然而，在部署 CNN 时必须承认其局限性和考虑因素，特别是在结果具有重大意义的情况下，例如建筑物中的裂缝检测。在本文中，我们的表面裂纹检测方法涉及利用各种深度学习模型。具体来说，我们在预先训练的深度学习架构 VGG19、ResNet50、Inception V3 和 EfficientNetV2 上采用微调技术。选择这些模型是因为它们在图像分析任务中的既定性能和多功能性。

Revisiting Sampson Approximations for Geometric Estimation Problems

Authors Felix Rydell, Ang lica Torres, Viktor Larsson
计算机视觉中的许多问题可以表述为几何估计问题，即给定一组测量值，例如我们希望拟合模型的点对应关系，例如一个与我们的观察结果一致的基本矩阵。这就需要对观察结果与给定模型的一致程度进行某种测量。自然的选择是考虑使观测完全满足约束的最小扰动。然而，对于许多问题来说，这个指标成本高昂或者难以计算。所谓的桑普森误差通过线性化方案近似该几何误差。

Exploring Adversarial Attacks against Latent Diffusion Model from the Perspective of Adversarial Transferability

Authors Junxi Chen, Junhao Dong, Xiaohua Xie
最近，许多研究利用对抗性示例 AE 来提高由潜在扩散模型 LDM 驱动的恶意图像编辑和版权侵犯的成本。尽管取得了成功，但仍有一些人研究了他们用来生成 AE 的替代模型。在本文中，从对抗性可迁移性的角度，我们研究了代理模型的属性如何影响 LDM 的 AE 性能。具体来说，我们将基于蒙特卡罗的 MC 对抗攻击中的时间步采样视为选择代理模型。我们发现不同时间步长的代理模型的平滑度不同，并且通过选择更平滑的代理模型，我们显着提高了基于 MC 的 AE 的性能。

GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching

Authors Haibin He, Maoyuan Ye, Jing Zhang, Juhua Liu, Dacheng Tao
除了图像文本识别中的文本检测和识别任务之外，视频文本识别还因包含跟踪而面临更大的挑战。虽然先进的端到端可训练方法已显示出值得称赞的性能，但追求多任务优化可能会带来为单个任务产生次优结果的风险。在本文中，我们强调了最先进的视频文本识别器的主要瓶颈：有限的识别能力。针对这个问题，我们建议有效地将现成的基于查询的图像文本识别器转变为视频专家，并提出一个名为 GoMatching 的简单基线，它将训练工作重点放在跟踪上，同时保持强大的识别性能。为了使图像文本识别器适应视频数据集，我们添加了一个重新评分头，通过有效的调整对每个检测到的实例的置信度重新评分，从而形成更好的跟踪候选池。此外，我们设计了一个长期短期匹配模块，称为 LST Matcher，通过 Transformer 集成长期和短期匹配结果来增强观察者的跟踪能力。基于上述简单的设计，GoMatching 在两个公共基准测试中取得了令人印象深刻的性能，例如在 ICDAR15 视频数据集和一个具有任意形状文本的新颖测试集上创造了新记录，同时节省了大量的训练预算。

Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition

Authors Hefeng Wu, Guangzhi Ye, Ziyang Zhou, Ling Tian, Qing Wang, Liang Lin
学习从少量图像样本中识别新概念非常具有挑战性，因为学习的模型很容易在少量数据上过度拟合，导致泛化性较差。一种有前途但尚未充分探索的解决方案是通过生成合理的样本来补偿新类别。然而，该系列的大多数现有作品仅利用视觉信息，使得生成的数据很容易被少数可用样本中包含的一些具有挑战性的因素分散注意力。意识到反映人类概念的文本模态中的语义信息，这项工作提出了一种新颖的框架，利用语义关系来指导双视图数据幻觉，以进行少镜头图像识别。所提出的框架能够通过基类的有效信息传输为新类生成更加多样化和合理的数据样本。具体来说，实例视图数据幻觉模块通过采用从基类导出的局部语义相关注意力和全局语义特征融合来幻觉新类的每个样本以生成新数据。同时，原型视图数据幻觉模块利用语义感知措施来估计新类的原型以及少数样本的相关分布，从而将原型收获为更稳定的样本，并能够对大量样本进行重采样。

Image edge enhancement for effective image classification

Authors Tianhao Bu, Michalis Lazarou, Tania Stathaki
图像分类由于其在现实世界应用中的可行性而成为一项流行的任务。通过向神经网络提供 RGB 图像来训练神经网络已经证明是成功的。然而，提高该过程的分类准确性和计算效率仍然是研究人员正在积极解决的挑战。一种广泛流行的提高神经网络分类性能的方法是在训练过程中合并数据增强。数据增强是简单的转换，可以创建训练数据的稍微修改的版本，并且可以非常有效地训练神经网络以减轻过度拟合并提高其准确性性能。在这项研究中，我们从高增强图像过滤中汲取灵感，并提出了一种基于边缘增强的方法，作为提高神经网络的准确性和训练速度的手段。具体来说，我们的方法涉及从可用数据集中的图像中提取高频特征，例如边缘，并将它们与原始图像融合，以生成新的、丰富的图像。

Weak Labeling for Cropland Mapping in Africa

Authors Gilles Quentin Hacheme, Akram Zaytar, Girmaw Abebe Tadesse, Caleb Robinson, Rahul Dodhia, Juan M. Lavista Ferres, Stephen Wood
农田测绘可以在应对环境、农业和粮食安全挑战方面发挥至关重要的作用。然而，在非洲，实际应用往往因高分辨率农田地图的有限性而受到阻碍。此类地图通常需要大量的人工标记，从而造成可扩展性瓶颈。为了解决这个问题，我们提出了一种利用无监督对象聚类来细化现有弱标签的方法，例如从全球农田地图中获得的标签。精炼的标签与稀疏的人工注释相结合，作为旨在识别农田区域的语义分割网络的训练数据。我们进行实验来证明我们的方法生成的改进的弱标签的好处。

Datasets, Clues and State-of-the-Arts for Multimedia Forensics: An Extensive Review

Authors Ankit Yadav, Dinesh Kumar Vishwakarma
随着每天产生大量社交媒体数据以及现实多媒体篡改方法的并行兴起，检测和定位图像和视频中的篡改变得至关重要。这项调查的重点是使用深度学习模型对多媒体数据进行篡改检测的方法。具体来说，它对公开的恶意操纵检测基准数据集进行了详细分析。它还提供了篡改线索和常用深度学习架构的完整列表。接下来，讨论当前最先进的篡改检测方法，将它们分类为有意义的类型，例如 Deepfake 检测方法、拼接篡改检测方法、复制移动篡改检测方法等，并讨论它们的优缺点。还讨论了在基准数据集上取得的最佳结果、深度学习方法与传统方法的比较以及最近篡改检测方法的重要见解。

Towards Effective Image Forensics via A Novel Computationally Efficient Framework and A New Image Splice Dataset

Authors Ankit Yadav, Dinesh Kumar Vishwakarma
剪接检测模型是当前的需要，因为剪接操作可能被用来误导、传播谣言并在社会上制造不和谐。然而，图像拼接数据集严重缺乏，这限制了深度学习模型在不过度拟合的情况下提取判别性特征的能力。这份手稿对剪接检测做出了两方面的贡献。首先，提出了一种具有两种变体的新颖的剪接检测数据集。这两个变体包括通过代码和手动编辑生成的拼接样本。两种变体中的拼接图像都有相应的二进制掩模来帮助定位方法。其次，提出了一种新颖的空间压缩轻量级拼接检测框架，以最小的计算成本进行精确的拼接检测。所提出的双分支框架从轻量级空间分支中提取有区别的空间特征。它使用原始分辨率压缩数据从第二分支中提取双重压缩伪影，从而使其信息保留。在来自提议数据集和 CASIA v2.0 数据集的图像复合数据集上，结合提议的框架对多个 CNN 进行了测试。

A Visually Attentive Splice Localization Network with Multi-Domain Feature Extractor and Multi-Receptive Field Upsampler

Authors Ankit Yadav, Dinesh Kumar Vishwakarma
图像拼接操作在当今社会提出了严峻的挑战。通过轻松访问图像处理工具，修改可能误导个人、组织或社会的图像比以往任何时候都更容易。在这项工作中，提出了一种具有多域特征提取器和多感受野上采样器的新颖的视觉注意力拼接定位网络。它包含一个独特的视觉注意力多域特征提取器 VA MDFE，可从 RGB、边缘和深度域中提取注意力特征。接下来，视觉上的下采样器 VA DS 负责融合和下采样多域特征。最后，一种新颖的视觉注意力多感受野上采样器 VA MRFU 模块采用基于多个感受野的卷积，通过关注不同的信息尺度来对注意力特征进行上采样。在公共基准数据集 CASIA v2.0 上进行的实验结果证明了所提出模型的有效性。

UniVision: A Unified Framework for Vision-Centric 3D Perception

Authors Yu Hong, Qian Liu, Huayuan Cheng, Danjiao Ma, Hang Dai, Yu Wang, Guangzhi Cao, Yong Ding
过去几年见证了以视觉为中心的3D感知在自动驾驶领域的快速发展。尽管3D感知模型在结构和概念上有许多相似之处，但在特征表示、数据格式和目标方面仍然存在差距，这给统一、高效的3D感知框架设计带来了挑战。在本文中，我们提出了 UniVision，这是一个简单而高效的框架，它统一了以视觉为中心的 3D 感知中的两个主要任务，即占用预测和对象检测。具体来说，我们提出了一种用于互补 2D 3D 特征变换的显式隐式视图变换模块。我们提出了一种局部全局特征提取和融合模块，用于高效、自适应体素和 BEV 特征提取、增强和交互。此外，我们提出了联合占用检测数据增强策略和渐进式损失权重调整策略，从而提高了多任务框架训练的效率和稳定性。我们在四个公共基准上针对不同的感知任务进行了广泛的实验，包括 nuScenes LiDAR 分割、nuScenes 检测、OpenOccupancy 和 Occ3D。 UniVision 在每个基准测试中分别获得了 1.5 mIoU、1.8 NDS、1.5 mIoU 和 1.8 mIoU 的最先进结果。我们相信 UniVision 框架可以作为以视觉为中心的统一 3D 感知任务的高性能基准。

Progressive Feature Fusion Network for Enhancing Image Quality Assessment

Authors Kaiqun Wu, Xiaoling Jiang, Rui Yu, Yonggang Luo, Tian Jiang, Xi Wu, Peng Wei
图像压缩已应用于图像存储和视频广播领域。然而，区分不同算法生成的扭曲图像之间细微的质量差异非常困难。在本文中，我们提出了一种新的图像质量评估框架来决定图像组中哪张图像更好。为了捕捉细微的差异，采用细粒度网络来获取多尺度特征。随后，我们设计了一个交叉减法块，用于分离和收集正负图像对中的信息。在特征空间中启用图像比较。之后，设计了渐进式特征融合块，以新颖的渐进方式融合多尺度特征。因此，可以逐步处理分层空间二维特征。

ENTED: Enhanced Neural Texture Extraction and Distribution for Reference-based Blind Face Restoration

Authors Yuen Fui Lau, Tianjia Zhang, Zhefan Rao, Qifeng Chen
我们提出了 ENTED，一个用于盲人面部恢复的新框架，旨在恢复高质量和逼真的肖像图像。我们的方法涉及使用高质量参考图像修复单个退化的输入图像。我们利用纹理提取和分布框架在降级的输入和参考图像之间传输高质量的纹理特征。然而，我们框架中的类似 StyleGAN 的架构需要高质量的潜在代码来生成逼真的图像。从退化的输入图像中提取的潜在代码通常包含损坏的特征，使得难以将输入的语义信息与参考的高质量纹理对齐。为了克服这一挑战，我们采用了两种特殊技术。第一种技术受矢量量化启发，用高质量的码字替换损坏的语义特征。第二种技术生成风格代码，这些代码携带来自使用参考图像流形中的高质量特征开发的信息更丰富的潜在空间的真实纹理信息。对合成和现实世界数据集进行的广泛实验表明，我们的方法产生的结果具有更真实的上下文细节，并且优于最先进的方法。

Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud Semantic Segmentation via Decoupling Optimization

Authors Mengtian Li, Shaohui Lin, Zihan Wang, Yunhang Shen, Baochang Zhang, Lizhuang Ma
半监督学习SSL由于数据标注成本的显着降低，一直是大规模3D场景理解的活跃研究课题。然而，现有的基于 SSL 的方法存在严重的训练偏差，这主要是由于点云数据的类不平衡和长尾分布造成的。因此，它们导致尾部类别分割的预测存在偏差。在本文中，我们引入了一种新的解耦优化框架，该框架以另一种优化方式解开特征表示学习和分类器，以有效地改变偏差决策边界。特别是，我们首先采用两轮伪标签生成来选择从头到尾的类中的未标记点。我们进一步引入多类不平衡焦点损失，以自适应地更多地关注跨头到尾类的特征学习。我们在特征学习后修复主干参数，并使用地面实况点重新训练分类器来更新其参数。

Transformer for Object Re-Identification: A Survey

Authors Mang Ye, Shuoyi Chen, Chenyue Li, Wei Shi Zheng, David Crandall, Bo Du
对象重新识别 Re ID 旨在从不同的角度识别和检索特定对象。长期以来，该领域主要由深度卷积神经网络驱动。近年来，Transformer 见证了计算机视觉领域的显着进步，促使越来越多的研究机构深入研究 Transformer 在 Re ID 中的应用。本文对基于 Transformer 的 Re ID 进行了全面的回顾和深入的分析。在将现有作品分类为基于图像视频的 Re ID、具有有限数据注释的 Re ID、跨模态 Re ID 和特殊 Re ID 场景时，我们彻底阐明了 Transformer 在解决这些领域的众多挑战方面所表现出的优势。考虑到无监督 Re ID 的趋势，我们提出了一个新的 Transformer 基线 UntransReID，在两个单一跨模态任务上实现了最先进的性能。此外，本次调查还涵盖了广泛的Re ID研究对象，包括动物Re ID的进展。鉴于动物 Re ID 中物种的多样性，我们设计了标准化的实验基准，并进行了大量的实验来探索 Transformer 在此任务中的适用性，以促进未来的研究。

EVOKE: Emotion Enabled Virtual Avatar Mapping Using Optimized Knowledge Distillation

Authors Maryam Nadeem, Raza Imam, Rouqaiah Al Refai, Meriem Chkir, Mohamad Hoda, Abdulmotaleb El Saddik
随着虚拟环境的不断发展，对沉浸式和情感参与体验的需求不断增长。为了满足这一需求，我们引入了使用优化知识蒸馏 EVOKE 实现情感支持的虚拟化身映射，EVOKE 是一种轻量级情感识别框架，旨在将情感识别无缝集成到虚拟环境中的 3D 化身中。我们的方法利用知识蒸馏，涉及公开可用的 DEAP 数据集上的多标签分类，其中涵盖效价、唤醒度和支配性作为主要情绪类别。值得注意的是，我们的蒸馏模型（仅具有两个卷积层且参数比教师模型少 18 倍的 CNN）取得了有竞争力的结果，准确率达到 87，同时所需的计算资源却少得多。性能和可部署性之间的这种平衡使我们的框架成为虚拟环境系统的理想选择。

3D Object Detection and High-Resolution Traffic Parameters Extraction Using Low-Resolution LiDAR Data

Authors Linlin Zhang, Xiang Yu, Armstrong Aboah, Yaw Adu Gyamfi
交通量数据收集是交通工程和城市规划的一个重要方面，因为它提供了有关交通模式、拥堵和基础设施效率的重要见解。传统的手动交通数据收集方法既耗时又昂贵。然而，现代技术的出现，特别是光探测和测距激光雷达，通过实现高效、准确的数据收集，彻底改变了这一过程。尽管使用激光雷达进行交通数据收集有很多好处，但之前的研究已经发现了阻碍其广泛采用的两个主要限制。这些是需要多个 LiDAR 系统来获取感兴趣物体的完整点云信息，以及为物体检测任务注释 3D 边界框的劳动密集型过程。为了应对这些挑战，当前的研究提出了一种创新框架，可以减轻对多个 LiDAR 系统的需求，并简化繁琐的 3D 注释过程。为了实现这一目标，该研究采用了单一激光雷达系统，旨在降低数据采集成本，并通过开发点云补全PCC框架来利用点密度填充缺失的点云信息来解决其伴随的缺失点云信息的局限性。此外，我们还使用零样本学习技术来检测车辆和行人，并提出了一种独特的框架，用于从感兴趣的对象中提取从低到高的特征，例如高度、加速度和速度。

APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning

Authors Guiming Cao, Kaize Shi, Hong Fu, Huaiwen Zhang, Guandong Xu
预先训练的 Vision Language V L 模型为值得注意的竞争者中下游任务的泛化设定了基准。现有研究已经探索了 V L 模型的许多特征，包括对文本输入敏感度的挑战以及跨多模态提示的调整过程。随着像 CLIP 这样的 VL 模型的高级利用，最近的方法部署了可学习的提示而不是手工提示，以提高泛化性能并解决上述挑战。受到图像融合中广泛使用的逐层训练的启发，我们注意到使用顺序训练过程来有效地适应 CLIP 的不同模态分支有助于提高泛化能力。在解决多模式提示挑战的背景下，我们提出了用于多模式提示学习的令牌明智自适应 APLe，用于以顺序方式将模式提示、视觉和语言调整为令牌。 APLe 解决了 VL 模型中的挑战，以促进跨两种模式的快速学习，这表明其具有符合最新技术水平的竞争性泛化性能。

Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification

Authors Jiangming Shi, Xiangbo Yin, Yeyun Chen, Yachao Zhang, Zhizhong Zhang, Yuan Xie, Yanyun Qu
无监督可见红外人员重新识别 USL VI ReID 是一项有前途但具有挑战性的检索任务。 USL VI ReID 的关键挑战是有效生成伪标签并跨模态建立伪标签对应关系，而不依赖于任何先前的注释。最近，聚类伪标签方法在 USL VI ReID 中获得了更多关注。然而，以前的方法未能充分利用个体的细微差别，因为它们只是利用代表身份的单个记忆来建立跨模态对应，从而导致模糊的跨模态对应。为了解决这个问题，我们提出了一种用于 USL VI ReID 的多内存匹配 MMM 框架。我们首先设计一个跨模态聚类 CMC 模块，通过将两个模态样本聚类在一起来生成伪标签。为了关联跨模态聚类伪标签，我们设计了多记忆学习和匹配 MMLM 模块，确保优化明确关注个体观点的细微差别并建立可靠的跨模态对应。最后，我们设计了一个软集群级对齐 SCA 模块，以缩小模态差距，同时通过软多对多对齐策略减轻噪声伪标签的影响。对公共 SYSU MM01 和 RegDB 数据集的大量实验证明了所建立的跨模态对应的可靠性以及我们的 MMM 的有效性。

Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data

Authors Yuhui Zhang, Elaine Sui, Serena Yeung Levy
由于配对多模态数据有限，构建跨模态应用程序具有挑战性。最近的工作表明，利用预先训练的多模态对比表示空间可以从单模态数据中学习跨模态任务。这是基于这样的假设：对比优化使得不同模态的嵌入可以互换。然而，由于对存在模态间隙的多模态对比空间的几何形状了解甚少，这一假设尚未得到探索。在我们的研究中，我们提供了该空间几何的理论解释，并引入了三步方法：C 3 Connect、Collapse、Corrupt，以弥合模态差距，增强嵌入的可互换性。

Registration of algebraic varieties using Riemannian optimization

Authors Florentin Goyens, Coralia Cartis, St phane Chr tien
我们考虑点云配准问题，即找到表示同一对象但在不同坐标系中表达的两个点云之间的变换的任务。我们的方法不是基于点对点对应关系，将源点云中的每个点与目标点云中的点进行匹配。相反，我们假设并利用数据的低维非线性几何结构。首先，我们通过代数簇（由有限多个多项式方程定义的集合）来近似每个点云。这是通过使用代数簇和多项式基之间的联系解决格拉斯曼流形上的优化问题来完成的。其次，我们解决正交群上的优化问题，以找到使两个代数簇重叠的变换旋转平移。我们使用二阶黎曼优化方法来求解这两个步骤。提供了真实数据和合成数据的数值实验，并取得了令人鼓舞的结果。当两个点云描述对象的不同部分（甚至可能不重叠）时，我们的方法特别有用，条件是对象的表面可以通过一组多项式方程很好地近似。第一个过程的近似具有独立的意义，因为它可用于对属于代数簇的数据进行去噪。

GATS: Gather-Attend-Scatter

Authors Konrad Zolna, Serkan Cabi, Yutian Chen, Eric Lau, Claudio Fantacci, Jurgis Pasukonis, Jost Tobias Springenberg, Sergio Gomez Colmenarejo
随着人工智能社区越来越多地采用大规模模型，开发通用且灵活的工具来集成它们至关重要。我们引入了 Gather attend Scatter GATS，这是一个新颖的模块，可以将预训练的基础模型（可训练的和冻结的）无缝组合到更大的多模态网络中。 GATS 使人工智能系统能够以不同的速率跨多种模式处理和生成信息。与传统的微调相比，GATS 允许原始组件模型保持冻结状态，避免它们丢失在预训练阶段获得的重要知识的风险。

Explanations of Classifiers Enhance Medical Image Segmentation via End-to-end Pre-training

Authors Jiamin Chen, Xuhong Li, Yanwu Xu, Mengnan Du, Haoyi Xiong
医学图像分割旨在使用深度神经网络识别和定位医学图像中的异常结构，例如胸片。这些网络需要大量带有感兴趣区域的细粒度掩模的注释图像，使得基于分类数据集的预训练策略对于样本效率至关重要。基于大规模医学图像分类数据集，我们的工作从训练有素的分类器中收集解释，以生成分割任务的伪标签。具体来说，我们提供了胸部 X 光照片的案例研究，并在 CheXpert 数据集上训练图像分类器，以识别放射学中的 14 个病理观察结果。然后，我们使用 Integrated Gradients IG 方法来提取和增强从分类器获得的解释，生成大量面向诊断的定位标签 DoLL 。这些 DoLL 带注释的图像用于预训练模型，然后针对下游分割任务（包括 COVID 19 感染区域、肺、心脏和锁骨）进行微调。

Three ways that non-differentiability affects neural network training

Authors Siddharth Krishna Kumar
本文研究了不可微性如何影响神经网络训练过程的三个不同方面。我们首先分析具有 ReLU 激活的全连接神经网络，结果表明连续可微神经网络比不可微神经网络收敛得更快。接下来，我们分析 L 1 正则化问题，并表明即使对于 L 1 惩罚线性模型，深度学习求解器生成的解决方案也是不正确且违反直觉的。最后，我们分析了稳定性边缘问题，其中我们表明所有凸、非平滑、Lipschitz 连续函数都表现出不稳定收敛，并提供了使用两次可微函数导出的结果的示例，该结果在一次可微设置中失败。

Faster ISNet for Background Bias Mitigation on Deep Neural Networks

Authors Pedro R. A. S. Bassi, Sergio Decherchi, Andrea Cavalli
图像背景特征可能构成背景偏差虚假相关性并影响深度分类器决策，导致捷径学习聪明汉斯效应并降低对现实世界数据的泛化能力。最近，名为 ISNet 的神经网络架构引入了优化逐层相关性传播 LRP 热图的概念，以改善分类器行为。它最大限度地减少 LRP 图中的背景相关性，以减轻图像背景特征对深度分类器决策的影响，阻碍捷径学习并提高泛化能力。对于每个训练图像，原始 ISNet 在分类任务中为每个可能的类别生成一个热图，因此，其训练时间与类别数量呈线性关系。在这里，我们引入了重新设计的架构，使训练时间独立于这个数字，从而使优化过程更快。我们利用具有合成背景偏差的 MNIST 数据集以及胸部 X 射线中的 COVID 19 检测对增强模型提出了挑战，该应用程序由于背景偏差而容易进行捷径学习。经过训练的模型最大限度地减少了背景注意力并阻碍了快捷学习，同时保持了高精度。考虑到外部分布外测试数据集，它们始终被证明比多种最先进的深度神经网络架构（包括专用图像语义分割器和分类器）更准确。

Training and Comparison of nnU-Net and DeepMedic Methods for Autosegmentation of Pediatric Brain Tumors

Authors Arastoo Vossough, Nastaran Khalili, Ariana M. Familiar, Deep Gandhi, Karthik Viswanathan, Wenxin Tu, Debanjan Haldar, Sina Bagheri, Hannah Anderson, Shuvanjan Haldar, Phillip B. Storm, Adam Resnick, Jeffrey B. Ware, Ali Nabavizadeh, Anahita Fathi Kazerooni
脑肿瘤是最常见的实体瘤，也是儿童癌症相关死亡的主要原因。肿瘤分割对于手术和治疗计划以及反应评估和监测至关重要。然而，手动分割非常耗时，并且操作员之间的可变性很高，这凸显了对更有效方法的需求。在使用基于多参数 MRI 扫描的儿科特定多机构脑肿瘤数据进行训练后，我们比较了两种基于深度学习的 3D 分割模型 DeepMedic 和 nnU Net。对 339 名儿科患者（293 名内部队列和 46 名外部队列）进行多参数术前 MRI 扫描具有多种肿瘤亚型，经过预处理并手动分割为四个肿瘤亚区域，即增强肿瘤 ET 、非增强肿瘤 NET 、囊性成分 CC 和瘤周水肿 ED 。训练后，参考真实手动分割，使用 Dice 分数、灵敏度和 Hausdorff 距离评估两个模型在内部和外部测试集上的性能。 nnU Net 内部测试集的 Dice 分数分别为：WT 为 0.9±0.07±0.94，ET 为 0.77±0.29，NET 为 0.66±0.32，CC 为 0.71±0.33，ED 为 0.71±0.40。对于 DeepMedic，Dice 分数分别为：WT 为 0.82 ± 0.16，ET 为 0.66 ± 0.32，NET 为 0.48 ± 0.27，CC 为 0.48 ± 0.36，ED 为 0.19 ± 0.33。 nnU Net p 0.01 的 Dice 分数显着更高。在多机构 BraTS PEDs 2023 数据集上对经过训练的 nnU Net 模型进行外部验证，显示出在整个肿瘤和肿瘤核心分割方面的高泛化能力，Dice 分数分别为 0.87 0.13 0.91 和 0.83 0.18 0.89。

High-Quality Mesh Blendshape Generation from Face Videos via Neural Inverse Rendering

Authors Xin Ming, Jiawei Li, Jingwang Ling, Libo Zhang, Feng Xu
易于编辑的网格混合形状已广泛用于动画管道中，而神经几何和外观表示方面的最新进展已经实现了高质量的逆渲染。基于这些观察，我们引入了一种新技术，利用最先进的神经逆向渲染，从单个或稀疏的多视图视频中重建基于网格的混合形状装备。我们首先构建一个变形表示，将顶点位移参数化为具有四面体连接的微分坐标，从而允许在高分辨率网格上实现高质量的顶点变形。通过在这种表示中构建一组语义规则，我们实现了混合形状和表达系数的联合优化。此外，为了使用不同步相机实现用户友好的多视图设置，我们提出了一个神经回归器来模拟随时间变化的运动参数。这种方法隐式地考虑了多个摄像机之间的时间差，从而提高了运动建模的准确性。实验表明，通过灵活输入单视图或多视图视频，我们可以重建个性化的高保真混合形状。这些混合形状在几何和语义上都是准确的，并且与工业动画管道兼容。

The Faiss library

Authors Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre Emmanuel Mazar , Maria Lomeli, Lucas Hosseini, Herv J gou
矢量数据库管理大量嵌入矢量。随着人工智能应用程序的快速增长，需要存储和索引的嵌入数量也在快速增长。 Faiss 库致力于矢量相似性搜索，这是矢量数据库的核心功能。 Faiss 是一个包含索引方法和相关原语的工具包，用于搜索、聚类、压缩和转换向量。本文首先描述了向量搜索的权衡空间，然后描述了Faiss在结构、优化方法和接口方面的设计原则。

Augmenting Ground-Level PM2.5 Prediction via Kriging-Based Pseudo-Label Generation

Authors Lei Duan, Ziyang Jiang, David Carlson
将丰富的卫星数据与稀疏的地面测量数据融合是气候建模的主要挑战。为了解决这个问题，我们提出了一种策略来增强训练数据集，通过引入未标记的卫星图像与通过称为普通克里金法的空间插值技术生成的伪标签配对，从而充分利用可用的卫星数据资源。

Cross-Modal Semi-Dense 6-DoF Tracking of an Event Camera in Challenging Conditions

Authors Yi Fan Zuo, Wanting Xu, Xia Wang, Yifu Wang, Laurent Kneip
基于视觉的定位对于许多智能移动平台来说是一种具有成本效益且有吸引力的解决方案。然而，其准确性，尤其是鲁棒性仍然受到低光照条件、光照变化和剧烈运动的影响。基于事件的相机是受生物启发的视觉传感器，在 HDR 条件下表现良好并具有高时间分辨率，因此在这种具有挑战性的场景中提供了一个有趣的替代方案。虽然纯粹基于事件的解决方案目前尚未产生令人满意的映射结果，但目前的工作证明了如果允许使用替代传感器进行映射，则纯粹基于事件的跟踪的可行性。该方法依赖于半密集地图和事件的几何3D 2D配准，并获得高度可靠和准确的跨模态跟踪结果。实际相关场景由深度相机支持的跟踪或基于地图的定位给出，其中半密集地图是由基于常规图像的视觉 SLAM 或运动系统的结构预先创建的。传统的基于边缘的 3D 2D 对齐通过新颖的极性感知注册进行了扩展，该注册利用从事件流获得的带符号的时间表面图 STSM。我们还引入了一种新颖的遮挡点剔除策略。这两种修改都提高了跟踪器的速度及其针对遮挡或大视点变化的鲁棒性。

Spatial Channel State Information Prediction with Generative AI: Towards Holographic Communication and Digital Radio Twin

Authors Lihao Zhang, Haijian Sun, Yong Zeng, Rose Qingyang Hu
随着 5G 技术的日益成熟，人们对 6G 的期望也越来越高，它有望通过尖端的无线电技术提供更快、更可靠的无线连接。然而，对这些无线电技术部署的大规模天线阵列的有效管理方法至关重要。传统的管理方法主要是反应式的，通常根据用户的反馈来适应动态的无线信道。然而，更有前途的方法在于预测空间信道状态信息空间CSI，它是一种全包式的信道表征，由发射机Tx和接收机Rx之间所有可行的视距LoS和非视距NLoS路径组成，具有三维 3D 轨迹、衰减、相移、延迟和每条路径的偏振。硬件和神经网络的进步使得使用精确的环境信息预测此类空间CSI成为可能，并进一步研究全息通信的可能性，这意味着对发射的无线电波的各个方面进行完全控制。基于全息通信和数字孪生的集成，我们提出了一种新的框架——数字无线电孪生，它利用了数字世界和无线电波确定性控制的优势，支持广泛的高水平应用。作为朝着这一愿景方向的初步尝试，在本文中，我们探索使用生成人工智能 AI 来确定给定环境中的有效路径，展示了有希望的结果，并强调了这种方法在推动 6G 演进方面的潜力

How does self-supervised pretraining improve robustness against noisy labels across various medical image classification datasets?

Authors Bidur Khanal, Binod Bhattarai, Bishesh Khanal, Cristian Linte
噪声标签会破坏学习到的特征，从而显着影响医学图像分类，特别是在深度学习中。自监督预训练不依赖于标记数据，可以增强针对噪声标签的鲁棒性。然而，这种鲁棒性会根据类别数量、数据集复杂性和训练规模等因素而变化。在医学图像中，微妙的类间差异和模态特定特征增加了复杂性。考虑到所有这些因素，先前的研究尚未全面探讨医学图像分类中自监督学习和针对噪声标签的鲁棒性之间的相互作用。在本研究中，我们解决了三个关键问题 i 标签噪声如何影响各种医学图像分类数据集 ii 哪些类型的医学图像数据集更难学习并且更容易受到标签噪声的影响 iii 不同的自监督预训练方法如何增强各种不同医学图像数据集的鲁棒性医学图像数据集我们的结果表明，DermNet 在五个数据集 Fetalplane、DermNet、COVID DU Ex、MURA、NCT CRC HE 100K 中最具挑战性，但对噪声标签表现出更强的鲁棒性。

Cesium Tiles for High-realism Simulation and Comparing SLAM Results in Corresponding Virtual and Real-world Environments

Authors Chris Beam, Jincheng Zhang, Nicholas Kakavitsas, Collin Hague, Artur Wolek, Andrew Willis
本文讨论使用模拟环境来预测现实世界中的算法结果。模拟器对于研究人员无需部署昂贵的硬件即可测试算法、传感器集成和导航系统至关重要。本文探讨了如何使用 AirSim 模拟器、Unreal Engine 和 Cesium 插件生成现实世界位置的模拟数字孪生模型。本文讨论了完成分析时遇到的几个技术挑战，并详细介绍了技术解决方案。这项工作研究了如何使用实验位置的数字孪生提供的铯块来评估现实生活实验的测绘结果。伴随着在模拟中复制现实世界航班的过程的描述。这些方法的性能是通过使用直接稀疏里程计 DSO 映射算法分析现实生活和实验图像遥测来评估的。结果表明，在仔细对齐后，Cesium Tiles 环境可以提供高精度的地面实况几何模型。此外，现实生活和模拟遥测分析的结果表明，虚拟模拟结果准确地预测了现实生活结果。研究结果表明，现实生活中的算法结果和模拟副本中的算法结果表现出高度的相似性。这表明使用 Cesium Tiles 环境作为现实生活实验的虚拟数字孪生将为此类算法提供代表性结果。

GD-CAF: Graph Dual-stream Convolutional Attention Fusion for Precipitation Nowcasting

Authors Lorand Vatamany, Siamak Mehrkanoon
准确的降水临近预报对于洪水预测、灾害管理、优化农业活动、管理运输路线和可再生能源等多种目的至关重要。虽然一些研究从序列到序列的角度解决了这一具有挑战性的任务，但大多数研究都集中在单个区域，而没有考虑多个不相交区域之间现有的相关性。在本文中，我们将降水临近预报表述为时空图序列临近预报问题。特别是，我们引入了图双流卷积注意力融合 GD CAF，这是一种新颖的方法，旨在从降水图的历史时空图中学习，并预测不同空间位置的未来时间步长降水。 GD CAF 由时空卷积注意力以及配备深度可分离卷积运算的门控融合模块组成。这一增强功能使模型能够直接处理降水图的高维时空图，并利用数据维度之间的高阶相关性。我们根据哥白尼提供的 ERA5 数据集收集的欧洲及其邻近地区七年降水图来评估我们的模型。该模型接收一个完全连接的图，其中每个节点代表地图上特定区域的历史观测结果。因此，每个节点都包含一个具有时间、高度和宽度维度的 3D 张量。实验结果表明，所提出的 GD CAF 模型优于其他检查模型。此外，测试集上的平均季节性空间和时间注意力分数被可视化，以提供有关不同区域或时间步之间最强联系的额外见解。

Machine Perceptual Quality: Evaluating the Impact of Severe Lossy Compression on Audio and Image Models

Authors Dan Jacobellis, Daniel Cummings, Neeraja J. Yadwadkar
在神经数据压缩领域，普遍关注的焦点是优化经典失真指标（例如 PSNR 或 SSIM）或人类感知质量的算法。随着机器而不是人类消耗的数据量不断增加，出现了一种面向机器的压缩 unicode x2013 的新范例，该范例优先保留机器感知的显着特征，而不是传统的以人为中心的标准 unicode x2013，这给开发、评估带来了一些新的挑战，以及利用有损压缩的系统的部署。特别是，目前尚不清楚不同的有损压缩方法将如何影响下游机器感知任务的性能。为了解决这个正在探索的领域，我们评估了各种感知模型 unicode x2013，包括严重有损压缩下的图像分类、图像分割、语音识别和音乐源分离 unicode x2013。我们使用多种流行的编解码器，涵盖传统、神经和生成压缩架构。我们的结果表明了三个关键发现 1 使用生成压缩，利用高度压缩的数据是可行的，同时对机器感知质量的影响可以忽略不计 2 机器感知质量与深度相似性度量密切相关，表明这些度量在开发面向机器的编解码器和 3 使用有损压缩数据集，例如用于预训练的 ImageNet 可能会导致与直觉相反的场景，即有损压缩会提高机器感知质量而不是降低机器感知质量。

Information hiding cameras: optical concealment of object information into ordinary images

Authors Bijie Bai, Ryan Lee, Yuhang Li, Tianyi Gan, Yuntian Wang, Mona Jarrahi, Aydogan Ozcan
像密码学这样的数据保护方法尽管有效，但却无意中表明了秘密通信的存在，从而引起了过度的关注。在这里，我们介绍了一种与电子解码器集成的光学信息隐藏相机，通过深度学习联合优化。这种信息隐藏解码系统采用衍射光学处理器作为其前端，以普通外观图案的形式转换和隐藏输入图像，从而欺骗和误导人类观察者。这种信息隐藏转换对于秘密消息的无限多种组合是有效的，所有这些组合都被转换为普通的输出模式，通过光学处理器内的被动光物质相互作用以光学方式实现。通过处理这些看似普通的输出图像，联合训练的电子解码器神经网络可以准确地重建隐藏在欺骗性输出模式中的原始信息。我们通过设计信息隐藏衍射相机以及联合优化的卷积解码器神经网络，以数字方式展示了我们的方法。该系统的功效在各种照明条件和噪声水平下得到了证明，显示了其鲁棒性。我们进一步将这种信息隐藏相机扩展到多光谱操作，允许隐藏和解码不同波长的多个图像，所有这些都在单个前馈操作中同时执行。我们的框架的可行性也通过太赫兹辐射的实验得到了证明。

Exploring Masked Autoencoders for Sensor-Agnostic Image Retrieval in Remote Sensing

Authors Jakob Hackstein, Gencer Sumbul, Kai Norman Clasen, Beg m Demir
通过屏蔽自动编码器进行的自监督学习 MAE 最近引起了遥感 RS 图像表示学习的极大关注，因此体现了从不断增长的 RS 图像档案中基于内容的图像检索 CBIR 的巨大潜力。然而，现有的 RS 中 MAE 的研究假设所考虑的 RS 图像是由单个图像传感器获取的，因此仅适用于单模态 CBIR 问题。 MAE 对于跨传感器 CBIR 的有效性尚未得到探索，该跨传感器 CBIR 旨在跨不同图像模态搜索语义相似的图像。在本文中，我们迈出了第一步，探索 MAE 在 RS 中与传感器无关的 CBIR 的有效性。为此，我们对普通 MAE 的可能适应进行了系统概述，以利用多传感器 RS 图像档案上的掩模图像建模，表示为跨传感器掩模自动编码器 CSMAE。基于对普通 MAE 的不同调整，我们引入了不同的 CSMAE 模型。我们还提供了这些 CSMAE 模型的广泛实验分析。我们最终得出了利用蒙版图像建模解决 RS 中单模态和跨模态 CBIR 问题的指南。

DeepThalamus: A novel deep learning method for automatic segmentation of brain thalamic nuclei from multimodal ultra-high resolution MRI

Authors Marina Ruiz Perez, Sergio Morell Ortega, Marien Gadea, Roberto Vivo Hernando, Gregorio Rubio, Fernando Aparici, Mariam de la Iglesia Vaya, Thomas Tourdias, Pierrick Coup , Jos V. Manj n
丘脑在多种神经病理学中的含义使其成为体积分析感兴趣的结构。在目前的工作中，我们设计并实现了一种多模态体积深度神经网络，用于以 0.125 mm3 的超高分辨率分割丘脑核。当前的工具要么以标准分辨率 1 mm3 运行，要么使用单峰数据。为了实现所提出的目标，首先，使用超高分辨率 T1、T2 和白质无效 WMn 图像创建半自动分割丘脑核的数据库。然后，设计了一种新颖的基于深度学习的策略来获得自动分割，并使用半监督方法进行训练以提高其鲁棒性和准确性。将所提出的方法与相关的最先进方法进行比较，在分割质量和效率方面都显示出有竞争力的结果。

Geo-locating Road Objects using Inverse Haversine Formula with NVIDIA Driveworks

Authors Mamoona Birkhez Shami, Gabriel Kiss, Trond Arve Haakonsen, Frank Lindseth
地理定位是自动驾驶车辆和先进交通监控基础设施无缝运行不可或缺的一部分。本文介绍了一种利用 NVIDIA DriveWorks 平台，使用单目摄像头对道路物体进行地理定位的方法。我们使用厘米定位服务 CPOS 和反半正弦公式对道路物体进行精确地理定位。 NVIDIA DriveWorks 平台的实时算法处理能力可实现高级驾驶辅助系统 ADAS 和自动驾驶平台的即时物体识别和空间定位。我们提出了适合自动驾驶 AD 平台的测量管道，并提供了使用 NVIDIA DriveWorks 校准摄像头的详细指南。进行了实验以验证所提出的在受控和动态设置中对目标进行地理定位的方法的准确性。

Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation

Authors Yuanchen Ju, Kaizhe Hu, Guowei Zhang, Gu Zhang, Mingrun Jiang, Huazhe Xu
使机器人操作能够推广到分发场景之外是迈向开放世界体现智能的关键一步。对于人类来说，这种能力植根于对物体间语义对应关系的理解，从而自然地将熟悉物体的交互体验转移到新物体上。尽管机器人缺乏如此丰富的交互经验，但互联网上大量的人类视频可能是一种宝贵的资源，我们可以从中提取包括接触点在内的可供性记忆。受人类自然思维方式的启发，我们提出了 Robo ABC，当面对需要泛化的不熟悉的物体时，机器人可以通过从可供性记忆中检索具有视觉或语义相似性的物体来获得可供性。下一步是将检索到的对象的接触点映射到新对象。虽然乍一看建立这种对应关系可能会带来巨大的挑战，但最近的研究发现它自然地产生于预先训练的扩散模型，甚至可以跨不同的对象类别进行可供性映射。通过 Robo ABC 框架，机器人可以泛化以零射击方式操纵类别外的对象，而无需任何手动注释、额外训练、零件分割、预编码知识或视点限制。从数量上来说，与最先进的 SOTA 端到端可供性模型相比，Robo ABC 显着提高了视觉可供性检索的准确性，大幅提高了 31.6。我们还进行了跨类别物体抓取任务的现实世界实验。

Beyond Traditional Approaches: Multi-Task Network for Breast Ultrasound Diagnosis

Authors Dat T. Chung, Minh Anh Dang, Mai Anh Vu, Minh T. Nguyen, Thanh Huy Nguyen, Vinh Q. Dinh
乳房超声检查作为一种经济高效的非侵入性方法，在癌症诊断中发挥着至关重要的作用。近年来，随着深度学习的发展，许多基于 CNN 的方法在肿瘤定位和癌症分类任务中得到了广泛的研究。尽管以前的单一模型在这两项任务中都取得了出色的性能，但这些方法在推理时间、GPU 要求以及每个模型的单独微调方面存在一些限制。在本研究中，我们的目标是重新设计和构建端到端多任务架构以进行分割和分类。

MapGPT: Map-Guided Prompting for Unified Vision-and-Language Navigation

Authors Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan Yee K. Wong
以 GPT 作为大脑的实体智能体在各种任务中表现出了非凡的思维和决策能力。然而，现有的用于视觉和语言导航 VLN 的零镜头智能体仅提示 GPT 处理过多的环境信息并在局部环境中选择潜在位置，而没有构建有效的全局视图，例如智能体了解整体环境的常用地图。在这项工作中，我们提出了一种新颖的基于地图引导 GPT 的路径规划代理，称为 MapGPT，用于零样本 VLN 任务。具体来说，我们将在线构建的拓扑图转换为提示，以鼓励地图引导的全局探索，并要求代理显式输出和更新多步路径规划，以避免陷入局部探索。大量实验证明我们的 MapGPT 是有效的，在 R2R 和 REVERIE 数据集上取得了令人印象深刻的性能，成功率分别为 38.8 和 28.4，并展示了 GPT 模型新出现的全局思维和路径规划能力。

FROST-BRDF: A Fast and Robust Optimal Sampling Technique for BRDF Acquisition

Authors Ehsan Miandji, Tanaboon Tongbuasirilai, Saghi Hajisharif, Behnaz Kavoosighafi, Jonas Unger
高效、准确地获取现实世界材料的 BRDF 是一个具有挑战性的研究问题，需要对数百万个入射光和观察方向进行采样。为了加速采集过程，需要找到一组最小的采样方向，以便在给定此类样本的情况下，完整 BRDF 的恢复准确且稳健。在本文中，我们将 BRDF 获取表述为压缩感知问题，其中感知算子是根据一组最佳采样方向对 BRDF 信号执行子采样的算子。为了解决这个问题，我们提出了快速稳健的最佳采样技术 FROST，用于设计可证明最佳的子采样算子，该算子放置光视图样本以使恢复误差最小化。 FROST 将压缩感知的最佳子采样算子设计问题转化为多测量向量 MMV 信号模型下的稀疏表示公式。所提出的重新表述是精确的，即没有任何近似，因此它将一个棘手的组合问题转换为可以用标准优化技术解决的问题。因此，FROST 伴随着来自压缩感知领域的强有力的理论保证。我们使用公开可用的 BRDF 数据集进行 10 倍交叉验证，对 FROST BRDF 进行了全面分析，并在重建质量方面显示出与现有技术相比的显着优势。

Crafter: Facial Feature Crafting against Inversion-based Identity Theft on Deep Models

Authors Shiming Wang, Zhe Ji, Liyao Xiang, Hao Zhang, Xinbing Wang, Chenghu Zhou, Bo Li
随着移动设备等边缘功能的增强和更严格的隐私要求，深度学习应用程序在边缘预处理敏感原始数据并将特征传输到后端云进行进一步处理已成为最新趋势。一个典型的应用是对从不同个体收集的面部图像运行机器学习 ML 服务。为了防止身份盗窃，传统方法通常依赖于基于对抗性游戏的方法来从特征中泄露身份信息。然而，此类方法无法防御自适应攻击，其中攻击者针对已知的防御策略采取反击措施。我们提出了 Crafter，一种部署在边缘的特征制作机制，以保护身份信息免受自适应模型反转攻击，同时确保 ML 任务在云端正确执行。关键的防御策略是将攻击者误导到非私有先验，攻击者从中几乎无法获得私有身份。在这种情况下，精心设计的特征对于具有自适应模型更新的攻击者来说就像毒药训练样本。

IVIM-Morph: Motion-compensated quantitative Intra-voxel Incoherent Motion (IVIM) analysis for functional fetal lung maturity assessment from diffusion-weighted MRI data

Authors Noga Kertes, Yael Zaffrani Reznikov, Onur Afacan, Sila Kurugol, Simon K. Warfield, Moti Freiman
扩散加权磁共振成像 DWI 数据中伪扩散的定量分析显示了评估胎儿肺成熟度和生成有价值的成像生物标志物的潜力。然而，DWI 数据的临床应用受到采集过程中不可避免的胎儿运动的阻碍。我们提出了 IVIM morph，这是一种自监督深度神经网络模型，用于使用体素内不相干运动 IVIM 模型对 DWI 数据进行运动校正定量分析。 IVIM morph结合了两个子网络，一个配准子网络和一个IVIM模型拟合子网络，能够同时估计IVIM模型参数和运动。为了促进物理上合理的图像配准，我们引入了一种生物物理知情的损失函数，可以有效地平衡配准和模型拟合质量。我们使用 39 名受试者的胎儿 DWI 数据建立了预测的肺 IVIM 模型参数与孕龄 GA 之间的相关性，验证了 IVIM morph 的功效。当对小管期胎儿肺 DWI 数据进行体内定量分析时，IVIM 形态与胎龄 GA 的相关性显着改善。 IVIM morph 显示出开发有价值的生物标志物的潜力，用于利用 DWI 数据对胎肺成熟度进行无创评估。此外，它的适应性为其他临床环境中的潜在应用打开了大门，在这些临床环境中运动补偿对于定量 DWI 分析至关重要。

Quantum Denoising Diffusion Models

Authors Michael K lle, Gerhard Stenzel, Jonas Stein, Sebastian Zielinski, Bj rn Ommer, Claudia Linnhoff Popien
近年来，DALL E、Craiyon 和 Stable Diffusion 等机器学习模型因其能够从简洁的描述生成高分辨率图像而受到广泛关注。与此同时，量子计算正在显示出有希望的进步，尤其是量子机器学习，它利用量子力学来满足传统机器学习算法日益增长的计算要求。本文探讨了量子机器学习和变分量子电路的集成，以增强基于扩散的图像生成模型的功效。具体来说，我们解决了经典扩散模型的两个挑战：低采样速度和广泛的参数要求。我们引入了两种量子扩散模型，并使用 MNIST 数字、Fashion MNIST 和 CIFAR 10 对它们的经典模型进行了基准测试。我们的模型在性能指标 FID、SSIM 和 PSNR 方面超越了具有相似参数数量的经典模型。

An automated framework for brain vessel centerline extraction from CTA images

Authors Sijie Liu, Ruisheng Su, Jianghang Su, Jingmin Xin, Jiayi Wu, Wim van Zwam, Pieter Jan van Doormaal, Aad van der Lugt, Wiro J. Niessen, Nanning Zheng, Theo van Walsum
从 CTA 图像中准确自动提取脑血管中心线在中风等脑血管疾病的诊断和治疗中发挥着重要作用。然而，由于复杂的脑血管结构、不同的成像质量和血管病理影响，这项任务仍然具有挑战性。在本文中，我们考虑自动管腔分割生成，而无需医生进行额外的注释工作，并且更有效地使用生成的管腔分割来提高中心线提取性能。我们提出了一个从 CTA 图像中提取脑血管中心线的自动化框架。该框架由四个主要部分组成：1 预处理方法，将 CTA 图像与 CT 图集配准并将这些图像划分为输入块；2 使用图形切割和鲁棒核回归从带注释的血管中心线生成管腔分割；3 双分支拓扑感知 UNet DTUNet 可以通过拓扑感知损失 TAL 及其双分支设计以及 4 种后处理方法来有效利用注释的血管中心线和生成的管腔分割，从而骨架化预测的管腔分割。对多中心数据集的大量实验表明，所提出的框架在平均对称中心线距离 ASCD 和重叠 OV 方面优于最先进的方法。亚组分析进一步表明，所提出的框架在中风治疗的临床应用中具有前景。

Empowering Medical Imaging with Artificial Intelligence: A Review of Machine Learning Approaches for the Detection, and Segmentation of COVID-19 Using Radiographic and Tomographic Images

Authors Sayed Amir Mousavi Mobarakeh, Kamran Kazemi, Ardalan Aarabi, Habibollah Danyal
2019年以来，新冠病毒及其新毒株在全球传播，导致新增感染病例激增。 X 射线和计算机断层扫描 CT 成像技术的使用对于诊断和管理 COVID 19 至关重要。将人工智能 AI 纳入医学成像领域是一个强大的组合，可以为医疗保健专业人员提供宝贵的支持。本文重点介绍方法论方法使用机器学习 ML 增强医学成像以进行 COVID 19 诊断。例如，深度学习可以在几分钟内准确地区分病变与肺部其他部位的病变，无需人工干预。此外，ML 可以通过协助放射科医生做出诊断来提高性能效率。更精确的临床决策，例如检测和区分 Covid 19 与不同的呼吸道感染，以及在 CT 和 X 射线图像中分割感染，即使病变具有不同的大小和形状。本文批判性地评估了用于分割、分类、 CT 和 X 射线图像中的 Covid 19 检测，这些是临床和医院环境中常用的工具，可以从各个方面和广泛的细节表现肺部。人们普遍期望这项技术将继续在医学领域占据核心地位。

Local Gamma Augmentation for Ischemic Stroke Lesion Segmentation on MRI

Authors Jon Middleton, Marko Bauer, Kaining Sheng, Jacob Johansen, Mathias Perslev, Silvia Ingala, Mads Nielsen, Akshay Pai
医学图像中病理组织的识别和定位继续引起深度学习从业者的广泛关注。当在丰富的数据集上进行训练时，深度神经网络可以匹配或超过人类的表现。然而，注释数据的稀缺使这些模型的训练变得复杂。数据增强技术可以弥补训练样本的缺乏。然而，许多常用的增强方法可能无法在模型拟合期间提供有意义的样本。我们提出了局部伽马增强，这是一种在病理组织中引入新的强度实例的技术。我们利用局部伽玛增强来补偿人脑 MRI 中与缺血性中风病变相对应的强度偏差。

Direct Distillation between Different Domains

Authors Jialiang Tang, Shuo Chen, Gang Niu, Hongyuan Zhu, Joey Tianyi Zhou, Chen Gong, Masashi Sugiyama
知识蒸馏 KD 旨在使用来自大型预训练教师网络的知识来学习紧凑的学生网络，其中两个网络都接受来自同一分布的数据的训练。然而，在实际应用中，学生网络可能需要在新的场景（即目标域）中执行，该场景通常与教师网络的已知场景（即源域）表现出显着差异。传统的域自适应技术可以在两阶段过程中与 KD 集成以弥合域差距，但由于高计算消耗和两阶段累积的额外误差，两阶段方法的最终可靠性往往受到限制。为了解决这个问题，我们提出了一种新的单阶段方法，称为“不同域 4D 之间的直接蒸馏”。我们首先设计一个基于傅立叶变换的可学习适配器，将领域不变知识与领域特定知识分开。然后，我们建立了一种融合激活机制，将有价值的领域不变知识转移到学生网络，同时鼓励教师网络内的适配器学习目标数据的领域特定知识。因此，教师网络可以有效地传输与学生网络目标领域一致的分类知识。

HA-HI: Synergising fMRI and DTI through Hierarchical Alignments and Hierarchical Interactions for Mild Cognitive Impairment Diagnosis

Authors Xiongri Shen, Zhenxi Song, Linling Li, Min Zhang, Lingyan Liang Honghai Liu, Demao Deng, Zhiguo Zhang
利用多模态磁共振成像 MRI 早期诊断轻度认知障碍 MCI 和主观认知衰退 SCD 是一个关键的研究领域。虽然功能性 MRI、fMRI 和扩散张量成像 DTI 的各种区域和连接特征已被用来开发诊断模型，但大多数研究整合了这些特征，但没有充分解决它们的对齐和相互作用。这限制了充分利用组合特征和模式的协同贡献的潜力。为了解决这一差距，我们的研究引入了一种新颖的分层对齐和分层交互 HA HI 方法，用于 MCI 和 SCD 分类，利用 fMRI 和 DTI 的综合优势。 HA HI 通过调整各种特征类型并分层最大化它们的交互，有效地学习重要的 MCI 或 SCD 相关区域和连接特征。此外，为了增强我们方法的可解释性，我们开发了协同激活图 SAM 技术，揭示了指示 MCI SCD 的关键大脑区域和连接。对 ADNI 数据集和我们自行收集的数据的综合评估表明，HA HI 在诊断 MCI 和 SCD 方面优于其他现有方法，使其成为早期检测的潜在重要且可解释的工具。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

分类:热门推荐日期:2024-04-01浏览:1评论:0

Daily Computer Vision Papers

图像 模型

相关推荐