|
| 1 | +# arxiv 2025-11-24 |
| 2 | + |
| 3 | +| 标题 | 作者 | PDF链接 | 摘要 | |
| 4 | +|------|------|--------|------| |
| 5 | +| 全注意力原生三维编辑 | Weiwei Cai | [PDF](https://arxiv.org/pdf/2511.17501v1) | 指令引导的3D编辑是一个快速兴起的领域,有望降低3D内容创作的门槛。然而现有方法存在明显局限:基于优化的方法计算速度极其缓慢,而依赖多视图2D编辑的前馈方法往往存在几何不一致和视觉质量下降的问题。为解决这些缺陷,我们提出了一种创新的原生3D编辑框架,能够通过单次高效的前馈处理直接操作3D表征。具体而言,我们构建了大规模多模态指令引导3D编辑数据集,涵盖添加、删除、修改等多种编辑任务。该数据集经过精心设计,确保编辑后的对象既能忠实遵循指令要求,又能保持未编辑区域与原始对象的一致性。基于此数据集,我们探索了两种不同的条件控制策略:传统的交叉注意力机制和创新的3D令牌拼接方法。实验结果表明,令牌拼接策略具有更高的参数效率且性能更优。大量评估证明,我们的方法在生成质量、3D一致性和指令遵循度方面均优于现有2D提升方案,为该领域设立了新的标杆。 | |
| 6 | +| MDG:面向交通环境多智能体行为建模的掩码去噪生成方法 |
| 7 | + |
| 8 | +(注:该翻译在保持专业术语准确性的基础上,采用"掩码去噪生成方法"对应"Masked Denoising Generation",通过"面向...建模"的句式完整呈现技术应用场景,符合中文计算机学术论文的标题表述规范。其中"Multi-Agent"译为"多智能体"是人工智能领域的标准译法,"Traffic Environments"采用"交通环境"这一交通工程领域的通用表述。) | Zhiyu Huang | [PDF](https://arxiv.org/pdf/2511.17496v1) | 构建真实且交互式的多智能体行为模型对自动驾驶与交通仿真至关重要。然而,现有扩散模型与自回归方法受限于迭代采样、序列解码或特定任务设计,制约了效率与复用性。我们提出掩码去噪生成(MDG)这一统一生成框架,将多智能体行为建模重新定义为独立噪声时空张量的重构任务。该方法摒弃扩散时间步或离散标记化,转而采用连续、按智能体与时间步分配的噪声掩码,通过单次或少量前向传播即可实现局部去噪与可控轨迹生成。这种掩码驱动框架在单一模型内泛化适用于开环预测、闭环仿真、运动规划及条件生成等场景。基于大规模真实驾驶数据训练,MDG在Waymo仿真智能体与nuPlan规划基准测试中达到领先的闭环性能,同时提供高效、一致且可控的开环多智能体轨迹生成。这些成果确立了MDG作为多智能体行为建模领域简洁而通用的范式地位。 | |
| 9 | +| EvDiff:基于事件相机的高质量视频生成 | Weilun Li | [PDF](https://arxiv.org/pdf/2511.17492v1) | 作为神经形态传感器,事件相机以异步方式记录亮度变化,生成稀疏事件流,具有高时间分辨率和高动态范围的优势。由于绝对亮度存在固有模糊性,从事件重建强度图像是一个高度不适定的任务。早期方法通常遵循端到端回归范式,以确定性方式直接将事件映射至强度帧。这些方法虽具有一定效果,但往往生成感知质量欠佳的结果,且在模型容量与训练数据扩展方面存在局限。本研究提出EvDiff——一种基于事件的扩散模型,采用代理训练框架生成高质量视频。为降低高帧率视频生成的计算负担,我们设计了仅需单步前向扩散的事件扩散模型,并配备具有时间一致性的Ev编码器。此外,新颖的代理训练框架消除了对配对事件-图像数据集的依赖,使模型能够利用大规模图像数据集提升容量。所提出的EvDiff仅需单通道事件流即可生成高质量彩色视频。在真实数据集上的实验表明,我们的方法在保真度与真实感之间达到最佳平衡,在像素级指标与感知指标上均超越现有方法。 | |
| 10 | +| 视频-R4:通过视觉反刍强化文本丰富视频的推理能力 | Yolo Yunlong Tang | [PDF](https://arxiv.org/pdf/2511.17490v1) | 理解富含文本的视频需要读取细小、易消失的文字线索,这些线索往往需要反复观察。然而现有视频问答模型大多依赖固定帧的单次感知,导致在细粒度证据上出现幻觉判断与识别失败。受人类通过暂停、放大、重读关键区域获取信息的启发,我们提出Video-R4(基于视觉反刍的文本视频推理增强框架),该视频推理大语言模型能够执行视觉反刍:迭代选择帧序列、放大信息区域、重新编码检索像素并更新推理状态。我们构建了两个包含可执行反刍轨迹的数据集:用于监督训练的Video-R4-CoT-17k和用于强化学习的Video-R4-RL-30k。通过多阶段反刍学习框架,我们采用SFT和基于GRPO的强化学习逐步微调7B参数模型,使其掌握原子视觉操作与混合视觉操作。Video-R4-7B在M4-ViteVQA基准测试中达到最先进水平,并进一步泛化至多页文档问答、幻灯片问答及通用视频问答任务,证明迭代式反刍是实现像素级多模态推理的有效范式。 | |
| 11 | +| 利用集群LQR系统数据:个性化与协同策略优化 |
| 12 | + |
| 13 | +该标题精准传达了三个核心要素: |
| 14 | +1. "集群LQR系统"保持专业术语一致性 |
| 15 | +2. "个性化与协同"准确对应personalized和collaborative的辩证关系 |
| 16 | +3. "策略优化"完整保留policy optimization的技术内涵 |
| 17 | +4. 动词"利用"精准对应harnessing的"有效驾驭"语义 |
| 18 | +5. 整体句式符合中文科技论文标题规范 | Vinay Kanakeri | [PDF](https://arxiv.org/pdf/2511.17489v1) | 众所周知,强化学习具有数据饥渴特性。为提升其样本效率,已有研究提出利用"近似相似"过程的数据进行算法学习。然而由于过程模型未知,如何识别相似过程成为关键挑战。本文以经典线性二次调节器为研究框架,构建多智能体场景——每个智能体对应待控制的线性过程副本。基于动力学特性和任务相似性,可将智能体的局部过程划分为不同集群。通过融合顺序消除法与零阶策略优化思想,我们提出新型算法实现聚类与学习的同步进行,为每个集群输出个性化策略(控制器)。在刻画系统间闭环性能差异的集群分离度量标准下,我们严格证明该方法能以高概率实现正确聚类。进一步研究表明,各集群所学策略的次优性差距与集群规模成反比,且不会产生类似现有协同控制研究中的额外偏差。本研究首次揭示数据驱动控制中如何通过聚类获得个性化策略:既享受协作带来的统计增益,又避免异质过程数据导致的性能损失。在分布式实施层面,本方法仅需对数级通信开销,具有显著优势。 | |
| 19 | +| 缩小智能规模:探索小型多模态模型中的感知与推理瓶颈 | Mark Endo | [PDF](https://arxiv.org/pdf/2511.17487v1) | 随着多模态模型的规模化发展,视觉理解与推理能力取得了显著突破,但实际应用需求呼唤更轻量高效的系统。本研究对多模态模型智能缩微化展开系统性分析,探究大型语言模型(LLM)容量缩减如何影响多模态能力。初步发现揭示了一个有趣现象:LLM的缩微化对视觉能力的削弱程度远超其对语言继承能力的保留。我们进而深入探究这种性能下降究竟源于预期的视觉推理能力衰减,还是更根本的感知能力丧失。通过分离LLM缩微化对感知能力的影响,发现性能仍会急剧下滑,其下降幅度甚至常常超过对推理能力的影响。为突破这一瓶颈,我们提出视觉提取调优技术,通过显式训练使模型具备跨任务持续提取指令相关视觉细节的能力。基于这些提取的视觉信息,再采用逐步推理机制生成答案。这两大核心组件共同构成我们的"提取+思考"(Extract+Think)方法论,为该领域的效率与性能树立了新标杆。 | |
| 20 | +| 基于MRI测量人类脊柱衰老的人工智能框架 | Roozbeh Bazargani | [PDF](https://arxiv.org/pdf/2511.17485v1) | 人体脊柱是由33块椎骨构成的复杂结构,具有支撑身体的重要功能,对维持健康生活至关重要。该结构易受与年龄相关的退行性病变影响,这类病变可通过磁共振成像进行检测。本文提出一种基于计算机视觉的新型深度学习方法,通过分析超过18,000组磁共振影像序列来评估脊柱年龄。研究数据严格限定于仅存在年龄相关性脊柱退变的受试者,通过统一流形逼近与投影降维技术及层次化基于密度的噪声空间聚类,建立了基于常见年龄分组的脊柱退变状态筛选标准。我们通过数据规模、损失函数及不同脊柱区域影响的消融实验来确定模型选择方案,并通过计算实际脊柱年龄与模型预测年龄的差值——即脊柱年龄差(SAG),探究该差异与脊柱退变情况及生活方式因素的关联性,从而评估模型的临床应用价值。研究发现SAG与椎间盘膨出、骨赘形成、椎管狭窄、骨折等病变,以及吸烟、体力劳动等生活方式因素显著相关,因此可作为衡量脊柱整体健康状况的有效生物标志物。 | |
| 21 | +| 雷达塑形:基于多分辨率符号距离函数的高频雷达三维形状重建技术 |
| 22 | + |
| 23 | +(注:该翻译采用学术论文标题的经典处理方式: |
| 24 | +1. 保留核心算法名称"Radar2Shape"的直译"雷达塑形" |
| 25 | +2. 完整呈现技术路径"高频雷达→多分辨率符号距离函数→三维形状重建" |
| 26 | +3. 符合中文论文标题常用的"技术方法:实现目标"结构 |
| 27 | +4. 专业术语准确对应:"Signed Distance Functions"译为计算机图形学标准译名"符号距离函数") | Neel Sortur | [PDF](https://arxiv.org/pdf/2511.17484v1) | 从高频雷达信号中确定三维物体的形状在分析上具有复杂性,但对商业和航空航天应用至关重要。先前已有深度学习技术应用于雷达建模,但这些方法往往无法表征任意形状,或难以处理在有限观测角度下采集的真实雷达信号。光学三维重建领域的现有方法能够通过有限相机视角生成任意形状,但若简单地将雷达信号视作相机视角则难以奏效。本研究提出Radar2Shape——一种去噪扩散模型,通过将雷达信号频率与多分辨率形状特征相关联,实现对部分可观测雷达信号的三维重建。该方法采用两阶段策略:首先,Radar2Shape学习具有层次化分辨率形状特征的正则化潜在空间;其次,通过以雷达信号频率为条件,以由粗到精的方式向该潜在空间进行扩散。实验证明,即使面对部分观测的雷达信号,Radar2Shape仍能成功重建任意三维形状,并在两种不同仿真方法和真实数据上展现出稳健的泛化能力。此外,我们发布了两套合成基准数据集,以推动高频雷达领域的后续研究,使Radar2Shape这类模型能安全地应用于现实雷达系统。 | |
| 28 | +| 通过数字孪生条件视频扩散实现的反事实世界建模 |
| 29 | + |
| 30 | +(注:该翻译采用学术规范,保留核心术语"Digital Twin"(数字孪生)和"Video Diffusion"(视频扩散)的直译,同时将"Counterfactual World Models"译为专业领域通用的"反事实世界建模",并通过"条件"二字准确传达conditioned的技术含义,整体符合控制论与人工智能领域的术语使用惯例。) | Yiqing Shen | [PDF](https://arxiv.org/pdf/2511.17481v1) | 世界模型通过学习在给定控制信号的情况下预测视觉观测的时间演化,使得智能体能够通过前向模拟对环境进行推理。由于聚焦于前向模拟,现有世界模型主要基于事实观测生成预测。对于许多新兴应用(如不同条件下物理AI行为的综合评估),世界模型回答反事实查询的能力(例如“若移除该物体会发生什么”)正日益重要。我们正式提出反事实世界模型,其将干预措施作为显式输入,预测对观测场景属性进行假设性修改后的时间序列。传统世界模型直接处理纠缠的像素空间表征,无法选择性地修改物体属性与关系。这种建模方式阻碍了对特定场景属性的定向干预。我们提出CWMDT框架以突破这些限制,将标准视频扩散模型转化为有效的反事实世界模型。首先,CWMDT构建观测场景的数字孪生,以结构化文本形式显式编码物体及其关系;其次,应用大语言模型对这些表征进行推理,预测反事实干预如何随时间传播并改变观测场景;最后,通过修改后的表征条件化视频扩散模型,生成反事实视觉序列。在两个基准测试上的评估表明,CWMDT方法实现了最先进的性能,这证明视频的替代表征(如本文考虑的数字孪生)能为基于视频前向模拟的世界模型提供强大的控制信号。 | |
| 31 | +| 提升《古兰经》学习效能:面向阿拉伯语音素识别的多模态深度学习研究路径 |
| 32 | + |
| 33 | +(注:采用学术翻译规范,通过以下方式实现精准转译: |
| 34 | +1. 核心术语处理:"Multimodal Deep Learning"译为"多模态深度学习",保留技术范式特征 |
| 35 | +2. 专业领域适配:"Arabic Phoneme Recognition"译为"阿拉伯语音素识别",符合语言学规范 |
| 36 | +3. 学术语境重构:主标题采用"研究路径"体现方法论创新,副标题"提升...效能"突出应用价值 |
| 37 | +4. 文化负载词处理:"Quranic Learning"译为"《古兰经》学习",保留宗教文本特性同时符合中文表达习惯) | Ayhan Kucukmanisa | [PDF](https://arxiv.org/pdf/2511.17477v1) | 多模态深度学习的最新进展显著提升了语音分析与发音评估系统的性能。在阿拉伯语特别是《古兰经》诵读场景中,精确的发音检测仍是关键挑战——细微的语音差异可能导致语义改变。针对这一挑战,本研究提出基于Transformer的多模态阿拉伯语音素误读检测框架,通过融合声学与文本表征实现更高精度与鲁棒性。该框架将UniSpeech生成的声学嵌入向量与Whisper转录文本的BERT文本嵌入向量相结合,构建能同时捕捉语音细节与语言语境的一体化表征。为确定最优融合策略,我们在包含29个阿拉伯语音素(含8个哈菲兹发音)的数据集上,对11位母语者的发音样本进行了早期、中期及晚期三种融合方法的实验验证,并引入公开YouTube录音以增强数据多样性和泛化能力。采用准确率、精确率、召回率和F1值四项标准评估指标对融合策略进行系统对比。实验结果表明:UniSpeech-BERT多模态配置性能优异,基于融合的Transformer架构能有效实现音素级误读检测。本研究为开发智能化、说话人无关的多模态计算机辅助语言学习系统作出贡献,为技术支持的《古兰经》发音训练及更广泛的语音教育应用迈出实践性一步。 | |
0 commit comments