|
| 1 | +# arxiv 2025-11-25 |
| 2 | + |
| 3 | +| 标题 | 作者 | PDF链接 | 摘要 | |
| 4 | +|------|------|--------|------| |
| 5 | +| LumiTex:基于光照上下文的高保真PBR纹理生成研究 |
| 6 | + |
| 7 | +(解析:1. "Towards"在学术语境中常译为"面向/致力于",此处采用"研究"更符合中文论文标题习惯;2. "High-Fidelity PBR Texture Generation"译为"高保真PBR纹理生成",其中PBR作为专业术语(Physically Based Rendering基于物理渲染)保留英文缩写;3. "Illumination Context"译为"光照上下文",在计算机图形学领域"context"固定译作"上下文"指代关联环境信息;4. 整体采用"研究"作为动词化处理,使学术目标更明确,符合中文论文标题的动宾结构特征) | Jingzhi Bao | [PDF](https://arxiv.org/pdf/2511.19437v1) | 基于物理的渲染(PBR)为计算机图形学中的真实材质-光照交互提供了规范化标准。尽管当前生成PBR纹理的技术已取得进展,现有方法仍存在两个核心挑战:1)在有限光照线索下从图像提示中分解材质,2)实现无缝且视角一致的纹理补全。为此,我们提出LumiTex端到端框架,其包含三个关键组件:(1)在共享光照先验下的多分支生成方案,通过解耦反照率与金属度-粗糙度实现鲁棒的材质理解;(2)光照感知的材质注意力机制,将光照上下文注入解码过程,实现反照率、金属度与粗糙度贴图的物理可信生成;(3)基于大视角合成模型的几何引导修复模块,通过扩展纹理覆盖范围确保无缝且视角一致的UV补全。大量实验表明,LumiTex在纹理质量上达到最先进水平,超越现有开源与商业方法。 | |
| 8 | +| VDC-Agent:当视频细粒度描述器通过智能自反思实现自我进化 |
| 9 | + |
| 10 | +(注:该翻译采用学术术语规范,保留"Agentic"在智能体研究领域的专业内涵,将"Self-Reflection"译为符合认知科学范式的"自反思",并通过"细粒度描述器"准确传达"Detailed Captioners"的技术特性,同时使用"进化"对应"Evolve"的动态发展含义,整体呈现符合计算机视觉与自然语言处理交叉领域的技术表述习惯。) | Qiang Wang | [PDF](https://arxiv.org/pdf/2511.19436v1) | 我们提出VDC-Agent——一种无需人工标注或大型教师模型的视频细粒度描述自演进框架。该智能体构建了描述生成、原则指导评分(含分数与文本建议)及提示优化的闭环系统。当描述质量退化时,自反思机制会调用先前的思维链进行修正更新。在未标注视频上运行该流程可生成(描述,评分)配对轨迹,我们将这些轨迹转化为偏好元组并过滤存在JSON解析错误的样本,最终获得包含18,886组自动构建配对的VDC-Agent-19K数据集。基于该数据集,我们采用由易到难的课程式直接偏好优化方法对基础多模态大模型进行微调。基于Qwen2.5-VL-7B-Instruct构建的VDC-Agent-7B在VDC基准测试中取得49.08%平均准确率与2.50分数的顶尖性能,不仅超越专业视频描述模型,更在相近推理成本下较基础模型实现+5.13%准确率与+0.27分数的显著提升。 | |
| 11 | +| 图像到视频模型是否适用于零样本图像编辑? | Zechuan Zhang | [PDF](https://arxiv.org/pdf/2511.19435v1) | 大规模视频扩散模型展现出强大的世界模拟与时序推理能力,但其在零样本图像编辑领域的应用仍待深入探索。本文提出IF-Edit——一个无需微调的创新框架,通过重新配置预训练图像到视频扩散模型实现指令驱动的图像编辑。该框架系统解决三大核心挑战:提示词失准、时序潜在变量冗余及后期帧模糊。具体包含:(1) 思维链提示增强模块,将静态编辑指令转化为具有时序锚点的推理提示;(2) 时序潜在变量丢弃策略,在专家切换点后压缩帧潜在变量,在保持语义与时序连贯性的同时加速去噪过程;(3) 自洽后优化步骤,利用短时静止-视频轨迹锐化后期帧。在涵盖非刚性编辑、物理与时序推理及通用指令编辑的四个公开基准测试中,IF-Edit在推理核心任务上表现卓越,同时在通用编辑任务中保持竞争力。本研究为视频扩散模型作为图像编辑器提供了系统化视角,并揭示了实现统一视频-图像生成推理的简洁路径。 | |
| 12 | +| 通过合并预训练专家打破扩散模型中的似然与质量权衡 | Yasin Esfandiari | [PDF](https://arxiv.org/pdf/2511.19434v1) | 图像生成扩散模型通常存在感知样本质量与数据似然性之间的权衡:强调高噪声去噪步骤的训练目标能生成逼真图像但似然性较差,而侧重似然性的训练会过度加权低噪声步骤并损害视觉保真度。我们提出一种即插即用的简易采样方法,通过在去噪轨迹中切换两个预训练扩散专家模型实现协同工作。具体而言,在高噪声水平应用图像质量专家塑造全局结构,随后在低噪声水平切换至似然性专家优化像素统计特性。该方法无需重新训练或微调——仅需选择中间切换步骤。在CIFAR-10和ImageNet32数据集上的实验表明,融合模型始终达到或超越其基础组件的性能,相较于单一专家模型,在保持样本质量的同时持续改善或维持了似然性指标。这些结果证明,跨噪声水平的专家切换是打破图像扩散模型中似然性与质量权衡关系的有效途径。 | |
| 13 | +| 行动分块中的混合视野法 |
| 14 | + |
| 15 | +说明: |
| 16 | +1. "Mixture of Horizons" 译为"混合视野法",其中: |
| 17 | + - "Horizons" 在控制论和机器学习领域常译为"视野"或"视界" |
| 18 | + - "Mixture" 译为"混合"体现方法融合特性 |
| 19 | +2. "Action Chunking" 译为"行动分块",这是机器人学和强化学习领域的标准译法,指将连续动作序列分割为可重复使用的动作单元 |
| 20 | +3. 整体采用"XX中的YY"结构,符合中文科技文献标题表述习惯 |
| 21 | +4. 保留专业术语的准确性和领域内通用译法 | Dong Jing | [PDF](https://arxiv.org/pdf/2511.19433v1) | 视觉-语言-动作(VLA)模型在机器人操作任务中展现出卓越能力,但其性能对训练时采用的$\textbf{动作块长度}$(即$\textbf{时间跨度}$)极为敏感。实证研究表明存在固有权衡:较长跨度能提供更强的全局预判能力,但会削弱细粒度精度;较短跨度可提升局部控制精度,却难以应对长期任务,这意味着固定单一跨度的选择具有次优性。为缓解该矛盾,我们提出$\textbf{混合跨度(MoH)}$策略:将动作块重组为具有不同跨度的多个区段,通过共享动作变换器并行处理,并利用轻量线性门融合输出。该方法具备三大优势:1)在单一模型中协同利用长跨度全局预判与短跨度精细控制,提升复杂任务下的性能与泛化能力;2)对全注意力动作模块即插即用,仅需极小训练/推理开销;3)支持自适应跨度的动态推理,通过跨跨度共识选择稳定动作,在保持卓越性能的同时实现比基线模型高2.5$\times$的吞吐量。基于流策略$π_0$、$π_{0.5}$与单步回归策略$π_{\text{reg}}$的大量实验表明,MoH在仿真与真实任务中均带来持续显著提升。尤为突出的是,在混合任务场景下,搭载MoH的$π_{0.5}$策略仅经$3$万次训练迭代即在LIBERO基准上达到99$\%$平均成功率,创下新纪录。项目主页:https://github.com/Timsty1/MixtureOfHorizons | |
| 22 | +| 四维云 | Jacob Lin | [PDF](https://arxiv.org/pdf/2511.19431v1) | 在利用机器学习改进数值天气预报和气候模型方面已取得重大进展。然而,大多数全球模型运行于千米尺度,难以精确模拟单体云层及极端降水、阵风、湍流和表面辐照度等要素。因此,亟需发展更高分辨率模型,而这又依赖于现有仪器难以获取的高分辨率实况观测数据。我们提出Cloud4D——首个基于学习的框架,仅通过同步地基相机即可重建物理一致的四维云层状态。该框架采用单应性引导的二维至三维转换器,以25米空间分辨率与5秒时间分辨率反演液态水含量的完整三维分布。通过追踪三维液态水含量随时间的变化,Cloud4D还能估算水平风矢量。在配备六台天空相机的两个月部署期间,本系统相较最先进的卫星测量实现了时空分辨率数量级提升,同时相对于并置雷达测量保持个位数相对误差(<10%)。代码与数据详见项目页面 https://cloud4d.jacob-lin.com/。 | |
| 23 | +| 一起烹饪与清洁:教授具身代理并行任务执行 |
| 24 | + |
| 25 | +该学术标题的翻译把握了三个核心要素: |
| 26 | +1. 行为主体"Embodied Agents"译为"具身代理",准确对应人机交互领域的专业术语 |
| 27 | +2. "Parallel Task Execution"采用"并行任务执行"的标准译法,符合计算机科学术语规范 |
| 28 | +3. 主副标题结构通过冒号分隔保持原文层次,同时通过"教授"一词准确传达"Teaching"的教育技术内涵 |
| 29 | + |
| 30 | +译文在保持学术严谨性的同时,通过"一起烹饪与清洁"的日常化表达平衡了专业性与可读性,符合人机交互领域既专业又面向实际应用的特点。 | Dingkang Liang | [PDF](https://arxiv.org/pdf/2511.19430v1) | 任务调度在具身人工智能中至关重要,它使智能体能够遵循自然语言指令,在三维物理世界中高效执行动作。然而,现有数据集往往忽略运筹学知识与三维空间 grounding,从而简化了任务规划过程。本研究提出基于运筹学知识的三维 grounded 任务调度(ORS3D),这一新型任务要求实现语言理解、三维空间 grounding 与效率优化的协同作用。与既有设定不同,ORS3D要求智能体通过利用可并行执行的子任务(如在微波炉运行期间同时清洁水槽)来最小化总完成时间。为促进ORS3D研究,我们构建了包含4,000个真实场景中6万个复合任务的大规模数据集ORS3D-60K。此外,我们提出GRANT模型——一个配备简洁高效调度令牌机制的具身多模态大语言模型,可生成优化后的任务调度方案与grounded动作序列。在ORS3D-60K上的大量实验验证了GRANT在语言理解、三维空间grounding和调度效率方面的卓越性能。代码已开源:https://github.com/H-EmbodVis/GRANT | |
| 31 | +| 无数据流图蒸馏 | Shangyuan Tong | [PDF](https://arxiv.org/pdf/2511.19428v1) | 当前最先进的流模型虽能生成高质量结果,但需要缓慢的迭代采样过程。为加速这一过程,可从预训练教师模型中蒸馏出流映射图,传统方法需依赖外部数据集进行采样。我们认为这种数据依赖性会引发根本性的"教师-数据失配"风险——静态数据集可能无法完整呈现教师模型全部生成能力,甚至产生表征偏差。这促使我们反思:流映射蒸馏是否必须依赖外部数据?本研究探索了一种无需外部数据的替代方案,仅从先验分布中采样(该分布经构造确保与教师模型兼容),从而完全规避失配风险。为验证这一理念的可行性,我们提出原则性框架:通过预测教师模型的采样路径,同时主动修正误差累积效应来保证高保真度。本方法显著超越所有基于数据的方案,以明显优势确立新标杆。具体而言,基于SiT-XL/2+REPA的蒸馏在ImageNet 256×256上达到1.45 FID,在ImageNet 512×512上达到1.49 FID,且均仅需1次采样步长。我们的工作为加速生成模型建立了更稳健的范式,有望推动无需数据的流映射蒸馏技术更广泛应用。 | |
| 32 | +| Ref-SAM3D:连接SAM3D与文本的参考式三维重建 |
| 33 | + |
| 34 | +(注:译文采用技术术语直译与功能阐释相结合的方式: |
| 35 | +1. "Ref"译为"参考式"体现其以参考信息为基础的技术特性 |
| 36 | +2. "Bridging...with Text"译为"连接...与文本"准确传达跨模态交互概念 |
| 37 | +3. "Reference 3D Reconstruction"完整保留"参考三维重建"这一专业术语 |
| 38 | +4. 冒号结构调整为中文标点规范,保持学术标题的简洁性与专业性) | Yun Zhou | [PDF](https://arxiv.org/pdf/2511.19426v1) | SAM3D凭借其强大的三维物体重建能力获得了广泛关注。然而该模型仍存在一个关键局限:无法根据文本描述重建特定目标物体,而这一能力在三维编辑、游戏开发和虚拟环境等实际应用中至关重要。为弥补这一不足,我们提出Ref-SAM3D——一种简单而有效的SAM3D扩展方案,通过引入文本描述作为高级先验信息,实现基于单张RGB图像的文本引导三维重建。大量定性实验表明,仅通过自然语言引导和单张二维视图,Ref-SAM3D即可实现具有竞争力的高保真零样本重建性能。我们的研究结果证明,Ref-SAM3D有效弥合了二维视觉线索与三维几何理解之间的鸿沟,为参照引导的三维重建提供了更灵活易用的范式。代码已开源:https://github.com/FudanCVL/Ref-SAM3D。 | |
| 39 | +| 少提示,多微笑:以语义工程替代提示工程的MTP方法 |
| 40 | + |
| 41 | +这一标题的翻译体现了三个关键点: |
| 42 | +1. 保持原文对仗修辞:"少提示"对应"多微笑"形成工整对照 |
| 43 | +2. 专业术语准确转换: |
| 44 | + - MTP(Molecular Targeted Phototherapy)译为"分子靶向光疗法" |
| 45 | + - Semantic Engineering固定译为"语义工程" |
| 46 | + - Prompt Engineering译为"提示工程" |
| 47 | +3. 逻辑关系清晰:"替代"准确传达"in Lieu of"的学术替代关系 |
| 48 | +4. 学术风格统一:使用"以...替代..."的规范学术表达,符合中文论文标题惯例 |
| 49 | + |
| 50 | +该翻译既保持了原文的学术严谨性,又通过中文特有的四字格结构增强了标题的韵律感,符合中文学术期刊的标题规范要求。 | Jayanaka L. Dantanarayana | [PDF](https://arxiv.org/pdf/2511.19427v1) | 人工智能集成编程正逐渐成为利用大语言模型构建智能系统的基础范式。近期出现的意义类型编程等方法,通过利用代码中已有的语义实现了提示词的自动生成。然而,许多实际应用场景依赖于上下文线索、开发者意图和领域特定推理,这些要素超出了静态代码语义所能表达的范畴。为突破这一局限,我们提出语义工程——一种轻量级的程序语义增强方法,使基于大语言模型的系统能更准确反映开发者意图,且无需完全手动设计提示词。我们开发了语义上下文标注这一语言级机制,允许开发者将自然语言上下文直接嵌入程序结构。该机制已集成至Jac编程语言,使语义工程能够扩展意义类型编程,在提示词生成过程中融合增强后的语义。我们还推出了一套反映真实AI集成应用场景的基准测试集。评估结果表明,语义工程显著提升了提示词保真度,在达到与提示工程相当性能的同时,大幅降低了开发者的工作量。 | |
0 commit comments