Skip to content

Commit 17492fc

Browse files
Update papers
1 parent 7b0f19f commit 17492fc

File tree

10 files changed

+1968
-240
lines changed

10 files changed

+1968
-240
lines changed

biorxiv.jsonl

Lines changed: 310 additions & 239 deletions
Large diffs are not rendered by default.
Lines changed: 34 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,34 @@
1+
# arxiv 2025-11-14
2+
3+
| 标题 | 作者 | PDF链接 | 摘要 |
4+
|------|------|--------|------|
5+
| 基于自洽性采样的多模态大语言模型结果奖励强化学习训练优化 | Jiahao Wang | [PDF](https://arxiv.org/pdf/2511.10648v1) | 结果奖励强化学习是优化多模态大语言模型分步推理能力的常用且日益重要的方法。在多选题场景——这一多模态推理基准的主流形式中,该范式面临着一个重要却常被忽视的障碍:经过错误思维链却猜中正确答案的不可靠轨迹,与真实逻辑推理获得的奖励相同,这是不容忽视的缺陷。我们提出自洽采样法来修正这一问题。针对每个问题,SCS通过(i)引入细微视觉扰动与(ii)对初始轨迹进行重复截断重采样;最终轨迹间的一致性将生成可微分的自洽分数,在策略更新时降低不可靠轨迹的权重。基于Qwen2.5-VL-7B-Instruct模型,将SCS嵌入RLOO、GRPO和REINFORCE++系列方法后,在六大多模态基准测试中准确率最高提升7.7个百分点,且额外计算成本可忽略不计。该方法在Qwen2.5-VL-3B-Instruct和InternVL3-8B模型上也取得显著效果,为多模态大语言模型中的结果奖励强化学习提供了简洁通用的改进方案。 |
6+
| 深度万物 3:从任意视角重建视觉空间
7+
8+
(注:该翻译在保持学术严谨性的同时兼顾中文表达习惯。"Depth Anything"译为"深度万物"既保留原项目名称特征又体现其通用性;"Recovering the Visual Space"采用"重建视觉空间"的译法,准确传达从二维信息重构三维视觉空间的深层含义;"Any Views"译为"任意视角"符合计算机视觉领域术语规范。) | Haotong Lin | [PDF](https://arxiv.org/pdf/2511.10647v1) | 我们提出Depth Anything 3(DA3),该模型能够从任意数量的视觉输入中预测空间一致的几何结构,无论是否已知相机位姿。为实现极简建模,DA3带来两项关键发现:单一标准Transformer(如原始DINO编码器)足以作为主干网络而无需架构特化;单一深度射线预测目标可避免复杂的多任务学习需求。通过师生训练范式,该模型在细节还原与泛化能力上达到与Depth Anything 2(DA2)相当的水准。我们建立了涵盖相机位姿估计、任意视角几何重建与视觉渲染的新视觉几何基准测试集。在此基准测试中,DA3在所有任务中均创下最新纪录,相机位姿精度相较前最优方法VGGT平均提升44.3%,几何精度提升25.1%。此外,其在单目深度估计任务中也优于DA2。所有模型均仅使用公开学术数据集完成训练。 |
9+
| ParoQuant:面向高效推理大语言模型的双向旋转量化方法
10+
11+
(解析:1. "Pairwise Rotation"译为"双向旋转"体现量化过程中双向交互特性;2. "Efficient Reasoning"译为"高效推理"准确传达优化目标;3. 采用"方法"作为隐性后缀,符合中文论文命名习惯;4. 保留首字母缩写的专业术语"ParoQuant";5. 整体结构采用"主标题:技术特征+应用领域"的学术命名范式) | Yesheng Liang | [PDF](https://arxiv.org/pdf/2511.10645v1) | 仅权重量化后训练(PTQ)技术通过将大语言模型(LLM)的权重压缩为低精度表示,以降低内存占用并加速推理。然而,权重和激活值中异常值的存在往往导致较大的量化误差和严重的精度损失,这一问题在近期具备长思维链推理能力的大语言模型中尤为突出——误差会在长推理链中持续累积。现有PTQ方法要么未能充分抑制异常值,要么在推理过程中引入显著开销。本文提出成对旋转量化(ParoQuant),该仅权重量化PTQ方法将硬件友好的可优化独立Givens旋转与通道级缩放相结合,通过均衡通道间数值量级、压缩各量化组内动态范围实现优化。我们进一步协同设计推理内核,充分发挥GPU并行计算能力,确保旋转与缩放操作在运行时保持轻量化。实验表明,ParoQuant在推理任务上较AWQ平均提升2.4%的准确率,且额外开销低于10%,为推理大语言模型的高效精准部署开辟了新路径。 |
12+
| 大型语言模型的黑盒在线策略蒸馏
13+
14+
这个翻译采用了以下专业处理方式:
15+
1. Black-Box 译为"黑盒" - 保持机器学习领域的标准术语
16+
2. On-Policy 译为"在线策略" - 符合强化学习领域的规范译法
17+
3. Distillation 译为"蒸馏" - 沿用知识蒸馏技术的标准表述
18+
4. 整体语序调整为中文习惯的修饰结构,同时严格保持专业术语的准确性
19+
20+
该翻译完整保留了原文的技术含义,符合计算机科学和机器学习领域的专业表达规范。 | Tianzhu Ye | [PDF](https://arxiv.org/pdf/2511.10643v1) | 黑盒蒸馏技术仅通过从专有教师模型的文本输出中学习,创建学生大语言模型(LLM),而无需访问其内部逻辑值或参数。本研究提出生成对抗蒸馏(GAD)方法,实现了在线策略的黑盒蒸馏。GAD将学生LLM构建为生成器,并训练判别器来区分其响应与教师LLM的响应,形成极小极大博弈框架。该判别器作为与学生模型协同进化的在线策略奖励模型,能提供稳定自适应的反馈。实验结果表明,GAD持续超越常用的序列级知识蒸馏方法。特别值得注意的是,采用GAD训练的Qwen2.5-14B-Instruct(学生模型)在LMSYS-Chat自动评估中达到了与教师模型GPT-5-Chat相当的水平。这些成果确立了GAD作为黑盒LLM蒸馏领域具有前景且有效的范式。 |
21+
| 机器人速成课:学习柔性化与风格化摔倒动作 | Pascal Strauch | [PDF](https://arxiv.org/pdf/2511.10635v1) | 尽管鲁棒运动控制领域近期取得进展,现实环境中运行的双足机器人仍面临跌倒风险。当前大多数研究致力于防止跌倒发生,而本研究则聚焦于跌倒现象本身。具体而言,我们的目标是在赋予用户对机器人终止姿态控制权的同时,最大限度减少其物理损伤。为此,我们提出一种与机器人构型无关的奖励函数,该函数在强化学习过程中能平衡三个目标:实现预期终止姿态、冲击最小化以及关键部件保护。为使策略对各类初始跌倒条件具有鲁棒性,并能在推理阶段指定任意未见过的终止姿态,我们引入了基于仿真的初始姿态与终止姿态采样策略。通过仿真与实体实验,本研究表明即使是双足机器人也能实现受控的柔性跌倒。 |
22+
| 潜在空间一小步,像素世界大飞跃:面向扩散模型的快速潜在升维适配器
23+
24+
(注:该翻译采用学术论文标题常见的对仗式译法:
25+
1. 保留原文对阿姆斯特朗名言的化用修辞,通过"潜在空间"与"像素世界"形成概念对应
26+
2. "升维适配器"准确传达"Upscale Adapter"的技术内涵
27+
3. 使用"面向..."的学术表达替代直译"for Your",更符合中文论文标题规范
28+
4. 通过"快速"明确强调模型性能优势,保持技术术语的精确性) | Aleksandr Razin | [PDF](https://arxiv.org/pdf/2511.10629v1) | 扩散模型难以突破训练分辨率的限制,因为直接进行高分辨率采样速度缓慢且成本高昂,而事后图像超分辨率(ISR)方法在解码后操作会引入伪影并增加延迟。我们提出潜在空间升维适配器(LUA),这是一个轻量级模块,可在最终VAE解码步骤之前直接在生成器的潜在代码上执行超分辨率。LUA作为即插即用组件集成,无需修改基础模型或增加扩散阶段,通过潜在空间中的单次前向传播即可实现高分辨率合成。该模块采用共享的Swin风格主干网络配合尺度特定的像素重组头,支持2倍和4倍缩放因子,并保持与图像空间超分辨率基线的兼容性,在实现相当感知质量的同时将解码与放大时间降低近3倍(从512px生成1024px仅增加0.42秒,而使用相同SwinIR架构的像素空间超分辨率需1.87秒)。此外,LUA在不同VAE的潜在空间中展现出强大的泛化能力,无需为每个新解码器从头训练即可快速部署。大量实验表明,LUA在保真度上可媲美原生高分辨率生成,同时为现代扩散管道提供了实用高效的可扩展高保真图像合成路径。 |
29+
| Instella:性能卓越的完全开放语言模型
30+
31+
(注:译文采用"性能卓越"对应"Stellar Performance"的文学性表达,既保留天体隐喻又符合中文技术文献表述习惯;"完全开放"精准对应"Fully Open"的技术定义;通过冒号结构保持原标题的学术严谨性) | Jiang Liu | [PDF](https://arxiv.org/pdf/2511.10628v1) | 大语言模型(LLMs)已在广泛任务中展现出卓越性能,但多数高性能模型仍保持闭源或部分开放,限制了研究的透明度与可复现性。本研究推出Instella系列——完全开放的三百亿参数语言模型,其训练全程使用公开可获取的数据与代码库。基于AMD Instinct MI300X GPU的算力支持,Instella通过大规模预训练、通用指令微调以及与人类偏好的对齐训练完成开发。尽管使用的预训练标记数量显著少于同期多数模型,Instella在完全开放模型中取得了领先性能,并与同类规模的顶尖开放权重模型表现相当。我们同时发布两个专业变体:支持128K标记上下文长度的Instella-Long,以及通过监督微调和数学任务强化学习增强的推理专用模型Instella-Math。这些成果共同确立了Instella作为透明、高效、多功能的开源替代方案,推动语言建模研究向开放可复现的目标迈进。 |
32+
| 使用场景程序查询带标签的时间序列数据 | Edward Kim | [PDF](https://arxiv.org/pdf/2511.10627v1) | 基于仿真的测试已成为保障信息物理系统(CPS)安全性的关键补充手段,与道路测试形成重要互补。因此,大量研究致力于在仿真环境中识别故障场景。然而,一个关键问题依然存在:在仿真中发现的自动驾驶故障场景能否在现实世界的实际系统中复现?由于仿真与真实传感器数据差异造成的“仿真与现实差距”,意味着仿真中识别的故障场景既可能是合成传感器数据产生的伪影,也可能是真实传感器数据中同样存在的实际问题。为解决这一问题,验证仿真故障场景的有效方法是在真实世界数据集中定位这些场景的出现,并验证故障是否在数据集中持续存在。为此,我们提出了形式化定义,阐述带标注时间序列传感器数据如何与抽象场景相匹配——该场景通过Scenic概率编程语言以场景程序的形式呈现。我们提出一种查询算法,在给定场景程序和标注数据集的情况下,可识别出符合指定场景的数据子集。实验表明,相较于最先进的商用视觉大语言模型,我们的算法在场景查询中准确率更高、速度快数个数量级,且能随查询时间序列数据时长的增加保持良好扩展性。 |
33+
| 具有隐凸性的非凸函数约束问题的全局解 | Ilyas Fatkhullin | [PDF](https://arxiv.org/pdf/2511.10626v1) | 约束非凸优化问题具有根本性挑战,因为全局解通常难以获得且约束规范条件未必成立。然而在控制与强化学习中的安全策略优化等众多应用中,此类问题具有隐藏凸性,即可通过非线性可逆变换重构为凸规划问题。这类变换通常具有隐含性或未知性,导致无法直接建立与凸规划的关联。另一方面,关于原始变量的(次)梯度往往可获取或易于估计,这促使我们采用标准(次)梯度预言机直接在原始非凸问题空间设计算法。本研究首次提出可验证求解此类非凸问题全局最小值的算法:首先通过改进的不精确近端点法,在非光滑情形下建立全局末点收敛保证,其预言机复杂度为$\widetilde{\mathcal{O}}(\varepsilon^{-3})$;针对光滑问题,我们基于线性约束二次子问题提出新型束水平方法,将预言机复杂度提升至$\widetilde{\mathcal{O}}(\varepsilon^{-1})$。令人惊讶的是,尽管问题具有非凸性,我们的方法既不依赖任何约束规范条件,又能处理隐藏凸等式约束,且达到的复杂度与求解无约束隐藏凸优化问题相当。 |
34+
| SSR:面向大语言模型推理的苏格拉底式自我优化 | Haizhou Shi | [PDF](https://arxiv.org/pdf/2511.10621v1) | 大型语言模型(LLMs)已展现出卓越的推理能力,但现有测试时框架通常依赖粗略的自我验证与自我修正,限制了其在复杂任务中的有效性。本文提出苏格拉底式自我优化框架(SSR),这是一种用于细粒度评估和精确优化LLM推理的创新框架。我们提出的SSR将模型响应分解为可验证的(子问题,子答案)对,通过受控重解与自洽性检查实现步骤级置信度估计。通过精确定位不可靠步骤并迭代优化,SSR能生成更准确且可解释的推理链。在五个推理基准测试和三种LLM上的实验结果表明,SSR持续优于最先进的迭代式自我优化基线方法。除性能提升外,SSR为评估和理解LLM内部推理过程提供了原则性的黑盒研究方法。代码已发布于https://github.com/SalesforceAIResearch/socratic-self-refine-reasoning。 |
Lines changed: 28 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,28 @@
1+
# biorxiv 2025-11-14
2+
3+
| 标题 | 作者 | PDF链接 | 摘要 |
4+
|------|------|--------|------|
5+
| ErbB3缺失导致整合素β1从早期内体循环途径转向细胞外囊泡分泌途径
6+
7+
(注:该翻译严格遵循分子生物学专业术语规范:
8+
1. ErbB3作为受体酪氨酸激酶家族成员保留英文原名
9+
2. Integrin β1采用医学标准译名"整合素β1"
10+
3. "early endosomal recycling"专业表述为"早期内体循环"
11+
4. "extracellular vesicles"统一译为"细胞外囊泡"
12+
完整呈现了膜蛋白运输路径改变的分子机制) | Rodrigues-Junior, D. M. | [PDF](https://doi.org/10.1101/575449) | |
13+
| 肺内感受器的分子、解剖与功能组织架构 | Liu, Y. | [PDF](https://doi.org/10.1101/2021.11.10.468116) | |
14+
| 禽类肺脏中肺动脉平滑肌的血管起源 | Griffing, A. H. | [PDF](https://doi.org/10.1101/2022.07.13.499952) | |
15+
| 热胁迫通过靶向减数分裂细胞翻译诱导未减数雄配子形成 | Schindfessel, C. | [PDF](https://doi.org/10.1101/2022.08.11.503651) | |
16+
| 核糖体蛋白通过调控代谢对造血干细胞转化的控制作用。 | Harris, B. | [PDF](https://doi.org/10.1101/2023.05.31.543132) | |
17+
| 一个用于标准化、在线实施且临床适用的神经认知评估平台:WebNeuro | Williams, L. M. | [PDF](https://doi.org/10.1101/2023.08.28.553107) | |
18+
| 从专家意见到实证证据:基于移动代理数据的城市连通性模型数据驱动参数化
19+
20+
(注:该翻译在保持学术严谨性的同时实现了三个关键处理:
21+
1. "empirical evidence"译为"实证证据"以对应定量研究范式
22+
2. "movement-proxy data"采用"移动代理数据"的译法,既保留proxy的计量经济学含义,又通过"代理"明确其间接测量特性
23+
3. 使用"数据驱动参数化"准确传达通过实际观测数据校准模型参数的建模方法,区别于传统的理论推导参数化方式) | Merkens, L. | [PDF](https://doi.org/10.1101/2023.12.22.571399) | |
24+
| 位于内质网的PIN5转运蛋白通过IAA脱羧途径形成强效生长素库
25+
26+
(说明:采用"内质网"对应ER更符合中文细胞生物学规范;"PIN5转运蛋白"保留专业术语原貌;"IAA脱羧途径"准确呈现生化反应类型;"生长素库"对应auxin sinks的植物生理学概念,并通过"强效"体现potent的强度含义。整句采用主谓宾结构,符合中文科技文献表达习惯。) | Covanova, M. | [PDF](https://doi.org/10.1101/2024.01.24.576992) | |
27+
| 羽毛空气动力学研究表明,升力与流动可预测性比阻力最小化更为重要。 | Alenius, F. | [PDF](https://doi.org/10.1101/2024.05.27.596009) | |
28+
| 人类空间导航中视觉通路的几何表征 | Zeng, T. | [PDF](https://doi.org/10.1101/2024.08.04.605402) | |
Lines changed: 14 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,14 @@
1+
# medrxiv 2025-11-14
2+
3+
| 标题 | 作者 | PDF链接 | 摘要 |
4+
|------|------|--------|------|
5+
| | | [PDF](https://doi.org/10.1101/2025.10.17.25338219) | |
6+
| | | [PDF](https://doi.org/10.1101/2025.10.10.25337504) | |
7+
| | | [PDF](https://doi.org/10.1101/2025.08.29.25334484) | |
8+
| | | [PDF](https://doi.org/10.1101/2025.05.20.25326848) | |
9+
| | | [PDF](https://doi.org/10.1101/2025.10.20.25336737) | |
10+
| | | [PDF](https://doi.org/10.1101/2025.10.13.25337880) | |
11+
| | | [PDF](https://doi.org/10.1101/2025.03.07.25323588) | |
12+
| | | [PDF](https://doi.org/10.1101/2025.09.02.25334768) | |
13+
| | | [PDF](https://doi.org/10.1101/2025.10.14.25337942) | |
14+
| | | [PDF](https://doi.org/10.1101/2025.09.12.25335643) | |

docs/index.md

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -593,6 +593,9 @@
593593

594594

595595

596+
597+
598+
596599

597600

598601

0 commit comments

Comments
 (0)