|
| 1 | +# arxiv 2025-11-17 |
| 2 | + |
| 3 | +| 标题 | 作者 | PDF链接 | 摘要 | |
| 4 | +|------|------|--------|------| |
| 5 | +| 优化块注意力混合机制 | Guangxuan Xiao | [PDF](https://arxiv.org/pdf/2511.11571v1) | 块混合注意力(MoBA)(Lu等人,2025)是一种前景广阔的构建模块,它通过使查询能够稀疏关注少量键值块,显著降低计算成本,从而高效处理大语言模型中的长上下文。然而,目前对MoBA性能的设计原理理解不足,且缺乏高效的GPU实现,阻碍了其实际应用。本文首先建立统计模型分析MoBA的内在机制,发现其性能关键取决于路由器基于查询-键亲和度准确区分相关块与无关块的能力。我们推导出信噪比公式,将架构参数与检索精度建立形式化关联。基于此分析,我们提出两条改进路径:采用更小的块尺寸,以及对键施加短卷积操作以聚类相关信号,从而提升路由精度。虽然小尺寸块在理论上更具优势,但在GPU上运行效率低下。为此,我们推出FlashMoBA——具备硬件感知能力的CUDA内核,即使采用理论推荐的小尺寸块也能实现高效MoBA运算。通过从头训练大语言模型进行验证,改进后的MoBA模型在性能上可媲美稠密注意力基线。对于小尺寸块,FlashMoBA相较FlashAttention-2最高可实现14.7倍加速,使理论改进具备实践价值。代码已开源:https://github.com/mit-han-lab/flash-moba。 | |
| 6 | +| 基于余数系统的私有频率估计 | Héber H. Arcolezi | [PDF](https://arxiv.org/pdf/2511.11569v1) | 我们提出\textsf{模数子集选择算法}(MSS),这是一种用于局部差分隐私(LDP)频率估计的新型算法。在大小为$k$的域和$n$个用户场景下,我们的$\varepsilon$-LDP机制通过$\ell$个两两互质模数$m_0, \ldots, m_{\ell-1}$构成的余数系统(RNS)对输入进行编码,并随机选择索引$j \in [\ell]$连同经统计最优\textsf{子集选择算法}(SS)(Wang et al. 2016)扰动后的余数进行上报。该设计将标准SS算法所需的$Θ\bigl(ω\log_2(k/ω)\bigr)$比特用户通信成本(其中$ω\approx k/(e^\varepsilon+1)$)降低至$\lceil \log_2 \ell \rceil + \lceil \log_2 m_j \rceil$比特,且满足$m_j < k$。服务端解码时间复杂度为$Θ(n + r k \ell)$,其中$r$表示LSMR(Fong and Saunders 2011)迭代次数。在实际应用中,当采用良态模数时(即常数$r$和$\ell = Θ(\log k)$),复杂度可降至$Θ(n + k \log k)$。我们证明MSS在最差情况下的均方误差(MSE)与SS、\textsf{射影几何响应}(PGR)(Feldman et al. 2022)等前沿协议保持常数倍关系,同时规避了PGR所需的代数预备知识及动态规划解码器。实证研究表明,在实际$(k, \varepsilon)$参数设置下,MSS在估计精度上与SS、PGR及\textsf{RAPPOR}(Erlingsson, Pihur, and Korolova 2014)相当,同时具备比PGR更快的解码速度、比SS更短的用户消息。最后,通过从多个模数采样并仅上报单个扰动余数的设计,MSS在所有评估的LDP协议中实现了最低的重构攻击成功率。 | |
| 7 | +| 在存在溢出效应和部分合格性的二分实验中对总效应进行估计 | Albert Tan | [PDF](https://arxiv.org/pdf/2511.11564v1) | 我们研究二分系统中的随机实验,其中仅部分处理侧单元具备分配资格,而所有单元持续交互并产生干扰效应。我们形式化定义了资格约束二分实验,并建立了与全面部署相一致的估计量:针对合格单元的主总处理效应(PTTE)及针对不合格单元的次总处理效应(STTE)。通过在合格集合内进行随机化,我们给出识别条件,并开发了结合暴露映射、广义倾向得分与灵活机器学习的干扰感知集成估计方法。进一步提出连接处理层与结果层估计量的投影映射:该映射在线性可加边条件下具有精确性,支持在(通常规模更小的)处理侧进行估计,并通过确定性聚合传导至结果侧。在已知真实参数的现实暴露机制模拟中,所提估计量能以低偏差和方差还原PTTE与STTE,有效修正忽略干扰时可能产生的偏差。两个实地实验验证了实际应用价值:我们的方法在两项研究中均修正了预设指标的预期干扰偏差方向,并在其中一个案例中逆转了核心决策指标的符号与显著性。 | |
| 8 | +| LARM:大规模关节物体重建模型 | Sylvia Yuan | [PDF](https://arxiv.org/pdf/2511.11563v1) | 对具有真实几何结构、纹理和运动学的三维铰接物体进行建模,在众多应用领域都具有重要意义。然而,现有基于优化的重建方法通常需要密集的多视角输入和昂贵的单实例优化,限制了其可扩展性。近期提出的前馈方法虽能提供更快速的替代方案,但往往生成粗糙几何结构,缺乏纹理重建能力,且依赖脆弱复杂的多阶段流程。我们提出LARM这一统一前馈框架,通过从稀疏视角图像中联合恢复精细几何、真实纹理和准确关节结构,实现三维铰接物体的重建。该框架将LVSM——一种针对静态三维物体的新型视图合成方法——扩展至铰接场景,通过基于Transformer的架构联合推理相机位姿与关节变化,从而实现可扩展且精确的新视图合成。此外,LARM还能生成深度图和部件掩码等辅助输出,以支持显式三维网格提取与关节估计。我们的流程无需密集监督,可跨多种物体类别实现高保真重建。大量实验表明,LARM在新视图合成、状态合成及三维铰接物体重建任务中均优于现有最优方法,生成的优质网格与输入图像高度吻合。项目页面:https://sylviayuan-sy.github.io/larm-site/ | |
| 9 | +| PRBench:用于评估高风险专业推理的大规模专家评分标准 | Afra Feyza Akyürek | [PDF](https://arxiv.org/pdf/2511.11562v1) | 前沿模型的进展通常通过学术基准来衡量,但这些基准对模型在现实专业场景中的表现评估存在局限。现有评估方法往往难以衡量法律和金融等高风险领域中开放式、具有经济影响的任务——这些领域的实际效益至关重要。为此,我们推出专业推理基准(PRBench),这是一个基于真实场景构建的开放式高难度基准测试集,涵盖金融与法律领域问题。我们开源了1,100项由专家设计的任务及19,356条专家制定的评估标准,据我们所知,这已成为目前法律和金融领域规模最大的公开量规化基准。我们招募了182位持有法律博士(JD)、特许金融分析师(CFA)资格或具备6年以上从业经验的合格专业人士,他们根据实际工作流程设计测试任务。这一过程保证了任务的广泛多样性,覆盖114个国家和美国47个司法管辖区。我们通过包含独立专家验证的严格质量流程,对专家制定的评估标准进行了有效性验证。随后对20个领先模型的评估显示,即使在我们的高难度子集中,模型最高得分也仅为0.39(金融)和0.37(法律),表明其仍有巨大改进空间。我们进一步对提示语相关的经济影响进行分类,并通过人工标注的量规类别分析模型表现。研究发现,总体得分相近的模型在特定能力上存在显著差异。常见缺陷包括判断失准、过程不透明及推理不完整,这些短板严重制约了模型在专业领域的可靠应用。 | |
| 10 | +| 半分散式学习的统一收敛性分析:采样节点间通信与采样节点对全体通信模式对比 | Angelo Rodio | [PDF](https://arxiv.org/pdf/2511.11560v1) | 在半去中心化联邦学习中,设备主要依赖设备间直接通信,但偶尔会与中央服务器交互。系统会定期抽取部分设备将其本地模型上传至服务器,由服务器计算聚合模型。随后服务器可采取两种策略:(i) 仅向被抽样设备分享聚合模型(抽样对抽样,S2S);(ii) 向所有设备广播该模型(抽样对全体,S2A)。尽管这两种策略具有重要实践意义,但目前仍缺乏严谨的理论与实证对比研究。我们通过建立统一收敛框架来填补这一空白,该框架综合考虑了三大系统参数:抽样率、服务器聚合频率和网络连接性。理论与实验结果表明,根据设备间数据异构程度的不同,两种策略会呈现明显的性能差异区域。这些发现为实际半去中心化联邦学习部署提供了具体的设计准则。 | |
| 11 | +| 采用脉冲激光沉积技术的人机协同自主合成实现远程外延 | Asraful Haque | [PDF](https://arxiv.org/pdf/2511.11558v1) | 自主实验室通常依赖数据驱动决策,偶尔通过人员在环监督机制引入领域专业知识。然而要充分发挥人工智能代理的效能,需要建立贯穿假设生成、实验规划、执行与解析的紧密协同工作流。为此,我们开发并部署了人机协同(HAIC)工作流:集成大语言模型负责假设生成与分析,通过协同策略更新驱动BaTiO$_3$/石墨烯远程外延的自主脉冲激光沉积实验。HAIC加速了假设形成与实验设计进程,高效绘制出生长参数与石墨烯损伤的映射关系。原位拉曼光谱分析表明化学反应主导材料降解,而最高能量羽辉组分诱发缺陷,据此识别出能保护石墨烯但与BaTiO$_3$最优生长条件相悖的低氧压低温合成窗口。因此我们论证了需要采用两步法Ar/O$_2$沉积工艺,在维持单层石墨烯夹层的同时剥离铁电BaTiO$_3$薄膜。HAIC通过在自主实验批次间交替部署人类洞察与AI推理,推动科学发现快速进展,为现有多类人员在环自主工作流提供了演进范式。 | |
| 12 | +| Transformer中自注意力动态的多稳态性 | Claudio Altafini | [PDF](https://arxiv.org/pdf/2511.11553v1) | 在机器学习中,自注意力动力学是一种连续时间、类多智能体模型,用于描述变压器中注意力机制的工作原理。本文证明此类动力学与Oja流的多智能体版本相关——该动力系统可计算矩阵的主特征向量,对变压器而言即对应价值矩阵。我们将"单头"自注意力系统的平衡点划分为四类:共识平衡、二分共识平衡、聚类平衡及多边形平衡。前三类中的多个渐近稳定平衡点常在自注意力动力学中并存。值得注意的是,前两类平衡点始终与价值矩阵的特征向量保持对齐,通常(但非绝对)与主特征向量方向一致。 | |
| 13 | +| DocLens:面向长视觉文档理解的工具增强型多智能体框架 |
| 14 | + |
| 15 | +(解析说明:该翻译严格遵循学术术语规范,核心要素处理如下: |
| 16 | +1. "Tool-Augmented"译为"工具增强型"符合人机协同研究领域的术语惯例 |
| 17 | +2. "Multi-Agent"采用控制论领域标准译法"多智能体" |
| 18 | +3. "Visual Document"译为"视觉文档"准确区分于纯文本文档 |
| 19 | +4. 框架名称"DocLens"保留原文形式,符合学术专有名词处理原则 |
| 20 | +5. 整体采用"领域特性+技术手段+研究对象"的中文学术命名结构) | Dawei Zhu | [PDF](https://arxiv.org/pdf/2511.11552v1) | 理解长篇幅视觉文档——即信息分布在大量包含文本与视觉元素的页面中——对现代视觉语言模型而言是一项关键却具有挑战性的任务。现有方法存在一个根本性挑战:证据定位。它们难以检索相关页面,且容易忽略视觉元素中的细粒度细节,导致性能受限并产生模型幻觉。为此,我们提出DocLens,一种工具增强的多智能体框架,能像透镜般精准聚焦证据。该框架首先从完整文档导航至相关页面的具体视觉元素,随后通过采样-裁决机制生成单一可靠答案。结合Gemini-2.5-Pro使用时,DocLens在MMLongBench-Doc和FinRAGBench-V基准测试中达到最先进性能,甚至超越人类专家。该框架在视觉中心型查询和不可回答类查询上的优势尤为显著,充分展现了其增强定位能力的强大效能。 | |
| 21 | +| 对齐马基雅维利式智能体:通过测试时策略塑造实现行为引导 |
| 22 | + |
| 23 | +(注:该翻译采用学术术语规范处理: |
| 24 | +1. "Aligning"译为"对齐",符合AI安全领域术语惯例 |
| 25 | +2. "Machiavellian Agents"译为"马基雅维利式智能体",保留政治哲学概念特征 |
| 26 | +3. "Behavior Steering"译为"行为引导",体现控制论思想 |
| 27 | +4. "Test-Time Policy Shaping"译为"测试时策略塑造",准确反映强化学习技术内涵) | Dena Mujtaba | [PDF](https://arxiv.org/pdf/2511.11551v1) | 决策型人工智能代理的部署面临着一个关键挑战:在复杂动态环境中运行时,如何保持与人类价值观或指导原则的一致性。仅以实现目标为导向训练的代理可能采取有害行为,这揭示了奖励函数最大化与价值对齐之间的根本矛盾。对于预训练代理而言,由于重新训练成本高昂且耗时,确保价值对齐尤为困难。而代表伦理价值的对齐属性本身具有多样性且可能存在冲突,更使这一问题复杂化。针对这些挑战,我们提出了一种基于模型引导策略塑形的测试时对齐技术。该方法能精确控制个体行为属性,在不同强化学习环境中具有普适性,并能在无需重新训练代理的情况下,实现伦理对齐与奖励最大化之间的原则性平衡。我们使用MACHIAVELLI基准进行评估——该基准包含134个文本游戏环境和数千个涉及伦理决策的标注场景。强化学习代理首先接受训练以在各自游戏中最大化奖励,在测试阶段则通过场景-行为属性分类器实施策略塑形,确保决策符合伦理属性。我们将本方法与先前的训练时方法、通用型代理进行对比,并研究了多种伦理违规行为与权力寻求行为。实验结果表明,测试时策略塑形为解决不同环境和对齐属性中的非伦理行为提供了高效且可扩展的解决方案。 | |
0 commit comments