——国家自然科学基金项目"几何深度学习方法研究及蛋白组学癌症模式分析应用"成果介绍
项目批准号:U21A20427(区域创新发展联合基金·重点支持项目)
依托单位:西湖大学
项目负责人:李子青
每个人体内有两万多种蛋白质,它们的种类和含量会随疾病发生显著变化。借助质谱技术,科学家可以在一份血液或组织样本中同时测量数千乃至上万种蛋白的表达水平,形成一张“蛋白指纹”。如果能从这张指纹中准确识别出癌症特有的模式,就有望实现更早、更准、更个性化的诊断。
然而,这张指纹面临三个现实挑战:
- 维度极高:每个样本对应上万个蛋白变量,变量之间关系错综复杂,传统统计方法难以驾驭。
- 数据“脏”且“缺”:不同医院、不同仪器、不同批次产生的数据存在系统偏差,测量中还常有大量缺失值。
- 临床对可解释性要求极高:医生不仅需要一个“良性/恶性”的结论,更需要知道“依据哪些蛋白做出判断”“这些蛋白在生物学上是否说得通”。
本项目的核心思路是:高维蛋白数据虽然看起来杂乱,但与癌症相关的信息实际上集中在一个低维“流形”(可以想象成一张弯曲的薄膜)上。如果在把数据“压缩”到低维空间的过程中,能尽量保留数据点之间原有的邻近关系和几何结构,那么分类就更准确、解释就更可信、结果就更容易在新数据上重现。这正是“几何深度学习”的精髓——让神经网络在学习的同时“尊重”数据的几何规律。
项目团队花了四年时间,沿着“基础方法 → 系统集成 → 临床验证”的路线,构建了一条贯通的技术链。
团队提出了以“态射神经网络”(MNN)和“深流形变换”为核心的参数化降维框架。与经典的 t-SNE、UMAP 等方法相比,这个框架有三个显著优势:
- 可以泛化到新样本(不必每次都重新计算)
- 训练过程可控且稳定
- 能告诉研究者“哪些蛋白对分类贡献最大”——为后续筛选癌症标志物提供直接线索
在此基础上,团队进一步把低维空间从常见的平面扩展到双曲空间(一种能更自然地表达树状分支结构的几何空间),并发展了面向多模态数据(例如同时含有基因表达、空间坐标和组织形态学信息的空间转录组数据)的拓扑融合策略,使方法能适应更多样的生物医学场景。
相关成果发表于 IEEE TVCG(2024)和 Briefings in Bioinformatics(2025)。
真实的组学数据分析涉及多个环节。团队围绕以下主线,逐一攻克关键技术节点:
缺失补缺 → 表征学习 → 隐空间建图 → 分类分型 → 可解释分析 → 标志物网络挖掘
- 图结构学习:提出在少标注条件下依然鲁棒的自监督建图方法,解决“样本之间的关系图事先未知”的难题。
- 蛋白表征:发展了结构感知的蛋白语言模型(在 6.5 亿参数规模上预训练,覆盖约 4000 万条序列-结构对),以及将序列与三维结构动态耦合的图神经网络,为下游任务提供高质量特征底座。
- 质谱数据解析:针对蛋白质谱 de novo 测序中的“翻译后修饰识别困难”和“噪声谱图干扰”两大偏差,分别提出:
- 基于条件互信息加权的稳健训练策略
- 检索增强的推理机制
显著提升了肽段解析的可靠性。
这些方法发表于 NeurIPS、ICLR、AAAI 等人工智能顶级会议,以及 Nature Machine Intelligence 等顶级期刊。它们并非孤立的算法论文,而是一条环环相扣的技术链:上游数据解析越准确,中游表征学习越稳健,下游的分类与解释就越可信。
方法再好,如果不能在真实临床场景中经受住检验,就只是实验室里的成果。本项目格外重视“发现—验证”的闭环构建,在两个癌症方向取得了有说服力的验证结果。
- 背景:甲状腺结节常见,但仅少数为恶性;现有超声和细针穿刺检查存在“不确定”结果,导致不必要的手术。
- 方法:对 1724 例甲状腺 FFPE 组织样本进行高通量蛋白质组学分析,筛选出 19 个关键蛋白,训练 AI 分类器。
- 验证:
- 回顾性队列(3 中心,288 例):准确率 ≈ 89%
- 前瞻性细针穿刺队列(9 中心,294 例):准确率 ≈ 85%
- 意义:仅凭微量穿刺样本中的蛋白信息,AI 即可辅助医生判断,有望减少不必要手术和患者焦虑。
成果发表于 Cell Discovery(2022)
- 背景:高分级浆液性卵巢癌致死率高,化疗后易耐药复发,缺乏可靠预测手段。
- 方法:
- 构建高质量卵巢组织特异蛋白谱库(>13 万条肽段,>1 万种蛋白)
- 发现一组与耐药显著相关的候选蛋白,凝练为 六蛋白分类器
- 验证:
- 通过 PRM(平行反应监测)靶向质谱在另一中心 57 例患者中独立验证
- 有效区分耐药与敏感人群(P = 0.014)
- 范式价值:“谱库构建 → DIA 发现 → PRM 靶向验证 → 独立中心外部验证”的全链条,为蛋白标志物临床转化提供可复制模板。
成果发表于 Molecular Oncology(2023)
在四年资助期内,项目累计:
- 发表学术论文 20 篇(期刊 7 篇、会议 13 篇),包括 Nature Machine Intelligence、NeurIPS、ICLR、AAAI、IEEE TVCG 等国际顶级平台
- 申请发明专利 5 项(已授权 2 项、受理 3 项)
- 培养博士研究生 9 名
站在公众和纳税人的角度,这个项目回答了两个核心关切:
项目不仅贡献了一批顶级学术成果,更重要的是,两项临床蛋白质组学研究通过多中心队列与靶向质谱验证,形成了“发现—验证”的完整证据闭环:
- 甲状腺结节 19 蛋白 AI 分类器
- 卵巢癌化疗耐药六蛋白 PRM 分类器
展示了蛋白标志物 + 人工智能在真实临床流程中辅助精准诊断、分型与疗效监测的可行路径,为减少不确定诊断、优化治疗决策提供了可推广的技术方案。
项目产出的方法构成了一套可复用的组学智能分析“工具箱”,包括:
- 几何深度学习表征框架
- 鲁棒图结构学习算法
- 结构感知蛋白语言模型
- 微环境 token 化表征
- 检索增强质谱推理机制
这套工具箱不仅适用于蛋白质组学,还可扩展到基因组、代谢组等多组学数据,为更广泛的癌症机制研究、候选标志物发现乃至药物研发提供算法与系统基础,具备持续迭代与进一步落地转化的应用前景。
项目成果介绍页面:https://github.com/Westlake-AI/Project_Achievements
本项目由国家自然科学基金区域创新发展联合基金资助。