MBZUAI与复旦大学联合发布:仅用1%数据让大模型医学推理能力媲美全量训练的突破性AI技术
2025-09-21 15:40:04  腾讯   [查看原文]

科研、项目、商务合作:nnhhce  (注明来意,清北硕博团队专注于AI for Science大模型)

独家整理,盗用必究

近日,阿联酋人工智能大学(MBZUAI)与华东师范大学、蒙纳士大学等顶尖院校的研究团队在医学AI推理领域取得重大突破。他们提出的DIQ(难度-影响力象限)数据选择策略能够仅使用1%的精选数据就达到全数据集训练的性能水平,这一成果对于降低大模型医学应用的训练成本和提高效率具有重要意义。当前医学大模型训练面临的核心挑战是什么?

监督微调(SFT)已成为将大语言模型适配到医学等专业领域的主流方法,但现有做法普遍依赖未经筛选的大规模数据集。以ReasonMed为例,研究者构建了包含37万个医学推理实例的庞大语料库,但其中充斥着冗余和低质量样本,导致巨大的计算成本和次优的性能表现。

传统的数据选择方法主要基于样本难度这一单一维度,但研究团队通过深入分析发现了一个关键问题:仅基于难度选择数据会优先选择噪声过多或过于复杂的案例,这些案例虽然推理复杂但无法提供稳定的优化信号。

图1展示了FineMed数据集按难度和影响力评分的分布情况,数据点按象限着色。每个象限的柱状图显示了数据的内在推理质量和在Qwen3-8B模型上微调后的下游性能表现。DIQ技术的核心原理是什么?难度分类器的构建原理

研究团队开发了基于BiomedBERT的难度分类器,该分类器能够从三个维度评估医学推理问题的复杂程度。分类器在包含2万个问题的数据集上进行训练,这些问题来自MedQA、MedMCQA、MedBullets等权威医学数据源。

分类器按照5分制李克特量表对每个样本进行评分:

知识复杂度:评估所需医学知识的深度和广度

推理复杂度:评估逻辑推理过程的复杂程度

整体难度:综合前两个维度的评分

该分类器在测试集上的F1分数表现优异:**知识维度81%,推理维度84%,整体难度82%**。影响力评估的数学模型

影响力评估采用基于梯度的一阶泰勒近似方法来量化每个训练样本对模型性能提升的贡献。对于在训练步骤

时参数为

的模型,验证数据点

的损失变化可以用一阶泰勒展开近似:

假设模型使用批次大小为1、学习率为

的随机梯度下降进行训练,参数更新公式为:

其中

是第

步的训练数据点。将此更新代入泰勒展开,可得训练点

对验证点

的单步影响:

为了衡量训练数据点

在整个训练过程中的累积影响,研究团队将单步影响在所有训练轮次上进行聚合:

其中

是第

轮的学习率,

表示第

轮后的模型参数。最终,样本

的实例级影响定义为在整个验证集

上的平均影响:

四象限数据选择策略

图2展示了DIQ框架的完整工作流程。该方法首先将每个样本映射到由BiomedBERT难度评分和方程6计算的影响力评分定义的二维空间中,创建四个不同的数据象限用于策略选择。

基于难度分数和影响力分数,数据集被划分为四个象限:

:高难度、高影响力(优先选择)

:低难度、高影响力(次优先)

:高难度、低影响力(第三优先)

:低难度、低影响力(最后选择)

选择策略按

的优先级顺序填充目标子集,确保选中的数据在复杂性和训练效用之间实现最佳平衡。实验结果揭示了什么重要发现?核心性能突破

表1:不同数据保留比例下Llama3.1-8B-Instruct的下游任务性能对比

模型

数据

MedQ

MedM

MMLU

AvgS

HLE

MeB4

MeB5

MedX

MedG

MetM

AvgC

AvgAHuatuo

Full (19k)

58.68

47.79

57.85

54.77

24.27

44.16

40.91

20.33

43.28

53.68

37.77

43.44

1% DIQ56.6450.1662.8156.5413.5947.4047.7514.4545.8646.3935.9142.78FineMed

Full (17k)

40.22

51.26

51.61

47.70

16.50

46.10

44.48

25.47

39.27

32.19

34.00

38.57

1% DIQ53.5054.1566.7658.1412.6245.4542.2113.8044.2840.3533.1241.46

表1显示了在标准临床任务(MedQ、MedM、MMLU)和挑战性临床任务(HLE、MeB4、MeB5、MedX、MedG、MetM)上的准确率对比。AvgS、AvgC和AvgA分别表示标准任务、挑战性任务和所有任务的平均准确率。

实验结果表明:仅使用1%的DIQ选择数据训练的模型在FineMed和MedReason数据集上的整体性能(41.46和39.54)竟然超越了在完整数据集上训练的基线模型(38.57和39.38)。这一现象可以解释为DIQ有效地"净化"了训练信号,使模型能够专注于学习最有价值的信息。临床价值评估的重要发现

表2:临床价值比较结果

数据类型

鉴别诊断

安全检查

证据引用DIQ-1%数据4.393.684.77

完整数据

3.59

3.33

4.31DIQ-1%模型生成3.713.304.90

完整数据模型生成

3.66

3.14

4.75

表2展示了三位资深临床医生定义的关键临床推理组件评估结果,所有评估指标均采用5分制评分。DIQ选择的1%数据子集在所有临床指标上都优于完整数据集。

研究团队与三位经验丰富的临床医生合作,识别出有效临床推理的三个核心组成部分:鉴别诊断(DDx)、安全检查和证据引用。基于这一专家定义的框架,他们使用Gemini-2.5-Pro进行了自动化评估。计算效率优势分析

图4展示了计算DIQ评分与微调Llama3.1和Qwen3系列模型的FLOPs消耗对比。纵轴采用对数刻度以便更好地展示数据。

DIQ方法的一个关键优势是计算效率极高。如图4所示,在Huatuo数据集上应用DIQ的计算成本(9.05×10¹⁴ FLOPs)仅为单次Llama3.1-8B-Instruct微调(16.70×10¹⁴ FLOPs)或Qwen3-8B微调(18.79×10¹⁴ FLOPs)的一小部分。更重要的是,这是一次性的前期投入成本,计算得到的难度和影响力分数可以缓存并在多次微调实验中重复使用。跨模型泛化能力验证

图5显示了使用DIQ选择的Huatuo数据在不同数据保留比例下训练的Qwen3系列模型的下游任务性能表现。

研究团队验证了DIQ在跨模型规模和跨模型家族设置下的泛化能力。结果显示,即使在具有挑战性的跨家族迁移任务中(例如从Llama3.1-8B-Instruct到Qwen3系列模型),DIQ仍然能够在大多数设置下产生可观的性能提升。DIQ技术的创新突破点在哪里?双维度平衡的理论创新

传统方法的根本缺陷在于单维度评估:仅基于影响力选择会偏向易于优化但推理链较浅的样本,而仅基于难度选择则会选中推理密集但梯度信号较弱的案例,导致训练不稳定。

DIQ的核心创新在于将这两个正交维度有机结合,通过四象限划分实现了复杂临床推理与实质性梯度影响之间的最佳平衡。消融实验验证关键机制

图6展示了在不同消融设置下Llama3.1-8B-Instruct在所有任务上的平均准确率表现。

研究团队进行了详细的消融实验,对比了仅使用影响力分数或单一难度维度(知识、推理、整体)进行数据选择的效果。结果表明,DIQ在所有简化方法面前都保持了一致且显著的性能优势,这充分证明了其核心机制的有效性。偏好学习的意外收获

实验还发现,基于DIQ选择数据进行SFT训练的模型在后续的直接偏好优化(DPO)训练中表现更优。仅使用DIQ选择的1%数据进行SFT然后进行DPO的模型(56.52)甚至超越了在完整数据集上进行SFT再DPO的基线模型(55.52)。这项技术对医学AI发展有什么意义?

DIQ技术的突破性意义在于从根本上改变了大模型医学应用的训练范式。它不仅大幅降低了计算成本和训练时间,更重要的是证明了**"精选少量高质量数据胜过大规模暴力堆积"的科学原理在医学AI领域的有效性**。

这一成果对于医疗资源相对匮乏的地区和机构具有特别重要的意义,使得更多研究者和医疗机构能够以较低成本构建高质量的医学AI系统。

研究团队表示,由于计算资源限制,他们尚未在70B参数以上的大型模型上测试DIQ效果,这将是未来工作的重要方向。

论文引用:Zhuang, X., Tang, F., Yang, H., Hu, M., Li, H., Xue, H., Li, Y., He, J., Ge, Z., Qian, Y., & Razzak, I. (2025). Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data. arXiv preprint.

项目代码和数据: https://github.com/milhan-bot/DIQ

———— end ————

更多更深层次医疗大模型知识尽在👇

科研、项目、商务合作:nnhhce  (注明来意,清北硕博团队专注于AI for Science大模型)

盼盼 邀请你加入星球,一起学习 医工交叉AI大模型 星主:盼盼 清华北大计算机创业团队,专注于医疗大模型研发 该知识星球包括论文代码复现、transformer、扩散 模型训练大模型技术,医疗智能体等等。 口品轮口 C知识星球 微信扫码加入星球 公众号,医工交叉AI大模型

CMekGgithubChineseMedicalKnowledgeGraph 瑞金医院人工智能辅助构建知识图谱大赛糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关 系任务 OMAHA知识图谱(药品适应症)开放医疗与健康联盟(OpenMedicalandHealthcareAlliance,OMAHA)构 建的药品与药品适应证的知识图谱数据 医疗知识图谱数据医疗知识图谱数据(ownthink) ,病人事件图谱数据集病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检 查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个 专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。 中文症状库这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网 站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。 中医医案知识图谱从医案中抽取临知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃 炎”的临床表现、相关疗法、相关养生保健方法等 herbnet面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药,中药化学成分, 药理作用,中药实验,化学实验方法在内的中药本体。进而,基于本体实现了一系列数据库的集成,从而构建 了一个中药知识图谱。 CHIP2020中文医学文本实体关系抽取 CCKS2020新冠知识图谱构建与问答 公众号·医工交叉AI大模型 cmekg医学关系提取工具cmekg医学关系提取

ChineseEHRBert中文电子病历预训练Bert;用Bert测试命名实体识别,问答模型,关系提取任务 MMC-BERTChineseBLUE数据集和模型 bertcner用于命名实体识别的预训练的中文医学Bert模型 PCL-MedBERT鹏城医疗BERT预训练模型 medbertBERT模型在中文临床自然语言处理中的应用探索与研究 Chinese-Word2vec-Medicine中文生物医学领域词向量 SMedBERTSMedBERT “公众号·医工交叉AI大模型 eHealthBuilding

医工交叉AI大模型知识星球(持续更新) 生物大模型 今天修改 自Qilin-Med-VL中文多模态医疗大模型一一从安装到实际应用的完整指南 自MedFound大模型诊断辅助系统完全指南:从安装到临床实践 自MedAlpaca实战教程:大语言模型提升医疗工作效率 自Medical Data for Machine Learning/机器学习医疗公开数据 自本草(BenTsao)「原名:华驼(HuaTuo)1医学大语言模型实践应用教程 自MedicalGPT实战指南:从零开始构建你自己的医疗大语言模型 自OpenEMR电子病历系统详细使用指南:从安装到临床应用 自中文医学语言公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实 自医疗自然语言处理领域:评测/比赛,数据集,论文和预训练模型资源汇总 自本地部署deepseek+dify+6科室医疗知识库,实现智能问诊 自透析患者大模型检索增强生成(RAG)系统 自近两年临床自然语言处理方向的医疗AI大模型整理详述 自医疗数据与大语言模型:从结构化到非结构化 自检索增强生成(RAG)在医疗文本处理中的最新进展详细整理(2023-2025) 自大语言模型在医疗领域的应用详细整理 自医疗大模型训练中的数据采集,预处理与质量控制深度探讨 自利用大语言模型实现医疗问答系统精准回答的研究详细整理 自自适应学习与微调:医疗场景下大语言模型的二次训练策略 强公众号: 医工交叉AI大模型 系统在中国医院管理中的应用详细整理

公众号

(RAG(检索增强生成)原理:如何结合知识库与文本生成》 中 《初识预训练模型:BERT、GPT系列与它们在医疗文本处理中的应用》 《搭建一个简单的检索系统:ElasticSearch与向量检索的入门示例》 《搭建医疗数据科学环境:硬件配置、软件依赖与常见工具》 中 《基于中文医疗语料的预训练模型微调方法实战》 《医疗数据预处理入门:数据清洗、去重与缺失值处理》 《医疗文本的语义理解:上下文分析与实体关系抽取》 《医疗文本数据采集与管理:数据来源、格式与合规性要求》 《医学术语与标准:ICD、SNOMED、LOINC等专业术语体系解析》 《自然语言处理(NLP)在医疗领域的基础:分词、词性标注与命名实体识别》 可如何构建医疗知识库:从结构化数据到本体构建》 公众号·医工交叉AI大模型

CCIR2019CCIR2019基于电子病历的数据查询类问答 ccMedQA中文医学QA数据集 cMedQA2中文医学QA数据集 CMID中文医学QA意图理解数据集 KGQA基于医药知识图谱的智能问答系统 chatbot-base-on-knowledge-Graph使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域 的对话系统 中文医疗对话数据集Chinesemedicaldialoguedata中文医疗对话数据集 webMEdQAwebMEdQA MEDDIALOG THE MEDDiALOG DatasET CONTAiNS CONVERSATIONS (IN CHINESE) BETWEEN DOCTORS AND PATIENTS.IT HAS 1.1 MILLION DIALOGUES AND 4 MILLION UTTERANCES. CHIP2020中医文献问题生成 NLPEC A MEDICAL Multi-CHOICE QUESTION DATASET for THE NAtionaL LicEnsed PHaRmACIST ExAMINATIONIN CHINA CCKS2021蕴含实体的中文医疗对话生成 IMCS21CBLUE@Tianchi中医疗对话数据集IMCS21 “公众号·医工交叉AI大模型

内容提及地域:上海市、上海市、普陀区

IP属地:中国 北京

本栏目中的所有页面均系自动生成,自动分类排列,采用联索网络信息采集、网页信息提取、语义计算等智能搜索技术。内容源于公开的媒体报道,包括但不限于新闻网站、电子报刊、行业门户、客户网站等。使用本栏目前必读