顶级期刊最新研究:大型语言模型在数字健康领域实现专家级情感分析,伦敦玛丽女王大学联合多所名校验证AI
2025-09-21 15:40:04  腾讯   [查看原文]

科研、项目、商务合作:nnhhce  (注明来意,清北硕博团队专注于AI for Science大模型)

独家整理,盗用必究

近期,来自英国伦敦玛丽女王大学商学院、人口健康沃尔夫森研究所,联合诺丁汉大学医学系、米兰比可卡大学信息学系等多所知名院校的研究团队,在数字健康分析领域取得重要进展。该团队系统性验证了大型语言模型(LLMs)通过上下文学习整合专家知识进行情感分析的能力,为解决医疗文本分析中的专业知识稀缺问题提供了创新解决方案。为什么传统方法在医疗文本分析中频频受限?

数字健康分析正面临着前所未有的挑战。医疗相关文本包含复杂的情感和医学背景,需要稀缺的领域专业知识进行准确解释,而传统机器学习方法受到数据短缺和医疗环境中隐私限制的约束。在线健康社区(OHCs)典型地体现了这些挑战,患者发布的帖子包含混合情感、临床术语和隐含情感表达,需要专业知识才能进行准确的情感分析。

研究团队指出,传统情感分析方法主要分为三类:基于词典的方法、经典机器学习分类器和基于Transformer架构(如BERT)的方法。然而,医疗相关文本引入了额外挑战,包括通用语言和医学语言之间的领域转移、频繁的缩写和术语、单条消息中的隐含或混合情感,以及高质量标注数据集的稀缺性。大型语言模型如何实现专家知识的系统性转移?

研究团队开发了一套创新的结构化编码本方法,通过系统化编码专家解释指导原则,使LLMs能够通过目标提示而非大量训练来应用领域特定知识。这种方法代表了从传统数据密集型方法向知识引导方法论的根本转变。结构化编码本的核心技术原理

结构化编码本整合了三个关键组件:(1)带有定义和决策规则的标签集;(2)边界或隐含案例的包含/排除标准和指导;(3)带有简要理由的原型示例。编码本通过严格的共识过程创建:标注者首先独立标注400个帖子的试点集(与最终数据集不同),然后在多次会议中审查分歧以协调解释并形式化规则。

最终版本包括全面的情感定义、处理隐含情感的说明、带有理由的示例,以及针对模糊或混合情感案例的具体规则。这种对齐确保人类和模型遵循相同的专家衍生标注逻辑,促进领域特定知识融入自动化分析。

图1:各标注者和模型对AUK在线健康社区(上图)和BLF在线健康社区(下图)选定帖子的标签分布实验设计能否确保结果的科学性和可靠性?

研究团队采用了极其严格的实验设计。数据来源于HealthUnlocked平台提供的哮喘+肺病UK(AUK)和英国肺病基金会(BLF)在线健康社区。五名专家独立为每个数据集的200个随机帖子添加情感标签(正面、中性或负面)。所有标注者均持有博士学位:标注者2和5是英语母语者,标注者2、4和5专门从事医疗研究的定性分析,标注者4是具有临床经验的全科医生,标注者1是具有丰富在线健康社区数据分析经验的数据科学家。多维度性能评估体系

研究团队建立了五个维度的比较评估框架:

1. 标签分布分析:通过可视化计算人类标注者和模型产生的正面、负面和中性标签的边际频率。

2. 标注者间一致性:使用Fleiss' kappa系数(记为

)评估五名专家标注者之间的一致性程度,该系数对于成对比较简化为Cohen's kappa系数。统计显著性使用渐近

检验评估,零假设为

,显著性水平设定为

3. LLM-专家一致性:使用Mann-Whitney U检验(非参数,无正态性假设;

)比较LLM-人类成对

值分布与人类-人类成对

值分布。

4. 针对多数标签的性能:计算每个模型的准确率(即正确标签的百分比),并计算每个情感类别的精确率、召回率和

分数。

5. 置信度估计和校准:通过要求模型在预测的同时报告其确定性水平([0-1]尺度)来获得置信度分数,其中0表示完全不确定,1表示完全确定。实验结果揭示了哪些突破性发现?专家级一致性的实现

图2:标注者和所有模型的一致性矩阵。A和B面板显示标注者之间的一致性。C和D面板显示标注者和模型之间的一致性。

研究结果显示,LLM模型与标注者的一致性达到68%-89%,

值范围为0.42-0.75,这与标注者之间的一致性程度相符。Mann-Whitney U检验显示LLM-人类一致性分数与人类-人类一致性分数之间无显著差异(AUK中

,BLF中

),证实LLMs达到了真正的专家级一致性。性能对比的显著优势

图3:模型准确率。准确率通过模型和多数标签分配相同标签的帖子比例来衡量。

**LLMs表现出卓越的性能,GPT-o3-fs达到最高准确率87%**,而其他GPT变体的准确率在82%-86%之间。传统方法性能显著较低,BioBERT模型(48%-61%)略优于基于词典的模型。在BLF样本中,出现了类似模式,GPT-o3-fs达到86%的准确率,其他GPT变体范围为83%-86%。置信度校准的重要发现

图4:不同GPT模型变体的置信度校准结果

研究发现,o3模型展现出卓越的置信度估计能力,置信度分数在0.5到1之间分布良好,能够有效区分预测质量。少样本o3模型成为最佳策略,显示出置信度和准确率之间的强线性关系,校准曲线紧密跟踪完美校准线。这种线性进展表明更高的置信度分数可靠地对应更高的准确率,使置信度成为自动化标签质量评估的有价值指标。技术创新的深层数学原理是什么?Fleiss' Kappa系数的数学表达

研究中使用的Fleiss' kappa系数定义为:

其中

是观察到的一致性比例,

是预期的偶然一致性比例。对于

个对象和

个类别,

计算为:

其中

是对象

被分配到类别

的次数,

是每个对象的评分者数量,

是所有可能的评分者对数。置信度校准的量化评估

置信度校准通过可靠性图表评估,绘制预测置信度与置信区间内实际准确率的关系。**完美校准意味着预测置信度

的样本的准确率正好是

**。校准误差可以通过期望校准误差(ECE)量化:

其中

是置信区间

中的样本,

分别是该区间的准确率和平均置信度。这项研究对医疗AI应用有什么实际价值?

研究团队的创新方法解决了数字健康研究中专家知识短缺的关键挑战,实现了患者监测、干预评估和循证健康策略的实时、专家质量分析。通过结构化提示而非复杂模型开发实现高级分析,这种方法使高级分析对医疗研究团队可及,无论其技术基础设施或机器学习专业知识如何。

置信度校准分析的实用价值在于识别适用于质量控制部署场景的模型。GPT-o3少样本模型中置信度和准确率之间展现的线性关系,使得实施选择性预测策略成为可能,高置信度预测可以自动处理,而不确定案例接受人工监督。

这项研究为数字健康分析提供了变革性的解决方案,通过知识引导的方法论实现了专家质量的分析能力,同时解决了传统方法在医疗环境中面临的数据稀缺和隐私限制问题。其开源实现进一步增强了可及性,为医疗研究人员提供了即用型工具。

论文引用:

Li, X., Karampatakis, G. D., Wood, H. E., Griffiths, C. J., Mihaylova, B., Coulson, N. S., ... & De Simoni, A. (2024). The Promise of Large Language Models in Digital Health: Evidence from Sentiment Analysis in Online Health Communities. Queen Mary University of London & University of Nottingham & University of Milano-Bicocca Collaborative Research.

———— end ————

更多更深层次医疗大模型知识尽在👇

科研、项目、商务合作:nnhhce  (注明来意,清北硕博团队专注于AI for Science大模型)

盼盼 邀请你加入星球,一起学习 医工交叉AI大模型 星主:盼盼 清华北大计算机创业团队,专注于医疗大模型研发 该知识星球包括论文代码复现、transformer、扩散 模型训练大模型技术,医疗智能体等等。 口品轮口 C知识星球 微信扫码加入星球 公众号,医工交叉AI大模型

CMekGgithubChineseMedicalKnowledgeGraph 瑞金医院人工智能辅助构建知识图谱大赛糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关 系任务 OMAHA知识图谱(药品适应症)开放医疗与健康联盟(OpenMedicalandHealthcareAlliance,OMAHA)构 建的药品与药品适应证的知识图谱数据 医疗知识图谱数据医疗知识图谱数据(ownthink) ,病人事件图谱数据集病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检 查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个 专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。 中文症状库这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网 站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。 中医医案知识图谱从医案中抽取临知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃 炎”的临床表现、相关疗法、相关养生保健方法等 herbnet面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药,中药化学成分, 药理作用,中药实验,化学实验方法在内的中药本体。进而,基于本体实现了一系列数据库的集成,从而构建 了一个中药知识图谱。 CHIP2020中文医学文本实体关系抽取 CCKS2020新冠知识图谱构建与问答 公众号·医工交叉AI大模型 cmekg医学关系提取工具cmekg医学关系提取

ChineseEHRBert中文电子病历预训练Bert;用Bert测试命名实体识别,问答模型,关系提取任务 MMC-BERTChineseBLUE数据集和模型 bertcner用于命名实体识别的预训练的中文医学Bert模型 PCL-MedBERT鹏城医疗BERT预训练模型 medbertBERT模型在中文临床自然语言处理中的应用探索与研究 Chinese-Word2vec-Medicine中文生物医学领域词向量 SMedBERTSMedBERT “公众号·医工交叉AI大模型 eHealthBuilding

医工交叉AI大模型知识星球(持续更新) 生物大模型 今天修改 自Qilin-Med-VL中文多模态医疗大模型一一从安装到实际应用的完整指南 自MedFound大模型诊断辅助系统完全指南:从安装到临床实践 自MedAlpaca实战教程:大语言模型提升医疗工作效率 自Medical Data for Machine Learning/机器学习医疗公开数据 自本草(BenTsao)「原名:华驼(HuaTuo)1医学大语言模型实践应用教程 自MedicalGPT实战指南:从零开始构建你自己的医疗大语言模型 自OpenEMR电子病历系统详细使用指南:从安装到临床应用 自中文医学语言公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实 自医疗自然语言处理领域:评测/比赛,数据集,论文和预训练模型资源汇总 自本地部署deepseek+dify+6科室医疗知识库,实现智能问诊 自透析患者大模型检索增强生成(RAG)系统 自近两年临床自然语言处理方向的医疗AI大模型整理详述 自医疗数据与大语言模型:从结构化到非结构化 自检索增强生成(RAG)在医疗文本处理中的最新进展详细整理(2023-2025) 自大语言模型在医疗领域的应用详细整理 自医疗大模型训练中的数据采集,预处理与质量控制深度探讨 自利用大语言模型实现医疗问答系统精准回答的研究详细整理 自自适应学习与微调:医疗场景下大语言模型的二次训练策略 强公众号: 医工交叉AI大模型 系统在中国医院管理中的应用详细整理

公众号

(RAG(检索增强生成)原理:如何结合知识库与文本生成》 中 《初识预训练模型:BERT、GPT系列与它们在医疗文本处理中的应用》 《搭建一个简单的检索系统:ElasticSearch与向量检索的入门示例》 《搭建医疗数据科学环境:硬件配置、软件依赖与常见工具》 中 《基于中文医疗语料的预训练模型微调方法实战》 《医疗数据预处理入门:数据清洗、去重与缺失值处理》 《医疗文本的语义理解:上下文分析与实体关系抽取》 《医疗文本数据采集与管理:数据来源、格式与合规性要求》 《医学术语与标准:ICD、SNOMED、LOINC等专业术语体系解析》 《自然语言处理(NLP)在医疗领域的基础:分词、词性标注与命名实体识别》 可如何构建医疗知识库:从结构化数据到本体构建》 公众号·医工交叉AI大模型

CCIR2019CCIR2019基于电子病历的数据查询类问答 ccMedQA中文医学QA数据集 cMedQA2中文医学QA数据集 CMID中文医学QA意图理解数据集 KGQA基于医药知识图谱的智能问答系统 chatbot-base-on-knowledge-Graph使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域 的对话系统 中文医疗对话数据集Chinesemedicaldialoguedata中文医疗对话数据集 webMEdQAwebMEdQA MEDDIALOG THE MEDDiALOG DatasET CONTAiNS CONVERSATIONS (IN CHINESE) BETWEEN DOCTORS AND PATIENTS.IT HAS 1.1 MILLION DIALOGUES AND 4 MILLION UTTERANCES. CHIP2020中医文献问题生成 NLPEC A MEDICAL Multi-CHOICE QUESTION DATASET for THE NAtionaL LicEnsed PHaRmACIST ExAMINATIONIN CHINA CCKS2021蕴含实体的中文医疗对话生成 IMCS21CBLUE@Tianchi中医疗对话数据集IMCS21 “公众号·医工交叉AI大模型

CUSTOMERSEVI 叉AI大模型

内容提及地域:上海市、上海市

IP属地:中国 北京

本栏目中的所有页面均系自动生成,自动分类排列,采用联索网络信息采集、网页信息提取、语义计算等智能搜索技术。内容源于公开的媒体报道,包括但不限于新闻网站、电子报刊、行业门户、客户网站等。使用本栏目前必读