国内首个脑血管专病大模型 亮相 对话参与医生:被AI“上了一课”
每(měi)经(jīng)记者(zhě) 林姿辰 每经编(biān)辑 张海妮
距离谷歌大模型(xíng)(MedPaLM 2)拿下美国医学执照考试已经快两年了,人工智能(AI)够资格(gé)成为临(lín)床医生的“假想敌”了(le)吗?
今(jīn)年7月,一篇发表于Nature Medicine的论文显示,即使是目前最先(xiān)进的大语言模型(xíng)(LLM)也无法为 所有患者作出准确诊断,且诊断正确率(73%)明显差于人类医生(89%);在极端情况(胆囊炎诊断)下,LLM的正(zhèng)确率仅为(wèi)13%。
但(dàn)对于北京清华长庚医院(yuàn)神 经中心医师邳靖陶来说,他今年刚被AI“上了一课”。8月下旬,邳靖陶参与的灵犀医学脑血管病专病(bìng)大模型正(zhèng)式发布,该模型由其(qí)所在医院的(de)神经中心(xīn)武剑教授(shòu)团队主导研发,是国内首个基于专病的医学(xué)人工智能模型。
“大模型的能力说强(qiáng)也强,说弱也弱,我们(men)不(bù)能让它天马行空(kōng)地自由发挥。”邳靖陶表示,专病大模型与(yǔ)ChatGPT的最大不同,是要(yào)将AI杜(dù)撰的似是而(ér)非的诊(zhěn)疗建(jiàn)议扼杀 在摇篮里,避免灾难性(xìng)后 果。
8月下旬,灵犀医学脑血管病(bìng)专病大模型正(zhèng)式发布,该模型(xíng)由北京清华长庚医(yī)院神经中(zhōng)心武剑教(jiào)授团队主导研发,是国内首个(gè)基于专病的(de)医学人工智能(néng)模型。图(tú)为灵犀医学大模型技术交流会(huì)现场。 受访者供图
对标专科和(hé)专病(bìng)专家
作为国内四大慢病之一,脑血管病的(de)首次发病者约有三分之二是60岁以上的老(lǎo)年人,其具有(yǒu)“高(gāo)发病率、高患病(bìng)率、高死亡率、高复发率”的特点。而(ér)截至2021年,我(wǒ)国65岁及以上的老年人(rén)口(kǒu)已经超过2亿人(rén),脑血管病医(yī)生短缺(quē)、水平参差不(bù)齐的问题尤为(wèi)突出。
“基层医(yī)院不缺全科医生,但缺专科专家或专国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”病专家,这就是大模型要解决的问题。”邳靖陶介(jiè)绍,脑血管 病专病大模型是医疗机构与(yǔ)科(kē)技企业的合作产(chǎn)物。具体来说,新华三集团提供技术人员、AI算法和算(suàn)力,北京清华(huá)长庚医院和清华大学提供大数(shù)据和临床需求,共同打造一款面向(xiàng)临床医生的辅助诊断工具(jù)。
武(wǔ)剑教授(shòu)曾表示,医学人工智能在缓解医疗资源紧张和(hé)提升医疗(liáo)服务水平方面,具有巨大的潜力和优势 。其核心在于(yú)对海(hǎi)量健康数据的深度挖掘和智能分析,这(zhè)能够大(dà)幅提升(shēng)临床诊断和治疗的准确性与效率。
目前,这个(gè)大模型的核心功能是分析和提取病历(lì)中的关键(jiàn)信息,并与临床知识库相(xiāng)匹配,最终提供符合临床指(zhǐ)南的(de)标准化治疗建议(yì)。
一方面(miàn),临床医生可以(yǐ)输入(rù)脱敏(不包括患者个(gè)人信(xìn)息)的临床病程(chéng)信息,由大模型生成(chéng)最终的治疗方案。其间,如(rú)果(guǒ)大模型察觉(jué)到病程信息存在疏漏,会提醒医生(shēng)及时补充,保证病历记录的标准化。
另一方面,临床医生也可以输入患者主诉(如主要(yào)症状(zhuàng)和持续(xù)时间等(děng)信息)等简单信息,大模型将通过选(xuǎn)择性(xìng)交互引导问诊方向,根据医生点击的(de)选项,逐(zhú)步完善临床诊疗过程,提(tí)升医生的循证能力。
专业性体现在两方面(miàn)
在邳靖(jìng)陶看(kàn)来,与ChatGPT等通用大模型(xíng)相比,专病大模型的专业性体现(xiàn)在思维链和知识库两方面(miàn)。以脑血管病专病(bìng)大模型为例 ,其数据来源包括两大部分:一部分(fēn)是经过脱敏处(chù)理的临床资料(liào),涉及疾病的特定特征(zhēng),发病情况以及诊疗(liáo)过(guò)程等综合(hé)信息。另一(yī)部分是公(gōng)开获取(qǔ)的临(lín)床指南、大量神经病学和神(shén)经(jīng)科学的教科书和(hé)参考书籍,这(zhè)些构成了数据库的核心内容。值得注意的是,大模型并不能直接接(jiē)收这些知识,而(ér)是需要经临床医生和(hé)工(gōng)科团队之(zhī)手,将临床指南的框架和重(zhòng)点内(nèi)容重(zhòng)新整理,转化为计算机能够理解(jiě)的语言和流程(chéng)后,再输给大模型。
“如果 不加限制地直接投喂,大模(mó)型会发散到其他方面,生成一些新的理解。但临床指南已经是最高级别的标准(zhǔn)化诊(zhěn)疗推荐,在此基(jī)础上的任何修改都是(shì)错误的,也不是我们想要的。”邳靖陶(táo)告(gào)诉记者,想让大模型(xíng)“听话”,除了要投喂计算机能“听懂”的知识(shí),更关(guān)键的是教给它(tā)一套临床医生的“思维链”,并(bìng)依托这一能力对不同(tóng)患者的(de)临床资(zī)料进行推理(lǐ)。
例如,一位脑血管病(bìng)医生的(de)诊疗流程大致包括询问病史,进行(xíng)体格检查,考虑辅助检查(chá),综合分析后给出准(zhǔn)确诊断等环节。基(jī)于诊断结果,医生会考虑(lǜ)患者的具体病因和其他基础(chǔ)疾病情况,结(jié)合标准化(huà)的诊疗建议,制定规(guī)范化的治疗方案。
在这个过程中(zhōng),不同的患者主诉指向不同的询问方向。但问题是,大模型的思维虽然“发(fā)散”,但不具备自主(zhǔ)搭建(jiàn)思维链的能(néng)力,所以需要工科团队深刻理(lǐ)解临床诊疗场景,将(jiāng)医生的临床思维转换为机器可以(yǐ)理解的思维。而这个过程让临床医生和技术团队(duì),都经历 了交叉学(xué)习的(de)历练。
“Gap(差距)主要是语言交流上(shàng)的障碍,比(bǐ)如(rú)我们不理(lǐ)解(jiě)思维 链,他们不理解不同疾病间的关系(xì)。但这不会对我们的研究造成实质性影响(xiǎng),只要了解对方领(lǐng)域的基础知识(shí),就能扫清困(kùn)难。”邳靖陶说。
负责的仍(réng)是临床医(yī)生
邳靖陶(táo)透露,目前(qián)脑血 管(guǎn)病专病大模(mó)型正在北京(jīng)清华长庚医院神经中(zhōng)心进行临床(chuáng)验证。此前,他和同事们使用真实病例或模拟复杂临床场景,对大模型进行过内部测试。这项测试建立在前期简单测试的基础之(zhī)上,旨在评估大模型对不同复 杂(zá)程度(dù)、不同语言风格(gé)和不同级别医生的(de)病历的理解能力。
其中,最困扰邳靖(jìng)陶(táo)的一个问题是,如 果大模型出现(xiàn)了错误,怎么保证(zhèng)临床医生(shēng)不受干扰呢?换言之,临床医生应该怎么处理和大模型之(zhī)间的(de)关系?
这一矛(máo)盾在首次内部测试时(shí)就出现了。当时,邳靖陶(táo)模拟了一个复杂的临(lín)床场(chǎng)景(jǐng),大模型给出的治疗方案和预(yù)想的“标(biāo)准答案”有所出入。随后,技术人员介入并回溯了大模型的推(tuī)理过程,试图找(zhǎo)出可能的错误,却无功而返。而当邳靖陶用“标准答案(àn)”去匹配临床指南时,让他印(yìn)象深刻的结果(guǒ)出现了:是自己的(de)诊疗(liáo)思路存在盲区。
“一(yī)开始这(zhè)个模(mó)型设计出来(lái),到底能不能用于临床(chuáng),能不能起到提(tí)升和改善(诊疗效率)的(de)作用,其实我心里也没有(yǒu)底。但是这件事之后,给了我特别(bié)大的底气(qì)。”邳靖陶总结这次经历,发(fā)现患者的临床症状是一个综合结果。例如,患者可(kě)能因为神经系统问题住院,但心血管、肾脏、肝脏状况也在发生变化。尽管医生接受过规范化的专(zhuān)科培训,但(dàn)诊疗(liáo)思维仍可能存在盲(máng)点,无法保证每次都能提供全面的诊疗方案。
另外,临(lín)床(chuáng)指南是不断更新的(de),并非所有医生都能及时更(gèng)新知(zhī)识。当医生的知识更新滞后时,大模型可以帮助弥补这些纰漏。
不过,阅读指南(nán)并作出判断 ,仍是(shì)临床(chuáng)医生不能丢弃的基本功(gōng)。邳靖陶表示(shì),如(rú)果医生发现大模型(xíng)提供的诊疗方(fāng)案与(yǔ)自身判断不符,不应(yīng)简 单(dān)地接受或拒绝,而应深入(rù)探究原(yuán)因。这一思考过程(chéng)有(yǒu)助于医生提高临床诊疗能力(lì),是大模型作为临床辅助诊断工(gōng)具的终(zhōng)极愿景。毕竟,虽然大模型可以提供结论,但对诊疗过程负责的(de)仍是临床医生本人。
呼吁更多人加入
2023年7月,谷歌Research和DeepMind共同打造的全(quán)球首个全(quán)科医疗大模型国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”Med-PaLM M正式发布。资料 显(xiǎn)示,这个大(dà)模型具备临床语言、影像和基因组学的理解(jiě)能力,用于临床指日可待。
而根据《2023医疗健(jiàn)康AI大模(mó)型行业研究报告》,截至2023年(nián)10月,国内累计公开的大模型(xíng)数量达到238个,其中(zhōng),医疗大模型近50个,涉及患者(zhě)问诊、医生助(zhù)手(shǒu)、药物研发、健(jiàn)康科(kē)普等(děng)多个领域。据邳靖陶观察,许多医疗大模(mó)型的开发从“全科”出发,试图直接构建一个涵(hán)盖所有专科的大型全科模型,供用户咨询各种疾病。
但在参与(yǔ)构建脑血(xuè)管病专病大(dà)模型后,武剑教授团队对这一模式(shì)表示怀疑。他们发现,把一种疾病的临(lín)床指南梳理(lǐ)清楚颇具难度,打(dǎ)造对应的思维链也耗时耗 力,短期内很难(nán)用同样(yàng)的方法训(xùn)练出全科模型(xíng)。换言之,目前的全科(kē)大模型能够(gòu)做(zuò)到医学科普,但很难在特定专(zhuān)科领域提供有效的临(lín)床(chuáng)指导。因此,武剑教授(shòu)团队的研发思路是以(yǐ)专(zhuān)病为起点,再走向(xiàng)全科。
“如果针对脑血管病的专病(bìng)大(dà)模型走通了(le),我们可(kě)以把成功经验(yàn)复制到其(qí)他神(shén)经系统疾病上;如果神经系统(tǒng)疾病覆盖全面了,就成了专科大模型(xíng);神经(jīng)科的经(jīng)验再复制到(dào)其他科,就会(huì)形成一个真正(zhèng)的全科医疗大(dà)模(mó)型。”邳(pī)靖陶表示(shì),在武剑教授看来,国(guó)内发(fā)病人数(shù)越多 、疾病负担越大的疾病,其专病大模型的临床需求和研发空 间就会越大,例如(rú)我国发病率(lǜ)最高的四大慢病——高血压(yā)、糖尿病、冠(guān)心(xīn)病(bìng)、脑血管病都有非常广阔的大(dà)模型开发空(kōng)间。
而在脑(nǎo)血管病(bìng)专(zhuān)病(bìng)大模型的发布会上,武剑教授已经(jīng)通过招募令的形式,呼吁全国(guó)神经系统疾病领域的专家,以及人工智能领域的专业人士携手把握创新(xīn)技术的改革可(kě)能,改善临床诊疗(liáo)现状。他表示,如果能打破学术壁垒,医疗大模型的重(zhòng)复性工(gōng)作(zuò)是(shì)完全可以避免的。
“这不是我们(men)一个人能做的事情。”邳靖陶说。
责任编辑:何松琳(lín)
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了