国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”
每经记者 林姿辰 每经编辑 张海妮
距离谷歌大模型(MedPaLM 2)拿下美国(guó)医学执照考试已经快两年了,人工智能(AI)够资格成为临床医生的(de)“假想敌”了(le)吗?
今年7月,一篇发表于Nature Medicine的论文显 示,即使 是目(mù)前最先进(jìn)的大语言模型(LLM)也无法为所有患者作 出准确诊断,且诊断正确率(73%)明显(xiǎn)差(chà)于人类医生(89%);在极端(duān)情况(胆囊炎诊断)下,LLM的(de)正确率仅为13%。
但对于北京清华长庚医院神(shén)经中心医师邳靖(jìng)陶来说,他今年刚被AI“上了一课(kè)”。8月下旬,邳靖陶参与的灵犀医学脑血管病专病(bìng)大模型(xíng)正式(shì)发布,该模型由其所在医(yī)院(yuàn)的神经中心武剑教授团(tuán)队主导研发,是国内首个基于(yú)专病的医(yī)学(xué)人(rén)工智能模(mó)型。
“大模型的能力说强(qiáng)也(yě)强,说弱也弱,我们不(bù)能让它天马行空地自由发挥。”邳靖陶表示(shì),专(zhuān)病大模型与ChatGPT的最大不同,是要将AI杜撰的似是而非的诊疗建议(yì)扼(è)杀在摇篮里,避免灾难性后果。
8月下旬,灵犀医学脑血管病专病大模型正式发布,国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”该模型由北京清华长庚医院神经中心(xīn)武剑教授(shòu)团(tuán)队主导研发,是(shì)国(guó)内首个基于专病的(de)医学人工智能模型。图为灵犀医学大模型技(jì)术交(jiāo)流(liú)会现场。 受(shòu)访者供图
对标专科(kē)和专病专家
作为国内四大慢病之一,脑(nǎo)血管(guǎn)病的(de)首(shǒu)次发病者约(yuē)有三(sān)分之二(èr)是60岁(suì)以上的老年人,其具有“高发病率、高患病率(lǜ)、高(gāo)死亡率、高(gāo)复发(fā)率”的特点。而截至(zhì)2021年,我(wǒ)国65岁及以上的老年(nián)人口已经超(chāo)过2亿人,脑 血管病医生短缺、水平参差不(bù)齐的问题尤为突出。
“基层医院不(bù)缺全科医生(shēng),但缺专科专家或专病专家,这(zhè)就是大模型要解决的问题。”邳靖陶介绍,脑(nǎo)血 管病(bìng)专病大模型(xíng)是医疗机构与科技企业的合作产物。具体来说,新华三集团提供技术人(rén)员、AI算法和算力,北京清华长庚医院和清华大学(xué)提供大数据和临床(chuáng)需求,共同打造一款面(miàn)向临床医生的辅助诊断工具。
武(wǔ)剑教授曾表(biǎo)示,医学人工智(zhì)能在(zài)缓解医疗资源紧张和提升(shēng)医疗 服务水平方面 ,具有巨大的潜力和优势。其核心在于对(duì)海量健康数据(jù)的深度挖掘和智(zhì)能分析,这能够大幅提升(shēng)临床诊断和(hé)治疗的 准确性与效率。
目前,这个大模型的(de)核心功能是分析和(hé)提取病历中的关(guān)键信息,并与临床知识库相匹配,最终提供(gōng)符合临床指(zhǐ)南的(de)标准(zhǔn)化治(zhì)疗建议。
一方面(miàn),临(lín)床医生可(kě)以输入脱敏(不包(bāo)括患者个人信(xìn)息)的临床病程信息,由大模型生成最终的治疗方案。其间,如(rú)果大模型察觉到(dào)病程信息存在疏(shū)漏,会提醒医生及时补充,保证病历记录的标准化。
另一方面,临床医生也可以输入患者主诉(sù)(如主要症状和持续时间等信息)等简单信息,大模型将通过选择性交互引导问(wèn)诊方向,根据医生点击的(de)选项,逐步完善临床诊疗过程,提升医生的循证(zhèng)能力。
专业性体现在两方面
在(zài)邳靖陶看来,与ChatGPT等通用大模型相比,专病大模型的专业性体现在(zài)思维链和知识库两方面。以脑血管病专病 大模型为例(lì),其数据来源包括两大部(bù)分:一部分是经过脱敏处理的(de)临床资料,涉及疾病的特定(dìng)特征,发病情(qíng)况(kuàng)以及诊疗过(guò)程等综(zōng)合信息。另一部分是公开获取的临床(chuáng)指(zhǐ)南 、大量神经病学和神经科学(xué)的教科书和参考书籍(jí),这些构(gòu)成了数据库的核心内容。值得注意的是,大模型并不(bù)能直接接(jiē)收这些知识(shí),而(ér)是需要经临床医生和(hé)工科团队之手(shǒu),将临床指(zhǐ)南的框架和重(zhòng)点内容重新整 理(lǐ),转化为计算机能够理解的语言和流程(chéng)后(hòu),再输给大模型。
“如果(guǒ)不加限制地直接投喂,大模型会发散(sàn)到其他方面,生成一些新的(de)理解。但(dàn)临床指南(nán)已经(jīng)是最高级别的标准化诊疗推荐,在此基础上的任何修改都是错(cuò)误的,也(yě)不是我们想要的(de)。”邳靖陶告诉记者,想让大模型(xíng)“听话”,除了(le)要投喂计算机能“听懂”的知识,更关键的是教给它一套临床(chuáng)医生 的“思(sī)维链”,并依托(tuō)这一(yī)能力对(duì)不同患(huàn)者的(de)临床资料进行推(tuī)理。
例如,一位脑(nǎo)血管病医生的诊疗流程大致包括询问病(bìng)史(shǐ),进行体格检查,考虑辅助检查,综合(hé)分析后给出准确(què)诊断等环节。基于诊断结果,医生会考虑患者的具体病因和其他基 础疾病情况(kuàng),结合标准化的诊疗(liáo)建议,制定规范化的治(zhì)疗方案。
在这(zhè)个过程中,不同的患(huàn)者主诉指向(xiàng)不同的询问(wèn)方向(xiàng)。但问题是,大模型的思维虽然“发(fā)散”,但(dàn)不具备自主搭建思维链的能力,所以需(xū)要工(gōng)科团队深刻理(lǐ)解临床诊疗场景,将医生的临床思维转换为机器可以理解的思维。而这个(gè)过(guò)程让临床(chuáng)医生和技(jì)术团队,都经历了(le)交叉学习的历练。
“Gap(差距)主要是语言交流上的障碍,比如我们不理解思维链,他(tā)们不(bù)理解不(bù)同疾病间的关系。但这不会对我们的研究造成实质性(xìng)影响,只要了(le)解对方(fāng)领 域的基础知 识,就(jiù)能扫清困难。”邳(pī)靖陶说。
负责的仍是临床医生
邳靖陶透露,目前脑血管病专病大模型正在北京清华(huá)长庚医院神经中心进行临床验证。此前,他和(hé)同事们(men)使用真实病例或模拟复杂临床场景,对大模型进行过内(nèi)部测试。这项测(cè)试建立在前 期简单测试的(de)基础之上,旨在评估大模型对不同复(fù)杂程度、不同语言风格和不(bù)同级别医生的病历的理解能力。
其(qí)中,最困扰邳靖(jìng)陶的一个问题是,如果大模型出现了错误,怎么(me)保 证临床(chuáng)医生不(bù)受(shòu)干扰呢?换言之,临床医生应该怎么处理和大模(mó)型之间的(de)关系?
这一(yī)矛(máo)盾在首(shǒu)次内(nèi)部测试时就出现了。当(dāng)时,邳靖陶(táo)模拟了一个复杂的(de)临(lín)床场(chǎng)景,大模型给出的治疗方案和预想的“标准 答案”有所出入。随(suí)后,技术人(rén)员(yuán)介入并回(huí)溯了大模型的推(tuī)理过程,试图找出可能的错误,却(què)无功而返。而当邳靖陶用“标准答案”去(qù)匹配(pèi)临床指南时,让他印象深刻的结(jié)果出现了:是自己的诊疗思路存在盲区(qū)。
“一开始这个(gè)模型设计出来,到(dào)底能不能用(yòng)于临床,能(néng)不(bù)能起(qǐ)到提(tí)升和改善(诊疗效率)的作用,其实我(wǒ)心里也没有底。但是这件事之后,给了(le)我特别(bié)大的底气。”邳靖陶(táo)总结这次经历(lì),发现患者的临床症状是一个综合结(jié)果(guǒ)。例如,患者可能因为(wèi)神(shén)经系统问题住院,但心血管(guǎn)、肾脏、肝脏(zàng)状况也在发(fā)生变化(huà)。尽(jǐn)管医生接受过规范化的专科培训(xùn),但(dàn)诊疗思(sī)维 仍可能存在盲点,无法保证每次(cì)都能提(tí)供(gōng)全面的诊疗方案 。
另外,临床指南是不断更新的,并非所有医(yī)生都能及时更新知识。当医(yī)生的知识(shí)更新滞后时,大模型可以帮助弥补这些纰漏。
不(bù)过,阅读指南并(bìng)作出判断,仍(réng)是临床医(yī)生不(bù)能丢弃(qì)的基(jī)本功。邳靖陶表(biǎo)示(shì),如果医生发(fā)现大模(mó)型提供的诊疗(liáo)方(fāng)案与自身判断不符(fú),不应简单 地接受或拒绝,而(ér)应深入探究原因。这一思考过程有助于医生提高临床(chuáng)诊疗能 力,是(shì)大模型作为临床(chuáng)辅助诊断工具的终(zhōng)极愿景。毕竟,虽然 大模型可以提供(gōng)结论,但对诊疗过程负责的(de)仍是临床(chuáng)医生本人。
呼吁更多人加入
2023年7月,谷歌Research和DeepMind共(gòng)同打造的全球首(shǒu)个全科医疗大模型Med-PaLM M正式(shì)发布。资料显(xiǎn)示,这个(gè)大模型具备临(lín)床语言、影像和基因组学的理解能力,用于临床指日可待。
而根据《2023医疗(liáo)健康AI大模型行业(yè)研究报告》,截至2023年10月,国内累计公(gōng)开的大模型数量达到(dào)238个,其中,医疗大模型近50个(gè),涉及患者问诊、医生助手、药物研发、健康科普等多个领域。据邳(pī)靖(jìng)陶观察(chá),许多医疗大模型的开发从(cóng)“全科”出发,试图直(zhí)接构(gòu)建一个涵盖所有专科的大型全科模型,供用户咨询各种疾病。
但在参与(yǔ)构 建(jiàn)脑血管病专病大模型后,武剑教授团队 对这一模式表示怀疑。他们发现,把(bǎ)一种疾(jí)病(bìng)的临(lín)床指(zhǐ)南梳理(lǐ)清(qīng)楚(chǔ)颇具难度,打造对应的思维(wéi)链也耗时耗(hào)力(lì),短期(qī)内很难用同样(yàng)的方(fāng)法训练出全科模型。换言之,目前的全科大模型能够做到医学科普(pǔ),但很难在特(tè)定专科领域提供有效的临床指导。因此(cǐ),武剑(jiàn)教授(shòu)团队的研发思路是以专(zhuān)病为起点(diǎn),再走向全科。
“如果针(zhēn)对(duì)脑血管(guǎn)病的专(zhuān)病大模(mó)型(xíng)走(zǒu)通了,我们可以把(bǎ)成功经验复国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”制到其他神经(jīng)系统疾病上;如果(guǒ)神经系统疾病(bìng)覆盖(gài)全面了,就 成了(le)专科(kē)大模型;神(shén)经科的经验再(zài)复制到其他科,就会形(xíng)成一个真正的全科医疗大(dà)模型。”邳靖陶表示,在武剑教授看来,国内(nèi)发(fā)病(bìng)人数越多、疾病负(fù)担越大的疾(jí)病,其专(zhuān)病大模型的临床需求和研发空间就会越大,例如我(wǒ)国发(fā)病率最高的四大慢病——高血压、糖尿病、冠心(xīn)病、脑血管病都有非常广阔的大模型开发空间。
而在脑(nǎo)血管(guǎn)病专病大模型的发布(bù)会上,武剑教授已(yǐ)经(jīng)通过招募令的形式,呼吁全国神经系统疾病领域(yù)的专家,以及人工智能领域的专业(yè)人士携手把握创(chuàng)新技术的改革可能,改善(shàn)临床诊疗 现状。他表(biǎo)示,如果能打破学术壁垒(lěi),医(yī)疗大模(mó)型的重复性工作是完全可以避免的。
“这不是(shì)我们一个人(rén)能做的事情。”邳靖陶说。
责任编辑:何松琳
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了