没有哪项技术能像大语言模型这样,在破圈之后如此迅速地融入各行各业。然而,还没等企业找到合适的商业路径,行业就已围绕参数、成本、性能等要素陷入内卷,深陷算力“堆积”的困境。
今年1月,横空出世的DeepSeek – R1改写了过去一年由GPT们主导的游戏规则。凭借创新的模型架构与训练优化策略,DeepSeek向业界证明:有限规模的参数也能打造出高性能的通用模型。
除了打破“算力垄断”,DeepSeek的参数高效微调(PEFT)、混合专家架构(MoE)等创新设计还成功降低了大模型的“入场门槛”。
低成本加上“国产”标签,国内大量顶级医院、前沿医疗科技企业迅速展开部署,甚至医保局都高调宣布接入DeepSeek,这又将大模型推上了风口浪尖。
这究竟是跟风之举,还是一条新路径?动脉网近日与已接入DeepSeek的科技医疗企业进行了对话,逐一解答“DeepSeek在医疗领域的真实价值”“DeepSeek在医院的应用方式”及“基于DeepSeek – R1的医疗场景应用开发现状”这三个问题。
01 低成本算力需求下,基层医疗成为新落地可能?
早在DeepSeek – R1诞生之前,国内就有医院部署通用模型,主动开启了生成式AI的探索之旅。
由于临床相关数据不能脱离院区,当时的大模型只能通过封装入院。但问题在于,大部分医院的资源环境基本是面向通用计算的CPU,很少有医院具备面向图形处理和并行计算的GPU资源,很难提供充足的算力。
算力困境与成本紧密相关。在众多医院中,实力较强的医院有能力花费大价钱配备全套GPU,将通用模型完整引入院内,服务全院系统;少部分医院能对模型进行精简,让特定科室受益。
当绝大部分医疗机构无法自由配置大模型、开发相关临床应用时,医疗大模型从业公司的日子也不好过。由于缺乏充足的买方,他们很难在大模型方向上持续进行高额研发投入。
DeepSeek – R1的出现改变了这一现状。借助创新架构与开源代码,它从根本上解决了通用模型部署、运行产生的成本问题。
福鑫科创CEO吴笛表示:因为DeepSeek – R1采用混合专家架构(MoE),每次推理时仅激活约370亿参数(总参数6710亿),避免了传统稠密模型必须全参数激活的高昂计算成本,理论上能在节省40%以上算力消耗的前提下保持推理精度。若企业需要扩展模型规模,也无需线性增加算力投入即可补全模型能力。
DeepSeek、GPT o1 、GPT o3 mini能力对比(输入价格仅统计Cache Hit下标准时段的价格,数据来源:动脉网、深透智医)
更重要的是,DeepSeek拥有非常友好的MIT license协议,允许用户本地化部署,自由使用、复制、修改和分发软件,也鼓励企业在产品中采用和集成,促进合作和创新,推动整个生态系统的发展。
这种开放的生态系统让普通医疗机构能够根据自身业务需求,开发出更符合实际应用场景的医疗大模型。如果只是部署一些蒸馏得到的100B参数量以内的小模型,不少基层医疗手中的集成显卡就能带动模型顺利运行。
“在与区域型医疗机构的沟通中我们发现,他们的诉求很明确,希望能将DeepSeek的推理能力应用到基层,因为那里最缺能够处理复杂问题的医生。”
总的来说,DeepSeek – R1的价值在于降低了大模型应用的门槛,开拓了新的落地市场,同时加速了垂直应用的诞生。在这个过程中,这一新兴模型让医疗大模型有了走向商业化的可能。
02 医疗机构如何用好DeepSeek?
随着计划部署大模型的医院和从事大模型开发的医生个体日益增多,医疗IT产业中处于上游的众多企业也活跃起来。
据卫宁健康CTO赵大平介绍,DeepSeek – R1出现后,国内的主流部署模式可简单分为三种。一是可以快速从云端、源端下载模型,快速完成部署,适用于已有显卡设备的大型医院。二是若医院没有运算所需的显卡,可以去云端租用设备。三是部分民营医院选择订阅的方式实现部署,主要服务于特定科室。
此外,风口之下也催生了不少制造大模型一体机的企业。但在赵大平看来,医院要想让大模型有效运行,首先要将其与医院信息系统本身融合,其次信息系统本身要尽量使用支持AI运行的智能架构。
毕竟,大模型一体机虽然能通过外挂方式实现一部分交互能力,但很难与医院已有的几十套系统进行充分的数据交换。除非能实现“模型 + 应用”的一体式解决方案,否则很难满足医院多元的需求。
那么,理想状态下医院该如何部署大模型?赵大平认为:随着大模型的不断深入,未来医院的配置方式一定是多元混合的。“医院可能会配置一个大模型及一些服务细分科室的小模型。大模型用于需要推理、思考、诊断的大型交互场景,小模型用于强调规则、判断、矫正以及简单生成的场景,在满足需求的同时实现最经济高效的应用。”
“进一步延伸,医院中有很多移动化的场景,如果能在手机上建立小模型,那么现有医疗流程中的大量工作就可以向移动端转移,极大提升医疗效率。”
再说说医生及其他试图主动开发临床应用的个体。
DeepSeek爆火的同时,各种教程铺天盖地,鼓励用户独立配置、训练模型。但在医疗领域,虽然DeepSeek的出现降低了模型训练的各项门槛,但本地化训练私有模型需要经过数据准备与处理、模型选择与配置、模型训练、模型评估与调优、模型部署与集成五个步骤,仍要求研究人员具备一定的技术功底。
“现在很多大模型的应用开发程度不高,很多医院的研究机构买了卡配置了模型之后,都想立刻搭建一个特定场景的应用,但实际操作时会发现不具备相应的开发能力。要实现医生个体的广泛使用并取得研究成果,还需等待服务方对UI进行升级,进一步简化大模型应用的开发路径。”
换句话说,企业与医疗机构共同进行垂直模型开发,仍是医疗AI的主流趋势。
03 DeepSeek下,医疗场景应用开启革新?
DeepSeek – R1虽在医疗领域实现了大规模部署,但上线时间较短,在应用场景的开拓方面,它尚未突破大模型已有的应用范畴,主要聚焦于降低部署训练成本和提升文本处理效率。最初阶段,着力于互联网医疗的一批大模型企业最先受益。
例如,腾讯健康通过腾讯云接入DeepSeek系列,再结合自研的混元大模型,迅速完成了对智能导诊、预问诊、健康问答、影像报告解读及质控等医疗服务的迭代,并加速帮助全国超过1000家医院快速升级智能应用。
目前,腾讯的“深圳医保”应用其智能客服已搭载了最新AI大模型。用户可以自由选择擅长推理的DeepSeek,或者能多维度理解问题的腾讯混元,无论是咨询“生育津贴怎么算”这类复杂政策,还是询问“门诊特定病种如何认定”等专业问题,融合后的大模型都能结合具体参保情况,给出精准且具备“Think”的解答,在回复用户的同时帮助用户理解问题。
随着DeepSeek积累的医疗数据日益增多,它在医院场景中的应用优势也逐渐显现。得益于对提示词要求的显著降低和思维链技术的赋能,DeepSeek有效提升了AI在临床诊断中的透明度与可解释性,并能帮助医生更高效地与模型沟通。
比如,医生过去使用大模型生成手术方案,需要完整清晰地写明过往病史、手术情况等信息,而使用DeepSeek时,只需输入一些关键信息,模型就会在“Think”的过程中自主填补相关信息。
此外,医疗推理注重循证过程,DeepSeek不仅能提供有效的诊疗建议,还能详细阐明其背后的推理过程,包括诊断依据、用药选择和检查项目等。这种透明化极大地消除了医生对AI系统的疑虑,为医患沟通提供了清晰的依据,进而促进了AI技术在临床中的更广泛应用。
“很多医生都非常关注模型‘think’的过程,他们会大致扫一眼Deepseek的逻辑,这是一种重要的交互,能让医生产生信任。”
到目前为止,已有不少医院上线了大模型相关应用。以医疗文书书写为例,福鑫科创、卫宁健康等企业都开发了类似应用。以福鑫科创为例,该公司与武汉协和医院、武汉大学中南医院等医院落地门诊、住院多个场景的AI生成式电子病历系统,尝试提高医生书写病历的效率。
传统的医生在门诊看诊场景中,单个患者就诊时长按10分钟计算,一般用于书写电子病历的时间为5分钟,开药、开检查的时间为3分钟,真正用于问诊的时间平均只有2分钟。有了AI之后,AI会实时记录医患的对话,并将其转化为医学术语,按照门诊电子病历模板自动书写电子病历,节省了书写电子病历的时间。
“按照一个医生每天看诊50个病人计算,每天至少可以节省1个多小时的书写病历时间,若医院将节省的时间用于看诊更多的患者,那大模型可以为医院创造实实在在的经济价值。”因此在吴笛看来,这是目前价值最高、相对容易落地的场景。
由于DeepSeek模型本身没有投喂过CT、MR相关影像数据,企业开发相关应用时需要自行建立影像数据集并构建模型。所以相较于各类文本工具,医学影像领域基于DeepSeek大模型的研究相对较少。
目前,深智透医在内部工具层面对DeepSeek进行了部分探索。例如,他们将DeepSeek用于影像数据多模态标准化和增强,利用图像数据 + meta data非图像数据(EMR、HISRIS、DICOM header等有大量语言信息)提高成像内容及命名的一致性,优化下游应用(例如hanging protocol等更准确一致可以提高医生效率)。
而在质控数据分析方面,深智透医则在尝试借助大模型提升医学影像质量控制、异常识别能力、工作流问题交互能力。
需要注意的是,虽然基于DeepSeek进行的影像学研究颇为有限,但行业对于影像大模型已取得大量研究成果。部分企业基于GPT等模型建立起了影像基座模型,并在临床试验中证实了LLM对于医学影像诊断的准确率、效率提升。随着DeepSeek能力的进一步增强,这些企业也有可能慢慢转向国产通用模型。
再谈谈医院场景之外的药物研发,这里同样是各类大模型的重要竞技场。
目前,深智透医已在尝试使用DeepSeek处理医学影像标准化问题,进而在医药研发试验中更好地解决影像数据质控等问题。据深智透医CEO宫恩浩透露,该企业已签约一批国际药厂,优化他们已有研发中的影像试验数据。
还有一些模型虽然没有使用DeepSeek,但也采用了类似的创新技术。
例如,百图生科的xTrimo系列大模型同样采用了Moe框架,其V3版本可处理DNA、RNA、蛋白质、细胞、化合物-蛋白互作、蛋白-蛋白互作及生命系统等七大模态数据,可实现从碱基对到细胞集群的全尺度建模,进而赋能抗体和细胞基因疗法药物领域、靶点发现方面、微生物等领域的科学研究。
不过也需注意,无论是医疗机构相关的赋能,还是药物研发的前沿探索,开发者们使用DeepSeek等大模型几乎都是在原有场景中进行升级,尚未开发出颠覆已有场景的应用,称不上革新。好在DeepSeek – R1上线还不足两个月,随着时间的推移,我们很有可能见证来自医疗AI的惊喜。
04 无远弗届
虽说DeepSeek – R1的出现极大地推进了医疗领域对大模型的应用深度,但理性地看,要在医院日常中使用大模型,仍需等待一段时间。
首先,解决复杂问题需要大模型像医生一样结合患者的各模态数据进行综合推断。但在“Think”过程中,DeepSeek时常会陷入可能无限循环的情况,导致出现大量与问题本身无关的答案。对于医疗这样严肃、高频的领域,必须消除这些场景幻觉才有望规模化落地。
其二,DeepSeek的“国产”身份使其更受国内医疗机构的青睐,但要规模应用,仍需符合医学数据隐私与安全合规要求。因此,需要DeepSeek出台更完善的数据脱敏、加密技术,确保患者数据安全。
其三,DeepSeek解决了过往大模型在产品质量和性能方面的问题,但尚未找到“杀手级应用”推动医疗机构主动付费。就目前来看,AI的付费逻辑还是与用户认知及产品本身能否真实降本增效创收赋能有关。所以,DeepSeek要想规模落地,一是要提升医院与医生的接受度,二是要在传统AI的基础上进一步提升。至于谁付费这一问题,从AI近十年的发展来看,基层医疗比等级医院更需要大模型的支持。
第四,DeepSeek的技术突破并非不可复制。如今,GPT的部分版本已将模型训练成本大幅压缩,逼近DeepSeek水平,且在逻辑推理能力方面不断提升。这就需要DeepSeek进一步巩固优势,在实际临床问题方面取得成果。
尽管挑战重重,但我们依然能看到很多积极的方面。毕竟,大量医疗企业与医疗机构的加入必将催生更多的垂直应用,拓宽大模型商业化的可能。
同时,DeepSeek等模型自身的潜力也不容小觑。按照现有大模型的迭代速度,每三个月通用模型都将完成一波全面迭代。或许在2025年,我们就能见证某一大模型脱颖而出,逐一攻克上述问题,与众多医疗科技企业一同开启医疗大模型的新图景。
2 本站部分内容来源于网络,仅供学习与参考,如有侵权,请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
4 精准获客感谢您的访问!希望本站内容对您有所帮助!
暂无评论内容