过去几年,「AI + 医疗」这四个字被说了太多次。

但对大部分中国医生,尤其是基层医生来说,它常常只停留在 PPT 和新闻里——指南更新太快,看不完;病例越来越复杂,看不准门诊时间被不断压缩,顾不过来;看完病人,还有大堆随访和表格等着填。
真正的问题,从来不是「AI 有多炫」,而是:它能不能在你真正需要的时候,帮你做出安全、有效的决策,并且帮你把患者长期管好?
最近有一件事,可能会让你重新思考「医生用的 AI 究竟应该怎么做」这个问题。
就在上周,国家卫健委发布了《关于促进和规范「人工智能 + 医疗卫生」应用发展的实施意见》。
图片


在「深化重点应用:人工智能 + 基层应用」部分,有两条被摆在了非常醒目的位置:建立基层医生智能辅助诊疗应用、加强居民慢性病规范管理服务。


这意味着什么?


AI 不再只是大医院的「玩具」,而是被写进了国家层面的基层医疗优先级。下一阶段 AI 落地的「主战场」,就是中国基层。


长期深耕基层培训的多位主委在讨论时说得很直白:「这一次,文件已经点名要把 AI 真正落到临床、落到医生手里。」


而专家们也很快达成共识:能真正帮到中国基层医生的 AI,必须同时做到两件事——诊中:辅助临床决策,要安全、有效;诊后:支撑患者随访,要规范、可持续。


这,也是「未来医生 AI 工作室」诞生的起点。


真正能上临床的 AI,先看两件事:安全 & 有效,AI 能背指南、写病历、考高分,并不等于能上临床。


北京大学第三医院运动医学科江东教授的判断很干脆:「医疗 AI 的第一性原理,不是聪明,而是安全。」


那「安全、有效」怎么评判?不是拍脑袋,也不是看几道「秀操作」的题,而是一场严肃的、由医生主导的临床实战测评。


26 个专科、32 位一线临床专家一起设计评估体系;围绕「安全性 / 有效性」,搭建了一套可量化的临床评估标准;从真实病历中抽丝剥茧,整理出 2,069 道开放式问题;统一用这些问题,去测评当时最前沿的 6 个主流大模型:


○ OpenAI-o3

○ Deepseek-R1

○ Gemini-2.5-Pro

○ Claude-3.7-Sonnet

○ Qwen3-235B

○ MedGPT(「未来医生」背后的医学大模型)


这项测评已于 7 月正式公开发布,并接受学术同行评议。


图片

                                                               

结果:AI 总体不错,但在「安全」上,拉开了明显差距


在高风险问题上(药物相互作用、危重识别、并发症预警等),多款通用大模型得分明显下滑;


在涉及婴儿、儿童、免疫低下、慢病等易损人群时,有的模型会「偶尔很聪明,偶尔很危险」。


在高风险问题上,AI 总体得分降低


而在同一套标准下,MedGPT 的表现有几个非常突出的特征:


总分领先第二名 15.3%;

安全性得分比模型平均值高出近 70%(0.912 vs 0.547);

在复杂人群中,表现依然稳健,没有明显「翻车」。


体得分、安全性、有效性,MedGPT(绿色)均领先


图片

                                                             

换句话说,这场比拼真正区分的,不是「谁更能聊天」,而是谁更适合被医生放进临床场景里一起工作。


江东教授复盘时说:「临床不看偶尔答对,要的是次次不出错。」


从那一刻起,这个以 MedGPT 为底座的「未来医生 AI 工作室」,底色就被敲定了:


不是去做「看起来很聪明的 AI」,而是做「临床上最安全、最可靠的 AI 伙伴」。


中国 vs 美国:同题实战里,比的不是「花活」,而是谁更像专家


说到这里,问题来了:


如果把中国的 MedGPT,和美国的 GPT-5、OpenEvidence 放在同一个临床场景下,让它们「真刀真枪」做决策,会发生什么?


中山大学附属第一医院泌尿男科主任邓春华教授,做过一次很有代表性的「同题实测」。


同题对决:GPT-5、OpenEvidence vs 未来医生 · 临床决策 AI 助手


他们做的事情很简单,但非常接近真实世界:


1从实际工作中抽取一批复杂、有争议、信息不完全的病例;

2同一道题目,分别交给三位「参赛者」:


○ GPT-5

○ OpenEvidence

○ 未来医生 · 临床决策 AI 助手


请专家根据 8 个维度进行盲评,包括:


○ 问题理解是否准确

○ 鉴别诊断是否全面

○ 风险点识别是否到位

○ 治疗方案是否符合指南与本土实践

○ 是否说明证据来源

○ 是否提示信息缺口与需补充检查

○ 表达是否清晰、结构是否便于临床使用

○ 整体「安全性 + 临床可用性」


结果非常清晰:


在这套贴近中国临床场景的评估中,未来医生 AI 工作室 · 临床决策 AI 助手,在多数维度上均优于 GPT-5 和 OpenEvidence。


图片


邓春华教授评价到:


「它会帮我看到盲区,启发我思考。

这类思维链式的 AI,能让基层医生也像专家那样看病例——有理、有据、有边界。」


这背后,是技术路线的差异:


通用大模型更擅长的是语言、知识与模式匹配;

而 MedGPT 的核心设计,是围绕「临床推理 + 风险控制」,搭建一整套医学认知框架,再在此之上做应用。


这也是为什么,在「中国医生 vs 美国医生,谁用的 AI 更强?」这个问题上,答案不再简单看「谁家的参数多、谁家的模型大」,而是看谁更接近医生真实的工作方式。


医疗 AI 的终局:不是替代,而是协同。每次谈到 AI,总有人问:「那以后医生会不会被替代?」


在和众多主委、专家的交流中,一个共同观点越来越清晰:


AI 的强项,是快、全面、不知疲倦;

医生的强项,是判断、取舍、经验与温度。

真正的未来,不是谁替谁,而是谁补谁的短板。


如果说这几年,我们在「AI 到底能不能做医生」这个问题上纠结了太久,那么接下来,也许更重要的问题是:


——在一个有 AI 的时代,我们能不能让每一位医生,都多一位值得信赖的搭档?


至少在这场「中国 vs 美国」的 AI 实战对比中,中国医生,已经开始用上一款在临床实战中打败 GPT-5 和 OpenEvidence 的中国医疗 AI。


它不喧哗、不抢风头,却在门诊间、管理端、病房外,默默做着三件事:


帮你把病例看得更全一点;

帮你把风险想得更前一点;

帮你把患者守得更久一点。


或许在不久的将来,我们不再需要问「AI 会不会替代医生」,因为它已经成为那盏灯——既照亮医生的思路,也照亮患者回家的路。

来源:丁香园

(文中所涉测评方法与数据,均来源于公开发表的医学大模型安全性与有效性评估研究,以及 GPT-5 / OpenEvidence 与「未来医生 · 临床决策 AI 助手」的临床决策辅助对比实测。)

留下评论

邮箱地址不会被公开。 必填项已用*标注