在「深化重点应用:人工智能 + 基层应用」部分,有两条被摆在了非常醒目的位置:建立基层医生智能辅助诊疗应用、加强居民慢性病规范管理服务。
这意味着什么?
AI 不再只是大医院的「玩具」,而是被写进了国家层面的基层医疗优先级。下一阶段 AI 落地的「主战场」,就是中国基层。
长期深耕基层培训的多位主委在讨论时说得很直白:「这一次,文件已经点名要把 AI 真正落到临床、落到医生手里。」
而专家们也很快达成共识:能真正帮到中国基层医生的 AI,必须同时做到两件事——诊中:辅助临床决策,要安全、有效;诊后:支撑患者随访,要规范、可持续。
这,也是「未来医生 AI 工作室」诞生的起点。
真正能上临床的 AI,先看两件事:安全 & 有效,AI 能背指南、写病历、考高分,并不等于能上临床。
北京大学第三医院运动医学科江东教授的判断很干脆:「医疗 AI 的第一性原理,不是聪明,而是安全。」
那「安全、有效」怎么评判?不是拍脑袋,也不是看几道「秀操作」的题,而是一场严肃的、由医生主导的临床实战测评。
26 个专科、32 位一线临床专家一起设计评估体系;围绕「安全性 / 有效性」,搭建了一套可量化的临床评估标准;从真实病历中抽丝剥茧,整理出 2,069 道开放式问题;统一用这些问题,去测评当时最前沿的 6 个主流大模型:
○ OpenAI-o3
○ Deepseek-R1
○ Gemini-2.5-Pro
○ Claude-3.7-Sonnet
○ Qwen3-235B
○ MedGPT(「未来医生」背后的医学大模型)
这项测评已于 7 月正式公开发布,并接受学术同行评议。
结果:AI 总体不错,但在「安全」上,拉开了明显差距
在高风险问题上(药物相互作用、危重识别、并发症预警等),多款通用大模型得分明显下滑;
在涉及婴儿、儿童、免疫低下、慢病等易损人群时,有的模型会「偶尔很聪明,偶尔很危险」。
在高风险问题上,AI 总体得分降低
而在同一套标准下,MedGPT 的表现有几个非常突出的特征:
总分领先第二名 15.3%;
安全性得分比模型平均值高出近 70%(0.912 vs 0.547);
在复杂人群中,表现依然稳健,没有明显「翻车」。
总体得分、安全性、有效性,MedGPT(绿色)均领先
换句话说,这场比拼真正区分的,不是「谁更能聊天」,而是谁更适合被医生放进临床场景里一起工作。
江东教授复盘时说:「临床不看偶尔答对,要的是次次不出错。」
从那一刻起,这个以 MedGPT 为底座的「未来医生 AI 工作室」,底色就被敲定了:
不是去做「看起来很聪明的 AI」,而是做「临床上最安全、最可靠的 AI 伙伴」。
中国 vs 美国:同题实战里,比的不是「花活」,而是谁更像专家
说到这里,问题来了:
如果把中国的 MedGPT,和美国的 GPT-5、OpenEvidence 放在同一个临床场景下,让它们「真刀真枪」做决策,会发生什么?
中山大学附属第一医院泌尿男科主任邓春华教授,做过一次很有代表性的「同题实测」。
同题对决:GPT-5、OpenEvidence vs 未来医生 · 临床决策 AI 助手
他们做的事情很简单,但非常接近真实世界:
1从实际工作中抽取一批复杂、有争议、信息不完全的病例;
2同一道题目,分别交给三位「参赛者」:
○ GPT-5
○ OpenEvidence
○ 未来医生 · 临床决策 AI 助手
请专家根据 8 个维度进行盲评,包括:
○ 问题理解是否准确
○ 鉴别诊断是否全面
○ 风险点识别是否到位
○ 治疗方案是否符合指南与本土实践
○ 是否说明证据来源
○ 是否提示信息缺口与需补充检查
○ 表达是否清晰、结构是否便于临床使用
○ 整体「安全性 + 临床可用性」
结果非常清晰:
在这套贴近中国临床场景的评估中,未来医生 AI 工作室 · 临床决策 AI 助手,在多数维度上均优于 GPT-5 和 OpenEvidence。
邓春华教授评价到:
「它会帮我看到盲区,启发我思考。
这类思维链式的 AI,能让基层医生也像专家那样看病例——有理、有据、有边界。」
这背后,是技术路线的差异:
通用大模型更擅长的是语言、知识与模式匹配;
而 MedGPT 的核心设计,是围绕「临床推理 + 风险控制」,搭建一整套医学认知框架,再在此之上做应用。
这也是为什么,在「中国医生 vs 美国医生,谁用的 AI 更强?」这个问题上,答案不再简单看「谁家的参数多、谁家的模型大」,而是看谁更接近医生真实的工作方式。
医疗 AI 的终局:不是替代,而是协同。每次谈到 AI,总有人问:「那以后医生会不会被替代?」
在和众多主委、专家的交流中,一个共同观点越来越清晰:
AI 的强项,是快、全面、不知疲倦;
医生的强项,是判断、取舍、经验与温度。
真正的未来,不是谁替谁,而是谁补谁的短板。
如果说这几年,我们在「AI 到底能不能做医生」这个问题上纠结了太久,那么接下来,也许更重要的问题是:
——在一个有 AI 的时代,我们能不能让每一位医生,都多一位值得信赖的搭档?
至少在这场「中国 vs 美国」的 AI 实战对比中,中国医生,已经开始用上一款在临床实战中打败 GPT-5 和 OpenEvidence 的中国医疗 AI。
它不喧哗、不抢风头,却在门诊间、管理端、病房外,默默做着三件事:
帮你把病例看得更全一点;
帮你把风险想得更前一点;
帮你把患者守得更久一点。
或许在不久的将来,我们不再需要问「AI 会不会替代医生」,因为它已经成为那盏灯——既照亮医生的思路,也照亮患者回家的路。
来源:丁香园
(文中所涉测评方法与数据,均来源于公开发表的医学大模型安全性与有效性评估研究,以及 GPT-5 / OpenEvidence 与「未来医生 · 临床决策 AI 助手」的临床决策辅助对比实测。)