中国医生 vs 美国医生，谁用的 AI 更强？

过去几年，「AI + 医疗」这四个字被说了太多次。

但对大部分中国医生，尤其是基层医生来说，它常常只停留在 PPT 和新闻里——指南更新太快，看不完；病例越来越复杂，看不准门诊时间被不断压缩，顾不过来；看完病人，还有大堆随访和表格等着填。

真正的问题，从来不是「AI 有多炫」，而是：它能不能在你真正需要的时候，帮你做出安全、有效的决策，并且帮你把患者长期管好？

最近有一件事，可能会让你重新思考「医生用的 AI 究竟应该怎么做」这个问题。

就在上周，国家卫健委发布了《关于促进和规范「人工智能 + 医疗卫生」应用发展的实施意见》。

在「深化重点应用：人工智能 + 基层应用」部分，有两条被摆在了非常醒目的位置：建立基层医生智能辅助诊疗应用、加强居民慢性病规范管理服务。

这意味着什么？

AI 不再只是大医院的「玩具」，而是被写进了国家层面的基层医疗优先级。下一阶段 AI 落地的「主战场」，就是中国基层。

长期深耕基层培训的多位主委在讨论时说得很直白：「这一次，文件已经点名要把 AI 真正落到临床、落到医生手里。」

而专家们也很快达成共识：能真正帮到中国基层医生的 AI，必须同时做到两件事——诊中：辅助临床决策，要安全、有效；诊后：支撑患者随访，要规范、可持续。

这，也是「未来医生 AI 工作室」诞生的起点。

真正能上临床的 AI，先看两件事：安全 & 有效，AI 能背指南、写病历、考高分，并不等于能上临床。

北京大学第三医院运动医学科江东教授的判断很干脆：「医疗 AI 的第一性原理，不是聪明，而是安全。」

那「安全、有效」怎么评判？不是拍脑袋，也不是看几道「秀操作」的题，而是一场严肃的、由医生主导的临床实战测评。

26 个专科、32 位一线临床专家一起设计评估体系；围绕「安全性 / 有效性」，搭建了一套可量化的临床评估标准；从真实病历中抽丝剥茧，整理出 2,069 道开放式问题；统一用这些问题，去测评当时最前沿的 6 个主流大模型：

○ OpenAI-o3

○ Deepseek-R1

○ Gemini-2.5-Pro

○ Claude-3.7-Sonnet

○ Qwen3-235B

○ MedGPT（「未来医生」背后的医学大模型）

这项测评已于 7 月正式公开发布，并接受学术同行评议。

结果：AI 总体不错，但在「安全」上，拉开了明显差距

在高风险问题上（药物相互作用、危重识别、并发症预警等），多款通用大模型得分明显下滑；

在涉及婴儿、儿童、免疫低下、慢病等易损人群时，有的模型会「偶尔很聪明，偶尔很危险」。

在高风险问题上，AI 总体得分降低

而在同一套标准下，MedGPT 的表现有几个非常突出的特征：

总分领先第二名 15.3%；

安全性得分比模型平均值高出近 70%（0.912 vs 0.547）；

在复杂人群中，表现依然稳健，没有明显「翻车」。

总体得分、安全性、有效性，MedGPT（绿色）均领先

换句话说，这场比拼真正区分的，不是「谁更能聊天」，而是谁更适合被医生放进临床场景里一起工作。

江东教授复盘时说：「临床不看偶尔答对，要的是次次不出错。」

从那一刻起，这个以 MedGPT 为底座的「未来医生 AI 工作室」，底色就被敲定了：

不是去做「看起来很聪明的 AI」，而是做「临床上最安全、最可靠的 AI 伙伴」。

中国 vs 美国：同题实战里，比的不是「花活」，而是谁更像专家

说到这里，问题来了：

如果把中国的 MedGPT，和美国的 GPT-5、OpenEvidence 放在同一个临床场景下，让它们「真刀真枪」做决策，会发生什么？

中山大学附属第一医院泌尿男科主任邓春华教授，做过一次很有代表性的「同题实测」。

同题对决：GPT-5、OpenEvidence vs 未来医生 · 临床决策 AI 助手

他们做的事情很简单，但非常接近真实世界：

1从实际工作中抽取一批复杂、有争议、信息不完全的病例；

2同一道题目，分别交给三位「参赛者」：

○ GPT-5

○ OpenEvidence

○ 未来医生 · 临床决策 AI 助手

请专家根据 8 个维度进行盲评，包括：

○ 问题理解是否准确

○ 鉴别诊断是否全面

○ 风险点识别是否到位

○ 治疗方案是否符合指南与本土实践

○ 是否说明证据来源

○ 是否提示信息缺口与需补充检查

○ 表达是否清晰、结构是否便于临床使用

○ 整体「安全性 + 临床可用性」

结果非常清晰：

在这套贴近中国临床场景的评估中，未来医生 AI 工作室 · 临床决策 AI 助手，在多数维度上均优于 GPT-5 和 OpenEvidence。

邓春华教授评价到：

「它会帮我看到盲区，启发我思考。

这类思维链式的 AI，能让基层医生也像专家那样看病例——有理、有据、有边界。」

这背后，是技术路线的差异：

通用大模型更擅长的是语言、知识与模式匹配；

而 MedGPT 的核心设计，是围绕「临床推理 + 风险控制」，搭建一整套医学认知框架，再在此之上做应用。

这也是为什么，在「中国医生 vs 美国医生，谁用的 AI 更强？」这个问题上，答案不再简单看「谁家的参数多、谁家的模型大」，而是看谁更接近医生真实的工作方式。

医疗 AI 的终局：不是替代，而是协同。每次谈到 AI，总有人问：「那以后医生会不会被替代？」

在和众多主委、专家的交流中，一个共同观点越来越清晰：

AI 的强项，是快、全面、不知疲倦；

医生的强项，是判断、取舍、经验与温度。

真正的未来，不是谁替谁，而是谁补谁的短板。

如果说这几年，我们在「AI 到底能不能做医生」这个问题上纠结了太久，那么接下来，也许更重要的问题是：

——在一个有 AI 的时代，我们能不能让每一位医生，都多一位值得信赖的搭档？

至少在这场「中国 vs 美国」的 AI 实战对比中，中国医生，已经开始用上一款在临床实战中打败 GPT-5 和 OpenEvidence 的中国医疗 AI。

它不喧哗、不抢风头，却在门诊间、管理端、病房外，默默做着三件事：

帮你把病例看得更全一点；

帮你把风险想得更前一点；

帮你把患者守得更久一点。

或许在不久的将来，我们不再需要问「AI 会不会替代医生」，因为它已经成为那盏灯——既照亮医生的思路，也照亮患者回家的路。

来源：丁香园

（文中所涉测评方法与数据，均来源于公开发表的医学大模型安全性与有效性评估研究，以及 GPT-5 / OpenEvidence 与「未来医生 · 临床决策 AI 助手」的临床决策辅助对比实测。）

中国医生 vs 美国医生，谁用的 AI 更强？

留下评论

取消回复