这是对有志从医者的郑重警示:随着人工智能技术的迅猛发展,未来对人类医生的需求将显著降低,尤其是在涉及常规诊断和标准治疗的领域,人工智能将逐步取代人类医生的角色。
此观点得到了OpenAI最新发布的o1模型(又称"Strawberry"模型)的有力佐证。该模型在昨日发布的预览版中,针对专门的医学数据集(AgentClinic-MedQA)展现出卓越性能,远超GPT-4的表现。人工智能在处理复杂医学信息、提供准确诊断、给出医疗建议以及推荐治疗方案方面的能力进步神速,这一趋势只会愈发明显。
诸如疾病诊断、医学影像解读以及制定治疗方案等医疗任务,未来将由人工智能系统以更快速且更一致的方式完成,其表现将超越人类医生。随着未来数年医疗行业的重大变革,对医生的需求将急剧下降,医疗服务将更多依赖于人工智能辅助的系统。
尽管人类的同理心、批判性思维和决策能力在某些医学领域仍将发挥重要作用,但即便这些能力,未来也可能被如o-1这样的模型的升级版本所超越。
因此,医学正逐渐成为下一代医生不太具吸引力的职业选择,除非他们专攻以干预为主的领域(如外科、急诊医学和其他干预性专科)。然而,即使这些领域,也可能在未来十年内被机器人系统所取代。
读图洞察
AgentClinic-MedQA是一个模拟临床环境的对话型数据集,聚焦于医生和患者的动态互动。这一数据集模拟了临床决策中的连续信息收集和决策过程,强调了模型在复杂对话和互动决策中的表现。 数据集中的任务不仅包括回答医学问题,还涵盖了处理隐性偏见和认知偏差的能力,这对模型的综合推理和决策过程提出了更高的要求。
o1-preview模型具有显著的“链式思维”能力,能进行深入的推理和复杂问题解决。其在医学对话中的高准确率(约80%)反映了其对复杂任务和动态信息流的优异处理能力。 相比于GPT-4o,o1-preview在处理科学、数学和编程等复杂任务中表现出色,显示其在高精度问题解决上的能力尤为突出。
o1-preview在AgentClinic-MedQA数据集上的表现显著优于其他模型,准确率达到约80%。这一成绩远超其他模型,表明其在医学对话中能够有效处理复杂和动态的临床场景。 GPT-4的准确率约为50%,在传统医学问答基准上表现较好,但在动态对话和互动决策中存在不足。 GPT-4o和GPT-3.5的准确率在40%左右,显示出它们在处理复杂医学对话任务时的性能瓶颈。
Mixtral-8x7B的准确率略高于GPT-3.5,但低于o1-preview,显示其在没有专门医学优化的情况下也具有一定优势。 LLaMA 2-70B的准确率仅为约10%,表明其在医学对话中的表现非常差,这可能与其缺乏领域专用训练或数据有关。
o1-preview的卓越表现表明,针对特定领域(如医学)的优化模型能显著提高在复杂任务中的表现。未来的医学AI模型应进一步关注动态对话和复杂决策过程中的优化。 AgentClinic-MedQA数据集的使用揭示了当前通用模型在模拟临床环境中的不足,强调了专门化训练的重要性。
参考资料:Unutmaz, D. [@DeryaTR_]. (2024, September 14). This is the final warning for those considering careers as physicians [Tweet]. X. https://x.com/DeryaTR_/status/1834630356286558336
本文链接:https://xhhm.cc/chatgpt_74.html
gpt帐号变现gpt帐号免费使用gpt chat 登录帐号苹果怎么获得gpt帐号GPT4.0帐号停用1元购买gpt帐号gpt4帐号如何开通
网友评论