天风证券：GPT5在降低幻觉/欺诈，增加指令遵循上取得突破，在写作/编码/健康领域表现显著

adminddos 2025-08-08 09:12:00 6 抢沙发

默认

摘要： ...

　　炒股就看，权威，专业，及时，全面，助您挖掘潜力主题机会！

　　来源：天风计算机

　　GPT-5是由多个模型和实时路由机制组成的同一系统

　　GPT-5 是一个整合多模型的统一系统，包含快速响应的基础模型（gpt-5-main、gpt-5-main-mini）、深度推理模型（gpt-5-thinking、gpt-5-thinking-mini），以及实时路由机制。路由模块根据对话类型、复杂度、工具需求等动态选择模型，并通过用户交互数据持续优化。模型主要依靠Azure AI训练完成

　　GPT-5性能提升的同时在减少幻觉/提升指令遵循上取得突破

　　（1）GPT-5在性能上普遍优于GPT4和o3/o4系列，目前榜单上各项能力都排名第一

　　FrontierMath测试上，GPT-5（Python）的准确率为26.3%（对比o4-mini的19.3%）

　　在Humanity‘s Last Exam上GPT5（no tools）的准确率24.8%（对比o3 no tools的14.7%）

　　在coding测试的SWE-bench Verified上，GPT-5思考模型准确率75% VS 的69%

　　多模态上，在MMMU和VideoMMMU等测试上有所提升

　　（2）在幻觉和诚实上，GPT-5取得较大突破#幻觉率是应用尤其是B端应用的巨大痛点

　　在ChatGPT启用网络搜索完成某任务后，GPT-5的响应包含事实错误的可能性比GPT-4 o低约45%，在思考模式，GPT-5的响应包含事实错误的可能性比OpenAI o3低约80%；整体幻觉率从5%等级降低到不足1%；GPT-5这一代思考模型比慢思考模型幻觉率大幅下降（之前都是慢思考模型幻觉率更高）；此外在诚实度上提升较多欺诈减少，欺诈率从o3的4.8%降低到2.1%

　　（3）推理性价比提升，思考效率提升

　　GPT-5（thinking）思考效率表现优于OpenAI o3，在包括视觉推理，代理编码等任务重输出tokens减少了50-80%。同时单位推理成本较O3略降，主模型 $1.25 / M 输入，$10 / M 输出（o3 $2/M输入、$8/M输出）；mini / nano 依次 0.25 / 0.05 美元起，核心是为了解决多Agent/长COT范式下，性能和Token消耗量提升不匹配的问题

　　打造代码/创意写作和健康领域的优势场景

　　（1）Coding上，复杂前端生成和大型数据仓库调用上变强

　　（2）创意写作上可将粗略想法转化为有文学深度的内容，擅长处理结构模糊的文体

　　（3）健康领域能主动识别潜在健康风险、追问关键信息，适配用户的知识水平、地域和场景

　　（4）复杂指令和Agent场景，精准遵循多步骤指令，协调多种工具（如网页搜索、代码执行），适应上下文变化

　　GPT-5在性能/成本上全面提高，同时幻觉率看到快速下降，看好AI应用的产业机会

　　

　　天风计算机缪欣君/刘鉴/刘琳琳

新浪声明：此消息系转载自新浪合作媒体，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

分享

发表评论取消回复

评论列表（暂无评论，6人围观）参与讨论

还没有评论，来说两句吧...