GPT5 | 奥多也科技

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

有人发现，官方测试编程能力用的 SWE-bench Verified，但货不对板，只用了 477 个问题。什么意思呢？我们知道，SWE-bench 是评估模型 / 智能体自主编程能力的一个通用且常用的指标。而 SWE-bench Verified 作为它的子集，本来一共有 500 个问题。

媒体报道 2025年8月18日

微软 Visual Studio 上线 GPT-5，复杂任务推理决策能力“大幅”提升

微软表示，GPT-5 的加入能显著加快从创意到产品落地的开发流程。它在复杂任务的推理和决策上有“大幅”提升，能在极少提示下生成质量更高、易于维护的代码，并在修改代码时提供更清晰的解释。

媒体报道 2025年8月18日

OpenAI ChatGPT 更新：GPT-5 引入三种模式，4o 模型回归

OpenAI CEO萨姆・奥尔特曼宣布ChatGPT重大更新，GPT-5新增“自动”、“快速”和“思考”三种模式，满足不同用户需求。其中“思考”模式每周限3000条消息，上下文限制为196,000个token。此外，4o版本重新加入模型选择器，付费用户可切换显示其他模型。#ChatGPT更新# #AI技术#

媒体报道 2025年8月18日

OpenAI：正在让 GPT-5 变得“更温暖、更友好、不奉承”

用户会注意到GPT-5将使用一些“细微而真诚”的措辞，如“Good question（好问题）”或“Great start（好的开始）”而非奉承。内部测试显示，与之前的GPT-5相比，其谄媚程度没有上升。

媒体报道 2025年8月18日

OpenAI 申请 GPT-5 中国商标遇挫，相关申请均被驳回

OpenAI 上周正式发布新一代人工智能模型 GPT-5，该模型已在中国提交商标申请，国际分类涵盖科学仪器、网站服务，目前所有相关申请均已被驳回。

媒体报道 2025年8月18日

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

微软 Visual Studio 上线 GPT-5，复杂任务推理决策能力“大幅”提升

OpenAI ChatGPT 更新：GPT-5 引入三种模式，4o 模型回归

OpenAI：正在让 GPT-5 变得“更温暖、更友好、不奉承”

OpenAI 申请 GPT-5 中国商标遇挫，相关申请均被驳回

联系我们

173-7685-8299