-
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
有人发现,官方测试编程能力用的 SWE-bench Verified,但货不对板,只用了 477 个问题。什么意思呢?我们知道,SWE-bench 是评估模型 / 智能体自主编程能力的一个通用且常用的指标。而 SWE-bench Verified 作为它的子集,本来一共有 500 个问题。
-
微软 Visual Studio 上线 GPT-5,复杂任务推理决策能力“大幅”提升
微软表示,GPT-5 的加入能显著加快从创意到产品落地的开发流程。它在复杂任务的推理和决策上有“大幅”提升,能在极少提示下生成质量更高、易于维护的代码,并在修改代码时提供更清晰的解释。
-
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
OpenAI CEO萨姆・奥尔特曼宣布ChatGPT重大更新,GPT-5新增“自动”、“快速”和“思考”三种模式,满足不同用户需求。其中“思考”模式每周限3000条消息,上下文限制为196,000个token。此外,4o版本重新加入模型选择器,付费用户可切换显示其他模型。#ChatGPT更新# #AI技术#
-
OpenAI:正在让 GPT-5 变得“更温暖、更友好、不奉承”
用户会注意到GPT-5将使用一些“细微而真诚”的措辞,如“Good question(好问题)”或“Great start(好的开始)”而非奉承。内部测试显示,与之前的GPT-5相比,其谄媚程度没有上升。
-
OpenAI 申请 GPT-5 中国商标遇挫,相关申请均被驳回
OpenAI 上周正式发布新一代人工智能模型 GPT-5,该模型已在中国提交商标申请,国际分类涵盖科学仪器、网站服务,目前所有相关申请均已被驳回。