-
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
有人发现,官方测试编程能力用的 SWE-bench Verified,但货不对板,只用了 477 个问题。什么意思呢?我们知道,SWE-bench 是评估模型 / 智能体自主编程能力的一个通用且常用的指标。而 SWE-bench Verified 作为它的子集,本来一共有 500 个问题。
-
2025 世界人形机器人运动会:宇树拿下 1500 米田径决赛第 1 组第一名
在世界人形机器人运动会 1500 米田径决赛第 1 组比赛中,宇树科技以7分05秒28跑完全程,取得第一名。剩下参加选手为天卓、数字山海、rera 一队。据了解,1500 米田径决赛将举行多组比赛。
-
国际象棋赛 OpenAI o3 模型碾压夺冠,马斯克的 Grok 决赛遭零封
上周“人工智能国际象棋表演赛”在 Kaggle 平台举办,OpenAI 的 o3 模型夺冠,决赛 4 – 0 横扫 xAI 的 Grok 4。此前 Grok 4 实力强劲,但决赛表现不佳。此前特定棋类定制程序在国际象棋领域表现更好。#人工智能国际象棋赛#
-
智元机器人获富临精工数千万元订单,近百台远征 A2-W 落地工厂
智元机器人近日与富临精工达成数千万元合作,近百台远征 A2-W 将落地工厂,实现国内工业领域具身机器人规模化商业签单。此次合作标志着机器人应用从单厂试点到多厂覆盖的跨越式升级。#工业机器人# #智能制造#
-
2016网络直播迎来规范年:粉丝超3亿 行业或临新拐点
中新网北京12月22日电(吴涛)2016年,网络直播更火了。在上半年,中国就有3.2亿网民观看过网络直播。“你今天看直播了吗?”——成为一些年轻人聊天的高频词。 但网络直播火了的背后,一些低俗、庸俗内容不时出现,将直播带入舆论漩涡。官方采取系列监管措施,直播行业的发展也进入新的篇章。2017年,行业或将迎来新拐点。 直播为何这么火? 主播和专家分别这样看 直播领域最早起于游戏直播,随后秀场直播兴起,并向外蔓延——电商、实时新闻、厨艺秀等垂直领域直播都在2016年开始崭露头角。据中国互联网络信息中…