|
韩磊老婆其其格【新智元导读】AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。
一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。
不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。
同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。
Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。
如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。
与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。
在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。
为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。
前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。
与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。
最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。
它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。
值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。
EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。
具体来说,团队让模型围绕32个不同的写作提示,进行3轮创作,并根据打分标准和模型对战Elo进行评分。
以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖
使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。
在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。
团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。
我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
淘汰一大批!「史上最严」充电宝新规曝光:3C认证全面失效;李想:不会造手机,理想AI眼镜要来了;蔚来李斌喊出明年全年盈利目标!
爱马仕上架新款狗碗,材质为100%不锈钢,售价超2万元,客服回应:2026年春季的新款产品,只剩少量库存
欧冠悲喜夜:切尔西3-0巴萨升第五 曼城0-2遭首败 穆帅2-0获首胜
留守老人带猫咪看病得知手术费1000多后含泪离开,店家追出免费救治,“事后奶奶非要给钱,象征性收了20元”
泰国政府宣布进入紧急状态,航空母舰出动!我使馆发布重要提醒!发生了什么?
女子为了帮发不起工资的老板渡过难关,背上55万贷款,“ 跟他要钱太痛苦了”
苹果加速平板OLED普及:三星获iPad mini面板订单,明年7月起量产
|