亚洲国产精品99_亚洲欧洲一区二区三区久久_日韩国产在线看_日韩视频免费观看高清完整版

網絡消費網 >  綜合 > > 正文
今日快訊:AI榜單“變天”了!馬斯克發布Grok 4.1,盲測排名登頂第一
時間:2025-11-18 09:26:06

就在OpenAI發布GPT-5.1,大談“情商”之際,埃隆·馬斯克(Elon Musk)也帶著他的xAI,火速加入了這場“AI體驗”之戰。


(相關資料圖)

就在剛剛,xAI宣布推出Grok 4.1,這是對現有Grok 4模型的重大升級,并已在grok.com、X平臺以及iOS和Android應用向所有用戶全面開放。。官方宣稱,新版本在創意表達、情感互動和協同交流方面表現尤為突出,并且出現幻覺的概率僅為此前模型的三分之一。

更引人注目的是,在一個公開的“盲測”競技場(LMArena)上,Grok 4.1的“思考模式”版本已悄然登頂總榜第一,甚至其“非推理”的快速模式,都擊敗了所有對手的“完整推理”模式。

這場突如其來的“榜首易主”,無疑為日趨白熱化的AI競賽,又增添了濃重的火藥味。

Grok 4.1升級了什么?

xAI本次發布了兩個Grok 4.1模型:Grok 4.1(非推理模式)和 Grok 4.1 Thinking(思考模式)。這兩個模型均可免費使用,但付費用戶面臨的限制更少。

官方表示,新版本能更細致地理解隱含意圖,與之對話引人入勝,也更能保持人設的一致性。

為了優化模型的風格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作為“獎勵模型”,在大規模環境中自主評估并迭代模型的回答。

在11月1日至14日的“靜默上線”期間,xAI在真實流量上進行了盲測式的成對比較評估,結果顯示,在64.78%的情況下,用戶更偏好Grok 4.1。

“盲測”登頂,Grok 4.1到底有多強?

Grok 4.1在盲測的人類偏好評估中樹立了新的行業標準。

LMArena是一個開源工具,用戶可以通過并排、盲測的方式,比較不同大語言模型的表現。在這個競爭最激烈的“斗獸場”里,Grok 4.1取得了驚人的成績:

· Grok 4.1的“思考模式”(代號:quasarflux)以1483 Elo的成績位列總榜第一,領先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代號:tensor)無需使用“思考詞元”(thinking tokens),可立即生成回答,并以1465 Elo的成績排名第二。

· 更夸張的是,Grok 4.1的“非推理”模式表現,超過了所有其他模型在“完整推理模式”下的公開排行榜成績。

與之相比, Grok 4此前在該榜單上的綜合排名僅為第33位。

“情商”與“文采”,一個都不能少

除了通用能力,xAI還強調了新模型在“軟實力”上的提升。

· 情緒智能(Emotional Intelligence)為評估模型在個性與人際互動方面的進展,xAI對Grok 4.1進行了EQ-Bench3測試。這是一項由LLM作為裁判的測試,用于評估模型在主動情緒智能、理解力、洞察力、共情能力和人際技能方面的表現。

· 創意寫作能力(Creative Writing)xAI同樣測量了Grok 4.1在Creative Writing v3基準測試中的表現。在該測試中,模型需要根據32個不同的寫作提示,在3次迭代中生成回答。

更少的“幻覺”

快速響應模型在配備搜索工具后,雖然能迅速給出答案,但更容易出現事實性錯誤。

在Grok 4.1的后訓練階段,xAI重點降低了模型在信息查詢類提示中的事實性“幻覺”。

根據xAI的說法,Grok 4.1出現幻覺的概率是此前模型的三分之一,這使其成為xAI迄今為止的最佳版本之一。

為了驗證這一點,xAI不僅在真實的生產流量中進行了評估,還使用了FActScore——一個包含500道關于人物傳記問題的公開基準測試。

挑戰與未來:真正的對手還在路上

盡管Grok 4.1的“盲測”成績斐然,但AI的王座之爭遠未結束。

目前,我們尚不清楚它與GPT-5.1相比的真實表現。

更重要的是,谷歌(Google)正在準備發布Gemini 3.0,這可能會成為迄今為止最強大的模型。

Grok 4.1的發布,無疑是馬斯克在AI競賽中投下的一枚重要棋子。但在這場“神仙打架”的牌局中,誰能笑到最后,還遠未可知。(易句)

(本文由AI翻譯,網易編輯負責校對)

關鍵詞: 馬斯克 盲測 grok 推理

版權聲明:
    凡注明來網絡消費網的作品,版權均屬網絡消費網所有,未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明"來源:網絡消費網"。違反上述聲明者,本網將追究其相關法律責任。
    除來源署名為網絡消費網稿件外,其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
熱文

網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
 

Copyright © 2000-2020 www.asmrgay2.com All Rights Reserved.
 

中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
 

聯系郵箱:920 891 263@qq.com

備案號:京ICP備2022016840號-15

營業執照公示信息

主站蜘蛛池模板: 日本不卡二区| 欧美精品一区三区在线观看| 国产精品欧美亚洲777777| 色天天综合狠狠色| 精品国偷自产在线视频99| 午夜精品美女自拍福到在线| 国产精品一区二区免费看| 久久精品色欧美aⅴ一区二区| 青青青国产在线观看| 99视频在线| 国产精品免费成人| 日本一区二区黄色| 日韩久久久久久久久久久久| 欧美亚洲另类在线| 欧美精品在线免费| 日本不卡一二三区| 欧美国产日韩激情| 久久久视频精品| 国产免费亚洲高清| 国产免费成人av| 久久99久久亚洲国产| 好吊色欧美一区二区三区视频| 久久精品免费播放| 国产在线视频不卡| 国产精品丝袜久久久久久消防器材 | 日韩在线视频观看正片免费网站| 色综合久久中文字幕综合网小说| 亚洲精品一区二区三| 日韩一级黄色av| 亚洲精品国产精品久久| 日韩一区二区在线视频| 欧美在线日韩在线| 精品日韩欧美| 国产成人精品免高潮在线观看| 国产精品久久久影院| 国产精品一区免费观看| 国产美女在线精品免费观看| 国产精品一区二区a| 亚洲伊人久久综合| 欧美精品在线网站| 国产精品视频中文字幕91|