xAI 震撼發布 Grok 4:全球最強 AI 模型,挑戰學術與實用極限

xAI 在7月10日透過 X 平台 (原 Twitter) 全球直播,正式推出全新旗艦人工智慧模型 Grok 4,被譽為「全球最聰明的 AI」。此次發布會由 xAI 創辦人伊隆·馬斯克(Elon Musk)親自領銜,展示 Grok 4 在學術推理、程式設計與多模態應用的突破性進展,直接對標 OpenAI 的 GPT-4o 與 Google 的 Gemini 2.5 Pro。Grok 4 不僅在基準測試中展現壓倒性優勢,更以其「最大求真原則」與多代理架構,重新定義 AI 的應用邊界。
超越博士級的學術表現
Grok 4 在多項國際基準測試中表現卓越,尤其在「人類最終考試」(Humanity’s Last Exam, HLE)中,無工具模式下得分 25.4%,超越 Google Gemini 2.5 Pro(21.6%)與 OpenAI o3(21%)。搭載工具的 Grok 4 Heavy 更達到 44.4% 的準確率,遠超競爭對手。該測試涵蓋 2,500 道博士級難題,橫跨數學、物理、化學與人文學科,顯示 Grok 4 在跨領域知識的深度與廣度已達人類專家極限。馬斯克在直播中表示:「Grok 4 在學術問題上幾乎比所有研究生更聰明,無一例外。」
此外,在 AIME 2025 數學測試中,Grok 4 Heavy 取得滿分 100%,而在 GPQA 科學問題測試中得分 88.9%,均領先業界。Grok 4 還在 ARC-AGI-2 測試中創下 15.9% 準確率,是第二名 Claude Opus 的近兩倍,展現其在通用人工智能(AGI)路徑上的領先地位。
多代理架構與高效運算
Grok 4 引入了創新的多代理架構(multi-agent architecture),其中 Grok 4 Heavy 可同時運行多達四個 AI 代理,模擬「腦內會議」,協同分析、推理並生成最佳答案。此設計讓 Grok 4 在複雜任務中表現尤為突出。例如,在直播展示中,Grok 4 Heavy 分析 Polymarket 公開數據,僅用 4.5 分鐘生成一份 MLB 世界大賽賠率報告,預測道奇隊勝率為 21.6%,並詳細說明數據來源與邏輯。
Grok 4 的訓練規模空前,動用 xAI 的 Colossus 超級電腦,配備約 200,000 顆 H100 GPU,訓練量是 Grok 3 的 10 倍、Grok 2 的 100 倍。xAI 強調,Grok 4 在強化學習(Reinforcement Learning, RL)上投入的算力遠超業界,確保其能從錯誤中學習並持續優化。
多模態與即時資料整合
Grok 4 支援 256,000 字元的上下文視窗,能處理超長文本與多輪對話,特別適合學術研究與商業應用。模型整合了類 RAG(Retrieval-Augmented Generation)架構,可即時從 X 平台擷取最新資訊,確保回答的時效性與準確性。雖然目前以文字為主,但 xAI 預告 9 月將加入圖片與語音輸入,10 月推出影片生成功能,進一步提升多模態能力。
訂閱方案與 API 定價
Grok 4 現已上線,僅限付費用戶體驗,包括 X 平台的 Premium+ 訂閱者(月費 30 美元)與全新推出的 SuperGrok Heavy 訂閱計畫(月費 300 美元)。後者提供 Grok 4 Heavy 的早期存取權,以及 AI 編碼模型(8 月)、多模態代理(9 月)與影片生成(10 月)等新功能的優先體驗。API 定價為每 100 萬輸入 token 3 美元、輸出 token 15 美元,企業用戶享有優先存取權。
挑戰與未來展望
儘管 Grok 4 在推理與編程能力上領先,xAI 坦言其圖像理解能力仍需改進。馬斯克表示,團隊正在訓練第 7 版基礎模型,預計數週內解決視覺處理的短板。xAI 更預告,Grok 4 將於年底前實現自主科研,2026 年可能發現新物理學原理,並透過特斯拉人形機器人 Optimus 與現實世界互動,驗證假設與執行任務。
馬斯克在發表會上強調:「我們正處於智慧大爆炸的開端。Grok 4 不僅是工具,更是通往未來的橋樑。」他預測,Grok 4 將在遊戲設計、醫療研發與工程模擬等領域開創全新應用,推動 AI 從學術助手進化為實體世界的問題解決者。