xAI 震撼發布 Grok 4:全球最強 AI 模型,挑戰學術與實用極限

瀏覽數: 11 | 更新日期: 2025-07-11 10:41:58
xAI 震撼發布 Grok 4:全球最強 AI 模型,挑戰學術與實用極限

xAI 在7月10日透過 X 平台 (原 Twitter) 全球直播,正式推出全新旗艦人工智慧模型 Grok 4,被譽為「全球最聰明的 AI」。此次發布會由 xAI 創辦人伊隆·馬斯克(Elon Musk)親自領銜,展示 Grok 4 在學術推理、程式設計與多模態應用的突破性進展,直接對標 OpenAI 的 GPT-4o 與 Google 的 Gemini 2.5 Pro。Grok 4 不僅在基準測試中展現壓倒性優勢,更以其「最大求真原則」與多代理架構,重新定義 AI 的應用邊界。

超越博士級的學術表現

Grok 4 在多項國際基準測試中表現卓越,尤其在「人類最終考試」(Humanity’s Last Exam, HLE)中,無工具模式下得分 25.4%,超越 Google Gemini 2.5 Pro(21.6%)與 OpenAI o3(21%)。搭載工具的 Grok 4 Heavy 更達到 44.4% 的準確率,遠超競爭對手。該測試涵蓋 2,500 道博士級難題,橫跨數學、物理、化學與人文學科,顯示 Grok 4 在跨領域知識的深度與廣度已達人類專家極限。馬斯克在直播中表示:「Grok 4 在學術問題上幾乎比所有研究生更聰明,無一例外。」

xAI震撼發布Grok4-sharktech

此外,在 AIME 2025 數學測試中,Grok 4 Heavy 取得滿分 100%,而在 GPQA 科學問題測試中得分 88.9%,均領先業界。Grok 4 還在 ARC-AGI-2 測試中創下 15.9% 準確率,是第二名 Claude Opus 的近兩倍,展現其在通用人工智能(AGI)路徑上的領先地位。

xAI震撼發布Grok4-sharktech

多代理架構與高效運算

Grok 4 引入了創新的多代理架構(multi-agent architecture),其中 Grok 4 Heavy 可同時運行多達四個 AI 代理,模擬「腦內會議」,協同分析、推理並生成最佳答案。此設計讓 Grok 4 在複雜任務中表現尤為突出。例如,在直播展示中,Grok 4 Heavy 分析 Polymarket 公開數據,僅用 4.5 分鐘生成一份 MLB 世界大賽賠率報告,預測道奇隊勝率為 21.6%,並詳細說明數據來源與邏輯。

Grok 4 的訓練規模空前,動用 xAI 的 Colossus 超級電腦,配備約 200,000 顆 H100 GPU,訓練量是 Grok 3 的 10 倍、Grok 2 的 100 倍。xAI 強調,Grok 4 在強化學習(Reinforcement Learning, RL)上投入的算力遠超業界,確保其能從錯誤中學習並持續優化。

多模態與即時資料整合

Grok 4 支援 256,000 字元的上下文視窗,能處理超長文本與多輪對話,特別適合學術研究與商業應用。模型整合了類 RAG(Retrieval-Augmented Generation)架構,可即時從 X 平台擷取最新資訊,確保回答的時效性與準確性。雖然目前以文字為主,但 xAI 預告 9 月將加入圖片與語音輸入,10 月推出影片生成功能,進一步提升多模態能力。

訂閱方案與 API 定價

Grok 4 現已上線,僅限付費用戶體驗,包括 X 平台的 Premium+ 訂閱者(月費 30 美元)與全新推出的 SuperGrok Heavy 訂閱計畫(月費 300 美元)。後者提供 Grok 4 Heavy 的早期存取權,以及 AI 編碼模型(8 月)、多模態代理(9 月)與影片生成(10 月)等新功能的優先體驗。API 定價為每 100 萬輸入 token 3 美元、輸出 token 15 美元,企業用戶享有優先存取權。

xAI震撼發布Grok4-sharktech

挑戰與未來展望

儘管 Grok 4 在推理與編程能力上領先,xAI 坦言其圖像理解能力仍需改進。馬斯克表示,團隊正在訓練第 7 版基礎模型,預計數週內解決視覺處理的短板。xAI 更預告,Grok 4 將於年底前實現自主科研,2026 年可能發現新物理學原理,並透過特斯拉人形機器人 Optimus 與現實世界互動,驗證假設與執行任務。

馬斯克在發表會上強調:「我們正處於智慧大爆炸的開端。Grok 4 不僅是工具,更是通往未來的橋樑。」他預測,Grok 4 將在遊戲設計、醫療研發與工程模擬等領域開創全新應用,推動 AI 從學術助手進化為實體世界的問題解決者。

你可能也會喜歡
changtail42
Tail

具備多年 IT 領域經驗,目前在研究所專注於演算法設計、AI 模型評估,以及計算機數學的理論研究,致力於結合理論與應用。

鯊客SharkTech-自經營品牌服務

interiordecoroom 你的室,就是我的室
裝潢好麻煩、設計師難尋、風格說不清楚、預算怕超支?這些裝修痛點,即日起有了解方!全新推出的「DECO ROOM設計師平台」,正式上線開放大眾使用——這是一個為屋主、企業主、裝修需求者量身打造的設計媒合平台,讓你依照風格、坪數、預算與空間類型,快速找到最適合你的專業設計師。
poshme 茶茶茶-ThreeTea
茶農、焙茶、茶藝,同時具備三種身分優勢,茶茶茶讓消費者能夠直接接觸台灣茶,瞭解台灣茶道,並將高級茶帶入日常。茶葉、山坡、以及植木,傳遞的是茶葉本質。Three tea融合成Threa,三茶一體。
mabao 媽寶補給站-Mabao
在資訊爆炸的時代,過多的孕期育兒資訊反而是無用的雜訊,本站希望將親切、白話、實用的媽媽及寶寶的照顧資訊,補給予社會大眾,在獲得充足的知識養份後,進而做最適合的決定。有用的媽媽寶寶資訊,轉變為己身的知識,做出適合的決定,來媽寶補給站就對了。
beshe BeShe一個專為女性著想的網站
一個專為女性著想的字媒體網站,分享女性愛美相關知識。
poshme POSHME美甲、美睫沙龍POS系統
免安裝、免下載的網頁收銀POS系統。可以幫助小工作室也可以擁有專業的客戶管理、記帳報表、業積報表等功能,成為你的開店小幫手。
ezbow EZbow
EZbow由一群金融與科技業專業人才組成, 分享並傳遞專業的知識,打造Fintech人才交流及學習平台, 提供最新以及熱門的金融科技議題、產業趨勢、關鍵技術講座等, 滿足求職志願者研習、社會新鮮人進修、中高階主管鑽研的各種需求。 跟著EZBow一起搭上Fintech的趨勢列車!