AI-Course-Questionnaire

Gemini 3 震撼洩漏:一鍵生成 Mac OS、攻克「無解」數學題,Google AI 表現如何?

瀏覽數: 1 | 更新日期: 2025-11-16 23:14:26
AI
Gemini 3 震撼洩漏:一鍵生成 Mac OS、攻克「無解」數學題,Google AI 表現如何?

在 AI 領域軍備競賽白熱化的當下,所有人的目光都聚焦在 OpenAI Google 的下一步。就在全球開發者與分析師屏息以待 Gemini 3 的正式發布之際(市場預測平台 Polymarket 上的熱議更將時間指向未來幾天),一場來自 Google DeepMind 內部的重大洩漏,正以前所未有的方式揭示了 Google 即將推出的次世代 AI 產品陣容。 這場洩漏不僅關乎 Gemini 3,更包含其強大的圖片模型 Nano Banana 2,以及一款神祕的 AI 代理 (agent)。而洩漏中展示的能力,特別是一個代號為 ECPT 的內部版本,其表現已經超越了「令人印象深刻」,達到了近乎科幻的程度。

這場洩漏不僅關乎 Gemini 3,更包含其強大的圖片模型 Nano Banana 2,以及一款神祕的 AI 代理 (agent)。而洩漏中展示的能力,特別是一個代號為 ECPT 的內部版本,其表現已經超越了「令人印象深刻」,達到了近乎科幻的程度。

一鍵生成「可運作」的作業系統

忘掉那些生成靜態網頁或程式碼片段的演示。根據洩漏的影片內容,Gemini 3 的一個分支版本能夠在瀏覽器中「一鍵生成 (one-shot)」出一個功能齊全的 Mac OS 桌面環境。這並非單單一張圖片,而是一個可互動的介面,包含可運作的檔案總管、文字編輯器,甚至能打開計算機,並且功能都可以順利運行。

Gemini 3 震撼洩漏:一鍵生成 Mac OS、攻克「無解」數學題,Google AI 表現如何?-sharktech

🔼@chetaslua 是 X 上的一個 AI 內容創作者帳號,專注於分享 AI 新聞、測試和突破性內容。圖中是使用 Gemini 3 編寫出的 MacOS。

除了 Mac OS 之外,Gemini 3 同樣生成了 Windows 介面,其中甚至包含一個可以實際遊玩、邏輯完整的貪食蛇遊戲,以及一個能編譯並運行 Python 程式碼的終端機 (terminal)。這些複雜的系統設計足以代表 Gemini 3 對於程式碼、系統架構、空間邏輯和應用程式互動的理解,已經達到了全新的維度。

神祕的 ECPT:Google 內部的「Hero Run」

此次洩漏的核心,指向一個內部代號為 ECPTGemini 3 分支。據稱,這是 Google 內部「hero run」(英雄衝刺,意指集結所有最佳實驗成果的頂尖版本)的產物。ECPT 展示的能力幾乎無所不包:

  • 創意與空間編碼: 它能生成複雜的 3D Voxel(體素)藝術,以及結構極其精確的 SVG 向量圖形,例如一個細節完整的 Xbox 360 控制器。
  • 完整遊戲生成: ECPT 甚至能一鍵生成一款「準備好就能玩 (ready-to-play)」的遊戲,包含完整的選單系統、音效、升級機制和動畫。

Gemini 3 震撼洩漏:一鍵生成 Mac OS、攻克「無解」數學題,Google AI 表現如何?-sharktech

🔼WordofAI Youtube 頻道 分享使用 Gemini 3 開發的遊戲

 

攻克無解基準:Somara 554 數學難題

洩漏中最引人注目的突破,是 ECPT 成功解決了 Yu Tsumura 的第 554 題(Somara 554)。這道問題源自 2025 年 8 月發布於 arXiv 的論文《No LLM Solved Yu Tsumura's 554th Problem》,當時被視為 LLM 的特定基準盲點 – 包括 GPT-4 後繼者和 Gemini 2.5 在內的所有頂尖模型均無法正確解答。 儘管 Google 的 Gemini 2.5 Deep Think 模型曾在 2025 年國際數學奧林匹亞 (IMO) 中達到金牌標準,但 Somara 554 仍被視為難以攻克的堡壘。 網路傳聞更指出,Gemini 3 的 Deep Think 版本可能已解決 Collatz 猜想的 90%,顯示其在數學推理上的驚人進步。

有趣的是,近期討論顯示 OpenAI 的 GPT-5 Pro 已於 10 月解決類似難題,但 Gemini 3 的 ECPT 版本被洩漏內容宣稱率先攻克 Somara 554,暗示其在純邏輯推理和抽象數學能力上,可能已超越競爭對手。 這一成就不僅提升了 Google 在 AI 推理領域的聲譽,也引發業界對「AI 數學極限」的重新思考。

配角也強大:Nano Banana 2 與 AI 代理

Gemini 3 並非唯一的主角。洩漏中提到的 Nano Banana 2 也極具看點。Nano Banana 的第一代(目前與 Gemini 2.5 Flash Image 綁定)已經因其出色的圖像編輯和「角色一致性」保持能力而受到好評。而 Nano Banana 2 將在此基礎上,進一步升級為頂尖的圖像生成模型,原生支援 2K 畫質並可升級至 4K,這與近期報導稱 Gemini 3 將帶來多媒體重大升級的消息不謀而合。

此外,一款新的 DeepMind AI 代理 (agent) 也浮出水面。它被展示為可以在網頁上代表使用者執行任務,並可能整合到 Google Stitch 中自動處理設計工作。這也符合 Google 近期發布 CodeMender(一款可自主修復程式漏洞的 AI 代理)的戰略方向,顯示出 Google 正全力衝刺「AI 代理」的未來。

Gemini 3 的主要升級點

根據最新網路搜尋和 X 平台上的討論,Google 的 Gemini 3 作為次世代 AI 模型,預計帶來多項重大升級,涵蓋推理、編碼、多模態生成和代理功能等方面。以下是整理的關鍵升級點,基於近期洩漏和官方暗示(如 Sundar Pichai 的確認和 Polymarket 投注熱潮):

Gemini 3 震撼洩漏:一鍵生成 Mac OS、攻克「無解」數學題,Google AI 表現如何?-sharktech

  • 推理能力提升:引入全新 “Deep Think” 模式,能解決先前 LLM 無法攻克的複雜問題,如 Somara 554 數學難題,甚至據稱已接近解決 Collatz 猜想的部分驗證。這代表 Gemini 3 在抽象邏輯和數學推理上實現世代躍進,超越 Gemini 2.5 的 IMO 金牌表現。
  • 編碼與生成能力:支援 “一鍵生成” 完整可互動系統,如 Mac OSWindows 桌面環境(包含可運行遊戲和終端機),以及精準 SVG 向量圖和 3D Voxel 藝術。上下文窗口可能擴大至 1 百萬 token,提升長序列處理效率。
  • 多模態整合:配備 Nano Banana 2(或稱 Nano Banana Pro)圖像模型,原生支援 2K/4K 高解析生成,改善角色一致性和圖像編輯。同時可能整合 Veo 4 影片生成,從文字轉影片更流暢。
  • AI 代理與自主性:新增 “Agent Mode”,允許 AI 自主瀏覽、規劃和執行任務,整合 Google Stitch 和 CodeMender,提升漏洞修復和自動化設計。還包括 “Private” 模式,強化資料隱私。
  • 性能優化與可用性:Pro 版本在速度、穩定性和 token 消耗上取得平衡,適合大規模用戶。Gemini Live 獲得五大升級,包括語調、節奏和語速調整,提升對話自然度;Canvas 模式已滾動更新,支援更進階的創意編碼。

這些升級預計於 11 月 18 日或 22 日前發布,業界猜測這將重塑 AI 競爭格局,讓 Google 在企業級應用中領先 OpenAI 的 GPT-5 和 Anthropic 的 Claude 4.5。若為真,Gemini 3 將標誌 AI 從輔助工具向自主代理的轉型。

期待與現實:Pro 版的權威

不過,洩漏中也帶來了一絲「壞消息」。即將向大眾釋出的 Gemini 3 Pro Preview 版本,在編碼能力上似乎略遜於 ECPT

這並不令人意外。ECPT 作為「hero run」版本,追求的是能力的絕對上限,而不計成本。而面向公眾的 Pro 版本,則必須在能力、速度、穩定性以及 token 消耗(即運算成本)之間找到平衡。Google 很可能為了讓 Gemini 3 能夠被數百萬人高效使用,而對其進行了更穩健的調整。

結論: 這場 Gemini 3 洩漏案,無論是否為 Google 刻意操作,都已成功拉高了全世界的期待。它展示的不僅是一個更強的模型,而是一個在編碼、推理和多模態能力上都可能實現「世代飛躍」的願景。

隨著 Gemini 2.5 世代即將落幕,AI 社群正處於爆發前夕。這場洩漏已經為 Gemini 3 寫下了傳奇的開端,現在,全世界都在等待 Google 揭開布幕,看看這款被寄予厚望的「終局武器」,其真實表現是否能配得上它石破天驚的傳聞。

你可能也會喜歡
tail
Tail

具備多年 IT 領域經驗,目前在研究所專注於演算法設計、AI 模型評估,以及計算機數學的理論研究,致力於結合理論與應用。

鯊客SharkTech-自經營品牌服務

interiordecoroom 你的室,就是我的室
裝潢好麻煩、設計師難尋、風格說不清楚、預算怕超支?這些裝修痛點,即日起有了解方!全新推出的「DECO ROOM設計師平台」,正式上線開放大眾使用——這是一個為屋主、企業主、裝修需求者量身打造的設計媒合平台,讓你依照風格、坪數、預算與空間類型,快速找到最適合你的專業設計師。
poshme 茶茶茶-ThreeTea
茶農、焙茶、茶藝,同時具備三種身分優勢,茶茶茶讓消費者能夠直接接觸台灣茶,瞭解台灣茶道,並將高級茶帶入日常。茶葉、山坡、以及植木,傳遞的是茶葉本質。Three tea融合成Threa,三茶一體。
mabao 媽寶補給站-Mabao
在資訊爆炸的時代,過多的孕期育兒資訊反而是無用的雜訊,本站希望將親切、白話、實用的媽媽及寶寶的照顧資訊,補給予社會大眾,在獲得充足的知識養份後,進而做最適合的決定。有用的媽媽寶寶資訊,轉變為己身的知識,做出適合的決定,來媽寶補給站就對了。
beshe BeShe一個專為女性著想的網站
一個專為女性著想的字媒體網站,分享女性愛美相關知識。
poshme POSHME美甲、美睫沙龍POS系統
免安裝、免下載的網頁收銀POS系統。可以幫助小工作室也可以擁有專業的客戶管理、記帳報表、業積報表等功能,成為你的開店小幫手。
ezbow EZbow
EZbow由一群金融與科技業專業人才組成, 分享並傳遞專業的知識,打造Fintech人才交流及學習平台, 提供最新以及熱門的金融科技議題、產業趨勢、關鍵技術講座等, 滿足求職志願者研習、社會新鮮人進修、中高階主管鑽研的各種需求。 跟著EZBow一起搭上Fintech的趨勢列車!