OpenAI 發布 GPT-5！發佈會反應不如預期？深度剖析這場技術飛躍與背後的爭議

瀏覽數: 302 | 更新日期: 2025-08-14 15:48:30

2025 年 8 月 7 日，OpenAI 正式發布了其新一代旗艦大型語言模型 GPT-5，這是技術上的一次重大更新，標誌著人工智慧領域邁入了一個全新里程碑。距離 GPT-4o 發布已經快一年了，OpenAI 執行長 Sam Altman 在發布會上將其譽為「世界上最好的模型」，並形容與之對話「就像在與某個領域的博士級專家交流」，將其定位為通往通用人工智慧（AGI）道路上的關鍵里程碑。

GPT-5 技術飛躍還是倒退？市場反應揭開真相

但事實真的是這樣嗎？發布後的市場反響並非一面倒讚賞。許多用戶抱怨 GPT-5 的表現過於「機械化」、「冷漠」，缺乏 GPT-4o 那種溫暖、靈動的對話感，以及在許多問題上犯了低級錯誤。不管是國內外論壇，都同時出現了關於 GPT 5 變得「沒辦法提供情緒價值」的文章討論充斥在 Thread、Reddit 上，部分用戶指出 GPT-5 的輸出太沒有活力、缺乏創造力，甚至感覺像「過勞的秘書」。

輿論壓力強烈，以致 OpenAI 在發布不到 24 小時內恢復了 GPT-4o 作為 ChatGPT Plus 用戶可選模型的選項，以兼顧技術升級與使用者寄情的對話風格。執行長 Sam Altman 則表示，這次上線過程出現模型的「路由器（Autoswitcher）故障」導致 GPT-5 在初期表現不佳，甚至在簡單的代數運算的數學題目上都會犯錯。相信大家有注意到一開始 GPT-5 剛推出的時候是沒有其他模型可以選擇的，因為官方表示模型會「自己」去思考要用什麼模型回答使用者的問題，因此沒有必要使用表現比較差的 GPT-4o 模型，然而他們低估了使用者對 GPT-4o 柔性互動的重視。

除了官方說路由故障之外，回答更理性其實是 OpenAI 團隊刻意為之。在 GPT-5 訓練過程中，研發團隊就有意將其訓練成更不會被使用者「牽著鼻子走」的 AI 模型。OpenAI 在平衡模型安全、客觀性與使用者體驗之間的掙扎與權衡，這群人所做出的選擇，將會大大改變「AI」這項產品的互動模式與市場定位，甚至影響未來人們對人工智慧可信度、可靠性以及角色定位的集體認知。

也許沒有那麼糟糕，GPT-5 推出亮點一次看！

OpenAI 曾經在過去推出 ChatGPT 這樣的跨時代發明，直接打開了使用者的胃口，因此在這次看起來沒什麼特別的發佈會才會顯得平平無奇。但是每一次的 AI 模型迭代，都是在巨大的算力與演算法創新下累積而成，而 GPT-5 的確在多個面向實現了突破：

醫學辨識準確率再進化

GPT-5 在醫學影像與臨床文本的分析上有顯著提升，尤其是在辨別罕見疾病與早期症狀的能力上，準確率相較 GPT-4o 提高了將近 12%。在內部測試中，GPT-5 在閱讀 MRI、CT 影像以及病理切片報告時，展現了接近專科醫師的診斷水準，並能結合病患過往病歷提供更精準的診斷建議。這對醫療從業人員與偏遠地區的基層診所來說，都是一次重要的輔助突破。

Reasoning 功能全面開放

過去只有在高階訂閱方案中的「Reasoning 模式」，現在 GPT-5 免費用互也可以免費使用了！這項功能能讓模型在處理多步驟推理、長篇邏輯分析與跨領域資料整合時更穩定、更精準。無論是數學證明、法律條文比對，還是跨語言翻譯與文化解讀，Reasoning 模式都能給出結構化、可追溯的思路，讓結果不再只是「答案」，而是完整的推理過程。不過這項舉動也讓許多訂閱者表示不滿，紛紛退出訂閱，付出訂閱費只有得到更多的額度詢問，是否值得也就只能先交給各位使用者進行評估了。

更親民的訂閱價格

OpenAI 在 GPT-5 推出時同步調整了訂閱方案，Plus 用戶的月費下調約 15%，並新增了「彈性付費」選項，讓偶爾需要高效能 AI 輔助的用戶也能以更低成本享受到旗艦級模型的能力。對於企業客戶，新的 API 計價模式更是降低了長期運行 AI 應用的成本門檻，吸引更多中小企業嘗試將 GPT-5 整合到內部系統與產品服務中。

gpt5-sharkec

錯誤與幻覺率大幅降低

OpenAI 聲稱 GPT-5 的幻覺率（Hallucinations）相比 GPT-o3、GPT-4o 減少了許多，在「思考模式」下，錯誤率更是降低了 80%。這意味著模型的回應將更值得信賴，減少使用者需要手動查證的次數。GPT-5 不再會過度解釋數據，甚至會將「找不到」、「不知道」這些問題當作答案，對於減少誤導這方面確實有卓越的幫助。

gpt5-sharkec

強化的程式編寫能力

GPT-5 的程式碼生成能力有顯著提升，尤其是在前端網頁設計方面，能從簡單的文字指令生成美觀且具備響應式設計的網站、應用程式或遊戲，大幅加速開發流程。測試顯示，GPT-5 生成的前端代碼結構更合理、可維護性更高。這項能力已整合進 AI 編輯器 Cursor（詳細文章可參考重新定義編輯體驗：全面解析 AI 編輯器 Cursor），進一步提高了開發效率。

gpt5-sharkec

在價格方面，GPT-5 相比 Anthropic 的最新 Claude 4 Opus更具競爭力。Claude 的高階版本雖然在部分對話生成與文風一致性上表現出色，但訂閱價格顯著高於 GPT-5，對大多數普通用戶與中小企業來說，性價比不如後者。在 SWE-bench（軟體工程基準測試）成績上，GPT-5 雖然沒有壓倒性領先，但在綜合穩定性與推理能力的表現上仍保持在第一梯隊，且在實際應用中更容易與現有開發工具鏈結合。

OpenAI 開發遇到瓶頸了嗎？

這次的 GPT-5 發布，就以科技推進的角度來說是平平無奇，在許多領域甚至沒有超出其他主流模型太多（例如，HLE 測試沒有贏過 xAI 的 Grok4xAI 震撼發布 Grok 4：全球最強 AI 模型，挑戰學術與實用極限)。但其實從 API 價格來推估，大概可以知道 GPT-5 比 openAI 以往的模型規模還要小。

觀察 GPT-5 的設計與發布策略，可以看出 OpenAI 正在進行一次由「規模競賽」向「效率競賽」的轉向。與過去幾代模型動輒成倍增加參數數量不同，GPT-5 並沒有在硬體算力或訓練資料規模上追求極限，而是更注重推理能力、記憶上下文的穩定性，以及在不同領域間的適應性。

GPT-5 並未一味追求更大的模型規模，而是基於多重考量作出平衡。超大規模模型需要龐大算力與能源，對已商業化的 OpenAI 意味著更高成本與回本壓力，因此選擇優化架構與效率，在控制成本下穩定提升性能。隨著 AI 深入企業與開發者場景，穩定性與可控性比單純跑分更重要，GPT-5 針對推理能力、延遲與錯誤率進行優化。面對嚴格監管，OpenAI 加入更多安全限制與拒答策略，使互動風格比 GPT-4o 更冷靜克制。在競爭上，當 Claude、Grok、Gemini 推出破紀錄模型時，OpenAI 以更低 API 價格與更強整合能力鎖定市場，形成差異化優勢。