OpenAI 發布 GPT-5!發佈會反應不如預期?深度剖析這場技術飛躍與背後的爭議

2025 年 8 月 7 日,OpenAI 正式發布了其新一代旗艦大型語言模型 GPT-5,這是技術上的一次重大更新,標誌著人工智慧領域邁入了一個全新里程碑。距離 GPT-4o 發布已經快一年了,OpenAI 執行長 Sam Altman 在發布會上將其譽為「世界上最好的模型」,並形容與之對話「就像在與某個領域的博士級專家交流」,將其定位為通往通用人工智慧(AGI)道路上的關鍵里程碑。
GPT-5 技術飛躍還是倒退?市場反應揭開真相
但事實真的是這樣嗎?發布後的市場反響並非一面倒讚賞。許多用戶抱怨 GPT-5 的表現過於「機械化」、「冷漠」,缺乏 GPT-4o 那種溫暖、靈動的對話感,以及在許多問題上犯了低級錯誤。 不管是國內外論壇,都同時出現了關於 GPT 5 變得「沒辦法提供情緒價值」的文章討論充斥在 Thread、Reddit 上,部分用戶指出 GPT-5 的輸出太沒有活力、缺乏創造力,甚至感覺像「過勞的秘書」。
輿論壓力強烈,以致 OpenAI 在發布不到 24 小時內恢復了 GPT-4o 作為 ChatGPT Plus 用戶可選模型的選項,以兼顧技術升級與使用者寄情的對話風格。 執行長 Sam Altman 則表示,這次上線過程出現模型的「路由器(Autoswitcher)故障」導致 GPT-5 在初期表現不佳,甚至在簡單的代數運算的數學題目上都會犯錯。相信大家有注意到一開始 GPT-5 剛推出的時候是沒有其他模型可以選擇的,因為官方表示模型會「自己」去思考要用什麼模型回答使用者的問題,因此沒有必要使用表現比較差的 GPT-4o 模型,然而他們低估了使用者對 GPT-4o 柔性互動的重視。
除了官方說路由故障之外,回答更理性其實是 OpenAI 團隊刻意為之。在 GPT-5 訓練過程,研發團隊就有意將其訓練成更不會被使用者「牽著鼻子走」的 AI 模型。OpenAI 在平衡模型安全、客觀性與使用者體驗之間的掙扎與權衡,這群人所做出的選擇將會大大改變「AI」這項產品的
也許沒有那麼糟糕,GPT-5 推出亮點一次看!
OpenAI 曾經在過去推出 ChatGPT 這樣的跨時代發明,直接打開了使用者的胃口,因此在這次看起來沒什麼特別的發佈會才會顯得平平無奇。但是每一次的 AI 模型迭代,都是在巨大的算力與演算法創新下累積而成,而 GPT-5 的確在多個面向實現了突破:
醫學辨識準確率再進化
GPT-5 在醫學影像與臨床文本的分析上有顯著提升,尤其是在辨別罕見疾病與早期症狀的能力上,準確率相較 GPT-4o 提高了將近 12%。在內部測試中,GPT-5 在閱讀 MRI、CT 影像以及病理切片報告時,展現了接近專科醫師的診斷水準,並能結合病患過往病歷提供更精準的診斷建議。這對醫療從業人員與偏遠地區的基層診所來說,都是一次重要的輔助突破。
Reasoning 功能全面開放
過去只有在高階訂閱方案中的「Reasoning 模式」,現在 GPT-5 免費用互也可以免費使用了!這項功能能讓模型在處理多步驟推理、長篇邏輯分析與跨領域資料整合時更穩定、更精準。無論是數學證明、法律條文比對,還是跨語言翻譯與文化解讀,Reasoning 模式都能給出結構化、可追溯的思路,讓結果不再只是「答案」,而是完整的推理過程。不過這項舉動也讓許多訂閱者表示不滿,紛紛退出訂閱,付出訂閱費只有得到更多的額度詢問,是否值得也就只能先交給各位使用者進行評估了。
更親民的訂閱價格
OpenAI 在 GPT-5 推出時同步調整了訂閱方案,Plus 用戶的月費下調約 15%,並新增了「彈性付費」選項,讓偶爾需要高效能 AI 輔助的用戶也能以更低成本享受到旗艦級模型的能力。對於企業客戶,新的 API 計價模式更是降低了長期運行 AI 應用的成本門檻,吸引更多中小企業嘗試將 GPT-5 整合到內部系統與產品服務中。
錯誤與幻覺率大幅降低
OpenAI 聲稱 GPT-5 的幻覺率(Hallucinations)相比 GPT-o3、GPT-4o 減少了許多,在「思考模式」下,錯誤率更是降低了 80%。這意味著模型的回應將更值得信賴,減少使用者需要手動查證的次數。GPT-5 不再會過度解釋數據,甚至會將「找不到」、「不知道」這些問題當作答案,對於減少誤導這方面確實有卓越的幫助。
強化的程式編寫能力
GPT-5 的程式碼生成能力有顯著提升,尤其是在前端網頁設計方面,能從簡單的文字指令生成美觀且具備響應式設計的網站、應用程式或遊戲,大幅加速開發流程。測試顯示,GPT-5 生成的前端代碼結構更合理、可維護性更高。這項能力已整合進 AI 編輯器 Cursor(詳細文章可參考重新定義編輯體驗:全面解析 AI 編輯器 Cursor),進一步提高了開發效率。
在價格方面,GPT-5 相比 Anthropic 的最新 Claude 4 Opus更具競爭力。Claude 的高階版本雖然在部分對話生成與文風一致性上表現出色,但訂閱價格顯著高於 GPT-5,對大多數普通用戶與中小企業來說,性價比不如後者。在 SWE-bench(軟體工程基準測試)成績上,GPT-5 雖然沒有壓倒性領先,但在綜合穩定性與推理能力的表現上仍保持在第一梯隊,且在實際應用中更容易與現有開發工具鏈結合。
OpenAI 開發遇到瓶頸了嗎?
這次的 GPT-5 發布,就以科技推進的角度來說是平平無奇,在許多領域甚至沒有超出其他主流模型太多(例如,HLE 測試沒有贏過 xAI 的 Grok4xAI 震撼發布 Grok 4:全球最強 AI 模型,挑戰學術與實用極限)。但其實從 API 價格來推估,大概可以知道 GPT-5 比 openAI 以往的模型規模還要小。
觀察 GPT-5 的設計與發布策略,可以看出 OpenAI 正在進行一次由「規模競賽」向「效率競賽」的轉向。與過去幾代模型動輒成倍增加參數數量不同,GPT-5 並沒有在硬體算力或訓練資料規模上追求極限,而是更注重推理能力、記憶上下文的穩定性,以及在不同領域間的適應性。
GPT-5 並未一味追求更大的模型規模,而是基於多重考量作出平衡。超大規模模型需要龐大算力與能源,對已商業化的 OpenAI 意味著更高成本與回本壓力,因此選擇優化架構與效率,在控制成本下穩定提升性能。隨著 AI 深入企業與開發者場景,穩定性與可控性比單純跑分更重要,GPT-5 針對推理能力、延遲與錯誤率進行優化。面對嚴格監管,OpenAI 加入更多安全限制與拒答策略,使互動風格比 GPT-4o 更冷靜克制。在競爭上,當 Claude、Grok、Gemini 推出破紀錄模型時,OpenAI 以更低 API 價格與更強整合能力鎖定市場,形成差異化優勢。