OpenAI 發布 GPT-5!發佈會反應不如預期?深度剖析這場技術飛躍與背後的爭議

瀏覽數: 12 | 更新日期: 2025-08-13 14:32:35
AI
OpenAI 發布 GPT-5!發佈會反應不如預期?深度剖析這場技術飛躍與背後的爭議

2025 年 8 月 7 日,OpenAI 正式發布了其新一代旗艦大型語言模型 GPT-5,這是技術上的一次重大更新,標誌著人工智慧領域邁入了一個全新里程碑。距離 GPT-4o 發布已經快一年了,OpenAI 執行長 Sam Altman 在發布會上將其譽為「世界上最好的模型」,並形容與之對話「就像在與某個領域的博士級專家交流」,將其定位為通往通用人工智慧(AGI)道路上的關鍵里程碑。

GPT-5 技術飛躍還是倒退?市場反應揭開真相

但事實真的是這樣嗎?發布後的市場反響並非一面倒讚賞。許多用戶抱怨 GPT-5 的表現過於「機械化」、「冷漠」,缺乏 GPT-4o 那種溫暖、靈動的對話感,以及在許多問題上犯了低級錯誤。 不管是國內外論壇,都同時出現了關於 GPT 5 變得「沒辦法提供情緒價值」的文章討論充斥在 Thread、Reddit 上,部分用戶指出 GPT-5 的輸出太沒有活力、缺乏創造力,甚至感覺像「過勞的秘書」。

輿論壓力強烈,以致 OpenAI 在發布不到 24 小時內恢復了 GPT-4o 作為 ChatGPT Plus 用戶可選模型的選項,以兼顧技術升級與使用者寄情的對話風格。 執行長 Sam Altman 則表示,這次上線過程出現模型的「路由器(Autoswitcher)故障」導致 GPT-5 在初期表現不佳,甚至在簡單的代數運算的數學題目上都會犯錯。相信大家有注意到一開始 GPT-5 剛推出的時候是沒有其他模型可以選擇的,因為官方表示模型會「自己」去思考要用什麼模型回答使用者的問題,因此沒有必要使用表現比較差的 GPT-4o 模型,然而他們低估了使用者對 GPT-4o 柔性互動的重視。

除了官方說路由故障之外,回答更理性其實是 OpenAI 團隊刻意為之。在 GPT-5 訓練過程,研發團隊就有意將其訓練成更不會被使用者「牽著鼻子走」的 AI 模型。OpenAI 在平衡模型安全、客觀性與使用者體驗之間的掙扎與權衡,這群人所做出的選擇將會大大改變「AI」這項產品的

也許沒有那麼糟糕,GPT-5 推出亮點一次看!

OpenAI 曾經在過去推出 ChatGPT 這樣的跨時代發明,直接打開了使用者的胃口,因此在這次看起來沒什麼特別的發佈會才會顯得平平無奇。但是每一次的 AI 模型迭代,都是在巨大的算力與演算法創新下累積而成,而 GPT-5 的確在多個面向實現了突破:

醫學辨識準確率再進化

GPT-5 在醫學影像與臨床文本的分析上有顯著提升,尤其是在辨別罕見疾病與早期症狀的能力上,準確率相較 GPT-4o 提高了將近 12%。在內部測試中,GPT-5 在閱讀 MRI、CT 影像以及病理切片報告時,展現了接近專科醫師的診斷水準,並能結合病患過往病歷提供更精準的診斷建議。這對醫療從業人員與偏遠地區的基層診所來說,都是一次重要的輔助突破。

Reasoning 功能全面開放

過去只有在高階訂閱方案中的「Reasoning 模式」,現在 GPT-5 免費用互也可以免費使用了!這項功能能讓模型在處理多步驟推理、長篇邏輯分析與跨領域資料整合時更穩定、更精準。無論是數學證明、法律條文比對,還是跨語言翻譯與文化解讀,Reasoning 模式都能給出結構化、可追溯的思路,讓結果不再只是「答案」,而是完整的推理過程。不過這項舉動也讓許多訂閱者表示不滿,紛紛退出訂閱,付出訂閱費只有得到更多的額度詢問,是否值得也就只能先交給各位使用者進行評估了。

更親民的訂閱價格

OpenAI 在 GPT-5 推出時同步調整了訂閱方案,Plus 用戶的月費下調約 15%,並新增了「彈性付費」選項,讓偶爾需要高效能 AI 輔助的用戶也能以更低成本享受到旗艦級模型的能力。對於企業客戶,新的 API 計價模式更是降低了長期運行 AI 應用的成本門檻,吸引更多中小企業嘗試將 GPT-5 整合到內部系統與產品服務中。

gpt5-sharkec

錯誤與幻覺率大幅降低

OpenAI 聲稱 GPT-5 的幻覺率(Hallucinations)相比 GPT-o3、GPT-4o 減少了許多,在「思考模式」下,錯誤率更是降低了 80%。這意味著模型的回應將更值得信賴,減少使用者需要手動查證的次數。GPT-5 不再會過度解釋數據,甚至會將「找不到」、「不知道」這些問題當作答案,對於減少誤導這方面確實有卓越的幫助。

gpt5-sharkec

 

強化的程式編寫能力

GPT-5 的程式碼生成能力有顯著提升,尤其是在前端網頁設計方面,能從簡單的文字指令生成美觀且具備響應式設計的網站、應用程式或遊戲,大幅加速開發流程。測試顯示,GPT-5 生成的前端代碼結構更合理、可維護性更高。這項能力已整合進 AI 編輯器 Cursor(詳細文章可參考重新定義編輯體驗:全面解析 AI 編輯器 Cursor),進一步提高了開發效率。

gpt5-sharkec

在價格方面,GPT-5 相比 Anthropic 的最新 Claude 4 Opus更具競爭力。Claude 的高階版本雖然在部分對話生成與文風一致性上表現出色,但訂閱價格顯著高於 GPT-5,對大多數普通用戶與中小企業來說,性價比不如後者。在 SWE-bench(軟體工程基準測試)成績上,GPT-5 雖然沒有壓倒性領先,但在綜合穩定性與推理能力的表現上仍保持在第一梯隊,且在實際應用中更容易與現有開發工具鏈結合。

OpenAI 開發遇到瓶頸了嗎?

這次的 GPT-5 發布,就以科技推進的角度來說是平平無奇,在許多領域甚至沒有超出其他主流模型太多(例如,HLE 測試沒有贏過 xAI 的 Grok4xAI 震撼發布 Grok 4:全球最強 AI 模型,挑戰學術與實用極限)。但其實從 API 價格來推估,大概可以知道 GPT-5 比 openAI 以往的模型規模還要小。

觀察 GPT-5 的設計與發布策略,可以看出 OpenAI 正在進行一次由「規模競賽」向「效率競賽」的轉向。與過去幾代模型動輒成倍增加參數數量不同,GPT-5 並沒有在硬體算力或訓練資料規模上追求極限,而是更注重推理能力、記憶上下文的穩定性,以及在不同領域間的適應性。

GPT-5 並未一味追求更大的模型規模,而是基於多重考量作出平衡。超大規模模型需要龐大算力與能源,對已商業化的 OpenAI 意味著更高成本與回本壓力,因此選擇優化架構與效率,在控制成本下穩定提升性能。隨著 AI 深入企業與開發者場景,穩定性與可控性比單純跑分更重要,GPT-5 針對推理能力、延遲與錯誤率進行優化。面對嚴格監管,OpenAI 加入更多安全限制與拒答策略,使互動風格比 GPT-4o 更冷靜克制。在競爭上,當 Claude、Grok、Gemini 推出破紀錄模型時,OpenAI 以更低 API 價格與更強整合能力鎖定市場,形成差異化優勢。

你可能也會喜歡
tail
Tail

具備多年 IT 領域經驗,目前在研究所專注於演算法設計、AI 模型評估,以及計算機數學的理論研究,致力於結合理論與應用。

鯊客SharkTech-自經營品牌服務

interiordecoroom 你的室,就是我的室
裝潢好麻煩、設計師難尋、風格說不清楚、預算怕超支?這些裝修痛點,即日起有了解方!全新推出的「DECO ROOM設計師平台」,正式上線開放大眾使用——這是一個為屋主、企業主、裝修需求者量身打造的設計媒合平台,讓你依照風格、坪數、預算與空間類型,快速找到最適合你的專業設計師。
poshme 茶茶茶-ThreeTea
茶農、焙茶、茶藝,同時具備三種身分優勢,茶茶茶讓消費者能夠直接接觸台灣茶,瞭解台灣茶道,並將高級茶帶入日常。茶葉、山坡、以及植木,傳遞的是茶葉本質。Three tea融合成Threa,三茶一體。
mabao 媽寶補給站-Mabao
在資訊爆炸的時代,過多的孕期育兒資訊反而是無用的雜訊,本站希望將親切、白話、實用的媽媽及寶寶的照顧資訊,補給予社會大眾,在獲得充足的知識養份後,進而做最適合的決定。有用的媽媽寶寶資訊,轉變為己身的知識,做出適合的決定,來媽寶補給站就對了。
beshe BeShe一個專為女性著想的網站
一個專為女性著想的字媒體網站,分享女性愛美相關知識。
poshme POSHME美甲、美睫沙龍POS系統
免安裝、免下載的網頁收銀POS系統。可以幫助小工作室也可以擁有專業的客戶管理、記帳報表、業積報表等功能,成為你的開店小幫手。
ezbow EZbow
EZbow由一群金融與科技業專業人才組成, 分享並傳遞專業的知識,打造Fintech人才交流及學習平台, 提供最新以及熱門的金融科技議題、產業趨勢、關鍵技術講座等, 滿足求職志願者研習、社會新鮮人進修、中高階主管鑽研的各種需求。 跟著EZBow一起搭上Fintech的趨勢列車!