AI-Course-Questionnaire

Gemini 新系統加速科學發現,專家級性能橫掃六大挑戰

瀏覽數: 9 | 更新日期: 2025-09-25 15:04:20
Gemini 新系統加速科學發現,專家級性能橫掃六大挑戰

Gemini 新系統加速科學發現,專家級性能橫掃多領域學術研究挑戰

在科學研究領域,驗證假設往往需要大量計算實驗,但編寫自訂軟體的瓶頸總是拖慢進度。Google 研究團隊近日發布一項突破性成果:一款基於 Gemini AI 模型的系統,能自動生成「寫實軟體」(empirical software),在基因組學、公衛、地理空間分析、神經科學等六個多學科基準測試中,達到甚至超越專家水準。將探索時間從數月縮短至數小時,開啟了 AI 輔助科學發現的新時代。

Gemini 新系統加速科學發現,專家級性能橫掃六大挑戰-sharktech

科學研究中的軟體瓶頸與 AI 的介入

科學研究本質上是迭代性的過程,科學家常常需要測試數十甚至數百種模型或參數,以求突破。然而,即便是資深程式設計師,在編寫、除錯和優化客製化軟體時,也會面臨巨大挑戰。這不僅緩慢低效,還限制了對潛在解決方案的系統性探索。傳統軟體開發通常只注重功能正確性,但科學領域更需要「經驗軟體」——一種以最大化預定義品質分數為目標的軟體。能夠透過這種軟體有效解決的問題,被稱為「可評分任務」(scorable tasks),這些任務廣泛存在於科學、應用數學和工程學中。

Google Research 的研究人員,包括產品經理 Lizzie Dorfman 和研究科學家 Michael Brenner,在 2025 年 9 月 9 日發布的論文中,展示了這款 AI 系統如何解決上述痛點。該系統利用大型語言模型(LLM)的強大能力,從傳統編碼任務擴展到生成高品質的科學軟體。它不僅能提出新穎的方法論和架構概念,還能將其轉化為可執行的程式碼,並透過經驗驗證來優化效能。透過樹狀搜尋(tree search)策略,系統能探索數千種程式碼變體,快速識別最佳解決方案。

系統運作原理:從輸入到優化

這款 AI 系統的輸入是一個明確的「可評分任務」,包括問題描述、評分指標,以及適合訓練、驗證和評估的資料。使用者還可提供額外脈絡,例如外部文獻的想法或優先方法論。系統隨後會生成研究構想,包括重現、優化和重組已知方法,從而產生新穎且高效的方案。

其核心演算法如下:首先,將任務和研究想法餵入 LLM,生成可在沙盒環境中執行的評估程式碼。接著,系統使用類似 AlphaZero 的上置信界(upper confidence bound)樹狀搜尋策略,建立軟體候選樹,並決定哪些分支值得深入探索。LLM 則負責重寫程式碼,以提升品質分數。整個過程無需人工干預,能以空前規模進行解決方案搜尋,將探索時間從數月壓縮至數小時或數天。更重要的是,其輸出是可驗證、可解釋且可重現的程式碼解決方案。

Gemini 新系統加速科學發現,專家級性能橫掃六大挑戰-sharktech

引入 LLM 研究的方法不只適用於單一任務,還能推廣到多個領域。論文中提到,系統在六個基準測試中展現了卓越表現,涵蓋基因組學、公眾衛生、地理空間分析、神經科學、時間序列預測和數值分析等領域。這些測試不僅評估語法正確性,更強調在科學發現邊緣的創新解決方案。

跨領域應用:專家級表現的實證

為了驗證系統的有效性,Google Research 選擇了六個多樣化且具挑戰性的基準,每個都代表不同科學挑戰。以下是幾個亮點案例:

基因組學:單細胞 RNA 測序資料的批次整合

單細胞 RNA 測序(scRNA-seq)技術能提供基因表達的高解析度視圖,但跨資料集的批次效應移除是重大難題。目前已有近 300 種工具可用,OpenProblems V2.0.0 基準結合 13 項指標計算整體分數。AI 系統發現了 40 種新穎方法,超越頂尖專家開發的工具。其最佳解決方案將兩個現有方法(ComBat 和 BBKNN)結合,較最佳已發表方法(ComBat)提升 14% 的整體分數。這展示了系統在零樣本泛化(zero-shot generalization)和高維訊號處理方面的實力。

公眾衛生:美國 COVID-19 住院預測

COVID-19 預測是公眾衛生的關鍵挑戰,美國疾控中心(CDC)協調的 COVID-19 Forecast Hub(CovidHub)是首要基準,評估標準為平均加權區間分數(WIS)。該樞紐匯集數十個專家團隊的預測,其集體模型被視為黃金標準。AI 系統生成了 14 種模型,全部優於官方集體模型。這在時間序列預測和不確定性量化方面,證明了系統的泛化能力。

地理空間分析:遙感影像分割

遙感影像的語義分割是土地利用監測和災害管理的基礎,使用 Dense Labeling Remote Sensing Dataset(DLRSD)基準,評估指標為平均交集比聯合(mIoU)。系統的前三名解決方案略優於當前最先進水平,mIoU 超過 0.80。它們基於 UNet++、U-Net 和 SegFormer 等模型,結合 ImageNet 預訓練編碼器和廣泛的測試時增強(TTA)。這突顯了系統在空間脈絡理解和邊界識別的精準度。

神經科學:全腦神經活動預測

在 Zebrafish Activity Prediction Benchmark(ZAPBench)中,系統預測超過 70,000 個神經元的活動,開發出一種新型時間序列預測模型,超越所有現有基準,包括計算密集的 3D 體積預測模型。此外,它還設計了整合生物物理神經模擬器(Jaxley)的混合模型,提升模型的可解釋性。

系統的泛化能力還延伸到數學領域:在數值積分評估任務中,它正確處理了 19 個保留積分中的 17 個,而標準數值方法失敗了。在通用時間序列預測的 GIFT-Eval 基準(涵蓋 28 個資料集、7 個領域和 10 種頻率),系統從零開始建立了一個統一預測庫,透過爬山法優化平均平均絕對縮放誤差(MASE)。

開啟科學研究新時代

Gemini AI 系統標誌著 LLM 在科學研究中的新里程碑。它不僅自動化了繁瑣的軟體開發,還讓科學家能系統性地調查數百或數千種潛在解決方案,從而將精力集中在創意和關鍵挑戰上。論文作者強調,這有助於從學生到教授的科學家,加速解決根本研究問題和社會挑戰。

雖然目前僅限於可評分任務,但未來擴展潛力巨大。Google Research 感謝所有論文合著者的貢獻,以及 Shibl Mourad、John Platt 等領導者的支持。這項技術或許將重塑科學發現的節奏,讓 AI 成為人類智慧的強大夥伴。

👉 歡迎各位讀者填寫 SharkTech AI & Google AI OverView課程問卷

你可能也會喜歡
tail
Tail

具備多年 IT 領域經驗,目前在研究所專注於演算法設計、AI 模型評估,以及計算機數學的理論研究,致力於結合理論與應用。

鯊客SharkTech-自經營品牌服務

interiordecoroom 你的室,就是我的室
裝潢好麻煩、設計師難尋、風格說不清楚、預算怕超支?這些裝修痛點,即日起有了解方!全新推出的「DECO ROOM設計師平台」,正式上線開放大眾使用——這是一個為屋主、企業主、裝修需求者量身打造的設計媒合平台,讓你依照風格、坪數、預算與空間類型,快速找到最適合你的專業設計師。
poshme 茶茶茶-ThreeTea
茶農、焙茶、茶藝,同時具備三種身分優勢,茶茶茶讓消費者能夠直接接觸台灣茶,瞭解台灣茶道,並將高級茶帶入日常。茶葉、山坡、以及植木,傳遞的是茶葉本質。Three tea融合成Threa,三茶一體。
mabao 媽寶補給站-Mabao
在資訊爆炸的時代,過多的孕期育兒資訊反而是無用的雜訊,本站希望將親切、白話、實用的媽媽及寶寶的照顧資訊,補給予社會大眾,在獲得充足的知識養份後,進而做最適合的決定。有用的媽媽寶寶資訊,轉變為己身的知識,做出適合的決定,來媽寶補給站就對了。
beshe BeShe一個專為女性著想的網站
一個專為女性著想的字媒體網站,分享女性愛美相關知識。
poshme POSHME美甲、美睫沙龍POS系統
免安裝、免下載的網頁收銀POS系統。可以幫助小工作室也可以擁有專業的客戶管理、記帳報表、業積報表等功能,成為你的開店小幫手。
ezbow EZbow
EZbow由一群金融與科技業專業人才組成, 分享並傳遞專業的知識,打造Fintech人才交流及學習平台, 提供最新以及熱門的金融科技議題、產業趨勢、關鍵技術講座等, 滿足求職志願者研習、社會新鮮人進修、中高階主管鑽研的各種需求。 跟著EZBow一起搭上Fintech的趨勢列車!