Cloudflare 出殺招!預設「封鎖 AI 爬蟲」

瀏覽數: 1 | 更新日期: 2025-08-15 14:16:09
Cloudflare 出殺招!預設「封鎖 AI 爬蟲」

網際網路基礎設施巨頭 Cloudflare 於近日宣布一項重大政策變更,自2025年7月1日起,所有新註冊的網站將預設封鎖 AI 爬蟲(AI crawlers),除非網站擁有者明確授權其存取內容。這項措施被視為對當前 AI 產業無限制抓取網頁內容的強硬回應,旨在保護內容創作者的權益並重塑數位內容經濟的平衡。Cloudflare 同時推出「按次付費」(Pay Per Crawl)系統,讓網站擁有者能向 AI 公司收取每次爬取的費用,開啟了內容貨幣化的新模式。

blocking-ai-crawlers-sharktech

AI 爬蟲爭議:內容掠奪的挑戰

隨著生成式 AI(如 OpenAI 的 GPT 與 Anthropic 的 Claude)的快速發展,AI 爬蟲已成為訓練大型語言模型的主要工具。這些爬蟲會自動抓取網頁上的文字、圖片與其他資料,用於訓練 AI 模型或生成即時回答。然而,與傳統搜尋引擎(如 Google)不同,AI 爬蟲通常不會將流量回饋給原始網站,導致內容創作者無法從中獲得收益或曝光。根據 Cloudflare 的數據,OpenAI 的爬取與流量回饋比約為 1,700:1,Anthropic 更高達 73,000:1,而 Google 僅為 14:1,顯示 AI 爬蟲對內容創作者的影響遠超傳統搜尋引擎。

此外,部分 AI 公司被指控無視網站的 robots.txt 設定,擅自抓取內容,引發版權爭議與法律訴訟。例如,出版商 Ziff Davis 對 OpenAI 提起的訴訟即顯示出業界對此問題的不滿。Cloudflare 的新政策正是在此背景下應運而生,試圖為內容創作者提供更大的控制權與經濟回報。

什麼是 robots.txt?

Robots.txt 是一個位於網站根目錄的簡單文字檔案,用於指示網路爬蟲(例如搜尋引擎或 AI 爬蟲)哪些頁面或檔案可以存取、哪些應避免。它的主要功能是管理網站的爬取行為,幫助網站擁有者控制內容的索引和使用。

Cloudflare 的解決方案:預設封鎖與按次付費

Cloudflare 此次政策的核心在於改變過去「允許爬取除非明確禁止」的模式,轉為「預設封鎖,除非明確允許」。這意味著新註冊的網站將自動禁止 AI 爬蟲存取內容,網站擁有者可自行決定是否開放爬取,以及允許哪些特定爬蟲(如用於訓練、推論或搜尋的爬蟲)。Cloudflare 還引入了爬蟲驗證系統,確保 AI 爬蟲必須公開其身份與用途,增加透明度。

更具突破性的是「按次付費」系統,網站擁有者可為每頁內容設定價格,AI 公司需支付費用才能存取。Cloudflare 利用 HTTP 回應碼 402(過去鮮少使用的「需付款」狀態碼)來實現這一機制,作為內容存取的數位收費站。此系統目前處於私有測試階段,網站與爬蟲業者可聯繫 Cloudflare 參與測試。

Cloudflare 執行長 Matthew Prince 表示:「如果網際網路要在 AI 時代存續,我們必須給予內容創作者應有的控制權,並建立一個對所有人公平的新經濟模式。AI 爬蟲無限制地掠取內容,我們的目標是將權力交還給創作者,同時支持 AI 公司的創新。」

業界反響:支持與挑戰並存

此舉獲得眾多出版商與內容平台的積極支持,包括《時代雜誌》(Time)、《大西洋月刊》(The Atlantic)、Condé Nast、BuzzFeed 與 Stack Overflow 等超過50家企業。Condé Nast 執行長 Roger Lynch 稱:「這是保護創作者、支持優質新聞業並讓 AI 公司負起責任的關鍵一步。」Reddit 執行長 Steve Huffman 也讚揚這一模式為「更透明且對所有人有益的進展」。

然而,該政策也引發了一些質疑。部分專家擔心,過於嚴格的封鎖可能影響非商業用途的資料蒐集,例如學術研究或網頁存檔。MIT 媒體實驗室的博士候選人 Shayne Longpre 表示:「並非所有 AI 系統都與網站出版商競爭,也並非所有 AI 系統都是商業用途。個人使用與開放研究不應因此受限。」此外,若 AI 公司選擇繞過付費系統,轉而抓取未受保護的網站,可能導致數位生態系的兩極化,高流量網站受益,而小型網站被邊緣化。

技術挑戰:規避與執行問題

Cloudflare 的技術優勢在於其處理全球約20%網路流量的能力,以及對抗惡意機器人(如 DDoS 攻擊)的豐富經驗。該公司表示,將利用這些技術來識別與封鎖未經授權的 AI 爬蟲,甚至對試圖偽裝成一般瀏覽器的「隱形爬蟲」(stealth crawlers)採取行動。例如,Cloudflare 近期指控 AI 搜尋新創公司 Perplexity 使用隱形爬蟲繞過網站限制,隨後將其從驗證爬蟲名單中移除,並更新了機器人管理規則以應對類似行為。

然而,執行層面仍存在挑戰。部分 AI 公司可能透過代理伺服器或 IP 輪替來規避封鎖,類似於盜版內容的「數據洗白」(data laundering)。此外,目前的付費模式對所有內容一視同仁,無法反映內容的實際價值,例如一篇深度調查報導與簡單的登陸頁價格相同,未來可能需要更精細的定價機制。

對 AI 產業的影響

Cloudflare 的新政策可能對 AI 模型的訓練產生深遠影響。許多 AI 公司仰賴公開網路資料來訓練模型,若大量網站選擇封鎖或收取費用,AI 模型的資料來源可能受限,進而影響其效能與準確性。分析師指出,這可能迫使 AI 公司與內容創作者建立更透明的合作關係,或轉向授權資料與合成資料的訓練方式。

同時,該政策也可能催生新的商業模式。Cloudflare 的「按次付費」系統為內容貨幣化開闢了新路徑,可能吸引更多網站加入其服務生態系。然而,若免費資料仍廣泛存在,AI 公司可能傾向於繞過付費網站,導致市場競爭加劇。

網際網路的新篇章

Cloudflare 的這項舉措標誌著網際網路進入了一個新的階段,從「免費存取、任意使用」的模式,轉向以許可與付費為基礎的生態系。這不僅賦予內容創作者更大的自主權,也挑戰了 AI 公司對資料使用的傳統思維。雖然挑戰與爭議仍在,但 Cloudflare 的政策無疑為數位內容的未來開啟了新的討論,促使業界重新思考資料的所有權、價值與倫理。

blocking-ai-crawlers-sharktech

你可能也會喜歡
tail
Tail

具備多年 IT 領域經驗,目前在研究所專注於演算法設計、AI 模型評估,以及計算機數學的理論研究,致力於結合理論與應用。

鯊客SharkTech-自經營品牌服務

interiordecoroom 你的室,就是我的室
裝潢好麻煩、設計師難尋、風格說不清楚、預算怕超支?這些裝修痛點,即日起有了解方!全新推出的「DECO ROOM設計師平台」,正式上線開放大眾使用——這是一個為屋主、企業主、裝修需求者量身打造的設計媒合平台,讓你依照風格、坪數、預算與空間類型,快速找到最適合你的專業設計師。
poshme 茶茶茶-ThreeTea
茶農、焙茶、茶藝,同時具備三種身分優勢,茶茶茶讓消費者能夠直接接觸台灣茶,瞭解台灣茶道,並將高級茶帶入日常。茶葉、山坡、以及植木,傳遞的是茶葉本質。Three tea融合成Threa,三茶一體。
mabao 媽寶補給站-Mabao
在資訊爆炸的時代,過多的孕期育兒資訊反而是無用的雜訊,本站希望將親切、白話、實用的媽媽及寶寶的照顧資訊,補給予社會大眾,在獲得充足的知識養份後,進而做最適合的決定。有用的媽媽寶寶資訊,轉變為己身的知識,做出適合的決定,來媽寶補給站就對了。
beshe BeShe一個專為女性著想的網站
一個專為女性著想的字媒體網站,分享女性愛美相關知識。
poshme POSHME美甲、美睫沙龍POS系統
免安裝、免下載的網頁收銀POS系統。可以幫助小工作室也可以擁有專業的客戶管理、記帳報表、業積報表等功能,成為你的開店小幫手。
ezbow EZbow
EZbow由一群金融與科技業專業人才組成, 分享並傳遞專業的知識,打造Fintech人才交流及學習平台, 提供最新以及熱門的金融科技議題、產業趨勢、關鍵技術講座等, 滿足求職志願者研習、社會新鮮人進修、中高階主管鑽研的各種需求。 跟著EZBow一起搭上Fintech的趨勢列車!