Cloudflare 出殺招!預設「封鎖 AI 爬蟲」

網際網路基礎設施巨頭 Cloudflare 於近日宣布一項重大政策變更,自2025年7月1日起,所有新註冊的網站將預設封鎖 AI 爬蟲(AI crawlers),除非網站擁有者明確授權其存取內容。這項措施被視為對當前 AI 產業無限制抓取網頁內容的強硬回應,旨在保護內容創作者的權益並重塑數位內容經濟的平衡。Cloudflare 同時推出「按次付費」(Pay Per Crawl)系統,讓網站擁有者能向 AI 公司收取每次爬取的費用,開啟了內容貨幣化的新模式。
AI 爬蟲爭議:內容掠奪的挑戰
隨著生成式 AI(如 OpenAI 的 GPT 與 Anthropic 的 Claude)的快速發展,AI 爬蟲已成為訓練大型語言模型的主要工具。這些爬蟲會自動抓取網頁上的文字、圖片與其他資料,用於訓練 AI 模型或生成即時回答。然而,與傳統搜尋引擎(如 Google)不同,AI 爬蟲通常不會將流量回饋給原始網站,導致內容創作者無法從中獲得收益或曝光。根據 Cloudflare 的數據,OpenAI 的爬取與流量回饋比約為 1,700:1,Anthropic 更高達 73,000:1,而 Google 僅為 14:1,顯示 AI 爬蟲對內容創作者的影響遠超傳統搜尋引擎。
此外,部分 AI 公司被指控無視網站的 robots.txt 設定,擅自抓取內容,引發版權爭議與法律訴訟。例如,出版商 Ziff Davis 對 OpenAI 提起的訴訟即顯示出業界對此問題的不滿。Cloudflare 的新政策正是在此背景下應運而生,試圖為內容創作者提供更大的控制權與經濟回報。
什麼是 robots.txt?
Robots.txt 是一個位於網站根目錄的簡單文字檔案,用於指示網路爬蟲(例如搜尋引擎或 AI 爬蟲)哪些頁面或檔案可以存取、哪些應避免。它的主要功能是管理網站的爬取行為,幫助網站擁有者控制內容的索引和使用。
Cloudflare 的解決方案:預設封鎖與按次付費
Cloudflare 此次政策的核心在於改變過去「允許爬取除非明確禁止」的模式,轉為「預設封鎖,除非明確允許」。這意味著新註冊的網站將自動禁止 AI 爬蟲存取內容,網站擁有者可自行決定是否開放爬取,以及允許哪些特定爬蟲(如用於訓練、推論或搜尋的爬蟲)。Cloudflare 還引入了爬蟲驗證系統,確保 AI 爬蟲必須公開其身份與用途,增加透明度。
更具突破性的是「按次付費」系統,網站擁有者可為每頁內容設定價格,AI 公司需支付費用才能存取。Cloudflare 利用 HTTP 回應碼 402(過去鮮少使用的「需付款」狀態碼)來實現這一機制,作為內容存取的數位收費站。此系統目前處於私有測試階段,網站與爬蟲業者可聯繫 Cloudflare 參與測試。
Cloudflare 執行長 Matthew Prince 表示:「如果網際網路要在 AI 時代存續,我們必須給予內容創作者應有的控制權,並建立一個對所有人公平的新經濟模式。AI 爬蟲無限制地掠取內容,我們的目標是將權力交還給創作者,同時支持 AI 公司的創新。」
業界反響:支持與挑戰並存
此舉獲得眾多出版商與內容平台的積極支持,包括《時代雜誌》(Time)、《大西洋月刊》(The Atlantic)、Condé Nast、BuzzFeed 與 Stack Overflow 等超過50家企業。Condé Nast 執行長 Roger Lynch 稱:「這是保護創作者、支持優質新聞業並讓 AI 公司負起責任的關鍵一步。」Reddit 執行長 Steve Huffman 也讚揚這一模式為「更透明且對所有人有益的進展」。
然而,該政策也引發了一些質疑。部分專家擔心,過於嚴格的封鎖可能影響非商業用途的資料蒐集,例如學術研究或網頁存檔。MIT 媒體實驗室的博士候選人 Shayne Longpre 表示:「並非所有 AI 系統都與網站出版商競爭,也並非所有 AI 系統都是商業用途。個人使用與開放研究不應因此受限。」此外,若 AI 公司選擇繞過付費系統,轉而抓取未受保護的網站,可能導致數位生態系的兩極化,高流量網站受益,而小型網站被邊緣化。
技術挑戰:規避與執行問題
Cloudflare 的技術優勢在於其處理全球約20%網路流量的能力,以及對抗惡意機器人(如 DDoS 攻擊)的豐富經驗。該公司表示,將利用這些技術來識別與封鎖未經授權的 AI 爬蟲,甚至對試圖偽裝成一般瀏覽器的「隱形爬蟲」(stealth crawlers)採取行動。例如,Cloudflare 近期指控 AI 搜尋新創公司 Perplexity 使用隱形爬蟲繞過網站限制,隨後將其從驗證爬蟲名單中移除,並更新了機器人管理規則以應對類似行為。
然而,執行層面仍存在挑戰。部分 AI 公司可能透過代理伺服器或 IP 輪替來規避封鎖,類似於盜版內容的「數據洗白」(data laundering)。此外,目前的付費模式對所有內容一視同仁,無法反映內容的實際價值,例如一篇深度調查報導與簡單的登陸頁價格相同,未來可能需要更精細的定價機制。
對 AI 產業的影響
Cloudflare 的新政策可能對 AI 模型的訓練產生深遠影響。許多 AI 公司仰賴公開網路資料來訓練模型,若大量網站選擇封鎖或收取費用,AI 模型的資料來源可能受限,進而影響其效能與準確性。分析師指出,這可能迫使 AI 公司與內容創作者建立更透明的合作關係,或轉向授權資料與合成資料的訓練方式。
同時,該政策也可能催生新的商業模式。Cloudflare 的「按次付費」系統為內容貨幣化開闢了新路徑,可能吸引更多網站加入其服務生態系。然而,若免費資料仍廣泛存在,AI 公司可能傾向於繞過付費網站,導致市場競爭加劇。
網際網路的新篇章
Cloudflare 的這項舉措標誌著網際網路進入了一個新的階段,從「免費存取、任意使用」的模式,轉向以許可與付費為基礎的生態系。這不僅賦予內容創作者更大的自主權,也挑戰了 AI 公司對資料使用的傳統思維。雖然挑戰與爭議仍在,但 Cloudflare 的政策無疑為數位內容的未來開啟了新的討論,促使業界重新思考資料的所有權、價值與倫理。