Cloudflare 出殺招！預設「封鎖 AI 爬蟲」

瀏覽數: 143 | 更新日期: 2025-08-21 14:12:40

AI 2025 SEO

網際網路基礎設施巨頭 Cloudflare 於近日宣布一項重大政策變更，自2025年7月1日起，所有新註冊的網站將預設封鎖 AI 爬蟲（AI crawlers），除非網站擁有者明確授權其存取內容。這項措施被視為對當前 AI 產業無限制抓取網頁內容的強硬回應，旨在保護內容創作者的權益並重塑數位內容經濟的平衡。Cloudflare 同時推出「按次付費」（Pay Per Crawl）系統，讓網站擁有者能向 AI 公司收取每次爬取的費用，開啟了內容貨幣化的新模式。

blocking-ai-crawlers-sharktech

AI 爬蟲爭議：內容掠奪的挑戰

隨著生成式 AI（如 OpenAI 的 GPT 與 Anthropic 的 Claude）的快速發展，AI 爬蟲已成為訓練大型語言模型的主要工具。這些爬蟲會自動抓取網頁上的文字、圖片與其他資料，用於訓練 AI 模型或生成即時回答。然而，與傳統搜尋引擎（如 Google）不同，AI 爬蟲通常不會將流量回饋給原始網站，導致內容創作者無法從中獲得收益或曝光。根據 Cloudflare 的數據，OpenAI 的爬取與流量回饋比約為 1,700:1，Anthropic 更高達 73,000:1，而 Google 僅為 14:1，顯示 AI 爬蟲對內容創作者的影響遠超傳統搜尋引擎。

此外，部分 AI 公司被指控無視網站的 robots.txt 設定，擅自抓取內容，引發版權爭議與法律訴訟。例如，出版商 Ziff Davis 對 OpenAI 提起的訴訟即顯示出業界對此問題的不滿。Cloudflare 的新政策正是在此背景下應運而生，試圖為內容創作者提供更大的控制權與經濟回報。

什麼是 robots.txt？

Robots.txt 是一個位於網站根目錄的簡單文字檔案，用於指示網路爬蟲（例如搜尋引擎或 AI 爬蟲）哪些頁面或檔案可以存取、哪些應避免。它的主要功能是管理網站的爬取行為，幫助網站擁有者控制內容的索引和使用。

Cloudflare 的解決方案：預設封鎖與按次付費

Cloudflare 此次政策的核心在於改變過去「允許爬取除非明確禁止」的模式，轉為「預設封鎖，除非明確允許」。這意味著新註冊的網站將自動禁止 AI 爬蟲存取內容，網站擁有者可自行決定是否開放爬取，以及允許哪些特定爬蟲（如用於訓練、推論或搜尋的爬蟲）。Cloudflare 還引入了爬蟲驗證系統，確保 AI 爬蟲必須公開其身份與用途，增加透明度。

更具突破性的是「按次付費」系統，網站擁有者可為每頁內容設定價格，AI 公司需支付費用才能存取。Cloudflare 利用 HTTP 回應碼 402（過去鮮少使用的「需付款」狀態碼）來實現這一機制，作為內容存取的數位收費站。此系統目前處於私有測試階段，網站與爬蟲業者可聯繫 Cloudflare 參與測試。

Cloudflare 執行長 Matthew Prince 表示：「如果網際網路要在 AI 時代存續，我們必須給予內容創作者應有的控制權，並建立一個對所有人公平的新經濟模式。AI 爬蟲無限制地掠取內容，我們的目標是將權力交還給創作者，同時支持 AI 公司的創新。」

業界反響：支持與挑戰並存

此舉獲得眾多出版商與內容平台的積極支持，包括《時代雜誌》（Time）、《大西洋月刊》（The Atlantic）、Condé Nast、BuzzFeed 與 Stack Overflow 等超過50家企業。Condé Nast 執行長 Roger Lynch 稱：「這是保護創作者、支持優質新聞業並讓 AI 公司負起責任的關鍵一步。」Reddit 執行長 Steve Huffman 也讚揚這一模式為「更透明且對所有人有益的進展」。

然而，該政策也引發了一些質疑。部分專家擔心，過於嚴格的封鎖可能影響非商業用途的資料蒐集，例如學術研究或網頁存檔。MIT 媒體實驗室的博士候選人 Shayne Longpre 表示：「並非所有 AI 系統都與網站出版商競爭，也並非所有 AI 系統都是商業用途。個人使用與開放研究不應因此受限。」此外，若 AI 公司選擇繞過付費系統，轉而抓取未受保護的網站，可能導致數位生態系的兩極化，高流量網站受益，而小型網站被邊緣化。

技術挑戰：規避與執行問題

Cloudflare 的技術優勢在於其處理全球約20%網路流量的能力，以及對抗惡意機器人（如 DDoS 攻擊）的豐富經驗。該公司表示，將利用這些技術來識別與封鎖未經授權的 AI 爬蟲，甚至對試圖偽裝成一般瀏覽器的「隱形爬蟲」（stealth crawlers）採取行動。例如，Cloudflare 近期指控 AI 搜尋新創公司 Perplexity 使用隱形爬蟲繞過網站限制，隨後將其從驗證爬蟲名單中移除，並更新了機器人管理規則以應對類似行為。

然而，執行層面仍存在挑戰。部分 AI 公司可能透過代理伺服器或 IP 輪替來規避封鎖，類似於盜版內容的「數據洗白」（data laundering）。此外，目前的付費模式對所有內容一視同仁，無法反映內容的實際價值，例如一篇深度調查報導與簡單的登陸頁價格相同，未來可能需要更精細的定價機制。

對 AI 產業的影響

Cloudflare 的新政策可能對 AI 模型的訓練產生深遠影響。許多 AI 公司仰賴公開網路資料來訓練模型，若大量網站選擇封鎖或收取費用，AI 模型的資料來源可能受限，進而影響其效能與準確性。分析師指出，這可能迫使 AI 公司與內容創作者建立更透明的合作關係，或轉向授權資料與合成資料的訓練方式。

同時，該政策也可能催生新的商業模式。Cloudflare 的「按次付費」系統為內容貨幣化開闢了新路徑，可能吸引更多網站加入其服務生態系。然而，若免費資料仍廣泛存在，AI 公司可能傾向於繞過付費網站，導致市場競爭加劇。

網際網路的新篇章

Cloudflare 的這項舉措標誌著網際網路進入了一個新的階段，從「免費存取、任意使用」的模式，轉向以許可與付費為基礎的生態系。這不僅賦予內容創作者更大的自主權，也挑戰了 AI 公司對資料使用的傳統思維。雖然挑戰與爭議仍在，但 Cloudflare 的政策無疑為數位內容的未來開啟了新的討論，促使業界重新思考資料的所有權、價值與倫理。

blocking-ai-crawlers-sharktech