AI クローラーの robots.txt 対応って、どこまで対策できる?

  • Bookmark
  • -
    Copy

こんにちは、ゼノクリース合同会社 CEO の齋藤です。このコラム記事では、企業の Web ガバナンスや最新情報について紹介しています。

robots.txt とは何か

今回のコラムの要点は、「robots.txt ってそもそも何?」「主要 AI ベンダーのクロールって、どういう仕組みで止まるの?」「どこまで効いて、どこからは効かない?」ということです。

robots.txt は、サイトの玄関に置く「お願い状」のようなものです。サイトのどこをクローラーに見てほしい or 見てほしくないかを伝えるテキストファイルで、サイト直下の /robots.txt に置きます。(ホストやサブドメインごとに存在し得ます)

.htaccess のようなサーバーの設定ファイルのように、実際にサーバー側と連携してアクセス制御をするようなファイルではありません。robots.txt に書いてあることを守るかどうかはクローラー次第で、機密保護には使えません。その場合は、Basic 認証などのパスワードやアクセス制限が必要です。

生成 AI がかなり普及してきた 2023 年以前は、主に Google などの検索エンジンのクローラーに向けた記述が主流でした。

参考: RFC 9309

なぜ「AI クローラー」を robots.txt で止められるの?

理由はシンプルで、主要ベンダーが「robots.txt に書いてくれれば、それに従います」と公式に表明しているからです。

OpenAI (ChatGPT) の場合

User-agent: GPTBot を Disallow すればブロックできます。

参考: Overview of OpenAI Crawlers | OpenAI Platform

ちなみに、他にも ChatGPT-User(ユーザー操作に伴う閲覧), OAI-SearchBot(検索向け・学習には使わない)があります。

Anthropic (Claude) の場合

User-agent: ClaudeBot を Disallow すればブロックできます。

参考: Does Anthropic crawl data from the web, and how can site owners block the crawler? | Anthropic Help Center

これも ChatGPT の場合と同じように、Claude-User, Claude-SearchBot もあります。

Google (Gemini) の場合

User-agent: Google-Extended を Disallow すればブロックできます。

参考: Google の一般的なクローラーの一覧 | Google 検索セントラル

検索用の Googlebot とは別に、AI 学習などの用途の制御トークン Google‑Extended が提供されています。こちらのドキュメントにある他の Google のクローラーをブロックした場合、検索結果にインデックスされなくなることもあるので、もし robots.txt に記述する場合はよく確認することがおすすめです。

また、細かく言うとクロール自体は既存の Google ユーザーエージェント文字列を使用して行われます。robots.txt に上記を記述することで、Google のクローラーが内部で学習に利用しないように処理してくれるものと思われます。

robots.txt の限界と企業が取るべき方針

冒頭でも記載した通り、robots.txt は「お願い状」であり、アクセス制御ではありません。また、すでに学習されたデータを削除することは現実的には難しいので、robots.txt はこれからのデータが学習されるのを止めるためのものです。

また、Playwright, Selenium などを使った従来型の Web スクレイピングや、人の目で Web にアクセスしてコピーしてくるなどをすると公開情報は取れてしまいますし、主要ベンダー以外の生成 AI のクローラ(robots.txt に対応していない場合や、黙ってクロールして学習に利用しているケース)もあります。

また、自分のサイトをブロックしていても他サイトからのリンク(被リンク)で、自分のサイトの URL が索引だけ持たれることがあります。

そのため、筆者個人としては robots.txt への生成 AI のクローラーのブロックの記述はあくまでも過剰なリクエストの防止や企業としての生成 AI やコンテンツへの思想の表明のようなものと捉えています。

これらは、

  • 生成 AI によって特に情報産業が大きく変わっていく中で、どのような考え方をしているかを社内で共有するというガバナンス視点
  • robots.txt などの Web サイトの周辺のファイルを含めてきちんと管理しているかという Web ガバナンス
    (例えば、あっちのサイトはレンタルサーバー、こっちはクラウドという形で散らばっており、担当者不明なサイトなどもあると、編集しようにも難しいと思います)

などにも繋がってくるところだと考えています。

まとめ

企業がこのあたりを考える上で、プライム・ストラテジー社の CMS/Web プラットフォーム統合サービス はきっかけとしておすすめです。ご興味があれば、ぜひお問い合わせしてみてください!

また、企業のWebガバナンスを考える、「Webガバナンスガイドライン」も無料配布中です。自社にあわせてカスタマイズも可能ですのでぜひご活用ください。

【著者】
ゼノクリース合同会社 代表(Web
齋藤智樹

在学中から高校や予備校、IT 企業に携わり、講師とソフトウェアエンジニアとして活動。
大学卒業後 (2020年4月〜) はフリーランスエンジニアとして活動を始め、以下のような幅広い業務を行う。2021年3月に、業務を拡大させるためにゼノクリース合同会社を設立。スタディングテックの WEB 開発コース主任講師も務める。

プライム・ストラテジーでは、Web担当者様、IT担当者様などの
お役立ち資料やYouTube動画を公開しています。ご興味ある方はぜひご覧ください。

  • Bookmark
  • -
    Copy