AIクローラー
CCBot
Common CrawlのオープンソースWebクローラー。多くのAI企業の学習データ源となる。
CCBotとは?
CCBotはCommon Crawl(非営利団体)が運営するオープンソースのWebクローラーです。収集したデータは無料公開され、OpenAIのGPT、AnthropicのClaude、GoogleのGeminiなど多くの主要LLMの学習データ源として使われてきました。
CCBotをDisallowすると、自社コンテンツが多数のAI企業の学習データに含まれない可能性が高まります。一方で、CCBotを許可していたサイトは過去のAIにすでに学習済みなため、効果は限定的です。
CCBotの使い方・実践方法
CCBotの基本情報は次のとおりです。
- User-Agent:
CCBot/2.0 - 過去のAI学習データの主要源
- オープンデータとして広く再利用される
- robots.txtで個別制御可能
CCBotで押さえるべきポイント
CCBotを今からブロックしても、過去の学習データには既に含まれている可能性が高いです。新規サイトであれば判断意義が大きいですが、既存サイトの場合は後追いの効果は限定的です。
CCBotを実践するなら
Saguru なら、月額270円から、SEOキーワード調査・上位サイト分析・自サイトSEO診断のすべてが使えます。「CCBot」を理解した上で、すぐに実践に移せます。
登録なしで1日5回まで無料 / メール登録で1日30回 / ベーシック月額270円
CCBotについてよくある質問
CCBotブロックでAI学習を防げる?
今後の学習データへの追加は防げますが、過去のスナップショットには既に含まれている可能性があります。
CCBotとGPTBot両方ブロックすべき?
OpenAIの学習源を完全に断ちたいなら両方ブロックが必要です。新規サイトでは効果的です。
CCBotを許可するメリットは?
過去から現在までの多数のAI学習に含まれ、AI回答の引用源として認知される可能性が広がります。