AIクローラー

CCBot

Common CrawlのオープンソースWebクローラー。多くのAI企業の学習データ源となる。

CCBotとは?

CCBotはCommon Crawl(非営利団体)が運営するオープンソースのWebクローラーです。収集したデータは無料公開され、OpenAIのGPT、AnthropicのClaude、GoogleのGeminiなど多くの主要LLMの学習データ源として使われてきました。

CCBotをDisallowすると、自社コンテンツが多数のAI企業の学習データに含まれない可能性が高まります。一方で、CCBotを許可していたサイトは過去のAIにすでに学習済みなため、効果は限定的です。

CCBotの使い方・実践方法

CCBotの基本情報は次のとおりです。

CCBotで押さえるべきポイント

CCBotを今からブロックしても、過去の学習データには既に含まれている可能性が高いです。新規サイトであれば判断意義が大きいですが、既存サイトの場合は後追いの効果は限定的です。

CCBotを実践するなら

Saguru なら、月額270円から、SEOキーワード調査・上位サイト分析・自サイトSEO診断のすべてが使えます。「CCBot」を理解した上で、すぐに実践に移せます。

登録なしで1日5回まで無料 / メール登録で1日30回 / ベーシック月額270円

CCBotについてよくある質問

CCBotブロックでAI学習を防げる?
今後の学習データへの追加は防げますが、過去のスナップショットには既に含まれている可能性があります。
CCBotとGPTBot両方ブロックすべき?
OpenAIの学習源を完全に断ちたいなら両方ブロックが必要です。新規サイトでは効果的です。
CCBotを許可するメリットは?
過去から現在までの多数のAI学習に含まれ、AI回答の引用源として認知される可能性が広がります。