サクラサク

Caffeineとは?【Search Off the Recordシリーズより】

2024年6月19日

ねぎお社長 (根岸雅之)

10月8日更新されたGoogleのSEO podcastシリーズ、”Search Off the Record”では、GoogleのGary Illyes, John Mueller, Martin Splittの3氏が、YouTubeよりくだけた形でトークを展開しています。

この中で、botの1つであるCaffeineについて言及される場面がありましたので、その内容をまとめます。
少々マニアックな内容になりますので、知っているかどうかがSEOの成果を左右するものではないと思いますが、興味がある方はご覧ください。

『SEO会社が作った、SEOチェックリスト147選-自社サイトのやるべきSEO施策一覧-』
Googleの検索エンジン最適化(SEO対策)を効果的に実施するための包括的なチェックリスト!
自社サイトのSEO対策において必要な改善点を見つけることができる内容を記載していますので
ぜひご活用ください!
無料ダウンロードはこちら

【予備知識】Caffeineとは?

Caffeine(カフェイン)とは、Googleが使用しているbotの1つです。
Googlebotがクローラーと呼ばれ、HTML情報の取得を担っているのに対し、Caffeineはレンダリングを担っているbotで、ページのインデックスにおいて非常に重要な役割を持っています。

Googleデベロッパーガイドでは、以下のような図でクロール、レンダリング、インデックスの関係が説明されています。

インデックスの仕組み

JavaScript SEO の基本を理解する – Googleデベロッパーガイド

また、2020年8月10日頃に、Caffeineに起因するインデックス障害が起きた際には、Caffeineの役割として以下のように説明されていました。

要約:インデックスシステムであるカフェインはさまざまなことを行っています。

  1. 取得したデータを取り込む
  2. データをレンダリング、変換する
  3. リンク、メタデータ、構造化データを抽出する
  4. シグナルを抽出し計算する
  5. 新規クロールをスケジュールする
  6. 検索結果に表示されるインデックスを作成する

今回のpodcastエピソードでは、Caffeineの役割の一部についてより掘り下げた言及がありました。

Caffeineの役割

以下、podcastでのトーク内容をまとめますが、注意点があります。

※注意
podcastでは3氏がかなりくだけた雰囲気で対話しており、Caffeineについておそらく網羅的・完璧に話されているわけではないと思われます。
また、かなり冗談も飛び交っていますので、この記事の内容も誤解して受け取ってしまっている内容が含まれている可能性があります。
Podcastに並行してスクリプトも公開されていますので興味がある方はご覧ください。

Podcast:Spilling the beans on Caffeine (Google’s indexing system), and more!
Transcript:スクリプト

まず、Caffeineは魔法のようなことを行っているインデックスシステムの一部である、とのことです。
Googleの社員もCaffeineがどのようなことを行っているか詳しく把握していないようでした。

プロセスのはじめでは、Googlebotがプロトコルバッファーを生成する、とのことです。
プロトコルバッファーについて詳しい説明はされていませんが、「必要とするすべての情報」と言及されています。サイトの内外を問わず、どのような情報を取得するかを規定するものだと思われます。

Ingest(取り込み)

Googlebotが作成したプロトコルバッファーをCaffeineがピックアップします

Conversion(変換)

取り込んだデータをインデックスするために処理を行う段階だと思われますが、前処理のようなことも行うようです。
以下のような処理について言及されていました。

HTML normalization

一般的にインターネット上のHTMLは壊れているため(※やや過激な言い方ですが、正規の書式に沿っていない場合が多いということだと思われます)、HTML lexorによって標準化するとのこと。
これによりたとえば、見出しタグhxの相対的な重要性を理解できるようになるようです。

また、PDFに関してはAdobe社のデコーダーをライセンス契約してHTMLに変換しているとのこと。

meta tag

たとえばnoidnexを見つけた際にはドキュメントの処理を停止します。

なお、head内にiframe やdivなどのタグがあると、直前でheadを終了してbodyを開始するとのこと。

collapsor(エラーページの扱い)

HTMLだけでなく、HTTP的に誤ったページを理解しようとする段階。HTTP200で返ってくる404ページ(ソフト404)など。
ソフトエラーがどのようなときに表示されるのか理解し、インデックスに入れないようにしているとのことです。
そのような基準に該当するページの処理を停止するよう、Caffeineに促します。

・エラーページ処理システムは使用しているキーワードも参照する。そのため、ソフト404ページにありがちなテキストを使用していると誤検知されてインデックスされないおそれがある
・対象は404に限らない
・ログインページも同様にこのフェーズで検出している
・ECサイトの在庫切れページも、(ページで使用されているテキストによるが)おそらくインデックスされない。ただし、変更があった際に通知される登録機能をつけておけば、インデックスされるかもしれない。

以降のプロセスは言及されませんでした・・・

今回のエピソードでは、上記まで話したところで話題が別のところに移ってしまい、戻ってくることはありませんでした(笑)

そのため、クロールデータの変換プロセスは話題が及んだ以外にもあるのかもしれませんし、レンダリングやインデックス作成についてはそもそも触れられていません。

まとめ

一部とはいえ、Caffeineについて具体的な内容まで踏み込んでトークされていました。
Caffeineの異常はランキングへの大きな変動を引き起こすなど、検索の仕組みに非常に重要なプロセスを担っているbotです。
SEOに関わっているのであればGooglebotとは別に、そのようなbotが存在することは知っておいて損はありません。

サクラサクラボではGoogleの最新情報をキャッチアップしてブログやtwitterで配信しています。
ぜひフォローください!


follow us in feedly

執筆者 / 監修者

サクラサクマーケティング
株式会社

取締役 社長

ねぎお社長 (根岸雅之)

ねぎお社長 (根岸雅之)イラスト

サクラサクマーケティング株式会社 取締役社長 COO

1980年生まれ 大学卒業後、一貫して、広告・マーケティング業界に身を置く。2006年にSEM コンサルタントとして、インターネット総合代理店、株式会社オプトに入社。リスティング、ディスプレイ広告の運用から、SEOの施策提案など主にキーワードマーケティング領域に特化した業務に従事。同年10月に株式会社ブルトア(現サクラサクマーケティング株式会社)に転職。入社後は、営業をはじめ、SEOコンサルティング、新規事業開発、自社マーケ、人事、財務と幅広い領域を経験し、営業部長、執行役員、取締役と経て、2015 年に社名変更とともに取締役社長に就任。

SEOコンサルタントとして大規模サイトから新規サイトまで、売上向上に繋がるコンサルティングを武器に200サイト以上の実績。2023年には『なぜほとんどコンテンツマーケティングは失敗に終わるのか?』を執筆。ねぎお社長のSEOチャンネルをはじめ、YouTube、メルマガ、SNを通じて積極的に情報発信。

◇ 出版書籍

◇ 情報発信

◇ 掲載メディア

◇ 共催セミナー歴

  • オウンドメディアの成功事例とSEOを支える運用型広告の活用
  • 今日から始められるWebマーケティング~コンテンツマーケティングとGoogle マイビジネス~
  • GMO TECH × サクラサク共催セミナー~テクニカルSEOとコンテンツマーケ~
  • リモート環境下においても売上・利益が成長し続ける組織創りと営業戦略

関連記事

ブログ一覧

あっ!と思ったら
サクラサク
ご相談ください

まずは無料相談へのお申し込みがおすすめです。ベテランコンサルタントが直接対応いたします。

お電話でご相談の方はこちら

03-5776-2775

03-5776-2775

SEO・記事制作なら、
サクラサクにお任せください!

ご相談こちら
×