Caffeineとは？【Search Off the Recordシリーズより】

2024年6月19日

ねぎお社長（根岸雅之）

10月8日更新されたGoogleのSEO podcastシリーズ、”Search Off the Record”では、GoogleのGary Illyes, John Mueller, Martin Splittの3氏が、YouTubeよりくだけた形でトークを展開しています。

この中で、botの１つであるCaffeineについて言及される場面がありましたので、その内容をまとめます。
少々マニアックな内容になりますので、知っているかどうかがSEOの成果を左右するものではないと思いますが、興味がある方はご覧ください。

Disclaimer: This is not an ad for coffee ????
In ep. 7 of Search Off the Record podcast ???, @methode @JohnMu & @g33konaut spill the beans on Caffeine – Google's indexing system, discuss GIF SEO & more!
Have a listen!
?? → https://t.co/NzLN7fCQ8s
?? → https://t.co/usvD5eiMMZ pic.twitter.com/HbfgOE6SAf
— Google Webmasters (@googlewmc) October 8, 2020

【予備知識】Caffeineとは？

Caffeine（カフェイン）とは、Googleが使用しているbotの１つです。
Googlebotがクローラーと呼ばれ、HTML情報の取得を担っているのに対し、Caffeineはレンダリングを担っているbotで、ページのインデックスにおいて非常に重要な役割を持っています。

Googleデベロッパーガイドでは、以下のような図でクロール、レンダリング、インデックスの関係が説明されています。

JavaScript SEO の基本を理解する – Googleデベロッパーガイド

また、2020年8月10日頃に、Caffeineに起因するインデックス障害が起きた際には、Caffeineの役割として以下のように説明されていました。

The indexing system, Caffeine, does multiple things:
1. ingests fetchlogs,
2. renders and converts fetched data,
3. extracts links, meta and structured data,
4. extracts and computes some signals,
5. schedules new crawls,
6. and builds the index that is pushed to serving.
— Gary 鯨理／?? Illyes (@methode) August 11, 2020

要約：インデックスシステムであるカフェインはさまざまなことを行っています。

取得したデータを取り込む
データをレンダリング、変換する
リンク、メタデータ、構造化データを抽出する
シグナルを抽出し計算する
新規クロールをスケジュールする
検索結果に表示されるインデックスを作成する

今回のpodcastエピソードでは、Caffeineの役割の一部についてより掘り下げた言及がありました。

Caffeineの役割

以下、podcastでのトーク内容をまとめますが、注意点があります。

※注意
podcastでは3氏がかなりくだけた雰囲気で対話しており、Caffeineについておそらく網羅的・完璧に話されているわけではないと思われます。
また、かなり冗談も飛び交っていますので、この記事の内容も誤解して受け取ってしまっている内容が含まれている可能性があります。
Podcastに並行してスクリプトも公開されていますので興味がある方はご覧ください。

Podcast：Spilling the beans on Caffeine (Google’s indexing system), and more!
Transcript：スクリプト

まず、Caffeineは魔法のようなことを行っているインデックスシステムの一部である、とのことです。
Googleの社員もCaffeineがどのようなことを行っているか詳しく把握していないようでした。

プロセスのはじめでは、Googlebotがプロトコルバッファーを生成する、とのことです。
プロトコルバッファーについて詳しい説明はされていませんが、「必要とするすべての情報」と言及されています。サイトの内外を問わず、どのような情報を取得するかを規定するものだと思われます。

Ingest（取り込み）

Googlebotが作成したプロトコルバッファーをCaffeineがピックアップします

Conversion（変換）

取り込んだデータをインデックスするために処理を行う段階だと思われますが、前処理のようなことも行うようです。
以下のような処理について言及されていました。

HTML normalization

一般的にインターネット上のHTMLは壊れているため（※やや過激な言い方ですが、正規の書式に沿っていない場合が多いということだと思われます）、HTML lexorによって標準化するとのこと。
これによりたとえば、見出しタグhxの相対的な重要性を理解できるようになるようです。

また、PDFに関してはAdobe社のデコーダーをライセンス契約してHTMLに変換しているとのこと。

meta tag

たとえばnoidnexを見つけた際にはドキュメントの処理を停止します。

なお、head内にiframe やdivなどのタグがあると、直前でheadを終了してbodyを開始するとのこと。

collapsor（エラーページの扱い）

HTMLだけでなく、HTTP的に誤ったページを理解しようとする段階。HTTP200で返ってくる404ページ（ソフト404）など。
ソフトエラーがどのようなときに表示されるのか理解し、インデックスに入れないようにしているとのことです。
そのような基準に該当するページの処理を停止するよう、Caffeineに促します。

・エラーページ処理システムは使用しているキーワードも参照する。そのため、ソフト404ページにありがちなテキストを使用していると誤検知されてインデックスされないおそれがある
・対象は404に限らない
・ログインページも同様にこのフェーズで検出している
・ECサイトの在庫切れページも、（ページで使用されているテキストによるが）おそらくインデックスされない。ただし、変更があった際に通知される登録機能をつけておけば、インデックスされるかもしれない。

以降のプロセスは言及されませんでした・・・

今回のエピソードでは、上記まで話したところで話題が別のところに移ってしまい、戻ってくることはありませんでした（笑）

そのため、クロールデータの変換プロセスは話題が及んだ以外にもあるのかもしれませんし、レンダリングやインデックス作成についてはそもそも触れられていません。

まとめ

一部とはいえ、Caffeineについて具体的な内容まで踏み込んでトークされていました。
Caffeineの異常はランキングへの大きな変動を引き起こすなど、検索の仕組みに非常に重要なプロセスを担っているbotです。
SEOに関わっているのであればGooglebotとは別に、そのようなbotが存在することは知っておいて損はありません。

サクラサクラボではGoogleの最新情報をキャッチアップしてブログやtwitterで配信しています。
ぜひフォローください！

Follow @sakurasakulabo

執筆者 / 監修者

サクラサクマーケティング
株式会社

取締役社長

ねぎお社長（根岸雅之）

サクラサクマーケティング株式会社　取締役社長 COO

1980年生まれ　大学卒業後、一貫して、広告・マーケティング業界に身を置く。2006年にSEM コンサルタントとして、インターネット総合代理店、株式会社オプトに入社。リスティング、ディスプレイ広告の運用から、SEOの施策提案など主にキーワードマーケティング領域に特化した業務に従事。同年10月に株式会社ブルトア（現サクラサクマーケティング株式会社）に転職。入社後は、営業をはじめ、SEOコンサルティング、新規事業開発、自社マーケ、人事、財務と幅広い領域を経験し、営業部長、執行役員、取締役と経て、2015 年に社名変更とともに取締役社長に就任。

SEOコンサルタントとして大規模サイトから新規サイトまで、売上向上に繋がるコンサルティングを武器に200サイト以上の実績。2023年には『なぜほとんどコンテンツマーケティングは失敗に終わるのか？』を執筆。ねぎお社長のSEOチャンネルをはじめ、YouTube、メルマガ、SNを通じて積極的に情報発信。

◇ 出版書籍

『なぜほとんどコンテンツマーケティングは失敗に終わるのか？』

◇ 情報発信

◇ 掲載メディア

シンフィールド様 - サクラサクマーケティング株式会社取締役社長COO根岸雅之氏に聞いた！SEO対策で最も重要なことを教えてください！

◇ 共催セミナー歴

オウンドメディアの成功事例とSEOを支える運用型広告の活用
今日から始められるWebマーケティング～コンテンツマーケティングとGoogle マイビジネス～
GMO TECH × サクラサク共催セミナー～テクニカルSEOとコンテンツマーケ～
リモート環境下においても売上・利益が成長し続ける組織創りと営業戦略

Caffeineとは？【Search Off the Recordシリーズより】

【予備知識】Caffeineとは？