10月8日更新されたGoogleのSEO podcastシリーズ、”Search Off the Record”では、GoogleのGary Illyes, John Mueller, Martin Splittの3氏が、YouTubeよりくだけた形でトークを展開しています。
この中で、botの1つであるCaffeineについて言及される場面がありましたので、その内容をまとめます。
少々マニアックな内容になりますので、知っているかどうかがSEOの成果を左右するものではないと思いますが、興味がある方はご覧ください。
Disclaimer: This is not an ad for coffee ????
In ep. 7 of Search Off the Record podcast ???, @methode @JohnMu & @g33konaut spill the beans on Caffeine – Google's indexing system, discuss GIF SEO & more!
Have a listen!
?? → https://t.co/NzLN7fCQ8s
?? → https://t.co/usvD5eiMMZ pic.twitter.com/HbfgOE6SAf— Google Webmasters (@googlewmc) October 8, 2020
【予備知識】Caffeineとは?
Caffeine(カフェイン)とは、Googleが使用しているbotの1つです。
Googlebotがクローラーと呼ばれ、HTML情報の取得を担っているのに対し、Caffeineはレンダリングを担っているbotで、ページのインデックスにおいて非常に重要な役割を持っています。
Googleデベロッパーガイドでは、以下のような図でクロール、レンダリング、インデックスの関係が説明されています。
また、2020年8月10日頃に、Caffeineに起因するインデックス障害が起きた際には、Caffeineの役割として以下のように説明されていました。
The indexing system, Caffeine, does multiple things:
1. ingests fetchlogs,
2. renders and converts fetched data,
3. extracts links, meta and structured data,
4. extracts and computes some signals,
5. schedules new crawls,
6. and builds the index that is pushed to serving.— Gary 鯨理/?? Illyes (@methode) August 11, 2020
要約:インデックスシステムであるカフェインはさまざまなことを行っています。
- 取得したデータを取り込む
- データをレンダリング、変換する
- リンク、メタデータ、構造化データを抽出する
- シグナルを抽出し計算する
- 新規クロールをスケジュールする
- 検索結果に表示されるインデックスを作成する
今回のpodcastエピソードでは、Caffeineの役割の一部についてより掘り下げた言及がありました。
Caffeineの役割
以下、podcastでのトーク内容をまとめますが、注意点があります。
※注意
podcastでは3氏がかなりくだけた雰囲気で対話しており、Caffeineについておそらく網羅的・完璧に話されているわけではないと思われます。
また、かなり冗談も飛び交っていますので、この記事の内容も誤解して受け取ってしまっている内容が含まれている可能性があります。
Podcastに並行してスクリプトも公開されていますので興味がある方はご覧ください。
Podcast:Spilling the beans on Caffeine (Google’s indexing system), and more!
Transcript:スクリプト
まず、Caffeineは魔法のようなことを行っているインデックスシステムの一部である、とのことです。
Googleの社員もCaffeineがどのようなことを行っているか詳しく把握していないようでした。
プロセスのはじめでは、Googlebotがプロトコルバッファーを生成する、とのことです。
プロトコルバッファーについて詳しい説明はされていませんが、「必要とするすべての情報」と言及されています。サイトの内外を問わず、どのような情報を取得するかを規定するものだと思われます。
Ingest(取り込み)
Googlebotが作成したプロトコルバッファーをCaffeineがピックアップします
Conversion(変換)
取り込んだデータをインデックスするために処理を行う段階だと思われますが、前処理のようなことも行うようです。
以下のような処理について言及されていました。
HTML normalization
一般的にインターネット上のHTMLは壊れているため(※やや過激な言い方ですが、正規の書式に沿っていない場合が多いということだと思われます)、HTML lexorによって標準化するとのこと。
これによりたとえば、見出しタグhxの相対的な重要性を理解できるようになるようです。
また、PDFに関してはAdobe社のデコーダーをライセンス契約してHTMLに変換しているとのこと。
meta tag
たとえばnoidnexを見つけた際にはドキュメントの処理を停止します。
なお、head内にiframe やdivなどのタグがあると、直前でheadを終了してbodyを開始するとのこと。
collapsor(エラーページの扱い)
HTMLだけでなく、HTTP的に誤ったページを理解しようとする段階。HTTP200で返ってくる404ページ(ソフト404)など。
ソフトエラーがどのようなときに表示されるのか理解し、インデックスに入れないようにしているとのことです。
そのような基準に該当するページの処理を停止するよう、Caffeineに促します。
・エラーページ処理システムは使用しているキーワードも参照する。そのため、ソフト404ページにありがちなテキストを使用していると誤検知されてインデックスされないおそれがある
・対象は404に限らない
・ログインページも同様にこのフェーズで検出している
・ECサイトの在庫切れページも、(ページで使用されているテキストによるが)おそらくインデックスされない。ただし、変更があった際に通知される登録機能をつけておけば、インデックスされるかもしれない。
以降のプロセスは言及されませんでした・・・
今回のエピソードでは、上記まで話したところで話題が別のところに移ってしまい、戻ってくることはありませんでした(笑)
そのため、クロールデータの変換プロセスは話題が及んだ以外にもあるのかもしれませんし、レンダリングやインデックス作成についてはそもそも触れられていません。
まとめ
一部とはいえ、Caffeineについて具体的な内容まで踏み込んでトークされていました。
Caffeineの異常はランキングへの大きな変動を引き起こすなど、検索の仕組みに非常に重要なプロセスを担っているbotです。
SEOに関わっているのであればGooglebotとは別に、そのようなbotが存在することは知っておいて損はありません。
サクラサクラボではGoogleの最新情報をキャッチアップしてブログやtwitterで配信しています。
ぜひフォローください!