サクラサク

検索エンジンの仕組み – クローラ、インデクサの役割をわかりやすく解説!

2024年7月25日

ねぎお社長 (根岸雅之)

本稿では、日々進化する検索エンジンの根幹である、サイト情報の取得と解析を担う「クローラ」および「インデクサ」という二つの仕組みについて、Google公式ページ「クロールとインデックス」を参考に、初心者の方にもわかりやすく解説いたします。

■Google公式ページ「クロールとインデックス」
https://www.google.com/intl/ja_ALL/insidesearch/howsearchworks/crawling-indexing.html

『SEO会社が作った、SEOチェックリスト147選-自社サイトのやるべきSEO施策一覧-』
Googleの検索エンジン最適化(SEO対策)を効果的に実施するための包括的なチェックリスト!
自社サイトのSEO対策において必要な改善点を見つけることができる内容を記載していますので
ぜひご活用ください!
無料ダウンロードはこちら

クローラとインデクサ

検索エンジンの根幹は大きく分けると、WEBページの取得と解析を行うフェーズと、入力されたキーワードの解析とマッチングを行い検索結果を出力するフェーズの2つにわけられます。

まずは、WEBページのデータ取得を担うクローラと、ページの解析を担うインデクサの2つについて解説いたします。

クローラによるデータ収集

検索エンジンにはクローラと呼ばれる、データを収集するためのプログラム、通称「ボット(bot)」があり、WEBに公開されているページのリンクを辿ってデータを収集します。

各クローラは、通常のWEBサーフィンと同じようにサイトを閲覧しますが、Googleの場合はGooglebot、Bingの場合はBingBotというように、ユーザエージェントでそれと判断できるようになっています。
※Googleクローラのユーザエージェント一覧
https://support.google.com/webmasters/answer/1061943?hl=ja

クローラは任意のページを取得すると、そのページにあるリンクから新たなURLを抽出し、さらにクロールの対象に加えます。これを繰り返すことで、膨大なWEBページを探しだしデータを収集することが可能になります。

クローラは一回限りのアクセスではなく、一度URLを見つけると、定期的にクロールしてくるようになります。
これにより、多少の時差はありますが、検索エンジンは継続的に最新の更新データ取得することが可能になっています。
※クロール頻度の算出についてもアルゴリズムがありますが、本稿での説明は割愛致します。

インデクサによるデータ整理

クローラが収集するデータは生のHTMLデータですので、それを整理整頓し、検索結果を出力するのに最適な形に解析するのがインデクサとなります。

インデクサが整理整頓することを、「インデックスする」と言い、単にクロールされるだけでなく、インデックスまでされないと検索結果には反映されない事になっています。

一般的に検索アルゴリズムと呼ばれるものの大部分はこの部分で適用されるとされており、内容の解析、コンテンツの品質、記事の更新性等の数百にも及ぶ評価軸を元にインデックス処理が走ります。

インデックス処理の詳細を理解する事は難しいですが、一般的に「目次を作る」作業と例えられるように、あるキーワードに関連する項目として文書を登録していく作業のイメージになります。

Googleではインデックスされた状態になると、下記の検索コマンドで確認することが可能です。
※インデックス確認検索コマンド「 site:ページのURL 」

キーワードの分析と検索結果

ここまでで検索エンジンの中には、大量のデータが蓄積されています。
この後、入力された検索キーワードの解析、マッチングを行い、検索結果の出力をします。

検索キーワードの解析

ユーザーが検索エンジンに入力したキーワードを解析し、検索結果を表示する準備をします。

キーワードを解析するアルゴリズムは複数あるとされていますが、その中の1つで有名なものとしてRankBrain(ランクブレイン)という人工知能アルゴリズム(AI)が挙げられます。

このアルゴリズムは2015年の初旬から中旬の間に導入されたと推察されますが、ディープラーニングを取り入れ、きわめて強力な機械学習の元、キーワードの解析を行うようです。
※RankBrainについては諸説あり、キーワード解析以外についても行っているとされていますが、本稿では詳細は割愛致します。

キーワード解析と並行して、キーワードのコンテキスト(背景)についても解析を行います。
キーワードが入力されたコンテキストとしては、例えば位置情報であったり、時刻、前回検索したワードなどがあり、これらも検索エンジンが取得できる範囲ではありますが、全て解析対象となり、検索結果に影響を及ぼすと考えられます。

検索結果に表示

ここまでくれば、後は検索結果を表示するだけです。

インデクサによって作られたインデックスデータを元にランキング付けされたデータと、検索キーワードの解析を経てまとまったデータとをマッチングし、最終的な調整を経て検索結果が表示されます。

まとめ

ここまで検索エンジンの仕組みについて、「クローラとインデクサ」「キーワードの分析と検索結果」の2つに分けて、Google公式ページの内容をもとに解説してきました。

検索エンジンは日々進歩していますが、「データを集め、マッチングを行い、出力する」 という検索エンジンの根幹の仕組みを正しく理解することがSEO施策を展開する上での第一歩といえるかもしれません。

今後も検索エンジンが進化・変化していく中で、本稿が長く通用する知識としてお役に立てれば幸いです。

執筆者 / 監修者

サクラサクマーケティング
株式会社

取締役 社長

ねぎお社長 (根岸雅之)

ねぎお社長 (根岸雅之)イラスト

サクラサクマーケティング株式会社 取締役社長 COO

1980年生まれ 大学卒業後、一貫して、広告・マーケティング業界に身を置く。2006年にSEM コンサルタントとして、インターネット総合代理店、株式会社オプトに入社。リスティング、ディスプレイ広告の運用から、SEOの施策提案など主にキーワードマーケティング領域に特化した業務に従事。同年10月に株式会社ブルトア(現サクラサクマーケティング株式会社)に転職。入社後は、営業をはじめ、SEOコンサルティング、新規事業開発、自社マーケ、人事、財務と幅広い領域を経験し、営業部長、執行役員、取締役と経て、2015 年に社名変更とともに取締役社長に就任。

SEOコンサルタントとして大規模サイトから新規サイトまで、売上向上に繋がるコンサルティングを武器に200サイト以上の実績。2023年には『なぜほとんどコンテンツマーケティングは失敗に終わるのか?』を執筆。ねぎお社長のSEOチャンネルをはじめ、YouTube、メルマガ、SNを通じて積極的に情報発信。

◇ 出版書籍

◇ 情報発信

◇ 掲載メディア

◇ 共催セミナー歴

  • オウンドメディアの成功事例とSEOを支える運用型広告の活用
  • 今日から始められるWebマーケティング~コンテンツマーケティングとGoogle マイビジネス~
  • GMO TECH × サクラサク共催セミナー~テクニカルSEOとコンテンツマーケ~
  • リモート環境下においても売上・利益が成長し続ける組織創りと営業戦略

関連記事

ブログ一覧

あっ!と思ったら
サクラサク
ご相談ください

まずは無料相談へのお申し込みがおすすめです。ベテランコンサルタントが直接対応いたします。

お電話でご相談の方はこちら

03-5776-2775

03-5776-2775

SEO・記事制作なら、
サクラサクにお任せください!

ご相談こちら
×