本稿では、日々進化する検索エンジンの根幹である、サイト情報の取得と解析を担う「クローラ」および「インデクサ」という二つの仕組みについて、Google公式ページ「クロールとインデックス」を参考に、初心者の方にもわかりやすく解説いたします。
■Google公式ページ「クロールとインデックス」
https://www.google.com/intl/ja_ALL/insidesearch/howsearchworks/crawling-indexing.html
クローラとインデクサ
検索エンジンの根幹は大きく分けると、WEBページの取得と解析を行うフェーズと、入力されたキーワードの解析とマッチングを行い検索結果を出力するフェーズの2つにわけられます。
まずは、WEBページのデータ取得を担うクローラと、ページの解析を担うインデクサの2つについて解説いたします。
クローラによるデータ収集
検索エンジンにはクローラと呼ばれる、データを収集するためのプログラム、通称「ボット(bot)」があり、WEBに公開されているページのリンクを辿ってデータを収集します。
各クローラは、通常のWEBサーフィンと同じようにサイトを閲覧しますが、Googleの場合はGooglebot、Bingの場合はBingBotというように、ユーザエージェントでそれと判断できるようになっています。
※Googleクローラのユーザエージェント一覧
https://support.google.com/webmasters/answer/1061943?hl=ja
クローラは任意のページを取得すると、そのページにあるリンクから新たなURLを抽出し、さらにクロールの対象に加えます。これを繰り返すことで、膨大なWEBページを探しだしデータを収集することが可能になります。
クローラは一回限りのアクセスではなく、一度URLを見つけると、定期的にクロールしてくるようになります。
これにより、多少の時差はありますが、検索エンジンは継続的に最新の更新データ取得することが可能になっています。
※クロール頻度の算出についてもアルゴリズムがありますが、本稿での説明は割愛致します。
インデクサによるデータ整理
クローラが収集するデータは生のHTMLデータですので、それを整理整頓し、検索結果を出力するのに最適な形に解析するのがインデクサとなります。
インデクサが整理整頓することを、「インデックスする」と言い、単にクロールされるだけでなく、インデックスまでされないと検索結果には反映されない事になっています。
一般的に検索アルゴリズムと呼ばれるものの大部分はこの部分で適用されるとされており、内容の解析、コンテンツの品質、記事の更新性等の数百にも及ぶ評価軸を元にインデックス処理が走ります。
インデックス処理の詳細を理解する事は難しいですが、一般的に「目次を作る」作業と例えられるように、あるキーワードに関連する項目として文書を登録していく作業のイメージになります。
Googleではインデックスされた状態になると、下記の検索コマンドで確認することが可能です。
※インデックス確認検索コマンド「 site:ページのURL 」
キーワードの分析と検索結果
ここまでで検索エンジンの中には、大量のデータが蓄積されています。
この後、入力された検索キーワードの解析、マッチングを行い、検索結果の出力をします。
検索キーワードの解析
ユーザーが検索エンジンに入力したキーワードを解析し、検索結果を表示する準備をします。
キーワードを解析するアルゴリズムは複数あるとされていますが、その中の1つで有名なものとしてRankBrain(ランクブレイン)という人工知能アルゴリズム(AI)が挙げられます。
このアルゴリズムは2015年の初旬から中旬の間に導入されたと推察されますが、ディープラーニングを取り入れ、きわめて強力な機械学習の元、キーワードの解析を行うようです。
※RankBrainについては諸説あり、キーワード解析以外についても行っているとされていますが、本稿では詳細は割愛致します。
キーワード解析と並行して、キーワードのコンテキスト(背景)についても解析を行います。
キーワードが入力されたコンテキストとしては、例えば位置情報であったり、時刻、前回検索したワードなどがあり、これらも検索エンジンが取得できる範囲ではありますが、全て解析対象となり、検索結果に影響を及ぼすと考えられます。
検索結果に表示
ここまでくれば、後は検索結果を表示するだけです。
インデクサによって作られたインデックスデータを元にランキング付けされたデータと、検索キーワードの解析を経てまとまったデータとをマッチングし、最終的な調整を経て検索結果が表示されます。
まとめ
ここまで検索エンジンの仕組みについて、「クローラとインデクサ」「キーワードの分析と検索結果」の2つに分けて、Google公式ページの内容をもとに解説してきました。
検索エンジンは日々進歩していますが、「データを集め、マッチングを行い、出力する」 という検索エンジンの根幹の仕組みを正しく理解することがSEO施策を展開する上での第一歩といえるかもしれません。
今後も検索エンジンが進化・変化していく中で、本稿が長く通用する知識としてお役に立てれば幸いです。