Googleは、Googleのデータベースに格納(インデックス)されている情報から検索結果を表示します。Googleにインデックスされるためには、検索エンジンのロボット(クローラー)にWebサイト内に来てもらい、その情報を収集してもらわなければいけません。
クローラーがWebサイト内のリンクを巡回し、情報収集することを「クロール」といいます。クロールの結果は、サーチコンソールに表示されます。エラーが表示された場合はどうすればいいのでしょうか。クロールエラーの確認方法と対処法を解説します。
サーチコンソールに関するエラーとは
Googleがサイト内にクロールやインデックスに関する問題を発見すると、サーチコンソールに表示されるようになります。
逆に言うと、サーチコンソールに登録していないとこれらのエラーを把握することができません。
登録はサイト運用開始の早い段階で行っておくことをおすすめします。
初心者でも簡単!サーチコンソールの登録・設定方法と使い方を徹底解説
インデックスやクロールに関するエラーが出た場合、これらを解消しない限りページはGoogleに評価されず、検索順位に悪影響が及ぶ可能性があります。
エラーの確認方法
エラーの有無は、サーチコンソールのメニュー「インデックス」>「カバレッジ」で確認できます。
参考:インデックスカバレッジレポートの見方とエラーや除外への対処法
画面に右上「最終更新日」時点のクロール結果が表示されます。
「エラー」の件数に注目します。エラーの場合、「ページはインデックスに登録されていません(Search Consoleヘルプ)」。エラーが0件ならば問題ありません。1件以上ある場合は、画面下部の「詳細」を確認しましょう。
「エラー」の理由と件数が一覧表示されています。各詳細の行をクリックすると、該当ページのURLを確認することができます。
【画像で解説】エラー別の対処法
エラー別に、原因と対処法を解説します。
なお、後述するように、エラー文には「送信されたURLが(に)……」の文言が含まれているものが多くあります。
これは、当該URLをGoogleにインデックスしてほしいURLとしてサイトマップ(sitemap.xml)にて送信しているにもかかわらず、何らかの理由でクロールやインデックスできなかったことを示しています。サイトマップが適切に作成されていないことが原因であることがほとんどですので、サイトマップを作成する場合には、インデックスさせたいURL(正規URL)のみを記載するようにしましょう。
送信された URL が robots.txt によってブロックされました
robots.txtは、インデックスされる必要がないディレクトリやページをクロール対象外として指定する場合に使用します。
該当するURLがインデックスさせたいURLなのかどうか、robots.txtの内容が意図したものになっているかどうか、を確認し、必要に応じて修正しましょう。クロール結果に反映されるまでには数時間〜数日かかることがあります。
送信された URL に noindex タグが追加されています
インデックスされたくない旨の意思表示であるnoindexタグを記述しているページ(URL)がXMLサイトマップ(sitemap.xml)に含まれているときに生じるエラーです。意図してnoindexタグを記述しているページの場合は、基本的には、XMLサイトマップから当該ページを除外することでエラーが解消します。
参考:「送信されたURLにnoindexタグが追加されています」のエラー原因と改善方法
送信された URL が見つかりませんでした(404)
URLが存在しない場合に示される404エラー(404 not found)のページです。XMLサイトマップに404ページが含まれている可能性があります。XMLサイトマップを確認し、404ページが含まれていれば除外しましょう。
送信された URL はソフト 404 エラーのようです
ソフト404ページとは、ステータスコードは200であるものの、Googleが404ページのようなもの(コンテンツがない)とみなしているページのことです。
対応策としては、実際に404ページなのであれば、ステータスコードを適切に404に変
更し、該当のURLをサイトマップから削除しましょう。
しかし、コンテンツが存在しインデックスさせたいページなのであれば少し厄介です。Googleはそのページのコンテンツがインデックスに足らないとみなしているからです。
ページのコンテンツを改善しオリジナル要素を増やしたりすることで、エラーの解消ができることがあります。
サーバーエラー(5xx)
ステータスコードの500番台はWebサイトのサーバーに問題があると考えられるクロールエラーです。
まずは実際にページを開いてみて問題が継続していないか確認してみましょう。
そのうえで、以下に思い当たる点がないかどうかをチェックしてみてください。
・ 動的ページへのリクエストに伴う過剰なページ読み込みを減らす
・ ホスティング サーバーの停止、過負荷、設定ミスがないかどうかを確認する
・ Googleのクローラーを誤ってブロックしていないかどうか確認する
現在も問題が継続していないのであれば一時的なものである可能性もありますので、いったん様子見でよいでしょう。
「404」「503」などのステータスコードとは?
エラーメッセージの中にステータスコードにかかわるものがいくつかありますので補足します。
ブラウザでページにアクセス(Webサーバーにページの表示をリクエスト)した際に「404 not found」といったエラー画面が表示されることがあります。この際の「404」をはじめ、そのページの状態を示す3桁の数字はHTTPステータスコードと呼ばれ、Webサーバーがリクエストに対してどのようなレスポンスを返したかを示します。
HTTPステータスコードは、大きく分けて次の5つに分類されています。
・ 100番台 リクエスト処理中
・ 200番台 リクエスト完了、成功
・ 300番台 リダイレクト(移行)
・ 400番台 リクエスト失敗
・ 500番台 サーバーエラー
400番台、500番台のHTTPステータスコードが返ってきた場合は、Webサイトやサーバーに何らかの問題が発生していることを意味しています。400番台、500番台の主要なエラーコードとエラー要因を解説します。
403エラー(403 Forbidden)
そのページへのアクセス権がなく、閲覧を拒否されている場合に表示されるコードです。意図したユーザーにのみ見せたいページでは、ファイルのパーミッションや.htaccessなどでアクセスできるユーザーをシステム的に限定します。
意図してGoogleのクローラーを許可しない限り(Googleのクローラーには200を返さない限り)、ページの情報はクロール、インデックスされません。
404エラー(404 not found)
URLが存在しないページにアクセスした際に表示されるコードです。要因としては、以下のようなものが考えられます。
・ URLのスペルが誤っている
・ すでにサーバーから削除されたページにアクセスしている
・ ページのURLが変更されているが、リダイレクト設定がされていない
・ リンク切れを起こしている
当然のことながら、ページの情報はインデックスされません。
ソフト404エラー
Webサーバーが200番台(リクエスト成功)のHTTPステータスコードを返しているものの、検索エンジンが実質的に404ページであると判断したページです。
おそらくブラウザ上ではWebサイトがシステム的に設定した「ページが見つかりません」に類するページが表示されている状態で、ユーザーへの実害はないケースがほとんどです。
しかし、たまにコンテンツがあるにもかかわらず、ソフト404と判定されてしまうことがあります。この場合はコンテンツのオリジナル要素を追加するなどの施策が必要です。
いずれの理由にせよ、ソフト404と判定されたページはインデックスされません。
503エラー(503 Service Unavailable)
サーバーがサービス利用不可の状態にあることを示すエラーコードです。Webサイトにアクセスが集中してサーバーがリクエストを処理しきれなくなった場合や、サーバーメンテナンス中に表示されます。
もちろん503の状態ではGoogleは元あったページの情報を新たにインデックスすることはできません。
意図して一時的に設定するのであれば大きな問題はありませんが、意図せず出てしまったり頻発することは避けなければなりません。
まとめ
クロールエラーが生じているページはGoogleにインデックスされず、そのままではいくら施策を行っても、検索結果に出ることはありません。
意図してnoindexタグを付けたページがクロールエラー「送信された URL に noindex タグが追加されています」に挙がっている場合をはじめ、ページによっては実害がないこともあるでしょう。しかし、それを放置しておくことで、誤ってnoindexタグを付けてしまったページの存在に気づくことができず、トラブルを引き起こすリスクが生じます。
クロールエラーは実害の有無を問わず解消し、また再発しないよう運用することをおすすめします。