公開済みのコンテンツとあまりに似た内容のコンテンツは、重複コンテンツとしてGoogleに判定される可能性があります。重複コンテンツはSEOの評価に悪影響を与えることがあるため、判定を受けているかどうかをSEO担当者は正しく把握しなければなりません。
この記事では、重複と判定されるコンテンツの特徴やSEOの評価におけるデメリット、チェック方法を解説します。
重複コンテンツとは?
重複コンテンツとは、ドメイン内または複数ドメインにまたがって存在し、非常に似通った内容であるとGoogleが判定したコンテンツです。
重複コンテンツは、SEO上悪影響をおよぼす要因になりますが、必ずしもペナルティを受けるわけではありません。重複コンテンツが悪意なく発生してしまうケースがあることはGoogleも認識しており、公式ページでも悪意のない重複コンテンツ例として以下を挙げています。
<Googleが悪意のない重複コンテンツとして挙げている例>
- 通常ページとモバイル デバイス用の簡易ページの両方を生成するディスカッション フォーラム
- 複数の異なる URL で表示またはリンクされるオンライン ショップの商品
- ウェブページの印刷用バージョン
出典:重複コンテンツの作成を避ける|Google検索セントラル
重複コンテンツの対象となるのは、同一ドメイン内のコンテンツだけではありません。
提携サイトなど、公開済みの外部コンテンツと酷似している場合にも、重複コンテンツとみなされる可能性があります。
重複コンテンツとみなされる基準
Googleが重複コンテンツと判定する明確な基準は明かされていませんが、重複コンテンツとみなされやすいのは、以下の特徴をもつページです。
URLが異なるだけで内容がほぼ同一のページ
サイトの仕様などにより、異なるURLで同じコンテンツが表示されている場合、各ページは重複と判定されます。
このパターンの重複は、以下のようなケースで起こります。
- httpsとhttp
例)
http://example.com
https://example.com - wwwの有無
例)
https://example.com
https://www.example.com - index.htmlやindex.phpの有無
例)
https://www.example.com
https://www.example.com/index.html
https://www.example.com/index.php - コンテンツを変化させないパラメータの付与
例)
https://www.example.com?aaa
https://www.example.com? utm_source=xxx - トレイリングスラッシュ(“/”)の有無
例)
https://example.com/dir
https://example.com/dir/
メインコンテンツがほぼ同じページ
たとえば、同じ記事をサイト内の複数の領域で公開している場合、URLやサイドメニューは異なったとしても、ページのメインとなる部分は同一のものです。
このような場合、Googleから重複コンテンツであるとみなされます。
このパターンでは特に、シンジケーションにより別サイトでも記事を公開している場合など、異なるサイト間でも起こるため注意が必要です。
類似していてGoogleが違いを見いだせなかったページ
メインコンテンツが同一ではないものの、非常に似ている場合に起こる重複です。例えば、商品や求人などの一覧ページにおいて、条件が多少異なるというだけで、ほぼ内容が変わらないとみなされた場合には重複となってしまいます。
また、Googleも万能ではないため、コンテンツは異なるはずなのに重複と判定されてしまうこともあります。
なお、同じテーマやトピックについて述べているというだけで中身が異なる記事や、2つの記事の一部分だけ同じ文章や段落が用いられているが内容は異なる記事などは、基本的に重複コンテンツとみなされることはありません。
重複コンテンツはペナルティになる?
通常重複コンテンツと判定されただけでは、Googleのペナルティ対象になることはありません。先にも述べたとおり、重複コンテンツは自然に生まれてしまうものであり、Googleもそれを認めています。
また、一度重複コンテンツの判定を受けたページでも、その後正規ページと判断されれば検索結果に表示されます。
ただし、検索順位の操作を目的に作成されたコンテンツや、既存サイトの内容を転載しただけのコンテンツは、ペナルティを受けるおそれがあります。
どのようなコンテンツがペナルティ対象となるのかは、Googleが挙げている「無断複製されたコンテンツ」の具体例が参考になります。
<Googleが挙げる無断転載されたコンテンツ例>
- 他のサイトのコンテンツをコピーし、独自のコンテンツや付加価値を加えることなく転載しているサイト
- 他のサイトのコンテンツをコピーし、(語句を類義語に置き換えたり自動化された手法を使用したりして)若干の修正を加えた上で転載しているサイト
- なんらかの独自の体系付けやユーザーへの利便性を提供することなく他のサイトからのコンテンツ フィードをそのまま掲載しているサイト
- ユーザーに実質的な付加価値を提供することなく、他のサイトの動画、画像、その他のメディアなどのコンテンツを埋め込んだだけのサイト
引用:無断複製されたコンテンツ | Google検索セントラル
重複コンテンツによって生じるデメリット
ペナルティこそ受けにくいものの、重複コンテンツはSEO評価に良くない影響を与えることがあります。ここでは、重複コンテンツ判定を受けた場合に想定されるデメリットを解説します。
クローラビリティが悪化する
Googleの検索順位は、インターネット上を巡回する検索エンジンのクローラーが各コンテンツの内容を読み取った諸情報をもとに、品質や関連性を評価して決定されます。
Googleの検索結果に表示されるための前提として、すべてのページはGoogleにクロールされる必要がありますが、同一サイトでクロールできるページ数には上限(クロールバジェットと呼ばれます)があるため、リソースを消費したクローラーが、インデックスさせたいページに回ってこないケースが発生します。
クローラビリティを向上させるためには、サイト構造の最適化やサイトマップの送信だけでなく、サイト内の重複コンテンツを可能な限り減らすことも大切です。
アクセスやリンクを集約できなくなる
重複コンテンツの判定を受けた記事は、アクセス数や評価を分散させてしまいます。類似した複数のコンテンツがそれぞれインデックスされたとしても、特定のキーワードに対する検索順位は安定しません。
本来なら単一のページで獲得できるはずだったアクセス数や被リンク数を分けあうことになるため、結果的に施策効果を最大化できないのです。
Googleに重複コンテンツと判定されていないとしても、類似したコンテンツであれば同様の状況に陥る可能性があります。サイト全体を強化するためにも、重複・類似コンテンツを解消し、特定のページに評価を集約させることが大切です。
順位下落につながるおそれがある
重複コンテンツの存在は、サイト全体の評価を下げる要因にもなりえます。
実際に、重複コンテンツが大規模に発生しているサイトにおいて重複コンテンツの削除を行なった結果、検索順位が回復した事例もあります。このことから、重複コンテンツは検索順位に良くない影響を与えていると分かります。
重複コンテンツのチェック方法とエラーメッセージの例
コンテンツが重複であるとみなされていないかどうかは、サーチコンソールを使ってチェックできます。
ページ単位で調べたい場合にはURL検査ツールを、サイト単位で調査したい場合にはインデックスのページレポート(旧:インデックスカバレッジレポート)を使用するとよいでしょう。
重複コンテンツと判定されたときのメッセージ例
URL検査を行なったページが重複コンテンツとみなされている場合は、以下のいずれかのメッセージが表示されます。
- 重複しています。ユーザーにより、正規ページとして選択されていません
Googleが別ページを正規ページとしてみなしている状態です。
Googleの判断が正しいのであれば、canonical設定を行なえばよいのですが、重複と判断されたページをインデックスさせたいのであれば、改善が必要です。 - 重複しています。Googleにより、ユーザーがマークしたページとは異なるページが正規ページとして選択されました
canonicalなどを用いて該当のページを正規化しているが、Googleがそれとは別のページを正規ページとみなしている状態です。なぜそのようになっているのか調査したうえで、対策を講じる必要があります。 - 重複しています。送信されたURLが正規URLとして選択されていません
このページをサイトマップで送信している(インデックスさせたい)にも関わらず、別のページが正規化されている状態です。
該当ページをインデックスさせたいのであれば、正規化を削除し、インデックスさせる必要がないのであれば、サイトマップから削除します。
また、上記のメッセージが表示されなくても、重複コンテンツが一因で低品質だと判断され、インデックスされない場合もあります。
「ページがインデックスに登録されなかった理由」(旧カバレッジレポート)に「クロール済み-インデックス未登録」「検出-インデックス未登録」と表示されたら、重複などが原因でGoogleがインデックスする価値のないページと判断した可能性が高いと考えられます。
重複コンテンツが見つかったらどうする?
重複コンテンツの存在に気付いたら、状況に合わせて適切に対処する必要があります。
重複となっているページ群を特定する
同一サイト内の重複コンテンツを特定するには、Googleサーチコンソールでページのインデックス登録に対する問題の有無を確認します。
前述の重複となっているページのステータスのうち、重複したまま対処できていないのは「重複しています。Googleにより、ユーザーがマークしたページとは異なるページが正規ページとして選択されました」が該当します。
サーチコンソールのレポートを確認し、まずはどのようなURLで重複が発生しているかを確認しましょう。
レポートでは該当するステータスのページリストを確認することができます。
重複の発生原因を特定する
重複が発生しているページをURL検査にかけると、「Googleが選択した正規URL」を確認できます。
正規URLとは、複数あるページのうち、Googleがインデックスして検索結果に表示させることを決定したURLのことです。
「重複しています。Googleにより、ユーザーがマークしたページとは異なるページが正規ページとして選択されました 」は、サイト側で指示した正規ページとGoogleが選択した正規ページが異なる状況です。
実際のページを確認して、以下どちらの状況に近いのかを確認しましょう。
- ほぼ同じコンテンツ(重複)であるのにサイト側で正規化がされていないか、適切でないURLに正規化されているために、Googleが別のURLに正規化している状態
- 異なるコンテンツであるはずなのに、Googleが(誤って)別のURLに正規化している状態
重複を解消して評価やアクセスを集約させる
重複ページの対処法としては以下のようなものがあります。
- 現状のページは残したまま、正規化を行なう
- 重複ページを削除する、または発生しないようにする
- コンテンツを改善してオリジナルな価値のあるページであると認識されるようにする
そもそもどのような状況で重複であるとレポートされているかによって対応方法は変わります。
- canonicalタグの設定
ページを残したまま正規化設定を行なうにはcanonicalタグを使用します。
canonicalタグは、正規ページをGoogleに伝えるために設置するものです。重複コンテンツのなかで最も評価してほしいページのheadタグ内に記述します。
canonicalタグの記述方法や使い方は、以下の記事で解説しています。
- 301リダイレクト処理
wwwやindex.htmlの有無など、サイトの仕様上発生してしまうケースでは、ページの削除も選択肢に入ります。
ページを削除する場合、重複ページへのアクセスが少ない場合はそのまま404ページにしてもよいかもしれませんが、一般的にはリダイレクトを行ないます。リダイレクトとはユーザーがアクセスしたページとは別の任意のページに自動で転送するための処理です。重複コンテンツへのアクセスを、正規ページに転送します。
リダイレクト処理の種類や設定方法は、以下の記事で詳しく解説しています。
また、URLパラメータが原因で重複が発生している場合は、URLパラメータとページ生成ルールを見直し、さらにcanonicalやリダイレクトにより改善につながることがあります。
- ページにコンテンツを追加する
そもそも重複と判定されてしまったページをインデックスさせたいのに重複と判定されている場合には、オリジナルなページであると認識させるために、コンテンツの追加・改善が必要です。
外部サイトとの重複の対処法
重複の対象が外部サイトである場合、コントロールが難しくなります。記事のシンジケーション(提供・提携)の場合であれば、提供先の記事のnoindexやcanonicalを入れることが対策の一つと考えられます。
もし提携などではなく、違法にコピーされている状態なのであれば、サイト運営者に取り下げるよう連絡したり、DMCA申請したりすることを検討しましょう。
https://reportcontent.google.com/forms/dmca_search
正規化済みの重複コンテンツ
サーチコンソールに表示される重複のメッセージのうち、以下の2つはすでにサイト側で正規化が行なわれた状態です。
- 重複しています。送信されたURLが正規URLとして選択されていません
- 重複しています。ユーザーにより、正規ページとして選択されていません
前者については、重複を正規化している(=インデックスさせないつもりである)にも関わらず、サイトマップにて送信している(=インデックスさせたい)という、相反する状態になっています。
重複コンテンツをサイトマップに記載しているのであれば削除すればよいですし、インデックスさせたいのに誤って正規化が行なわれているのであれば、canonicalタグを削除するなどしましょう。
後者のメッセージは、重複の対応が適切に行なわれている状態です。特に対処の必要はありませんが、残しておく必要のないページであれば、canonicalより強い正規化シグナルである、リダイレクトの使用を検討しましょう。
重要なことは、重複コンテンツが発生した原因を理解し、それぞれのケースに合わせた対応をとることです。
とはいえ、サイト規模が大きく重複コンテンツも多く発生している場合は、検索順位への影響から施策の実行をためらうのも無理はありません。また、対処後の効果測定など、その後の作業にリソースを避けないケースもあるでしょう。
重複の明確な原因がわからない、対処法が正しいのか確信がもてないなどの場合は、SEOの専門家へ相談するのがおすすめです。
リソース不足でチェックの手が回らないケースや、社内対応が難しい重大なエラーなどに対しても、専門家ならではの知識と経験で素早い対応が期待できます。
サクラサクマーケティング株式会社は、SEO業界で約18年の実績があるコンサルティング会社です。コンテンツ設置後のインデックス状況はもちろん、重複をはじめとするエラーへの対応も迅速に行ないます。サービス内容の詳細は、以下のページをご確認ください。
重複コンテンツの発生を防ぐための対策5選
いかに重複コンテンツを発生させないかも重要です。ここでは、重複コンテンツの発生を防ぐために、日頃のコンテンツ制作で心がけるべき事前対策を5つ解説します。
共通部分に比べてメインコンテンツ部分が少ないページを量産しない
重複コンテンツは意図せず発生するものですが、極力数を減らす努力が必要です。
同一サイト内での重複コンテンツは、特定のテーマを扱うサイトで特に発生しやすくなります。テーマの特性上、既存記事と類似する内容を繰り返し解説する必要性が生じやすいためです。
同内容を何度もサイト内に記載するのは望ましくないため、共通する部分は解説の続きを既存記事への内部リンクで補足したり、内容によってはページを統合したりしましょう。
また、外部サイトとの共通部分が多いページは、コピーコンテンツと判定されかねません。検索結果で上位の記事を参考に作成した記事は意図せずとも類似しやすくなるため、独自の見解や自社で実施した調査結果など、オリジナル性のある情報を意識的に取り入れましょう。
このようなページは生成しないようにするか、正規化やnoindexなど、あらかじめ検索結果に表示させないための設定を行なっておくことをおすすめします。
301リダイレクトでURLを正規化する
重複コンテンツに判定されかねないページは、あらかじめ301リダイレクト処理をし、別ページへ転送する設定をしておきましょう。この処理は、以下のように複数の異なるURLが存在する場合、特定のページを表示させるために行ないます。
- 「https」と「http」
- 「index.html」の有無
- 「www」の有無
- 「トレイリングスラッシュ(/)」の有無
重複コンテンツが発生する前に正規ページのURLを決定し301リダイレクト処理を行なえば、Googleにインデックスされるページを任意の1ページにできます。
内部リンクのURLを正規化(統一)する
URLの正規化は、内部リンクも同様に行ないましょう。
リンク先のURLを正規化しておけば、クローラーがむやみに重複コンテンツを巡回することを防げます。重要なのは、いかにクローラーを効率よく巡回させ、正規化したページに評価を集めるかです。
内部リンクを含めたURLの正規化は、サイトの規模に関わらず実行することを推奨します。
URLパラメータをむやみに設定しない
URLパラメータは、情報をサーバーに送信するためにURLの末尾に追加する変数のことで、「?」や「&」以下で値を指します。
URLパラメータを設定すると、ページを閲覧したユーザーのアクセス解析を行なうことができ、実行済みの施策の効果測定や、マーケティング戦略の立案に大いに活用できます。
しかし、同一のコンテンツに複数のパラメータを生成したり、パラメータの順番を入れ替えただけのURLを設定したりすることは、重複コンテンツの発生原因になりえます。一定のルールに則り、URLパラメータを設定することが重要です。
URLパラメータの注意点は、以下の記事内で詳しく解説しています。
URL検査ツールでレンダリングできることを確かめてからページを公開する
サイト構造によっては、レンダリングされるかどうかを新規コンテンツの公開前に確認する必要があります。
Webマーケティング用語としての「レンダリング」の意味は、ページを構成するHTMLやCSSなどのプログラミング言語をブラウザで正しく表示されるように変換することです。
単一ページ内でWebアプリケーションを構成する構造(=SPA:Single Page Application)のサイトは、うまくレンダリングされない(レンダリングに時間がかかる)ことが原因で重複コンテンツに判定されかねません。
GoogleサーチコンソールのURL検査を活用して、正しくレンダリングされていることを公開前に確認しましょう。
まとめ
重複コンテンツは意図せずとも発生するものであり、ゼロにすることは現実的ではありません。また、悪意をもって作成されたコンテンツでなければ、ペナルティ対象ともなりにくいため、過度な心配は不要です。
しかし、重複コンテンツの存在は、アクセス数やSEO評価が分散するデメリットもあるため、極力減らすように心がけましょう。Googleからの重複判定への対処はもちろん、日頃のコンテンツ制作で重複を防ぐためにできることも少なくありません。
「自社のコンテンツが重複判定を受けているか判断が難しい」「重複しているけれど適切な対処がわからない」などの悩みをお持ちの場合は、SEOの専門家への相談が有効です。
サクラサクマーケティング株式会社では、中小企業様を対象にSEOコンサルティングを提供しています。重複コンテンツの対応にお悩みの企業サイト担当者様は、ぜひご相談ください。