特定のページを検索エンジンの検索結果から削除する
金融系サイトで良く見かけるワンタイムパスワードが簡単なとき、すごく得した気分になるフジカワです、こんにちは。一方、そろそろ始まる夏物セールでは、何も買わずに帰るとすごく損した気分になるのがイヤなので、セールには行きたくありません。
驚きの検索結果
さて先日、管理サイトのSEOチェックの為、施策キーワードでgoogle検索を掛けました。
するとどうでしょう!なんと管理サイトのリダイレクトページが1位になってるではありませんか!ちなみに2位は管理サイトのトップページ。さて困った。少し前のリニューアル時にディレクトリ構造が結構変更したこともあり、リダイレクトページのPVが多いなぁとは思っていたのですが、もしかしたらその辺も影響あるのかもしれません。
というわけで、検索エンジンへの望まぬインデックスがあった場合の対処法と、事前に防ぐ方法を以下にまとめました。
ページ単位へのブロック施策
まずは検索結果から弾きたい個別のページ達への対応。
head要素内に
<meta name="robots" content="noindex">
を追記します。
各エンジン個別のname属性もあります。
・google:googlebot
・yahoo!:Slurp
「yahoo!には表示させたくないけど、googleには表示したい」等の特殊なケースの場合には有効です。
robots.txtによる施策
次の方法としてサイトのrootディレクトリにrobots.txtというファイルを設置する方法があります。ページ単位でのmeta記述だけでは上手くブロックが掛からないという場合もあるようなので、この方法と併用するのがベター。
記入例)
全ての検索エンジンに対して「cgiディレクトリ」と「error/404.html」をブロックしたい
User-agent: * Disallow: /cgi/ Disallow: /error/404.html
となります。この方法では「ディレクトリ名/」という書き方をすることで、ディレクトリ単位でのブロックも可能です。
個別に検索エンジンを指定したい場合はUser-agent名に、
google:googlebot
yahoo!:Slurp
bing(MSN):msnbot ※Bingに変わっても、botのUA名は変わらないようです。
を指定すれば良し。
全部まるごとブロックする場合は上記例のとおり、「*(アスタリスク)」を入れておきましょう。
ちなみに「Disallow」の部分を「Allow」にすると「クロールを許可する」という意味になるのですが、書かなくてもクロールは入ってくるのであまり意味はありません。
上記で記述したファイルを「robots.txt」というファイル名でrootディレクトリにアップロードしておけば、次に各検索エンジンがクロールした際に検索結果のindexから削除されます。
ウェブマスターツールから削除依頼を出す
「それだと間に合わない」、「一刻も早くindexから削除しないと炎上しちゃう!!」とう場合は、各エンジンで用意されているウェブマスターツールから削除依頼をします。例としてGoogleの場合を紹介しておきます。
1.まずはウェブマスターツールに登録。
2.ウェブマスターツールにログインし、トップから該当するサイトURLをクリック。
3.サイト設定 > クローラのアクセス]をクリック。
4.「URL の削除」タブをクリック。
5.「新しい削除リクエスト」をクリック。
6.ガイダンスにそってサイト、ページ、画像等を指定する。
以上で完了です。登録直後は該当のURLが「保留中」となりますが、一定期間後に削除されます。
他の検索エンジンでも似たようなフローでindexからの削除を受け付けておりますので、急ぎの場合はそちらを利用するとスムーズに事が運びます。
本来であれば
ほとんどの場合、ファイルをアップロードする前に「このファイルはindexされない方が良い」ということが分かってると思います。
事前にrobots.txtへ登録することで、indexされるべきじゃないファイルがindexされちゃうような困った事態を避けられますので、うまくリスクマネージメントをしていきましょう。