「赤から」というお店の辛さ10の鍋に挑戦しようと思っているYu-ichiです
さて、クローラー巡回をスムーズに行なってもらうために
XMLでサイトマップを作成しているホームページが多いと思います。
では、その作成したサイトマップはどの様にクローラーに教えているでしょうか?
1つは、Googleウェブマスターツールなど、検索エンジンが提供するツールで
サイトマップを登録したり、そのほか手動で通知している方も多いと思います。
実は、最近知ったのですが「robots.txt」にサイトマップの場所を指定する方法がありました。
その名を「Sitemap Autodiscovery(サイトマップ オートディスカバリ)」というそうです。
この方法、2007年4月にサポートするという発表があったみたいです<シラナカッタ。。。
「robots.txt」といえば、クロールされたくない場所を「Disallow」で除外したり
ロボット型検索エンジンに対する命令を記述するファイルです。
その中の好きな場所に以下の記述を追加するだけです。
<br /> sitemap: http://URL/sitemap.xml<br />
たったこれだけです。
気をつけることは
- 「robots.txt」はルート直下に配置する
- サイトマップのアドレスはhttpから始まるフルパスで記述する
- 大文字・小文字は関係なし
ということですかね・・・。
もちろん当たり前のことですがサイトマップへのURLを間違えないように。
また、複数のサイトマップがある場合は、同じ記述を複数書いても大丈夫です。
<br /> sitemap: http://URL/sitemap1.xml<br /> sitemap: http://URL/sitemap2.xml<br /> sitemap: http://URL/sitemap3.xml<br />
なお、Googleなんかはこの記述が6個もあるので、それくらい増やしても大丈夫だと思います。
参考Google.co.jpのrobots.txtの中身
今までそんなに重視していなかったrobots.txtですが
今後はここら辺もしっかり管理していかないといけないようです。
今回の記事は勉強になった!という方や、そんなの知ってるよ、常識じゃん。
という方も、応援クリックをお願いします。