サイトマップ・オートディスカバリって何？

「赤から」というお店の辛さ10の鍋に挑戦しようと思っているYu-ichiです :neko:

さて、クローラー巡回をスムーズに行なってもらうために
XMLでサイトマップを作成しているホームページが多いと思います。

では、その作成したサイトマップはどの様にクローラーに教えているでしょうか？

１つは、Googleウェブマスターツールなど、検索エンジンが提供するツールで
サイトマップを登録したり、そのほか手動で通知している方も多いと思います。

実は、最近知ったのですが「robots.txt」にサイトマップの場所を指定する方法がありました。
その名を「Sitemap Autodiscovery（サイトマップオートディスカバリ）」というそうです。
この方法、2007年4月にサポートするという発表があったみたいです :cat_6: ＜シラナカッタ。。。

「robots.txt」といえば、クロールされたくない場所を「Disallow」で除外したり
ロボット型検索エンジンに対する命令を記述するファイルです。
その中の好きな場所に以下の記述を追加するだけです。

<br />
  sitemap: http://URL/sitemap.xml<br />

たったこれだけです。 :cat_5:
気をつけることは

「robots.txt」はルート直下に配置する
サイトマップのアドレスはhttpから始まるフルパスで記述する
大文字・小文字は関係なし

ということですかね・・・。
もちろん当たり前のことですがサイトマップへのURLを間違えないように。

また、複数のサイトマップがある場合は、同じ記述を複数書いても大丈夫です。

<br />
  sitemap: http://URL/sitemap1.xml<br />
  sitemap: http://URL/sitemap2.xml<br />
  sitemap: http://URL/sitemap3.xml<br />

なお、Googleなんかはこの記述が6個もあるので、それくらい増やしても大丈夫だと思います。
参考 :yubiright: Google.co.jpのrobots.txtの中身 :hamster_4:

今までそんなに重視していなかったrobots.txtですが
今後はここら辺もしっかり管理していかないといけないようです。

今回の記事は勉強になった！という方や、そんなの知ってるよ、常識じゃん。
という方も、応援クリックをお願いします。 :kaomoji6:
:onegai: 　 :yubiright: 　 :yubileft:

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル