サイトマップ・オートディスカバリって何?

「赤から」というお店の辛さ10の鍋に挑戦しようと思っているYu-ichiです:neko:

さて、クローラー巡回をスムーズに行なってもらうために
XMLでサイトマップを作成しているホームページが多いと思います。

では、その作成したサイトマップはどの様にクローラーに教えているでしょうか?

1つは、Googleウェブマスターツールなど、検索エンジンが提供するツールで
サイトマップを登録したり、そのほか手動で通知している方も多いと思います。

実は、最近知ったのですが「robots.txt」にサイトマップの場所を指定する方法がありました。
その名を「Sitemap Autodiscovery(サイトマップ オートディスカバリ)」というそうです。
この方法、2007年4月にサポートするという発表があったみたいです:cat_6:<シラナカッタ。。。

robots.txt」といえば、クロールされたくない場所を「Disallow」で除外したり
ロボット型検索エンジンに対する命令を記述するファイルです。
その中の好きな場所に以下の記述を追加するだけです。

<br />
  sitemap: http://URL/sitemap.xml<br />

たったこれだけです。:cat_5:
気をつけることは

  • 「robots.txt」はルート直下に配置する
  • サイトマップのアドレスはhttpから始まるフルパスで記述する
  • 大文字・小文字は関係なし

ということですかね・・・。
もちろん当たり前のことですがサイトマップへのURLを間違えないように。

また、複数のサイトマップがある場合は、同じ記述を複数書いても大丈夫です。

<br />
  sitemap: http://URL/sitemap1.xml<br />
  sitemap: http://URL/sitemap2.xml<br />
  sitemap: http://URL/sitemap3.xml<br />

なお、Googleなんかはこの記述が6個もあるので、それくらい増やしても大丈夫だと思います。
参考:yubiright:Google.co.jpのrobots.txtの中身:hamster_4:

今までそんなに重視していなかったrobots.txtですが
今後はここら辺もしっかり管理していかないといけないようです。

今回の記事は勉強になった!という方や、そんなの知ってるよ、常識じゃん。
という方も、応援クリックをお願いします。:kaomoji6:
:onegai: :yubiright: 人気ブログランキングへ:yubileft:

トラックバックURL

コメントを残す

メールアドレスが公開されることはありません。