検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入(URLの正規化) :: SEM リサーチを試していて、その関係で、自分のサイトのRSSがどのように参照されているかをちょっと調べてみたのだが、古いRSSへのアクセスが結構いまだに残っているものだと再認識した。
このサイトのRSSはhttp://diary.mrmt.net/rssなのだが、当初別のWeb日記システム (TDS)を使っていたり、そんなこんなでかれこれ9年運用しているこのサイトのRSSのURLは、いままで以下のような変遷をたどっている。
- http://diary.mrmt.net/tds_rss100.php
- http://diary.mrmt.net/rss091.cgi
- http://diary.mrmt.net/rss100.cgi
- http://diary.mrmt.net/index.rdf
これら古い文書へのアクセスに対しては301 Moved Permanentlyでhttp://diary.mrmt.net/rssを案内しているから、こちらとしては充分canonicalな誘導をしている。具体的にはRedirect permanentしている。
また、これらのURLは、すべて3年以上昔のものである。つまり、かれこれ3年以上、新しいURLに 301 で誘導しつづけている。
で、むかしma.la氏がamebloに対して怒っていたように、気の利いたRSS feederなら、いつまでも古いURLにアクセスしつづけたりなどしないものだと。
とはいえ、実際はそうでもないようだ。この一週間、過去7日の、これら obsolete な RSS URL に対するアクセスを、user agent ごとにざっくり集計してみた結果。
あきらかに単なるcrawlerだろ、ってのは除外してます。いかにもRSS feederと思われるものだけカウント。ある程度 UA は同一視して数えてます。同一視するために違いを無視したところが「...」のところです。
264 Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; ...
66 Mozilla/4.0 (compatible; MSIE 6.0; ...
64 livedoor FeedFetcher/0.01 (http://reader.livedoor.com/; ...
41 YahooFeedSeekerJp/2.0 ...
29 Modiphibot/0.91 (http://www.modiphi.com/; ...
21 Biz360 spider (blogsmanager@biz360.com; http://www.biz360.com)
16 Mozilla/5.0 ... Firefox/3.0....
3 Mozilla/5.0 ... Thunderbird/2.0.0.19
3 Hatena RSS/0.3 (http://r.hatena.ne.jp; ...
1 Labrador/0.2; http://ir.dcs.gla.ac.uk/labrador; craigm@dcs.gla.ac.uk
古いRSS URLって、なかなか廃止はできないもんだなあ。
それと
64 livedoor FeedFetcher/0.01 (http://reader.livedoor.com/; ...
まあみんないろいろあるさ。
ちなみに、ただしくhttp://diary.mrmt.net/rss文書が取得されているのは6229回。
あと論外として、
とか、とりあえずその辺にRSSが落ちていないかなとか、あるいはGET /もげ/rss
GET /ふが/ほげ/rss
のparseもロクにできない<link rel="alternate" type="application/rss+xml" title="RSS" href="/rss" />
Baiduspider+(+http://help.baidu.jp/system/05.html)のようなクズもいるが、当然こんなものはそもそもアクセス自体denyしているので関係ない。