ここ 2 日間くらい goo ブログ検索に関して Apache のログとにらめっこしています。そして、わかったことは goo ブログ検索のクローラは 2 種類あるらしいこと。具体的には「 gooblog/2.0 」と「 gooblogsearch/2.0 」。
目次
goo ブログ検索の 2 つのクローラ
- gooblog/2.0 :更新 ping を送るとやってくるクローラ。サイトトップにアクセスしたあと、 index.rdf を見に行く
- gooblogsearch/2.0 :実際にインデックスしているクローラ。こいつが来た時点で最終更新日時が最新の記事の時刻に更新される
「 gooblog/2.0 」がきても「 gooblogsearch/2.0 」がこなかったら一生インデックスされない。どうやったら「 gooblogsearch/2.0 」が来るのかはなぞ(わかる人がいたら教えてほしい)。また「 gooblogsearch/2.0 」は初回の訪問でサイトトップにアクセスし、 RSS の URL を捕獲すると次からは、トップにアクセスしないで直接捕獲した RSS の URL を見に来る。だから、一度「 gooblogsearch/2.0 」に捕獲されたら、その RSS の URL は変わることはない。
gooblogsearch/2.0 に捕獲されている RSS の URL を確かめる
下記アドレスにアクセスし、オレンジ色の RSS のマークのところにマウスオーバーすると、 gooblogsearch/2.0 に捕獲されている RSS の URL が表示される。
http://blog.search.goo.ne.jp/search_goo/result/?mod=info&bu= (サイトトップの URL 、最後の「 / 」抜き)
例えば、このサイトだったら、下記。
http://blog.search.goo.ne.jp/search_goo/result/?mod=info&bu=http://www.1010uzu.com
捕獲されている RSS の URL は下記。
http://www.1010uzu.com/feed
goo ブログ検索の 2 つのクローラの挙動
前回の記事を投稿したときの「 gooblog/2.0 」と「 gooblogsearch/2.0 」の挙動を Apache の生ログから抜粋してみた。
210.165.9.64 – – [16/Mar/2010:00:15:56 +0900] “ GET / HTTP/1.1 ” 200 68639 “ - ” “ gooblog/2.0 (http://help.goo.ne.jp/contact/) ”
210.165.9.64 – – [16/Mar/2010:00:15:59 +0900] “ GET /feed/rdf HTTP/1.0 ” 200 187493 “ - ” “ - ”
210.173.171.133 – – [16/Mar/2010:00:21:04 +0900] “ GET /feed HTTP/1.1 ” 200 135413 “ - ” “ gooblogsearch/2.0 (http://help.goo.ne.jp/contact/) ”
こんな感じで、「 gooblog/2.0 」がやってきてから「 gooblogsearch/2.0 」がやってくるまで数分のタイムラグがある。
今後、解明すべき点は何をトリガーとして「 gooblogsearch/2.0 」がやってきているのかだ。