トイレのうず

goo ブログ検索のクローラは2種類あるらしい

当記事はアフィリエイト広告を掲載しています。

ここ 2 日間くらい goo ブログ検索に関して Apache のログとにらめっこしています。そして、わかったことは goo ブログ検索のクローラは 2 種類あるらしいこと。具体的には「 gooblog/2.0 」と「 gooblogsearch/2.0 」。

goo ブログ検索の 2 つのクローラ

  • gooblog/2.0 :更新 ping を送るとやってくるクローラ。サイトトップにアクセスしたあと、 index.rdf を見に行く
  • gooblogsearch/2.0 :実際にインデックスしているクローラ。こいつが来た時点で最終更新日時が最新の記事の時刻に更新される

「 gooblog/2.0 」がきても「 gooblogsearch/2.0 」がこなかったら一生インデックスされない。どうやったら「 gooblogsearch/2.0 」が来るのかはなぞ(わかる人がいたら教えてほしい)。また「 gooblogsearch/2.0 」は初回の訪問でサイトトップにアクセスし、 RSS の URL を捕獲すると次からは、トップにアクセスしないで直接捕獲した RSS の URL を見に来る。だから、一度「 gooblogsearch/2.0 」に捕獲されたら、その RSS の URL は変わることはない。

gooblogsearch/2.0 に捕獲されている RSS の URL を確かめる

下記アドレスにアクセスし、オレンジ色の RSS のマークのところにマウスオーバーすると、 gooblogsearch/2.0 に捕獲されている RSS の URL が表示される。
http://blog.search.goo.ne.jp/search_goo/result/?mod=info&bu= (サイトトップの URL 、最後の「 / 」抜き)

例えば、このサイトだったら、下記。
http://blog.search.goo.ne.jp/search_goo/result/?mod=info&bu=http://www.1010uzu.com

捕獲されている RSS の URL は下記。
http://www.1010uzu.com/feed

goo ブログ検索の 2 つのクローラの挙動

前回の記事を投稿したときの「 gooblog/2.0 」と「 gooblogsearch/2.0 」の挙動を Apache の生ログから抜粋してみた。

210.165.9.64 – – [16/Mar/2010:00:15:56 +0900] “ GET / HTTP/1.1 ” 200 68639 “ - ” “ gooblog/2.0 (http://help.goo.ne.jp/contact/) ”
210.165.9.64 – – [16/Mar/2010:00:15:59 +0900] “ GET /feed/rdf HTTP/1.0 ” 200 187493 “ - ” “ - ”
210.173.171.133 – – [16/Mar/2010:00:21:04 +0900] “ GET /feed HTTP/1.1 ” 200 135413 “ - ” “ gooblogsearch/2.0 (http://help.goo.ne.jp/contact/) ”

こんな感じで、「 gooblog/2.0 」がやってきてから「 gooblogsearch/2.0 」がやってくるまで数分のタイムラグがある。

今後、解明すべき点は何をトリガーとして「 gooblogsearch/2.0 」がやってきているのかだ。

関連記事

ドリコム RSS が重すぎるのの応急処置
Web制作Webサービス
thumbnail
AOL Reader へ Google リーダーから移行してみた
Webサービス
AOL Reader
AOL Reader と Yahoo! Pipes の相性が悪い
Webサービス
AOL ReaderでYahoo! Pipesが取得されない
Feed を効率よくチェックするために改善したこと
MaciPhoneWebサービス
thumbnail
最近の Google さんの偏食ぶりにもの申す
Webサービス
thumbnail
Google に中年男性だと思われているらしい
Webサービス
ユーザー属性