恐ろしいほど早いGoogleのインデックス速度

皆さんは普段どの検索エンジンを利用しているでしょうか?

私はもっぱらGoogleで、Blog検索にはGooを利用しています。普段GoogleのWeb検索で検索していると当然多数のBlogが引っかかってくるのですが、気になったのがそのインデックス速度。当日アップロードされたと思われるものが、普通に検索結果に出てくるのです。

いつもGoogleを(Blog管理者としてもユーザとしても)利用している身としては、ページがアップロードされてから、どれぐらいの時間で検索可能になるか(インデックスされるか)はやはり気になるところです。ということで、実際に自分のBlogでエントリを投稿してから、Googleで検索可能になるまでの時間を計測してみました。

皆さんの予想はどれぐらいでしょうか?
半日?6時間?3時間?
いやいや、それどころではない驚きの結果が私を待ち受けていたのです。

Web検索とBlog検索の違い

GoogleもYahoo!もそうなのですが、普通の検索エンジンはWeb検索とBlog検索でモードが分かれています。これは利用者が検索対象を絞り込みたいというのもあるのですが、基本的にデータベースへのインデックス(登録)のされ方が違うのです。

Web検索用のデータベースは、クローラと呼ばれる自動巡回Botがリンクをたどりつつ様々なページをインデックスしていきます。従って、新しいページを追加したりページを更新しても、検索クローラがサイトに来てくれない限りは、検索結果に反映されることはありません。
仕組みとして根本的にタイムラグが生じてしまうのです。一昔前までは、検索エンジンに登録されるまで2~3週間待つというのは当たり前でした。

Blog検索はというと、こちらはWeb検索の方法をそのまま使うわけにはいきません。更新に手間がかかるWebsite(ホームページ)と違い、Blogは手軽に更新できることが特徴の一つです。一日にいくつものエントリを投稿するBlogも決して珍しくありません。Web検索のような「クローラの自動巡回」を待っていては、Blog特有の「速さ」に検索サイトがまったくついていけないのです。ある日のニュースの反応を検索して、実際に検索結果に反映されるのが1週間後では話になりません。

そこで使われているのが、「Ping」による更新通知です。更新と同時にPingサーバに更新情報が送られ、Blog検索は即座にそれを検索結果に反映させます。同じ検索ワードでも検索結果は秒刻みのリアルタイムで変わり、10秒前に検索結果に出てきたBlogが「今」は遙か後方に押しやられているということも日常茶飯事です。

そんなに更新が早いなら、Web検索もPingを使えばいいと考える方もいるかもしれません。しかし、そうはいかないのです。Blog検索で最も重要なのは速さであり、検索精度はお世辞にも高いとはいえません。検索結果の並び順も関連度ではなく更新日時であることが一般的です。

最初にある程度のスパムフィルタは通していますが、速度を落とさないために記事の内容や充実度をチェックしている余裕はありません。エントリを投稿して間もない場合、普通はBlog検索では出てくるがWeb検索では出てこないという状態になるはずです。つまり、「速度のBlog検索」と「質のWeb検索」というように役割がしっかりと分担されているわけです。(ただし、GoogleのBlog検索は並び順がデフォルトで「関連性」となっていたり、非常に強力なスパムフィルタが搭載されているなど、他のBlog検索とは少し特徴が違うのですが。)

Blog環境など

上記内容をふまえた上で、このBlogのエントリがGoogleの「Web検索」でいつ表示されるのかを測定しました。Web検索で出てくるということは、GoogleのクローラがBlogに来て最新のエントリをインデックスに登録してくれたことを意味します。私がやることは普段どおりにエントリを投稿するだけなのですが、他の人と前提条件が違う可能性があるので環境をきちんと書いておきます。

  • Googleウェブマスターツールを使っている
  • Googleウェブマスターツールでクロール頻度を「速い」にしている
  • エントリの投稿直後に必ずGoogleウェブマスターツールでサイトマップの更新をおこなう

要するにGoogleウェブマスターツールを使っているだけなのですが、これによってGooglebot(クローラ)が来る速度が上がっていることも考えられます。(少なくとも来る頻度が「標準」のところより多いことは間違いなさそうですが、あくまで設定しているのは「頻度」なので来るまでの時間が短縮されているかは不明。)

テストを行ったのはこの一つ前のエントリで、「Googleリーダーのfaviconが変わってた」です。エントリの投稿日時は「2008年01月27日21時58分」で、これは「保存時の時間で投稿」しその後も上書きや日付の変更は行っていないので更新はされていません。

Google検索をとにかく連打する

上記のエントリーを投稿した後、即座にGoogleウェブマスターツールにログインしてサイトマップを更新しました。サイトマップを更新すると「入力」の日時が更新され、「ステータス」が保留状態になります。(画像では切れているのですが、右側にあります。)当然ながらこの状態ではGoogleにインデックスされていません。

メニューを何度もクリックして画面を更新していると、サイトマップが再ダウンロードされたことがわかりました。時間は22時07分で、Blogを更新してから約9分後です。

サイトマップが更新された画面

入力が7分前でダウンロードが5分前ですから、サイトマップの更新作業から実際にサイトマップが再ダウンロードされるまで2分ということです。ずいぶんレスポンスが早いように感じますね。いちおうこの時点でも検索してみましたが、まだインデックスされてはいませんでした。

新しいサイトマップがGoogleに認識されたことがわかったので、今度はいつGooglebotが来てインデックスに登録されるかが問題です。(サイトマップをGooglebot自体がチェックしている可能性もありますが、この場合でも即座にインデックス化されるとは考えにくい。つまり、Botが来るタイミングとインデックス化されるタイミングにはズレがあるはず。)エントリのタイトルを検索ボックスに入れて、ひたすら検索ボタンを連打。すると大して待つこともなく、あっさりと検索結果に出てくるじゃないですか。

検索結果に出てきた瞬間

時間は22時10分で、サイトマップの更新をGoogleウェブマスターツールで確認してからたった3分です。画面では「1分前」という時間が表示されているので、実際は22時09分辺りにインデックスされたのかもしれません。

早さのキモはGoogleウェブマスターツールか?

わかりやすくするために時系列で並べてみましょう。

  1. 21時58分 - Blogのエントリを投稿
  2. 21時59分 - Googleウェブマスターツールでサイトマップの更新作業
  3. 22時01~02分 - Googlebot(?)がサイトマップをダウンロード
  4. 22時07分 - Googleウェブマスターツールでサイトマップの更新を確認
  5. 22時09分 - Googleにインデックスされる
  6. 22時10分 - GoogleのWeb検索に出てくるようになる

過程はともかくとして、最初と最後の時間を見ればエントリの投稿から約12分弱でGoogleにインデックスされたということです。上記過程のどこかでクローラーがこのBlogに来ていたのでしょう。Blog検索ならともかく、Web検索でこの速度というのは驚異的な早さではないでしょうか。このサイトはBlog内検索にGoogleを使っていますが、これだけの時間で検索結果に出てくるなら特に困ることはなさそうです。

ただ一つ注意して欲しいのは、このインデックス速度にGoogleウェブマスターツールが影響しているかどうかはわからないということです。このBlogは更新と同時にGoogleにPingを送るようになっており、それに反応してGooglebotが来た可能性もあります。私には比較対象がないのでわかりませんが、ウェブマスターツールを使わなくても同じ程度の時間でインデックスされるかもしれません。インデックスが早くなると期待してウェブマスターツールを使ってみて、実際に何の効果がなかったとしても何の責任も取れませんでご了承のほど。