Googleのヒット件数は当てにならない
(2013/11/08: 補足を書きました。Googleのヒット件数について(続き))
「Googleの検索件数は当てにならない」と言うと、多くの人は「何をいまさら」という反応かもしれません。
当てにならないことぐらいわかってるよ、と。
でも、「当てにならない」でイメージするものがどの程度かは人によって違うと思います。
結果が2倍ぐらい違ったりする、程度に思っている人もいるかもしれません。
しかし、実際はそんなレベルでの話ではありません。
「本当は50件なのに500,000件と返ってくる」ようなことも珍しくありません。
たとえば、ツイッターで見たネタなのですが、"無い内定式" というキーワードで検索してみます。
267,000件。
多いですね。
ここで、10ページ目をクリックすると、次のようになります。
「59 件中 6 ページ目」*1
一気に4桁も減ってしまいました。
どちらが本当の数字に近いのでしょうか。
今回この件について書こうと思ったのは、最近ツイッターで、言語系の大学院生の方が次のようなことをつぶやいていたことがあったからです。
“뺏아서”848,000件なのに対して“뺏어서”345,000件。
ハングルなので違いがわかりにくいですが、「後者が規範的な形で、前者は非規範的な形なのに、前者のほうが数が多い」という文脈でした。
これを見てちょっとおかしいなと思い、ツイッター検索をしてみました。
すると、85万件のはずの前者のほうが、35万件のはずの後者よりもまばらです。
なぜこういうことが起きるのでしょうか。
一番の理由は、検索エンジンは「最適な検索結果を返す」ためのものであって「正確なヒット件数を返す」ことは目的としていないというものです。*2
検索エンジンは「最適な検索結果を返す」ことを目的に最適化されているので、ヒット件数はどうしても二の次になります。
ユーザが正確な件数を求めているなら、それも頑張って計算をするところでしょうが、実際のところはあまり求められていないようです。
その証拠に、モバイル版の Google 検索では件数の表示をやめています。
それでユーザーの不満の声が世間に満ちているということもないようです。
そういうわけで、検索のヒット件数は非常に当てにならない(数万倍のオーダーで違う結果が返ってくる)ため、ある表現がどれだけ使われているか、また表現Aと表現Bのどちらがよく使われているかといった指標にはなりません。
じゃあ、どうすればいいか。
上で書いたようなツイッター検索は手軽でいいのですが、これはあまりにも層が偏っている(若い層が多いなど)のではないかという懸念があります。
そこで私は、件数の多い少ないを知りたいときは、無関係なキーワードと一緒に検索ということをよくしています。
検索件数が当てにならないというのは検索結果が多い場合の話で、すべての結果が返されているときの件数は比較的正確なものになります。
上の「無い内定式」の検索で、ページを進めると数が急減したのは、すべての結果を取得して件数が判明したことによるものです。
表現Aと表現Bのどちらがどれくらい使われているかを知りたいとき、両方について同じように検索結果が減らすことができれば、平等に比較ができます。
その方法として、無関係な単語(リンゴでもミカンでも何でもいいのですが)と一緒に検索するというものが考えられるのですが、まったく無関係なものを選ぶというのも意外と難しいので、私は適当な数字を使うということをよくしています。
上の "뺏아서", "뺏어서" の場合、たとえば "26023" という数字と一緒に検索するとそれぞれ 4件と 19件となり、ツイッター検索の結果に近いものとなります。
この方法は、もちろん日本語にも使えます。
たとえば、「見当がつかない」と「検討がつかない」で、どちらがどれだけ使われているかを知りたいとします。
普通に調べると、それぞれ現時点で5,710,000件と2,700,000件です。
けっこう後者も健闘しているように見えて、いよいよ日本語も終わりかという気分になりそうなところですが、上で書いたようにこの数字は当てになりません。
そこで、適当な数字 "21163" と一緒に検索してみます。
(検索結果は最後のページまで見ます)
すると、次のようになります。
29:4 と、まだまだ日本語も捨てたものじゃないという感じですね。
(ただ、ツイッター検索では拮抗しているので、ツイッターのユーザー層ではすでに同じぐらい使われているということかもしれません)
ところで、日本語特有の注意点としては、1000以下の数字を使うと2chやそのまとめサイトが大量にヒットするので、件数は減らないわ結果は偏るわであんまりうれしくないことになってしまったりします。
そういうときは、適当な地名などを使ったりすることもあります。
ここで書いたような方法はバッドノウハウのようなもので、あまりきちんとした場に出せるようなものではないのですが、日本語や外国語の使用状況について直感を裏付けたりする程度には使えると思います。
(ところで、すごくどうでもいい話なのですが、「検索エンジンはなぜ見つけるのか」というのは変なタイトルのように思えます。なくした財布を見つけた人がいたとして、その人に「あなたはなぜ財布を見つけるの?」とか聞いたら、かなり哲学的な感じがしますよね。「検索エンジンはどうやって見つけるのか」のほうがいいと思うのですが、「プログラムはなぜ動くのか」のようなものに無理やり合わせたのでしょう。)