ニュースサイトを回っている最中にblogeyeというものを知りました。ネットで話題の単語を表示するというのはどこのサービスでもやっていますが、面白いのは任意の単語で検索すると、その単語の話題について書いているブログの執筆者の性別・年齢層・居住地(都道府県)をグラフ化して表示してくれる機能です。
今回はその著者属性推定アルゴリズムの精度がどんなものか軽く調べてみました。
通常はキーワードで検索し、そのキーワードがどの性別、年齢層、都道府県などに人気(興味)があるのか調べるものです。ですが今回は逆に、その性別、年齢層に人気がありそうなキーワードで検索して、その通りの結果が出るのかを調査してみましょう。(すべて調査日は2007年12月18日)
まずは軽く男性・女性の区別から。
男性を抽出するために「妻」、女性を抽出するために「旦那」を選んでみました。自分を書くときは通常一人称を使うでしょうが、配偶者を書くときには通常この辺りの言葉をよく使っているのを見ます。(男性は「妻」か「嫁」か迷いましたが……。)
妻
男性 : 71.57%
女性 : 28.43%
旦那
男性 : 10.61%
女性 : 89.39%
かなり高い精度のように見えますね。特に「旦那」だと9割が女性だと認識しています。
ところが「嫁」だと以下の結果となり男性率が落ちています。「ログ嫁」の様なスラングにも使われているのも原因なのかもしれません。
嫁
男性 : 64.69%
女性 : 35.31%
次は年齢層のテストといきましょう。元々が10代~40代に分かれてますので、それぞれの世代に適した言葉を選び、それに合致した結果が出れば、それなりに信用できるアルゴリズムといえそうです。独断と偏見で選んだ各世代がブログに書きそうな単語は以下の通り。
- 10代 - 「宿題」
- 20代 - 「卒論」
- 30代 - 「結婚」
- 40代 - 「年金」
正直なところ、30~40代はお題の設定にあまり自信がありません。30~40代の結果は参考程度にしておきます。おまけで男性率と女性率も掲載。
・10代 - 「宿題」
男性 : 44.13%
女性 : 55.87%
・20代 - 「卒論」
男性 : 52.86%
女性 : 47.14%
・30代 - 「結婚」

男性 : 48.74%
女性 : 51.26%
・40代 - 「年金」

男性 : 89.03%
女性 : 10.97%
画像にしてあるのは、検索結果に正確な数値が表示されないためです。文章で「多めだった」とかそんな表現ではわかりにくいため、結果画像の貼り付けで対応しました。(性別は正確な数字がマウスオーバーで表示されるので、ちょっと不思議ですが。)
結果としてはいちおう狙い通りに各年齢層がトップになっています。
10~20代はほとんど予想通りの結果で、ターゲットの年齢がトップになっています。「卒論」で40代がかなりのびているのが不思議ですが、これがアルゴリズムのミスで20代が40代に区分けされているのか、40代で大学へ行く人が多くなってきているのか、もしくは審査する側の教授のブログが結果に反映されているのかはよくわかりません。定年退職後に大学へ行くという例も増えているので、40代が「40代以上」という可能性もあります。
「結婚」はいちおう30代がトップなものの、全体的に広く浅くといった感じでしょうか。これはやはり検索ワードの設定ミスな気がします。
「年金」は10~20代の結果よりさらに顕著な差が見られます。実際に影響がある年齢が近づかないと興味が湧かないのも当然でしょう。この結果を見ても、40代はそれ以上を含むと考えた方が自然のような気がします。
残りは都道府県ですが、これはちょっとどう調べたらいいのかわかりません。都道府県名をそのまま入れてその通りの結果が出ても何の参考にもなりませんし、検索結果の数が少ないと、都道府県の欄は真っ先に「十分なデータがありませんでした。」と出てしまうのです。今回はここの部分は保留にさせてもらいます。
というわけで結論。
全面的な信頼を寄せる類のものではないにしろ、精度としてはかなり高い印象を受けました。 男性・女性の区別はかなりはっきりできているような気がしますし、年齢層の結果も予想を下回るものはありませんでした。今流行の言葉を検索し、それがどの層に受けているのかを手軽かつ素早く調べて、話のネタにするにはピッタリのように見えますね。面白そうなので、今後何回かはこのブログのネタにもしていこうと思います。
この記事へのコメント
コメント機能を利用するにはログインする必要があります。「Disqus」または「Twitter」「Google」「Facebook」などのアカウントが使用できます。