煮ても焼いても食べられない「ワードサラダ」に気をつけよう

先日Blog検索にはgooを使っていると書いたばかりですが、検索結果を見ていると変なページがいくつも引っかかって来るのが気になっていました。書いてある内容は一見中身がありそうなのですが、実際にリンク先に飛んで読んでみると意味がさっぱりわからない文章が並んでいるのです。調べたところ、この手のスパムブログに使われてる技術を「ワードサラダ」と呼ぶそうです。

「ワードサラダ」とは

少し検索してみたところ早速出てきたので引用してみます。

スキー用品も結構置いてある。

この店がダメなら諦めようと思いながら無料リフト券プレゼントやスキー用品レンタル割引などの特典がつく小学生を今日、夕方からスキーのイベントに行って来ました。

うちから近かったので、凄く助かりました。

お読み下さい※2008NEW MODEL BURTON注文受付に関する注意 大事なところをスキー

引用元はここですがスパマーに協力したくないのでリンクはしません。

http://ski-snow.seesaa.net/archives/20071211-1.html

見て面白いのは部分的には意味をなしているのに、全体としてはさっぱり意味不明な文章になっているところでしょう。特に「大事なところをスキー」なんてところは意味不明すぎてギャグにすらなっています。

「言葉のサラダ(状のもの)」で「ワードサラダ」

ワードサラダは自動で様々なところから文章を抜粋し、それをある一定の法則に基づいて並び替えることにより生成されます。単なるランダムな文字の並びに比べて、コンピュータからは意味がある文章に見えるからです。結果、ワードサラダは検索エンジンに搭載されているスパムフィルタをすり抜けて、検索結果に表示されてしまいます。スパムフィルタはあくまで特定のアルゴリズムに基づいてスパムを排除しているだけで、実際に中身を読んで理解しているわけではないからです。機械にあたかも人間が書いているかのように見せかけることが、スパムフィルタを抜ける一番の方法というわけですね。

より詳しく知りたいなら、以下の記事などが役に立つと思います。

調べた限り、日本で使われ始めたのは約1年ほど前の2006年10月頃からのようです。

この時点ではまだ日本語のワードサラダはできておらず、対象もMLの様です。日本語版が出てきたのはこの後でしょうから、技術的にはかなり新しいといえるでしょう。

このスパム、検索の邪魔にしかならず非常にうざったいのですが、こちらも人間様なので知恵を働かせて何とかしましょう。スパマーに儲けさせるのもしゃくに障ります。見たところこの手のワードサラダのスパムブログには、ある程度の法則があるようです。

1.ブログ名が「○○について」や単語そのままの「○○」というタイトルが多い

○○は非常にメジャーな単語。コンピュータ関係なら「ビデオカード」や「CPU」「Windows」などがそのまま入ります。普通の人が管理しているとしたら、単語のみのブログ名はかなり不自然でしょう。

2.記事のタイトルがよく見るとおかしい

タイトルもどこからか単語を引っ張ってくるだけなのか、非常に簡素な場合が多いです。何かの商品の型番そのままなども良くあります。商品を買ったり使用したときに何かについて書くにしても、型番だけを記事のタイトルにすることはあまりないのではないでしょうか。

あくまでプログラムが自動でやっているだけなので、複雑な記事タイトルを付けるのが恐らく無理なのだと思われます。

3.記事のタイトルと本文の抜粋にまったく関連性がない

通常ブログの検索をするとブログの名前と記事名、本文の一部抜粋が表示されます。ワードサラダの場合は適当に集めた文章を脈絡なく接続してるだけなので、記事タイトルと本文が全然関係ない場合がかなり多いようです。

最後に

軽く注意しただけでもおかしく感じる部分はかなりあります。せっかく貴重な時間を使って検索しているのですから、スパムブログを踏んで時間を無駄にしたあげくスパマーに儲けさせるような事態にはなりたくないものですね。