先日Blog検索にはgooを使っていると
書いたばかりですが、検索結果を見ていると変なページがいくつも引っかかって来るのが気になっていました。
書いてある内容は一見中身がありそうなのですが、実際にリンク先に飛んで読んでみると意味がさっぱりわからない文章が並んでいるのです。
調べたところこの手のスパムブログに使われてる技術は「ワードサラダ」と呼ぶそうです。
少し検索してみたところ早速出てきたので引用。
スキー用品も結構置いてある。
この店がダメなら諦めようと思いながら無料リフト券プレゼントやスキー用品レンタル割引などの特典がつく小学生を今日、夕方からスキーのイベントに行って来ました。
うちから近かったので、凄く助かりました。
お読み下さい※2008NEW MODEL BURTON注文受付に関する注意 大事なところをスキー
引用元はここですがセキュリティ的に問題があるのでリンクはしません。
http://ski-snow.seesaa.net/archives/20071211-1.html
見て面白いのは部分的には意味をなしているのに、全体としてはさっぱり意味不明な文章になっているところでしょう。
(個人的には「大事なところをスキー」が気になってしょうがありませんが。)
これはすべて自動で様々なところから文章を抜粋し、ある一定の法則に基づいて並び替えることによってあたかも意味があるかのような文章を組み立てているとのこと。
これによって、検索エンジンに搭載されているスパムフィルタをすり抜けて、検索結果に表示させることができるのです。
スパムフィルタはあくまで特定のアルゴリズムに基づいてスパムを排除しているだけで、実際に中身を読んで理解しているわけではないからです。
あたかも人間が書いているかのように見せかけることが、スパムフィルタを抜ける一番の方法ということでしょう。
私の文章よりわかりやすいネタ元はこちら。
ワードサラダというスパムを知っていますか?ITmediaのブログでも最近話題に出てきています。
今ごろ「ワードサラダ」で驚いても遅いけれどさらに詳細に書かれているのはここでしょうか。
「ワードサラダ」とRSS取得による自動生成ページ&トラバなスパムたち多分ですが日本で使われ始めたのは約1年ほど前、2006年10月頃からのようです。
HAMにSPAMを混ぜてfilterを出し抜く手口この時点ではまだ日本語のワードサラダはできておらず、対象もMLの様です。
日本語版が出てきたのはこの後でしょうから、技術的にはかなり新しいといえるでしょう。
検索の邪魔にしかならず非常にうざったいのですが、こちらも人間様なので知恵を働かせて何とかしましょう。
スパマーに儲けさせるのもしゃくに障ります。
見たところこの手のワードサラダのスパムブログには、ある程度の法則があるようです。
1.ブログ名が「○○について」や単語そのままの「○○」というタイトルが多い
○○は非常にメジャーな単語。
コンピュータ関係なら「ビデオカード」や「CPU」「Windows」などがそのまま入る。
2.記事のタイトルがよく見るとおかしい
タイトルもどこからか単語を引っ張ってくるだけなのか、非常に簡素な場合が多いです。
何かの商品の型番そのままなども良くあります。
商品を買ったり使用したときに何かについて書くにしても、型番だけを記事のタイトルにすることはまずないでしょう。
3.記事のタイトルと本文の抜粋にまったく関連性がない
通常ブログの検索をするとブログの名前と記事名、本文の一部抜粋が表示されます。
ワードサラダの場合は適当に集めた文章を脈絡なく接続してるだけなので、記事タイトルと本文が全然関係ない場合が多いようです。
軽く注意しただけでもおかしく感じる部分はかなりあります。
せっかく貴重な時間を使って検索しているのですから、スパムブログを踏んで時間を無駄にしたあげくスパマーに儲けさせるような事態にはなりたくないものです。
コメント
- 諸悪の根源は
-
- posted by : タラやんが攫われてしまった [#/4iSVcwU]
- posted date : 2009 09/29 (Tue) 08:23
blog comments powered by Disqus自動生成ブログを規約で禁止していないアフィリエイト運営屋とブログレンタル屋が諸悪の根源です。
わたしは抗議のために通販なんかで買わない、を実践しています。