2006-02-03 - Nao_uの日記

■ フィルタリングできないスパム

こんなSPAMがきた
- http://d.hatena.ne.jp/sshi/20060202/p1

全文引用。

最近アドレス帳に登録していない方からメールが多く困っているのですが、貴方様も私のアドレスをご存知で送信しましたでしょうか？
11:12分付けで受信したそちらからのメールは、内容が空白で差出人にそちらのアドレス記載されているものでした。
基本的に私のこのアドレスはオークションや懸賞・コミュニティサイトでしか普段使用していないので、気になりこのように返信してみたのですが…。

凝ってるなあ。一瞬「本物か？？」と思ったけど、Google先生に聞いてみたら、いっぱいヒットした。最近流行りの手口のようだ。
ここまでくると、どんなスパムフィルターでもはじける気がしない。逆にこれをはじけるようになると、メールに慣れてない人のメールも全部スパム扱いしそう。しかし、このスパムは何したいんだろう？生きてるメールアドレスかどうか調べたいだけなんだろうか？

逆に考えれば、ワン切り番号検索と同じように多くの人に同内容のメールを送信していることがSPAMの判断基準として使えるので、「Google先生に聞いてみる」という行為そのものをフィルタリングの手段にすれば弾くことができそうだ。ただ、そうなるとスパム送信側も微妙に少しづつ内容を変えることで対処してくるだろうけど、それだけならベイジアンフィルタでもある程度は判断できる。

そのようなフィルタをくぐり抜けようと思ったら各個人に対してまったく違った内容の文章を送る必要があるけれど、ここまでくるとスパム送信側のコストが見合わなくなるだろう。

ちょうど一年ほど前にPopFile*1を使い始めてからはスパムに悩まされることも減ったのだけど、最近件名も本文もまったくない、空のスパムメールが頻繁に届くようになった。さすがのPopFileもメールアドレス以外に情報のないメールは初見では分類不能のようで、普段使っているフォルダに謎の無言メールが紛れ込むために迷惑している。こういうスパムの目的って、いったい何なんだろう？

現時点でのSPAMフィルタの高度化による返信率の低減と、SPAM送信にかかるコストの低下はどちらが勝っているんだろうか？SPAMのために消費される転送帯域や分類コストは、人類全体で見てどのくらいの損失になっているのだろう？

■ 単純な足切りによるスパムフィルタリング

知能の本質
- http://homepage3.nifty.com/mogami/diary/d0407.html#01t1

▼ どうも話がまとまらないけど、うだうだといってみます。
梅田望夫ブログの「『Google PC世代』という考え方」中に "when e-mail travels within Gmail rather than across the Internet" という一文があって、この一文に衝撃を受けた。もちろん本文の趣旨とは違うところで、反応していることは分かっている。
分散的な構造をもつインターネットを飛び石づたいに伝搬するというのが私のメールのイメージだったけど、一つ所のサーバで完結するGmailのようなイメージというのを考えたことがなかったので意外な感じがしたのだ。そして考えたことがなかったと言うことにも驚きを感じたのだ。そしてそれは実は案外トラフィックの意味でもそれほど悪くない。

さて話変わって、もし仮に全世界のユーザの何割かがgoogleの検索エンジンをつかっているように、もし全世界のユーザの何割かが単一のメールサービスを使う日が来たとする。すると、単に「あらかじめメーリングリストの許可を得ずに１万人以上にメールを出したものはスパム」というような機械的なルールでスパムを排除できる。この方法はいろいろ提案されているスパム対策のどれよりも強力でかつ正確だ。複雑なスパムフィルタのアルゴリズムよりも単純なあし切りのほうがより正確だということは面白い。
これは、サンプル数が巨大であれば単純なアルゴリズムのほうが、サンプル数の少ない場合の人工知能的な複雑なアルゴリズムよりもずっとうまく働くということだ。一方、ページランクがうまくいった理由もサンプル数の巨大さである。つまりgoogleのふるさととも言える。 Gmailがスパムフィルタをするかどうかは知らないけれど、それはgoogleの本質とすごく近いことなんじゃないかな。

さて、さらに思考は流れて、知能の本質などにも考えが及ぶ。 google検索を初めて使ったとき「確かにこのアルゴリズムはページの価値を判断できているように見える」と思ったものだ。しかしそのアルゴリズム自体は価値を見ているわけではない。自分で考えているわけじゃなくてリンクなどの外的な手がかりをつかってもっともらしい行動をしているだけなのだ。これがgoogleのアルゴリズムがうまくいったもう一つの理由である。
この二つは一見知的な振る舞いを機械的なアルゴリズムで実現する秘密のようなものな訳だけど、人間の脳も案外その程度のものかもしれない。

単純なアルゴリズムでも物量がある一線を越えると質に転換されて高度に機能することがある

当面のところは全体を網羅して把握することが難しいP2P的世界よりも、Googleのような一極集中型の方が効率の面で有利？（「全体が網羅しにくい」というのはP2Pの本質的問題ではないので時間が解決？）
本当に一極集中してしまうと、その一つがコケたらみんな動けなくなる？

脳はおそらく本質的なレベルでは大したことはしていない。しかし、個々は単純な要素であっても膨大な量を上手い形で接続することで質的に違う働きを行わせることができる？（それともチューリングマシンをどれだけ沢山接続しても計算不能なものは生み出せない？）

*1：http://www.forest.impress.co.jp/lib/inet/mail/antispam/popfile.html