A Plan For Spam を読んだ
なぜ本文の内容からspamを判断するか
spamメールはユーザがメールを読んで、それによって行動を起こすことを期待して送られる。もちろん実際にspamメールを読むユーザは少ないし、それによって行動するユーザはさらに少ない。しかしそれでもspamメールはメッセージを届けなければならない。それがspamメールの宿命だからである。そのため本文を解釈してspamかどうかを判定してくれるソフトウェアを書くことが出来れば、spamメールは間違いなくはじくことが出来折る。
一番怖いこと
spamフィルタの設計するにあたって気をつけなければいけないことはなんであろうか。それは可能な限り後検出を起こさないようにすることである。spamフィルタの動作の中でspamメールの誤検出が一番怖い。誤検出とはhamメールをspamメールと判定してしまうことである。spamフィルタを作るならこれを一番に避けなければならない。なぜなら正しいメールを失うことは、spamメールを受け取ることよりも何倍も被害が大きいからである。また次の場合に誤検出の危険性は上がっていく。
1.の場合の理由は簡単である。大量にspamメールにhamが埋もれてしまいやすくなるからである。大量のspamメールの中から目的のhamメールを見つけ出すのは非常に難しい。
2.の場合に誤検出の危険性が上がるのは奇妙な話である。しかし良く考えてみると納得できる、フィルタの性能が十分によければユーザはそれを信じて、フィルタがspamだと判定したものは無視するからである。
対策として
誤検出は怖い。では誤検出を避けるために開発者はどんなことが出来るであろうか。方法の一つとして挙げられるのは確率にバイアスをかけることである。