翻译自:A Plan for Spam

(这篇文章描述了应用在Arc语言的练习作品——防垃圾在线邮件阅读器中的垃圾过滤技术。改进后的算法在《更好的贝叶斯过滤器》中描述。)

我认为阻止垃圾邮件是可能的,并且基于内容的过滤器是一种方法。如果你雇某人来阅读你的邮件并挑出垃圾邮件,他可能不会遇到什么困难。那么在不用人工智能的情况下,我们需要做多少工作来自动化这个过程?

我认为我们可以用一个相当简单的算法来解决这个问题。实际上我发现你可以仅仅用单词的垃圾概率的一个贝叶斯组合就可以对现今(2002年)的垃圾邮件过滤得不错。使用一个稍微调整过的(如下面描述)贝叶斯过滤器,我们现在在每1000封垃圾邮件中漏过滤少于5封,并且假正率为0。

人们开始写垃圾过滤器时常常并不会第一个就尝试统计的方法。许多黑客的直觉是试着写一个能识别垃圾邮件的独特属性的软件。你看着垃圾邮件并且想,这些无耻的家伙试着给我发送一些由“亲爱的朋友”开头或者主题完全由大写字母组成并且以八个感叹号结尾的邮件。我用一行代码就可以过滤掉这些东西。