Auswahl aus Spam-Test Nr. 13, 05.09.2003


Auswahl aus Spam-Test Nr. 13, 05.09.2003

RBL (Realtime Blackhole List). Nutzen oder Schaden?

Von Alexej Tutubalin

Was ist eigentlich eine RBL (Realtime Blackhole List)?
Die Dienste der RBL waren das erste effektive Mittel im Kampf gegen Spam. Diese Dienstleistung erschien 1997 und wurde schnell populär. Alle diese Dienste sind ähnlich aufgebaut - es gibt eine Liste von 'schlechten' IP-Adressen, deren Zugang in Echtzeit (real time) über ein DNS Protokoll läuft. Email-Server gleichen zum Zeitpunkt des Empfangs eine neue eMail mit einer RBL ab und prüfen damit, ob die IP-Adresse des Absenders 'schlecht' ist. Grundlage für eine Absage, die eMail anzunehmen, bildet demnach die RBL. Die meisten Programme moderner Mail-Server können heute mit RBL Diensten arbeiten.
Die Simplizität dieser Idee hat einen evidenten Nachteil - Grundlage der Entscheidung über Empfang oder Absage einer eMail bleibt einzig die IP-Adresse des Absenders (Anwenders oder anderen Servers). Gerät daher die IP-Adresse eines Mail-Servers auf die RBL, so wird die Post dieses Servers von allen anderen Servern abgelehnt, die diese RBL benutzen. Das bedeutet, dass die gesamte Post (und demnach nicht nur Spam) dieses Servers abgelehnt wird. Natürlich gibt es auch weniger rigide Einstellungen, doch die Praxis hat gezeigt, dass die Mehrheit der Briefe abgelehnt wird, wenn ein Server erst einmal in die Liste aufgenommen wurde.
Zur Zeit gibt es eine Reihe von unterschiedlichen RBL-Dienstleistungen, die sich vor allem durch die Politik der Systemadministratoren unterscheiden. Es existieren 'extremistische' Server (so verspricht z.B. blars.org bereits bei Androhung eines Gerichtsverfahrens die Aufnahme in die RBL) wie auch eher moderate mit bestimmten Regeln der Aufnahme in - und das Streichen aus der RBL. RBL-Dienstleistungen werden heute in starkem Maße von Internet-Providern, eMail-Diensten und Unternehmen in Anspruch genommen. Oft wird die Qualität der RBL nur nach einem Kriterium bestimmt - der Quantität von Spam, der über den eMail-Server durchgeht. Gelingt es die Anzahl von Spam zu reduzieren, so hält man den RBL-Service für gut. Gleichzeitig gibt es jedoch auch ein nicht weniger wichtiges Kriterium, das wir hier genauer untersuchen wollen: Wie viel 'gewöhnliche' Post beim Empfänger nicht ankommt.
Problem der Fehlalarme
Ein Fehlalarm (False Positive) definiert man als den Fall, wenn eine eMail, die der Empfänger nicht als Spam klassifiziert hätte, den Empfänger nicht erreicht. Der Empfänger erfährt hierüber gewöhnlich nichts oder nur zufällig ('Ich habe Dir geschrieben' - 'Ich habe nichts bekommen'). Der Autor ist zum ersten Mal im Sommer 2001 auf dieses Problem gestoßen, als er auf eine wichtige eMail wartete und dann diese nicht erhielt. Da ich wusste, dass der Absender die Nachricht wirklich abgeschickt hatte, begann ich die LOG-Dateien meines Mail-Systems durchzugehen und stellte zu meinem Schrecken fest, dass die eMail abgelehnt wurde, da der Mail-Server des Absenders (genauer der Mail-Server des Internet-Providers) auf einer RBL des ORDB Dienstes war. Es war klar, dass alle Mail-Systeme, die während dieser Zeit ORDB zur Spam-Filterung verwendeten, simultan alle eMails der Clients dieses Providers ablehnten (keines geringeren als 'Russia Online'). Da das Verlustrisiko einer eMail mir zu hoch ist, verwende ich seitdem nicht mehr die Dienste einer RBL für den Empfang von eMails.
Gleichzeitig benutzen viele Internet Provider eine RBL zum Empfang und Filterung 'schlechter' eMails. In der Internet-Gemeinschaft herrscht die Meinung, dass der Anteil an Fehlalarmen gering bleibt, solange man keine 'extremen' RBL-Dienste in Anspruch nimmt. Es gibt natürlich auch die entgegengesetzte Meinung, dass der Absender selbst daran schuld ist, wenn er eMails über einen Server schickt, der sich auf einer RBL befindet. Gleichzeitig hört der Autor dieser Zeilen oftmals die Überzeugung: RBL filtert bei uns den gesamten Spam fast gänzlich heraus. Alle diese Ansichten sollten gegeneinander abgewogen werden.
Wie effektiv ist eine RBL und wie hoch der Anteil an Fehlalarmen?
Wie bereits erwähnt, ist es schwer die Fehlalarme eines RBL-Dienstes einzuschätzen, da die eMail ja beim Empfänger in diesem Fall nicht angekommen ist. Um die Effektivität im Kampf gegen Spam einzuschätzen, muss man die Anzahl der über RBL abgelehnten Spam-Mails mit der Anzahl der bis zum Empfänger durchgedrungenen Spam-Mails vergleichen.
Daher ist es von Vorteil, wenn man eine hohe Vergleichszahl von eMails hat, die über andere Methoden in Spam und nicht Spam gefiltert wurden. Der Autor konnte ein solches Archiv über eine längere Periode anlegen um eine Vergleichsanalyse durchzuführen.
In der Analyse wurden drei Arten von eMails berücksichtigt:
  • Spam. 17077 eMails vom 26.06.03 bis 31.08.03 auf dem Mail-System des Autors empfangen (ja, ich erhalte viel Spam). Der Spam wurde automatisch herausgefiltert (SpamAssassin + Spamtest) und manuell auf Fehlalarme überprüft.
  • Nicht Spam 1. Wichtige eMails (die beantwortet oder extra gespeichert wurden), 6537 eMails in der Zeit von Mai bis August 2003. Das sind die eMails, die ich auf keinen Fall verlieren will.
  • Nicht Spam 2. Die gesamte eingehende Post (ohne Spam) inklusive Massensendungen und ähnliche Dinge. 18928 eMails in der Zeit von Mai bis August 2003.
Aus allen eMails wurden die IP-Adressen der Server, von denen sie auf mein System kamen, gesondert und mit einer RBL abgeglichen. Die Untersuchung wurde am 1. September durchgeführt.
Es wichtig zu erwähnen, dass die RBLs in der Regel dynamische Listen darstellen; bestimmte IP-Adressen, die zum Zeitpunkt des Empfangs einer eMail auf einer Liste waren, können dort bereits verschwunden sein. Andererseits gibt es auch Adressen, die sich jetzt dort befinden, aber zur Zeit des Empfangs nicht in der Liste eingetragen waren. Gleichzeitig kann man erwarten, dass sich Effektivitätskoeffizient und Anzahl der Fehlalarme insgesamt nicht geändert haben.
An der Untersuchung nahmen zwei RBLs realer Mail-Systeme teil. Diese Listen wurden freundlicherweise den Teilnehmern der Massensendung antispam@ofisp.org zur Verfügung gestellt. Inhalt der Listen und Information über die Resultate befinden sich im Anhang.

Testergebnisse

Effektivität der Spam-Filterung
Unter dem eingegangenen Spam waren 17077 eMails mit 9557 verschiedenen IP-Adressen. Die erste RBL entdeckte 10437 eMails (61%) mit 6750 IP-Adressen (70%). Die zweite Liste entdeckte 7572 eMails (44%) mit 4968 verschiedenen IP-Adressen (52%).
So werden IP-Adressen effektiver entdeckt als eMails, was bedeutet, dass die IP-Adressen, von denen aus viel Spam kommt eine höhere Chance haben in einer RBL aufgenommen zu werden. Die Effektivität der Filterung von Spam-Mails ist dagegen nicht sehr hoch - nur um die Hälfte. Fehlalarme bei der 'wichtigen' Korrespondenz'. Hierunter waren 6537 eMails mit 685 IP-Adressen.
Die erste RBL nahm 175 eMails von 136 Adressen nicht entgegen(Fehlalarme). Anteil der Fehlalarme daher: 2.7%. Die zweite Liste lehnte 98 eMails (1.5%) mit 16 IP-Adressen ab. Mit anderen Worten, der Autor würde bei einer Verwendung beider Listen jede 40-60igste eMail verlieren. Bei meinem Korrespondenzvolumen wären dies 2 wichtige eMails pro Tag, was sehr viel ist.
Fehlalarme bei allen Nicht-Spam-Mails.
Die gesamte 'Empfangen' Korrespondenz ist noch vielgestaltiger. Empfangen wurden 18928 eMails von 1401 IP-Adressen. Die erste Liste sortierte 783 eMails (4.1%), die zweite 440 (2.3%) aus. Wie man sieht, 'tötet' die effektiv gegen Spam funktionierende Liste gleichzeitig jede 25te legale eMail.
Schlussfolgerung
Die vom Autor erhaltenen Zahlen sind kein Dogma. Es ist klar, dass bei einer Korrespondenz mit Anwendern einer beschränkten Zahl von Adressen, die Chancen der Zuordnung einer Mail zu Spam relativ gering ist. Je weiter der Kreis der Korrespondenz und je weiter von der Internet-Community entfernt, desto höher ist die Chance Ihres Korrespondenten in eine RBL aufgenommen zu werden. Die hier angeführten Zahlen sollte man nur als Richtwerte verstehen - die Verlustwerte legaler Post können einige Prozente betragen.
Möglich ist natürlich auch eine wachsende Anzahl von Verlusten in dem einen oder anderen konkreten Fall. Je mehr 'extremistische' RBL-Dienste der Systemadministrator ihres Mail-Systems benutzt, desto mehr legale Korrespondenz verlieren sie (allerdings erhalten Sie auch weniger Spam).
Für den Autor bleibt jedoch klar, dass die hohe Anzahl von Fehlalarmen auf der einen und nur ungefähr 50% herausgefilterter Spam auf der anderen Seite keine annehmbaren modernen Charakteristika für einen Spam-Filter sein können. Annehmbar wären weniger als 1% verlorener Post und weit über 80% an herausgefiltertem Spam.

Anhang 1 Effektivität der ausgewählten RBL-Dienste. Wie man sofort sieht, ist die Effektivität der RBL bei Spam-Filterung mit der Anzahl der Fehlalarme bei eMails klar miteinander verbunden. Je effektiver man Spam filtert, desto 'effektiver' filtert man auch normale eMails.

Effektivität der SpamFilterung verschiedener RBL-Dienste

RBL Dienst EntdeckteIP-Adressen Entdeckte Spam-Mails
t1.bl.reynolds.net.au 3025 4578
bl.spamcop.net 685 1298
blackholes.easynet.nl 2826 4236
dnsbl.njabl.org 2847 4207
list.dsbl.org 2968 4374
proxies.blackholes.easynet.nl 2553 3803
cbl.abuseat.org 2141 3408
proxies.relays.monkeys.com 1737 2613
dynablock.easynet.nl 1602 2445
sbl.spamhaus.org 285 666
comcast.blackholes.us 345 552
att.blackholes.us 199 314
relays.ordb.org 81 154
dul.ru 48 94
interbusiness.blackholes.us 61 80
bellsouth.blackholes.us 57 71
rogers.blackholes.us 35 50
qwest.blackholes.us 21 36
swbell.blackholes.us 0 0

Fehlalarme bei "wichtiger Post"

RBL Dienst EntdeckteIP-Adressen Entdeckte eMails
t1.bl.reynolds.net.au 109 134
proxies.relays.monkeys.com 4 71
dynablock.easynet.nl 22 30
dul.ru 17 25
att.blackholes.us 7 13


RBL Dienst EntdeckteIP-Adressen Entdeckte eMails
t1.bl.reynolds.net.au 109 134
proxies.relays.monkeys.com 4 71
dynablock.easynet.nl 22 30
dul.ru 17 25
att.blackholes.us 7 13
dnsbl.njabl.org 7 8
list.dsbl.org 4 5
relays.ordb.org 2 3
bl.spamcop.net 2 2
blackholes.easynet.nl 2 2
proxies.blackholes.easynet.nl 2 2
interbusiness.blackholes.us 1 1
cbl.abuseat.org 1 1

Fragen der Anwender

Frage:
Habe Spam im HTML-Format erhalten - den Haupttext Schwarz auf Weiß, aber zwischen den Zeilen Weiß auf Weiß irgendeinen Quatsch. Wäre interessant zu wissen wozu?
Antwort:
Dies ist der Versuch den Filter zu umgehen, der über eine linguistischen Analyse von Spam funktioniert. Von der Kalkulation ausgehend, dass das Anti-Spam-Programm in einer eMail typische Wörter als Spam nicht erkennt, wenn sie für den Anwender unsichtbar und für das Programm in weiße Wörter aufgeteilt werden. Der Trick funktioniert für einige Zeit, danach werden diese eMails als Spam klassifiziert.

Frage:
Zur Effektivität von Spam. Einer meiner Bekannten verschickt Massensendungen als Reklame für seine Firma. Dabei erhält die Firma 3-4 neue Kunden pro Woche. Das bedeutet, dass Spam gelesen wird. Die angebotenen Nummern werden angerufen und es werden Produkte und Dienstleistungen bestellt. Das berüchtigte Geschäft floriert. Vielleicht sollten Mail-Server daher einmal im Monat an alle Clients folgende Nachricht schicken: 'Bitte benutzen Sie nicht die Dienste, die Sie durch Spam entdeckt haben. Förderung von Spammern führt zu schwerwiegenden Konsequenzen'.
Antwort:
Dieser Aufruf ist gewiss gerechtfertigt, aber nicht immer effektiv. Die Effektivität 'moralischen Drucks' ist mehr als zweifelhaft. Wie lange warnt schon der Bundesgesundheitsminister.....?

Frage:
Wieviele Fehlalarme (False Positives) gibt es eigentlich und wie schätzen Sie diese ein?
Antwort:
Fehlalarme sind potenziell bei eMails möglich, die Spam ähneln, z.B. Annoncen für Konferenzen und Seminare. Meistens werden sie vom System als 'Probable Spam' klassifiziert. Wir empfehlen den Anwendern solche eMails nie automatisch zu entfernen, sondern in eine separate Mappe abzulegen, die sie sich periodisch anschauen.
Wir analysieren Fehlalarme folgendermaßen:

a) Nach unseren Datenbanken (Zehn Tausende 'guter' und persönlicher Briefe).
b) Nach den Beschwerden der Benutzer des Dienstes Spamtest.Ru (gewöhnlich ca. eine Million eMails pro Tag).

Die a) Analyse ergibt genaue Resultate, allerdings nur auf einer fixierten Basis. Die b) Analyse ergibt nur dann Resultate, wenn der Verlust einer eMail (Ablage in die Mappe 'Spam') von einem Benutzer bemerkt wird (allerdings unter einer repräsentativen Summe von 10 Millionen eMails pro Tag).
Beide Analysen ergeben, dass die Anzahl von Fehlalarmen sehr gering, ungefähr 1-5 eMails unter 100 000 beträgt, wobei die betroffenen eMails sehr stark Spam ähneln - es sind meist Massensendungen, Einladungen für Seminare etc.
Vor Ort in den Unternehmen verringert sich die Anzahl von Fehlalarmen aufgrund von:

a) 'Weißlisten' in die der Systemadministrator die Adressen aller privaten Korrespondenten außerhalb der Unternehmen einträgt.
b) Einer relativ einfachen individuellen Einstellung der Geschäftslogik des Filters.
c) Ablagerung des Spam in einer extra Mappe über einen gewissen Zeitraum.

03.11.2003