Spam -

Techniky detekce spamu

Double email headers

When generating spam emails, spammers use two From fields in the email header. The first From field contained a legitimate address, usually one from a well-known organization (whose reputation is untarnished by spam scandals) while the second contained the actual spammer email address, which has nothing to do with the first one. Spammers were expecting the email to be treated as legitimate by filters, forgetting that modern anti-spam solutions rely not only on the technical part of the email, but also on its content.

 

Subscription forms

In these events, spam messages in the form of an automatic mailing list subscription confirmations arrive in recipient inboxes. Regular websites capable of unlimited user registration were employed to create them (especially when they allowed using the same email address multiple times). Spammers used a script that auto-filled subscription forms inserting recipient addresses from previously collected (or purchased) databases. Spam content was a short phrase with a link to a spam resource inserted into one of the mandatory fields in the form (in particular, the recipient name). As a result, the user received a notification sent from a legitimate mail address containing a spam link instead of their name.

 

Ochrana emailových adres na straně uživatele

E-mailové adresy do spamových databází jsou získávány mj. pomocí robotů, kteří procházejí webové stránky a sbírají e-mailové adresy na nich uvedené. Roboti se zpravidla nezatěžují hlubší analýzou zdrojového kódu a sbírají vše, co vypadá jako e-mailová adresa – tedy posloupnost písmen, číslic, pomlček a teček, která obsahuje zavináč. Proto se doporučuje vyhnout psaní e-mailové adresy přímo na webovou stránku a raději ji opsat nějakým, pro člověka srozumitelným, způsobem – např. jmeno (zavinac) domena.cz.

Doporučuje se vždy dobře zvážit, zda je vhodné či nutné určitému subjektu svůj e-mail svěřit (týká se především webových stránek, různých registrací, upozorňování). I v případě seriozních subjektů nelze nikdy vyloučit únik informací a zneužití třetí stranou. Pro různé registrace, zasílání informací atd. se doporučuje mít specializovaný e-mail (s případným přeposíláním).

E-mailové adresy pro databáze pro rozesílání spamu můžou být získávány také pomocí virů, je proto důležité znát základní pravidla pro chování na internetu a mít počítač proti virům dobře zabezpečený.

Na adresy, z nichž je spam poslán, by se nemělo žádným způsobem reagovat a neklikat na žádný z odkazů v e-mailu obsažených, neboť tím je spamerovi pouze potvrzeno, že elektronická adresa je funkční a schránku někdo vybírá. Adresa, z níž je spam poslán, často není pravá a často se mění; může jít i o zfalšovanou adresu jiného člověka, jenž s rozesláním e-mailu nemá nic společného.

Spamovací robot však mailové adresy může získat rovněž sledováním odpovědí vzdálených SMTP serverů. Provádějí na vzdálený poštovní server tzv. slovníkový útok, kdy se pokouší doručit e-mail na adresy složené z obvyklých jmen a příjmení, oblíbených názvů a přezdívek (svoboda, novak, standik atd.). Tyto adresy jsou proto ve větším ohrožení, jako protiopatření se doporučuje např. rozšíření adresy o další znaky (xsvoboda).

U tzv. hoaxu (řetězového dopisu obsahujícího často žádost o pomoc a další rozeslání) je vhodné odesílatele upozornit na omyl a e-mail dále nerozesílat (pokud je v e-mailu obsažena žádost o hromadné rozeslání současně s žádostí o pomoc nebo o podporu někoho, nebo něčeho, jde většinou o podvod, nebo hloupý vtip).

 

Opatření omezující rozesílání spamu

Většina spamu je rozesílána distribuovaně z počítačů napadených počítačovým virem nebo červem. Vir nebo červ často na počítači otevírá tzv. zadní vrátka (backdoor), která umožňují útočníkovi počítač dálkově ovládat a zneužít jej mj. pro rozesílání spamu. Rozesílací robot i databáze adres může být na napadený počítač zaslána ad hoc, rozesílání nemusí probíhat neustále.

Obranou proti distribuovanému rozesílání je klasická antivirová ochrana. Pro správce sítě je důležité, aby uměl napadený počítač lokalizovat a izolovat.

Další možnost jak ztížit rozesílání spamu je neprovozovat SMTP server jako tzv. open relay. SMTP server, který funguje jako open relay, převezme k dopravě jakýkoli dopis bez ohledu na odesílatele i adresáta. Open relay usnadňuje rozesílání spamu tím, že umožňuje přijmout dopis (spam) odkudkoli a dopravit jej kamkoli, často je jeden dopis adresován na stovky cílových adres. Tím jednak snižuje zátěž na straně spammerova rozesílacího robota, jednak se průchodem přes open relay zamaskuje IP adresa, odkud dopis přišel, což silně ztěžuje filtraci spamu na straně cílového SMTP serveru.

SMTP server by měl být konfigurován tak, aby nepřebíral k dopravě dopisy, které přichzejí z vnějšku domény (domén) a nemají adresáta uvnitř domény, kterou server pokládá za „vlastní“. Příklad: SMTP server pro doménu firma.cz propustí pouze dopisy, které v doméně firma.cz začínají nebo končí.

 

Filtrace podle způsobu dopravy

 

Blacklisting

Blacklisting rozhoduje, zda dopis je nebo není spam, podle adresy odesílatele (která může být zfalšována), nebo lépe podle IP adresy, ze které dopis přišel na cílový SMTP server. Blacklisty obsahující IP adresy, ze kterých bylo zaznamenáno rozesílání spamu, bývají zveřejňovány nejčastěji pomocí systému DNS. Výskyt adresy v blacklistu může mít za následek buď přímé odmítnutí (nepřevzetí) dopisu ještě během SMTP relace, nebo může být informace z blacklistu použita jako dodatečná informace při následné filtraci podle obsahu.

 

Greylisting

Greylisting rozhoduje také podle IP adresy a emailové adresy odesílatele a adresáta, ale dělá to dynamicky. SMTP server, který provozuje greylisting, udržuje databázi, kde pro trojici (IP adresa, odesílatel příjemce) je uvedeno, zda dopis s těmito atributy má být převzat k dopravě, nebo zda jeho převzetí má být dočasně odmítnuto. První dopis je odmítnut a je zaznamenán čas, kdy k tomu došlo. Po určitou dobu (typicky několik desítek minut) pak jsou dopisy s týmiž atributy odmítány. Po uplynutí této doby, pokud se původní SMTP server stále pokouší o odeslání dopisu, je záznam v databázi potvrzen a dopisy jsou naopak přijímány a dopravovány bez zdržení. Po další době (typicky několik málo týdnů) je záznam z databáze odstraněn, takže příští dopis bude opět pozdržen. K odstranění záznamu z databáze dojde také v případě, že v příslušném intervalu, kdy byly dopisy odmítány, se nepokusí původní SMTP server o znovudoručení.

Tato metoda využívá faktu, že protokol SMTP rozlišuje chyby trvalé, jejichž číselný kód začíná číslicí 5, a chyby dočasné s kódem začínajícím číslicí 4. V případě dočasné chyby má odesílající SMTP server dopis uložit do fronty a pokusy o odeslání opakovat (typicky po několika málo desítkách minut). Robot rozesílající spam však často chyby neošetřuje a snaží se všechny dopisy rozeslat co nejrychleji, neboť je možné, že před případným dalším (nebo novým) pokusem o rozeslání, již bude spamerova IP adresa zveřejněna v některém blacklistu. Proto k druhému pokusu již nedojde.

Greylisting se zpravidla používá jako předstupeň před filtrováním podle obsahu a výrazně zvyšuje jeho účinnost. Nevýhodou greylistingu je občasné zdržení dopisu a možnost, že dopisy mohou dojít v jiném pořadí než byly odeslány. Další nevýhodou je, že některé odesílající SMTP servery jsou chybné a neimplementují frontu dopisů k odeslání.

 

Filtrace podle obsahu dopisu

Automatické rozpoznávání nemůže z principu fungovat dokonale, protože názor, zda konkrétní dopis je spam je individuální. Přesto filtrování podle obsahu dává použitelné výsledky a hojně se používá. Existují dvě základní metody, některé antispamové programy (např. SpamAssassin) je kombinují.

 

Filtry založené na pravidlech

Filtry založené na pravidlech vyhledávají v dopisech rysy, které jsou pro spam typické. Jde jednak o některá slova (např. viagra) a slovní spojení, jednak jsou vyhledávány chyby pro spam typické. Příkladem je třeba datum odeslání v budoucnosti, nedovolené znaky v hlavičce, chybně označený MIME-typ zprávy apod. Za každý rozpoznaný rys je dopisu přiděleno bodové ohodnocení, body se zpravidla sečítají a pokud součet přesáhne hranici, je dopis pokládán za spam. Rozpoznávané rysy jsou definovány pomocí pravidel, která je třeba pravidelně aktualizovat a přizpůsobovat praktikám spammerů. K vytváření a údržbě souboru pravidel je třeba mít znalosti, není to práce pro běžného uživatele, laika.

 

Filtry založené na učení (bayesovské)

Filtry založené na učení (často nazývané bayesovské) využívají triky z oblasti umělé inteligence. V režimu učení se filtru předkládají dopisy explicitně označené jako spam a ham (ne spam), filtr z předložených dopisů extrahuje informace, které si ukládá do databáze. Nejčastěji je dopis rozkládán na slova (popř. jiné úseky textu) a pro jednotlivá slova se statisticky zjišťuje pravděpodobnost, že dopis, který toto slovo obsahuje, je spam. V režimu rozpoznávání pak filtr využívá nashromážděné informace a testovanému dopisu přiřadí pravděpodobnost, že je to spam. Nejčastěji se pro výpočet pravděpodobnosti používá vzorec, který navrhl matematik Bayes. Velkou výhodou je, že filtr může učit i uživatel – laik. Učící se filtry jsou nejúčinnější, učí-li je přímo sami koncoví uživatelé podle svého individuálního názoru, co je spam a co ne. Přesto se bayesovské filtry používají i na serverech, kde učení probíhá pro všechny uživatele serveru společně.

Bayesovský filtr je součástí např. poštovního klienta Mozilla Thunderbird. Příkladem čistě bayesovského filtru pro server je bogofilter.