Blog

So werden Sie den Referrer-Spam von Semalt & Co los

Schützen Sie sich gegen die Verunreinigung Ihrer Daten

Referrer-Spam ist die Bezeichnung dafür, dass automatisiert zahlreiche Zugriffe auf die eigene Domain geschehen. In dem Maße, in dem dies geschieht, ist dieser fake Webseiten-Traffic nicht direkt schädlich. Indirekt verfälscht Referrer-Spam die Statistiken Ihrer Domain, weswegen auch die Bezeichnung „Google Analytics Spam“ gängig ist. Wir zeigen Ihnen verschiedene Wege auf, die schnell und einfach Ihre Daten bereinigen können.

Referrer-Spam verunreinigt die Daten

Wie sehr die Daten verfälscht werden, zeigt nebenstehendes Beispiel der Google Analytics-Daten einer Domain, bei der Spam-Referrer über ein Drittel der Verweis-Zugriffe ausmachen.

Alleine in den Top10 der Verweiszugriffe befinden sich drei spammige Verweise, nämlich von Semalt, buttons-for-website und 7makemoneyonline. Keine dieser Domains hat tatsächlich einen Link auf unsere Domain gesetzt, es handelt sich ausschließlich um künstliche Zugriffe über Crawler.

Seriöse Programme wie Googles „GoogleBot“ können über die robots.txt angewiesen werden, dass sie bestimmte URLs (oder die komplette Sub-Domain) nicht besuchen dürfen. Daran halten sich die Programme für Referrer-Spam aber nicht. Denn diese haben zum Ziel, dass sie in den Statistiken auftauchen – entweder, damit Sie neugierig werden und die angebliche Referrer-Domain besuchen, oder dadurch, dass manche Domains ihre (Top-)Referrer automatisiert verlinken.

Formen des Referrer-Spams

Der Referrer-Spam in Google Analytics funktioniert anhand von unterschiedlicher Methoden. Um sich (nahezu) vollständig gegen den Spam zu schützen und diesen in Zukunft auszuschließen, müssen alle Methoden beachtet werden.

Tatsächliche Seitenaufrufe auf der Webseite

Dieser Referrer-Spam funktioniert mit Hilfe von Bots, die einen tatsächlichen Seitenaufruf auf der Webseite auslösen. Dadurch wird der Analytics-Code ausgeführt und ein Seitenaufruf an Google Analytics gesendet. Somit war der Bot tatsächlich auf der Seite, wodurch sich zwei Ansätze zum Ausschluss ergeben:

  1. Referrer-Ausschluss in Google Analytics
  2. Sperre des Zugriffs auf dem Server mit Hilfe der .htaccess

Aufgrund der schnellen Konfiguration empfehlen wir den Ausschluss in Google Analytics. Außerdem ist die Gefahr, dass wichtige und notwendige Einstellungen in der .htaccess zerstört werden, somit nicht vorhanden.

Nachfolgend sind beide Vorgehensweisen aufgeführt:

Ausschluss des Referrer-Spams in Google Analytics

Der einfachste Weg ist der Datenansicht einen entsprechenden Filter hinzuzufügen, der den Traffic aufgrund der Verweise bestimmter Domains ausschließt. Im Beispiel filtern wir gleich alle drei Domains, präventiv auch gleich mit alternativen TLDs.

Das einzugebende Filtermuster ist:

(?:([^. ]+)\.)?(?:([^.]+)\.)?(semalt|buttons-for-websites|7makemoneyonline)\.(com?|de|net|org|ru) 
Weitere Domains können Sie einfach durch eine neue Pipe („|“) ergänzen. Eine Erklärung, was diese Zeichen in dem Filtermuster bedeuten, können Sie in unserem Cheat Sheet zu Regular Expressions (RegEx) fürs Online Marketing lesen.

Das Filtermuster erscheint kompliziert, bringt aber im Vergleich zur zuerst genannten Methode (“Verweis-Ausschlussliste”) mehrere Vorteile mit sich:

  • Mit einer Einstellung werden gleich mehrere Domains ausgeschlossen.
  • Die Erweiterung um (schlimmstenfalls viele) weitere Quellen ist schnell und einfach möglich.
  • Oft erfolgt der Referrer-Spam auch von Subdomains (semalt.semalt.com oder 234.semalt.com). Dieses Problem behandelt der Code ebenfalls.
  • Mögliche zukünftige andere Domainendungen, wie .net oder .de, werden auch gleich ausgeschlossen.

Eine Liste mit häufig auftretenden Spam-Referrern finden Sie am Ende der Seite.

Filter von Referrern nach IP

Vorstellbar ist auch ein Filter über die IP-Adresse. Allerdings müssten Sie dazu vorher die IP-Adresse des jeweiligen Referrer-Spams in Erfahrung bringen. Zudem funktioniert diese Version leider nicht so einfach, falls Sie Google Analytics datenschutzkonform einsetzen.

Bekannte Bots und Spider automatisch ausschließen

Als weitere Unterstützung bietet Google Analytics die Einstellung „bekannte Bots und Spider automatisch filtern“ an. Manche Quellen berichten von Erfolg, in unseren eigenen Tests hat das Feature nicht gegen die größeren Spam-Referrer geholfen.

Ausschluss über die .htaccess

Die folgende Einstellung in der .htaccess ist recht einfach, weil Sie sie nur kopieren müssen. Dennoch weisen wir darauf hin, dass die .htaccess nur von erfahrenen Personen bearbeitet werden sollte. Denn schon kleine Fehler können dafür sorgen, dass Ihre komplette Domain nicht mehr erreichbar ist.

Für unsere drei Spam-Referrer bewirkt folgender Eintrag, dass sie die Seite nicht mehr erreichen können:

RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http://.*7makemoneyonline\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*buttons-for-website\.com/ [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*semalt\.com/ [NC]
RewriteRule ^(.*)$ - [F,L]
Auch die vor allem von Semalt gerne verwendeten Subdomains werden so geblockt.

Alternativ kann die .htaccess auch bestimmte Wörter im Verweiszugriff überprüfen. Dies ist in hartnäckigen Fällen aus gewissen Industriezweigen je nach Einzelsituation sinnvoll:

RewriteEngine on 
RewriteCond %{HTTP_REFERER} porn [OR]
RewriteCond %{HTTP_REFERER} pill [OR]
RewriteCond %{HTTP_REFERER} poker
RewriteRule .* - [forbidden,last]
Diese Version birgt aber auch die Gefahr, dass ungewollt andere Verweiszugriffe nicht möglich sind. Obiger Eintrag könnte auch den Zugriff von Domains verhindern, die die Buchstabenkombinationen in anderen Sinnzusammenhängen tragen. Empfohlen ist also klar die Aussperrung über die Domainnamen.

Auch ist ein Ausschluss über die IP möglich. Aber egal, für welche Version der Aussperrung Sie sich entscheiden, sie wird leider nicht verhindern, dass gewisse Spam-Referrer wie Darodar in den Statistiken auftauchen. Denn manche Spam-Referrer-Zugriffe werden simuliert, ohne dass der Crawler jemals wirklich auf der Domain war. In diesem Fall ist der im ersten Teil genannte Ausschluss über Google Analytics gegebenenfalls zusätzlich durchzuführen.

Ausschluss über andere Methoden

Neben den oben genannten Methoden gibt es weitere, die möglich sind. Diese haben wir nur kurz zusammengefasst, weil die obigen Methoden in den meisten Fällen gut anwendbar sind.

Ausschluss mit PHP

Wer keinen Zugriff auf die .htaccess hat, kann auch per php ausschließen. Eine entsprechende Anleitung gibt es unter www.revision6.de/webdesign-blog/artikel/google-analytics-spam-blocken.html.

Google Analytics Code zum Aussperren benutzen

Wer noch immer nicht Universal Analytics benutzt, kann sich auch damit behelfen, dass er die Ausschlussliste direkt im Analytics-Code auf der Webseite hinterlegt. Eine Anleitung befindet sich in Englisch auf http://www.skysteve.com/dev/2014/05/10/ignoring_semalt.html. Da das alte Google Analytics nicht mehr weiterentwickelt wird, raten wir allerdings dazu, zunächst auf Google Universal Analytics zu wechseln. Wenn nicht allzu viele Anpassungen gemacht wurden, ist der Umzug in wenigen Minuten möglich. Danach dann können Sie die oben genannten Einstellungen direkt über die Verwaltung eingeben.

WordPress-Plug-Ins

Für WordPress existieren diverse Plug-Ins, die einen Zugriff von bestimmten IPs oder über bestimmte Referrer blocken können. Da diese ständig geändert werden, und andere nicht weiter unterstützt werden, empfehlen wir eine Recherche bei WordPress selbst.

Spam-Traffic mit Hilfe des Measurement Protocols

Der direkte Spam-Traffic mit Hilfe des Measurement Protocols von Google Analytics ist die neuere Form der Verunreinigung von Daten. Er unterscheidet sich dahingehend, dass der Spam-Bot nie auf der betroffenen Webseite war, sondern die Daten direkt an Google Analytics schickt. Dies passiert mit Hilfe des Measurement Protocols, weshalb sich der Traffic nicht anhand von Referrern zu erkennen gibt. An den folgenden Merkmalen lässt sich dieser Fake-Traffic erkennen:

  • Hostname: Ein Merkmal des Spam-Traffics sind zum einen ein "falscher" Hostname, da die der Bot den Analytics-Code unabhängig der Webseite aufgerufen hat. Hier werden seitens der Bots oftmals namhafte Seiten als Hostname angegeben.
  • Sprache: Außerdem ist die Veränderung der benutzten Sprache ein Merkmal. Dies wird vor allem zum Verbreiten von Botschaften und Werbung genutzt.
  • Seitentitel: Der Seitentitel wird auch teilweise verändert, um Filter der zuvor genannten Methoden zu umgehen.

Nachfolgend finden Sie die Anleitungen zum Erstellen der jeweiligen Filtereinstellungen in Google Analytics.

Hostname-Filter gegen Fake-Traffic

Um den Fake-Traffic in Google Analytics zu identifizieren und auszuschließen, sind drei Schritte nötig:

  1. Benutzte Hostnames identifzieren: der einfachste Weg ist sich die Liste in Google Analytics anzuschauen. Diese finden Sie unter Zielgruppe → Technologie → Netzwerk → Hostname. Im Beispiel sehen wir die genutzte Domain in der Form mit und ohne www und eine Subdomain. Außerdem der Hostname translate.googleusercontent.com, der genutzt wird, wenn die Seite von Google übersetzt wird.
  2. RegEx auf Basis der Hostnames erstellen: Sind die Hostnames identifiziert, müssen diese mit Hilfe eines regulären Ausdrucks (RegEx) abgedeckt werden. Als Hilfestellung eignet sich unser Cheat Sheet für Regular Expressions (RegEx) für das Online Marketing.
  3. Filter für Datenansicht erstellen: Im Verwaltungsbereich von Google Analytics lässt sich unter "Alle Filter" der entsprechende Filter erstellen und der Datenansicht zuweisen. Wichtig ist, dass hier der relevante Traffic eingeschlossen werden muss.

Sprach-Filter gegen Fake-Traffic

Der Fake-Traffic mit Hilfe von falschen Spracheinstellungen wird für vor allem die Verbreitung von (politischen) Botschaften und Werbung genutzt. Da die normalen Spracheinstellungen wenig Zeichen haben, kann dieser Spam-Traffic ganz einfach mit Hilfe einer Regular Expression (RegEx) ausgeschlossen werden.

.{13,}|\.
Diese Expression filtert alle Spracheinstellungen, die länger als 13 Zeichen sind, heraus. Der Filter wird analog zum Hostname-Filter erstellt, wobei dieser diesmal aufAusschließen gestellt wird.

Filter der Seitentitel gegen Fake-Traffic

Eine weitere Methode ist, mit veränderten Seitentiteln Daten und Meldungen zu verbreiten. Die Seitentitel enthalten meist URLs, auf die hingewiesen werden soll. Derzeit lässt sich dieser Traffic mit Hilfe der nachfolgenden Regular Expression herausfiltern:

google-liar|whitehouse\.gov|life\.ru|vice\.com|vc\.ru
Der Filter wird wiederum analog zum Sprachfilter aufgesetzt.

Hier finden Sie noch mehr Informationen.

Bisherige Daten ohne Fake-Traffic nutzen

Die beschriebenen Maßnahmen schützen nur vor weiterer Verunreinigung der Daten durch Referrer-Spam und Spam-Traffic in Google Analytics. Um auch die bereits gesammelten Daten nutzen zu können, müssen die beschriebenen Filter in Segmente untergebracht werden. Dazu lohnt es sich die häufig benutzten Segmente inklusive des Spam-Ausschlusses als weitere Variante anzulegen.

Die folgenden Schritte sind dafür nötig:

  1. Neues Segment anlegen.
  2. Unter "Erweitert" Bedingungen auswählen.
  3. Für Sitzungen den Filter "Hostname" wie zuvor erstellt hinzufügen.
  4. In einem weiteren Filter den Filter "Sprache" nach dem beschrieben Muster einstellen.
  5. Den Filter mit den Verweisen hinzufügen.
  6. Je nach Nutzung noch den Page-Title-Filter entsprechend einstellen.

Zusätzlich können jetzt noch Eigenschaften wie genutztes Gerät usw. hinzugefügt werden, um auch Detailauswertungen ohne Fake-Traffic und Referrer-Spam durchführen zu können. Für schnelles Arbeiten lohnt es sich diese Segmente als Favoriten zu markieren.

Best Practice beim Erstellen eines Google-Analytics-Accounts

Ein wichtiger Schritt für verlässliche Daten findet am besten bereits bei der Einrichtung des Accounts statt. Durch das korrekte Aufsetzen lässt sich von vornherein die Datengüte sicherstellen:

  • Nutzen der zweiten oder dritten Property-ID: Unsere Erfahrung zeigt, dass vor allem Analytics-IDs, die auf 1 enden vom direkten Spam über das Measurement Protocol betroffen sind, da die IDs von den Bots teilweise zufällig generiert werden und die Chance, dass eine Property genutzt wird so höher ist. Zum Schutz einfach mehrere Properties anlegen und eine mit Beispielsweise UA-XXXXXX-3 für die eigene Webseite nutzen.
  • Anlegen mehrerer Datenansichten: Um Filter ausprobieren zu können und notfalls noch die ungefilterten Daten zur Verfügung zu haben, bietet es sich an, dass drei Ansichten erstellt werden. Eine sollte davon immer ungefiltert sein. Während auf der zweiten Filter erst getestet werden, wird die dritte Ansicht für die Auswertungen genutzt.

Und für die Zukunft bleibe ich so Spam-Frei?

Ganz klar: Nein.

Die Maßnahmen schließen allen derzeit bekannten Fake-Traffic und Referrer-Spam in Google Analytics aus. Für saubere Daten in der Zukunft ist vor allem eines wichtig: Daten beobachten und Auffälligkeiten hinterfragen. Hierzu lohnt sich ein permanentes Monitoring des Quelle/Medium-Reports. Auch benutzerdefinierte Benachrichtigungen können bei einem großen und unerwarteten Anstieg des Traffics als eine Art Frühwarnsystem fungieren.

Liste der Spam-Referrer

Diese Spam-Referrer sind uns zurzeit bekannt.

  • 200please.com
  • 4webmasters.org
  • adviceforum.info
  • backgroundpictures.net
  • best-seo-offer.com
  • buttons-for-website.com
  • buy-cheap-online.info
  • cenoval.ru
  • crm.muchosol.com
  • darodar.com
  • econom.co
  • embedle.com
  • extener.com
  • fbfreegifts.com
  • feedouble.com
  • feedouble.net
  • get-free-traffic-now.com
  • hulfingtonpost.com
  • humanorightswatch.org
  • ilovevitaly.co
  • ilovevitaly.ru
  • iskalko.ru
  • joinandplay.me
  • joingames.org
  • kambasoft.com
  • lumb.co
  • make-money-online.7makemoneyonline.com
  • musicas.baixar-musicas-gratis.com
  • musicprojectfoundation.com
  • myftpupload.com
  • myprintscreen.com
  • o-o-6-o-o.com
  • openfrost.com
  • openmediasoft.com
  • priceg.com
  • prodvigator.ua
  • savetubevideo.com
  • semalt.com (auch semalt.semalt.com und [beliebige Zahl].Semalt.com)
  • simple-share-buttons.com
  • social-buttons.com
  • softomix.com
  • softomix.net
  • softomix.ru
  • soundfrost.org
  • srecorder.com
  • vapmedia.org
  • videofrost.com
  • videofrost.net
  • youporn-forum.ga
  • youtubedownload.org
  • zazagames.org
Nehmen Sie mit uns Kontakt auf. Wir beraten Sie gerne.