Referrer-Spam bezeichnet den automatisierten, massenhaften Zugriff auf die eigene Domain. In dem Maße, in dem dies geschieht, ist dieser fake Webseiten-Traffic nicht direkt schädlich. Indirekt verfälscht Referrer-Spam die Statistiken Ihrer Domain, weswegen auch die Bezeichnung „Google Analytics Spam“ gängig ist. Wir zeigen Ihnen verschiedene Wege auf, die schnell und einfach Ihre Daten bereinigen können.
Wie sehr die Daten verfälscht werden, zeigt nachfolgendes Beispiel der Google Analytics-Daten einer Domain, bei der Spam-Referrer über ein Drittel der Verweis-Zugriffe ausmachen.
Alleine in den Top10 der Verweiszugriffe befinden sich drei spammige Verweise, nämlich von social-buttons.com, adviceforum.info und buttons-for-website.com. Keine dieser Domains hat tatsächlich einen Link auf unsere Domain gesetzt, es handelt sich ausschließlich um künstliche Zugriffe über Crawler. Charakteristisch für solche Zugriffe ist auch die Absprungrate von 100 Prozent. Wenn wie im Beispiel mehr als zehn Prozent der Zugriffe künstlich durch Spam-Refferer erfolgt, hat dies auch deutlichen Einfluss auf die Gesamt-Statistiken.
Seriöse Programme wie Googles „GoogleBot“ können über die robots.txt angewiesen werden, dass sie bestimmte URLs (oder die komplette Sub-Domain) nicht besuchen dürfen. Daran halten sich die Programme für Referrer-Spam aber nicht. Denn diese haben zum Ziel, dass sie in den Statistiken auftauchen – entweder, damit Sie neugierig werden und die angebliche Referrer-Domain besuchen, oder dadurch, dass manche Domains ihre (Top-)Referrer automatisiert verlinken.
Der Referrer-Spam in Google Analytics funktioniert anhand von unterschiedlicher Methoden. Um sich (nahezu) vollständig gegen den Spam zu schützen und diesen in Zukunft auszuschließen, müssen alle Methoden beachtet werden.
Dieser Referrer-Spam funktioniert mit Hilfe von Bots, die einen tatsächlichen Seitenaufruf auf der Webseite auslösen. Dadurch wird der Analytics-Code ausgeführt und ein Seitenaufruf an Google Analytics gesendet. Somit war der Bot tatsächlich auf der Seite, wodurch sich zwei Ansätze zum Ausschluss ergeben:
Aufgrund der schnellen Konfiguration empfehlen wir den Ausschluss in Google Analytics. Außerdem ist die Gefahr, dass wichtige und notwendige Einstellungen in der .htaccess zerstört werden, somit nicht vorhanden.
Nachfolgend sind beide Vorgehensweisen aufgeführt:
Der einfachste Weg ist der Datenansicht einen entsprechenden Filter hinzuzufügen, der den Traffic aufgrund der Verweise bestimmter Domains ausschließt. Im Beispiel filtern wir gleich alle drei Domains, präventiv auch gleich mit alternativen TLDs.
Das einzugebende Filtermuster ist:
(?:([^. ]+)\.)?(?:([^.]+)\.)?(semalt|buttons-for-websites|7makemoneyonline)\.(com?|de|net|org|ru)
Weitere Domains können Sie einfach durch eine neue Pipe („|“) ergänzen. Eine Erklärung, was diese Zeichen in dem Filtermuster bedeuten, können Sie in unserem Cheat Sheet zu Regular Expressions (RegEx) fürs Online Marketing lesen.
Das Filtermuster erscheint kompliziert, bringt aber im Vergleich zur zuerst genannten Methode (“Verweis-Ausschlussliste”) mehrere Vorteile mit sich:
Eine Liste mit häufig auftretenden Spam-Referrern finden Sie am Ende der Seite.
Vorstellbar ist auch ein Filter über die IP-Adresse. Allerdings müssten Sie dazu vorher die IP-Adresse des jeweiligen Referrer-Spams in Erfahrung bringen. Zudem funktioniert diese Version leider nicht so einfach, falls Sie Google Analytics datenschutzkonform einsetzen.
Als weitere Unterstützung bietet Google Analytics die Einstellung „bekannte Bots und Spider automatisch filtern“ an. Manche Quellen berichten von Erfolg, in unseren eigenen Tests hat das Feature nicht gegen die größeren Spam-Referrer geholfen.
Die folgende Einstellung in der .htaccess ist recht einfach, weil Sie sie nur kopieren müssen. Dennoch weisen wir darauf hin, dass die .htaccess nur von erfahrenen Personen bearbeitet werden sollte. Denn schon kleine Fehler können dafür sorgen, dass Ihre komplette Domain nicht mehr erreichbar ist.
Für unsere drei Spam-Referrer bewirkt folgender Eintrag, dass sie die Seite nicht mehr erreichen können:
RewriteEngine on RewriteCond %{HTTP_REFERER} ^http://.*7makemoneyonline\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*buttons-for-website\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*semalt\.com/ [NC] RewriteRule ^(.*)$ - [F,L]
Auch die vor allem von Semalt gerne verwendeten Subdomains werden so geblockt.
Alternativ kann die .htaccess auch bestimmte Wörter im Verweiszugriff überprüfen. Dies ist in hartnäckigen Fällen aus gewissen Industriezweigen je nach Einzelsituation sinnvoll:
RewriteEngine on RewriteCond %{HTTP_REFERER} porn [OR] RewriteCond %{HTTP_REFERER} pill [OR] RewriteCond %{HTTP_REFERER} poker RewriteRule .* - [forbidden,last]
Diese Version birgt aber auch die Gefahr, dass ungewollt andere Verweiszugriffe nicht möglich sind. Obiger Eintrag könnte auch den Zugriff von Domains verhindern, die die Buchstabenkombinationen in anderen Sinnzusammenhängen tragen. Empfohlen ist also klar die Aussperrung über die Domainnamen.
Auch ist ein Ausschluss über die IP möglich. Aber egal, für welche Version der Aussperrung Sie sich entscheiden, sie wird leider nicht verhindern, dass gewisse Spam-Referrer wie Darodar in den Statistiken auftauchen. Denn manche Spam-Referrer-Zugriffe werden simuliert, ohne dass der Crawler jemals wirklich auf der Domain war. In diesem Fall ist der im ersten Teil genannte Ausschluss über Google Analytics gegebenenfalls zusätzlich durchzuführen.
Neben den oben genannten Methoden gibt es weitere, die möglich sind. Diese haben wir nur kurz zusammengefasst, weil die obigen Methoden in den meisten Fällen gut anwendbar sind.
Wer keinen Zugriff auf die .htaccess hat, kann auch per php ausschließen. Eine entsprechende Anleitung gibt es unter www.revision6.de/webdesign-blog/artikel/google-analytics-spam-blocken.html.
Wer noch immer nicht Universal Analytics benutzt, kann sich auch damit behelfen, dass er die Ausschlussliste direkt im Analytics-Code auf der Webseite hinterlegt. Eine Anleitung befindet sich auf https://support.google.com/analytics/answer/2795830?hl=de. Da das alte Google Analytics nicht mehr weiterentwickelt wird, raten wir allerdings dazu, zunächst auf Google Universal Analytics zu wechseln. Wenn nicht allzu viele Anpassungen gemacht wurden, ist der Umzug in wenigen Minuten möglich. Danach dann können Sie die oben genannten Einstellungen direkt über die Verwaltung eingeben.
Für WordPress existieren diverse Plug-Ins, die einen Zugriff von bestimmten IPs oder über bestimmte Referrer blocken können. Da diese ständig geändert werden, und andere nicht weiter unterstützt werden, empfehlen wir eine Recherche bei WordPress selbst.
Der direkte Spam-Traffic mit Hilfe des Measurement Protocols von Google Analytics ist die neuere Form der Verunreinigung von Daten. Er unterscheidet sich dahingehend, dass der Spam-Bot nie auf der betroffenen Webseite war, sondern die Daten direkt an Google Analytics schickt. Dies passiert mit Hilfe des Measurement Protocols, weshalb sich der Traffic nicht anhand von Referrern zu erkennen gibt. An den folgenden Merkmalen lässt sich dieser Fake-Traffic erkennen:
Nachfolgend finden Sie die Anleitungen zum Erstellen der jeweiligen Filtereinstellungen in Google Analytics.
Um den Fake-Traffic in Google Analytics zu identifizieren und auszuschließen, sind drei Schritte nötig:
Der Fake-Traffic mit Hilfe von falschen Spracheinstellungen wird für vor allem die Verbreitung von (politischen) Botschaften und Werbung genutzt. Da die normalen Spracheinstellungen wenig Zeichen haben, kann dieser Spam-Traffic ganz einfach mit Hilfe einer Regular Expression (RegEx) ausgeschlossen werden.
.{13,}|\.
Diese Expression filtert alle Spracheinstellungen, die länger als 13 Zeichen sind, heraus. Der Filter wird analog zum Hostname-Filter erstellt, wobei dieser diesmal auf Ausschließen gestellt wird.
Eine weitere Methode ist, mit veränderten Seitentiteln Daten und Meldungen zu verbreiten. Die Seitentitel enthalten meist URLs, auf die hingewiesen werden soll. Derzeit lässt sich dieser Traffic mit Hilfe der nachfolgenden Regular Expression herausfiltern:
google-liar|whitehouse\.gov|life\.ru|vice\.com|vc\.ru
Der Filter wird wiederum analog zum Sprachfilter aufgesetzt.
Hier finden Sie noch mehr Informationen.
Nur, wer vor seiner ersten Nutzung von Google Analytics die vorher genannten Punkte vollständig erfüllt hat, darf das Tool völlig legal verwenden. Sollten Sie das Tracking-Programm jedoch schon vorher benutzt und mindestens eine der Vorgaben nicht erfüllt haben, so sind die dabei gesammelten Daten illegal und somit sofort zu löschen. Leider bietet Google Analytics keine Möglichkeit, nur den alten Teil der Daten zu löschen und die neuen Informationen zu behalten. In diesem Fall sind Sie gezwungen, das gesamte Konto zu löschen und ein Neues anzulegen.
Auch das Senden von persönlich-identifizierbaren Informationen (PII) an Google Analytics ist nicht erlaubt. Wenn Sie Email-Adressen oder sogar Namen
Die beschriebenen Maßnahmen schützen nur vor weiterer Verunreinigung der Daten durch Referrer-Spam und Spam-Traffic in Google Analytics. Um auch die bereits gesammelten Daten nutzen zu können, müssen die beschriebenen Filter in Segmente untergebracht werden. Dazu lohnt es sich die häufig benutzten Segmente inklusive des Spam-Ausschlusses als weitere Variante anzulegen.
Die folgenden Schritte sind dafür nötig:
Zusätzlich können jetzt noch Eigenschaften wie genutztes Gerät usw. hinzugefügt werden, um auch Detailauswertungen ohne Fake-Traffic und Referrer-Spam durchführen zu können. Für schnelles Arbeiten lohnt es sich diese Segmente als Favoriten zu markieren.
Ein wichtiger Schritt für verlässliche Daten findet am besten bereits bei der Einrichtung des Accounts statt. Durch das korrekte Aufsetzen lässt sich von vornherein die Datengüte sicherstellen:
Ganz klar: Nein.
Die Maßnahmen schließen allen derzeit bekannten Fake-Traffic und Referrer-Spam in Google Analytics aus. Für saubere Daten in der Zukunft ist vor allem eines wichtig: Daten beobachten und Auffälligkeiten hinterfragen. Hierzu lohnt sich ein permanentes Monitoring des Quelle/Medium-Reports. Auch benutzerdefinierte Benachrichtigungen können bei einem großen und unerwarteten Anstieg des Traffics als eine Art Frühwarnsystem fungieren.
Diese Spam-Referrer sind uns zurzeit bekannt.