Was ist Crawling?

Beim Crawling („to crawl“, aus dem Englischen für kriechen, krabbeln) durchsucht ein Computerprogramm nach bestimmten Vorgaben das Internet nach neuen oder geänderten Inhalten. Solche Programme heißen Spider, Crawler oder Bots. Der World Wide Web Wanderer war der erste dieser Spezies. Am bekanntesten ist heute der GoogleBot. Weitere bekannte Vertreter dieser Art sind BingBot, Baiduspider und Yandex Bot.

Inhaltsverzeichnis:

Lesezeit: 0 Min

Was ist Indexierung?

Die Indexierung der Inhalte ist die Voraussetzung, um diese per Suchmaschine zu finden. Hierfür ist es wiederum erforderlich, dass die Dokumente im Web auffindbar und für den jeweiligen Bot lesbar sind. Bei der Indexierung werden Dokumente gesammelt, sortiert und mit Schlagworten versehen. Suchmaschinen verwenden Methoden der Computerlinguistik, um bei Suchanfragen die relevanten Informationen aus riesigen Datenmengen herauszufiltern.

Wie funktioniert Crawling?

In der Regel verfolgen Bots externe und interne Links. Sie lesen auch die vom Webmaster eingereichten Sitemaps aus. Dabei aktualisieren und erweitern sie den Index fortlaufend. Sie orientieren sich dabei an Anweisungen, die sie über die Meta-Angaben, in der Datei robots.txt oder per Canonical Url erhalten.

Was ist das Index-Budget?

Suchmaschinen limitieren die Anzahl der URLs einer Domain in ihrem Index. Ziel ist es, automatisch generierten Pseudo-Content zu reduzieren, und stattdessen hochwertige Inhalte in den vorderen Positionen anzuzeigen. Das Index-Budget hängt vom nachstehend erläuterten Crawling-Budget ab. Zu berücksichtigen ist, dass sich das Index-Budget reduziert, wenn der Bot beim Crawling überflüssigerweise mit 404-Seiten oder Duplikaten beschäftigt ist.

Was ist das Crawling-Budget?

Für große Webseiten kann es problematisch sein, dass ihr Crawling-Budget bei einer Suchmaschine begrenzt ist. Da nur ein Teil der Unterseiten erfasst wird, gelangen nicht alle unmittelbar in den Index und müssen bis zum nächsten Crawling warten. Rankings, Besucher, Umsätze und Gewinne bleiben so hinter den Möglichkeiten zurück. Nach Aussage von Google ist das Crawling-Budget, abhängig vom PageRank einer Website.

Crawling-Frequenz

Der PageRank bestimmt gleichfalls die Häufigkeit des Crawling. Entscheidend ist auch, wie regelmäßig Aktualisierungen erfolgen und ob es externe Signale in Form von Verlinkungen und aus Sozialen-Netzwerken gibt. Eine Neuerung stellte das 2010 eingeführte Indexierungssystem Caffeine dar. Dieses steuert das Crawling nach Reputation der Webseiten und sorgt dafür, dass wichtige Inhalte schnell im Index landen.

Crawling-Bedarf

Webmaster sollten definieren, welche Unterseiten für die Rankings wichtig sind. Dies gilt insbesondere für große Webseiten. Gerade Online Shops kommen häufig auf mehrere Tausend URLs. Wenn die Domain weniger als 1000 URLs hat, kann Google hingegen ohne Probleme alle Unterseiten erfassen. Auch bei komplett neuen Webseiten erfolgt in der Regel ein komplettes Crawling.

Crawling-Budgetoptimierung

Insbesondere Betreiber größerer Webseiten sollten daher Crawling und Indexierung steuern, indem sie

den Content in gut lesbarer Form darstellen und auf veraltete Technologien wie etwa Flash verzichten
Soft Errors vermeiden
Verzicht auf URLs mit Session-IDs beziehungsweise facettierte Navigation
Vermeiden von Unterseiten mit „Thin Content“
Duplicate Content vermeiden, indem sie das Canonical Tag verwenden und somit Crawling und Indexierung auf die Originalseiten fokussieren
Anweisungen per noindex und robots.txt gezielt einsetzen, um URLs aus dem Index fernzuhalten
veraltete Seiten entfernen und somit Budget für das Crawling aktueller URLs freizugeben.
das Hacken der Website verhindern beziehungsweise infizierte Installationen umgehend bereinigen. Unter anderem platzieren Hacker eigene Unterseiten, um sie für Black-Hat-Linkbuilding zu missbrauchen. Ein negativer Effekt ist: Das Crawling dieser URLs zehrt ebenfalls am Budget, das dann unter Umständen für relevante Unterseiten fehlt.

Google Search Console zur Kontrolle von Crawling und Indexierung

Die Google Search Console, ehemals Webmaster Tools, ist eine kostenlose Plattform für die Kommunikation mit der Suchmaschine Nr. 1. Webseitenbetreiber sehen hier unter anderem:

wie viele Urls einer Domain Google indexiert hat
wo es Probleme, etwa Fehler beim Crawling, gibt. Konkret ist es möglich, den Indexierungsstatus zu kontrollieren, eine bestimmte URL zur Überprüfung einzureichen oder entfernen zu lassen. Die Meldungen helfen herauszufinden, wo die Fehler bei Crawling und Indexierung zu suchen sind. Aussperrung des Crawlers, Serverfehler, 404-Errors, nicht funktionierende Weiterleitungen sind die häufigsten Ursachen.
eine Auflistung eingehender Links

Ein regelmäßiger Blick in diese wichtige Informationsquelle ist für jeden Webmaster Pflicht. Außerdem gibt es die Möglichkeit, über die Parameter-Einstellungen das Crawling von Produktvarianten in Webshops zu steuern. Es sollte aber klar sein, dass sie nicht das einzige Analyseinstrument bleiben sollte, weil die dargestellten Informationen

ausschließlich für Google gelten. Im Einzelfall können auch Bing, Baidu und Yandex relevanten Besucherströme liefern, so dass deren Perspektive hinsichtlich Crawling und Indexierung ebenfalls zu berücksichtigen ist.
keineswegs vollständig sind. So ist die Auflistung der verlinkenden Domains auf 1000 beschränkt. Dabei soll es sich um die „beliebtesten Domains“ handeln. Welche Kriterien in diese Bewertung einfließen ist jedoch unklar.

Robots.txt als Instrument zur Steuerung des Crawling

Die robots.txt ist eine Textdatei, die im Root-Verzeichnis einer Domain oder Subdomain abzuspeichern ist. Sie bietet zahlreiche Möglichkeiten, das Crawling der Suchmaschinen zu steuern. Sie ist aber eher ein informeller Leitfaden als ein verbindliches Regelwerk, so dass die Bots hier oft eigenmächtig handeln.

Vorteile der Steuerung des Crawling per robots.txt

detaillierte Differenzierung, unter anderem nach Bots oder nach Verzeichnissen des eigenen Webspace. Die zugehörigen Schlüsselbegriffe zur Steuerung des Crawling in der speziellen Syntax sind „User-Agent“ und “Disallow“. Zur Vereinfachung gibt es seit 1996 auch „Allow“. Mit dem Sternchen *, auch Wildcard genannt, ist es möglich alle Bots oder Verzeichnisse für das Crawling freizugeben oder zu sperren.
Wenn die Bots die Anweisung akzeptieren, verzichten sie auf das Crawling und entlasten somit das Budget.

Nachteile der Steuerung des Crawling per robots.txt sind

Die Suchmaschinen halten sich nicht immer an die Anweisungen für das Crawling, so dass es passieren kann, dass URLs im Index landen, die dort nicht erwünscht sind. Gerade wenn viele externe Links dorthin verweisen, kann dies der Fall sein. Google zeigt solche URLs ohne Title und Description an. Anders ausgedrückt: Per robots.txt lässt sich das Crawling verhindern, nicht aber die Indexierung.
Leider halten sich gerade schädliche Bots nicht an die Regeln für das Crawling. Effizienter sind entsprechende Sperren in der htacces-Datei.
Überhaupt kann es dadurch, dass die Bots die Anweisungen unterschiedlich interpretieren, Probleme geben. So gilt allgemein die Regel, dass die Einträge von oben nach unten abzuarbeiten sind. Google hingen prüft erst alle Einträge mit „Allow“ und dann jene mit „Disallow“. Gerade umfangreichere robots.txt-Dateien stehen im Ruf, Ursache von Fehlern beim Crawling zu sein.
Wichtig ist, das Crawling von JavaScript- und CSS-Dateien nicht zu unterbinden, weil Suchmaschinen sonst nicht feststellen können, ob die Seite richtig funktioniert.

Noindex

Bei der Noindex-Anweisung geht es, wie schon der Name andeutet, nur um Indexierung, nicht um Crawling. kann im http-Header oder als Meta-Tag im Quelltext platziert werden. Für Google funktionieren beide Varianten gleich gut. Entwickler ziehen es meist vor, die Anweisung als Meta-Tag einzubauen, da sie so einfacher zu überprüfen ist. Der Tag sollte direkt im HTML enthalten sein und nicht per JavaScript nachgeladen werden, weil sie dann womöglich erst kommt, wenn die Indexierung bereits erfolgt ist. Die Noindex-Anweisung bezieht sich stets auf eine bestimmte URL.

Vorteile der Noindex-Anweisung sind:

Die Methode bewirkt als einzige zuverlässig, dass öffentlich erreichbare URLs nicht im Index landen.
Per noindex lassen sich auch Dateiformate wie pdf oder doc(x) aussperren.

Als Nachteil wäre zu nennen, dass das für das Crawling zur Verfügung stehende Budget belastet wird. Das Index-Budget hingegen bleibt unangetastet. Auch für halbfertige Projekte ist noindex nicht geeignet. Die URLs sind trotzdem aufrufbar. Wer auch immer Zugriff darauf erhält, kann die Inhalte auswerten. Wettbewerber könnten sich so vorab, über einen neuen Webauftritt informieren. Etwaige rechtliche Defizite, etwa in Form unzureichenden Impressums, wären für Abmahnanwälte interessant. Manche Webmaster ziehen es auch vor, die Rechtstexte der fertigen Website auf noindex zu setzen, in der Hoffnung, dass mögliche Mängel unentdeckt bleiben. Tatsache ist, dass es nicht möglich ist, rechtliche Defizite auf diese Weise zu verstecken. Besser ist es, solche Projekte entweder auf lokalen Installationen zu betreiben oder mittels Passwort zu schützen.

Canonicals

Das Canonical Tag ist ein Element, das in den Head-Bereich einer Website integriert wird. Es dient dazu Duplikate zu kennzeichnen und verweist stets auf die Originalseite. Diese auch “kanonische URL“ genannt, sollte auch das Canonical Tag enthalten und entsprechend auf sich selbst verweisen. Anwendungsfälle sind technisch notwendige Mehrfach-Varianten einer URL, aber auch inhaltlich sehr ähnliche Unterseiten.

Vorteile des Canonical Tag bei der Steuerung von Crawling und Indexierung im Überblick

Für rein technisch bedingte Duplikate, etwa mit oder ohne Slash am Ende, sehen inzwischen die meisten Content-Management- und Shop-Systeme eine standardisierte Implementierung vor. Auch wenn unterschiedliche Navigationspfade unterschiedliche URLs erzeugen, ist die Anwendung angebracht.
Ein weiterer Anwendungsfall für Canonical Tags wären mobile Seiten, die sich parallel zur Normalversion auf einer Subdomain wie m.domain.de befinden.
Canonical Tags funktionieren gegebenenfalls auch domainübergreifend. So könnte es aus Marketing-Gründen, etwa bei einer Firmenübernahme, erwünscht sein, die identischen Inhalte auf verschiedenen Domains darzustellen. Langfristig ist allerdings in einem solchen Fall ein Redirect per 301 technisch sauberer.
Der Verweis von den Duplikatseiten zum Original hilft, die Problematik des Duplicate Content in all ihren Facetten zu umgehen.
Das Canonical Tag bündelt sowohl interne als auch externe Links und verstärkt somit die Linkpower.

Nachteile des Canonical Tag bei der Steuerung von Crawling und Indexierung

Das Canonical Tag funktioniert für Suchmaschinen prinzipiell wie ein 301-redirect, nur dass es für menschliche Nutzer nicht gleich sichtbar ist. Das ist tückisch, da der Fehler so lange Zeit unentdeckt bleiben kann. Dadurch ist es möglich, eine Website irrtümlicherweise aus dem Index zu entfernen, wenn etwa die Implementierung nicht korrekt erfolgt. Gerade bei einem Relaunch oder Domain-Umzug kann hier sehr viel schief gehen. Ein Klassiker in dieser Hinsicht wäre die gleichzeitige Verwendung von noindex und Canonical Tag.
Das Canonical Tag belastet das Crawling-Budget und – zum Abgleich mit den bestehenden URLs – vermutlich auch für das Index-Budget.
Canonical Tags sind eine Erfindung von Google, die erstmals im Jahre 2009 vorgestellt wurde und seitdem zur Kennzeichnung von Duplikaten empfohlen wird. Andere Suchmaschinen folgten erst später. Aber auch heute noch ist das Canonical Tag lediglich eine Empfehlung, an die sich selbst Google nicht stringent hält.

Aufgrund zahlreicher Fehler, die bei der Verwendung des Canonical Tag passieren können, ist stets zu prüfen, ob andere der genannten Instrumente Steuerung von Crawling und Indexierung eventuell besser geeignet sein könnten.

Seite nicht im Google-Index – was tun?

Immer wieder kommt es vor, dass eine veröffentliche Website oder eine einzelne URL partout nicht in der Google-Suche erscheint. Im Normalfall genügt es, eine Website in der Google Search Console anzumelden und binnen weniger Tage sollte sie über die Suchanfrage site:domain.com zu finden sein. Unterstützend kann es sein, ein neues Projekt von einer bereits bekannten Domain zu verlinken und somit Crawling und Indexierung zu beschleunigen. Falls dies nicht funktioniert, deutet vieles darauf hin, dass irgendwelche der zuvor genannten Steuerungsinstrumente grundsätzlich falsch oder im Widerspruch zueinander konfiguriert sind.

Seiten im Google Cache – der Zwischenspeicher der Suchmaschine

Die Suchmaschine Google funktioniert (noch) nicht in Echtzeit. Wenn wir die Snippets von Suchergebnisse angezeigt bekommen, stammen diese von einer im Google Cache zwischengespeicherten Kopie der Unterseite. Wir sehen diese, wenn wir auf den kleinen Dropdown-Pfeil in der obersten Zeile des Snippets und dann auf „Im Cache“ klicken. Wir finden dann einen entsprechenden Hinweis sowie das Datum des Crawling. Über http://webcache.googleusercontent.com/search?q=cache://example.com kann auch ein direkter Zugriff erfolgen, sofern die konkrete URL bekannt ist.

Seiten aus dem Google Index entfernen – wie geht das?

In manchen Fällen ist es auch erwünscht, Seiten aus dem Index zu entfernen, etwa wenn die Inhalte veraltet sind. Gelegentlich kommt es auch vor, dass ein Webmaster eine irrtümliche Meldung verbreitet hat, die im Internet zu finden ist, aber schnellstmöglich von dort wieder verschwinden sollte. Folgende Vorgehensweise hat sich bewährt:

1. a) falls die Inhalte bei Aufruf der URL online verfügbar bleiben sollen: Sperrung über die Datei robots.txt oder per noindex

b) falls die Inhalte nicht mehr online abrufbar sein sollen: von der Website entfernen oder per Passwort schützen2.

2. Um Inhalte binnen weniger Stunden aus dem Google Index zu entfernen, genügt es in der Search Console auf „Entfernen“ zu klicken und dort die entsprechende URL einzugeben. Bei Bedarf funktioniert dies auch mit ganzen Verzeichnissen oder kompletten Domains. Da die Löschung ausschließlich per Google Search Console möglich ist, kann nur der Webseitenbetreiber selbst diese veranlassen. Zu beachten ist, dass andere Suchmaschinen eigene Indizes aufgebaut haben. Bei diesen wäre dann ein vergleichbarer Antrag zu stellen. Ähnliches gilt für Archivseiten wie archive.org. Überhaupt kann jede x-beliebige Website eine Information einmal aufgegriffen haben, so dass eine vollständige Löschung in vielen Fällen gar nicht möglich ist. Es gilt die Weisheit „Das Internet vergisst nichts.“

Fazit

Crawling und Indexierung sind gerade bei umfangreichen Webseiten komplexe Prozesse, die ein umfassendes Verständnis der Materie erfordern. Die entsprechenden Instrumente sollten aufeinander abgestimmt werden. Hinzu kommen unterschiedliche Interpretationsweisen der Bots. Empfehlenswert ist es hier, den Marktführer Google als Standard zu sehen, da sich andere Suchmaschinen zumindest derzeit an diesem orientieren. Je komplexer eine Website ist, umso anfälliger ist sie für Fehler bei Crawling und Indexierung. Ein fortlaufendes Monitoring aller Parameter über die Google Search Console und weitere Tools sollte daher zu den Pflichtaufgaben eines jeden Webmaster gehören.