Was ist ein Crawler?
Crawler sind Softwareprogramme, die das gesamte Internet durchsuchen. Alternative Bezeichnungen für einen Crawler sind Namen wie Webcrawler, Spider, Bot oder auch Searchbot. Die Bezeichnung Crawler wurde von dem Begriff Webcrawler abgeleitet. Hierbei wird der Content von Websites, wie Bilder, Texte und auch Videos analysiert und durchsucht. Crawler werden primär von Suchmaschinenprovidern genutzt, die Websites indizieren.
Inhaltsverzeichnis:
Funktionsweise eines Crawlers
Bei Crawlern handelt es sich um Bots, die autarken ihre Aufgaben initiieren. Die primäre Aufgabe hierbei ist, dass die Internetseite via unterschiedlicher Hyperlinks salopp formuliert über verschiedene Wege aufgesucht wird bzw. die relevanten URLs hierzu entsprechend abgespeichert werden. Der Weg, der hierfür virtuell zu gehen ist, wird automatisiert aufgefasst und dann abgespeichert. Theoretisch ist die Zielsetzung, dass das gesamte Internet nach den relevanten Verbindungen und Wegen durchsucht wird. Das wird aufgrund der bestehenden Verlinkungen initiiert. Soweit der theoretische Ansatz.
Der praktische Ansatz ist jedoch, dass lediglich die relevanten Links angesteuert werden. Das liegt unter anderem auch daran, dass es nur eine begrenzte Rechnerkapazität sowie eine limitierte Wirtschaftlichkeit gibt. Die ausgeführte Suche wird demzufolge lediglich für eine gewisse Zeit ausgeführt, danach beginnt die entsprechende Suche erneut. Hierbei wird dann der vollständige Weg (Meta-Daten) abgespeichert. Neben diesen Informationen erfolgt ebenso die Abspeicherung von Nebeninformationen, wie beispielsweise Email-Adressen sowie News-Feeds. Parallel hierzu werden Texte in den Index aufgenommen. Das geschieht, um die Inhalte der Sites schneller zu analysieren. Dies ermöglicht eine Volltextsuche
Relevant ist in diesem Zuge, dass für die Funktionsweise der Crawler, alle anfallenden Arbeitsschritte der Programme, die sich in Summe vollziehen, bereits im Vorhinein festgelegt werden. Aufgrund dessen können alle Aufträge frühzeitig per Definition erfolgen. Die spätere Funktionsweise des Crawlers erfolgt dann vollautomatisch.
Worum handelt es sich bei Bots?
Die Bezeichnung Bots wird häufig in einer direkten Analogie zu echten Robotern verwendet. Bei Bots handelt es sich jedoch eher um den Roboterkern. Wenn Du Dich hierbei von dem Bild des Roboters trennst, bleibt eine vollautomatische Softwareanwendung und ein Algorithmus übrig, der geforderte Dienste automatisch erbringt. Bots werden hierbei nicht von Menschen koordiniert und gesteuert, vielmehr werden sie von Menschen erschaffen. In diesem Zuge können die Bots unterschiedliche Aufgabenbestandteile erfüllen. Im World Wide Web werden Bots als Crawler eingesetzt. Hierdurch werden Inhalte gesammelt, analysiert sowie indexiert. Häufig treten sie vor allem in PC-Spielen als Gegner auf gepaart mit künstlicher Intelligenz. Darüber hinaus gewann diese Thematik auch im Bereich der Schadsoftware bzw. bei Spams an Relevanz. Auch Sprachassistenten oder Chat Apps kennt sind als Bots bekannt. Die angewandten Inhalte und Thematiken sind hierbei recht komplex.
Was bedeutet das technisch?
Die exakte Funktionsweise der Crawler ist aus technischem Blickwinkel betrachtet recht unkompliziert. Ein Webcrawler arbeitet sukzessive Aufgaben ab, die im Vorfeld festgelegt wurden. Am Beginn werden einige URLs festgelegt, die zwingend durchsucht werden sollen. Diese Liste wird als „crawl frontier“ bezeichnet. Beim Durchforsten des Internets wird prinzipiell jeder Link untersucht, der auf der Website zu finden ist. Ein Crawler kann sowohl HTML-Codes als auch Hyperlinks beim Durchsuchen überprüfen. Zu beachten ist, dass Einschränkungen gelten, etwa eine Limitierung der Zeitvorgabe oder auch ein Linkattribut: rel=“nofollow.“ Diese sind entscheidend um eine Websiteanalyse vorzunehmen
Websites, die durchsucht wurden, können vollständig von einem Robot kopiert werden, um den Suchmaschinenindex zu einem späteren Zeitpunkt schneller durchsuchen zu können. Zu beachten ist, dass der sogenannte Internetspider grundsätzlich immer in der Abhängigkeit von festgelegten Regeln und einer Anzahllimitierung der Downloads sowie der Seiten steht. Aufgrund dieser Maßgaben kann es durchaus sein, dass nach einem Suchlauf schon wieder aktuellere Inhalte verfügbar sind. Festgelegte Regeln, die Antworten für Suchläufe bereithalten:
- Welche Websites, soll der Webcrawler genau herunterladen?- Was kann dafür getan werden, zu vermeiden, dass die Serverlast für den Spider zu groß wird?
- Wie kann die Arbeitsweise von Bots, die parallel arbeiten am effizientesten koordiniert werden?
- Wann sollte der Webcrawler die einzelnen Websites erneut besuchen können?
Die Technik, die sich hinter den Bots versteckt, wird immer besser, dennoch können aktuell nur einzelne Internetteile untersucht werden. Crawler, die heutzutage jedoch ganz besonders effizient sind, können sogar Teile des Deeb Webs erfassen. Hierbei sind insbesondere autarke Datenbanken gemeint, die nicht gezielt und auf direkten Wege über eine entsprechende URL verfügbar sind.
Verschiedene Spider erfüllen diverse Zwecke
Heutzutage arbeiten zwar viele Firmen mit Crawlern, dennoch entfällt ein Großteil hierbei auf sogenannte Robots von Suchmaschinenprovidern. Durch diese wird das Internet kontinuierlich auf aktuellen Content durchsucht, um die bestehenden Indizes mit aktuellen und neuen Daten zu versorgen.
Das wichtige Data-Mining
Hier durchsuchen Webcrawler das Internet nach speziellen Daten. Grundsätzlich können das sowohl Mail-Adressen von Unternehmen sein als auch User-Profile von Firmen. Robots, die nur Adressen zusammensammeln, tragen auch die Bezeichnung „Harvester“. Diese sogenannten Spider verwenden unter anderem auch Blackhat-SEOs. Hiermit können beispielsweise zu einem späteren Zeitpunkt an diese Adressen Spam-Mails gesendet werden.
Die Internetanalyse und Internetvermessung
Diese speziellen Robots sind dafür da, um sie für wissenschaftliche Zwecke zu verwenden. Mit ihnen wird beispielsweise die Internetausbreitung gemessen.
Focused Crawler
Dieser spezielle Spider ist charakteristisch auf ein Themengebiet ausgelegt. Der Crawler ist in diesem Zusammenhang so ausgerichtet, dass er sowohl Links, die er gefunden hat, klassifiziert als auch ganze Websites.
Die Plagiatssuche
Hierunter versteht man die Recherche nach geschütztem Material, bezogen auf das Urheberrecht. Diese speziellen Bots werden immer dann genutzt, wenn Rechtsbrüche im Netz aufgedeckt werden sollen.
Das Scraping
Es gibt unzählig viele Beispiele dafür, dass Websites ausschließlich mit kopiertem Content aufwarten. Eine Reihe von Vergleichsportalen kopieren beispielsweise Content von anderen Anbietern auf ihre eigenen Websites. Einige sogenannte Spam-Sites scrapen, um schnellen Inhalt zu generieren. Dieses Vorgehen wird von Google als Manipulation eingestuft. Als Konsequenz kann es zu einem vollständigen Ausschluss aus dem entsprechenden Suchindex kommen.
Worin besteht der Unterschied zwischen Crawler und Scraper?
Bei einem Crawler handelt es sich im Vergleich zu einem Scraper lediglich um einen Datensammler, der diese Daten dann aufbereitet. Im Fokus des Scapings steht die sogenannte Black Hat Technik. Hierbei wird darauf abgezielt, dass Datenformen verschiedener Inhalte von weiteren Websites detailliert kopiert werden, um diese Inhalte dann entweder in identischer oder leicht modifizierter Weise auf der eigenen Webseite zu veröffentlichen. Der Crawler tangiert entsprechend eher Daten und Inhalte, die in der Form von Meta-Informationen bestehen und sofort sichtbar sind. Der Scraper greift hingegen Inhalte ab.
Wie können Crawler gesperrt werden?
Wenn Du nicht möchtest, dass einzelne Crawler Deine Websites durchsuchen, kannst Du die User Agents via robots.txt ganzheitlich von diesem Prozess ausschließen. Durch diese Vorgehensweise kann jedoch nicht dem entgegengewirkt werden, dass die Inhalte aufgrund der Suchmaschinen indiziert vermerkt werden. Hierbei eignen sich primär Canonical Tags oder noindex-Metatags.
Grenzen und Problematiken des Crawlers
Auch die besten Crawler sind nur bis zu einem gewissen Grad lernfähig, dennoch liefern sie ganz passable Ergebnisse, mit denen gut gearbeitet werden kann. Aufgrund von Informationen, die sich im Deep Web befinden oder Daten und Informationen, die durch Suchmasken abgerufen werden bzw. auch durch Zugangsbeschränkungen der einzelnen Crawler können einzelne Bestandteile des Internets nicht durchsucht werden. Zu einer weiteren Problematik entwickelt sich der Umstand der Datenschützer, denn sie verhindern ein wahlloses Sammeln von Informationen und Daten. Eine weitere Herausforderung ist das sogenannte Cloaking. Cloaking bewirkt, dass Bots unter Umständen andere Seiten angezeigt werden als dem normalen User. Das ist vor allem dann problematisch für Webseiten, die primär via Suchmaschinen gefunden werden. Eine weitere Schwierigkeit besteht in sogenannten Teegruben, die für Crawler schwierig im Handling sind, da die komplizierteren Bots lediglich Adressen und Spammails sammeln. Das behindert einen Crawler beim effizienten Arbeiten.
Der Crawler und die Suchmaschinenoptimierung
Crawler, wie beispielsweise Bots von Google, kreieren aufgrund des Indexings oder durch das Crawling die Grundlage dafür, dass Sites in den sogenannten SERPs überhaupt erst ranken können. In diesem Rahmen werden hierdurch Links im Internet sowie auf den Websites kontinuierlich gefolgt. Für jede einzelne Website hat der Crawler lediglich einen limitierten Zeitraum zur Verfügung. Hierbei handelt es sich um das Crawl Budget. Aufgrund der Webseitenstrukturoptimierung, der Navigation oder auch der Dateigröße können die Betreiber der Websites das Crawl Budget der Bots von Google effizienter nutzen. Parallel hierzu maximiert sich das entsprechende Budget aufgrund einer hoch frequentierten Seite oder einer komplexen Bandbreite eingehender Links. Instrumente, die in diesem Zusammenhang wichtig sind, um z.B. Bots von Google zu steuern, sind robots.txt-Datei oder die XML-Sitemap, die in der Google Search Console zu finden sind.
SEO und Webcrawling
Bei einer Durchführung sowie bei der Erstellung einer Website muss für eine gute Sichtbarkeit bei den Suchergebnissen darauf geachtet werden, dass ein ausreichendes Scrawling stattgefunden hat. Hiermit wird sichergestellt, dass relevanter Inhalt auch im Suchmaschinenindex angezeigt wird. Wichtig ist, dass ein Webcrawler nur den tatsächlichen Content indexieren kann, der durch die Suchläufe zu finden ist. Aufgrund dessen muss die Website eine flache Hierarchie aufweisen sowie eine intelligente interne Verlinkung bereithalten.
Indexierung
Die im Rahmen des Crawlings gesammelten Daten werden in diesem Zuge von den Betreibern der Suchmaschinen indexiert und aufgrund dessen den Suchmaschinen bereitgestellt. Hierbei entspricht der Index der Speicherung der identifizierten, gecrawlten Websites, die nicht von der Sichtbarkeit ausgeschlossen- oder als irrelevant eingestuft wurden. Dieser Index ist die Datengrundlage, die im Rahmen einer Suchanfrage durch User genutzt wird. Die gestellten Suchanfragen lösen einen Algorithmus aus, um die relevantesten Ergebnisse zu finden.
Das Crawling-Budget
Das sogenannte Crawling-Budget ist für kleinere Websites eher uninteressant, denn die URLs werden hier im Regelfall in den ersten Tagen indexiert. Wichtiger wird dieser Aspekt erst bei Websites mit vielen Tausend oder mehr URLs. Hier ist es von großer Wichtigkeit, das Crawling-Budget im Blick zu haben und zu optimieren. Im nachfolgenden Bereich wird nun geklärt, was genau unter einem Crawling-Bedarf, einem Crawling-Budget sowie einer Crawling-Frequenz zu verstehen ist.
Ein Crawling-Budget beschreibt die Anzahl der relevanten URLs, die der sogenannte Bot auf einer Website crawlen will. Diese Komponenten werden hierbei von Können (Crawling-Frequenz) dem Wollen (Crawling-Bedarf) beeinflusst. Die Crawling-Frequenz umfasst die Anfragenanzahl je Sekunde, die ein Bot im Zuge des Crawlings einer Website ausführt. Eine Regel, die hierbei angewandt werden kann, ist die Folgende: Je geringer die Ladezeit ausfällt, umso weniger Serverfehler treten und umso größer ist die relevante Frequenz.
Die Bots der Suchmaschinen crawlen primär Websites, die bei den Suchenden eine hohe Beliebtheit aufweisen. Da kommt die Frage auf, wie genau die Beliebtheit gemessen wird. Der Prozess, der die Beliebtheit untersucht und beeinflusst ist jedoch komplex. Wichtige Indikatoren hierbei sind Aspekte, wie die Verlinkung, die Absprungrate sowie die Aufenthaltsdauer. Zu beachten ist, dass Websites, die entweder veraltet oder als weniger beliebt eingruppiert werden, im Regelfall nur sehr selten oder auch gar nicht gecrawlt werden.
Unter dem in diesem Kontext so wichtigen Crawling-Bedarf handelt es sich folglich um einen Wert, der als Indikator dient, wie wichtig es für einzelne Sites ist, dass sie regelmäßig gecrawlt werden oder entsprechend auch nicht. Websites, die im Allgemeinen nur einen geringen Mehrwert haben, wirken sich nachteilig auf die Indexierung bzw. das Crawling aus. Hierdurch wird guter Content erst zu einem späteren Zeitpunkt gefunden.Zu Verringerung der Mehrwert-Parameter führen der Soft-404-Fehler, Duplicate Content, Seiten ohne Mehrwerte oder Spam.
Search Console
Im Rahmen der Search Console ist es möglich, z.B. die URL-Parameter auszuschließen, die eine Crawling-Frequenz minimieren. Du kannst URLs mit entsprechenden Parametern ausschließen, die im Zuge der Sucheinstellungen auf Sites generiert werden.
In diesem Zusammenhang ist es wichtig, dass zwei Punkte beachtet werden.
Die gewählten Einstellungen dürfen nur für Google gelten, andere Suchmaschinen sind nicht inbegriffen. Das auftretende Problem kann jedoch durch weiterer Mittel, wie noindex, robots.txt oder Canonicals alternativ auch zur Generierungsvermeidung Filter-URLs auf der Site ausgelöscht werden. Eine Notlösung via Google ist somit nicht vonnöten.
Unter der gegebenen Website-Einstellung kann darüber hinaus die maximale Crawling-Frequenz eingestellt werden. In diesem Zusammenhang können Wertmaßstäbe sowohl mit nur einigen wenigen oder aber mit vielen Anforderungen pro Sekunde festgelegt werden. Beachten sollten Nutzer hierbei jedoch, dass die Crawling-Frequenz grundsätzlich nur eingeschränkt werden sollte, wenn der Server durch Google verlangsamt werden soll. Zudem sind diese Einstellungen lediglich 3 Monate gültig. Nach 90 Tagen müssen diese Eintragungen dann erneuert werden. Auch dieses Vorgehen stellt nur eine Notlösung dar. Immer, wenn der Seitenserver durch den Crawler verlangsamt wird, ist es dringend zu empfehlen im Anschluss eine Optimierung vorzunehmen.
Robots.txt
Durch eine robots.txt, die grundsätzlich im Root-Verzeichnis der Domain hinterlegt werden muss, ist es möglich den Crawlern unterschiedliche Anweisungen zu geben.
Hierbei können zwei Vorgehensweisen durchgeführt werden:
- Auf mehrere XML-Sitemaps oder auf die Adresse einen Verweis geben.
- Einen Crawler entweder von einem ganzen Verzeichnis oder einer einzelnen Seite auszuschließen.
In diesem Zusammenhang muss jedoch beachtet werden, dass die Befehle von robots.txt lediglich Empfehlungen sind. Es erfolgt jedoch nicht zwangsläufig eine Beachtung der Suchmaschinen.
Noindex
Bedenke, dass „noindex“ im Meta-Tag der Website integriert wird. Immer dann, wenn eine entsprechende Website aufgerufen wird, ist es so, dass immer etwas Crawling-Budget aufgebraucht wird. Die Webseite allerdings wird nicht indiziert. Diese noindex. Anweisung ist im Zuge dessen als verbindlich anzusehen. Das bedeutet, dass bei einem kommenden Crawling die Website aus dem Suchmaschinenindex entfernt wird.
Diese Tags sind vor allem bei den folgenden Seiten sinnvoll:
- Suchergebnisseiten
- Paginierte Seiten
- Canonicals
Noindex-Anweisungen sind Suchmaschinenbindend, Canonicals jedoch nicht. Das bedeutet, dass es keinerlei Garantien dafür gibt, dass vorliegende Suchmaschinen auch den Empfehlungen folgen. Canonicals werden ebenso im Header der Websites integriert.
Bei noindex-Anweisungen sollen Websites aus dem Index genommen werden. Hierbei entspricht das Vorgehen lediglich einer Empfehlung, welche URL anstelle der aktuell aufgerufenen Website indexiert werden soll. Das ist beispielsweise dann der Fall, wenn durch einen Online Shop im Zuge der Filterfunktion Duplicate Content entsteht.
Beispiel aus der Praxis: Wie kann Duplicate Content mit Parameter URLs verhindert werden?
Stell Dir vor, es existiert eine Kategorie-Seite.
Diese Muster-Seite wird “https://www.muster-shop.de/kategorie” genannt.
Parallel hierzu gibt es weitere Filter-URLs, die wie folgt heißen:
- https://www.muster-shop.de/kategorie?filter-farbe
- https://www.muster-shop.de/kategorie?filter-preis
Durch dieses Vorgehen entsteht zwangsläufig der sogenannte Duplicate Content. Das liegt daran, dass die 3 URLs in Puncto Überschrift beinahe deckungsgleich sind., Meta Daten, Text etc. weisen im Gegenzug stimmen nicht bezüglich der angezeigten Produkte nicht überein. Es gibt hierzu vier unterschiedliche Optionen, die jeweils Vor- und Nachteile aufweisen, die nachführend aufgelistet werden.
Die Option Search Console
Vorteil:
- Dieses Vorgehen funktioniert vollkommen verbindlich bei der Suchmaschine Google
Nachteile:
- Der Methode liegt eine durchaus komplizierte Konfiguration zugrunde
- Das Vorgehen hat lediglich Relevanz für Google, jedoch nicht für andere Suchmaschinen
Die Option robots.txt
Vorteil:
- Dieses Vorgehen funktioniert auch bei allen anderen Suchmaschinen
Nachteil:
- Eine Empfehlung in diesem Bereich ist nicht verbindlich
Die Option noindex
Vorteile:
- Hierbei handelt es sich um eine vollkommen verbindliche Methode, um benötigte Websites aus dem Index zu erhalten
- Das Vorgehen hierbei hat Gültigkeit für alle weiteren Suchmaschinen
Nachteil:
- Es ist bei diesem Vorgehen keinerlei Verweis auf relevante Websites möglich
Die Option Canonical
Vorteile:
- Diese Option besitzt Gültigkeit für alle weiteren Suchmaschinen
- Es erfolgt ein Verweis auf alle weiteren Websites, hier vor allem für die Kategorie-Websites
Nachteil:
- Empfehlungen werden im Regelfall zumeist übernommen, aber nicht immer
In Allgemeinen könnte an dieser Stelle, die Filter-URLs einfach auf noindex versetzt werden. Dadurch wird garantiert, dass die Kategorie-Sites im Index vermerkt werden. Somit wird sichergestellt, dass es kein Duplicate Content auftreten wird. Bei diesem Vorgang existieren jedoch zwei Alternativen, mit denen ebenfalls gearbeitet werden kann.
CMC-Systeme können so eingestellt werden, dass sich aufgrund der Filterung die URL nicht ändert. Dieses Vorgehen kann allerdings nicht bei allen CMC-Systemen angewandt werden, da umfassendes technisches Know-how vorausgesetzt wird. Eine weitere Möglichkeit besteht darin, die jeweiligen Filterseiten im Einzelnen zu optimieren.
Alternativ dazu, dass eine URL auf noindex gesetzt wird, kann sie mit einem speziellen Title Tag- und Text versehen werden. Aufgrund dessen ist hier kein Duplikat vorhanden. Auch für die Nutzung dieser Variante ist das vorliegende CMS und die gewählte Technik entscheidend.
In Summe ist festzuhalten, dass es für die Betreiber von Websites von großer Wichtigkeit ist, dass Suchmaschinen Crawling zu lenken sowie eine Steuerung der Indexierung von einzelnen URLs vorzunehmen. Dabei gibt es eine Reihe unterschiedlicher Optionen, etwa die Sperrung der jeweiligen Website für einen Index oder die Kreation von flachen und schlanken Seitenhierarchien. Die grundlegenden Thematiken präsentieren sich dabei als sehr komplex. Es bedarf folglich einer detaillierten Betrachtung und Lösungsfindung. Die erklärte Zielstellung ist, alle relevanten URLs in den Index zu integrieren und parallel die nicht relevanten URLs respektive den Duplicate Content auszuschließen, um ein effizientes und nachhaltbares Vorgehen sicherzustellen.
Fazit
Grundsätzlich ähneln Crawler bzw. Bots Spürhunden, die virtuell agieren. Sie untersuchen das World Wide Web und somit die eigene Unternehmenshomepage. In diesem Prozess kombinieren und verknüpfen sie die relevanten Schlüsselbegriffe mit den URLs der Websites. Auf eine gegebene Indexierung stützen sich Suchmaschinen im Rahmen der Suchergebnisgenerierung zu einem gegebenen Suchbegriff. Als Synonym für einen Suchbegriff finden sich auch Bezeichnungen, wie Keyword oder Schlüsselwort. Aufgrund dieses Mechanismus ist eminent wichtig, die eigene Website in den Suchergebnissen von Google möglichst weit oben zu platzieren Google bietet hierfür u.a. das Tool Google Search Console an, das ein gutes Kontrollinstrument darstellt.