Ohne XML-Sitemaps ist die Erfassung von Websites durch Suchmaschinencrawler wie den Googlebot viel schwerer. Denn wenn es darum geht, Inhalte nach der Veröffentlichung zeitnah, oder nach Änderung erneut, von Suchmaschinencrawlern besuchen und indexieren zu lassen, sind Sitemaps (fast) unerlässlich.
Dabei ist es wichtig zu wissen, dass ohne Indexierung ein gutes Ranking in den Suchergebnissen unmöglich ist. Aus diesem Grund ist die Verwendung von Sitemaps ein fundamentaler Bestandteil der Suchmaschinenoptimierung. Aber was genau versteht man unter Sitemaps und warum ist ihr Einsatz so wichtig?
Arten von Sitemaps: HTML und XML
Grundlegend wird zwischen HTML- und XML-Sitemaps unterschieden. HTML-Sitemaps sind so gestaltet, dass sie von den Besucher:innen einer Website zur besseren Orientierung genutzt werden können. Sie listen, in der Regel vereinfacht, (wichtige) Seiten der Website auf. Im Gegensatz dazu richten sich XML-Sitemaps an Suchmaschinen, um diese bei der Erfassung der Website zu unterstützen.
HTML-Sitemaps: Nutzer:innen (und Suchmaschinen) einen direkten Einstieg auf tiefe Ebenen ermöglichen
Falls Du ein Beispiel für eine HTML-Sitemap suchst, dann schau Dir z.B. die Sitemap von eBay (siehe: pages.ebay.de/sitemap.html). oder die des Bundeskriminalamts (siehe: bka.de/DE/Service/Sitemap/sitemapl) einmal an. Über diese Sitemaps werden Einsprünge in tiefere Ebenen der Website ermöglicht.
Bei der Erstellung bzw. beim Aufbau von HTML-Sitemaps ist es wichtig, dass diese leicht verständlich sind. Es empfiehlt sich daher, besonders wichtige Seiten zu verlinken und mit Hierarchien zu arbeiten, anstatt eine vollständige Auflistung aller Seiten ohne direkt verständliche Struktur anzubieten.
XML-Sitemaps: Crawlern die Erfassung der Website vereinfachen
Die Hauptfunktion von XML-Sitemaps besteht darin, die Auffindbarkeit einzelner Seiten durch Suchmaschinen zu gewährleisten. XML, die Abkürzung für “extensible markup language” oder auf Deutsch “erweiterte Auszeichnungssprache”, ermöglicht es, neben den URLs weitere Informationen wie das Datum der letzten Aktualisierung einer Seite zu übermitteln.
Diese zusätzlichen Informationen können das Crawling durch Suchmaschinen verbessern. Zur Erinnerung: Crawling bezeichnet den Prozess, bei dem automatisierte Suchmaschinen-Bots, wie der Googlebot von Google, Webseiten erfassen. Denn nur so sind Seiten über die jeweilige Suchmaschine auffindbar.
An dieser Stelle sei bereits erwähnt, dass Suchmaschinen wie Google auch in der Lage sind, Sitemaps in anderen Formaten als XML zu verarbeiten, beispielsweise .atom, RSS oder sogar .txt. Diese alternativen Sitemap-Formate sowie ihre jeweiligen Vor- und Nachteile sind in der Google-Hilfe näher beschrieben (siehe: developers.google.com).
XML-Sitemaps erstellen: So geht es
In der Regel muss man sich heutzutage wenig Gedanken um XML-Sitemaps machen, da für die meisten Content-Management-Systeme (inklusive Shopsysteme) entsprechende Funktionen entweder fest eingebaut sind, oder über Erweiterungen hinzugefügt werden können. Suche im Zweifelsfall einfach mal nach dem Namen Deines Systems + XML Sitemap bei Google.
Wichtig ist allerdings, die Funktion zu aktivieren und damit eine oder mehrere Sitemaps (automatisch) zu erstellen. Auch eine Aktualisierung der Sitemap findet automatisch statt.
Falls es wirklich keine automatische Lösung gibt, bleibt nur die manuelle Erstellung von XML-Sitemaps. Hierzu gibt es eine Reihe von Online Generatoren, aber auch Crawler wie der Screaming Frog können verwendet werden. Diese Tools erstellen eine statische XML-Sitemap, die anschließend manuell auf die Website hochgeladen werden muss.
Statisch hat ein Problem: Es ist eben nicht dynamisch 😉 Das bedeutet, dass neue Adressen nicht automatisch zur Sitemap hinzugefügt werden können. Die Sitemap bleibt so lange wie sie ist, bis sie manuell überschrieben wird. Deshalb ist eine statisch erstellte XML-Sitemap nur als absoluter Notnagel zu sehen – oder für Seiten, die sich nicht (mehr) ändern.
Wo soll eine XML-Sitemap abgelegt werden?
Hinsichtlich des Speicherorts gibt es einen (theoretischen) Fallstrick, den viele SEOs nicht kennen. Denn standardmäßig gilt Folgendes:
Dies bedeutet, dass eine Sitemap, die in einem Unterordner statt im Hauptverzeichnis (dem sogenannten Root) gespeichert wird, nur für URLs innerhalb dieses spezifischen Unterordners gültig ist!
Es gibt jedoch eine wichtige Ausnahme bei Google: Wer die XML-Sitemap über die Google Search Console einreicht, der “überschreibt” damit den Geltungsbereich. Somit werden alle in der Sitemap gelisteten URLs “korrekt”.
Eine Sitemap kann übrigens auf einer komplett anderen Domain gehostet werden. Als Beispiel könnte die Sitemap von omt.de auf stephan-czysch.de liegen. Damit Google der “Fremden” Sitemap vertraut, muss entweder in der robots.txt von omt.de ein Verweis auf die Sitemap gesetzt sein, oder die Sitemap von stephan-czysch.de muss über die Google Search Console eingereicht werden.
Die Nutzung einer anderen Website kann z.B. für große Unternehmen mit mehreren Domains sinnvoll sein, oder wenn eine statische Sitemap nicht ohne weiteres auf den eigentlichen Webauftritt hochgeladen werden kann.
Beachte für Cross-Domain-Sitemaps die Google Hilfe (siehe:developers.google.com). Kleine Werbepause: Eventuell ist unser Google Search Console Seminar mit Stephan ja etwas für Dich.
Was den Namen der Sitemap angeht, so besteht eine große Flexibilität. Es gibt keine Vorschrift, die besagt, dass der Dateiname “sitemap.xml” lauten muss. Das wäre bei großen Websites auch gar nicht möglich, da es eine Zeilenbegrenzung gibt. Das führt uns auch direkt weiter zu Sitemap-Indexdateien.
Sitemap-Indexdateien: Übersicht über verschiedene Sitemaps
Wie Du im weiteren Verlauf des Artikels bei der Übersicht über die Anforderung nochmals lesen wirst, gelten für Sitemaps zwei harte Grenzen: maximal 50.000 <loc> Einträge, sowie eine maximale Dateigröße von 50 MB pro Sitemap.
Damit kommen große Seiten nicht hin, da diese mehrere Millionen Adressen haben können. Auf XML-Sitemaps müssen diese Websiten natürlich nicht verzichten, denn es können mehrere Sitemaps angelegt werden. Über eine sogenannte Sitemap-Indexdatei können diese Sitemaps wieder “gebündelt” werden.
In der Google-Hilfe sind weitere Informationen zu Sitemap-Indexdateien zu finden (siehe: developers.google.com).
Sitemaps bekannt machen: robots.txt-Eintrag und die Webmaster Tools
Da Du jetzt weißt, dass eine Sitemap “irgendwo” liegen kann und einen beliebigen Namen haben darf, müssen Suchmaschinen wissen, wo sich die Sitemap befindet. Das kann wahlweise über die Webmaster Tools wie die Google Search Console passieren, oder über die robots.txt.
Referenzierung der XML-Sitemap in der robots.txt
Die Integration der Sitemap in die robots.txt-Datei stellt den unkompliziertesten Weg dar, um Suchmaschinen über die Sitemap einer Website zu informieren.
Die robots.txt-Datei dient dazu, das Verhalten von Suchmaschinen beim Durchsuchen der Website (“Crawling”) zu steuern, indem bestimmte Bereiche der Seite für das Crawling gesperrt oder freigegeben werden. Standardmäßig sind alle Seiten für Suchmaschinen zugänglich, es sei denn, sie werden durch eine Disallow:-Anweisung vom Crawling ausgeschlossen.
Um Suchmaschinen auf die XML-Sitemap aufmerksam zu machen, ist es notwendig, die Zeile “Sitemap: URL-der-Sitemap” in die robots.txt-Datei einzufügen. Auch mehrere Sitemap-Einträge sind möglich.
Ein Nachteil dieser Methode ist jedoch, dass die robots.txt-Datei öffentlich zugänglich ist, was bedeutet, dass auch Wettbewerber Zugriff auf die vollständige Liste der URLs über die dort referenzierten Sitemaps einer Website haben könnten. Für diejenigen, die ihre Website-Adressen nicht preisgeben möchten, bietet sich als Alternative die Registrierung der Sitemap über die Webmaster-Tools an. Das hat auch direkt einen weiteren Vorteil.
Anmeldung der Sitemap über die Webmaster Tools (wie die Google Search Console)
Indem Du die Adressen Deiner Sitemaps in den Webmaster-Tools der verschiedenen Suchmaschinen angibst, sicherst Du Dir mehrere wesentliche Vorteile. Einerseits ist die Suchmaschine über die Existenz und den Standort Deiner Sitemaps informiert und kann diese problemlos abrufen.
Andererseits bekommst Du, speziell bei der Nutzung der Google Search Console, umfassende Informationen zum Indexierungsstatus deiner Sitemaps. Dies ermöglicht Dir einen Einblick, wie viele Deiner eingereichten Seiten tatsächlich von Google in den Index aufgenommen wurden.
Es ist daher empfehlenswert, Deine Sitemaps in den Webmaster-Tools einzureichen. Die Entscheidung, ob Du die Sitemaps zusätzlich in der robots.txt Datei verlinken möchtest, bleibt dir überlassen. Dieser Eintrag in der robots.txt ersetzt auch nicht das manuelle Einreichen! Für Suchmaschinen ist die Bekanntmachung über die Webmaster-Tools ausreichend. In der Google Search Console kannst du deine Sitemaps über den Bereich Indexierung => Sitemaps an Google übermitteln.
Wenn du mehr über Sitemaps in der Google Search Console erfahren möchtest, dann schau dir das nachfolgende Video an.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenDie Anforderungen an XML-Sitemaps
Das Internet basiert auf Standards, um eine reibungslose Funktion von Webseiten zu gewährleisten. Im November 2006 einigten sich die führenden Suchmaschinenbetreiber Google, Yahoo und Microsoft auf einen einheitlichen Standard für XML-Sitemaps, dessen Details auf sitemaps.org nachzulesen sind.
XML-Sitemaps müssen bestimmte verpflichtende Angaben enthalten, um valide zu sein. Zu den Pflichtangaben gehören:
- <urlset>: Markiert den Beginn der Auflistung von Webseitenadressen.
- <url>: Wird für die einzelnen Einträge innerhalb des <urlset> verwendet.
- <loc>: Ist die Abkürzung für Location. Hier stehen die einzelnen Adressen drin.
Zusätzlich können optionale Angaben übermittelt werden, um Suchmaschinen detailliertere Informationen zu den einzelnen Adressen zu bieten:
- <lastmod>: Liefert das Datum der letzten Aktualisierung einer Seite.
- <changefreq>: Beschreibt, wie oft sich der Inhalt der Seite voraussichtlich ändert. Mögliche Werte sind daily, weekly und monthly.
- <priority>: Weist der Seite eine relative Priorität zu. Der Wert kann zwischen 1.0 und 0.1 liegen.
Sollten diese optionalen Werte auch übermittelt werden? Das kommt auf die korrekte Befüllung der Angaben an. Google selbst beachtet die Angaben <changefreq> und <priority> nicht (siehe die Google Hilfe), legt aber Wert auf ein valides <lastmod>-Datum.
Wer hier einfach irgendwas reinschreibt, der tut weder sich noch Google einen Gefallen. Denn dann wird dieser “falsche” Wert ignoriert und nicht zur Priorisierung des (erneuten) Crawlings verwendet. Wie Google herausfindet, ob die Angaben valide sind? Z.B. indem der Seiteninhalt zwischen “kennt Google aktuell” und “so ist die Seite jetzt” verglichen wird.
Anforderungen an XML-Sitemaps
Du fragst Dich, was Du grundlegend über die Erstellung von XML-Sitemaps wissen musst? Eigentlich musst du dich mit den Grundlagen nicht beschäftigen, wenn eine Erweiterung oder das CMS die Erstellung von Sitemaps übernimmt. Denn dort sind in 99% der Fälle die Anforderungen bekannt und korrekt umgesetzt.
Die Primärquelle für Google ist diese Hilfe-Seite, doch hier sind die wichtigsten Informationen kompakt zusammengefasst:
- Pro einzelner XML-Sitemap sind maximal 50.000 URL-Einträge erlaubt.
- Die maximale Dateigröße einer Sitemap darf 50 MB betragen.
- Eine Webseite kann mehrere Sitemaps nutzen.
- Die Verwendung von UTF-8 für die Kodierung sichert die korrekte Interpretation aller Angaben.
- Datumsangaben sollten im Format YYYY-MM-DD erfolgen.
- Optional kann dem Datum eine Zeitangabe im UTC-Format angefügt werden. Die Uhrzeit wird mit T abgetrennt und der Eintrag sieht dann z.B. so aus: <lastmod>2023-05-04T08:23:11+01:00</lastmod>
- Es sollten ausschließlich absolute Adressen in XML-Sitemaps aufgelistet werden, also inklusive Protokoll (http oder https) und Subdomain.
- Die aufgeführten Adressen sollten existieren und von Suchmaschinen gecrawlt werden können. In der Regel sollten von der Indexierung ausgenommene Seiten nicht in Sitemaps aufgelistet werden.
- Optional ist eine Komprimierung der Sitemap im GNU ZIP-Format, auch bekannt als gzip, möglich.
Sitemaps für besondere Medientypen: Image-Sitemaps, Video-Sitemaps, News-Sitemaps und hreflang-Sitemaps
Sitemaps können nicht nur klassische Webseiten enthalten, sondern auch für Bilder, News, Videos und um hreflang-Angaben zur sprachlichen Auszeichnung erweitert werden. Auch eine Kombination all dieser “Spezialsitemap-Angaben” ist selbstverständlich möglich.
Image Sitemaps: Bilder (besser) indexieren lassen
Bilder-Sitemaps erweitern eine klassische Sitemap um die Bilder, die auf einer Seite eingebunden sind. Dazu werden die Angaben <image:image> und <image:loc> gesetzt. Während <image:image> das Äquivalent zu <url> ist, gilt selbiges für <image:loc> und <loc>.
Wenn mehrere Bilder auf einer Seite enthalten sind, gibt es entsprechend mehrere Einträge von <image:image> und <image:loc> innerhalb der <url> Angabe.
Bis 2022 unterstützte Google noch weitere, optionale Angaben für Bilder, nämlich <image:license> (Welche Nutzungsrechte gelten für das Bild?), <image:title> (Eine Bildbeschreibung), <image:caption> (Die Bildunterschrift) und <image:geo_location> (für den Aufnahmeort). Diese Angaben werden nicht mehr ausgewertet.
Weitere Informationen zu Bilder-Sitemaps gibt es wie gewohnt bei Google.
Video-Sitemaps: Welche Videos gibt es bei dir?
Analog zu Bild-Informationen können auch Videodaten in XML-Sitemaps eingebettet werden. Allerdings gibt es rund um Videos wesentlich mehr verpflichtende und optionale Angaben. Am besten wirfst du einen Blick auf die Google-Hilfe, wenn Video-Sitemaps ein Thema für dich sind.
Grundsätzlich sieht eine Video-XML-Sitemap mit den Pflicht- und optionalen Angaben so aus:
News-Sitemaps: Wichtig für Google News SEO
Wer sich mit der Optimierung für Google News beschäftigt, der kommt nicht um News-Sitemaps herum. Diese Erweiterung enthält neben allgemeinen Angaben über den Publisher vor allem die Information zu einzelnen Artikeln, samt des Veröffentlichungsdatums sowie den Artikelnamen.
Mehr Informationen gewünscht? Hier gibt es die Antworten (https://seobuch.net/570).
hreflang-Sitemaps: Immer die lokal passende Seite bei Google anzeigen
Bei mehrsprachigen Websites kann es für Google zu Problemen kommen, um die richtige Seite anzuzeigen. So wäre es für eine:n Nutzer:in aus der Schweiz suboptimal, wenn dieser in einem SERP Snippet Euro-Preise statt des Preises in Schweizer Franken sieht. Mittels hreflang kann Google bei der korrekten lokalen Ausspielung unterschiedlicher länder- oder sprachspezifischer Seiten unterstützt werden.
Dazu müssen die einzelnen alternativen Seiten miteinander verknüpft werden. Wichtig ist hierbei, dass die Verknüpfung zwischen allen Seiten stattfindet und dadurch bestätigt wird. Sprich, wenn Seite1-de auf Seite1-en als rel=”alternate” hreflang=”en” verweist, muss Seite1-en den entsprechenden Rückverweis auf Seite1-de mit rel=”alternate” hreflang=”de” nutzen. Eine um hreflang-Angaben erweiterte XML-Sitemap kann also so aussehen:
Weitere Erklärungen gibt es wie gewohnt in der Google-Hilfe (https://seobuch.net/636).
Sitemaps auf Fehler prüfen
Im Wesentlichen sollten XML-Sitemaps ausschließlich solche Seiten beinhalten, die sowohl von Suchmaschinen als auch von Nutzer:innen erfolgreich besucht werden können. Es macht wenig Sinn, Links/Verweise innerhalb der XML-Sitemap zu Seiten anzubieten, die entweder nicht existieren, für Suchmaschinen-Crawler durch die robots.txt-Datei gesperrt sind oder von Suchmaschinen nicht in den Suchergebnissen angezeigt werden dürfen (mittels Noindex-Angabe).
Aus diesem Grund wird Deine XML-Sitemap regelmäßig automatisch aktualisiert, beispielsweise bei jeder Aktualisierung der Website oder beim Hinzufügen neuer Inhalte oder der Löschung von Seiten. Zur Überprüfung auf Fehler können Tools wie die Google Search Console oder Crawling-Tools wie der Screaming Frog herangezogen werden.
Crawling-Tools ermöglichen einen direkten Vergleich der durch das Crawling ermittelten URLs mit jenen, die in der Sitemap aufgeführt sind. Dies erleichtert das Auffinden von Problemen wie nicht mehr existierenden Seiten oder URLs, die fälschlicherweise nicht in der Sitemap aufgeführt sind oder in der Website nicht über Links erreichbar sind. Zudem lassen sich Sitemaps in der Regel als Startpunkt für Crawls nutzen, sprich nur die in der Sitemap enthaltenen Adressen werden aufgerufen.
Obwohl Suchmaschinen in der Lage sind, Sitemaps trotz vorhandener Fehler zu verarbeiten, sollte dies nicht als Freibrief für eine vernachlässigte Sitemap-Pflege verstanden werden. Eine sorgfältige und fehlerfreie Gestaltung der Sitemap ist für eine optimale Website-Indexierung unerlässlich.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen