Wenn Ihre Website ranken soll, muss sie vorher indexiert werden. Soll sie indexiert werden, dann muss sie auch gecrawlt werden.

Crawling und Indexierung sind zwei Prozesse, die fundamental zur SEO-Performance Ihrer Webseite beitragen. In diesem Guide erklären wir Ihnen, was die einzelnen Vorgänge bedeuten und wie Sie das Crawling und die Indexierung für das bestmögliche Ranking optimieren.

Crawling

Das Crawling ist die Basis der Indexierung. Der Crawler – ebenfalls Spider oder Bot genannt – geht Webseiten durch und ermittelt die Inhalte Ihrer Website (Crawling), damit sie danach in den Suchindex aufgenommen (Indexierung) und in Bezug auf Ihre Relevanz für eine Suchanfrage und einen Nutzer beurteilt werden können (Ranking).

Mit dem Crawling-Management steuern Sie den Crawler der Suchmaschine so, dass alle SEO-relevanten Seiten, also die für die Indexierung und das Ranking entscheidenden Links, möglichst oft gecrawlt werden. Das Indexierungs-Management steuert dann, welche der gecrawlten Seiten auch tatsächlich indexiert werden, also in den Suchergebnissen erscheinen sollen. Unter den Seiten, die in den Index der Suchmaschine aufgenommen wurden, bestimmen dann die Rankingfaktoren, welche Seite wo in den Suchergebnissen erscheint.

Google weist jeder Webseite ein gewisses „Crawl-Budget” zu. Dieser Begriff beschreibt die Zeit, die der Bot auf der Webseite verbringt, um Inhalte zu crawlen. Zeigt man dem Bot nun also „unnötige” Seiten, wird Crawl-Budget „verschwendet”, d.h. ranking-relevante Seiten bekommen möglichweise zu wenig Crawl-Budget.

Welche Seiten sind SEO-relevant?

Ausschlaggebend für Rankings sind vor allem die URLs, die einen geeigneten Einstieg aus der organischen Suche bieten. Falls Sie etwa ein Paar Skischuhe kaufen wollen und Sie suchen nach „Salomin Skischuhe“ wäre eine geeignete Einstiegsseite eine Seite, auf der eine Auswahl an Salomon Skischuhen in einem Shop  angezeigt werden. Oder aber eine Produktdetailseite, falls Sie exemplarisch nach mehr Details wie „salomon X pro“ gesucht haben.

Wenn Sie nach „einbruchschutz“ suchen, dann wäre eine passende Einstiegsseite beispielsweise eine Seite wie diese:

SEO relevante Seitentypen sind:

  • Startseiten
  • Kategorieseiten
  • Produktdetailseiten
  • Artikelseiten
  • Markenseiten
  • SEO-Landingpages
  • Magazine, Ratgeber und Blogs
Sind Produktseiten ranking-relevant?

Produktseiten sind praktisch immer SEO-relevant. Jeder Onlineshop möchte gerne Nutzer über die organische Suche erhalten. Die Frage ist allerdings: Möchten Sie alle Ihre Produkte und Produktvarianten optimieren? Wenn ja, haben Sie dafür die nötigen Ressourcen? Je nach Größe Ihres Onlineshops fehlt es in der Praxis jedoch sehr häufig an Zeit oder Geld, um sich alle Produkte und Varianten Stück für Stück vorzunehmen.

Infolgedessen sollten Sie Ihre Produktseiten für die Optimierung priorisieren:

  • Welches Artikel sind Ihre Topseller?
  • Welche Artikel haben eine besonders gute Marge bzw. hohen Preis
  • Welche Produkte sorgen für organischen?
  • Für welche Produkte und Produktoptionen gibt es hohe Nachfrage in der Suche, d.h. Suchvolumen?

So suchen rund 2600 Nutzer monatlich nach „nike free run“, während die Farbvarianten rot, blau, schwarz nicht gesucht. In diesem Fall wäre es somit ausreichend, den Hauptartikel indexieren zu lassen, während die Farbvarianten nicht relevant für das Ranking sind.

Welche Seiten sollen gecrawlt werden, obwohl sie nicht ranken sollen?

Warum sollte eine Seite für SEO wesentlich sein, wenn sie nicht ranken soll? Weil sie auf ranking-relevante Seiten verlinkt. Diese Seiten haben für den Nutzer einen Mehrwert, sie sind aber keine passenden Einstiegsseiten. Der Crawler muss sich diese Seiten dennoch ansehen, um über diese „Link-Seiten“ andere ranking-relevante Seiten der Website zu finden.

Das klassische Beispiel sind Paginationen, die oft auf Kategorie- oder Übersichtsseiten zu finden sind. Es werden die Produkte oder Artikel einer Kategorie oder eines Themas auf mehreren Seiten angezeigt und über eine nummerierte Navigation (Pagination) miteinander verbunden.

Dies ist vor allem dann sinnvoll, wenn es zu viele Inhalte gibt, um sie auf einer Seite darzustellen und um zum Beispiel auch die Ladezeit zu verkürzen. Für das Crawling sind Paginationsseiten relevant, da sie viele Produkte und Artikel verlinken. Für das Ranking sind sie jedoch nicht relevant: Der Nutzer sollte besser auf Seite 1 einsteigen, weil dort häufig die Bestseller oder neusten Artikel verlinkt werden.

Ein anderes Beispiel sind sogenannte Tag-Seiten bei WordPress. Diese sind häufig nicht optimiert und sind kein guter Einstieg aus der Suche für den Nutzer, weil sie nur verschiedene Artikel auflisten. Auf der anderen Seite enthalten sie viele Links zu Artikeln, die jedoch Ranking-relevant sind.

Beispiel für eine Tag Seite:

Welche Seiten sind nicht crawling-relevant?

Ab und zu gibt es auch Seiten, die gar nicht gecrawlt werden müssen. Sie enthalten also weder Inhalte, die für das Ranking relevant sind, noch weisen sie auf solche hin. Ein gutes Beispiel dafür sind Login-Seiten. Nutzer können Seiten hinter dem Login-Bereich nur aufrufen, wenn sie angemeldet sind. Warenkörbe von Onlineshops zählen ebenfalls dazu.

Ein weiteres Beispiel sind Filterseiten, die nicht Ranking-relevant sind. Zahlreiche Onlineshops und Marktplätze bieten ihren Nutzern viele Filtermöglichkeiten, die meistens kombinierbar sind. Manche davon sind für die Suche mit Sicherheit relevant, insbesondere wenn Nutzer auch danach suchen, beispielsweise „herrenschuhe braun“ (1370 Suchanfragen im Monat). Andere werden von den Nutzern jedoch nicht gesucht und sind somit nicht Ranking-relevant, zum Beispiel „herrenschuhe braun gestreift“ (keine Suchanfragen). Eine Seite mit Filter „braun“ und Filter „gestreift” wäre daher nicht relevant für das Ranking. Auch für das Crawling ist sie nicht relevant, weil sie keine Links beinhaltet, die nicht auf der generischen Seite zu „herrenschuhe” zu finden sind.

Interne Suchergebnis-Seiten sind normalerweise auch nicht Crawling-relevant, weil alle dort verlinkten Seiten auch woanders auf Ihrer Seite verlinkt sein sollten.

Klassische Beispiele für nicht Crawling-relevante Seiten:

  • Warenkörbe
  • Login-Seiten
  • Filter-URLs ohne Ranking-Relevanz
  • Produktvarianten ohne Ranking-Relevanz
  • Interne Suchergebnis-Seiten
Crawling Best Practice

Alle Seiten, die für das Ranking, die Indexierung und für das Crawling relevant sind, müssen also dem Suchmaschinen-Bot zugänglich gemacht werden. Die anderen Seiten sollten hingegen vor ihm verborgen werden.

Mit welchen Instrumenten kann das Crawling der Seite gesteuert werden?

Für die Crawlingsteuerung einer Webseite können Sie auf verschiedene Werkzeuge zurückgreifen. Einige davon dienen eher dazu, für ausreichendes Crawling zu sorgen (positive Crawlingsteuerung), andere dazu, bestimmte Seiten vom Crawling auszuschließen (negative Crawlingsteuerung).

JETZT ANMELDEN ZUM SEO SEMINAR

Berlin Hamburg München Köln Frankfurt Düsseldorf Stuttgart

Sitemaps

Grundsätzlich verfolgt ein Bot jedem Link, den er auf einer Website findet. Das bedeutet, wenn Sie eine saubere interne Linkstruktur haben, findet der Crawler zuverlässig Ihre Seiten. Wie schon angesprochen, teilt Google jeder Webseite ein bestimmtes Crawl-Budget zu, das nicht beeinflussbar ist. Deshalb wissen Sie nicht genau, wie oft der Crawler eine Seite besuchen wird und wie viele und welche Seiten er dabei crawlen wird.

Aus diesem Grund ist eine Sitemap sehr hilfreich. Eine Sitemap ist eine Datei, in der Sie die einzelnen Webseiten Ihrer Website auflisten können. So lassen Sie Google und andere Suchmaschinen wissen, wie die Inhalte Ihrer Website strukturiert sind. Suchmaschinen-Webcrawler wie der Googlebot lesen diese Datei, um Ihre Website intelligenter crawlen zu können.

Eine Sitemap garantiert nicht, dass alle darin angegebenen Inhalte auch wirklich gecrawlt und indexiert werden. Aber Sie können damit den Crawler bei seiner Arbeit unterstützen.

Wann sollten sie eine Sitemap nutzen?

Eine Sitemap spielt eine wesentliche Rolle für die Indexierung einer Webseite. Bei kleinen und bei mittelgroßen Projekten mit wenigen Unterseiten und mit einer guten internen Verlinkung, ist es für den Crawler kein Problem, alle Seiten des Webauftritts finden und auszulesen.

Bei großen und umfangreichen Projekten besteht allerdings die Gefahr, dass Suchmaschinenrobots neue Seiten einer Domain übersehen.

Die Gründe dafür können sein:

  • Die Webseite ist sehr umfangreich, d.h. sie enthält viele Unterseiten (z.B. Online-Shop, Kleinanzeigenportal)
  • Die Website ist sehr dynamisch, mit vielen Inhalten, die sich häufig ändern (z.b. große Onlineshops)
  • Die einzelnen Inhaltsseiten sind schlecht miteinander verlinkt oder gar voneinander getrennt
  • Die Website ist neu und es gibt nur wenige extern eingehende Links, die auf einzelne Seiten des Webauftritts hinweisen
Welche Voraussetzungen muss eine Sitemap erfüllen?

Die Sitemap wird im Root-Verzeichnis der Website hinterlegt, damit sie für den Crawler leicht auffindbar ist.
Beispiel: https://www.ihrewebsite.de/sitemap.xml

Es gelten folgende formale Anforderungen an die Sitemaps:

  • absolute URLs enthalten (z.B.: https://www.ihrewebsite.de/)
  • im UTF-8-Format codiert sein
  • ausschließlich ASCII-Zeichen enthalten
  • maximal 50MB groß sein
  • maximal 50.000 URLs enthalten

Große Sitemaps sollten also in mehrere kleinere Sitemaps unterteilt werden. Diese müssen dann aus einer Index-Sitemap verlinkt werden.

Welche Arten von Sitemaps gibt es?

Grundsätzlich unterscheidet man zwischen HTML-Sitemaps und XML-Sitemaps.

Die beiden Arten von Sitemaps verdanken ihren Namen dem Dateiformat, in dem sie gespeichert werden.

HTML-Sitemap

Eine HTML-Sitemap dient meist zur Orientierung von Nutzern innerhalb einer Webseite und ist intern verlinkt. Die Webseite enthält eine separate Unterseite, auf der die einzelnen Webadressen (URLs) innerhalb der Website aufgelistet sind. Der Nutzer klickt auf eine URL und gelangt direkt zu der gewünschten Seite innerhalb der Webseite. Sie ist also vergleichbar mit einem Inhaltsverzeichnis.

XML-Sitemap

Eine XML-Sitemap unterscheidet sich vom Aufbau her von einer HTML-Sitemap. Sie wird in einem Sonderformat verfasst und enthält zusätzliche Metadaten über jede URL, wie zum Beispiel das Datum der letzten Aktualisierung, Änderungshäufigkeiten, Wichtigkeit der URL.

Wie kann ich die Sitemap für den Bot erreichbar machen?

Damit der Crawler die Sitemap einer Webseite finden und lesen kann, sollten Sie die Sitemap über zwei Wege auffindbar machen:

1. Durch die robots.txt

Hinterlegen Sie den Link zur Sitemap in der robots.txt Ihrer Webseite. Da der Bot sich immer zuerst die Anweisungen in der robots.txt anschaut, stellen Sie damit sicher, dass er über die Sitemap auch die wichtigsten Seiten Ihrer Website regelmäßig crawlt.

2. Über die Google Search Console

Über den Tab „Sitemaps” in der linken Navigationsbar der Search Console können Sie eine oder mehrere Sitemaps einzureichen. Der Vorteil einer zusätzlichen Einreichung in der Search Console liegt darin, dass Google hier Auswertungen zu den verarbeiteten URLs aus den Sitemaps gibt. Sie können sich zum Beispiel anzeigen lassen, wie viele der über die Sitemap eingereichten URLs auch wirklich indexiert wurden.

Welche URLs sollten Sie in eine Sitemap aufnehmen?

Grundsätzlich sollten nur Ranking-relevanten URLs in die Sitemap aufgenommen werden. Sie wollen ja sichergehen, dass diese auch wirklich gecrawlt werden. Alle anderen Seiten lassen sie weg. D.h., folgende Seiten sollten nicht enthalten sein:

  • weitergeleitete Seiten (Statuscode 301/302)
  • nicht erreichbare Seiten (Statuscode 404/410)
  • URLs mit den Meta-Robots- Angaben noindex
  • URLs, die eine andere URL (nicht sich selbst) als rel=“canonical“ haben
  • Suchergebnisse/Tags
  • Paginationen
  • Seiten mit beschränktem Zugang (passwortgeschützte Seiten, Statuscode 403 etc.)
Wann ist es sinnvoll, mehrere Sitemaps zu erstellen?

Da eine Sitemap keinen direkten Einfluss auf das Ranking einer Webseite hat, eignet sie sich in Kombination mit der Search Console als Kontrollinstrument dafür, ob alle relevanten URLs indexiert wurden. Damit eine solche Auswertung besonders einfach wird, empfiehlt es sich, für verschiedene Seitentypen verschiedene Sitemaps anzulegen.

Gebündelt werden all diese Sitemaps anschließend in der bereits erwähnten „Index-Sitemap”. Anstelle der einzelnen Sitemaps wird diese anschließend in der
robots.txt und der Google Search Console hinterlegt und dient dem Bot als zentraler Ausgangspunkt für alle Sitemaps.

Ein weiterer Anwendungsfall sind Bilder- oder Video-Sitemaps, wenn Sie Ihre Bilder und Videos selbst hosten und damit Rankings erzielen möchten. Dann laden Sie alle Bilder in eine Image-Sitemap und verlinken diese ebenfalls in der Index-Sitemap.

Wie erstelle ich eine Sitemap?

Es gibt verschiedene Möglichkeiten, eine Sitemap zu erstellen. Die meisten CMS-Systeme und Shopsysteme verfügen bereits über eine Funktion zur Erstellung von Sitemaps.

Falls Sie kein CMS (Content Management System) nutzen und Ihre Sitemap „selbst” erstellen möchtest, gibt es zahlreiche Sitemap-Generatoren.

robots.txt

Im sogenannten Robots-Exclusion-Standard-Protokoll ist geregelt, wie Sie mithilfe einer Datei robots.txt das Verhalten von Suchmaschinen-Robots auf Ihrer Domain beeinflussen können. Dieses Protokoll ist inzwischen zu einem Quasi-Standard geworden.

Zwar lässt sich auch in einzelnen HTML-Dateien mit Hilfe eines Meta-Tags für Suchmaschinen die Verwertung der Seite festlegen, doch das betrifft eben nur die einzelne HTML-Datei und maximal alle darin durch Verweise erreichbaren Seiten, nicht jedoch andere Ressourcen wie z.B. Bilder. In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Regeln für Verzeichnisse und Verzeichnisbäume gelten sollen. Da es an einer verbindlichen Dokumentation fehlt, wird die Interpretation der robots.txt und deren Syntax von den Suchmaschinen nicht immer einheitlich gehandhabt. Die zusätzliche Verwendung von Meta-Tags in HTML-Dateien ist daher in Fällen der unerwünschten Indexierung durch den Robot zu empfehlen, falls der Robot die robots.txt nicht oder falsch  interpretiert hat.

Mit der robots.txt-Datei wird der Suchmaschine mitgeteilt, welche Seiten oder Dateien einer Webseite sie crawlen dürfen und welche nicht. Dabei lassen sich einzelne Seiten, ganze Verzeichnisse oder auch bestimmte Dateitypen vom Crawling ausschließen. Wichtig zu wissen ist, dass der Bot zunächst davon ausgeht, dass er die gesamte Webseite crawlen darf. Es muss ihm daher explizit verboten werden, einzelne Seiten oder Dateitypen zu crawlen.

Soll eine Webseite von der Indexierung ausgeschlossen werden, ist die robots.txt kein geeignetes Mittel. Wenn Sie dem Crawler nämlich über die robots.txt den Zugriff auf Teile Ihrer Seite verbieten, dann kann er diese Seiten zwar sehen, aber nicht lesen. Der Crawler kann also nicht sehen, ob Sie zum Beispiel Meta-Robots-Angaben hinterlegt haben, die eine Indexierung verbieten.

Auch für die Crawling-Steuerung ist die robots.txt nur bedingt relevant. Denn verweisen andere Seiten oder auch Sie selbst auf die in der robots.txt blockierten Seiten deiner Website, denkt Google, dass sie relevant sein müssen, da ja auf sie verwiesen wird. Am Ende werden sie dann vielleicht doch indexiert, denn der Crawler konnte ja nicht lesen, ob sie in den Index sollen oder nicht. Das haben Sie ihm in der robots.txt schließlich verboten. Solche gesperrten Seiten erkennen Sie in der Google-Suche daran, dass anstelle einer sinnvollen Description unter der URL steht:  „Für diese Seite sind keine Informationen verfügbar.“

Welche URLs Ihrer Webseite vom Crawling in der robots.txt blockiert sind, aber trotzdem indexiert wurden, können Sie in der Search Console unter „Abdeckung” abrufen:

Es ist wichtig, die Meldungen in der Search Console regelmäßig zu checken und ggf. Verbesserungen an der Webseite vorzunehmen, damit Suchmaschinen die Webseite problemlos crawlen können.

Wo wird die robots.txt abgelegt?

Die robots.txt-Datei muss immer im root- Verzeichnis einer Webseite abgelegt werden, also z.B. http://ihrewebsite.de/robots.txt.

Zu beachten ist, dass die robots.txt nur für den Host gilt, auf dem die Datei hinterlegt ist, und für das entsprechende Protokoll.

Beispiel: http://ihrewebsite.de/robots.txt

nicht gültig für

http://shop.ihrewebsite.de/ (da es sich um eine Subdomain shop. handelt)
https://ihrewebsite.de/ (da das Protokoll hier https ist)

gültig für

http://ihrewebsite.de/
http://ihrewebsite.de/kategorie/

Sie können eine robots.txt-Datei theoretisch auch auf einer IP-Adresse als Hostnamen hinterlegen. Allerdings ist sie dann nur für diese spezielle IP gültig und nicht automatisch für alle damit verknüpften Websites. Dazu musst Sie sie explizit für diese Websites freigeben. Besser ist es also, Sie hinterlegst die robots.txt einzeln pro Hostname, da Sie ggf. auch unterschiedliche Spezifikationen an das Crawling der einzelnen Hostnamen haben.

Die Anweisungen in der robots.txt

Die Standard-Syntax der robots.txt ist wie folgt aufgebaut:

User-agent: Welcher User-Agent oder Bot wird angesprochen?