Wenn Ihre Website ranken soll, muss sie vorher indexiert werden. Soll sie indexiert werden, dann muss sie auch gecrawlt werden.

Crawling und Indexierung sind zwei Prozesse, die fundamental zur SEO-Performance Ihrer Webseite beitragen. In diesem Guide erklären wir Ihnen, was die einzelnen Vorgänge bedeuten und wie Sie das Crawling und die Indexierung für das bestmögliche Ranking optimieren.

Crawling

Das Crawling ist die Basis der Indexierung. Der Crawler – ebenfalls Spider oder Bot genannt – geht Webseiten durch und ermittelt die Inhalte Ihrer Website (Crawling), damit sie danach in den Suchindex aufgenommen (Indexierung) und in Bezug auf Ihre Relevanz für eine Suchanfrage und einen Nutzer beurteilt werden können (Ranking).

Mit dem Crawling-Management steuern Sie den Crawler der Suchmaschine so, dass alle SEO-relevanten Seiten, also die für die Indexierung und das Ranking entscheidenden Links, möglichst oft gecrawlt werden. Das Indexierungs-Management steuert dann, welche der gecrawlten Seiten auch tatsächlich indexiert werden, also in den Suchergebnissen erscheinen sollen. Unter den Seiten, die in den Index der Suchmaschine aufgenommen wurden, bestimmen dann die Rankingfaktoren, welche Seite wo in den Suchergebnissen erscheint.

Google weist jeder Webseite ein gewisses „Crawl-Budget” zu. Dieser Begriff beschreibt die Zeit, die der Bot auf der Webseite verbringt, um Inhalte zu crawlen. Zeigt man dem Bot nun also „unnötige” Seiten, wird Crawl-Budget „verschwendet”, d.h. ranking-relevante Seiten bekommen möglichweise zu wenig Crawl-Budget.

Welche Seiten sind SEO-relevant?

Ausschlaggebend für Rankings sind vor allem die URLs, die einen geeigneten Einstieg aus der organischen Suche bieten. Falls Sie etwa ein Paar Skischuhe kaufen wollen und Sie suchen nach „Salomin Skischuhe“ wäre eine geeignete Einstiegsseite eine Seite, auf der eine Auswahl an Salomon Skischuhen in einem Shop  angezeigt werden. Oder aber eine Produktdetailseite, falls Sie exemplarisch nach mehr Details wie „salomon X pro“ gesucht haben.

Wenn Sie nach „einbruchschutz“ suchen, dann wäre eine passende Einstiegsseite beispielsweise eine Seite wie diese:

SEO relevante Seitentypen sind:

  • Startseiten
  • Kategorieseiten
  • Produktdetailseiten
  • Artikelseiten
  • Markenseiten
  • SEO-Landingpages
  • Magazine, Ratgeber und Blogs
Sind Produktseiten ranking-relevant?

Produktseiten sind praktisch immer SEO-relevant. Jeder Onlineshop möchte gerne Nutzer über die organische Suche erhalten. Die Frage ist allerdings: Möchten Sie alle Ihre Produkte und Produktvarianten optimieren? Wenn ja, haben Sie dafür die nötigen Ressourcen? Je nach Größe Ihres Onlineshops fehlt es in der Praxis jedoch sehr häufig an Zeit oder Geld, um sich alle Produkte und Varianten Stück für Stück vorzunehmen.

Infolgedessen sollten Sie Ihre Produktseiten für die Optimierung priorisieren:

  • Welches Artikel sind Ihre Topseller?
  • Welche Artikel haben eine besonders gute Marge bzw. hohen Preis
  • Welche Produkte sorgen für organischen?
  • Für welche Produkte und Produktoptionen gibt es hohe Nachfrage in der Suche, d.h. Suchvolumen?

So suchen rund 2600 Nutzer monatlich nach „nike free run“, während die Farbvarianten rot, blau, schwarz nicht gesucht. In diesem Fall wäre es somit ausreichend, den Hauptartikel indexieren zu lassen, während die Farbvarianten nicht relevant für das Ranking sind.

Welche Seiten sollen gecrawlt werden, obwohl sie nicht ranken sollen?

Warum sollte eine Seite für SEO wesentlich sein, wenn sie nicht ranken soll? Weil sie auf ranking-relevante Seiten verlinkt. Diese Seiten haben für den Nutzer einen Mehrwert, sie sind aber keine passenden Einstiegsseiten. Der Crawler muss sich diese Seiten dennoch ansehen, um über diese „Link-Seiten“ andere ranking-relevante Seiten der Website zu finden.

Das klassische Beispiel sind Paginationen, die oft auf Kategorie- oder Übersichtsseiten zu finden sind. Es werden die Produkte oder Artikel einer Kategorie oder eines Themas auf mehreren Seiten angezeigt und über eine nummerierte Navigation (Pagination) miteinander verbunden.

Dies ist vor allem dann sinnvoll, wenn es zu viele Inhalte gibt, um sie auf einer Seite darzustellen und um zum Beispiel auch die Ladezeit zu verkürzen. Für das Crawling sind Paginationsseiten relevant, da sie viele Produkte und Artikel verlinken. Für das Ranking sind sie jedoch nicht relevant: Der Nutzer sollte besser auf Seite 1 einsteigen, weil dort häufig die Bestseller oder neusten Artikel verlinkt werden.

Ein anderes Beispiel sind sogenannte Tag-Seiten bei WordPress. Diese sind häufig nicht optimiert und sind kein guter Einstieg aus der Suche für den Nutzer, weil sie nur verschiedene Artikel auflisten. Auf der anderen Seite enthalten sie viele Links zu Artikeln, die jedoch Ranking-relevant sind.

Beispiel für eine Tag Seite:

Welche Seiten sind nicht crawling-relevant?

Ab und zu gibt es auch Seiten, die gar nicht gecrawlt werden müssen. Sie enthalten also weder Inhalte, die für das Ranking relevant sind, noch weisen sie auf solche hin. Ein gutes Beispiel dafür sind Login-Seiten. Nutzer können Seiten hinter dem Login-Bereich nur aufrufen, wenn sie angemeldet sind. Warenkörbe von Onlineshops zählen ebenfalls dazu.

Ein weiteres Beispiel sind Filterseiten, die nicht Ranking-relevant sind. Zahlreiche Onlineshops und Marktplätze bieten ihren Nutzern viele Filtermöglichkeiten, die meistens kombinierbar sind. Manche davon sind für die Suche mit Sicherheit relevant, insbesondere wenn Nutzer auch danach suchen, beispielsweise „herrenschuhe braun“ (1370 Suchanfragen im Monat). Andere werden von den Nutzern jedoch nicht gesucht und sind somit nicht Ranking-relevant, zum Beispiel „herrenschuhe braun gestreift“ (keine Suchanfragen). Eine Seite mit Filter „braun“ und Filter „gestreift” wäre daher nicht relevant für das Ranking. Auch für das Crawling ist sie nicht relevant, weil sie keine Links beinhaltet, die nicht auf der generischen Seite zu „herrenschuhe” zu finden sind.

Interne Suchergebnis-Seiten sind normalerweise auch nicht Crawling-relevant, weil alle dort verlinkten Seiten auch woanders auf Ihrer Seite verlinkt sein sollten.

Klassische Beispiele für nicht Crawling-relevante Seiten:

  • Warenkörbe
  • Login-Seiten
  • Filter-URLs ohne Ranking-Relevanz
  • Produktvarianten ohne Ranking-Relevanz
  • Interne Suchergebnis-Seiten
Crawling Best Practice

Alle Seiten, die für das Ranking, die Indexierung und für das Crawling relevant sind, müssen also dem Suchmaschinen-Bot zugänglich gemacht werden. Die anderen Seiten sollten hingegen vor ihm verborgen werden.

Mit welchen Instrumenten kann das Crawling der Seite gesteuert werden?

Für die Crawlingsteuerung einer Webseite können Sie auf verschiedene Werkzeuge zurückgreifen. Einige davon dienen eher dazu, für ausreichendes Crawling zu sorgen (positive Crawlingsteuerung), andere dazu, bestimmte Seiten vom Crawling auszuschließen (negative Crawlingsteuerung).

Redirects

Ein weiteres Mittel des Indexierungs-Managements sind Weiterleitungen (Redirects).

Die am häufigsten genutzten sind dabei Statuscode 301 sowie Statuscode 302.

Bei Status Code 301 handelt es sich um eine „permanente Weiterleitung”. Der Suchmaschine wird mitgeteilt, dass die Inhalte, die zuvor auf URL A zu finden waren, nun dauerhaft auf URL B zu finden sind. Als Folge wird die Suchmaschine die weitergeleitete URL A aus dem Index entfernen und stattdessen das Weiterleitungsziel URL B indexieren.

Bei Status Code 302 handelt es sich hingegen um eine „temporäre Weiterleitung”. Hier wird der Suchmaschine mitgeteilt, dass die Inhalte der bisher indexierten URL A nur zeitweise auf einer anderen URL B zu finden sind. Die weiterleitende URL A bleibt dadurch weiterhin indexiert, das Weiterleitungsziel URL B wird in der Regel nicht indexiert.

JETZT ANMELDEN ZUM SEO SEMINAR

Berlin
Hamburg
München
Köln
Frankfurt
Düsseldorf
Stuttgart

Sitemaps

Grundsätzlich verfolgt ein Bot jedem Link, den er auf einer Website findet. Das bedeutet, wenn Sie eine saubere interne Linkstruktur haben, findet der Crawler zuverlässig Ihre Seiten. Wie schon angesprochen, teilt Google jeder Webseite ein bestimmtes Crawl-Budget zu, das nicht beeinflussbar ist. Deshalb wissen Sie nicht genau, wie oft der Crawler eine Seite besuchen wird und wie viele und welche Seiten er dabei crawlen wird.

Aus diesem Grund ist eine Sitemap sehr hilfreich. Eine Sitemap ist eine Datei, in der Sie die einzelnen Webseiten Ihrer Website auflisten können. So lassen Sie Google und andere Suchmaschinen wissen, wie die Inhalte Ihrer Website strukturiert sind. Suchmaschinen-Webcrawler wie der Googlebot lesen diese Datei, um Ihre Website intelligenter crawlen zu können.

Eine Sitemap garantiert nicht, dass alle darin angegebenen Inhalte auch wirklich gecrawlt und indexiert werden. Aber Sie können damit den Crawler bei seiner Arbeit unterstützen.

Wann sollten sie eine Sitemap nutzen?

Eine Sitemap spielt eine wesentliche Rolle für die Indexierung einer Webseite. Bei kleinen und bei mittelgroßen Projekten mit wenigen Unterseiten und mit einer guten internen Verlinkung, ist es für den Crawler kein Problem, alle Seiten des Webauftritts finden und auszulesen.

Bei großen und umfangreichen Projekten besteht allerdings die Gefahr, dass Suchmaschinenrobots neue Seiten einer Domain übersehen.

Die Gründe dafür können sein:

  • Die Webseite ist sehr umfangreich, d.h. sie enthält viele Unterseiten (z.B. Online-Shop, Kleinanzeigenportal)
  • Die Website ist sehr dynamisch, mit vielen Inhalten, die sich häufig ändern (z.b. große Onlineshops)
  • Die einzelnen Inhaltsseiten sind schlecht miteinander verlinkt oder gar voneinander getrennt
  • Die Website ist neu und es gibt nur wenige extern eingehende Links, die auf einzelne Seiten des Webauftritts hinweisen
Welche Voraussetzungen muss eine Sitemap erfüllen?

Die Sitemap wird im Root-Verzeichnis der Website hinterlegt, damit sie für den Crawler leicht auffindbar ist.
Beispiel: https://www.ihrewebsite.de/sitemap.xml

Es gelten folgende formale Anforderungen an die Sitemaps:

  • absolute URLs enthalten (z.B.: https://www.ihrewebsite.de/)
  • im UTF-8-Format codiert sein
  • ausschließlich ASCII-Zeichen enthalten
  • maximal 50MB groß sein
  • maximal 50.000 URLs enthalten

Große Sitemaps sollten also in mehrere kleinere Sitemaps unterteilt werden. Diese müssen dann aus einer Index-Sitemap verlinkt werden.

Welche Arten von Sitemaps gibt es?

Grundsätzlich unterscheidet man zwischen HTML-Sitemaps und XML-Sitemaps.

Die beiden Arten von Sitemaps verdanken ihren Namen dem Dateiformat, in dem sie gespeichert werden.

HTML-Sitemap

Eine HTML-Sitemap dient meist zur Orientierung von Nutzern innerhalb einer Webseite und ist intern verlinkt. Die Webseite enthält eine separate Unterseite, auf der die einzelnen Webadressen (URLs) innerhalb der Website aufgelistet sind. Der Nutzer klickt auf eine URL und gelangt direkt zu der gewünschten Seite innerhalb der Webseite. Sie ist also vergleichbar mit einem Inhaltsverzeichnis.

XML-Sitemap

Eine XML-Sitemap unterscheidet sich vom Aufbau her von einer HTML-Sitemap. Sie wird in einem Sonderformat verfasst und enthält zusätzliche Metadaten über jede URL, wie zum Beispiel das Datum der letzten Aktualisierung, Änderungshäufigkeiten, Wichtigkeit der URL.

Wie kann ich die Sitemap für den Bot erreichbar machen?

Damit der Crawler die Sitemap einer Webseite finden und lesen kann, sollten Sie die Sitemap über zwei Wege auffindbar machen:

1. Durch die robots.txt

Hinterlegen Sie den Link zur Sitemap in der robots.txt Ihrer Webseite. Da der Bot sich immer zuerst die Anweisungen in der robots.txt anschaut, stellen Sie damit sicher, dass er über die Sitemap auch die wichtigsten Seiten Ihrer Website regelmäßig crawlt.

2. Über die Google Search Console

Über den Tab „Sitemaps” in der linken Navigationsbar der Search Console können Sie eine oder mehrere Sitemaps einzureichen. Der Vorteil einer zusätzlichen Einreichung in der Search Console liegt darin, dass Google hier Auswertungen zu den verarbeiteten URLs aus den Sitemaps gibt. Sie können sich zum Beispiel anzeigen lassen, wie viele der über die Sitemap eingereichten URLs auch wirklich indexiert wurden.

Welche URLs sollten Sie in eine Sitemap aufnehmen?

Grundsätzlich sollten nur Ranking-relevanten URLs in die Sitemap aufgenommen werden. Sie wollen ja sichergehen, dass diese auch wirklich gecrawlt werden. Alle anderen Seiten lassen sie weg. D.h., folgende Seiten sollten nicht enthalten sein:

  • weitergeleitete Seiten (Statuscode 301/302)
  • nicht erreichbare Seiten (Statuscode 404/410)
  • URLs mit den Meta-Robots- Angaben noindex
  • URLs, die eine andere URL (nicht sich selbst) als rel=“canonical“ haben
  • Suchergebnisse/Tags
  • Paginationen
  • Seiten mit beschränktem Zugang (passwortgeschützte Seiten, Statuscode 403 etc.)
Wann ist es sinnvoll, mehrere Sitemaps zu erstellen?

Da eine Sitemap keinen direkten Einfluss auf das Ranking einer Webseite hat, eignet sie sich in Kombination mit der Search Console als Kontrollinstrument dafür, ob alle relevanten URLs indexiert wurden. Damit eine solche Auswertung besonders einfach wird, empfiehlt es sich, für verschiedene Seitentypen verschiedene Sitemaps anzulegen.

Gebündelt werden all diese Sitemaps anschließend in der bereits erwähnten „Index-Sitemap”. Anstelle der einzelnen Sitemaps wird diese anschließend in der
robots.txt und der Google Search Console hinterlegt und dient dem Bot als zentraler Ausgangspunkt für alle Sitemaps.

Ein weiterer Anwendungsfall sind Bilder- oder Video-Sitemaps, wenn Sie Ihre Bilder und Videos selbst hosten und damit Rankings erzielen möchten. Dann laden Sie alle Bilder in eine Image-Sitemap und verlinken diese ebenfalls in der Index-Sitemap.

Wie erstelle ich eine Sitemap?

Es gibt verschiedene Möglichkeiten, eine Sitemap zu erstellen. Die meisten CMS-Systeme und Shopsysteme verfügen bereits über eine Funktion zur Erstellung von Sitemaps.

Falls Sie kein CMS (Content Management System) nutzen und Ihre Sitemap „selbst” erstellen möchtest, gibt es zahlreiche Sitemap-Generatoren.

robots.txt

Im sogenannten Robots-Exclusion-Standard-Protokoll ist geregelt, wie Sie mithilfe einer Datei robots.txt das Verhalten von Suchmaschinen-Robots auf Ihrer Domain beeinflussen können. Dieses Protokoll ist inzwischen zu einem Quasi-Standard geworden.

Zwar lässt sich auch in einzelnen HTML-Dateien mit Hilfe eines Meta-Tags für Suchmaschinen die Verwertung der Seite festlegen, doch das betrifft eben nur die einzelne HTML-Datei und maximal alle darin durch Verweise erreichbaren Seiten, nicht jedoch andere Ressourcen wie z.B. Bilder. In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Regeln für Verzeichnisse und Verzeichnisbäume gelten sollen. Da es an einer verbindlichen Dokumentation fehlt, wird die Interpretation der robots.txt und deren Syntax von den Suchmaschinen nicht immer einheitlich gehandhabt. Die zusätzliche Verwendung von Meta-Tags in HTML-Dateien ist daher in Fällen der unerwünschten Indexierung durch den Robot zu empfehlen, falls der Robot die robots.txt nicht oder falsch  interpretiert hat.

Mit der robots.txt-Datei wird der Suchmaschine mitgeteilt, welche Seiten oder Dateien einer Webseite sie crawlen dürfen und welche nicht. Dabei lassen sich einzelne Seiten, ganze Verzeichnisse oder auch bestimmte Dateitypen vom Crawling ausschließen. Wichtig zu wissen ist, dass der Bot zunächst davon ausgeht, dass er die gesamte Webseite crawlen darf. Es muss ihm daher explizit verboten werden, einzelne Seiten oder Dateitypen zu crawlen.

Soll eine Webseite von der Indexierung ausgeschlossen werden, ist die robots.txt kein geeignetes Mittel. Wenn Sie dem Crawler nämlich über die robots.txt den Zugriff auf Teile Ihrer Seite verbieten, dann kann er diese Seiten zwar sehen, aber nicht lesen. Der Crawler kann also nicht sehen, ob Sie zum Beispiel Meta-Robots-Angaben hinterlegt haben, die eine Indexierung verbieten.

Auch für die Crawling-Steuerung ist die robots.txt nur bedingt relevant. Denn verweisen andere Seiten oder auch Sie selbst auf die in der robots.txt blockierten Seiten deiner Website, denkt Google, dass sie relevant sein müssen, da ja auf sie verwiesen wird. Am Ende werden sie dann vielleicht doch indexiert, denn der Crawler konnte ja nicht lesen, ob sie in den Index sollen oder nicht. Das haben Sie ihm in der robots.txt schließlich verboten. Solche gesperrten Seiten erkennen Sie in der Google-Suche daran, dass anstelle einer sinnvollen Description unter der URL steht:  „Für diese Seite sind keine Informationen verfügbar.“

Welche URLs Ihrer Webseite vom Crawling in der robots.txt blockiert sind, aber trotzdem indexiert wurden, können Sie in der Search Console unter „Abdeckung” abrufen:

Es ist wichtig, die Meldungen in der Search Console regelmäßig zu checken und ggf. Verbesserungen an der Webseite vorzunehmen, damit Suchmaschinen die Webseite problemlos crawlen können.

Wo wird die robots.txt abgelegt?

Die robots.txt-Datei muss immer im root- Verzeichnis einer Webseite abgelegt werden, also z.B. http://ihrewebsite.de/robots.txt.

Zu beachten ist, dass die robots.txt nur für den Host gilt, auf dem die Datei hinterlegt ist, und für das entsprechende Protokoll.

Beispiel: http://ihrewebsite.de/robots.txt

nicht gültig für

http://shop.ihrewebsite.de/ (da es sich um eine Subdomain shop. handelt)
https://ihrewebsite.de/ (da das Protokoll hier https ist)

gültig für

http://ihrewebsite.de/
http://ihrewebsite.de/kategorie/

Sie können eine robots.txt-Datei theoretisch auch auf einer IP-Adresse als Hostnamen hinterlegen. Allerdings ist sie dann nur für diese spezielle IP gültig und nicht automatisch für alle damit verknüpften Websites. Dazu musst Sie sie explizit für diese Websites freigeben. Besser ist es also, Sie hinterlegst die robots.txt einzeln pro Hostname, da Sie ggf. auch unterschiedliche Spezifikationen an das Crawling der einzelnen Hostnamen haben.

Die Anweisungen in der robots.txt

Die Standard-Syntax der robots.txt ist wie folgt aufgebaut:

User-agent: Welcher User-Agent oder Bot wird angesprochen?
Disallow: Was wird vom Crawling  ausgeschlossen?
Allow: Was darf trotzdem gecrawlt werden?

Die Disallow- und Allow-Anweisungen können sich sowohl auf die komplette Webseite oder auf einzelne Subdomains, Verzeichnisse oder URLs beziehen.

Welche Bots können über die robots.txt gesteuert werden?

robots.txt-Datei können sowohl einzelne als auch alle Crawler angesprochen werden. Dies dient vor allem der Steuerung des Crawler-Traffics, um zum Beispiel Server-Überlastungen vorzubeugen. Stellen zu viele Bots Anfragen an Ihren Server, rufen sie also zu viele Seiten gleichzeitig auf, kann das Ihren Server überlasten. Wenn Sie also merken, dass die Lasten zu hoch werden, könnte die Blockade einzelner Bots mittels der robots.txt eine von mehreren Maßnahmen sein.

Neben dem Googlebot oder dem Bing-Bot gibt es auch Tools mit eigenen Crawlern. So haben beispielsweise Screaming Frog oder ahrefs.com ihre eigenen. Zu bedenken ist, dass eine Sperre dieser Bots die Auswertung einer Website erschweren kann, wenn wichtige SEO-Tools eine Seite nicht  crawlen können.

Zum Schutz vor Malware-Bots lässt sich die robots.txt leider kaum einsetzen, da sich diese in der Regel nicht an die Vorgaben halten. Seriöse Crawler respektieren dagegen die Angaben in der robots.txt.

Wann ist die Verwendung der robots.txt sinnvoll?

Aus SEO-Gesichtspunkten gibt es eher wenige sinnvolle Anwendungsfälle für den Einsatz der robots.txt. Das liegt daran, dass sich andere Crawling-Werkzeuge als zuverlässiger und besser steuerbar erwiesen haben. Nichtsdestotrotz können Sie die robots.txt in folgenden Fällen nutzen:

  1. Sie entwickeln gerade eine neue Website und möchten diese zunächst noch nicht crawlen lassen, weil sie noch in der Entwicklung ist.
  2. Sie möchten bestimmte Bereiche oder Dateitypen Ihrer Webseite vom Crawling ausschließen und können sicherstellen, dass diese weder intern noch extern verlinkt werden.
  3. Sie möchten einzelnen Tool-Bots das Crawling verbieten.

Bei der robots.txt handelt es sich um ein sehr mächtiges Werkzeug. Daher sollten Sie ganz genau überlegen, was Sie in der robots.txt ausschließt. Am besten enthält sie nur so viele Anweisungen wie nötig und so wenig wie möglich.

Von Google empfohlenes Vorgehen bezüglich der robots.txt

Um sicherzustellen, dass bestimmte Seiten nicht von Google indexiert werden, funktioniert ein „Verbot“ über die robots.txt nur sehr unzuverlässig. Wenn der Google-Bot die URL z. B. über eine externe Verlinkung zu sehen bekommt, crawlt der die Website trotzdem.

Um zuverlässig zu verhindern, dass Ihre Webseiten im Google-Index landen, muss dies in der entsprechenden Seite mit dem noindex-Metatag angegeben werden.

D.h. um Seiten zuverlässig aus dem Google-Index zu entfernen, darf der Zugriff in der robots.txt nicht verboten und der noindex-Metatag muss gesetzt werden.

Für nicht-HTML-Elemente, wie z.B. PDF-Datein oder Videos funktioniert dies jedoch nicht. weil diese Elemente kein meta-Element enthalten können. In diesem Fall sollte das X-Robots-Tag verwendet werden.

Kann ich mit der der robots.txt das Crawling meiner Website verhindert?

Es ist mit der robots.txt nicht möglich, Webseiten vor dem Zugriff durch Robots oder Personen zu schützen. Sie können lediglich das Erscheinen in den Suchergebnissen steuern.

Es besteht keinerlei Garantie, dass sich Suchmaschinen an die Verbote in der robots.txt halten. Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigt das Vorhandensein einer robots.txt, liest sie aus und befolgt die Anweisungen. Robots, die mit bösen Absichten das Web durchsuchen, halten sich vermutlich nicht daran.

Indexierung

Wird eine URL gecrawlt, können Sie mithilfe des Indexierungs-Managements steuern, welche URLs auch tatsächlich in den Suchindex aufgenommen werden dürfen. Und nur diese URLs können am Ende auch Rankings erzielen. Wenn eine Seite nicht gecrawlt wird, kann der Bot auch die Indexierungs- Einstellungen nicht erkennen.

Im Rahmen der Indexierung stehen folgende Werkzeuge zur Verfügung:

  • Meta Robots/X-Robots „noindex“
  • Canonical Tag
  • 301-Redirects
  • Google Search Console Funktion  „URL entfernen“
Meta Robots / X-Robots

Das wichtigste Mittel zur Steuerung der Indexierung sind die Meta-Robots- und die X-Robots-Angaben. Die Robots-Angaben (nicht zu verwechseln mit der robots.txt) teilen dem Crawler mit, ob eine Seite in den Index aufgenommen werden darf oder nicht.


Der Aufbau des Tags lautet

<meta name=”robots” content=”Anweisung”>


Standardmäßig gehen Suchmaschinen davon aus, dass sie jegliches Dokument aufrufen und über die Google-Suche auffindbar machen dürfen. Entsprechend ist die Steuerung von Crawlern mittels robots-Angaben nur dann notwendig, wenn etwas explizit nicht gewünscht wird.

Mögliche Angaben im Metatag sind:

Anweisung Bedeutung der Anweisung
noindex Die Seite soll nicht über die Google-Suche auffindbar sein.
nofollow Den (internen & externen) Links auf dieser Seite nicht folgen
none Entspricht der Angabe noindex, nofollow
noarchive Die Seite soll nicht als Kopie im Suchmaschinen-Cache (Zwischenspeicher) aufgenommen werden. Die Angabe hat keinen Einfluss darauf, ob die Seite in der Websuche erscheinen kann.
nosnippet Diese Angabe führt dazu, dass die Meta-Description (Beschreibungstext) nicht angezeigt wird.
notranslate Dadurch wird keine Übersetzung der Seite in den Suchergebnissen angeboten.

Neben diesen Angaben gibt es noch einige weitere Meta (Robots) Angaben, die von Google verstanden werden. Eine Übersicht dieser Angaben finden Sie in der Google-Hilfe.

Soll eine Seite also indexiert und gecrawlt werden, sehen die Meta-Robots-Angaben wie folgt aus: <meta name=“robots“ content= “index,follow“> Soll eine Seite hingegen nicht indexiert, aber gecrawlt werden, sieht die Angabe so aus: <meta name=“robots“ content= “noindex,follow“>

Die noindex-Anweisung funktioniert nur, wenn die Seiten und Inhalte nicht durch robots.txt-Regeln blockiert werden, denn dann hat der Crawler keine Möglichkeit, die im <head>-Bereich einer Seite bzw. im HTTP-Header von Dateien hinterlegten Meta-Angaben auszulesen und zu befolgen.

X-Robots

Die Angabe von Meta Robots funktioniert nur bei Seiten, die einenbesitzen, also bei HTML-Seiten. Nicht-HTML-Inhalte können mittels der X-Robots von der Indexierung ausgeschlossen werden. Dazu zählen unter anderem PDF-Dateien. Hier werden serverseitig in der .htaccess-Datei (bei Apache-Servern) Regeln definiert, wie bestimmte Dateien oder Dateitypen behandelt werden sollen. Definieren Sie nicht für alle URLs deiner Webseite individuell die Indexierungsangaben, gehen Suchmaschinen automatisch davon aus, dass die URL in den Index aufgenommen  werden darf.

Wenn sollten Sie meta-Robots und X-Robots einsetzen?

Die Meta Robots kommen immer dann zum Einsatz, wenn Sie URLs von der Indexierung ausschließen möchten, sie aber weiterhin für den Nutzer und den Crawler erreichbar sein sollen.

Beispiel: Paginationsseiten
Kategorieseite: www.ihrewebsite.de/ kategorie
Seite 2: www.ihrewebsite.de/ kategorie?page=2
Seite 3: www.ihrewebsite.de/ kategorie?page=3

Nur die URL www.ihrewebsite.de/kategorie soll indexierbar sein, alle weiteren Seiten nicht.

Das bedeutet:
Die Haupt-Landingpage der Kategorie (www.ihrewebsite.de/kategorie) wird mit der Meta-Robots-Angabe „index,follow“ versehen, damit sie indexierbar ist

Alle Paginations-URLs werden mittels der Meta-Robots-Angabe „noindex, follow“ von der Indexierung ausgeschlossen.

Der Canonical Tag

Der Canonical Tag gehört zu den wichtigsten Instrumenten für den ambitionierten SEO. Mit dem Canonoical Tag, können Sie das häufig auftretende Problem des sogenannten Duplicate Content lösen.

Suchmaschinen bewerten doppelte Inhalte (Duplicate Content) negativ, da kein Mehrwert für den Internetnutzer besteht. Für die Indexierung von Website-Inhalten darf jeder Content also nur unter einer einzigen URL erreichbar sein. Wenn Sie den Inhalt auch auf anderen Seites bereitstellen möchten, muss die zweite URL auf die ursprüngliche Webseite verweisen und diese als Hauptquelle kennzeichnen. Andernfalls zählen diese gleichen Inhalte als Duplicate Content.

Mindestens eine der beiden Webseiten wird von Google dann aus dem Index genommen. Um das zu vermeiden, greift man auf sogenannte Canonical Tag zurück. Diese erhält man durch die Ergänzung um ein Canonical Tag im Head-Bereich des HTML-Codes.

Das Canonical Tag ist eine Angabe im Quellcode einer Website. Es verweist auf eine Standardressource – die eine kanonische URL – bei Websites mit gleichen oder fast gleichen Inhalten. Wird eine kanonische URL korrekt ausgezeichnet, so wird nur die Originalquelle zur Indexierung der Suchmaschinen herangezogen. Damit kann vermieden werden, dass der gleiche Content auf unterschiedlichen Seiten von Google als Duplicate Content erkannt wird.

Mit dem Canonical Tag sagen Sie Google also: „Ich bin mir bewusst, dass diese Inhalte doppet sind, indexiere nur das Original”. Als „Original” sollte hierbei immer die am besten optimierte URL angegeben werden.

Der Tag wird anschließend im „Duplikate” nach folgendem Schema implementiert:

link rel=“canonical“ href=“https://www.ihrewebsite.de/original/“

Dabei kann derselbe Canonical-Tag auch auf mehreren Seiten eingebunden werden, wenn beispielsweise mehrere Duplikate zu einem Original existieren.

Die URL, auf die der Canonical zeigt, wird als Original markiert. Diese soll in den Suchergebnissen angezeigt werden und muss daher mit der Meta-Robots-Angabe „index“ versehen sein. Aber Achtung! Die Ziel-URL darf nicht mit „noindex“ ausgewiesen sein, denn diese beiden Signale sind gegenläufig und liefern dem Crawler keine klare Anweisung, wie er mit der URL umgehen soll.

Zeigt der Canonical auf sich selbst (selbstreferenzierender Canonical), also auf die Ausgangs-URL, hat das keinen wirklichen Effekt. In einigen Fällen kann es allerdings leichter umsetzbar sein, wenn auf allen URLs Canonical Tags angegeben werden, unabhängig davon, ob es sich um ähnliche Seiten handelt oder nicht.

Wann sollten Sie die Canonical Tag einsetzen?

Den Canonical Tag sollten sie nutzen, wenn sich Inhalte auf Ihren Seiten sehr ähnlich oder gar Duplikate sind.

Paginationsseiten

Die Paginationen einer URL sind typischerweise  keine Duplikate, da auf ihnen andere Produkte angezeigt werden. Deshalb sollten Paginierungen keinen Canonical Tag auf die Seite 1 aufweisen. Eine Ausnahme stellt die erste Seite selbst dar. Manchmal sind Paginationsseiten nur so umsetzbar, dass es sowohl eine Kategorieseite ohne Parameter als auch eine Seite 1 gibt. Diese beiden URLs sind tatsächlich Duplikate, da hier auch dieselben Produkte oder Artikel aufgelistet werden. Deshalb sollten Sie von www.ihrewebsite.de/kategorie?page=1 einen Canonical Tag auf die Kategorie www.ihrewebsite.de/kategorie setzen.

Produktvarianten

Können Produktvarianten nicht vom Crawling ausgeschlossen werden, bleibt die Option, sie von der Indexierung auszuschließen. Der Vorteil ist, dass Sie so alle einzelnen Produktvarianten in einer Kategorie anzeigen ohne doppelte Inhalte zu produzieren. Bei dieser Variante verwenden Sie das Hauptprodukt als kanonische URL. Es stellt dann die einzig relevante URL für SEO dar, die in den Suchergebnissen angezeigt werden soll. Die anderen Artikelvarianten zeigen dann per Canonical Tag auf denn Hauptartikel.

Parameter-URLs

Parameter-URLs sind häufig eine identische Kopie der eigentlichen URL, stellen für die Suchmaschine aber unterschiedliche Seiten dar. Das Problem tritt besonders bei Filterungen, internen Suchseiten, Session-IDs oder Druckversionen von Seiten auf. In der Regel sind diese URLs nicht seo-relevant. Sie solten sie also vom Crawling ausschließen, um Ihr Crawling-Budget effektiv einsetzen zu können. Ist das nicht möglich, können Sie sie aber mithilfe des Canonical Tags zumindest von der Indexierung ausschließen.

Beispiel: https://www.ihrewebsite.de/kategorie? session-id=52345

Diese URL stellt ein Duplikat zu

https://www.ihrewebsite.de/kategorie dar und sollte deshalb per Canonical Tag auf https://www.ihrewebsite.de/kategorie verweisen.

Seiten, die mehreren Kategorien zugeordnet werden

Manchmal werden Artikel oder Produkte über verschiedene Kategorien erreichbar gemacht und sind über mehrere Verzeichnisse aufrufbar. Damit das nicht passiert, sollte ein Inhalt immer nur über eine URL erreichbar sein. Sie können die Artikel oder Produkte ja dennoch aus mehreren Kategorien verlinken. Der Nutzer kann dann zwar durch die verschiedenen Kategorien Ihres Shops oder Ihrer Website navigieren, landet beim Klick auf einen Artikel oder auf ein Produkt aber immer auf der gleichen URL.

Canonical Tags und hreflang

Wenn eine Webseite mit hreflang arbeitet, sollten die jeweiligen URLs entweder per Canonical Tag auf sich selbst verweisen oder überhaupt keine Canonicals verwenden. Werden beide Tags gemeinsam genutzt, erhält Google widersprüchliche Signale. Während das hreflang-Tag zeigt, dass eine andere Sprachversion vorhanden ist, würde der Canonical-Tag diese Version zur Original-URL machen.

Externer Duplicate Content 

Beispiel: Externer Duplicate Content kann entstehen, wenn Beiträge über mehrere Domains hinweg veröffentlicht werden. Auch wenn Sie Ihre Webseite beispielsweise über mehrere Hostnamen erreichbar machst, kann das zu einem Problem mit Duplicate Content führen.

Beispiel: Sie haben ihrewebsite.de und ihre-website.de registriert. Sind unter beiden Hostnamen die gleichen Inhalte erreichbar, dann ist das Duplicate Content und Google weiß nicht, welche Ihrer Seiten bewertet werden soll. Das Gleiche gilt auch, wenn Ihre Webseite sowohl mit www. als auch ohne www. oder unter http und https erreichbar ist.

Anfang 2017 hat Google die Verwendung einer sicheren HTTPS-Verbindung für Webseiten zum wichtigen Ranking-Faktor erhoben. Seither bevorzugt Google HTTPS-Seiten als kanonische URLS. Das Canonical Tag sollte darum vom HTTP-Protokoll zur HTTPS-Seite verweisen, nicht umgekehrt.

Redirects

Ein weiteres Mittel des Indexierungs-Managements sind Weiterleitungen (Redirects).

Die am häufigsten genutzten sind dabei Statuscode 301 sowie Statuscode 302.

Bei Status Code 301 handelt es sich um eine „permanente Weiterleitung”. Der Suchmaschine wird mitgeteilt, dass die Inhalte, die zuvor auf URL A zu finden waren, nun dauerhaft auf URL B zu finden sind. Als Folge wird die Suchmaschine die weitergeleitete URL A aus dem Index entfernen und stattdessen das Weiterleitungsziel URL B indexieren.

Bei Status Code 302 handelt es sich hingegen um eine „temporäre Weiterleitung”. Hier wird der Suchmaschine mitgeteilt, dass die Inhalte der bisher indexierten URL A nur zeitweise auf einer anderen URL B zu finden sind. Die weiterleitende URL A bleibt dadurch weiterhin indexiert, das Weiterleitungsziel URL B wird in der Regel nicht indexiert.

Wann Sie Redirects verwenden sollten 

Wenn Sie eine URL dauerhaft umziehen, sollten Sie immer eine 301-Weiterleitung einrichten. Ziehen Sie eine URL nur temporär um, können Sie eine 302-Weiterleitung nutzen. Eine weitere Anwendung der 302-Weiterleitung sind URLs, die in einen Bereich der Webseite führen, für den der Nutzer eingeloggt sein muss. Ist er nicht eingeloggt und klickt auf den Link, wird er via 302 Redirect auf die Login-Seite weitergeleitet. Die Folge: Die Ziel-URL bleibt indexiert, während die Login-Seite nicht indexiert wird.

Wenn Sie eine URL umziehen, denken Sie daran nicht nur eine Weiterleitung einrichten, sondern auch alle internen Links anpassen, damit die alte URL intern nicht mehr verlinkt wird. Das spart Ladezeit und Crawling-Budget.

Der 301 Redirect (301-Weiterleitung)

Die 301 Weiterleitung ist eine Möglichkeit, um eine URL permanent weiterzuleiten. Dieser Redirect wird genutzt, um alte URLs, die nicht mehr gültig sind, auf neue URLs umzuleiten. Der große Vorteil des 301-Redirect besteht darin, dass diese Weiterleitung praktisch 100 Prozent  der Link Juice weitergibt und ein eindeutiges Signal an Suchmaschinen sendet, dass die angeforderte Seite dauerhaft unter einer anderen URL auffindbar ist.

Der 301-Redirect kann zum Beispiel bei Apache-Servern über die Anpassung der htaccess-Datei oder über PHP implementiert werden.

Dieser Code wird für die htaccess-Datei verwendet:

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc] rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]

Wird die 301-Weiterleitung über PHP realisiert, sieht der zu verwendende Code so aus. Er wird direkt im Quellcode des weiterleitenden Dokuments hinterlegt.

!--?php header("HTTP/1.1 301 Moved Permanently");
header("Location: http://www.domain.de/der-neue-name.php");
header("Connection: close"); ?--

Entfernen von URLs

Manchmal muß eine URLs schnellstmöglich aus dem Google-Index entfernt werden, z.b. weil dort rechtswidrige oder abgemahnte Inhalte sichtbar sind. Für solche Fälle bietet Google in der Search Console ein Tool zum Entfernen von URLs aus dem Index an
Dabei sind jedoch folgende Punkte zu beachten:

Ein solcher Ausschluss gilt nur für ca. 90 Tage. Danach werden Ihre Informationen wieder in den Ergebnissen der Google-Suche angezeigt (siehe auch die Informationen zum permanenten Entfernen).

Das Löschen des Cache oder das Ausschließen einer URL aus den Suchergebnissen ändert nichts am Crawling-Zeitplan oder am Caching-Verhalten des Googlebots. Wenn Sie die vorübergehende Blockierung einer URL beantragen, crawlt Google weiterhin Ihre URL, wenn sie vorhanden ist und nicht durch eine andere Methode, z. B. ein “noindex”-Tag, blockiert wird. Deshalb ist es möglich, dass Ihre Seite noch einmal gecrawlt und im Cache gespeichert wird, bevor Sie Ihre Seite entfernen oder durch ein Passwort schützen, und dass sie wieder in Suchergebnissen erscheint, nachdem Ihr vorübergehender Ausschluss abgelaufen ist.

Wenn Ihre URL für den Googlebot nicht zu erreichen ist, geht dieser davon aus, dass die Seite nicht mehr existiert. Der Gültigkeitszeitraum Ihres Antrags auf Blockierung wird deshalb beendet. Wenn unter dieser URL später wieder eine Seite gefunden wird, wird diese als neue Seite betrachtet, die auch in den Ergebnissen der Google-Suche enthalten sein kann.

URL dauerhaft entfernen

Mit dem Tool zum Entfernen von URLs können letztere nur vorübergehend entfernt werden. Wenn Sie Inhalte oder eine URL dauerhaft von der Google-Suche ausschließen möchten, führen Sie mindestens einen der folgenden Schritte durch:

  • Entfernen oder aktualisieren Sie die Inhalte auf Ihrer Website wie Bilder, Seiten oder Verzeichnisse. Prüfen Sie danach, ob Ihr Webserver den HTTP-Statuscode 404 (nicht gefunden) oder 410 (gelöscht) zurückgibt. Nicht-HTML-Dateien wie PDFs sollten vollständig von Ihrem Server entfernt werden.
  • Blockieren Sie den Zugriff auf den Inhalt, z. B. durch ein Passwort.
  • Kennzeichnen Sie die Seite durch das “noindex”-Meta-Tag, damit sie nicht indexiert wird. Diese Methode ist weniger sicher als die anderen.
FAZIT

Sobald Webseiten den Umfang einer kleinen Homepage übersteigen, gehört zu den wichtigsten Aufgaben, dass die vorhandenen Inhalte möglichst vollständig und aktuell in den Google-Index kommen. Weil die Ressourcen für das Erfassen und Speichern von Webseiten begrenzt sind, nutzt Google hierfür individuelle Begrenzungen pro Domain: wie viele URLs werden pro Tag gecrawlt, wie viele dieser Seiten davon kommen in den Index? Umfangreiche Webseiten stoßen schnell an diese Grenzen. Daher ist es wichtig, die verfügbaren Ressourcen mit dem smartem Crawl- und Indexierung-Management möglichst produktiv einzusetzen.