SEO: Welche Seiten sollten Suchmaschinen nicht crawlen? - Onlineshop erstellenDas eigentliche Ziel einer gut durchdachten Suchmaschinenoptimierung ist, dass die einzelnen Seiten einer Domain auf einer Ergebnisseite bei Google als Antwort auf eine Suchanfrage angezeigt werden. Google und jede andere Suchmaschine crawlt jede Produktdetailseite, Blogbeiträge und Artikel. Wie gehen die Suchmaschinen-Webcrawler dabei vor?

Der Prozess erfolgt unter der Maßgabe, relevante Seiten zu indizieren, was letzten Endes zur Konvertierung der Webinhalte im Index einer Suchmaschine führt. Es gibt jedoch Seiten, die man als eigener Onlineshop Betreiber besser nicht in den Suchergebnissen anzeigen lassen sollte.

Durch das Entfernen aus dem Google-Index besteht die Möglichkeit, den Traffic der Suchmaschine auf wichtigere konvertierende Seiten zu lenken und damit die Conversation Rate zu erhöhen. Darauf sollte man beim eigenen Onlineshop erstellen unbedingt Wert legen, um mittelfristig das Ranking zu pushen.

Diese Inhalte sind nicht zum Index markieren geeignet

Ist es wirklich notwendig, dass dein eigener Onlineshop Seiten wie die Datenschutzerklärung, GDPR-Angaben oder ähnliche Inhalte von Google’s Webcrawlern indixieren lässt? Solche Seiteninhalte sollten besser nicht bei Google angezeigt werden. Dazu gehören zum Beispiel „Thank you pages“ mit Inhalten wie: Wir freuen uns, dass Sie unsere Webseite besuchen und bedanken uns für Ihr Interesse an unseren Angeboten. Hier reihen sich ebenso „Ad landing pages“ ein, also Internetseiten die einzig bestimmte Pay-per-Click-Kampagnen repräsentieren. Zu guter Letzt die „Policy pages“, also Richtlinienseiten mit Inhalten wie den AGB und Datenschutzangaben. In diesen Fällen muss man beim Onlineshop erstellen Vorkehrungen treffen, denn wenn ein Besucher über die Google-Ergebnisseite direkt zu derartigen Content weitergeleitet wird, ergibt das im Endeffekt eine schlechte Benutzererfahrung.

Nicht jede Seite sollte indiziert werden

Nicht jede Seite auf der Webseite eines Unternehmens ist für die Google Indexierung relevant. Das Entfernen dieser Art von Seiten, aus dem Googles Index könnte auch die Webseiten-Autorität verbessern, was wiederum dazu führt, wie gut die verschiedenen Seiteninhalte bei relevanten Suchanfragen im Google Ranking unter den SERPs platziert werden. Einige SEO-Spezialisten argumentieren hingegen, dass Google bei der Identifizierung der Inhaltsqualität versiert vorgeht und sozusagen auf der Suche nach redundanten, doppelten oder relativ minderwertigen Seiten bestimmte Ausschlusskriterien anwendet.

Darüber hinaus neigen einige SEO-Experten dazu, dass Suchmaschinen den relativen Wert aller Seiteninhalte auf einer Webseite berechnet, um eine umfassende Autorität oder Bewertung zu ermöglichen. Dies kann Bezug auf die Domain-Autorität, den Domain Rang oder eine ähnliche Metrik nehmen. Wenn ein eigener Onlineshop den Google-Index mit Seiten von relativ geringem Wert gefüllt hat, wie z. B. der Datenschutzrichtlinie, die der hauseigene IT-Spezialist von dem Anbieter der E-Commerce-Plattform kopiert und eingefügt hat, könnte das Auswirkungen darauf haben, wie verbindlich Google die Inhalte der Domain als Ganzes betrachtet.

Dazu gibt es immer mehr Beispiele in den Seiten, die beim eigenen Onlineshop erstellen, als relevant markiert wurden und nachträglich entfernt wurden. Dabei sind verblüffende Resultate hervorgekommen. In den USA hat eine E-Commerce-Agentur es nach dem Entfernen von Webseiten bei einem Kunden geschafft, den organischen Suchmaschinenverkehr nachweislich um 22 Prozent zu steigern. Die Umsätze aus dem organischen Suchverkehr sind gleichzeitig um 7 Prozent nach oben gegangen. Dazu mussten Tausende von doppelten Seiten aus der E-Commerce-Website des Klienten entfernt werden.

Das Entfernungsprogramm für deinen Index

Das Removal Tool ist eines der besten Lösungen, um eine einzelne Seite aus dem Index von Google zu entfernen, ist der – robots noindex meta tag.

  • < meta name = “ robots “ content = „noindex“ / >

Dieses einfache Robots-Tag wird in den Abschnittdes HTML-Markups einer Seite eingefügt und weist alle Suchmaschinen an, die zugehörige Seite nicht zu indizieren. Googles primärer Web-Crawler, Googlebot, folgt dieser Anweisung und wird jede mit noindex markierte Seite beim nächsten Crawlen dieser Seite löschen. Mit dem Content-Management-System der Webseite sollte es relativ einfach sein, diesen Tag zur Richtlinienseite, internen Suchergebnissen und anderen Seiten hinzuzufügen, die nicht in den Index von Google aufgenommen oder als Antwort auf eine Google-Anfrage angezeigt werden sollen.

Der HTTP-Response-Header

Die noindex Anweisung des Suchmaschinen-Crawler kann auch in einem http Response Header vermittelt werden. Ein eigener Onlineshop Betreiber sollte den HTTP Antwort-Header als eine Textnachricht verstehen, die der Server an einen Webbrowser oder Webcrawler (z.B. Googlebot) sendet, wenn er eine Seite anfordert. Innerhalb dieses Headers kann die Webseite Google mitteilen, dass die Suchmaschine die Seite nicht indizieren soll. So könnte das Ganze aussehen:

HTTP/1.1 200 OK
X-Robots-Tag: noindex

Ein Robot-Tag Skript für den Onlineshop erstellen, das den Tag automatisch platziert kann unter Umständen leichter sein, als ein X-Robots-Tag manuell zu schreiben. Sowohl dieses HTTP-Tag als auch das Meta-Tag haben die gleiche Wirkung. Welche dieser Methoden besser für den eigenen Online geeignet ist, das ist eine Frage der Präferenz.

Die Indexierung verhindern

Die robots.txt verhindert nicht die Indizierung. Eine robots.txt-Datei befindet sich im Verzeichnis einer Webseite. Diese einfache Textdatei sagt einem Suchroboter, auf welche Seiten des Portals er zugreifen kann. Häufig denkt man als eigener Onlineshop Besitzer oder Webseiten Betreiber fälschlicherweise, dass durch nicht Anerkennen einer Seite die robots.txt-Datei verhindert, dass diese Seite im Google-Index angezeigt wird. Aber das ist nicht immer der Fall.

Führt zum Beispiel ein Verweis einer anderen Webseite zu dieser Seite, könnte Googlebot diesem Link folgen und die Seite indizieren, auch wenn diese Seite in einer robots.txt-Datei als nicht „noindex“ markiert ist. Wer Webinhalte dauerhaft und mit aller Konsequenz aus dem Index von Google entfernen möcht, für den ist die Datei robots.txt wahrscheinlich nicht die beste Wahl. Vielmehr ist es hilfreich, um die Indizierung unwichtiger eigener Onlineshop Seiteninhalte durch Google einzuschränken, zu verhindern, dass Suchmaschinen-Robots den Webserver des E-Commerce Unternehmens überfordern.

Fazit zum nicht Indexieren durch Suchroboter

Es ist wichtig, dass eine Seite, die nicht von Crawlern indexiert werden soll, nicht gleichzeitig über eine robots.txt-Datei in Meta-Angaben verfügt und einen noindex-Tag verwendet. Andernfalls könnte der Googlebot die Robots-Tag Anweisung noindex verpassen. Auch wenn im ersten Moment nicht logisch klingen mag, dein eigener Onlineshop wird mit ziemlicher Sicherheit Seiten enthalten, die nicht in den Index von Google aufgenommen oder auf einer Google-Ergebnisseite angezeigt werden sollten. Der beste Weg, diese Seiten zu entfernen, ist mit einem Robots Tag – noindex!