Der gute alte Googlebot – So agiert der Google Webcrawler

Das Netz ist voll von Informationen unendlich vieler Webseiten. Damit User bei dieser Menge an Daten nicht untergehen, trifft Google bereits eine gewisse Vorauswahl, in dem die Suchmaschine diejenigen Webseiten/ Homepages in der Ergebnisliste nach vorne setzt, die sie hinsichtlich des jeweiligen Suchbegriffs besonders relevant und hilfreich für den User einstuft. Doch nicht immer ist die Webseite, die in den Google Suchergebnissen auf Platz 1 erscheint die beste Quelle. Immer mehr Unternehmen und Brands machen sich nämlich die sog. Suchmaschinenoptimierung (SEO) zunutze, um ihre Webseite in den Suchergebnissen nach ganz vorne zu katapultieren und verschaffen sich so Wettbewerbsvorteile gegenüber Dritten.

Im heutigen Blogartikel berichten wir von der Arbeitsweise der Suchmaschinen-Crawler, erklären, wann der Googlebot eine Webseite als relevant einstuft und welche Möglichkeiten der Beeinflussung es gibt.

So funktioniert der Webcrawler/ Googlebot

Suchmaschinen, ganz gleich welcher Anbieter (Google, Yahoo, Bing etc.), verfolgen in erster Linie das Ziel, Nutzern möglichst exakt zur Suchanfrage passende Ergebnisse zu liefern. Da sich dies aufgrund der Unmengen an Daten und Informationen aber besonders aufwendig darstellt, werden sog. Webseiten-Crawler eingesetzt. Jene Webseiten-Crawler durchsuchen Webseiten über einen Algorithmus und erfassen die gefundenen Inhalte in einer Datenbank, dem sog. Index. Je besser eine Homepage im Index abschneidet, desto höher ist die Chance, dass sie in den Suchergebnissen nach oben wandert.

Was bedeutet Crawling?

Der Googlebot durchsucht bspw. täglich Millionen von neuen bzw. aktualisierten Seiten und sammelt dadurch unzählige Daten die er herunterlädt und im Google Index abspeichert. Dieser Prozess wird auch crawling bezeichnet. Wie oft der Googlebot eine Webseite crawlt, hängt dabei von unterschiedlichen Faktoren ab. So in etwa vom Page Rank (der aktuellen Seitenplatzierung), der Qualität der Backlinks (Rückverweis einer externen Seite auf die jeweilige Webseite), die Ladezeit der Unterseiten sowie der Struktur/ dem Aufbau der Webseite.

Ein jeder Crawling-Prozess des Googlebot beginnt mit einer Auflistung von Webseiten, die bereits beim früheren Crawling generiert wurden. Zunächst werden die Einzeldokumente gecrawlt und dann dem Googlebot zur Verfügung gestellt, so dass dieser ‚entscheiden‘ kann, welche Inhalte der Webseite indexiert werden und welche nicht. Ist dieser Schritt abgeschlossen, wird der Content indexiert und alle Links der Webseiten verfolgt.

Welche Seiten werden gecrawlt? Und wie häufig crawlt der Roboter?

Welche Homepages und Webseiten gecrawlt werden ist dabei abhängig von der Anzahl der enthaltenen Backlinks und der internen Verlinkungen (Querverlinkungen). Wie lange der Googlebot dann wiederum auf einer Seite verweilt, hängt vom jeweiligen Crawl Budget der Domain ab, denn jede Domain hat grundsätzlich ein individuelles Budget, welches die Dauer des Crawling-Prozesses bestimmt. Die Häufigkeit, in der eine Webseite vom Googlebot gecrawlt wird, kann bspw. auch durch stets neuen Content positiv beeinflusst werden. Denn je aktueller und relevanter eine Webseite für den Webcrawler erscheint, desto häufiger crawlt er diese und indexiert die neuen Inhalte und Dateien.

Kann das Crawling des Googlebots beeinflusst werden?

Wie bereits eingangs erwähnt, beeinflussen viele Unternehmen und Brands ihr Ranking mithilfe Suchmaschinenoptimierung (SEO).

Content Marketing: Bereitstellen von thematisch relevantem Content

Möchten Unternehmen/ Brands ihre Indexierung und den Googlebot beeinflussen, können sie dies über das sog. Content Marketing tun. Hierfür bietet es sich an, sich zunächst in die Rolle der User zu versetzen und Inhalte anhand möglicher Anfragen auf Google zu konzipieren. Je häufiger eine Anfrage zu einem bestimmten Term/ Keyword/ Thema, desto mehr Potenzial bietet er.

Mehr zum Thema Content Marketing gibt’s hier.

Die manuelle Indexierung

Im Rahmen der Suchmaschinenoptimierung werden neue Webseiten-Inhalte gerne manuell indexiert, sodass diese schneller im Google Index untergebracht werden können. Hierbei wird der Webcrawler und somit der gesamte Crawlingprozess beeinflusst. Manuelles indexieren gewährleistet, dass die neuen Seiten/ Unterseiten beim nächsten crawlen des Roboters in jedem berücksichtigt werden.