Die Suchmaschinen-Crawler stellen nämlich so genannte Poller dar. Das bedeutet, dass die Kommunikation bei der Indizierung nur in eine Richtung geht. Je nach Wichtigkeit der Suchmaschine indiziert die Suchmaschine in kürzeren oder längeren Zeitintervallen. Die Dauer der Abtastintervalle hängt von der Priorität (Pagerank, Sitetype, ...) einer Website ab. Das hat zur Folge, dass Suchmaschinen riesige Computerfarmen unterhalten müssen, welche diese Arbeit automatisiert durchführen und eigentlich nie wirklich zeitnahen Content enthalten können. Denn Sie wissen nie genau wann die Website und welcher Teil verändert wird. Sie können es nur basierend auf bereits durchgeführten Crawlings schätzen.
Folgende Abbildung stellt diesen Mechanismus dar:

Wäre es nicht besser wenn der Verantwortliche für eine Webpräsenz direkt oder automatisiert der Suchmaschine mitteilen könnte wann sich der Content der Seite verändert. Letztendlich würde es den Aufwand der Suchmaschine verringern. Diese würden dann nämlich nur Crawlen wenn man sie dazu auffordert und könnten so aktuellste Daten im Index stehen haben. Vor allem interessant wäre dieser Ansatz für Magazine, Blogs, Foren, usw. . Hierzu wäre natürlich eine neue API erfoderlich. Mit der man manuell oder die Webapplikation selbst sogenannte Content Change Events Suchmaschinen mitteilen könnte.

Natürlich müsste das Intervall basierte Crawling weiter bestehen bleiben. Denn die Suchmaschinen können nicht davon ausgehen, dass Sie immer über Änderungen informiert wird. Allerdings wäre eine Mischung aus beiden Mechanismen recht interessant und ich denke auch sehr nützlich für die Suchmaschinen wie auch für die Webseitenbetreiber.
Viele Grüße
Alexandra
Technorati Tags: searchengine searchengine mechanism





Diese Events gibt es bereits (vgl. Blog&Ping).