Suchmaschinen: Eingangstore für das Surfen im Web

Da Internet-Suchmaschinen mit Milliarden von Webseiten arbeiten, könne diese nicht alle in Echtzeit durchsucht werden. Deshalb wird das Durchsuchen der Inhalte vom Beantworten der Suchanfrage getrennt. Als Bindeglied zwischen durchsuchten Inhalten und dem Suchbegriff kommt ein Index zum Einsatz. Der Index dient als Nachschlagewerk: Welche Begriffe kommen in welchen Dokumenten vor? Statt also jedes Mal alle Websites zu durchsuchen, müssen Suchmaschinen nur den erstellten Index überprüfen.

Suchmaschinen befassen sich also mit zwei hauptsächlichen Prozessen:

Crawling + Indexing: Dokumente auffinden, daraus Inhalte extrahieren und dem Index hinzufügen.
Searching: Suchanfragen entgegennehmen und auf dem Index basierend beantworten.

Beide Prozesse nutzen unterschiedliche Algorithmen. Dies ermöglicht einer Suchmaschine, einen bestehenden Index einer dritten Partei zu nutzen und dennoch Nutzerinnen und Nutzern einen Mehrwert zu bieten. Beispielsweise durch einen verbesserten Suchalgorithmus, oder eine besonders gute Benutzeroberfläche. Denn der Aufbau eines Index ist mit großem Aufwand verbunden.

Zum Indexieren der Inhalte von Webseiten kommen Bots zum Einsatz, die auch als Crawler oder Spider bekannt sind. Es handelt sich dabei um spezielle Computerprogramme, welche eigenständig das Netz durchforsten. Der Bot ruft eine Webseite unter ihrer Adresse auf, extrahiert die Inhalte und verschlagwortet diese. Die Schlagworte werden mitsamt der Adresse der Seite in den Index aufgenommen. Im Anschluss wird der Prozess für die auf der Seite gefundenen Links wiederholt. So hangelt sich der Bot wie eine Spinne durchs Netz.

Source link

Kommentar verfassen Antwort abbrechen