Diese Webseite verwendet Cookies, um die Nutzung der Webseite zu ermöglichen und zu verbessern.
Weitere Informationen finden Sie in unserer Datenschutzerklärung.     zum Impressum
       
Glossar-Buchstabe: s

spider

Ein Spider ist ein automatisiertes Programm, das Webseiten durchsucht und Inhalte für Suchmaschinen sammelt – essenziell für die Indexierung im Internet.
Ein Spider, oft auch Webcrawler oder Bot genannt, ist ein automatisiertes Programm, das das World Wide Web systematisch durchsucht und Webseiten erfasst. Ziel eines Spiders ist es, Inhalte von Webseiten zu sammeln, zu analysieren und diese Daten beispielsweise für Suchmaschinen oder andere datenbasierte Anwendungen aufzubereiten. Dabei folgt der Spider den im Internet hinterlegten Links, um immer neue Seiten zu entdecken und in seine Datenbasis aufzunehmen.

Spiders sind eine zentrale Komponente vieler Suchmaschinen. Sie ermöglichen es, das riesige Angebot an Webseiten kontinuierlich zu durchsuchen und zu aktualisieren. Durch das sogenannte „Crawling“ erzeugt der Spider eine strukturierte Übersicht der verfügbaren Inhalte, die dann durch Algorithmen bewertet und für eine schnelle und relevante Suche nutzbar gemacht werden. Neben Suchmaschinen setzen auch andere Dienste Spiders ein, etwa zur Marktbeobachtung, Preisvergleiche oder zur Datenanalyse.

Technisch arbeitet ein Spider meist nach festen Regeln: Er besucht eine Webseite, lädt deren Quellcode herunter und durchforstet diesen nach weiteren Links. Dabei kann er auch bestimmte Inhalte auslesen, wie Texte, Bilder oder Metadaten. Manche Spiders achten darauf, mit der Serverlast verantwortungsvoll umzugehen und respektieren Anweisungen, die in der Datei „robots.txt“ einer Webseite definiert sind. Diese Datei legt fest, welche Bereiche einer Webseite von automatischen Zugriffen ausgeschlossen sind.

Für Webmaster und Betreiber von Webseiten ist es wichtig zu wissen, dass Spiders einerseits essenziell sind, um im Web gefunden zu werden, andererseits aber auch unerwünschte Bots Zugriff haben können. Aus diesem Grund gibt es verschiedene Techniken zum Management des Zugriffs, etwa durch Sperren von IP-Adressen oder das gezielte Zulassen und Blockieren von Bots.

Insgesamt tragen Spiders maßgeblich zur Strukturierung und Erschließung der komplexen Weblandschaft bei und bilden eine wichtige Grundlage für viele internetbasierte Dienste und Anwendungen.

veröffentlicht am: 17.10.2018 08:01
Cookie-Richtlinie