5.1 Aufbau und Funktionsweise
von "eigentlichen" Suchmaschinen
Kataloge werden manuell erstellt, eigentliche
Suchmaschinen hingegen automatisch. Sie bestehen aus 3 wesentlichen Elementen:
- einem Robot (auch Spider oder Crawler), welcher
das Netz systematisch durchsucht nach noch nicht indizierten Seiten, in
dem er Hyperlinks auf bekannten Seiten verfolgt.
- einer Datenbank, die die Ergebnisse des Robots
speichert
- und einer Software, die Suchanfragen entgegennimmt
und Ergebnisse ausgibt.
Spider unterscheiden sich in zwei Merkmalen:
Auswahl der URLs und Erstellung der Informationen über eine gefundene
Seite. Spider benutzen eine Liste mit URLs, an die man manuell neue URLs
hinzufügen kann. Sie surfen diese Links nun ab und fügen neue
Adressen an diese Liste an. In welcher Reihenfolge die Seiten besucht werden,
ist dem Robot überlassen. Alte Seiten müssen aufgrund der hohen
Änderungsrate des Internets von Zeit zu Zeit neu eingelesen werden.
Die Sammlung von Informationen über eine Seite kann über einen
oder mehrere der folgenden Inhalte geschehen:
- Meta Tags enthalten Informationen der Seite,
wie der Autor sie sieht
- Der Titel beschreibt den Inhalt der Seite
-Schlüsselwörter sind dem hingegen
nicht so anfällig gegenüber Manipluation des Autors
Deutlich wird hier, das automatisch ablaufende
Robots den Inhalt der Seiten nicht verstehen können, sondern lediglich
durch das Zählen von Wörtern oder durch Übernehmen der Meta
Tags die Seite erfassen können. Dieses ist auch die größte
Schwachstelle der Suchmaschinen. Excite arbeitet derzeit an Ansätzen
mit Sprachtheorien und künstlicher Intelligenz. Hier werden in Zukunft
einige Verbesserungen zu erwarten sein. [5.1]
Die eigene Seite in allen Suchmaschinen an vorderster
Stelle stehen zu haben ist unmöglich. Prinzipiell gilt, die Meta-Tags
und den Titel so deskriptiv, wie möglich zu bezeichnen. So ist z.B.
der Titel "A. Klein" nicht so aussagekräfti, wie "A. Klein GmbH, Landwirtschaftliche
Maschinen". Aufpassen sollte man prinzipiell im Bereich der Schlüsselwörter.
Versteckte Schlüsselwörter im Text zu verwenden widerspricht
der "Nettiquette", den inoffiziellen Verhaltensregeln im Netz und manche
Robots bestrafen solches Vorgehen. Erleichtert wird die Veröffentlichung
der Seite, wenn man bei allen großen Suchmaschinen seine Seite bekannt
macht. Da die Anzahl der Suchmaschinen schier unendlich scheint, ist es
ratsam besonders die Suchmaschinen über die eigene Seite zu informieren,
die man selber am meisten benutzt. [5.2]
Publizierung der Seiten in Suchmaschinen ist
nicht immer erwünscht. Fast alle Robots unterstützen deshalb
die Datei robots.txt, die, wenn sie im Root- Verzeichnis eines Servers
installiert ist, Seiten vor der Zugriff durch die Robots schützen
kann. Jedoch kann ein Adminsitrator nicht verhindern, daß andere
Leute Links auf die Seite anlegen und diese Seiten dann evtl. unter dem
eigenen Stichwort in Suchmaschinen zu finden ist. Wirksamer Schutz vor
Robots ist, die Datei mit Passwortschutz zu versehen. Dann können
aber nicht mehr alle Leute auf die Seite zugreifen. Eine andere Möglichkeit
ist, den Zugriff auf die Seite nur von bestimmten Domains zu erlauben.
Zu den technischen Details empfiehlt der Autor [6.3] und [6.4]
5.2 Kataloge
Kataloge basieren auf von Hand erstellten Datenbanken,
die in vielen Fällen voraussetzen, das die Internet- Seiten auch tatsächlich
vom Menschen besucht worden sind. Somit sind Kataloge personalintensiver
und die Datenbanken sind deutlich kleiner, aber meistens auch besser sortiert
und strukturiert. Die Qualität der Datenbank hängt in großem
Maße davon ab, wie oft auch bereits indizierte Informationsangebote
auf ihre Aktualität überprüft werden. [5.1]
5.3 Beispiele
5.3.1 Internationale Suchmaschinen und Kataloge
Suchmaschinen
Webcrawler http://www.webcrawler.com
Altavista http://altavista.digital.com
Excite http://www.excite.com
Kataloge
Yahoo! http://www.yahoo.com
5.3.2 Deutsche Suchmaschinen und Kataloge
Suchmaschinen
Dino Lotse http://www.lotse.de
Lycos http://www.lycos.de
Kataloge
Web.de http://web.de
Dino Online http://www.dino-online.de
Eine Übersicht über weitere deutsche
Suchmaschinen befindet sich unter http://www.dmarkt.com/fritz/liste.htm,
eine Übersicht häufig benutzer Suchmaschinen bietet http://www.uni-karlsruhe.de/~uo01/d/search.
Zur Publizierung der eigenen Seiten empfiehlt sich der amerikanische Service
http://www.submit-it.com.
. |
Quellenangaben
Kapitel 2
|