Teleseminar 
 
 
 
historische Entwicklung des Internets 

5.1 Aufbau und Funktionsweise von "eigentlichen" Suchmaschinen 

Kataloge werden manuell erstellt, eigentliche Suchmaschinen hingegen automatisch. Sie bestehen aus 3 wesentlichen Elementen: 
- einem Robot (auch Spider oder Crawler), welcher das Netz systematisch durchsucht nach noch nicht indizierten Seiten, in dem er Hyperlinks auf bekannten Seiten verfolgt. 
- einer Datenbank, die die Ergebnisse des Robots speichert 
- und einer Software, die Suchanfragen entgegennimmt und Ergebnisse ausgibt. 
Spider unterscheiden sich in zwei Merkmalen: Auswahl der URLs und Erstellung der Informationen über eine gefundene Seite. Spider benutzen eine Liste mit URLs, an die man manuell neue URLs hinzufügen kann. Sie surfen diese Links nun ab und fügen neue Adressen an diese Liste an. In welcher Reihenfolge die Seiten besucht werden, ist dem Robot überlassen. Alte Seiten müssen aufgrund der hohen Änderungsrate des Internets von Zeit zu Zeit neu eingelesen werden. Die Sammlung von Informationen über eine Seite kann über einen oder mehrere der folgenden Inhalte geschehen: 
- Meta Tags enthalten Informationen der Seite, wie der Autor sie sieht 
- Der Titel beschreibt den Inhalt der Seite 
-Schlüsselwörter  sind dem hingegen nicht so anfällig gegenüber Manipluation des Autors 
Deutlich wird hier, das automatisch ablaufende Robots den Inhalt der Seiten nicht verstehen können, sondern lediglich durch das Zählen von Wörtern oder durch Übernehmen der Meta Tags die Seite erfassen können. Dieses ist auch die größte Schwachstelle der Suchmaschinen. Excite arbeitet derzeit an Ansätzen mit Sprachtheorien und künstlicher Intelligenz. Hier werden in Zukunft einige Verbesserungen zu erwarten sein. [5.1] 
Die eigene Seite in allen Suchmaschinen an vorderster Stelle stehen zu haben ist unmöglich. Prinzipiell gilt, die Meta-Tags und den Titel so deskriptiv, wie möglich zu bezeichnen. So ist z.B. der Titel "A. Klein" nicht so aussagekräfti, wie "A. Klein GmbH, Landwirtschaftliche Maschinen". Aufpassen sollte man prinzipiell im Bereich der Schlüsselwörter. Versteckte Schlüsselwörter im Text zu verwenden widerspricht der "Nettiquette", den inoffiziellen Verhaltensregeln im Netz und manche Robots bestrafen solches Vorgehen. Erleichtert wird die Veröffentlichung der Seite, wenn man bei allen großen Suchmaschinen seine Seite bekannt macht. Da die Anzahl der Suchmaschinen schier unendlich scheint, ist es ratsam besonders die Suchmaschinen über die eigene Seite zu informieren, die man selber am meisten benutzt. [5.2] 
Publizierung der Seiten in Suchmaschinen ist nicht immer erwünscht. Fast alle Robots unterstützen deshalb die Datei robots.txt, die, wenn sie im Root- Verzeichnis eines Servers installiert ist, Seiten vor der Zugriff durch die Robots schützen kann. Jedoch kann ein Adminsitrator nicht verhindern, daß andere Leute Links auf die Seite anlegen und diese Seiten dann evtl. unter dem eigenen Stichwort in Suchmaschinen zu finden ist. Wirksamer Schutz vor Robots ist, die Datei mit Passwortschutz zu versehen. Dann können aber nicht mehr alle Leute auf die Seite zugreifen. Eine andere Möglichkeit ist, den Zugriff auf die Seite nur von bestimmten Domains zu erlauben. Zu den technischen Details empfiehlt der Autor [6.3] und [6.4] 

5.2 Kataloge 

Kataloge basieren auf von Hand erstellten Datenbanken, die in vielen Fällen voraussetzen, das die Internet- Seiten auch tatsächlich vom Menschen besucht worden sind. Somit sind Kataloge personalintensiver und die Datenbanken sind deutlich kleiner, aber meistens auch besser sortiert und strukturiert. Die Qualität der Datenbank hängt in großem Maße davon ab, wie oft auch bereits indizierte Informationsangebote auf ihre Aktualität überprüft werden. [5.1] 
5.3 Beispiele 

5.3.1 Internationale Suchmaschinen und Kataloge  

Suchmaschinen 
Webcrawler http://www.webcrawler.com 
Altavista http://altavista.digital.com 
Excite http://www.excite.com 
Kataloge 
Yahoo! http://www.yahoo.com 

5.3.2 Deutsche Suchmaschinen und Kataloge 

Suchmaschinen 
Dino Lotse http://www.lotse.de 
Lycos http://www.lycos.de 
Kataloge 
Web.de http://web.de 
Dino Online http://www.dino-online.de 

Eine Übersicht über weitere deutsche Suchmaschinen befindet sich unter http://www.dmarkt.com/fritz/liste.htm, eine Übersicht häufig benutzer Suchmaschinen bietet http://www.uni-karlsruhe.de/~uo01/d/search. Zur Publizierung der eigenen Seiten empfiehlt sich der amerikanische Service http://www.submit-it.com. 
.

 
Quellenangaben Kapitel 2  
[1] Broß und Ganter: Suchmaschinen
[2] Submit.It: Tips for Announcing Web Sites to Search Engines and Directories
[3] Apache Howto Documentation
[4] Webcrawler: The Web Robots Page
 
Zurück | Weiter Weiter
Inhalt Inhalt