Die Dienste des Internet


3. Archie

3.1 Einführung

Eine andere Möglichkeit bestimmte Dateien zu finden ist der Dienst Archie. Archie ist ein Datenbanksystem, welches die Inhaltsverzeichnisse einer großen Zahl von Anonymous FTP-Servern zusammengefaßt bereithält. Damit kann der Benutzer in dieser riesigen Datenbank gezielt nach Datei- oder Verzeichnisnamen (oder Teilen davon) suchen.

Archie liefert dann eine Liste aller Fundstellen mit Angabe von FTP-Server und Verzeichnis-Pfad in dem das File zu finden ist zurück.

Der große Nachteil dieser Suche nach Dateiname ist, daß man den genauen Dateinamen oder einen sinnvollen Teil davon kennen muß. Leider haben Programme oft nur schwer erratbare Abkürzungen ihres Namens oder sogar völlig unlogische Bezeichnungen als Dateiname. Dazu kommt noch, daß auf FTP-Servern verschiedene Versionen eines Programms zu finden sein können, ohne daß das unbedingt am Dateinamen ablesbar ist.

Eine Lösung der ersteren Problems sollte der zweite Dienst von Archie sein: die sogenannte "Whatis-Database". Diese Datenbank enthält Stichworte oder kurze Beschreibungen zu den Programmen. Weil aber solche Beschreibungen auf vielen FTP-Servern gar nicht vorliegen oder mit uneinheitlichen Namen und/oder in uneinheitlichem Format, kann diese Datenbank nicht automatisch generiert werden, sondern ist auf manuelle Eingabe der Beschreibungen angewiesen. Bedingt durch dieses Prinzip ist die Anzahl der vorhandenen Beschreibungen im Gegensatz zu den indizierten Files verschwindend gering, so daß der praktische Nutzen dieser "Whatis"-Datenbank stark eingeschränkt ist.

3.2 Entwicklung des Systems

Am Beginn seiner Entwicklung bestand Archie lediglich aus ein paar einfachen Scripts, welche automatisch von einer Anzahl von FTP-Servern jeweils ein rekursives Listing des Inhalts (Auflistung aller Verzeichnisse mit Dateien, sowie Inhalt der Unterverzeichnisse, wieder mit Unterverzeichnissen usw.) holten. Bald schon wurde eine Benutzerschnittstelle implementiert, welche es erlaubte diese Inhaltsverzeichnisse nach Stichworten zu durchsuchen. Der Zugang zu dieser Benutzerschnittstelle war schon bald über Telnet und Email möglich. Die Version 1.0 von Archie wurde 1990 fertiggestellt. Im Gegensatz zu vielen anderen Internet-Diensten ist Archie nicht Public Domain. Die Rechte an Archie sind inzwischen an die Firma Bunyip Information Systems übergegangen, welche Archie in ein allgemein verwendbares Tool zur Sammlung von Informationen und Pflege von verteilten Datenbaken weiterentwickelt hat. Die aktuelle Version von Archie ist die Version 3.5.

Inzwischen ist neben der relativ mühsamen und wenig benutzerfreundlichen Abfrage der Archie-Server per Telnet oder Email auch die Abfrage per WWW (z.B. http://archie.th-darmstadt.de) oder am komfortabelsten mittels der für praktisch jedes Bestriebssystem existierenden Archie-Clients möglich.

3.3 Aufbau und Grundlagen des Systems

Das Archie-System besteht im wesentlichen aus drei Komponenten: der Data Gathering Component (DGC), der Database Maintenance Component (DMC) und der User Access Component (UAC). Die Data Gathering Compoment dient der Beschaffung der Daten aus dem Internet. Dazu wird die sog. Site Description Database benutzt, welche die notwendigen

Informationen, wie z.B. IP Adresse, Betriebssystem usw. von allen FTP Server enthält, welche Archie abfragt. Ursprünglich fragte jeder Archie-Server den gesammten Bestand an FTP-Servern ab, indem jeden Tag ein Teil der Server aus der Site Description Database abgearbeitet wurde bis nach ca. 1 Monat wieder von vorne begonnen wurde.

Um mit der stark gewachsenen Anzahl von FTP-Servern fertigzuwerden ohne das Internet zu sehr zu belasten und gleichzeitig die Aktualität der Archie Server zu verbessern, fragt inzwischen jeder Archie-Server nur noch die FTP-Server, die in seiner Umgebung liegen, ab. Danach tauschen die Server ihren Datenbestand aus, so daß in der Regel auf allen Servern der gleiche Datenbestand vorherrscht. Die Database Maintenance Component dient zur Konsistenzprüfung der abgeholten "rohen" Listings und Kovertiertung in ein für die Datenbank passendes Format mit anschließender Fehlerprüfung und wenn möglich -bereinigung. Die User Access Component schließlich stellt die Benutzerschnittstelle für Anfragen an die Datenbank bereit. Dabei stehen die Möglichkeiten des Zugriffs per Telnet, Email, WWW oder mittels des sog. Prospero-Protokolls per Archie-Client zur Verfügung.

3.4 Ausblick

Im Zuge der Weiterentwicklung von Archie ist es inzwischen mit Hilfe des WWW-Interfaces, welches einige Archie-Server bieten, auch möglich nicht nur in der Anonymous FTP Datenbank von Archie zu suchen, sondern zusätzlich auch in einer Datenbank, welche WWW-Seiten indiziert. Im Vergleich zu den anderen Suchmaschinen des Internets (z.B. AltaVista oder Lycos) ist der Datenbestand dieser Datenbank bisher vernachlässigbar klein.

Durch die leider sehr kleine und meist nur per Email- oder Telnet-Schnittstelle abfragbare Whatis-Datenbank ist die Verwendbarkeit von Archie für den Normal-Benutzer, welcher in der Regel nicht den genauen Dateinamen, sondern nur den Programmnamen, eingeschränkt. Für solche Fälle ist eher die Benutzung eines der großen WWW-basierten Interfaces zu Datei- Archiven (wie z.B. http://www.download.com) zu empfehlen, da man damit dann in der Regel schneller zum Ziel kommt.

Wenn Archie in Zukunft nicht seine Suchmöglichkeiten verbessert bzw. den Zugriff und die Größe der Whatis-Datenbank stark optimiert, dann wird Archie neben den WWW-basierten Diensten in Vergessenheit geraten.

 


Inhalt Zurück Weiter Literatur