Search before you surf!

Search before you surf! "Search before you surf!". Das ist das Motto der Suchmaschine WebCrawler - und dieses Motto sollte eigentlich für jeden professionellen World-Wide-Web-Surfer gelten. Dies hat zwei ganz einfache Gründe: 1. Das Netz wird weniger belastet und 2. weniger wertvolle eigene Zeit wird sinnlos verplempert.
Doch wie läßt sich die Informationssuche (auf webdeutsch: surfen) im World Wide Web effektiv gestalten. Nun, ich bin nicht der erste, der diese Frage stellt und deshalb gibt es neben Server-Listen, wie z.B. die Liste der deutschen WWW-Server (URL: `http://www.chemie.fu-berlin.de/outerspace/www-german.html`), Indizes (Verzeichnisse), bei denen die Links thematisch sortiert und in Kategorien eingeordnet sind (z.B. Yahoo oder Web.de), und die sog. Suchmaschinen (z.B. Lycos oder Excite). Während die Handhabung der Verzeichnisse selbst der WWW-Neuling sofort versteht (man klickt sich durch immer feiner werdende Kategorien an sein Ziel), erfordert die effektive Nutzung einer Suchmaschine etwas mehr an Wissen und Erfahrung. Somit haben beide Formen ihre Vor- und Nachteile: Verzeichnisse á la Yahoo oder Web.de lassen sich sehr leicht bedienen, decken aber nur eine sehr kleinen Teil des WWW ab (weniger als 2%). Dagegen decken die Suchmaschinen große Teile des Web ab (bis 90%), sind aber komplizierter zu bedienen. Dieser Artikel stellt zunächst ein paar Verzeichnisse und Suchmaschinen vor und gibt dann eine Einführung in die erweiterten Abfragemöglichkeiten der Suchmaschinen. Beendet wird dieser Artikel mit einem Überblick über die ausgefallenen Suchoperatoren von Alta Vista, mit denen man nicht nur nach Text suchen kann. Eins soll noch erwähnt werden: Alle Verzeichnisse bieten inzwischen auch die Möglichkeit, Suchanfragen - beschränkt auf ihren Datenbestand - zu stellen und immer mehr Suchmaschinen bieten ihrerseits wiederum Verzeichnisse an. Verzeichnisse: Web.de ist das deutsche Gegenstück zum populären Yahoo. Das Schöne an Web.de ist, daß nur deutschsprachige Web-Seiten verzeichnet sind, z.Zt. etwa 12.000. Suchanfragen an die Datenbank sind möglich, sie beschränkt sich jedoch nur auf eine reine Volltextsuche. URL: `http://web.de` DINO Das Deutsche Internet-Organisationssystem hat ca. 10.000 Web-Seiten in seiner Datenbank verzeichnet. Die Suchanfrage bei DINO berücksichtigt Groß- und Kleinschreibung, logische Operatoren (and, or, not) und das `` als Platzhalter. Die Seiten werden jedoch nicht so schnell wie bei Web.de geladen. URL: `http://www.dino-online.de` Yahoo* Yahoo ist einer der populärsten Server im WWW und bietet die umfangreichste thematisch sortierte Liste. Die Bekanntheit hat auch den Nachteil, daß dieser Server sehr häufig besucht wird und daher oft mit langen Wartezeiten zu rechnen ist. URL: `http://www.yahoo.com` Suchmaschinen: Flipper ist die erste Suchmaschine, die nur deutschsprachige Web-Dokumente indiziert. Z.Zt. sind ca. 110.000 Dokumente erfa"st. Die Suche kann mit AND/OR, Strings und Wildcards beeinflußt werden. URL: `http://flp.cs.tu-berlin.de/flipper/`	URL = Uniform Resource Locator; bezeichnet die eindeutige Adresse eines Dokuments im WWW.
Alta Vista schmückt sich damit, den schnellsten Spider zur Indexgenerierung zu besitzen - und im Gegensatz zu anderen Spidern wird das Robot-Exclusion-Protokoll unterstützt. Seit seiner Gründung 1995 hat Alta Vista mehr als 30 Millionen Web-Seiten aufgesucht und indiziert. Während der Zugriff über CompuServe sehr schnell ist, hat man beim Zugriff von der Uni aus reichlich Zeit, einen Kaffee zu kochen. Jedoch bietet Alta Vista sehr interessante Features bei der Suchanfrage, und somit ist es eigentlich schade, daß bisher noch niemand auf die Idee gekommen ist, Suchmaschinen zu spiegeln. URL: `http://altavista.digital.com` WebCrawler Der WebCrawler ist für Anwender gedacht, die nicht Mathematik oder Informatik studieren. So lassen sich hier ,,natürlich-sprachliche`` Anfragen gestalten. Die Resultate einfacher Anfragen sind daher meist besser als bei anderen Suchmaschinen. Außerdem werden die Seiten und Ergebnisse sehr schnell präsentiert. Auf diesem Server gibt es auch reichhaltige Informationen zu Robotorn, Spidern, Crawlern und Co. Paradoxerweise unterstützt der WebCrawler jedoch nicht das Robot-Exclusion-Protokoll. URL: `http://webcrawler.com` Lycos Mit seinen 40 Millionen URL-Einträgen soll Lycos (benannt nach dem lateinischen Begriff für Wolfsspinne - Lycosidae) mehr als 90% des Web verzeichnet haben. Leider beschränken sich Abfragen selbst im ,,Enhanced``-Modus fast nur auf logische Operatoren, die man jedoch über Menüs komfortabel einstellen kann. URL: `http://www.lycos.com` OpenText gehört zu den etwas weniger bekannten Suchmaschinen, und hat bisher nur einen Bruchteil des Web abgegrast (10-15%). Dafür ist der Zugriff jedoch schneller und der PowerSearch bietet eine sehr komfortable Abfragemöglichkeit: Auswahl der logischen Operatoren über Menüs und Beschränkung des Suchbereichs auf das ganze Dokument, den Titel oder auch nur auf die URL. URL: `http://www.opentext.com` MetaCrawler ist eine Suchmaschine der besonderen Art: Sie hat keine eigene Datenbank, sondern nutzt die Informationen anderer Suchmaschinen. Eine Anfrage wird gleichzeitig an neun verschiedene Suchmaschinen abgeschickt (an OpenText, Lycos, WebCrawler, InfoSeek, Excite, Inktomi, Alta Vista, Yahoo und Galaxy). Als besonderes Bonbon kann die Suche auf ein reales Gebiet (z.B. Deutschland) und auf spezielle Server (z.B. nur Universitäten) beschränkt werden. Und für ungeduldige kann sogar die Antwortzeit eingeschränkt werden. URL: `http://www.metacrawler.com` Hotbot Kurz vor Fertigstellung dieses Artikels bin ich auf diese Suchmaschine gestoßen, die erst seit wenigen Wochen in Betrieb ist. Das hat die Betreiber (das Online-Magazin Hot Wired und Inktomi) aber nicht daran gehindert, schon jetzt mehr als 50 Millionen Web-Seiten zu indizieren - was Hotbot zum Spitzenreiter macht. Besonders hervorzuheben sind die Anfragemöglichkeiten, bei denen auch Ort und Zeit berücksichtigt werden kann - und das einmal eingestelle Anfrageformular läßt sich sogar speichern! URL: `http://www.hotbot.com` Sonstige Datenschnüffler: Das Internet besteht nicht nur aus dem World Wide Web. Schon vorher gab es Informationsdienste wie das Usenet oder Gopher. Aber dank des WWW lassen sich auch diese Dienste komfortabel durchsuchen: ArchiePlex ArchiePlex ist die W3-Aufbereitung des bekannten Unix-Kommandos `archie`, mit dem sich die Datenbestände der FTP-Server absuchen lassen. Da der Archie-Server weltweit gespiegelt wird, gibt es auch in Deutschland eine Anlaufadresse, die natürlich vorzuziehen ist. Das Abfrageformular erlaubt alle notwendigen Einstellungen und es läßt sich sogar bestimmen, wie fair man sich gegenüber anderen Benutzern, die das System auch gerade aufsuchen, verhalten möchte. URL: `http://www.th-darmstadt.de/archie/archieplex.html` DejaNews ist eine Suchmaschine für Artikel aus dem Usenet. Im PowerSearch-Modus läßt sich ein Filter definieren, mit dem man die Suche auf bestimmte Newsgruppen, Autoren und Zeiträume beschränken kann. Mit den Suchoptionen läßt sich die Ausgabe weiter anpassen. URL: `http://www.dejanews.com` Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) ist die Suchmaschine für den Internet-Dienst Gopher. Gopher ist ein Dienst, bei dem die Dokumente wie beim WWW über Hypertext-Links miteinander verbunden sind. Dieser rein textbasierte Dienst verliert jedoch immer mehr an Bedeutung, da er im WWW aufgeht. URL: `gopher://veronica.uni-koeln.de:2347/7` Four 11 ist ein kommerzieller Dienst und erlaubt das Suchen nach E-Mail-Adressen. In der Datenbank von Four 11 sollen z.Zt. ca. 5,5 Millionen E-Mail-Adressen gespeichert sein - meine konnte er aber nicht finden. Wem das auch so geht, der kann sich in die Datenbank aber eintragen lassen. URL: `http://www.four11.com`	Ein Spider (auch Crawler oder Robot genannt) ist ein Programm, das automatisch durch Web-Seiten surft, die Links einer Seite extrahiert und dann diese Seiten aufruft. Jede Suchmaschine hat so einen Spider laufen, um Daten über Web-Seiten zu sammeln. Auf einem WWW-Server kann der Administrator eine Datei anlegen, die Spidern untersagt, Seiten dieses Servers abzusuchen, da diese Programme eine erhebliche Belastung des Servers bedeuten und ein Otto-Normal-User mit seinem WWW-Browser dann möglicherweise leer ausgeht. Leider unterstützen nicht alle Spider das Robot-Exclusion-Protokoll.
Dies ist natürlich nur eine kleine Auswahl. Unter der Adresse `http://www.acsu.buffalo.edu/~tate/search-all.html` hat Tim Tate eine Übersicht von mehr als 70 Suchmaschinen im WWW zusammengestellt. Alle in diesem Artikel erw&aauml;hnten Adressen (und noch ein paar mehr) findet ihr `hier`. Tips und Tricks für eine effektive Suche Die meisten der oben erwähnten Suchmaschinen verfügen über zwei Anfragemodi: Einer einfachen Suchanfrage, bei der meist nur ein Stichwort angegeben werden können, und einer erweiterten Abfragemöglichkeit, bei der die Suchbegriffe mittels logischer Operatoren verknüpft werden können. Und genau diese sollte man verwenden, wenn man nicht hunderte von nicht-gewollten Dokumenten angezeigt bekommen möchte. Ein Beispiel soll dies verdeutlichen:	Wegen der schlechten Farbwahl und der langen Ladezeit habe ich die Seite etwas angepaßt und gespiegelt.
Gesucht wird unsere Fachschaftszeitschrift, die bits. Eine Anfrage bei Lycos mit dem Stichwort bits liefert sage und schreibe 40.073 Antworten. Bei dieser Zahl wird wohl keiner darauf kommen, die Antwortseiten durchzublättern. Eine erneute Anfrage, diesmal als bits AND Zeitschrift liefert nur drei Antworten, wobei die erste dem gesuchten Dokument entspricht. Dieses kleine Beispiel zeigt, wie sinnvoll die Verwendung logischer Operatoren ist. Fast jede Suchmaschine kennt mindestens die Operatoren AND und OR. Weniger häufig ist das NOT anzutreffen, daß meiner Meinung nach aber in keiner Suchmaschine fehlen sollte. Die wenigsten Suchmaschinen verfügen schließlich noch über den Operator NEAR. Eine Anfrage wie bits NEAR Zeitschrift bedeutet dann, daß der Suchbegriff bits in der Nähe von Zeitschrift auftauchen muß. Was mit ,,Nähe`` gemeint ist, kann oft noch spezifiziert werden, z.B. im Abstand von 12 Wörtern. Ein Sonderfall des NEAR ist die direkte Folge von Suchbegriffen, z.B. bei Namen wie ,,Albert Einstein`` oder bei Titeln. Dieses kann bei den meisten Maschinen durch den Einschluß in Gänsefüßchen ('') erreicht werden. Bevor man also eine Suchanfrage stellt, sollte man sich soviele Suchbegriffe wie möglich ausdenken, die im gesuchten Dokument vorkommen können. Wenn das Ergebnis dann unbefriedigend ist, läßt sich durch Wegnehmen oder Umformulieren von Suchbegriffen immer noch mehr erreichen, als wenn nur ein Begriff angegeben wird. Außerdem ist NEAR (wenn vorhanden) dem AND vorzuziehen, denn meistens stehen die gesuchten Begriffe eng beieinander. Wenn die Möglichkeit besteht, sich bei der Suche auf unterschiedliche Bestandteile eines Dokuments beziehen zu können, dann sollte dies unbedingt genutzt werden. Die Beschränkung der Suche auf Titel oder die Einschränkung der URL (bzw. des Landes oder auch der Sprache) liefert viel früher gute Ergebnisse. Der folgende Abschnitt beschreibt die Suchoperatoren von Alta Vista, mit denen sich genau dieses erreichen läßt. Suchanfragen mit Alta Vista Die Suchmaschine Alta Vista bietet bereits im einfachen Anfragemodus sehr viele nützliche und einleuchtende Funktionen, um eine Suchanfrage einzuschränken: Wörter, die unbedingt in einem Dokument enthalten sein sollen, werden mit einem + eingeleitet, und Wörter, die nicht enthalten sein sollen mit einem -. Eine Anfrage wie +science -fiction sucht z.B. nach Dokumenten, die den Begriff ,,science`` nicht aber den Begriff ,,fiction`` enthalten. Mit + und - lassen sich so sehr schnell komplexe Anfragen gestalten, ohne auch je etwas von Logik gehört haben zu müssen. Aber Alta Vista gehört zu den wenigen Suchmaschinen, bei denen man noch andere Informationen eines WWW-Dokumentes, wie z.B. den Titel oder die URL berücksichtigen kann. Mit diesen zusätzlichen Operatoren lassen sich auch gänzlich andere Anfragen stellen, z.B. kann man Abfragen, welche Seiten auf eine bestimmte Seite verweisen (das sog. ,,Rückwärts-Surfen``). Es folgt eine Übersicht dieser zusätzlichen Operatoren (gleich mit Beispielen, d.h. ein Klick auf den Link startet die Suchanfrage): host:hamburg.de beschränkt die Suche auf Dokumente, die auf Serven abgelegt sind, deren Adresse hamburg.de enthält. Anders gesagt: Hier werden praktisch nur Dokumente gefunden, die auf Hamburger Servern abgelegt sind (allerdings wird leider die Mehrzahl der Hamburger Server nicht des Kürzel hamburg enthalten).(> 10.000) url:bits.html findet alle Dokumente, deren URL die Zeichenketten ,,bits`` und ,,html`` im Pfadnamen (nicht die Server-Adresse!) enthält.(300) title:''Fachschaft Informatik'' findet alle Dokumente, die im Titel (also im `<TITLE>`-Tag) das Satzstück ,,Fachschaft Informatik`` enthalten.(96) text:''Fin Schuppenhauer'' beschränkt die Suche auf Dokumente, die meinen Namen im reinen Text enthalten, d.h. nicht innerhalb irgendwelcher Tags.(100) image:jupiter.gif findet Dokumente mit Bildern, die ,,jupiter.gif`` im IMAGE-Tag enthalten, d.h. man kann auf diese Weise nach Bildern suchen!(700) applet:JavaMines beschränkt die Suche auf Dokumente, die mit der Java-Applet-Klasse ,,JavaMines`` aufgepeppt werden.(4) anchor:hier durchsucht den Text von Hyperlinks auf die Zeichenkette ,,hier``.(700) link:''www.informatik.uni-hamburg.de/'' findet alle Dokumente, die einen Link auf die Homepage unseres Fachbereichs enthalten (,,Rückwärts-Surfen``). Vor allem PR- und Werbefachleute werden diese Möglichkeit zu nutzen wissen.(4000) Und nun habt ihr und euer Browser eine Pause verdient: Also, stell' deinen Browser auf dem Web-Parkplatz ab und geh' auf einen Kaffee oder Tee ins c.t.!	40.073 Antworten zum Zeitpunkt, als dieser Artikel entstand.

Fin Schuppenhauer