LOG IN Leitseite

Nach oben ] Abschn. 1 ] Abschn. 2 ] Abschn. 3 ] [ Abschn. 4 ] Abschn. 5 ] Abschn. 6 ] Abschn. 7 ] Abschn. 8 ] Ausblick ] Literatur ] [2000]

 


[LOG IN]


LOG IN: 18 (1998) Heft 3/4: Thema


Suchwerkzeuge

Suchen und Finden im Internet

von Jürgen Müller

Mit der Ausbreitung des World Wide Web (WWW) zu Beginn der neunziger Jahre explodierte das Informationsangebot des Internet förmlich. Im neuen Medium wurden klassische Internet-Dienste wie FTP, Telnet, E-Mail und Gopher zu einem neuen, multimedialen und einfach zu handhabenden Medium integriert. Somit waren Recherchen im Internet nicht mehr einer kleinen Gruppe von Computerspezialisten vorbehalten. Der "Cyberspace" stand jetzt jedem offen – man mußte ihn nur zu nutzen wissen! Die Notwendigkeit einer organisierten Informationssuche ist bei den Millionen WWW-Seiten offensichtlich.

Im folgenden soll ein praktisch orientierter Überblick zum Suchen – und Finden! – im WWW gegeben werden. Lehrerinnen und Lehrer, die Neulinge im Recherchieren sind, werden mit den verschiedenen Suchmöglichkeiten vertraut gemacht. Und es werden Anregungen gegeben, das Suchen von Informationen im Unterricht selbst zu thematisieren.


Informationen im Internet –
Mythos und Realität

Zuerst die Warnung vor einem Mythos. Die Quantität der im Internet bereitstehenden Informationen sagt noch nichts über deren Qualität aus! Im Gegenteil: Das weitgehende Fehlen von Regulatorien wie Rentabilität von Informationsangeboten und die Möglichkeit, mit geringem Aufwand zu publizieren, garantiert lediglich eine demokratische Vielfalt und nicht die Qualität von Informationen.

Man muß sich darüber hinaus auch dessen bewußt sein, daß etliche Informationen gar nicht im Internet vorhanden sind! Viele Informations-Produzenten nehmen nicht an diesem Medium teil und publizieren "nur" mittels konventioneller Medien. Und das nicht ohne Grund: Oft ist der Griff ins Regal nach dem bewährten Lexikon schneller und eher von Erfolg gekrönt als die Suche in den Untiefen des Internet!

Suchwerkzeuge – Ein Überblick

Der Begriff "Suchwerkzeug" subsumiert eine ganze Reihe von Werkzeugen, um Informationen im Internet zu finden:

Suchfunktion des Browsers, um in einer angezeigten Webseite nach Begriffen zu suchen,
Listen von Lesezeichen (Bookmarks), die in den Browser implementiert sind,
Eigene Datenbanken bzw. Verzeichnisse mit Internet-Adressen,
Thematische Verzeichnisse im Internet,
Kataloge,
Universelle Suchmaschinen,
Fachspezifische Suchmaschinen,
Meta-Suchdienste.

Eigene Verzeichnisse

"Ich habe da mal irgendwo im Internet etwas zu deinem Problem gesehen" – diese Formulierung ist wohl typisch für das Suchen von Informationen in den Weiten des Internet-Ozeans. Soll diese Information wiedergefunden werden, können durchaus Stunden vergehen, ganz abgesehen von den Kosten für die Online-Verbindung ins Internet. Schon einfache Hilfsmittel genügen aber, um wieder schnell an die einmal als nützlich erkannte Information zu gelangen. In jedem der gängigen Browser ist eine sog. Lesezeichenfunktion eingebaut: Hat man beim Surfen auf dem Informationsmeer ein interessantes Informationsangebot entdeckt, kann dessen Adresse (die URL) per Mausklick in ein internes Verzeichnis des Browsers aufgenommen werden (vgl. Bild 1, nächste Seite).

Die Browser ermöglichen es in der Regel auch, Kategorien zu bilden.

Als sehr nützlich hat es sich auch erwiesen, eigene Verzeichnisse oder gar Datenbanken mit Internet-Adressen aufzubauen. Schon mit einem Textverarbeitungssystem lassen sich Adressen und kurze Inhaltsangaben festhalten und über die interne Suchfunktion recherchieren. Moderne Textverarbeitungssoftware bietet schon eine gewisse Internet-Integration, denn bei dem Mausklick auf eine URL in der Textverarbeitung wird der Browser mit dem entsprechenden Informationsangebot gestartet. Das Nutzen der oftmals auch integrierten Serienbrieffunktion bietet die Möglichkeit für den Aufbau von kleinen Datenbanken, ebenso ist natürlich der Aufbau einer "richtigen" Datenbank denkbar. Ich habe es mir zur Gewohnheit gemacht, bei interessanten Seiten nicht nur deren Adressen festzuhalten, sondern kopiere auch einen Teil des Informationsangebotes über die Zwischenablage in die Textverarbeitung oder die Datenbank. Für die spätere Recherche stehen mir dadurch mehr Informationen zur Verfügung als durch die bloße Angabe der Adresse.

Als sehr wertvoll erweisen sich auch fachspezifische Verzeichnisse von Internet-Adressen, die von fachkompetenten Personen zusammengestellt werden. Oftmals bieten solche handverlesenen Sammlungen einen hervorragenden Einstieg in die Internet-Recherche zu einem bestimmten Thema. Als Beispiel für eine solche unterrichtsrelevante Adressen-Sammlung sei die Physik-Sammlung von Peter Krahmer, der für den Physikunterricht relevante Links auflistet (vgl. Bild 2).

Einstiegspunkte ins Internet

Wo nun aber mit dem Suchen beginnen? Verschiedene "Einstiegspunkte" ins Internet listen mehr oder weniger wichtige Kataloge und Suchmaschinen auf. Für den deutschsprachigen Raum existiert seit dem Frühjahr 1998 ein vom Deutschen Forschungsnetz (DFN) unterhaltener Dienst namens "search.de." Unter der WWW-Adresse www.search.de werden Kataloge, Suchmaschinen und Datenbanken aufgelistet, die sofort per Mausklick erreichbar sind (siehe Bild 3).

Projektziel ist der Aufbau eines DFN-Referenz- und Kompetenzzentrums für Informationsdienste. Mit dem Aufbau eines "National Entry Points" in das Internet will das sog. DFN-CIS das Erschließen von in Deutschland vorhandenen Informationsquellen erleichtern. Unter diesem Dach sollen Navigationshilfen für verschiedene Informationsdienste angeboten werden. Wegen der dienstintegrierenden Eigenschaften und der breiten Akzeptanz grafischer Web-Browser wird der Zugang zum National Entry Point im WWW realisiert. (Nähere Informationen unter http://www.cis.dfn.de/.)


Information Retrieval
und Suchmaschinen

Das Grundmodell des sog. Information Retrieval ist sehr einfach: Information wird gespeichert und soll später wiedergefunden werden. Für das Wiederfinden gibt es zwei Paradigmen, die in den zu besprechenden Suchdiensten realisiert werden. Es handelt sich um das sog. Matching-Paradigma und zum anderen um das Erkundungs-Paradigma.

Matching-Paradigma

Das Informationsbedürfnis wird bei diesem klassischen Paradigma durch die Formulierung von Suchbegriffen umschrieben, die mit einer Dokumentenmenge verglichen wird. Diese Dokumentenmenge wird durch Indexbegriffe repräsentiert. Ein solcher Abgleich kann entweder deterministisch oder mit Ähnlichkeitsmaßen erfolgen. Beispiele dafür folgen weiter unten.

Eigentlich ist dieses Vergleichsprinzip paradox: Es muß das beschrieben werden, was man noch nicht kennt! Wie kommt man nun trotzdem zum Erfolg? Zwei Möglichkeiten gibt es:

Das Unbekannte wird durch Bekanntes beschrieben.
Das Unbekannte wird erkannt, wenn es auftaucht.

Die erste Möglichkeit entspricht dem oben beschriebenen Matching-Paradigma. Die Begriffs-Suche (conceptual retrieval) erweitert den Abgleichprozeß um Inferenzmechanismen und ist ein bedeutender Schritt zu Frage-Antwort-Systemen.

Erkundungs-Paradigma

Die zweite Lösung basiert auf den kognitiven und rezeptiven Fähigkeiten des Menschen. Er ist eher in der Lage, etwas wiederzuerkennen, als es genau zu beschreiben. Dafür ist allerdings zum einen ein Startpunkt notwendig, und zum anderen ist die Richtung zu bestimmen, in der die gesuchte Information (voraussichtlich) liegt. Ein Beispiel dafür ist der o.a. Einstiegspunkt (www.search.de) des DFN. Die im folgenden besprochenen Kataloge sind weitere Repräsentanten dieses Paradigmas.


Kataloge

Als typischer Vertreter von Katalog-Diensten soll Yahoo vorgestellt werden. Den mit nationalen Ablegern größten und populärsten Katalog bietet dieser als "Hierarchical Hotlist Database" konzipierte Dienst. Yahoo wurde 1994 von zwei Studenten der kalifornischen Stanford-Universität geschaffen und arbeitet mittlerweile als eigenes Unternehmen. Die Yahoo-Einträge sind teilweise "handverlesen" und basieren auf Meldungen, die von Mitarbeitern geprüft, annotiert und Kategorien zugeordnet werden. Es wird aber ebenfalls ein sog. Roboter eingesetzt, der das Internet nach Neuigkeiten absucht.

Yahoo ist ein Beispiel für Suchwerkzeuge, die auf dem Erkundungs-Paradigma basieren. Es ist ein guter Einstiegspunkt ins Internet, wenn etwas gesucht wird, von dem man noch keine präzise Vorstellung hat und keinen Aufwand für umfangreiche zeit- und damit kostenintensive Recherchen treiben möchte.

Die Yahoo-Gliederung beginnt mit 14 Hauptgruppen und verzweigt dann in bis zu 7 Hierarchiestufen. Sogenannte Subkategorienlisten bilden den Hierarchiebaum der Hauptgruppe ab; man muß sich auf der Suche daher nicht durch alle Hierarchieebenen hangeln (vgl. Bild 4).


Universelle Suchmaschinen

Die Schwächen der Kataloge versucht man durch Kooperation mit einer "echten" Suchmaschine zu relativieren. Oftmals findet man einen Verweis (Link) zu einer entsprechenden Adresse. Bei Yahoo beispielsweise wird die Suche auf den Datenbestand der Suchmaschine "AltaVista" ausgedehnt, ohne daß die Suchbegriffe erneut eingegeben werden müssen.

Das Benutzen einer Suchmaschine verführt leicht zu der Annahme, daß in Echtzeit im Internet nach den gewünschten Informationen gesucht wird. Man sollte sich immer darüber im klaren sein, daß eine Datenbank die angezeigten Ergebnisse liefert! Wie wird eine solche Datenbank gefüttert? Bei universellen Suchmaschinen geschieht das nicht mehr von Menschen, sondern von Programmen, den sog. Robotern (andere Bezeichnungen: Spider oder Crawler). Die Roboter lesen eine Startseite ein und hangeln sich dann an den Links durch das WWW. Bilder werden in der Regel nicht ausgewertet; die Beschränkung auf Texte ermöglicht es, in kurzer Zeit sehr viele WWW-Seiten einzulesen und den Text zu indizieren.

Beim Indizieren unterscheiden sich die einzelnen Suchmaschinen. So gibt es Programme, die nur die Adresse (URL) und den Titel der Seite indizieren; andere Maschinen registrieren den Inhalt der gesamten WWW-Seite.

Aus dieser Indizierung werden Stichwörter gefiltert und mit der Datenbank abgeglichen. Und schon kann die Hatz nach neuen Seiten im Internet weitergehen. Der Vorteil solcher Systeme ist offensichtlich: Verglichen mit Katalogen sind Suchmaschinen relativ aktuell und vollständig. Wenn für den Unterricht aktuelle Informationen (z.B. über die Situation in einem politischen Krisengebiet, die Entdeckung eines astronomischen Objekts u.ä.) benötigt werden, wird man bei einer Suchmaschine schnell fündig werden. Es muß in die Dialogseite der Suchmaschine ein Begriff eingegeben werden; intern vergleicht der Retrieval-Mechanismus der Maschine diesen Begriff mit dem Datenbestand seiner Datenbank und listet die Adressen der gefundenen Seiten auf, in der Regel mit einer kurzen Beschreibung des Inhalts dieser Seiten. Mittels Mausklick kann bei Interesse gleich auf diese Seite gewechselt werden. Hin und wieder geht ein solcher Verweis auch ins Leere (vgl. Bild 5).

Die Ursache liegt in der Dynamik des Internet:

Das Informationsangebot wurde neu gestaltet. In diesem Zusammenhang wurden Seiten umbenannt oder sogar gelöscht. Die Roboter der Suchmaschinen haben diese Änderung noch nicht registriert.
Oftmals sind die Seiten "umgezogen": Es wurde entweder das Informationsangebot unter einer neuen Adresse abgelegt oder der sog. Provider (die Einrichtung, die das WWW-Angebot im Internet rund um die Uhr vorhält) wurde gewechselt. Damit ist meist ebenfalls ein Wechsel der Adresse verbunden.

Es ist nützlich, verschiedene Suchmaschinen zu vergleichen, z.B. hinsichtlich:

Anzahl der Treffer,
Qualität der Suchergebnisse,
Aktualität der Suchergebnisse und
Bedienerfreundlichkeit.

Das sollte auch im Unterricht bei der Einführung in den Umgang mit Suchmaschinen thematisiert werden, z.B. durch folgende Aufgabe:

Aufgabe: Sucht mit drei verschiedenen deutschsprachigen Suchmaschinen Informationen im WWW zum Thema »Hurrikan«. Gebt dabei für jede Suchmaschine das Wort sowohl kleingeschrieben (hurrikan) als auch in normaler Schreibweise (Hurrikan) ein. Sucht auch nach dem falschgeschriebenen Wort »hurikan«! Notiert für jede Suchmaschine die jeweilige Anzahl der Treffer in die Tabelle!

Beispiel für die Tabelle:

Treffer Fireball
(www.fireball.de)
Lycos
(www.lycos.de)
Hotbot
(www.hotbot.com)
hurrikan 1507 44 547
Hurrikan 1469 44 534
hurikan 18 6 72

Deutlich wird, daß die Suche ganz unterschiedliche Ergebnisse bringen kann; sowohl hinsichtlich der gefundenen Dokumente und natürlich auch deren Qualität. Deutlich ist zu erkennen, daß Fireball sehr viele Treffer liefert. Kein Wunder, denn dieser Dienst greift auf den gewaltigen Datenbestand von AltaVista zurück. Lycos liefert erstaunlich wenig Dokumente, was allerdings verständlich wird, wenn man weiß, daß diese Maschine vor allem nach dem Vorkommen des Suchbegriffs im Titel sucht. Lycos ermöglicht damit keine Volltextsuche im gesamten Dokument, bringt aber wahrscheinlich recht relevante Seiten zum Thema, die auch noch auswertbar sind, was man von den Ergebnissen bei Fireball und HotBot wohl nicht behaupten kann!

Die Ergebnisse machen auch solche Unterschiede deutlich, die sich bei der Verwendung von Großbuchstaben ergeben. In der Regel liefert die Suchmaschine bei kleingeschriebenen Begriffen mehr Treffer; es wird nicht zwischen Groß- und Kleinschreibung unterschieden. Im Beispiel werden Dokumente gesucht, welche die Worte hurrikan bzw. Hurrikan enthalten (ODER-Verknüpfung). Nutzt man dagegen Großbuchstaben, führen die Maschinen die Suche ausschließlich nach dem Wort Hurrikan durch.

Eindrucksvoll ist weiterhin, daß natürlich auch Dokumente mit dem falsch geschriebenen "hurikan" gefunden werden – die Maschinen beherrschen ja nicht die Rechtschreibung, sondern indizieren alles, was sie vorfinden! Interessant wird diese Thematik in einigen Jahren, wenn im WWW sowohl Dokumente mit "alter" und "neuer" Rechtschreibung zu finden sind. Sicherlich existieren dann Suchdienste, die sich eines Dudens bedienen, und bei Eingabe eines Wortes prüfen, ob dieses Wort auch in der "alten" Rechtschreibung in Dokumenten auftaucht.

Wortstamm- und Zeichenkettensuche

Nicht immer wird man bei der Eingabe von nur einem Wort die gewünschten Ergebnisse erzielen. Es kann zum einen sein, daß keine, sehr wenige oder nicht die richtigen Dokumente gefunden werden. Oder aber man erhielt zu viele Dokumente, die zeitlich überhaupt nicht ausgewertet werden können.

Wird zuwenig gefunden, kann man natürlich die Suchmaschine wechseln; in der Hoffnung, daß andere Roboter mehr WWW-Dokumente indiziert haben. Es gibt aber auch die Möglichkeit, daß der nicht gefundene Begriff in Dokumenten als Wortstamm von zusammengesetzten Wörtern auftaucht. Daher bieten die Suchdienste meist die Möglichkeit, Wörter mit sog. Wildcards einzugeben: Bei Eingabe des Wortstamms, gefolgt vom Stern (*), werden wesentlich mehr Dokumente aufgelistet. Wird im obigen Beispiel der "Hurrikan"-Suche bei Fireball als Suchbegriff Hurrikan* verwendet, werden 1862 "Treffer" angezeigt (das Wort "Hurrikan" alleine ergab 1469 Treffer).

Sehr oft muß die Suche jedoch eingeschränkt werden.

Die Fundstellen von Homonymen (Worte mit gleicher Schreibweise, aber unterschiedlicher Bedeutung) zu einem Wort werden von der Suchmaschine natürlich ebenfalls aufgelistet; das Programm kann ja nicht wissen, was wir wirklich suchen. Suchen Sie beispielsweise biographische Angaben über Sigmund Freud, so liefert die Suche mit Fireball 9077 Fundstellen, wovon sehr viele nichts mit dem Begründer der Psychoanalyse zu tun haben. Abhilfe schafft die Möglichkeit vieler Suchdienste, Begriffe aus mehreren Wörtern "zu klammern". Schreibt man den Begriff im Dialogfeld der Suchmaschine in Anführungszeichen, dann wird er als Zeichenkette behandelt. Der Retrieval-Algorithmus listet dann also die URLs der Dokumente auf, in denen diese Zeichenkette vorkommt; in unserem Beispiel ergibt die Suche nach der Phrase "Sigmund Freud" mit Fireball "nur" 1922 Treffer.

Suchen mit Boolescher Algebra

Die Boolesche Algebra ist als Zugriffstechnik ein weiteres klassisches Element des Information Retrieval. Drei Verknüpfungsarten von Suchbegriffen sind möglich:

UND (engl. AND) – Es wird auf Dokumente verwiesen, in denen beide Wörter vorkommen. Damit läßt sich die Trefferzahl erheblich einschränken.
ODER (engl. OR) – Es wird auf Dokumente verwiesen, in denen das eine oder das andere Wort vorkommt. Diese Verknüpfung ist z.B. bei Synonymen sinnvoll. Es werden natürlich mehr Dokumente angezeigt als bei Eingabe eines Wortes.
NICHT (engl. NOT) – Es wird auf Dokumente verwiesen, in denen das Wort – oder die Wörter – nicht vorkommt. Werden zuviel Verweise auf Dokumente zu einem anderen Thema angezeigt, läßt sich mit dieser Verknüpfung die Trefferzahl reduzieren.

Standardmäßig wird bei vielen Suchmaschinen (z.B. Fireball, Excite) die UND-Verknüpfung bei Eingabe von mehreren Wörtern verwendet. Für eine solche "Boolesche Suche" werden in der Dialogzeile des Suchdienstes die zu verknüpfenden Begriffe gemeinsam mit den großgeschriebenen Operatoren (getrennt durch Leerzeichen) eingegeben, beispielsweise:

Unterrichtsmaterial AND Biologie NOT Säugetiere

Die Suchmaschinen für den deutschen Sprachraum akzeptieren oftmals die deutschen Operator-Bezeichnungen (UND, ODER, NICHT). Um sicherzugehen, müssen die Hilfsinformationen der einzelnen Suchmaschinen gelesen werden. Am besten verwendet man daher die englischen Bezeichnungen (AND, OR, NOT).

Wegen des häufigen Gebrauchs dieser Verknüpfungen haben sich Abkürzungen etabliert: So wird das Plus-Zeichen "+" für die UND-Verknüpfung genutzt, das Minus-Zeichen "-" ermöglicht die NICHT-Verknüpfung. Die obige Suchzeile sieht damit so aus:

+Unterrichtsmaterial +Biologie -Säugetiere

Bei der "Booleschen Suche" sind ebenfalls logische Klammern möglich, z.B.:

(frühling OR frühjahr) AND (ostern NOT hase)

Manche Suchmaschinen bieten die Möglichkeit, die Suchoptionen grafisch zu definieren (vgl. Bild 6 mit der "Profi-Suche" bei Lycos)

Verfeinerte Suchverfahren

Die Boolesche Algebra ist zwar eine einfach zu implementierende Zugriffsmethode für Suchdienste, aber sie läßt nur begrenzte Suchmöglichkeiten zu, da lediglich drei Verknüpfungsarten möglich sind.

Roboterbasierte Suchdienste liefern oftmals viel zu große Suchergebnismengen. Um die relevanten Ergebnisse herauszufiltern, bedarf es daher weiterer Anstrengungen.

Deshalb versucht die Forschung in diesem Bereich neue Methoden und Verfahren eines verbesserten Information Retrieval zu entwickeln. Dazu gehört die Verwendung von

gewichteten Deskriptoren,
Clusteranalysen,
Relevanzfeedback-Verfahren und
Zitatanalysen.

Einige Verfahren sind schon in Suchdienste implementiert; deren Diskussion bietet gerade für den Informatikunterricht viele Anregungen.

Sortieren der Suchergebnisse --
Deskriptorengewichtung

Bei der Deskriptorengewichtung werden die in einer Datenbank enthaltenen Dokumente nicht wie bei der Booleschen Suche binär in zwei Mengen – relevante und nicht-relevante Dokumente – geteilt, sondern die nachgewiesenen Dokumente werden entsprechend ihrer abgeleiteten Relevanz (bestimmt durch die Gewichtung) für die Suchanfrage geordnet. Ranking ist die engl. Bezeichnung dafür – dieser Begriff taucht auch in der deutschsprachigen Literatur häufig auf.

Bei einer Suchanfrage erhält man oft Hunderte oder gar Tausende von Treffern – angezeigt werden meist aber nur die ersten zehn Ergebnisse (vgl. Bild 7). Zu den anderen Seiten mit Trefferangaben gelangt man über Verweise, die sich meist am Ende der Seite befinden. In welcher Reihenfolge werden nun die Suchergebnisse angezeigt? Warum stehen bestimmte Treffer vorn, andere weiter hinten? Was bedeutet eigentlich die Anzeige der Relevanz bei einigen Suchmaschinen?

In vielen Suchdiensten bewerten Algorithmen die Relevanz der gefundenen Adressen. Wie die Gewichtung gesetzt wird, kann durchaus unterschiedlich sein. Die folgende Aufgabe kann etwas Licht in das Dunkel bringen:

Aufgabe:
Ergebnis mit hoher Relevanz Fireball
(www.fireball.de)
Lycos
(www.lycos.de)
Häufigkeit des Begriffs    
Wo taucht der Begriff häufiger auf (Anfang/Ende)?    
Ergebnis mit niedriger Relevanz Fireball
(www.fireball.de)
Lycos
(www.lycos.de)
Häufigkeit des Begriffs    
Wo taucht der Begriff häufiger auf (Anfang/Ende)?    

Die Auswertung ergibt, daß sich die Suchdienste hinsichtlich des Ranking der Suchergebnisse unterscheiden. Bei Fireball, dessen Roboter ja den Volltext indiziert, wird auf Seiten zuerst verwiesen, die den Suchbegriff sehr häufig und weit vorn im Dokument enthalten. Lycos dagegen indiziert nur die ersten zwanzig Sätze in einer Datei, dazu die hundert häufigsten Worte. Hier muß also der Suchbegriff weit vorne im Dokument stehen, damit auf dieses Dokument an vorderer Position verwiesen wird.

Die Faktoren Ort des Suchbegriffs und Häufigkeit seines Auftauchens spielen für das Sortieren der Suchergebnisse eine entscheidende Rolle:

Das Vorkommen des Suchbegriffs in der Adresse (der URL) ist ein Indiz, daß es bei den Web-Seiten unter dieser Adresse vor allem um das gesuchte Thema geht; die Anzeige dieses Verweises ganz vorn macht sicherlich Sinn.
Web-Seiten, bei denen der Suchbegriff im Titel auftaucht, werden relevanter als andere eingeschätzt.
Suchmaschinen prüfen, ob die Begriff weit oben auf der Web-Seite stehen, etwa in einer Überschrift oder in den ersten Absätzen des Textes. Damit ist die Annahme verbunden, daß bei relevanten Seiten der Suchbegriff schon von Beginn des Textes an auftaucht.
Die Häufigkeit des Vorkommens des Suchbegriffes ist ein Hauptkriterium bei der Relevanzbestimmung. Web-Seiten, auf denen der Begriff häufig zu finden ist, werden im Vergleich mit anderen als relevanter eingeschätzt.

Im wesentlichen folgen alle großen Suchdienste diesen Regeln; aber wie in einer guten Küche machen erst besondere Zutaten aus einem einfachen Rezept eine kulinarische Spezialität. Ähnlich fügen auch Suchmaschinen den üblichen Orts- und Häufigkeitsregeln noch besondere Ingredienzien hinzu. Keine Suchmaschine macht es wie die andere, deshalb ergibt die gleiche Suchanfrage bei verschiedenen Suchdiensten unterschiedliche Resultate. Solche besonderen Zutaten sind unter anderem:

Unterschiede in Datenbanken: Die Suchdienste haben unterschiedliche Kollektionen von Web-Seiten indiziert. Daher müssen zwangsläufig die aufgelisteten Suchergebnisse voneinander abweichen.
Zitatanalyse: Die Popularität einer Web-Seite kann Teil der Relevanzbestimung sein. Anhand der Links kann die Popularität gemessen werden: Viele Verweise ("Zitate") von anderen Seiten auf diese Adresse werden als Qualitätszeugnis betrachtet. Ein Beispiel für diese Methode ist WebCrawler, der Suchergebnissen, auf die häufig verwiesen wird, einen "kleinen Schub" nach vorne gibt.
Zusammenarbeit mit Katalog: Hybride Suchdienste (die zusätzlich über Kataloge verfügen) können solchen Suchergebnissen einen Relevanzschub geben, die sich auch im Katalog finden lassen. Was wert war, in den Katalog aufgenommen zu werden, sollte auch bei der normalen Suche besonders berücksichtigt werden.
Auswertung von Meta-Tags: Meta-Tags (HTML-Befehle im Kopf einer Web-Seite zur Steuerung von Robotern) können Schlagworte zum Beschreiben des Inhalts einer Seite enthalten. Suchdienste wie Infoseek und HotBot berücksichtigen das Auftauchen der Suchbegriffe in den Meta-Tags mit einer höheren Relevanz.
Anti-Spamming: Suchdienste können aber auch Seitenverweise in der Relevanz nach hinten schieben oder ganz aus der Datenbank entfernen! Wenn beispielsweise ein Wort übertrieben häufig (einige hundertmal) in einer Reihe auftaucht, um durch die Worthäufigkeit "nach vorne" zu gelangen, wird diese Seite als sog. Spamming (engl.: Bezeichnung für unerwünschte Werbung) geächtet und wahrscheinlich nicht angezeigt.

ErweiterteRecherchemöglichkeiten

Trotz der vorher beschriebenen Möglichkeiten zur Bewertung der Relevanz von Suchergebnissen bleibt ein Problem bestehen: Die Suchmaschinen können die indizierten Begriffe nicht in inhaltliche Kategorien einordnen – Homonyme (Wörter mit gleicher Schreibweise, aber unterschiedlicher Bedeutung) werden also nicht auseinandergehalten. Es werden daher auch unsinnige Web-Seiten angezeigt, nur weil dort ein Homonym zum eigentlichen Suchbegriff auftaucht. Sucht man beispielsweise nach dem Begriff "Boxer", so listet Fireball die unterschiedlichsten Verweise auf (siehe Bild 8).

Hilfe bringen hier die Verfahren der Clusteranalyse, die die Dokumente nicht nur in einer linearen Rangfolge darstellen, sondern – ähnlich der konventionellen Klassifikation – in einer hierarchischen Ordnung zusammenfassen.

Im Gegensatz zu diesen beiden automatisch vorgehenden Retrievaltechniken bezieht das Relevanzfeedback-Verfahren den Benutzer explizit mit ein, indem es interaktiv von ihm Relevanzinformationen zu den nachgewiesenen Dokumenten erfragt. Aufgrund dieser Bewertungen wird dann eine neue, verbesserte Suchanfrage formuliert und durchgeführt.

Im folgenden sind einige Möglichkeiten dargestellt, um die Suche unter Ausnutzung der Such-Syntax zu verbessern bzw. eine interaktive Unterstützung bei der Formulierung der Suchanfrage zu geben.

Näheoperatoren

Viele Suchmaschinen bieten nicht nur die Möglichkeit, nach Phrasen zu suchen, die in Zeichenketten eingeschlossen werden, sondern sie finden auch Dokumente, in denen ein Suchbegriff in der Nähe eines anderen auftaucht. Dazu wird der Operator NEAR verwendet. Als Parameter für die Umgebung wird in der Regel die Anzahl der Wörter eingegeben, innerhalb derer die gesuchten Begriffe vorkommen müssen.

Sucheinschränkung auf Dokumenttypen

Nicht immer möchte man nur nach bestimmten Texten im Internet suchen. Da zunehmend multimediale Elemente im WWW verwendet werden, entsteht gerade für Lehrkräfte das Bedürfnis, nach Bildern und Grafiken zu suchen, um diese zur Unterichtsvorbereitung in Arbeitsblättern, Folien usw. zu verwenden. Ebenfalls lassen sich im Internet kostenfrei vorhandene Musik, gesprochene Texte oder Videos in vielen Fächern als Medien einsetzen.

Die Suche nach solchen multimedialen Inhalten ermöglichen einige Suchdienste ebenfalls.

Beispiele für Dokumenttypen und Suchmaschinen:

Bilder und Grafiken: AltaVista, HotBot, Infoseek, Kolibri, Lycos;
Töne: HotBot, Kolibri, Lycos;
Videos: HotBot.

Die Konfiguration der Suchmaschine erfolgt entweder über die Benutzeroberfläche (vgl. Bild 9) oder über Schlüsselwörter in der Dialogzeile.

Ein Beispiel für die Suche von Videos zu geografischen Themen in HotBot:

+feature:video geographie OR geografie

Die konkrete Syntax ist den Beschreibungen der Suchmaschinen zu entnehmen.

Sucheinschränkung auf Dokumentelemente

Wie schon erwähnt, führen nicht alle Suchmaschinen ausschließlich eine Volltextindizierung durch. Es ist bei einigen Diensten möglich, die Suche auf Elemente des Dokuments einzuschränken (z.B. auf den Titel, die URL). Die Sucheinschränkung erfolgt meist über Schlüsselwörter in der Dialogzeile; es werden wieder Beispiele für die Syntax von HotBot angegeben:

title:[Suchbegriff]Es werden Seiten gesucht, die den Suchbegriff im Titel des Dokuments enthalten.
domain:[Name]Die Suche wird auf die angegebene Domäne beschränkt. Die Spezifikationstiefe kann drei Ebenen umfassen (z.B.: .de, dbb.de, vbe.dbb.de).

Elemente wie Links oder Metadaten können ebenfalls gesucht werden, Beispiele für Suchmaschinen sind:

Für Links bzw. zitierte URLs: AltaVista, HotBot, Infoseek, WebCrawler);
Metadaten: Fireball (vgl Bild 10).

Filterung nach Datum oder Sprache

Bei der Suche im Internet wird man immer wieder mit unaktuellen Dokumenten konfrontiert, etliche Web-Seiten werden leider nicht gewartet. Deshalb ist es nützlich, bei der Suche nach aktuellen Inhalten eine Datumseinschränkung vornehmen zu können. Umgekehrt kann es natürlich auch interessant sein zu sehen, was vor einem bestimmten Datum zum Thema im Web existierte. Die entsprechende Syntax macht diese Sucheinschränkung möglich (Beispiel HotBot):

after:[Tag]/[Monat]/[Jahr]Suche von Dokumenten, die nach dem angegebenen Datum erstellt oder geändert wurden.
before:[Tag]/[Monat]/[Jahr]Suche von Dokumenten, die vor dem angegebenen Datum erstellt oder geändert wurden.
Beispiel: "Bundestagswahl" AND after 27/09/98

Auch eine Einschränkung der Sprache ist sinnvoll; so erlaubt AltaVista die Sprachauswahl aus einer Liste. Andere Suchmaschinen haben regionale Ableger (z.B. Yahoo, Lycos, Excite).

Interaktive Frageerweiterung und Frageeinschränkung

Bei den vorigen Beispielen ließ sich die Suche durch die Suchmaschinen-Syntax auf Dokumenttypen usw. einschränken. Es gibt darüber hinaus bei etlichen Suchmaschinen auch die Möglichkeit, interaktiv eine Erweiterung bzw. Einschränkung der Suche vorzunehmen. Beispielsweise bietet der deutsche Suchdienst Kolibri eine sog. "Fuzzy-Suche" (übersetzbar als "Unschärfe-Suche"): Nach Eingabe des Suchwortes (im Beispiel "Mozart") wird der Datenbestand auf entsprechende Wortzusammensetzungen geprüft; die Ergebnisse werden angezeigt (vgl. Bild 11, vorige Seite). Jetzt kann eine Sucheinschränkung vorgenommen werden, indem der interessanteste Begriff mit der Maus ausgewählt wird; nach entsprechenden Dokumenten sucht dann die Maschine. Diese "Fuzzy-Suche" ist ein gutes Beispiel für das oben angeführte Erkundungs-Paradigma (Wiedererkennen ist leichter als Beschreiben).

Suche in Ergebnisgruppen (Clustering)

Noch weiter gehen Dienste, die eine grafisch unterstützte Einschränkung der Suche auf Quellen, Sprachen, Themen usw. bieten. Im Suchdienst Northern Light (siehe Bild 12) ist eine entsprechende Auswahl recht komfortabel möglich. Die Ergebnisse werden in Gruppen (Cluster) zusammengefaßt und können daher sofort nach der individuellen Relevanz recherchiert werden. Bild 13 zeigt die Ergebnisgruppen der Suche nach Unterrichtsmaterial zum Thema "Mozart" in den Themenbereichen Arts, Education und Entertainment.

Begriffs-Suche

Der Suchdienst Excite bietet eine ähnliche Möglichkeit, nach Dokumentverweisen zu gleichen Begriffsgruppen zu suchen. Aus den vom Roboter gefundenen Dokumenten und Begriffen wird bei Excite eine Matrix aufgebaut, die z.B. folgendes Aussehen haben könnte:

  Dokument 1 Dokument 2 Dokument 3 Dokument 4
...        
film   x   x
filou        
filter        
...        
movie x x    
möwe     x  

Die Dokumente werden nach Gruppen mit einem ähnlichen Profil zusammengestellt, d.h. mit der Markierung an der gleichen Stelle. Werden in unserem Beispiel nun Dokumente zum Thema "film" gesucht, würden in einer "normalen" Maschine nach dem reinen Matching-Paradigma nur die Dokumente 2 und 4 angezeigt. Da aber Dokument2 als weiteren Begriff "movie" enthält, wird zusätzlich auch das Gruppenmitglied Dokument1 angezeigt, das sonst "durch das Sieb gefallen" wäre. Ein praktisches Beispiel ist in Bild 14 (nächste Seite) am Beispiel der Suche nach Dokumenten zum Thema Datenschutz dargestellt. Die Suche kann durch Markieren der möglicherweise ebenfalls relevanten Begriffe, auf die man zunächst nicht kam, verfeinert werden. Matching- und Erkundungs-Paradigma sind also bei dieser Suche eng verbunden.

Mit dieser Begriffs-Suche lassen sich die Probleme mit Homonymen und Synonymen schon recht gut lösen.

Dienste rund ums Suchen

In den letzten Jahren buhlen sehr viele Suchdienste um die Gunst der WWW-Surfer. Einige werden zu Forschungszwecken betrieben, viele arbeiten aber auch auf kommerzieller Ebene. Solche Dienste finanzieren sich durch die sog. Bannerwerbung bzw. durch Gebühren, die für die Eintragung eines Verweises im Katalog oder an besonders exponierter Stelle entrichtet werden muß. Um nun immer wieder Besucher anzulocken, muß man sich schon etwas einfallen lassen. Daher findet man in den Suchdiensten neben der einfachen Suchfunktion teilweise interessante und auch im Unterricht verwertbare Dienste.

Vergleich der Verfahren

Die Erfolge dieser Verfahren sind im praktischen Einsatz, wo die Datenbasen wesentlich größer sind als bei den getesteten Datenmengen, durchaus kritisch zu beurteilen. Ein Problem ist der Nachweis bzw. die Messung einer effektiven Verbesserung der Suchergebnisse mit Hilfe solcher Verfahren im Rahmen einer Kosten-Nutzen-Analyse, da ja technisch wesentlich leistungsstärkere Ressourcen notwendig sind.

Daher finden sich diese Techniken bis heute vorwiegend in mehr oder weniger experimentellen Systemen und werden nur langsam von kommerziellen Informa- tionsanbietern übernommen.


Meta-Suchdienste

Es ist deutlich geworden, daß man eine Reihe von Suchdiensten bemühen muß, um relevante Ergebnisse zu erhalten, da auch die besten Dienste nur einen Ausschnitt der wirklich verfügbaren Informationsquellen liefern.

Eine Studie am NEC-Forschungsinstitut in Princeton, New Jersey (vgl. Sander-Beuermann, 1998) belegt, daß das Suchen im Internet mehr einem Stochern im Nebel denn einer systematischen Suche gleicht. Es wurden sechs bekannte Suchmaschinen untersucht, die folgende Anteile des WWW abdecken:

HotBot 34%
AltaVista 28%
NorthernLight 20%
Excite 14%
Infoseek 10%
Lycos 3%

Problematisch ist weiterhin, daß in der praktischen Anwendung die Suche wohl nach Benutzung des dritten oder vierten Suchdienstes aus Zeit- und Kostengründen beendet würde.

Paralleles Suchen in Suchdiensten

Einen Ausweg aus diesem Dilemma bieten die sog. Meta-Suchdienste (auch MetaCrawler genannt). Solche Dienste liefern die Suchanfragen zur parallelen Bearbeitung an einzelne Suchdienste weiter. Sie sammeln deren Ergebnisse und präsentieren sie in einer geeigneten Form. Ein großer Vorteil dieses Verfahrens ist, daß man nicht die relevantesten Treffer nur einer Suchmaschine erhält, sondern aus mehreren Suchmaschinen die relevantesten Treffer herausgezogen werden. Kombiniert man also die Ergebnisse der sechs zitierten Suchdienste, ergibt sich eine 3,5mal bessere Abdeckung als bei Benutzung eines einzelnen Dienstes.

Ist allerdings eine Anfrage komplex oder sehr spezifisch, empfiehlt sich die Benutzung nur einer Maschine, da die Meta-Suchdienste in der Regel nur die Stan- dardsuche bei einer Maschine anstoßen. Beispiel für eine Meta-Suchmaschine für deutschsprachige Dokumente ist MetaGer (Adresse: http://meta.rrzn.uni-hannover.de/). Bild 15 zeigt die Ergebnisse einer Suche mit diesem Dienst.

Allerdings wird das Problem der unüberschaubaren Dokumentenmengen durch Meta-Dienste eher verschärft als entspannt, denn die Ausgabelisten werden länger, aus denen man relevante Treffer herauspicken muß. Eine Lösung werden hier für die Suche in einem bestimmten Themengebiet mittelfristig sog. Level3-Suchmaschinen bieten (vgl. Sander-Beuermann, 1998). Im Bild 16 (nächste Seite) ist die Wirkungsweise einer solchen Maschine dargestellt: Eine Maschine zweiter Ordnung (Meta-Suchdienst) fragt eine Maschine erster Ordnung ("normaler" Suchdienst) nach Adressen zum Thema. Die Ergebnisse durchlaufen eine Relevanz- filterung; mit den danach verbliebenen Adressen wird eine neue Suchmaschine (Level3) gefüttert, die später abgefragt werden kann. Wichtig ist hierbei, daß solche Level3-Maschinen nicht ohne menschliches Zutun aufgebaut werden können. Es müssen Stichworte zur Beschreibung des Themengebietes formuliert werden, auch die Relevanzfilterung wird durch Experten des jeweiligen Fachgebiets erfolgen müssen.

Suchen von Suchmaschinen

Einen Schritt in die Richtung fachthematischer Eingrenzung beim Suchen bieten Meta-Suchmaschinen, die Anfragen nicht nur an die allgemeinen Suchdienste (wie AltaVista etc.) weiterleiten, sondern ebenfalls fachspezifische Suchdienste registriert haben, die abgefragt werden können. Repräsentanten solcher Dienste sind:

I-Sleuth: www.isleuth.com
Beaucoup: www.beaucoup.com

In Bild 17 ist am Beispiel einer Suchanfrage zu einem physikalischen Thema zu erkennen, daß zunächst interaktiv das Themengebiet eingegrenzt wird. Hat man dann einen relevanten Suchdienst gefunden, kann dort die eigentliche Anfrage gestartet werden.

Zur Unterrichtsvorbereitung für spezielle Themen eignen sich diese Dienste, um eine fachspezifische Suchmaschine bzw. Datenbank zu finden, die in der Regel relevantere Ergebnisse liefert als ein allgemeiner Suchdienst. Im Rahmen der informatischen Bildung sollten solche Dienste ebenfalls behandelt werden, denn sie helfen den Schülerinnen und Schülern zeit- und damit kostensparend an Material zu kommen. Der Umgang mit ihnen vermittelt wesentliche Erkenntnisse und Fertigkeiten, um sich in der Informationsflut unserer Zeit zurechtzufinden.


Dienste rund ums Suchen

Dolmetscher online

Nehmen wir an, daß Sie im Physikunterricht James Watt behandeln und zur Unterrichtsvorbereitung nach Informationen über den Erfinder der Dampfmaschine suchen.

Sie haben eine interessante Seite gefunden, leider aber in einer von Ihnen nicht beherrschten Sprache. Kein Problem, zumindest wenn an eine Rohübersetzung keine allzu hohen Anforderungen gestellt werde. Denn beispielsweise bietet Alta Vista einen Übersetzungsdienst an (Bild 18, vorige Seite), dem die URL der zu übersetzenden Seite mitgeteilt wird – prompt wird die Übersetzung der Seite durchgeführt (vgl. Bilder 19 und 20).

Dem System kann übrigens auch online ein Text eingegeben werden, der dann ebenfalls übersetzt wird.

Live-Suche und Suchstatistik

Nach welchen Themen in den Maschinen gerade gesucht wird, kann man beispielsweise bei Fireball in der sog. Live-Suche erfahren (www.fireball.de, vgl. nachfolgenden Beitrag). Alle 30 Sekunden werden die Suchworte und Verknüpfungen angezeigt; selbstverständlich aus Datenschutzgründen ohne Personenbezug.

Die Suchdienste führen auch Statistiken, nach welchen Themen am häufigsten gesucht wird. Diese Information sind für Informationsanbieter im WWW wichtig, um kundenorientiert Inhalte bereitzustellen. Unter der Adresse http://www.fireball.de/qstat.html können die 100 häufigsten Suchbegriffe des Vortages bei Fireball eingesehen werden.


Ausblick

Die in diesem Beitrag beschriebenen Systeme können noch nicht "der Weisheit letzter Schluß" zur Informationssuche im WWW sein. Sie decken nicht die verfügbare Informationsmenge ab und liefern zu häufig irrelevante Verweise.

Neue Entwicklungen deuten sich bereits an: So werden sog. Intelligente Agenten autonom und angepaßt an die Benutzerwünsche im Internet nach Informationen suchen. Die gefundenen Seiten werden von ihnen auf Relevanz geprüft und ggf. lokal abgespeichert, um einen kostengünstigen und schnellen Zugriff zu gewährleisten.

Es laufen ebenfalls bereits Forschungen, die darauf gerichtet sind, Topologien oder Informationslandschaften herzustellen, in denen man sich von Knoten zu Knoten bewegt, um die gewünschten Dokumente zu finden. Dazu müssen die Dokumente inhaltlich und formal beschrieben werden. Ein bekannter Ansatz für solche Topologien ist unter der Bezeichnung "Ingrid" gegenwärtig in der Diskussion.

In der nächsten Zeit werden wir es mit neuen Suchwerkzeugen zu tun bekommen, die uns – hoffentlich – sicher durch den Informationsozean geleiten und bei der Entdeckung von neuen Wissens-Kontinenten helfen werden.


Jürgen Müller
DBB Akademie
Am Karlsbad 11
10785 Berlin

E-Mail: j.mueller@b.dbbakademie.de


Literatur

Oehler, A.: Erweiterte Recherchemöglichkeiten im WWW.WWW: http://userpage.fu-berlin.de/~angela/bak1097/praes.htm
Sander-Beuermann, W.: Findemaschinen Level3. In: DFN-Mitteilungen. Heft 47, Juni 1998, S. 10-11.