Semantische Suche: Alte und neue Methoden der Online-Recherche (Teil1)

Berechenbare-Analytik von Wortbedeutungen (Semantik) strukturiert Online-Recherchen und Ergebnisauswertung gestalten sich effizienter durch semantische Suchverfahren

Das Durchforsten von Suchmaschinen-Ergebnislisten nach inhaltlich verwertbaren Informationen gerät schnell zum Geduldsspiel. Semantische Suchmethoden können Online-Recherchen zeitlich verkürzen und dabei die Ergebnisauswertung inhaltlich optimieren. wie Online-Recherchen bei konventionellen Suchmaschinen wie Google, Yahoo, MSN dagegen liefern häufig zu viele Resultate.

Die Ergebnisflut macht es Online-Rechercheuren kompliziert, verwertbare Informationen ausfindig zu machen.

Linguistische Grundlage des semantisches Verfahren
Das Verfahren der Bestimmung von Inhalten durch Erfassung der Bedeutungsschichten (Angabe von bedeutungsrelevanten Wörtern) ist aus der Linguistik (Sprachwissenschaft) bekannt und thematisiert, dass die Bedeutung (Funktion) von Texten durch Annotation der Inhalte beschreibbar ist.

Mit der Annotation von Webtexten verbindet sich die Vorstellung, die Qualität von Online-Recherchen zu optimieren, d.h., die Auswertbarkeit von Suchanfragen effizient und zeitlich kürzer zu gestalten.

Neue Methodik: Annotieren von Webinhalten
Zum Zweck des Annotierens von Webdokumenten liegen zwei Sprachen und mehrere Softwareanwendungen vor. RDF (Resource Description Framework) und OWL (Web Ontology Language) sind zwei Beschreibungssprachen für Webdokumente.

Mit einem Webeditor wie Protege-OWL können Sie für Ihre Website eine Ontologie erstellen und für semantische Suchen qualifizieren. Das ist aber nur dann zweckmäßig, wenn Sie eine Suchmaschine benutzen, welche die Auswertung von Ontologien unterstützt.

Die Erstellung des Bedeutungsrahmens, der Ontologie zu Webinhalten gestaltet sich   recht zeitaufwändig und kann präzise nur von Themenkennern /Nomenklatur-Autoren durchgeführt werden.

Ontologien in Webseiten integrieren
SHOE (Simple HTML Ontology Extensions) ist eine Sprache, um in Webseiten eine Bedeutungsschicht einzubinden. Die SHOE-Sprache ist zu sehen als ein Vorläufer   eines inhaltlich organisierten World Wide Web.

Um Ontologien in Webseiten darzustellen, stehen zwei Vorgehensweisen zur Auswahl. Es kann ein „Knowledge Annotator“ verwendet werden, um Webseiten mit Bedeutungen zu beschreiben (Implementierung einer Ontologie), ohne den HTML-Code inhaltlich zu verändern. Mit dem „Knowledge Annotator“ wird ein JAVA-Applet erstellt, das in den HTML-Code eingebunden ist. Der Informationsmaterial und Download des „Knowledge Annotator“ bietet der SHOE Knowledge Annotator

Die zweite Möglichkeit besteht durch die Einbindung von SHOE-spezifischen Tags in eine Webseite. Zu diesem Z weck bietet die Sprache mehrere Tags, unter deren Verwendung eine Bedeutungsschicht in Webseiten einzutragen ist.

[adcode categories=“computer“] Höhere Recherchequalität durch semantische Suchverfahren
Hinter semantischen Suchverfahren stehen mathematische Theorien, die das Suchwort als eine Ansammlung von Bedeutungen analysieren. Mehrere Bedeutungen verweisen in gewisser Weise auf das Suchwort.

Beispiel: Das Suchwort „Einfamilienhaus“ lässt sich beschreiben durch Bedeutungen wie „Wohnung“, „Veranda“, „Vorgarten“ usw.

Eine Ansammlung von Bedeutungen indiziert faktisch das Suchwort, ohne dass es genannt zu werden braucht. Ein Suchwort, ein Begriff, eine Information wird beschreibbar, indem sich mehrere Bedeutungen zueinander ergänzen. Das ist ein deutlich intensiveres Verfahren, als wenn mehr oder weniger frei empfundene Begriffe den Inhalt von Webseiten zu beschreiben suchen (z. B. in Form von Meta-Tags oder http-Kopfdaten).

Vorteil: Bei einer semantischen Suche steht, unter Hinzuziehung von Bedeutungen, ein dem Suchwort konformer Bedeutungsvorrat zur Verfügung, der das recherchierte Thema weit enger fokussieren lässt, als durch Angabe von Meta-Tags bzw. HTTP-Kopfdaten.

Kurze Geschichte der semantischen Suche
Die inhaltliche Beschreibung der Informationen im Internet ist seit vielen Jahren das Projekt von Tim Berners-Lee, dem Direktor des W3C-Consortiums (World-Wide-Web-Consortium). Das semantische Web (Semantic Web) basiert auf der Vorstellung, die Gesamtheit der Inhalte (Contents), die über das Internet verwaltet werden, für Computer identifizierbar zu machen.

Berners-Lee’s Vorstellungen zielen auf die Lokalisierung allen Wissens im Internet durch Methoden, an denen Wissenschaftler der Künstlichen Intelligenz (KI) seit Jahren forschen. Wenn alles Wissen im Internet auf seine Bedeutungen, auf seine semantischen Grundlagen, zurück geführt werden könnte, dann würden   Elektronenhirne (Computer) in die Lage versetzt sein, Bedeutungen autonom aufzuzeichnen (zu verstehen) und humanes Wissen zu reproduzieren, ohne menschlichen Eingriff.

Ganz so einfach und schnell passiert es nicht. Auch wenn in die Websphäre eine Bedeutungsschicht über Ontologien eingezogen werden kann und damit dem Übergang von Web 2.0 zu Web 3.0 der Weg geebnet scheint, wird es Jahre dauern, bis eine semantische Darstellung aller Inhalte im Internet sich durchgesetzt hat.

Auf vielen Gebieten sind Ansätze zu einer semantischen Darstellung von Inhalten im Internet vorhanden, aber das Meta-Tag-Schemata für die inhaltlich Beschreibung von Webseiten hat lange noch nicht ausgedient.

Meta-Tags beschreiben Webseiten
Metadaten werden in die Kopfzeile von Webseiten eingetragen, um sie inhaltlich zu beschreiben. Die Regularien für die Inhaltsbeschreibung von Webseiten sind vom Dublin Core (Dublin Core Metadata Initiative (DCMI) erfasst. In Entwicklung ist ein Modell, das erlaubt, die Syntax von Metadaten in RDF lesbare Syntax darzustellen, RDF (Resource Description Framework). RDF ist ein Modell zur Beschreibung von Metadaten, das vom W3C favorisiert wird, um Webinhalte zu beschreiben. Eine Ressource (ein Webinhalt) ist als ein Objekt definiert, eine Information, die durch einen URI (Uniform Resource Identifier) beschrieben ist.

Wer hat nicht schon Webdesignern Meta-Tags angeben müssen, die eingefügt in die Kopfzeile von HTML-/XML-Seiten darin enthaltene Inhalt beschreiben?   Konventionelle Suchroboter erfassen Webseiten über Meta-Tags und übermitteln sie an Suchwort-Indexdatenbank der Suchmaschine.

Aus dem Ozean von Index-Einträgen und gezählten Seitenaufrufen (Page-Ranks) erstellt Google seine Suchbäume.  

Dass das Konzept der Webseitenbeschreibung durch Meta-Tags in die Jahre gekommen ist, erkennt  jeder, der Online-Recherchen unternimmt. Zunehmend komplizierter wird es, verwertbare Informationen unter der flutenden Ansammlung aus Pseudo-Werbung, naiven Blog-Anfragen und anderen Zeiträubern aufzufinden.

Auch prominente Betreiber wie Google, Yahoo, oder Microsoft haben mittlerweile erkannt, dass lange gehegte und global genutzte Suchmaschinentechnologien allmählich verdrängt werden. Denn es vollzieht sich Schritt für Schritt ein Motivationswechsel vom Meta-Tag-Schema zu einem semantischen Web. Erste Ansätze, die eine höhere Qualität von Suchmaschinenabfragen erwarten lassen, sind bereits vorhanden.

Beispiel: Benutzerdefinierte Suche bei Google

Google bietet registrierten Benutzer die „benutzerdefinierte Suche“ an. Als „Standard Edition“ ist sie kostenlos, als „Premium Edition“ zahlen Unternehmenskunden   ab 100 Dollar jährlich. Dafür bietet Google ein optimiertes Suchverfahren, dass auf der Vorgabe bestimmter Websites,, Indexierung und Synonymverwaltung basiert.

Meta-Tags in der Praxis
Die vielfach angewendete, aber veraltete Methode der Beschreibung von Webseiten durch Meta-Tags und Http-Kopfdaten geschieht manuell durch Webdesigner bzw. Webseiten-Autoren.

Diese Autorisierung der inhaltlichen Beschreibung von Webseiten führt auch eine heute noch zu Misshandlungen und Missverständnissen. Um zu erreichen, dass Seiten bei Suchmaschinen möglichst höher gelistet (‚gerankt‘) werden, manipuliert man Meta-Tag-Angaben im HTML-Code von Webseiten. Man gibt nicht inhaltlich passende, sondern Meta-Tags ein, die ein höheres Suchmaschinen-Ranking erwarten lassen.

Web 3: Automatische Erfassung der Bedeutung von Webseiten-Inhalten
Im semantischen Web, das auch unter dem Titel „Web 3“ publiziert wird, sollen Manipulationen von Webseiten der Vergangenheit angehören. Im Zeitalter des semantischen Webs werden maschinelle Mathematik-Boliden, genannt Computer, selber in die Lage versetzt sein, von einer jeden Webseiten die Bedeutung (Semantik) von Informationen automatisch zu erfassen. Webseiten sollen nicht länger durch eine unstrukturierte Ansammlung von Begriffsworten beschrieben werden, sondern durch Beschreibungen, die miteinander in Beziehung stehen und eine Bedeutung bilden.

Beispiel:

  • Gibt man in eine Suchmaschine „Computer“ ein, findet man ein Durcheinander von Bezügen, in denen das Suchwort enthalten ist.
  • Bei einer semantischen Suche ist eine „Ontologie Voraussetzung. Die Ontologie enthält Wörter, Begriffe, die auf das Suchwort, in diesem Fall „Computer“ verweisen, also Begriffe wie „Mainboard, DIMM-Speicher“ oder „Ethernet-Karte“.

SHOE-Tags:
<ONTOLOGY>, </ONTOLOGY>, <USE-ONTOLOGY>, <DEF-CATEGORY>, <DEF-RELATION>, </DEF-RELATION>, <DEF-ARG>, <DEF-RENAME>, <DEF-CONSTANT>, <DEF-TYPE>, <DEF-INFERENCE>, </DEF-INFERENCE>, <INF-IF>, </INF-IF>, <INF-THEN>, </INF-THEN>, <COMPARISON>, </COMPARISON>, <CATEGORY>, <RELATION>, </RELATION>, <ARG>.

Unter Verwendung der SHOE-Sprache können Instanzen und Relationen definiert werden, die eine exakte Beschreibung der Inhalte (des Contents) von Webseiten zulassen.

Zeitliche Entwicklung und Ausblick
In einer Diskussion 2006 zwischen Repräsentanten von Google und Tim Berners-Lee ging es um das voranginge Problem, wie Internet-Nutzer dafür zu gewinnen seien, mittels der Erstellung von Ontologien Bedeutungsschichten in Webseiten einzuziehen. Google kritisierte damals den Ansatz zu einem maschinell arrangierbaren Internet der Bedeutungen. Die komplizierte Technologie, mit ihrem Bezug zur künstlichen Intelligenz-Forschung (KI) spräche diejenigen an, die aus semantischen Verfahren moderner Wissensrepräsentation konkrete Vorteile ziehen. Ausblick auf Teil II

Was 2006 galt, gilt auch 2009. Es gibt zwar vereinzelte Ansätze, die Suchmaschinensuche semantisch zu reformieren. In Teil II werden neue Suchmaschinen auf semantischer Basis, wie Bing, Semager, aber auch Unternehmenslösungen wie Conweaver oder das deutsche Theseus-Projekt vorgestellt. Wozu semantische Suche heutzutage bereits fähig ist und die Zukunft erwarten lässt, demonstriert eindrucksvoll die Suchmaschine Wolfram Alpha.

Ausblick auf Teil III Welche Vor- und Nachteile Googles „benutzerdefinierte Suche“ im Vergleich zu semantischen Suchmethoden hat, wird in Teil III erläutert.