Wie Ontologien in die Welt kommen? (2/3)
Thomas Hoppe, Sonntag, 20. April 2008Könnte man nicht Verfahren nutzen, die Begriffe einer Dokumentenmenge “clustern” (in Gruppen einteilen), um aus diesen Gruppen dann Zusammenhänge zwischen den Begriffen zu ermitteln und daraus etwas “Ontologie-ähnliches” zu konstruieren?
So ein Clustern geht in zwei Fällen halbwegs gut:
- Entweder sind die Dokumente sehr inhomogen (wie es im Internet der Fall ist, wo ein Begriff sowieso in unterschiedlichen Kontexten auftreten kann), dann bringen solche Cluster etwas Ordnung ins Chaos (siehe z.B. linke Spalte von Clusty). Man sieht ihnen aber gleich an, dass sie mechanisch konstruiert wurden und beispielsweise Internetdokumente nicht nur nach Inhalt, sondern auch anhand der Sprache clustern.
- Oder die Dokumente sind sehr homogen, dann kann ein “maschinelles Lernverfahren” sie in sehr gut beschreibbare Gruppen zerlegen.
Wir haben das mal bei einer Menge von Firmenbeschreibungen aus Yahoo gesehen, bei denen ein Lernverfahren sehr klare Cluster erzeugt hat. “Wunderbar” dachten wir, “das wenden wir mal auf Stellenanzeigen an !”. Ergebnis: totaler Fehlschlag, da die Inhalte von Stellenanzeigen in dreierlei Hinsicht nicht homogen sind:
- Stellenanzeigen enthalten Abschnitte mit unterschiedlichen Inhalten: Stellenbezeichnung, Beschreibung des Unternehmens, Aufgabenbeschreibung, Erforderliche Qualifikationen, Kontaktinformationen, usw.
- Manchmal sind diese Informationen in die Selbstdarstellung eines Personalvermittlungsunternehmens und dessen Kontaktinformationen eingebettet.
- Unterscheidet sich der Stil von Anzeige zu Anzeige
Was daraus resultiert sind dann Gruppen die sich nicht mehr in Worten beschreiben lassen und denen man förmlich ansieht, dass es sich um Artefakte (äh sorry, Kunstprodukte) handelt.
Das geht also auch nicht. Im nächsten Teil gucken wir dann mal, ob “social tagging” helfen kann …


Vorheriger Beitrag

