Ontonym - passendes einfach finden

SAPs Technologie

Thomas Hoppe, Freitag, 14. November 2008

Bei der Überarbeitung einer Modellierung sind wir bei Begriffen aus der SAP Welt auf Lösung oder Komponenten – wie auch immer - für People Integration :-) und Student Lifecycle Management :-) gestolpert.

Nein, da geht es nicht um eine neue Form von “Human Compute Interface” oder um “Lebensberatung”, dass sind schlichtweg Komponenten des HR-Moduls.

Einen Kommentar schreiben »

Identifikation von fachsprachlichen Begriffen

Thomas Hoppe, Dienstag, 4. November 2008

Da habe ich gerade eine Besucherin auf meinem Xing-Profil gesehen und gleich im ersten Beitrag stoße ich auf etwas Interessantes (guckst du hier). Das sieht so aus als wenn es Ansätze zur Identifikation von fachsprachlichen Begriffen gibt. Ich frag mich, wie sowas ohne Hintergrundwissen gehen soll, dass müssen wir uns jedenfalls mal näher ansehen. Am besten ich frag gleich mal nach.

Einen Kommentar schreiben »

ESTC 2008 und Ontologie Lernen

Thomas Hoppe, Montag, 6. Oktober 2008

Vor rd. 1 1/2 Wochen war ich auf der ESTC 2008 und habe mich mit Peter Jackson unterhalten, der Lernverfahren bei Thomson-Reuters einsetzt, um Instanzmuster aus Dokumenten zu lernen. Ich hab ihn gefragt, ob er ein Argument für mich hätte, mit der ich die Annahme wiederlegen kann, dass man Taxonomien erlernen könnte. Ihm ist klar das es prinzipiell nicht gehen kann, aber er wusste auch kein Argument, seine Erwiederung wäre “ok, try to construct it yourself” :-)

Ich hab dann übers Wochenende ein wenig in dem Buch “Ontology Learning for the Semantic Web” von Alexander Maedche gestöbert. Ich dachte ich könnte darin eine Aussage über die prinzipielle Lernbarkeit von Ontologien finden. Fehlschlag. Es wäre ja auch zu schön gewesen in einer Dissertation über das “Erlernen von Ontologien” eine Aussage gegen deren Lernbarkeit zu finden. Wer würde sich schon auf dieses Glatteis wagen.

Die Verfahren von Maedche funktionieren sicherlich. Auf jeden Fall in dem begrenzten Kontext der durch die Anwendungsbeispiele aufgespannt wird und sicher auch darüber hinaus in den von ihm untersuchten Anwendungsfällen. Ob sie aber auf jede Anwendungsdomäne übertragbar sind wage ich dennoch zu bezweifeln. Beispielsweise fiel mir auf, dass es keine Aussage über das Erlernen von Synonymen gab. Die Beispiele vermittelten auch eher das Gefühl von akademischen Beispielen.

Einen Kommentar schreiben »

Ende der Ferienzeit

Thomas Hoppe, Samstag, 9. August 2008

Seit Ende Juni ist uns beim Modellieren nix interessantes untergekommen. Erst im Urlaub hab ich wieder mal was Interessantes entdeckt. Ein Wort mit zwei Lesarten:

Rohrohrzucker

Oder sollte es

RohrOhrzucker

gelesen werden ?

Ich stelle gerade fest, das man Zucker ja auch noch anders interpretieren kann ;-)

Für uns Menschen ist klar, dass nur die erste Lesart in Betracht kommt. Mich würde mal interessieren, was linguistische Verfahren benötigen, um 1) alle Lesarten zu finden und 2) die erste Lesart als die Wahrscheinlichste zu identifizieren ? Ich vermute ein einfaches Dictionary reicht da nicht aus.

Einen Kommentar schreiben »

Wie Ontologien in die Welt kommen ? (3/3)

Thomas Hoppe, Donnerstag, 26. Juni 2008

So nun kommt endlich der lange versprochene dritte Teil der Trilogie. Offen war ja die Frage ob “social tagging” helfen kann eine Ontologie zu konstruieren.

Unter “social tagging” versteht man, kurz zusammengefasst, die Verschlagwortung von Benutzer generierten Inhalten durch Benutzer. Die dabei entstehenden Systeme von Schlagwortmengen werden als “folksonomy” bezeichnet.

Nun kann man ja auf die Idee kommen, diese Schlagwortmengen einfach als Input für ein automatisches Cluster-Verfahren (Sie erinnern sich doch noch an den Folge II der Trilogie ?) zu verwenden. Aber auch hierbei steht man vor dem Problem, dass sich die einzelnen Schlagwortmengen unterschiedlicher Benutzer nicht nur von der Menge her unterscheiden, sondern – und das macht es dann problematisch – sie können auch Ontonyme enthalten.

Zu abstrakt ? Na dann machen wir mal ein Beispiel: In einem Web 2.0 Online-Recruiting System  dürfen Benutzer Stellenanzeigen verschlagworten (ob sowas Sinn macht, sei jetzt mal dahingestellt). Benutzer A vergibt für eine Anzeige in seiner Schlagwortmenge den Begriff “Fertigungsleiter” und Benutzer B den Begriff “Produktionsleiter”. Bei einer anderen Anzeige vergeben beide Benutzer denselben Begriff, während Benutzer C den Begriff “Leiter Fertigung” vergibt.

Offensichtlich hängt die “Tagging-Qualität” sehr stark von der Sichtweise der Benutzer, deren Srachgebrauch und ihrer Tagesform ab. Und damit haben dann automatische Cluster Verfahren auf solchen Mengen genau dasselbe Problem wie bereits in Folge II beschrieben.

Hier hör ich dann die Vertreter der automatischen Verfahren einwenden “wenn die Datenbasis groß genug ist niveliert sich das aus statistischen Gründen weg”. Stimmt schon, nur fallen damit dann auch die Begriffe im “long tail” unter den Tisch. D. h. einige Schlagworte können nicht als Ontonyme identifiziert werden, die es Wert wären und bei einer Suchanwendung, würden nicht alle passenden Anzeigen gefunden werden.

Gut, dann lassen wir die Benutzer die Begriffe doch einfach selber anordnen und clustern ? Sowas bietet beispielsweise humanGrid an. Dort werden sogenannte click-worker engagiert, um solche Aufgaben durch kollektive Intelligenz zu erledigen und auch noch die Qualitätssicherung zu betreiben.

Ja und damit sind wir dann wieder beim manuellen Aufbau der Ontologien gelandet.

Einen Kommentar schreiben »

Definition “Ontonyme”

Thomas Hoppe, Mittwoch, 11. Juni 2008

Jetzt haben wir durch die Gründung von Ontonym und den parallelen Abschluß unseres ersten Kundenauftrags lange Funkstille auf diesem Kanal gehabt.

Ich hab ja nebenbei für Ontoprise in Karlsruhe noch einen privaten Beratungsauftrag laufen. Gestern habe ich dazu einen Kundentermin vorbereitet und da vielen mir dann schon wieder ein paar Ontonyme auf:

“Speisegutschein”, “Essengutschein”, “Essenmarken”, “Restaurantchecks”

Klar, das sind – bis auf die ersten beiden vielleicht – keine richtigen Synonyme. In einem Anwendungskontext aber, z.B. “Suche nach Vergünstigungen für Arbeitnehmer”, mutieren sie sozusagen zu Synonymen, denn egal welchen Begriff ein Benutzer verwendet, er sucht nach Informationen zum Konzept “Vergünstigung fürs Mittagessen”.

Wie aber kann man solche Begriffsmengen bezeichnen. Ich schlag da mal das Kunstwort Ontonyme vor, das man definieren könnte als in einem Anwendungskontext bedeutungsgleiche Begriffe.

Ich bin ja der Ansicht, dass wir bei der Suche zwar “Begriffe” benutzen, aber nicht nach “Begriffen” suchen sondern nach “Konzepten”, egal wie die bezeichnet werden.

Noch ein Beispiel gefällig? Wir recherchieren ja ab und zu nach Marktdaten, z.b. zu Jobbörsen, Stellenmärkten, oder warens Jobmärkte oder Stellenbörsen? Mitunter suchen wir auch nach Jobsuchmaschinen und Stellenportalen. Verflixt, Jobportale gibts ja auch noch, den Begriff haben wir noch nicht verwendet. Klarer Fall, uns interessieren nicht die feinen Bedeutungsunterschiede bei diesen Begriffen, sondern das dahinter liegende Konzept.

1 Kommentar lesen »

Österreichisch

Thomas Hoppe, Freitag, 23. Mai 2008

Ach, Österreich ist Klasse. Da gibt es so klangvolle Bezeichnungen wie “Maturant” und “Magistra”.

Als Mensch kann man deren Bedeutung ja relativ schnell ableiten. Magnus meinte eben spontan “Magistra … wohl ein weiblicher Magister”. Aber welche Maschine, welches Verfahren kann solche Definitionen schon anhand nur eines einzigen Wortes ableiten ?

Einen Kommentar schreiben »

Unternehmensjargon ?

Thomas Hoppe, Montag, 12. Mai 2008

Ich stolper gerade beim modellieren über den Begriff “Fach-IBS-Leiter“. Nicht einfach herauszubekommen was das IBS eigentlich bedeuten soll.

Interessant aber ist, dass die Mehrzahl der Treffer die man bei einer Googlesuche bekommt im Zusammenhang mit “Siemens” steht. Von rd. 360 sind das immerhin rd. 350 Treffer.

Kann es sein, dass Siemens hier eine unternehmensinterne Stellenbezeichnungen verwendet ? Welcher Stellensuchende soll sich darunter denn bitte was vorstellen können ? Mich würde es nicht verwundern, wenn die Zahl der Bewerber sich bei solchen Bezeichnungen in Grenzen halten würde.

Einen Kommentar schreiben »

Hochspannungs … dingsbums

Thomas Hoppe, Mittwoch, 23. April 2008

Haben wir gerade in einer Stellenanzeige gefunden:

Hochspannungsgleichstromübertragungsanlagen

Einen Kommentar schreiben »

Wie Ontologien in die Welt kommen? (2/3)

Thomas Hoppe, Sonntag, 20. April 2008

Könnte man nicht Verfahren nutzen, die Begriffe einer Dokumentenmenge “clustern” (in Gruppen einteilen), um aus diesen Gruppen dann Zusammenhänge zwischen den Begriffen zu ermitteln und daraus etwas “Ontologie-ähnliches” zu konstruieren?

So ein Clustern geht in zwei Fällen halbwegs gut:

  • Entweder sind die Dokumente sehr inhomogen (wie es im Internet der Fall ist, wo ein Begriff sowieso in unterschiedlichen Kontexten auftreten kann), dann bringen solche Cluster etwas Ordnung ins Chaos (siehe z.B. linke Spalte von Clusty). Man sieht ihnen aber gleich an, dass sie mechanisch konstruiert wurden und beispielsweise Internetdokumente nicht nur nach Inhalt, sondern auch anhand der Sprache clustern.
  • Oder die Dokumente sind sehr homogen, dann kann ein “maschinelles Lernverfahren” sie in sehr gut beschreibbare Gruppen zerlegen.

Wir haben das mal bei einer Menge von Firmenbeschreibungen aus Yahoo gesehen, bei denen ein Lernverfahren sehr klare Cluster erzeugt hat. “Wunderbar” dachten wir, “das wenden wir mal auf Stellenanzeigen an !”. Ergebnis: totaler Fehlschlag, da die Inhalte von Stellenanzeigen in dreierlei Hinsicht nicht homogen sind:

  1. Stellenanzeigen enthalten Abschnitte mit unterschiedlichen Inhalten: Stellenbezeichnung, Beschreibung des Unternehmens, Aufgabenbeschreibung, Erforderliche Qualifikationen, Kontaktinformationen, usw.
  2. Manchmal sind diese Informationen in die Selbstdarstellung eines Personalvermittlungsunternehmens und dessen Kontaktinformationen eingebettet.
  3. Unterscheidet sich der Stil von Anzeige zu Anzeige

Was daraus resultiert sind dann Gruppen die sich nicht mehr in Worten beschreiben lassen und denen man förmlich ansieht, dass es sich um Artefakte (äh sorry, Kunstprodukte) handelt.

Das geht also auch nicht. Im nächsten Teil gucken wir dann mal, ob “social tagging” helfen kann …

Einen Kommentar schreiben »