Thomas Hoppe, Sonntag, 20. April 2008
Könnte man nicht Verfahren nutzen, die Begriffe einer Dokumentenmenge “clustern” (in Gruppen einteilen), um aus diesen Gruppen dann Zusammenhänge zwischen den Begriffen zu ermitteln und daraus etwas “Ontologie-ähnliches” zu konstruieren?
So ein Clustern geht in zwei Fällen halbwegs gut:
- Entweder sind die Dokumente sehr inhomogen (wie es im Internet der Fall ist, wo ein Begriff sowieso in unterschiedlichen Kontexten auftreten kann), dann bringen solche Cluster etwas Ordnung ins Chaos (siehe z.B. linke Spalte von Clusty). Man sieht ihnen aber gleich an, dass sie mechanisch konstruiert wurden und beispielsweise Internetdokumente nicht nur nach Inhalt, sondern auch anhand der Sprache clustern.
- Oder die Dokumente sind sehr homogen, dann kann ein “maschinelles Lernverfahren” sie in sehr gut beschreibbare Gruppen zerlegen.
Wir haben das mal bei einer Menge von Firmenbeschreibungen aus Yahoo gesehen, bei denen ein Lernverfahren sehr klare Cluster erzeugt hat. “Wunderbar” dachten wir, “das wenden wir mal auf Stellenanzeigen an !”. Ergebnis: totaler Fehlschlag, da die Inhalte von Stellenanzeigen in dreierlei Hinsicht nicht homogen sind:
- Stellenanzeigen enthalten Abschnitte mit unterschiedlichen Inhalten: Stellenbezeichnung, Beschreibung des Unternehmens, Aufgabenbeschreibung, Erforderliche Qualifikationen, Kontaktinformationen, usw.
- Manchmal sind diese Informationen in die Selbstdarstellung eines Personalvermittlungsunternehmens und dessen Kontaktinformationen eingebettet.
- Unterscheidet sich der Stil von Anzeige zu Anzeige
Was daraus resultiert sind dann Gruppen die sich nicht mehr in Worten beschreiben lassen und denen man förmlich ansieht, dass es sich um Artefakte (äh sorry, Kunstprodukte) handelt.
Das geht also auch nicht. Im nächsten Teil gucken wir dann mal, ob “social tagging” helfen kann …
Einen Kommentar schreiben »
Thomas Hoppe, Montag, 14. April 2008
Neulich wurden wir wieder einmal gefragt: “Kann man die Ontologie automatisch konstruieren?” Wir hören diese Frage öfter.
Es gibt in der Informatik eine vielzitierte Defintion des Begriffs “Ontologie” (weil das dort ein “terminus technicus” ist) die oft zitiert wird. Sie stammt von Thomas Gruber (Wissenschaftler im Bereich “Knowledge Engineering”, wenn ich mich richtig erinnere):
“Eine Ontologie ist eine explizite formale Spezifikation einer Konzeptualisierung.”
Alles klar?
Nee, natürlich nicht, denn ohne zu wissen “Was eine ‘Konzeptualisierung’ ist” kann man das nicht verstehen. Einfach gesagt handelt es sich bei einer Konzeptualisierung, um eine Unterteilung und Unterscheidung der Objekte dieser Welt (oder eines Problembereichs) in unterschiedliche Mengen (i.E. Klassen, Individuen, Relationen, Attribute, etc.).
Auch noch nicht verständlich?!
Nehmen wir mal als Beispiel den Begriff “Auto”. Aus der Sicht eines Verkehrsplaners handelt es sich dabei um eine der kleinsten Entitäten die ihn bei der Betrachtung von Verkehrsstömen interessiert. Andere sind dann vielleicht Lastwagen, Busse, Motorräder, Fahrräder und Menschen. Das wäre eine Konzeptualisierung.
Aus der Sicht eines KFZ-Mechanikers hat der Begriff “Auto” aber eine etwas andere Bedeutung. Für ihn ist es die größte ihn interessierende Entität, die sich aus Teilen zusammensetzt, gewisse Eigenschaften hat, einem Kunden gehört, evtl. einen Defekt hat, dessen Behebung ihm einen Teil seines Einkommens sichert und, und, und …
Anscheinend gibt es mehrere Konzeptualisierungen des Begriffs “Auto”, die von der Betrachtungsweise abhängig sind, oder anders formuliert von der Problemstellung.
Und nun zurück zur Ausgangsfrage: “Kann eine Ontologie (eigentlich ja die Konzeptualisierung) automatisch konstruiert werden?” Entweder müsste so ein Verfahren die Problemstellung für die die Konzeptualisierung benötigt wird kennen oder es müsste ein auf die Problemstellung spezialisiertes Verfahren sein, denn woher sollte das Verfahren “wissen” welche Konzeptualisierung für die Problemlösung Sinn macht (sinnvoll ist)?
Ersteres wird schwierig, weil man erstmal die Problemstellung beschreiben müsste (auf das Problem, dass man dafür auch wieder eine Ontologie benötigt, gehe ich hier jetzt nicht ein). Letzteres kann man vielleicht machen, ich vermute aber, dass die Konstruktion eines solchen Verfahrens aufwendiger ist, als die Konzeptualisierung gleich von Hand zu erstellen. Jedenfalls ist mir kein solches Verfahren bisher bekannt.
Ok, nun kann man natürlich auch auf die Idee kommen einem allgemeinen Verfahren nur solche Ausgangsdaten zu geben, dass es zwangsläufig nur genau eine Konzeptualisierung extrahieren kann.
Mehr dazu demnächst …
Einen Kommentar schreiben »
Thomas Hoppe, Montag, 7. April 2008
Ich hab ja zusammen mit meiner Tochter ein eigenes kleines Privatprojekt. Sie hat jeden Harry Potter Band so etwa 4-5 mal
gelesen und irgendwann angefangen eine Kartei mit Begriffen aus den Büchern anzulegen. Ich hab ihr den Vorschlag gemacht, dass wir das alles mal als Ontologie modellieren sollten. Das haben wir dann auch angefangen und eine Zeit lang verfolgt, durch die Arbeiten für Ontonym ist dieses Projekt aber ein wenig ins Stocken geraten.
In den Potteranalen gibt es ein paar – unter Modellierungsgesichtspunkten – interessante Begriffe, z.B. Animagus und Horcrux. Das sind Konzepte in denen Selbstreferentialität gefragt ist. Ein Animagus beispielsweise “ist ein Zauberer der sich selbst auf eigenen Wunsch in ein Tier verwandeln kann“. Ein Horcrux andererseits “ist ein Gegenstand in dem ein Zauberer einen Teil seiner Seele versteckt“.
Diese selbstreferentiellen Konzepte haben es in sich, wenn man sie “richtig” modellieren will. Mit protégé z.B., welches wir für die Modellierung verwenden, kann man sie in der aktuellen Version nicht richtig modellieren. Erst ab 3.4 soll es möglich sein.
Nun ist unser Harry P. Projekt ja keine Businessanwendung und ich frage mich, ob es solche selbstreferentiellen Konzepte auch im Businesskontext gibt?
Mir fallen da momentan Begriffe ein wie “Autist“, “Masochist” oder “Selbstmörder“, die vielleicht in juristischen, medizinischen oder sozialen Anwendungskontexten benötigt würden. Aber für reine Businessanwendung ist mir noch keins eingefallen.
Any ideas?
1 Kommentar lesen »
Magnus Niemann, Donnerstag, 3. April 2008
Die von einem Kollegen zur Verfügung gestellte Datei mit Stoppworten für unsere semantische Texterkennung ist aber auch niedlich. Ein Auszug:
ojemine
paff
pah
papperlapapp
pardauz
patsch
peng
per
pfui
piep
piff
platsch
plumps
plus
potz
potztausend
pro
prosit
pscht
pss
pst
puff
puh
pö
quak
quatsch
quiek
ratsch
rums
Liest sich streckenweise wie eine Mischung aus den von Dr. Erika Fuchs übersetzten Donald-Duck-Comics und den Einblendungen in dieser alten Batman-Serie.
Einen Kommentar schreiben »
Thomas Hoppe, Mittwoch, 2. April 2008
Beim Modellieren unserer Recruitment-Ontologie finden wir immer mal wieder Berufsbezeichnungen aus der ehemaligen DDR. Da gab es Berufe wie: Mechanisator, Agrotechniker und Zootechniker usw. Insbesondere bei den Berufen mit rein landwirtschaftlichen oder tierpflegerischen Tätigkeiten fragen wir uns: Warum die Bezeichnungen so “technifiziert” gewählt wurden ?
Ob da jemand wohl eine Erklärung für kennt?
Einen Kommentar schreiben »
Thomas Hoppe, Mittwoch, 2. April 2008
Ich hatte ja bereits vor kurzem über die Effekte geschrieben, die entstehen, wenn nicht auf das Anfrageverhalten der Benutzer eingegangen wird. Das hat aber auch noch andere Auswirkungen.
Wenn der Autobauer die Begriffe seiner Top 500 Suchanfragen dahingehend analysieren würde, wie oft Benutzer das gleiche Informationsbedürfnis haben und nach bedeutungsgleichen oder inhaltlich verwandten Begriffen suchen, würde er feststellen, dass seine “Dieselpartikelfilter” (auch wenn Besucher seiner Internetseiten mit anderen Begriffen suchen) von Platz 16 und schlechter (oder so) auf Platz 3 des Rankings rutschen würden.
Müsste dass nicht die Marketingabteilung aufhorchen lassen? Eine Vielzahl der (potentiellen) Kunden haben da wohl ein ganz spezielles Informationsbedürfnis, dass der Automobilhersteller bisher nur unbefriedigend bedienen kann.
Einen Kommentar schreiben »
Thomas Hoppe, Dienstag, 1. April 2008
dieses Berufsbild gibts wirklich. Das ist kein Aprilscherz !
Zitat: “Bananenreifemeister/innen sorgen dafür, dass Bananen einen optimalen und gleichmäßigen Reifungsprozess durchlaufen und dadurch in idealer Verkaufsfarbe und bestem Geschmack in unsere Läden kommen. Sie arbeiten in so genannten Reifekammern, wo sie die Reife und
Qualität der Bananen nach ihrem Export nach Europa möglichst zweimal täglich kontrollieren.”
Und weiter unten heißt es dann: “… Für die Tätigkeit als Bananenreifemeister/in wird üblicherweise keine bestimmte Ausbildung gefordert.”
1 Kommentar lesen »
Thomas Hoppe, Sonntag, 30. März 2008
Wir hatten vor rd. einem Jahr die Möglichkeit die Top 500 Suchanfragen eines Automobilherstellers zu analysieren. Das war interessant. Da fanden sich z.B. Begriffe drunter wie “Partikelfilter”, “Rußpartikelfilter”, “Dieselrussfilter”, “Russfilter” … Wenn man die dann nutzte um nach Informationen zu suchen landete man nur bei einem lapidaren “… kein passendes Ergebnis gefunden”.
Wenn man aber den Begriff “Dieselpartikelfilter” eingab gelangte man zu Informationen. Eigentlich kann man davon ausgehen, dass diejenigen die die Suchanfragen gestellt hatten genau diese Informationen gesucht haben. Woher aber bitte sollen die Interessenten wissen, wie die genaue Bezeichnung bei dem Automobilbauer ist ?
Ich hab gerade mal nach gesehen: Das Suchverhalten ist immer noch so, obwohl wir es dem Autobauer gesagt haben.
Fortsetzung folgt …
Einen Kommentar schreiben »
Thomas Hoppe, Sonntag, 30. März 2008
Bei der Analyse von Ausgangsdaten und dem Modellieren unserer Ontologien stossen wir immer mal wieder auf interessante Zusammenhänge oder Fragen, von denen wir denken, dass sie auch über die Semantic Web Community hinaus für eine größere Leserschaft von Interesse sein könnten. Deshalb haben wir beschlossen in loser Folge über diese zu schreiben.
Fangen wir damit an …
Einen Kommentar schreiben »