Technologien zur automatischen Inhalterschließung
Im Rahmen unterschiedlicher F&E- und Anwendungsprojekte wurden elaborierte Technologien entwickelt, die die Erstellung projektspezifischer Regelsammlungen zur Extraktion der jeweils relevanten Inhalte ermöglicht. Innovative regelbasierte und statistische Technologien der Informationsextraktion kommen hierbei zum Einsatz.
Strategietypen vs. Strategieinstanzen
Terminologisch wird unterschieden zwischen den sog. Strategietypen und den jeweiligen Strategietyp-Instanzen bzw. – kurz – Strategieinstanzen:
- Strategietypen bezeichnen eine Technologie zur Inhaltserschließung – also beispielsweise eine bestimmte Form Regulärer Ausdrücke;
- Strategieinstanzen bezeichnen eine spezifische Regel, die für einen Strategietyp implementiert wurde – also beispielsweise einen konkreten Regulären Ausdruck zur Extraktion eines bestimmten anwendungsrelevanten Inhalts.
Strategie-Entwicklungsumgebung
Als Basis zur Anwendung und weiteren Verfeinerung der Inhaltserschließungstechnologien wurde eine sog. Strategie-Entwicklungsumgebung (kurz: SEU) entwickelt. Zentrales Merkmal der SEU ist die Plug-in-Fähigkeit, die es ermöglicht, das Inventar verfügbarer Strategietypen nach Bedarf zu ergänzen. Die Implementierung weiterer Strategietypen erfolgt komfortabel auf der Basis von Vererbungsmechanismen der Programmiersprache Java; die neuen Strategietypen werden den Auswahlmenüs der SEU automatisch hinzugefügt.
Die Eckdaten der SEU im Überblick:
- flexible Ergänzbarkeit weiterer Inhaltserschließungstechnologien;
- modulare Verwaltung der Strategieinstanzen in anwendungsspezifischen Regelsammlungen;
- Evaluation von Strategieinstanzen (und damit mittelbar der unterschiedlichen Strategietypen) auf der Basis von Textkorpora, die mit Referenzdaten annotiert sind;
- Anzeige der Evaluationsergebnisse für die jeweils betrachteten Strategieinstanzen in den Standard-Evaluationsmaßen Precision und Recall sowie aufgeschlüsselt in True/False Positives und True/False Negatives;
- Unterstützung qualitativer Detailanalysen auf der Basis einer gezielten Browsebarkeit von Einzelfällen – hierbei ist es möglicht, die Betrachtung auf die problematischen Fälle (False Positives, False Negatives) zu beschränken;
- die jeweils betroffenen Textpassagen werden angezeigt und farblich hervorgehoben;
- auf Grundlage der Analyseergebnisse können die Strategieinstanzen unter Rückgriff auf den strategietyp-spezifischen Instanzeneditor (vgl. u.) geeignet verfeinert werden, um sie dann erneut zu evaluieren.
Nachfolgend ein Screenshot der Strategie-Entwicklungsumgebung – im betrachteten (fiktiven) Beispiel wird eine Textpassage hervorgehoben, die eine Strategieinstanz zur Extraktion von Erwähnungen des DAX-30-Konzerns Allianz AG irrtümlicherweise nicht gefunden hat (FN – False Negative, also ein Recall-Fehler):
Strategietyp-spezifische Instanzeneditoren
Die Komponenten, aus denen sich eine Inhaltserschließungsregel zusammensetzt, hängen natürlich vom jeweiligen Strategietyp ab. Folglich kann es keine einheitliche Editionsschnittstelle zur Bearbeitung von Strategieinstanzen geben. Jeder Strategietyp hat deshalb einen spezifischen Instanzeneditor zu implementieren – diese Anforderung ist Bestandteil der formalen API-Definition der oben erwähnten Plug-In-Schnittstelle.
Nachfolgend als Beispiel der Screenshot eines Instanzeneditors für den Strategietyp sog. Erweiterter Regulärer Ausdrücke – einer sehr mächtigen und dennoch mit moderatem Aufwand erlernbaren regelbasierten Inhaltserschließungstechnologie, die sich in der Praxis bewährt hat. Gezeigt wird eine Strategieinstanz zur Extraktion von Erwähnungen des DAX-30-Konzerns Allianz AG – vgl. das oben betrachtete Beispiel: