Forschungsschwerpunkte: Computerlinguistik, Sprachtechnologie

Forschung und Entwicklung zu Basistechnologie und Anwendungssystemen auf den Gebieten Anaphernresolution textuelle Informationsextraktion / Message Understanding Textzusammenfassung Question Answering formale Modellierung natürlichsprachiger Grammatiken, Syntaxanalyse, Parsing Sprachdialogsysteme / Sprachportale, Dialogmanagement, VoiceXML Finite-State-Technologie für die Sprachdatenverarbeitun statistische Sprachdatenverarbeitung Research Focus: Computational Linguistics, Natural Language Engineering Research and development on software base technology and solutions in the fields Anaphor Resolution textual Information Extraction / Message Understanding Text Summarization Question Answering formal modeling of natural language grammars, syntactic analysis, parsing spoken language dialogue systems / voice portals, dialogue management, VoiceXML finite state technology for natural language processing statistical natural language processing

Forschungsschwerpunkte: Computerlinguistik, Sprachtechnologie Weiterlesen

Anaphernresolution

Der Schwerpunkt meines Promotionsprojekts und auch meiner andauernden Forschungsarbeiten liegt auf dem Gebiet der algorithmischen Interpretation pronominaler Ausdrücke in natürlichsprachigen Texten, der sog. Anaphernresolution. Was ist unter Anaphernresolution zu verstehen und warum ist sie für eine inhaltsorientierte Textanalyse von zentraler Bedeutung? Diese beiden Fragen lassen sich am besten mit Blick auf ein elementares Beispiel beantworten: Peter Behrens war ein Architekt und Designer von Weltrang. U.a. errichtete er das Verwaltungsgebäude der Farbwerke Hoechst AG in Frankfurt-Höchst. Unverzichtbare Grundlage für die Erschließung des Inhalts des zweiten Satzes ist die Interpretation des  hervorgehobenen Personalpronomens er, d.h. die Zuordnung zum sprachlichen Antezedens Peter Behrens, …

Anaphernresolution Weiterlesen

Robuste Textinhaltsanalyse

Die üblichen Ansätze des Information Retrieval bewegen sich auf der Ebene der Analyse des lexikalischen Gehalts von Einzelwörtern; das Problem der Pronomenresolution wird ignoriert. Ihnen bleibt daher der tiefere Gehalt von Textdokumenten verborgen. Der Hintergrund dieses mangelnden Inhaltsbezugs bekannter Anwendungen der algorithmischen Textinhaltserschließung ist in der nur sehr eingeschränkten Verfügbarkeit von Analysetechniken zu sehen, die den Anforderungen einer robusten, massendatentauglichen Verarbeitung gerecht werden. Ein relativ großer Anteil computerlinguistischer Theorien bzw. Verfahren ist auf die Analyse spezieller Teilprobleme fokussiert, die aus einer anwendungsorientierten Perspektive von allenfalls marginaler Bedeutung sind. Darüberhinaus werden oftmals unrealistische bzw. idealisierende Annahmen betreffend die uneingeschränkte Verfügbarkeit insbesondere …

Robuste Textinhaltsanalyse Weiterlesen

Information Extraction und Message Understanding Conferences

Ein in dieser Hinsicht neuartiges anwendungsorientiertes Teilgebiet der Computerlinguistik ist Information Extraction, in dem es um die Erschließung textueller Inhalte nach bestimmten stereotypen Vorgaben geht, z.B.: welcher Architekt errichtete wann und wowelches Gebäude für welchen Bauherrn? Eine wichtige Rolle kommt der formalen Evaluation der Leistungsfähigkeit von Softwaresystemen des Information Extraction im Rahmen der Message Understanding Conferences (MUCs) zu; Vergleichsmaßstäbe sind die Leistungen einer entsprechenden intellektuellen (menschlichen) Textinterpretation. Aus Anwendungssicht trennt die  formale Evaluation die Spreu vom Weizen: nur diejenigen Textanalyseansätze werden positiv bewertet, die vollständig algorithmisch expliziert sind (eine Grundvoraussetzung für die Implementierbarkeit und damit für die Teilnahme an der …

Information Extraction und Message Understanding Conferences Weiterlesen

Das ROSANA-System

Dem Anaphernresolutionssystem ROSANA, das das Kernergebnis meiner Forschungsarbeiten darstellt, liegt der Anspruch einer derartigen, uneingeschränkt algorithmischen, robusten, massendatentauglichen Interpretation pronominaler Ausdrücke zugrunde. ROSANA steht für Robuste syntaxbasierte Interpretation anaphorischer Ausdrücke Als zentrales Problem wird die robuste Verarbeitung ggf. partieller, d.h. potentiell fragmentarischer syntaktischer Voranalysen thematisiert. Diese Problemstellung ist deshalb von besonderer Relevanz, weil der syntaktische Kontext sprachlicher Ausdrücke bekanntermaßen in entscheidender Weise die referentiellen Interpretationsoptionen ko-determiniert. In der gegenwärtigen Implementierung baut das ROSANA-System auf den syntaktischen Analysen des robusten FDG (Functional Dependency Grammar) Parser for English auf. Die dem Kernsystem zugrunde liegenden Algorithmen sind jedoch prinzipiell auch für andere Sprachen …

Das ROSANA-System Weiterlesen

Computergestützte sozialwissenschaftliche Inhaltsanalyse

Auf der Grundlage der neueren computerlinguistischen Forschungsarbeiten insbesondere auf dem Gebiet des Information Extraction ergeben sich Perspektiven für eine verfeinerte qualitative Textinterpretation im Rahmen der traditionell lexikalisch-semantisch ausgerichteten Computergestützten Inhaltsanalyse der Sozialwissenschaften. Vor dem Hintergrund aktueller Ergebnisse läßt sich der Nachweis führen, daß die von verschiedenen Seiten geäußerte, insbesondere mit einer hermeneutischen Argumentation unterlegte Kritik am algorithmischen Textinterpretations-Paradigma nicht länger haltbar ist. Vgl. meineDissertation [PDF, 2744k, gzipped], in der diese These unter besonderer Betrachtung des auch für die klassische Computergestützte sozialwissenschaftliche Inhaltsanalyse zentralen Problems der Interpretation von Pronominalanaphern belegt wird.

Computergestützte sozialwissenschaftliche Inhaltsanalyse Weiterlesen