Robuste Textinhaltsanalyse

Die üblichen Ansätze des Information Retrieval bewegen sich auf der Ebene der Analyse des lexikalischen Gehalts von Einzelwörtern; das Problem der Pronomenresolution wird ignoriert. Ihnen bleibt daher der tiefere Gehalt von Textdokumenten verborgen.

Der Hintergrund dieses mangelnden Inhaltsbezugs bekannter Anwendungen der algorithmischen Textinhaltserschließung ist in der nur sehr eingeschränkten Verfügbarkeit von Analysetechniken zu sehen, die den Anforderungen einer robusten, massendatentauglichen Verarbeitung gerecht werden. Ein relativ großer Anteil computerlinguistischer Theorien bzw. Verfahren ist auf die Analyse spezieller Teilprobleme fokussiert, die aus einer anwendungsorientierten Perspektive von allenfalls marginaler Bedeutung sind. Darüberhinaus werden oftmals unrealistische bzw. idealisierende Annahmen betreffend die uneingeschränkte Verfügbarkeit insbesondere syntaktischer Voranalysen getroffen, die für unrestringierten, i.d.R. grammatisch bzw. orthographisch nicht vollständig korrekten Text auf algorithmischem Wege nicht einlösbar sind. Derartige Ansätze genügen somit nicht den Anforderungen einer anwendungstauglichen Textinhaltsanalyse.

Schreibe einen Kommentar