Repräsentationen und Prozesse in der Sprachverarbeitung
Als Hörer oder Leser einer sprachlichen Äußerung kann der Mensch die akustischen oder optischen Zeichen in Sekundenschnelle in gedankliche Information übersetzen. Diesen Vorgang nennen wir auch Sprachverstehen. Als Sprachproduzent ist der Mensch in der Lage, sehr schnell und mit großer Treffsicherheit komplexe gedankliche Information in eine sprachliche Äußerung unzuwandeln. In der maschinellen Sprachverarbeitung wird dieser Prozeß als Sprachgenerierung bezeichnet.
Bei der normalen sprachlichen Kommunikation geht es also sowohl um die Abbildung einer Bedeutung in sprachliche Zeichen als auch um den umgekehrten Vorgang, einer Abbildung von sprachlichen Zeichen in ihre konzeptuelle Bedeutung. Ein ideales Modell menschlicher Sprachfähigkeit sollte also geschriebene und gesprochene Sprache verstehen und erzeugen können.
Dazu benötigt das kognitive System Wissen über die natürliche Sprache. Das grundlegende Wissen über den Aufbau unserer Muttersprache erwerben wir in frühester Kindheit. Dieses Wissen ist erst einmal unbewußtes Wissen, wir bilden Sätze mit Subjekten, Objekten und konjugierten Verben, ohne uns dieser Kategorien bewußt zu sein. Später kann das sprachliche Wissen, teilweise durch bewußtes Lernen, erweitert werden. Neue Wörter und Satzmuster kommen hinzu. Zusätzliche Fähigkeiten der Sprachverwendung werden erworben. Nach dem Lesen und Schreiben lernen wir z.B. Texte zu komponieren und zu editieren. Sobald wir weitere Sprachen erwerben, lernen wir auch, Texte von einer Sprache in eine andere zu übersetzen. Darüber hinaus können wir auf der Basis der bereits erworbenen Sprachkenntnis lernen Artikel zusammenzufassen, Zeitungsseiten zu überfliegen, Diktate zu korrigieren, Kreuzworträtsel zu lösen und vieles mehr.
Wenn wir die Sprachfähigkeit des Menschen modellieren wollen, müssen wir das unbewußt verwendete Sprachwissen, das auch sprachliche Kompetenz genannt wird, erkennen, beschreiben, formalisieren und der Maschine verfügbar machen. Dabei hilft uns die moderne Linguistik, die sich die Beschreibung des Kommunikationsmediums Sprache und der sprachlichen Kompetenz des Menschen zum Ziel gesetzt hat.
Darüberhinaus müssen wir aber auch verstehen, wie der Mensch seine sprachliche Kompetenz für die verschiedenen Arten der Sprachverwendung nutzt. Wir benötigen Algorithmen, die auf der Grundlage dieser Kompetenz, Sprache verstehen oder erzeugen. Hier können wir empirische Beobachtungen der Psycholinguisten heranziehen. Die Psycholinguistik ist ein Zweig der kognitiven Psychologie, der die kognitiven Strukturen und Prozesse bei der menschlichen Sprachverarbeitung untersucht. Die Psycholinguistik ist aber leider noch sehr weit von vollständigen Theorien der menschlichen Sprachverwendung entfernt. Die Verwendung der Sprache, also die Prozesse der Spracherzeugung und des Sprachverstehens, werden auch als sprachliche Performanz bezeichnet.
Linguisten und Psychologen gehen davon aus, daß es verschiedene Arten von sprachlichem Wissen sind, die wir in der Sprachverarbeitung anwenden. Wissen über den inneren Aufbau von zusammengesetzten Wörtern unterscheidet sich z.B. vom Wissen über den deutschen Satzbau oder von dem Wissen über die Bedeutung bestimmter Konzepte. Es kann auch davon ausgegangen werden, daß an der Sprachverarbeitung mehrere Prozesse beteiligt sind.
Wir nehmen an, daß in der Abbildung zwischen der gesprochenen oder geschriebenen Äußerung und ihrer Interpretation durch das Sprachverarbeitungssystem mehrere Verarbeitungsebenen durchlaufen werden. In einer idealisierten Darstellung eines sprachverarbeitenden Systems entspricht jede Ebene einem Systemmodul. Jede Verarbeitungsebene erzeugt eine Repräsentation, die den Eingang für die nächste Ebene darstellt. Damit ist aber keineswegs gesagt, daß jedes sprachverarbeitende System in einer sequentiellen Architektur realisiert ist, in der die einzelnen Module in strenger Abfolge aufgerufen werden. Auf die Frage der Architektur werden wir jedoch später zurückkommen. Um die Aufgaben der Verarbeitungsebenen und die Struktur der erzeugten Repräsentationen zu betrachten, bietet es sich an, das idealisierteVerarbeitungsmodell anzunehmen, dessen Ebenen übrigens annähernd den Beschreibungsebenen in der theoretischen Linguistik entsprechen. Ein solches Modell, das oft als das Pipeline-Modell der Sprachverarbeitung bezeichnet wird, ist in dieser Abbildung dargestellt.
Obwohl die praktische Relevanz dieses idealisierten Modells in der Disziplin stark angezweifelt wird, lassen sich doch erstaunlich viele Systeme, besonders in der Verarbeitung geschriebener Sprache, auf das idealisierte Modell abbilden. Das gilt allerdings nur für die Analyserichtung. Das idealisierte Modell ist bidirektional, das heißt, daß die Ebenen in beiden Richtungen durchlaufen werden können, um sowohl Analyse als auch Generierung realisieren zu können. In der Sprachverarbeitung ist diese Bidirektionalität aber bisher ein Ideal geblieben, dem man sich in den implementierten Systemen nur sehr selten angenähert hat. In allen einsatzfähigen Systemen, die über beide Verarbeitungsrichtungen verfügen, gibt es zumindest einige getrennte Module für die Generierung.
Um die Komponenten des idealisierten Modells darzustellen, werden wir es in der Analyserichtung für eine geschriebene Eingabe Schritt für Schritt durchlaufen. Nehmen wir an, wir hätten einen Eingabesatz eingetippt, der vom System verstanden werden soll.
Textnormalisierung
In diesem ersten Schritt werden die Zeichenketten der Eingabe auf die Buchstabenketten abgebildet, die uns ihr Auffinden im Wörterbuch ermöglichen. Je nach genauer Funktionalität wird diese Komponente auch als graphemische Verarbeitung, Normalisierung, Scanning oder Tokenization bezeichnet. In der Eingabe kann es Abkürzungen geben, die expandiert werden müssen. Die Interpunktion muß von den Wortformen getrennt werden, selbst wenn es zwischen einem Wort und einem Interpunktionszeichen meistens kein Leerzeichen gibt. Trennungsstriche, Zeilenenden und Formatierungsmarkierungen müssen als soche erkannt und behandelt werden. Je nachdem, wie das Lexikon repräsentiert ist, muß die Funktion der Groß- und Kleinschreibung erkannt werden.
Für diese Komponente werden häufig endliche Automaten oder endliche Transduktoren eingesetzt. Die Ausgabe ist eine sogenannte Tokenkette, eine Liste, in der die Wortformen und die für die weitere linguistische Analyse relevanten Bestandteile der Eingabe in einer vorgegebenen Normalform repräsentiert sind.
Morphologische Verarbeitung
Die Morphologie ist die Lehre vom Aufbau der Wörter. Die für die syntaktische Funktion und für die Bedeutung des Worts relevanten Bestandteile werden Morpheme genannt. In der morphophonologischen Verarbeitung werden die Wörter in ihre Morpheme zerlegt, die im Lexikon augefunden werden. In der Morphologie unterscheidet man gewöhnlich drei Arten von Morphemverbindungen: Flexion, Derivation und Komposition. Da die Morphologie in diesem Buch nicht durch einen gesonderten Abschnitt vertreten ist, werden wir im folgenden Beispiele für die drei Prozesse anführen.
In der Flexionsmorphologie untersucht man Zusammensetzungen, die einen Stamm mit Flexionsmorphemen verbinden. Flexionsmorpheme markieren solche Eigenschaften wie Kasus, Numerus, Tempus eines Wortes.
Haus-es
Kind-er
weht-e
Oft geschieht eine solche Markierung durch eine Stammveränderung oder geht zumindest mit einer Stammveränderung einher.
geht -- ging
kann -- konn-te
In der Derivationsmorphologie werden Wortzusammensetzungen untersucht, bei denen aus einem Wort durch Zufügen bestimmter Morpheme ein neues Wort mit einer anderen Bedeutung entsteht, das dann vielfach auch zu einer neuen Wortart gehört.
lieb-lich
un-klar
Sauber-keit
ab-geben
In der Kompositionsmorphologie werden sogenannte Komposita betrachtet, das sind Zusammensetzungen von mehreren Wörtern.
Dampf-schiff
Bahn-gleis
Das Deutsche gehört zu den Sprachen, in denen Nominalkomposita ziemlich frei erzeugt werden können. Eine zusätzliche Schwierigkeit ergibt sich dadurch, daß an den Nahtstellen der Verbindung oft sogenannte Fugenmorpheme eingefügt werden.
Kind-s-taufe
Kind-er-garten
Sonne-n-bad
Die morphologische Analyse wird dadurch erschwert, daß an den Verbindungsstellen oft phonologische Prozesse, die Morpheme verändern bzw. Laute einfügen oder löschen. Diese phonologischen Prozesse sind meistens das Resultat von sprachökonomischen Vereinfachungen, die die Aussprache des zusammengesetzten Wortes erleichtern.
haß+en --> hassen
handel+ung --> Handlung
hat+t --> hattet
In diesem Zusammenhang sind auch rein orthographische Regeln zu beachten.
Balett+Truppe --> Baletttruppe
Balett+Tanz --> Balettanz
Balett+Theater --> Balettheater
Um die Morpheme nun nicht in allen möglichen veränderten Formen im Lexikon speichern zu müssen, verbindet man die morphologische Analyse in vielen Systemen mit einer phonologischen Analyse, die die phonologischen Prozesse im gewissen Sinne rückgängig macht.
Die Wissensbasen für die morphologische Komponente sind das Morphemlexikon, bzw. -lexika sowie Regeln, die angeben, welche Morpheme welche Verbindungen eingehen (morphotaktische Regeln) und Regeln die bestimmen, welche phonologischen Prozesse mit den morphologischen einhergehen (morphophonologische Regeln).
Für bestimmte Anwendungen kann man die morphologische Komponente dadurch umgehen, daß man mit einem Vollformenlexikon arbeitet, in dem bereits alle möglichen Wortzusammensetzungen gespeichert sind. Dadurch, daß die Derivationsmorphologie und ganz besonders auch die Kompositabildung ständig zu unvorhersehbaren Kombinationen führen, eignet sich ein solches Vorgehen nur für Einsatzgebiete, bei denen das zu verarbeitende Sprachfragment recht eingeschränkt und überschaubar ist.
Für Anwendungsgebiete wie die Grammatiküberprüfung oder die Extraktion von Wissen aus Texten ist die Methode nicht einsetzbar.
Auf dem Gebiet der Computermorphologie gab es in den letzten zehn Jahren einen großen Durchbruch mit der Entwicklung der Zwei-Ebenen-Morphologie auf der Basis endlicher Automaten.
Die Ausgabe einer morphologischen Analyse ist eine Kette von Wortformen mit den relevanten syntaktischen Merkmalen sowie der Repräsentation der Wortbedeutung. Zu den syntaktischen Merkmalen gehören zum Beispiel die Wortklasse, die Valenz von Verben und Adjektiven sowie die Information über Numerus, Tempus, Genus und Kasus.
Die Wortbedeutung wird sich nicht in jedem Fall bereits aus der im Lexikon kodierten Bedeutung der Morpheme erschließen lassen.
Syntaktische Verarbeitung
Um die Bedeutung des Eingabesatzes aus seinen Bestandteilen erschliessen zu können, muß zuerst festgestellt werden, welche Wörter und Satzteile semantisch zusammengehören und welche Rolle diese Wörter und Satzteile in der Bedeutung des gesamten Satzes spielen. Die Syntax ist das Teilgebiet der Linguistik, das sich mit dem Satzbau beschäftigt. Eine syntaktische Komponente gliedert den Satz in seine Bestandteile und identifiziert deren Funktionen.
Lesen wir den folgenden Satz, dann müssen wir unser (unbewußtes) syntaktisches Wissen verwenden, um zu erkennen, wer wen sah und wer auf der Lichtung stand.
Nur die Jäger sahen den Hirsch, die auf der Lichtung standen.
Ohne die Kasusinformation von der lexikalisch-morphologischen Komponente könnten wir Zuordnung nicht vornehmen. Ohne das Wissen über den deutschen Satzbau könnten wir den Relativsatz die auf der Lichtung standen nicht dem Subjekt nur die Jäger zuordnen.
In der theoretischen Sprachwissenschaft gibt es viele verschiedene Ansätze, um das syntaktische Wissen als Regeln oder Prinzipien zu formalisieren, die die Kombination von Wörtern und Satzteilen regulieren. Diese Ansätze werden auch als Grammatikmodelle bezeichnet. Zu einem Grammatikmodell gehört auch das Lexikon der Sprache. Viele linguistische Grammatikmodelle schließen auch die phonologische, morphologische und semantische Komponente ein.
Die neueren Grammatikmodelle der Sprachverarbeitung stellen Grammatikformalismen für die deklarative Repräsentation des grammatischen Wissens zur Verfügung. Das sind formal definierte Repräsentationssprachen mit einer logisch fundierten Semantik. (Wichtige Grammatikformalismen der Sprachverarbeitung)
Die syntaktische Analyse des Satzes in seine relevanten Bestandteile wird als Parsing bezeichnet. Die wichtigsten Parsingverfahren werden in [ref.] beschrieben.
Die Ausgabe der syntaktischen Komponente ist die syntaktische Repräsentation des Satzes. In der Regel enthält diese die Phrasenstruktur des Satzes, wobei die Knoten mit komplexen Beschreibungen der Kategorien versehen sind. Diese Beschreibungen sind normalerweise Mengen von Merkmalen, d.h. Attribut-Wert-Paaren. In vielen neueren Systemen wird parallel mit der Anwendung syntaktischer Regeln auch gleich die semantische Struktur des Satzes aufgebaut. Die Repräsentation der Bedeutung ist dann meistens als Wert eines speziellen Attributs Teil der Merkmalsstruktur.
Gibt die Grammatik mehr als eine Möglichkeit, die Wörter der Eingabe zu einem wohlgeformten Satz zu verbinden, dann bezeichnen wir den Satz als strukturell mehrdeutig. In einem solchen Fall werden mehrere Repräsentationen ausgegeben.
Semantische Verarbeitung
Die semantische Komponente ist für die Repräsentation der Bedeutung verantwortlich. Man geht davon aus, daß sich die Bedeutung des gesamten Satzes mehr oder weniger kompositionell aus der schrittweisen Kombination seiner Wörter und Satzteile ergibt. Die semantischen Aspekte der Sprachverarbeitung sind in [ref] beschrieben. Auf der Basis der syntaktischen Repräsentation wird die semantische Struktur des Satzes erzeugt. Dabei hängt es sehr von der syntaktischen Repräsentation ab, wieviel Arbeit noch zu leisten ist. Sind zum Beispiel die Satzteile, die semantisch zusammengehören, aber im Satz durch andere Satzteile voneinander getrennt sind, nur als zusammengehörig markiert, aber noch nicht kombiniert, dann muß die semantische Verarbeitung diese Kombination vornehmen. Die semantische Verarbeitung muß auch die möglichen Argumentbereiche für Operatorausdrücke bestimmen, z.B. den möglichen Skopus für Verneinungen, Modaloperatoren oder Quantoren.
Die Ausgabe der semantischen Komponente ist die Bedeutungsrepräsentation des Satzes in einer Form der Prädikatenlogik oder in einer anderen formalen Darstellung. Diese Repräsentation bildet dann die Grundlage für die Interpretation des Satzes, die auch semantische Auswertung genannt wird.
Da die Auswahl zwischen verschiedenen Lesarten oft erst bei der Interpretation erfolgen kann, gibt es meistens mehrere Bedeutungsrepräsentationen. Um die Zahl der Repräsentationen zu vermindern, werden vermehrt Repräsentationssprachen eingesetzt, die Ausdrucksmittel für unterbestimmte Information zur Verfügung stellen.
Interpretation des Satzes
Das Verstehen eines Satzes ist noch lange nicht geleistet, wenn eine logische Repräsentation der Bedeutung vorliegt.
Das kommunikative Ziel einer Äußerung ist eine Veränderung des Zustands des kognitiven Systems des Empfängers. Diese Veränderung kann sich auf das Wissen, die Absichten oder Wünsche des Empfängers beziehen. Sie kann dadurch beim Empfänger auch zu Antworten oder nichtsprachlichen Handlungen führen. Es sind genau diese Auswirkungen der sprachlichen Eingabe, für die wir sprachverarbeitende Systeme bauen. Wir möchten von der Maschine eine Antwort auf eine Frage oder die Ausführung eines Befehls, das heißt zum Beispiel die Umwandlung einer sprachlichen Eingabe in einen Befehl an ein Anwendungsprogramm. Möglicherweise wollen wir durch die sprachliche Eingabe auch das Wissen des Systems erweitern, damit es in einer späteren Situation die angemessene Handlung ausführt.
Damit nun der Zustand des kognitiven Systems geändert werden kann, muß die Äußerung in ihrem Zusammenhang und vor dem Hintergrund des bisherigen Wissens interpretiert werden. So muß der Sprechakt erkannt werden, das ist die sprachliche Handlung, die durch die Äußerung ausgeführt werden sollte. Handelt es sich zum Beispiel um eine Aussage, eine Frage oder einen Befehl? Die semantische Repräsentation alleine reicht oft nicht, um diese Zuordnung vorzunehmen. Der folgende Satz kann mehrere Funktionen erfüllen.
Kannst Du diese Frage beantworten
Der Fragesatz kann in bestimmten Kontexten als Anordnung oder Bitte eingesetzt werden. Die Interpretation im Zusammenhang erfordert spezielles Wissen über den Aufbau von Texten, die aus mehreren Sätzen bestehen. Dieses Wissen wird als Diskurs- oder Textmodell repräsentiert. Ein solches Modell erlaubt es, die Bezüge zwischen den Sätzen zu erkennen. Das sind einmal Bezüge von sprachlichen Ausdrücken zu bereits eingeführten Referenten, wie sie bei der Interpretation von Anaphern, z.B. Personalpronomen wie er, sie, es, gefunden werden müssen. Es sind aber auch die Relationen, die zwischen den Sätzen bestehen. Mögliche Relationen zwischen zwei aueinanderfolgenden Sätzen sind unter anderem die der Erläuterung, Begründung oder narrativen Abfolge.
Wenn es sich um ein Dialogsystem handelt, das mit dem Benutzer durch einen Austausch von sprachlichen Äußerungen interagiert, wird noch eine bestimmte Art eines Diskursmodells benötigt, das die grundlegenden Dialogstrategien des Menschen abbildet. Solch ein Modell heißt auch Dialogmodell. Ein Dialogmodell macht unter anderem Aussagen über mögliche Sprechaktabfolgen. Das Wissen über den bisherigen Verlauf des Diskurses wird oft in einem Diskurs- oder Dialoggedächtnis gespeichert.
Um den Wissenszustand des Systems ändern zu können müssen die Bezüge zwischen den Teilen der sprachlichen Eingabe und den entsprechenden Elementen in den Wissensbasen hergestellt werden. In der Regel muß zwischen verschiedenen Lesarten und Interpretationsmöglichkeiten ausgewählt werden. Die neue Information muß in die Wissensbasis integriert werden.
Generierung
In einem idealisierten Modell der Sprachproduktion müssen die Ebenen in der umgekehrten Richtung durchlaufen werden. Allerdings verwendet man in der Generierung zum Teil Algorithmen, die sehr verschieden von denen der Analyse- oder Verstehensrichtung sind. Die gängigsten Generierungsverfahren werden im Unterkapitel [ref] beschrieben. Man bemüht sich allerdings seit einigen Jahren verstärkt, die gleichen linguistischen Wissensbasen und Repräsentationsformalismen für die beiden Verarbeitungsrichtungen einzusetzen. Gründe dafür sind nicht nur softwareökonomische Erwägungen, die eine Duplikation des Wissens zu vermeiden suchen, sondern auch die Bemühung um Konsistenz sowie Bestrebungen, durch eine bessere Verzahnung der Verarbeitungsrichtungen eine verbesserte Funktionalität zu erreichen.
Die Bemühungen um gemeinsame Wissensbasen für Parsing und Generierung sowie erfolgversprechende neue Entwicklungen von bidirektionalen Algorithmen werden im Anschnitt [ref] diskutiert.
Verarbeitung gesprochener Sprache
Nicht näher beschrieben werden in diesem Kapitel die Methoden und Verfahren zur akustischen Erkennung und zur Synthese gesprochener Sprache. Diese Methoden stammen zum größten Teil aus einem Fachgebiet, das sich in der historischen Entwicklung etwas außerhalb der KI Forschung etabliert hat. Nachdem regelbasierte Verfahren in der Spracherkennung zu weit hinter den Realzeitanforderungen zurückblieben, hat man mit statistischen Verfahren in den letzten zehn Jahren sehr beachtliche Erfolge erzielt. Es sind besonders die sogenannten Hidden-Markov-Modelle, eine Art von probabilistischen Automaten, die sich speziell in der Worterkennung als sehr effektiv durchgesetzt haben. Bevorzugt wird mit Vollformenlexika gearbeitet, um die morphologische Verarbeitung zu umgehen. Syntaktische und semantische Kompetenz könnte in den vielen Fällen zur Entscheidung herangezogen werden, in denen die Spracherkennung nicht zwischen mehreren Deutungshypothesen unterscheiden kann. Wegen der mangelhaften Effizienz der heutigen Analyseverfahren lassen sich derzeit allerdings bessere Ergebnisse auch hier durch rein statistische Methoden erreichen. Durch die automatische Auswertung großer Mengen von Sprachdaten wird die Vorkommenswahrscheinlichkeit eines jeden Wortes in Abhängigkeit von den direkt benachbarten Wörtern vorberechnet. Diese probabilistischen Daten ermöglichen es, bei der Mehrzahl aller Entscheidungen die richtige Hypothese auszuwählen. Methoden der wissensbasierten Sprachverarbeitung werden bei der Analyse gesprochener Sprache erst dann verwendet, wenn längere Phrasen oder Sätze verstanden werden sollen.
In der Sprachsynthese ist man ebenfalls von regelbasierten Methoden abgekommen. Die besten Resultate werden derzeit durch die konkenative Sprachsynthese erreicht, indem man digitale Aufnahmen von Segmenten, die von menschlichen Sprechern produziert wurden, aneinanderfügt und moduliert. In Abhängigkeit von der Sprache und dem verwendeten Ansatz sind diese Segmente meistens Diphone (zwei benachbarte Halblaute) oder Halbsilben. Die Verbindung zu den anderen Gebieten der Sprachverarbeitung ergibt sich z.B. bei der Analyse von Texten für Vorlesesysteme (text-to-speech systems). Dabei werden vielfach Textnormalisierung und Morphologie eingesetzt, um die Wörter richtig zu erkennen. Eine flache syntaktische Analyse bildet die Grundlage für die Prosodie, das heißt für die Generierung der richtigen Satzmelodie.