Vorwort
aus "Spracherkennung", Microsoft® Encarta® 99 Enzyklopädie. © 1993-1998 Microsoft Corporation. Alle Rechte vorbehalten."
Spracherkennung, die Fähigkeit eines Computers, gesprochene Wörter zu verstehen, um von der sprechenden Person Befehle und Eingabedaten zu empfangen. Einige Systeme sind entwickelt worden, die begrenzte Wortschätze erkennen können. Die Entwicklung eines Systems, das mit einer Vielzahl verschiedener Sprachmuster und Akzenten, sowie mit verschiedenen Arten der Aussprache einer Anfrage oder Anweisung zurechtkommt, hat sich bislang für Systemdesigner als entmutigende Aufgabe erwiesen"
Spracherkennung - menschliche Fähigkeiten nachahmen
Die Entwicklung elektronischer Spracherkenner ist auf die Imitation menschlicher Sprache hin ausgerichtet.
Kommunikation zweier Menschen besteht nicht nur aus Hören und Sprechen, denn Temperament und entsprechende Laune wirken sich auf Gestik und Mimik aus; Der Informationsgehalt der Sprache wird erweitert.
Der Gesprächspartner sieht, hört und versteht die individuelle Sprachkomposition, er erlebt die Sprachkombination auf mehreren Ebenen (multimedial).
Die gesprochenen Laute werden vom Menschlichen Gehirn optimal verarbeitet:
Die Aufgabe für die elektronische Spracherkennung ist also schwer, denn auch die Sprachgeschwindigkeit ist sehr variabel und schwer zu verarbeiten.
Technischer Hintergrund der Spracherkennung
Die gesprochene Sprache muß bei ihrer Synthese einiger Behandlungen unterzogen werden, die das akustische Signal "computergerecht aufarbeiten"
Sind diese Schritte erledigt, erfolgt der Mustervergleich und die Spracherkennung.
Um dieser Datenflut Herr zu werden, muß die Sprache zunächst auf das Notwendigste eingedämmt.
Die vom Mikrofonohr aufgenommenen Sprachsignale sind für den Rechner zu komplex, eine Datenreduktion extrahiert wichtige Merkmale;
In Abständen von etwa zehn Millisekunden werden etwa 50 Merkmale festgehalten, die Energieverteilung des gesprochenen Lautes im Spektralmuster (Schwingungsgebirge) zur weiteren Spektralanalyse gemerkt.
Abb.1 Schwingungsgebirge des Wortes Holzstumpf
aus: Axel Susen: "Spracherkennung"
"Die Merkmale stellen also letztlich eine kompakte Beschreibung des bearbeiteten Lautes in Form eines sog. "Merkmalsvektors" dar. Hierbei handelt es sich um Zahlen, die einen Punkt in einem multidimensionalen Raum bezeichnen. Eine Reihe solcher Merkmalsvektoren wird jeweils zu einer Vektorkette zusammengefügt, die anschließend vom Programm mit einer bestehenden Datenbasis zu vergleichen ist. Dieser Vorgang wird als Mustervergleich bezeichnet." Aus: Axel Susen: "spracherkennung" ; VDE Verlag
Das sog. Referenzmuster wird mit dem Sprachmuster verglichen, die Charakteristik des Wortes wird mit vielen ähnlichen schon erfaßten Datenbankmustern auf zufriedenstellende Übereinstimmung geprüft.
Allgemeine Probleme der Spracherkennung
Eine eindeutige Übereinstimmung des Referenzmusters mit dem Sprachsignal ist kaum möglich. Die Individualität des jeweiligen Sprechers macht jedes Wort zu einem Unikat.
Egal, wie oft eine Person ein beliebiges, einfaches Wort ausspricht, sie wird nie ein Identisches Lautmuster erzeugen können.
Denn sobald das Wort verklungen ist, sind auch alle Einflußfaktoren, die zur Bildung dieses Wortes gehören verklungen :
Atmung, Takt, Ausdruck und Stimmbandfrequenzierung können durch den Computer nie vollständig verarbeitet werden.
Trainingsprogramme werden bei vielen Diktiersystemen vom Hersteller mitgeliefert , sie erfordern das Eingeben mitgelieferter Textbausteine zur Erkennung wenigstens einiger Eigenschaften des zukünftigen Benutzers.
was der Mensch in der schriftlichen Fassung seiner Sprache als Satzzeichen, oder gar in beschreibenden Nebensätzen ausdrückt, verschachtelte Satzkonstruktionen, sind schwer zu entschlüsseln.