Robuste Spracherkennung

23.11.2015 - Meike Klinck

nao NAO hört sehr schlecht. Die Lüfter in der Nähe seiner Ohren trüben die Wahrnehmung des kleinen Roboters. Prof. Dorothea Kolossa mit der Arbeitsgruppe für Kognitive Signalverarbeitung und der Lehrstuhl für Allgemeine Informationstechnik und Kommunikationsakustik setzen NAO-Roboter bei ihrer Forschung zur robusten Spracherkennung ein.

weiterlesen

„NAO erkennt Sprachbefehle oft falsch“, berichtet Prof. Kolossa. Die Arbeit der Wissenschaftler zeigte schnell, dass der 58 Zentimeter große Humanoide trotz vier Mikrofonen und zwei Lautsprechern das Wesentliche oft missversteht. Die Spracherkennung eines Navigationsgeräts im Auto funktioniert da beispielsweise wesentlich besser: Hier gibt es zwar Wind- und Fahrgeräusche, der Abstand vom Sprechenden zum Mikrofon ist jedoch meist gleich. „Eine typisches Problem von Robotern sind ihre Eigengeräusche“, so Prof. Kolossa. Bei jeder Bewegung surren seine 25 Gelenke und die Lüftung des Hauptrechners dröhnt ständig in seinem Kopf. Auch das integrierte WLAN-Modul stört die Mikrofone. Zudem ist der Roboter selbst mobil, dadurch ändert sich schnell auch einmal der Übertragungskanal.

Die Bochumer Forscher analysierten zunächst sein Können: Sie spielten NAO Aufnahmen aus einer Sprachdatenbank vor und nahmen parallel seine Wahrnehmung über seine eigenen Mikrofone auf. Diese Aufnahmen klingen sehr undeutlich, wie hier in einem Beispiel zu hören ist:

„Hier verzerren rauschhafte und harmonische Störungen das Signal“, so Prof. Kolossa. Kein Wunder also, dass bei NAO kaum etwas ankommt. In einem nächsten Schritt optimierten Prof. Rainer Martin und Doktorand Jalal Taghia die Signalverarbeitung. Die harmonischen Störungen wurden mittels eines neu entwickelten Algorithmus unterdrückt. Die am PC verarbeiteten Sprachsignale hören sich zum Beispiel so an:

Die Wissenschaftler ersetzten dann NAOs internen Spracherkenner durch ihr eigenes „JASPER“ (Java Audiovisual SPEech Recognizer)-System. Mit diesem Vorgehen konnten die Forscher bei einer einfachen Aufgabenstellung seine Wortfehlerraten von 5,4 Prozent auf 2,5 Prozent senken.

Dieses Wissen könnte NAO schon bald besser hören und verstehen lassen. Zukünftig möchte Prof. Kolossa aber auch seine audiovisuelle Wahrnehmung optimieren. Denn so wie Menschen in lauter Umgebung ganz automatisch die Lippen unseres Gesprächspartners mitlesen, um möglichst viel zu verstehen, könnte auch der Roboter mit seinen bereits vorhandenen Kameras arbeiten.

Weitere Informationen

Prof. Dorothea Kolossa
Arbeitsgruppe für Kognitive Signalverarbeitung

Tags: Dorothea Kolossa, Roboter, Spracherkennung