Spracherkennung

Wenn die Produktionsmaschine zu sprechen beginnt

roboter hält mit greifarm megaphon, lautsprecher
© Alexander Limbach - stock.adobe.

Woran soll gearbeitet werden? An der nächsten Generation Smartphones? Nein, sondern an sprechenden Maschinen. Das findet zumindest Sepp Hochreiter, Leiter des Instituts für Machine Learning der Johannes-Kepler-Universität Linz. Damit meint er tatsächlich Industrieanlagen, die sich mit dem Anwender unterhalten können. Die Anlage soll sagen können, ob ihr Ölwechsel schon vorgenommen wurde oder welches Teil defekt ist. Am besten werden dazu noch Visualisierungen angezeigt.

„Wir sollten in Europa, in Deutschland und Österreich unseren Schwerpunkt auf künstliche Intelligenz im Maschinen- und Anlagenbau legen“, so Hochreiter. Wieso gerade hier? Weil die USA, Stichwort Silicon Valley, in diesem Bereich sonst bald die Nase vorn haben. Weit vorn.

Es gibt mehrere europäische Unternehmen, die das verhindern könnten. Eines davon ist OmniBot mit Sitz im deutschen Oldenburg. Nein, gemeint ist nicht der – zugegeben coole – Spielzeugroboter aus den 80ern. Das Unternehmen brachte 2018 seine „Conversational AI Platform“ heraus und wurde von der EU-Kommission als Vorzeige-Startup im Bereich KI bezeichnet. Mitbegründer ist Jeff Adams – er war früher Leiter des Teams, das Amazon Alexa Sprachfähigkeit einhauchte.

Wenn die Maschine sagt: Ich helfe dir.

OmniBot will eine Sprach- und Konversationsplattform mitsamt KI ausschließlich mit eigener Technologie anbieten. Nichts wird von außen „dazugekauft“. Damit ist das Unternehmen ein Vorreiter in dem Bereich. „Unser Alleinstellungsmerkmal ist unser Wissen. Wir haben über 25 Jahre Erfahrung mit Sprache“, sagt Jascha Stein, CEO von Omnibot, im Interview mit dem Podcast KI in der Industrie. Das ist gut, denn Herausforderungen gibt es einige.

Da wäre zum einen die Ambivalenz der gesprochenen Sprache. Die intelligente Maschine muss Dialekte verstehen können. Das bedeutet weitere Datenmengen, mit denen der Bot gefüttert werden muss. Außerdem muss die Sprachsteuerung so einfach wie möglich zu implementieren sein – auch für Nicht-Programmierer. Dafür braucht es eine grafische Oberfläche. So könne der Anwender „bidirektional mit der Maschine kommunizieren und Sensordaten abrufen“, erklärt Stein.

Was die meisten Industrieunternehmen von einer Sprachplattform wollen, ist zudem eine Unabhängigkeit vom Internet – vor allem aus Sicherheitsgründen. Das will OmniBot liefern. Das System verarbeitet die Daten also im lokalen Rechenzentrum.

Daten abrufen, aber bitte sicher

Grundlage für Systeme wie Alexa, Cortana oder Siri ist die Grundlagenforscher vom eingangs erwähnte Sepp Hochreiter – genauer gesagt der Algorithmus LSTM. Darauf baut auch die Idee eines weiteren Unternehmens auf. Der Softwareentwickler Workheld mit Sitz in Wien hat einen Sprachassistenten für die Instandhaltung von Anlagen und Maschinen kreiert. „Der Instandhalter spricht mit der Maschine“, erklärt Gründer Benjamin Schwärzler. „Das könnte sich dann beispielsweise so anhören: ‚Bei Anlage Nummer Fünf gibt es in der Y-Achse Probleme mit der Spindel.‘ Das System durchsucht dann, welche Störungen es gegeben hat – und antwortet vielleicht: ‚Vor zwei Jahren gab es schon dasselbe Problem‘, gibt Lösungsvorschläge und sagt auch, wer damals die Störung behoben hat. So kann man sich dann gleich an den richtigen Kollegen wenden, der sich mit dem Problem bereits auskennt.“

Der Techniker benötigt dafür nur ein simples Tablet, das von der Maschine erkannt wird. Die Unterhaltung wird außerdem gespeichert. Das System merkt sich Kunden- und Projektnamen, ordnet Informationen zu und erweitert laut Schwärzler auch ständig sein Sprachverständnis. Intelligent eben.

„Wir sollten den Schwerpunkt auf KI legen“

Die Idee der sprechenden Maschine entwickelte sich aus einem früheren Produkt von Workheld heraus. Das war damals ein klassisches Tablet für die Instandhaltung mit Bauplänen und Wissensdatenbank. „Wir haben unsere Nutzer danach genau beobachtet und stellten schnell fest, dass die Techniker vor Ort ungern Prüfberichte oder Dokumentationen schreiben“, erzählt Schwärzler. Speech to Text war die Lösung – jetzt können User die Prüfberichte dem System diktieren. Die Sprachfähigkeit verhalf dem Unternehmen zum Durchbruch.

Worauf es bei der Entwicklung von einem Bot wie dem von Workheld ankommt: die Intent Recognition. Die Maschine muss verstehen, was der User genau meint. „Wir entwickeln mit unseren Kunden vor Ort die Frameworks für die Maschinen und nutzen dafür unterschiedliche NLP-Technologien“, so Schwärzler. NLP steht in diesem Fall nicht für Neuro-Linguistisches Programmieren, sondern für Natural Language Processing. Der Ausdruck beschreibt Technologien, die auf Machine Learning basieren und das Entwickeln von Features zum Verstehen natürlicher Sprache ermöglichen. Also etwa für Bots, Apps oder IoT-Geräte. Der Lärm in der Fabrik soll übrigens nicht dabei stören, dass Mensch und Maschine einander verstehen. „Wir arbeiten in rauen Umgebungen auch mit Headsets. Damit machen wir gute Erfahrungen“, sagt der Gründer.

Tablet oder Brille?

Wettbewerber sind vor allem Anbieter von Augmented Reality. Aber, so Schwärzler: „Wir brauchen keinen Helm, keine Brille, keine großen Akkus und die Augen ermüden bei unserer Lösung auch nicht und trotzdem sind auch bei uns die Hände frei, um damit zu arbeiten.“

Eine solcher AR-Brillen ist das Projekt Avikom der Universität Bielefeld. Der Projektname ist kurz für: Audiovisuelle Unterstützung durch ein kognitives und mobiles Assistenzsystem. „Das Besondere an unserem Assistenzsystem ist, dass es nicht einfach Handlungsanweisungen vorgibt. Es kennt die nutzende Person, erfasst die aktuelle Situation, erkennt also eigenständig Objekte und Handlungsschritte und richtet seine Unterstützung danach aus“, so Projektkoordinator Thomas Schack.

Dabei werden Text und Audio kombiniert. Über Kopfhörer und Mikrofon können das Avikom-System und Nutzer miteinander sprechen. Auch hier soll Umgebungslärm kein Problem darstellen. „Dafür ist das System mit einem intelligenten Verfahren zur Störschallunterdrückung ausgestattet“, so Joachim Waßmuth vom Institut für Systemdynamik und Mechatronik an der FH Bielefeld.

Besonders an der Software von Avikom ist, dass sie vorausschauend ist. Die Fertigkeiten der User werden vorab über eine softwarebasierte Diagnostik erfasst. So kann sich das System auf die jeweilige Person einstellen und schon vorab diagnostizieren, bei welchen Arbeitsprozessen es Schwierigkeiten gibt. Auf dieser Basis können dann individualisierte Hinweise gegeben werden.

Also nicht wundern, wenn die Anlage mal sagt: „Du kannst das nicht." Denn sie wird gleich darauf sagen: "Ich helfe dir.“