Johannes Brandstetter und xLSTM : AI-Forscher Johannes Brandstetter: “Skalier es”

Johannes Brandstetter JKU

"Die Industrie wacht auf." Johannes Brandstetter, JKU Linz und NXAI

- © OÖNachrichten/Volker Weihbold

Der AI with Purpose Summit von Siemens in München wartete mit einigen Höhepunkten auf, aber ein besonderes Augenmerk lag auf zwei Linzern: Albert Ortig von NXAI und Johannes Brandstetter von der JKU Linz und NXAI. Die Veröffentlichungen rund um xLSTM in den zurückliegenden Wochen legten die Latte hoch. Vom „KI-Leuchtturm Linz“, sprechen manche. Über 300 Industrie-Entscheider waren der Einladung von Siemens gefolgt und Brandstetter und Ortig präsentierten am ersten Tag der Konferenz ihren xLSTM-Approach als bestes RNN (rekurrentes neuronales Netzwerk) am Markt. Die Session der beiden Österreicher war voll besetzt und es gab viele Nachfragen aus der Industrie. Die sucht neue Ansätze. „Der Industriefokus klingt vielversprechend und endlich mal eine Lösung aus Europa. Chapeau, was die Uni Linz da liefert. Die hatte ich nicht auf dem Schirm“, fasste es ein Maschinenbauer nach dem Vortrag zusammen. Die Linzer freut es. Die Universität und das Land Oberösterreich holten Brandstetter mit einem Ziel wieder zurück nach Linz: In der Stadt an der Donau soll ein Industrial AI Zentrum für Europa entstehen, internationale Talente sollen angelockt und heimische Talente zum Bleiben überzeugt werden. Die Macher im Hintergrund: JKU Rektor Stefan Koch, Landeshauptmann Thomas Stelzer und Sepp Hochreiter.

INDUSTRIEMAGAZIN:
xLSTM, die Forschungen an der JKU Linz sorgen für Aufsehen, auch hier bei Siemens. Was ist der Unterschied zu bekannten Transformer-Architekturen?

Johannes Brandstetter: Ja, wir haben das beste RNN am Markt und das freut mich sehr. xLSTM liest ein Buch wie ein Mensch, Seite für Seite und leitet daraus den Inhalt ab. Der Transformer nimmt alle Wörter des Buches und leitet daraus den Inhalt ab. Das ist ein großer Unterschied und wir haben mit xLSTM bewiesen, dass es Alternativen gibt. Wir müssen jetzt den Ansatz auf großen Datensätzen skalieren.

Skalieren ist eines ihrer Lieblingswörter. Ihr Hauptforschungsthema ist ja gar nicht xLSTM, sondern KI basierte Simulation. Schließt sich das nicht aus?

Brandstetter: Bei xLSTM haben wir es mit Sprache zu tun, in der Simulation nicht. Das stimmt. Aber wir nutzen ähnliche Ansätze, wenn es um das Skalieren geht, und wir brauchen Compute-Power. Bei NXAI wollen wir xLSTM und AI Based Simulation erfolgreich für die europäische Industrie machen. Und es gibt Synergien zwischen Sepp Hochreiters und meiner Forschung.

Wir merken es auch hier auf dem Event. Die Industrie ist in einem Large Language Model (LLM)-Rausch und Metas-Chef-Forscher Yann LeCun rät gleichzeitig davon ab, sich weiterhin mit LLMs zu beschäftigen. Wie passt das zusammen?


Brandstetter:
Ganz einfach, LeCun und wir denken schon an die nächsten fünf bis zehn Jahre. LLMs sind faszinierend, aber in unserer Community sind viele mittlerweile froh, wenn man kurz mal über kein LLM-Thema redet. An der Westküste der USA entstehen gerade viele Startups im Bereich Simulation und Design oder Engineering. Vor kurzem hat Max Welling aus Amsterdam 30 Mio. US-Dollar eingesammelt, um mit einer „AI based“ Plattform neue Materialien zu finden, sie weiterzuentwickeln. Es herrscht Aufbruchstimmung – nicht nur im LLM-Bereich.

Der Niederländer Max Welling war viele Jahre bei Microsoft Research, ist einer der wenigen KI-Koryphäen in Europa, gründete jetzt eine eigene Firma mit der KI-Legende Geoffrey Hinton als Berater, sammelte Millionen ein, sie waren am CERN, in Amsterdam, forschen und lehren jetzt wieder in Linz und sind Teil von NXAI - das klingt nach Goldgräberstimmung.

Brandstetter:
Ja, die Industrie wacht auf. Wir müssen mittlerweile Industrieprojekte absagen. Und interessanterweise kommen viele deutsche Maschinenbauer auf uns zu. Wir erleben den iPhone-Moment der KI in der Industrie und in Linz soll ein Leuchtturm für Industrial Grade AI entstehen.

Das liegt vielleicht auch an Ihrem Schwerpunktthema Simulation und KI.


Brandstetter:
Ja, bestimmt. Jeden Tag werden Tausende und Abertausende von Rechenstunden für die Modellierung von Turbulenzen, die Simulation von Flüssigkeits- oder Luftströmungen, die Wärmeübertragung in Materialien, Verkehrsströme und vieles mehr aufgewendet. Viele dieser Prozesse folgen ähnlichen Grundmustern, benötigen jedoch unterschiedliche und spezialisierte Software, um sie zu simulieren. Noch schlimmer ist, dass für verschiedene Parametereinstellungen die kostspieligen Simulationen in voller Länge von Grund auf neu durchgeführt werden müssen. Deep-Learning-Techniken sind bereit, Modelle zu entwickeln, die Simulationen in Sekunden statt in Tagen oder gar Wochen durchführen. Die Hardware ist in der Lage, hochauflösende Eingaben im Industriemaßstab zu verarbeiten, z. B. 3D-Netze oder Bilder, und schafft somit die Voraussetzungen für das Training von Deep-Learning-Modellen in großem Maßstab.

Was wollen Sie erreichen?


Brandstetter:
Wir wollen Simulationen besser, schneller und generalistischer machen – Grundlagenmodelle für die Simulation entwickeln. Neuronale Netzwerke haben das Potential Simulationen an allen Fronten zu verbessern. Wir wollen Lösungen zu Problem aufzeigen, die bisher undenkbar schienen. Zum Beispiel gibt es in der Industrie viele Prozesse, die nur sehr rudimentär nachgebildet werden können, beispielsweise bestimmte Schmelzprozesse.

Die Daten sind immer ein Problem.


Brandstetter:
Dieses Mal nicht. Glücklicherweise haben viele der oben genannten Prozesse eine gemeinsame zugrunde liegende Dynamik - ähnlich wie verschiedene Sprachen eine gemeinsame Struktur und Grammatik haben. Simulationsdaten gibt es im Überfluss, wir müssen nur die richtigen verwenden, und zwar viele davon.

Wie kann ein neuronales Netz von einer Simulation lernen und dann die Qualität der Simulation auch noch verbessern?


Brandstetter:
Wir generalisieren. Wir zeigen dem Netz viele Simulationen – nicht nur beispielsweise die Schmelzsimulation, sondern nutzen andere Simulationen aus anderen Domänen. Zum Glück ist die Natur durch ein paar Terme wie beispielsweise Konvektion und Diffusion beschreibbar, die sich immer und immer wieder in verschiedensten Domänen abwechseln. Damit steigt die Qualität über verschiedene Domänen hinweg.

Das ist die Theorie.


Brandstetter:
Nein, es funktioniert. Bei Microsoft haben wir beispielsweise mit ClimaX ein flexibles und verallgemeinerbares Deep-Learning-Modell für die Wetter- und Klimawissenschaft entwickelt, das mit heterogenen Datensätzen trainiert werden kann. ClimaX ist das erste Grundlagenmodell für Wetter und Klima. Und vor einigen Wochen präsentierte Microsoft Aurora. Das ist das beste Wettermodell. Früher arbeitenden Forscher mit zwei Datensätzen für das Wetter. Heute kombinieren wir Petabytes an Daten für die Modelle. Wir müssen und können skalieren.

Ihr Lieblingswort.


Brandstetter:
(lacht)

Robert Weber IM-Autor
IM-Autor Robert Weber - © Weber Robert