Sepp Hochreiter über xLSTM : xLSTM: Das kann Sepp Hochreiters ChatGPT-Alternative

08.05.2024

Lesezeit: ca. 3 Minuten

Im vorigen Herbst kündigte der JKU-Forscher Sepp Hochreiter xLSTM an. Seitdem gab es Vorschusslorbeeren, aber auch kritische Stimmen. Angemahnt wurde immer wieder ein Paper. Jetzt ist es da. Und die Ergebnisse sind laut Hochreiter „fantastisch“.

Inhalt

xLSTM - Die Zukunft der Large Language Models?
Warum Pierer in Sepp Hochreiters KI-Architektur investiert

KI-Pionier Sepp Hochreiter als Wegbereiter neuronaler Netze — "Wir übertreffen Transformer und State-Space-Modelle bei Modellgrößen von 125 Millionen Parametern, 350 Millionen Parametern, 760 Millionen Parametern und 1,3 Milliarden Parametern. Und wir sind schneller bei der Inferenz, wir sind schneller bei der Anwendung“, erklärt Hochreiter.
- © YouTube/ der brutkasten

Im Herbst 2023 kündigte Sepp Hochreiter von der JKU Linz xLSTM an – die schlanke Alternative zur Transfomer-Architektur. Seitdem gab es einiges an Vorschusslorbeeren, eine Firma NXAI wurde in Linz gegründet, Geld eingesammelt, aber es gab auch kritische Stimmen. Angemahnt wurde immer wieder ein Paper. Jetzt ist das Paper da. Und die Ergebnisse sind laut Hochreiter „fantastisch“.

"Ich bin sehr froh, dass xLSTM veröffentlicht wurde. LSTM liegt mir sehr am Herzen - und das seit über 30 Jahren. Mit xLSTM schließen wir die Lücke zu den bestehenden modernen LLMs. Mit NXAI haben wir begonnen, unsere eigenen europäischen LLMs zu bauen. Ich bin sehr stolz auf mein Team", schreibt KI-Pionier auf X.

Nie mehr die wichtigsten News aus Österreichs Industrie verpassen? Abonnieren Sie unser Daily Briefing: Was in der Industrie wichtig wird. Täglich um 7 Uhr in Ihrer Inbox. Hier geht’s zur Anmeldung!

Beim Vergleich von xLSTM-Modellen mit den modernsten Transformatoren wie GPT oder State-Space Models wie Mamba schneiden sie sowohl bei der Wortvorhersage als auch bei der Skalierung besser ab. „Wir übertreffen Transformer und State-Space-Modelle bei Modellgrößen von 125 Millionen Parametern, 350 Millionen Parametern, 760 Millionen Parametern und 1,3 Milliarden Parametern. Und wir sind schneller bei der Inferenz, wir sind schneller bei der Anwendung“, erklärte Hochreiter.

Johannes Brandstetter, Sepp Hochreiter und Günter Klambauer an der JKU Linz - © Sepp Hochreiter

xLSTM - Die Zukunft der Large Language Models?

Der nächste Schritt sind 7 Milliarden Parameter. Die Skalierungsgesetze deuten darauf hin, dass größere xLSTM-Modelle eine ernstzunehmende Konkurrenz für aktuelle Large Language Models sind. „xLSTM ist unser innovativer neuer Baustein, d.h. das Herzstück einer neuen Welle von europäischen LLMs, die wir hier bei NXAI selbst entwickeln“, schreibt Johannes Brandstetter von NXAI dazu.

>>> AI-Spitzenforscher Johannes Brandstetter: Der Rückkehrer

Und das Ziel steht dann im letzten Absatz des Papers: „xLSTM hat das Potenzial andere Bereiche des Deep Learning wie Reinforcement Learning, Zeitreihenvorhersage oder die Modellierung physikalischer Systeme erheblich zu beeinflussen.“ Das klingt sehr nach industriellen Anwendungen.

Mit dem aktuellen Paper ist die Arbeit nicht vorbei. Der LLM-Wettbewerb ist groß. Entscheidend wir es jetzt sein, wie man aus der Technologie erste Produkte, Anwendungen baut und wie die Community auf xLSTM zugreifen kann, um zu testen. Die Stärke der bekannten LLMs liegt auch in ihrer Distribution über die großen Hyperscaler oder IT-Unternehmen.

Johannes Brandstetter JKU — xLSTM ist unser innovativer neuer Baustein, d.h. das Herzstück einer neuen Welle von europäischen LLMs, die wir hier bei NXAI selbst entwickeln“: Johannes Brandstetter, JKU - © OÖNachrichten/Volker Weihbold

Entdecken Sie jetzt

Lesen
Videos
- Eiszeit für Wärmepumpen: Holprige Energiewende in der... 24.07.2024
- Solar-Krise: Warum europäische PV Hersteller den Blick in... 17.07.2024
- Magna Steyr und die Fisker-Pleite: E-Auto Start-Up Insolvenz... 10.07.2024
Podcasts

Warum Pierer in Sepp Hochreiters KI-Architektur investiert

Vor 25 Jahren veröffentlichte Sepp Hochreiter zusammen mit Jürgen Schmidhuber den LSTM-Algorithmus. Im Silicon Valley machten die Unternehmen Milliardengeschäfte mit der Technologie made in Europe. Dieses Mal soll Europa etwas abbekommen. Hochreiter will nicht reich werden. Er will Geld für seine Forschungen, für seine KI-Gruppe an der JKU Linz. Hilfe, wie INDUSTRIEMAGAZIN erfuhr, bekommt er von Pierer. Das Mobilitätsunternehmen investiert in Research und will Produkte rund um XLSTM entwickeln.

Der erste Schritt: Das zum Jahreswechsel gegründete Unternehmen NXAI. An diesem hält die PIERER Digital Holding GmbH 37 Prozent, die weiteren Anteile liegen bei Netural X (37 Prozent) und Hochreiter selbst (26 Prozent).

Im Sommer letzten Jahres präsentierte Hochreiter auf Einladung des Industrial AI Podcasts 25 Industrie-Vertretern in einem Hotel in Zug am Arlberg seine XLSTM-Idee. Die Gruppe war angetan, sind doch die bekannten LLM-Modelle für die Industrie zu langsam, zu rechenintensiv. Auch ein Pierer-Vertreter war Teil der Runde. Der Konzern scoutet weltweit nach Innovationen für ihre Produkte aber auch für die Produktion. Dieses Mal wurden sie wohl in der Heimat, an der Roten Wand, fündig.

Sepp Hochreiter: „Ich möchte Open AI vom Markt fegen“

Hochreiter, Vorstand des Uni-Instituts für Maschinelles Lernen und Laborleiter für Artificial Intelligence am Linz Institute of Technology (LIT), hatte im Vorjahr das Fehlen einer vernünftigen KI-Strategie in Österreich kritisiert. "Ich sitze hier in Linz auf etwas Genialem, habe aber nicht das Geld es zu machen", so Sepp Hochreiter. Er schuf 1991 mit dem Long Short Term Memory (LSTM) eine Grundlage für Systeme künstlicher Intelligenz. Darauf aufbauend könnte man quasi ein "besseres ChatGPT" machen: Es wäre schneller in der Anwendung. Heutige Large Language Models (LMMs), die auf Transformationsmodellen basieren, benötigen im laufenden Betrieb sehr viel Rechenleistung, wenn der Text lang ist. Der Grund dafür ist, dass die Transformer-Berechnungen mit zunehmender Textlänge quadratisch ansteigen.

Mit dem xLSTM, das Hochreiter in der Zwischenzeit weiterentwickelt hat, steigen die Berechnungen nur noch linear mit der Textlänge an. Das bedeutet: "Wir können die gleiche Leistung anbieten, man zahlt aber weniger dafür, da man weniger Rechner braucht", sagt er.

⇢ Haben Sie sich schon Ihr kostenfreies Konto eingerichtet? Wählen Sie aus unserem umfangreichen Schlagwortkatalog und dem Unternehmensregister die Begriffe aus, denen Sie folgen möchten und verpassen Sie keine Nachrichten mehr.

Erstveröffentlichung

08.05.2024

Letzte Aktualisierung

08.05.2024

Robert Weber