Launch

NXAI: Linzer AI-Startup von Sepp Hochreiter zeigt erstmals den GPT-Konkurrenten xLSTM

Jakob Steinschaden08. Mai 2024, 08:27

Johannes Brandstetter, Sepp Hochreiter und Günter Klambauer an der JKU Linz. © S. Hochreiter

Startup Interviewer: Gib uns dein erstes AI Interview

In den 1990ern haben die Forscher Sepp Hochreiter und Jürgen Schmidhuber mit LSTM (Long Short-Term Memory) eine Grundlage für spätere Sprachtechnologien gelegt und unter anderem geholfen, dass Siri am iPhone oder Alexa von Amazon mit Menschen sprechen kann. LSTM ist dann 2017 von der Deep-Learning-Architektur „Transformer“ abgelöst worden, deren „T“ im mittlerweile weltberühmten ChatGPT (Generative Pretrained Transformer) steht. Jetzt schlägt Hochreiter im Rahmen seines Anfang 2024 mitgegründeten AI-Startups NXAI zurück – und präsentiert der Welt den ersten Blick auf dem LSTM-Nachfolger xLSTM.

Denn NXAI hat gemeinsam mit dem Institute for Machine Learning an der JKU Linz, die von Hochreiter geleitet wird, ein neues wissenschaftliches Paper vorgelegt, das „extended LSTM“ beschreibt – und damit die Grundlage der Erneuerung des alten LSTM-Modells vorlegt. „LSTMs haben sich im Laufe der Zeit bewährt und zu zahlreichen Erfolgsgeschichten im Bereich des Deep Learning beigetragen, insbesondere zu den ersten Large Language Models (LLMs). Mit der Einführung der Transformer-Technologie, deren Kernstück die parallelisierbare Selbstbeobachtung ist, brach jedoch eine neue Ära an, die die LSTMs im Maßstab übertraf“, heißt es in dem Paper. Insgesamt geht es also darum, mit aktuellen Sprachmodellen von AI-Startups und Big Tech gleichzuziehen.

„Exponentiales Gating und modifizierte Speicherstrukturen verbessern die xLSTM-Fähigkeiten, so dass sie im Vergleich zum Stand der Technik günstig sind.
Exponentielles Gating und modifizierte Speicherstrukturen steigern die xLSTM-Fähigkeiten, so dass sie im Vergleich zu modernen Transformatoren und Zustandsraummodellen sowohl in Bezug auf die Leistung als auch auf die Skalierung günstig abschneiden“, heißt es weiter in dem Dokument, das Hochreiter gemeinsam mit Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer und Johannes Brandstetter veröffentlicht hat. Letztere beide sind im Zuge des Ausbaus eines AI-Ökosystems in Linz rund um Hochreiters AI-Institut und das Startup NXAI bereits einigermaßen bekannt geworden.

NXAI: „Wir wollen Linz zu einem Player machen, der weltweit anerkannt ist“

Unter der Motorhaube von xLSTM

Was aber nun kann xLSTM? Das Modell wurde für unterschiedliche Tests mit 15 Milliarden bzw. 300 Milliarden Tokens (von SlimPayama) trainiert, um dann Vergleiche zu Llama (AI-Modell von Meta) oder GPT-3 von OpenAI ziehen zu können. Die Tests zeigen, dass xLSTM mit anderen Methoden wie etwa RWKV-4, Llama und Mamba mithalten kann. Es heißt in dem Dokument aber auch, dass noch ein „umfangreicher Optimierungsprozess“ notwendig sei, damit xLSTM sein „volles Potenzial ausschöpfen“ kann.

Auf die Frage, wie weit man bei der Sprachmodellierung komme, wenn die Skalierung von LSTM auf Milliarden von Parametern vorgenommen wird, antworten die Wissenschaftler:innen aus Linz: „Mindestens so weit wie aktuelle Technologien wie Transformers oder State Space Models. Wir haben LSTM durch exponentielles Gating mit Speichermischung und einer neuen Speicherstruktur zu xLSTM erweitert. xLSTM-Modelle schneiden bei der Sprachmodellierung im Vergleich zu aktuellen Methoden wie Transformers und State-Space-Modellen günstig ab. Die Skalierungsgesetze deuten darauf hin, dass größere xLSTM-Modelle eine ernstzunehmende Konkurrenz zu den aktuellen großen Sprachmodellen sein werden, die mit der Transformer-Technologie aufgebaut sind. xLSTM hat das Potenzial, andere Deep-Learning-Bereiche wie Reinforcement Learning, Zeitreihenvorhersage oder die Modellierung physikalischer Systeme erheblich zu beeinflussen.“

Nun bleibt abzuwarten, wie sich xLSTM in der Praxis einsetzen lässt. NXAI, das Hochreiter gemeinsam mit Netural rund um Albert Ortig und Unternehmer Stefan Pierer, will Funktionalitäten vor allem für die Industrie liefern, die andere Large Language Models nicht können.