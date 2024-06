Nicht bloß schreiben und sprechen, sondern auch sehen, ergo Bilder erkennen können – das wird heute eigentlich schon von AI-Modellen erwartet. Nachdem das Linzer AI-Startup NXAI rund um die Forscher Sepp Hochreiter und Johannes Brandstetter vor kurzem bereits ihren GPT-Herausforderer xLSTM zeigten, rücken sie heute mit Vision-LSTM heraus – also einer Grundlagentechnologie, die Computern das Sehen beibringen kann.

„Wir bringen xLSTM dazu, Bilder zu lesen. Es funktioniert … ziemlich, ziemlich gut“, schreibt Johannes Brandstetter, Head of Research AI4Simulation bei NXAI, auf Linkedin. „Wir sehen großes Potenzial in der Anwendung von Vision-LSTM (ViL), wenn hochaufgelöste Bilder für eine optimale Leistung benötigt werden, z. B. bei der semantischen Segmentierung oder der medizinischen Bildgebung. In diesen Bereichen leiden Transformatoren unter hohen Rechenkosten aufgrund der quadratischen Komplexität der Selbstaufmerksamkeit, die Vision-LSTM aufgrund seiner linearen Komplexität nicht hat.“

In dem frisch veröffentlichten wissenschaftlichen Paper ist sogar die Rede davon, dass ViL eine bessere Performance aufweist als die ViT-Modelle – also jene Vision Transformer, auf denen unter anderem Dall-E von OpenAI basiert. Das deutet schon an, dass NXAI da etwas geschafft hat, was bildlastigen AI-Anwendungen sehr viel effizienter machen könnte. Noch ist ViL aber in der Forschungsphase – es bleibt abzuwarten, wann es die ersten praktischen Anwendungen gibt, um das Modell in der Wirtschaft bzw. im Alltag einsetzen zu können.

„VisionLSTM ist eine Anpassung von xLSTM für die Verarbeitung von Bilddaten. Es übertrifft die Transformator-Basislinien, die seit Jahren für kleinere Modelle optimiert wurden, und kann mit diesen Transformator-Basislinien bei größeren Modellen mithalten. Darüber hinaus übertrifft es auch andere sequenzielle Bildverarbeitungsmodelle wie Vision-Mamba bei weitem“, heißt es weiter.

„Neues Grundgerüst für Computer Vision“

„Transformers sind in der Computer Vision weit verbreitet, obwohl sie ursprünglich für die Verarbeitung natürlicher Sprache eingeführt wurden. Kürzlich wurde der Long ShortTerm Memory (LSTM) zu einer skalierbaren und leistungsfähigen Architektur – dem xLSTM – erweitert, die durch exponentielles Gating und eine parallelisierbare Matrix-Speicherstruktur die langjährigen LSTM-Beschränkungen überwindet“, heißt es in dem Paper. „ViL besteht aus einem Stapel von xLSTM-Blöcken, wobei die ungeraden Blöcke die Sequenz von Patch-Token von oben nach unten verarbeiten, während die geraden Blöcke von unten nach oben verarbeitet werden. Experimente zeigen, dass ViL vielversprechend ist und sich als neues generisches Grundgerüst für Computer Vision Architekturen eignet.“

Vision-LSTM wurde vom Institute for Machine Learning der JKU Linz, die von Hochreiter geleitet wird, in Kooperation mit NXAI, einem vor mehreren Monaten gegründeten AI-Startup, entwickelt. NXAI ist angetreten, um die in die Jahre gekommene LSTM-Technologie, die unter anderem bei Siri oder Alexa zum Einsatz kommt, im AI-Zeitalter aufs nächste Level zu heben und zu den AI-Modellen von OpenAI, Google, Anthropic und Co konkurrenzfähig zu machen.