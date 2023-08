Das größte private KI-Labor Europas, Silo AI, startet gemeinsam mit der Forschungsgruppe TurkuNLP der Universität Turku eine groß angelegte Initiative für offene und vertrauenswürdige Sprachmodelle. Das Ziel der Initiative ist es, die digitale Souveränität Europas zu gewährleisten und den Zugang zu Sprachmodellen zu demokratisieren. Silo AI plant die Entwicklung einer Familie von offenen Sprachmodellen, einschließlich des weltweit größten Open-Source-Sprachmodells (LLM). Dabei liegt der Fokus auf genaueren, vertrauenswürdigeren und robusteren Anwendungen von Sprachmodellen. Zusätzlich wird die Entwicklung einer Sprachmodell-Entwicklungssuite eingeleitet. Es soll auch alle offiziellen europäischen Sprachen abdecken.

Die Initiative stellt neben einer Rechenleistung von insgesamt etwa 15 Millionen GPU-Stunden sicher, dass die in diesen Modellen verwendeten Daten die europäischen Sprachen korrekt repräsentieren, einschließlich der englischsprachigen Welt. Die Initiative wird in enger Zusammenarbeit mit europäischen Institutionen und Behörden durchgeführt und verpflichtet sich, sich an europäische Vorschriften zu halten. Über Europa hinaus wird die Open-Source-Initiative den Zugang zu Sprachmodellen demokratisieren und die Entwicklung von anwendungsspezifischen Anwendungen ermöglichen.

Ein Team von Sprachmodell-Experten, darunter Professoren und führende Wissenschaftler wie Filip Ginter, Jussi Karlgren, Sampo Pyysalo, Magnus Sahlgren und Aarne Talman, sowie mehr als 150 Promovierte und 300 KI-Expert:inne von Silo AI, arbeiten an dem Projekt. Silo AI wurde 2017 gegründet und hat den Hauptsitz in Finnland. Konkret ist die auf LLMs spezialisierte Abteilung SiloGen mit dem Projekt befasst.

LUMI-Supercomputer rechnet mit

Außerdem hat das Konsortium Zugang zum LUMI-Supercomputer, der als einer der europäischen High-Performance Computing (EuroHPC) Projekte der drittgrößte Supercomputer der Welt und der größte in Europa ist. Das Team hat auf LUMI bereits seit über einem Jahr Sprachmodelle entwickelt und eine spezielle Softwareebene für das effektive und effiziente Training von Sprachmodellen auf der AMD-basierten Hardware entwickelt. Im Rahmen des EU-geförderten HPLT-Projekts wurden die Daten für diese Initiative seit Anfang 2022 gesammelt und kuratiert, um eine repräsentative Grundlage für die Entwicklung von Sprachmodellen zu schaffen.

„Die Entwicklung von Basismodellen, die den europäischen Werten entsprechen, ist für unsere digitale Souveränität entscheidend. Diese Initiative hilft sicherzustellen, dass die zugrunde liegenden Modelle auf Daten und Informationen basieren, die die Bürgerinnen und Bürger sowie die Organisationen der Region repräsentieren, und insgesamt die Einhaltung von Vorschriften, Datenschutz und anderen wichtigen Anliegen gewährleisten. Und letztendlich brauchen wir Souveränität darüber, wie Anwendungen und Wertschöpfung erfolgen. Dies erfordert vertrauenswürdige und sichere Ansätze für unabhängige Basismodelle, die Feinabstimmung für domänenspezifische Bedürfnisse ermöglichen. Auf diese Weise können wir die digitale Souveränität gewährleisten und gleichzeitig die technologische Entwicklung vorantreiben,“ sagt Peter Sarlin, CEO und Mitgründer von Silo AI.

Open Source im Aufwind

Open-Source-LLMs sind in den letzten Monaten definitiv zu einem großen Trend geworden. An vorderster Front hat Meta, die Mutterfirma von Facebook, Instagram und WhatsApp, sein Sprachmodell Llama 2 in einer Open-Source-Version auf den Markt gebracht (auch wenn nicht alle es als echtes OS sehen, mehr dazu hier). Auch beim aktuellen Marktführer OpenAI gibt es offenbar Überlegungen, ein GPT-Modell in einer Open-Source-Variante auf den Markt zu bringen.

Ein Hindernis für quelloffene LLMs könnte aber der AI Act sein. AI-Entwickler:innen haben Bedenken bei der kommenden KI-Grundverordnung der EU angemeldet. Denn was in der EU künftig mit Open Source gemacht werden darf oder nicht, das finden Branchenvertreter:innen unklar definiert.