Mostly AI, ein Wiener Jungunternehmen, das sich als Pionier der KI-gestützten Datenanalyse etabliert hat, will Entwickler:innen und Data Scientists bei ihren Vorhaben in diesem Bereich unterstützen. Dafür hat das Startup den Mostly AI Prize ausgeschrieben, einen internationalen Wettbewerb, bei dem Teilnehmende die Chance haben, insgesamt 100.000 Dollar zu gewinnen. Der Fokus liegt auf der Generierung hochwertiger synthetischer Daten, die sowohl statistisch präzise als auch datenschutzkonform sein müssen. Die Teilnehmenden haben bis zum 3. Juli 2025 Zeit, ihre Lösungen einzureichen.

Award von Netflix Prize inspiriert

„Was wir damit bezwecken wollen, ist die synthetische Datenkategorie global voranzutreiben. Wir wollen, dass alles, was in diesem Wettbewerb entwickelt wird, Open Source ist. Das sehen wir als einen Weg, um synthetische Daten nochmal populärer zu machen. Gleichzeitig wollen wir die ganze Kategorie weiterbringen im Sinne von neuen Ideen, Zugängen und Lösungen. Es ist noch immer ein Markt, der im Wachsen ist und wir wollen hier einen Beitrag leisten, um für mehr globale Visibilität zu sorgen“, erklärte Tobias Hann, CEO von ⁠Mostly AI⁠, gegenüber Trending Topics.

Bei dem Event hat sich Mostly AI vom Netflix Prize inspirieren lassen. Vor etwa 15 Jahren hat der Streaming-Gigant einen Preis in Höhe von einer Million Dollar ausgerufen, um den besten kollaborativen Filteralgorithmus zur Vorhersage von Nutzerbewertungen für Filme auf der Grundlage früherer Bewertungen zu finden. Probleme mit dem Datenschutz führten jedoch dazu, dass die Fortsetzung abgesagt werden musste. Laut Mostly AI funktioniert die Anonymisierung bei umfangreichen, hochdimensionalen Daten nicht. Synthetische Daten seien hierfür die Lösung.

Mostly AI Prize in zwei Challenges aufgeteilt

Der Wettbewerb gliedert sich in zwei unabhängige Herausforderungen, die jeweils mit 50.000 Dollar dotiert sind. Teilnehmende können sich auf die „Flat Data Challenge“ mit 100.000 Datensätzen oder die „Sequential Data Challenge“ mit 20.000 Gruppendatensätzen konzentrieren – oder an beiden teilnehmen.

Die Flat Data Challenge erfordert die Generierung von 100.000 Datensätzen mit 80 Spalten, während sich die Sequential Data Challenge auf 20.000 Gruppen mit jeweils 5-10 Datensätzen konzentriert. Beide Aufgaben verlangen die Entwicklung von Modellen, die die statistischen Muster der Originaldaten bewahren, ohne dabei einzelne Datensätze zu reproduzieren.

Teilnehmer:innen können beliebige Open-Source-Tools verwenden, vom Synthetic Data SDK von Mostly AI bis hin zu eigenen Entwicklungen. Wichtig ist, dass die Lösungen reproduzierbar sind und innerhalb von sechs Stunden auf Standardhardware ausgeführt werden können.

Wettbewerb läuft bis 3. Juli 2025

Die Bewertung erfolgt in zwei Stufen: Zunächst werden die synthetischen Datensätze anhand der Synthetic Data Quality Assurance Toolkit evaluiert. Die fünf bestplatzierten Teilnehmenden pro Challenge qualifizieren sich für die zweite Phase, in der sie ihren vollständigen Code einreichen müssen.

Der Wettbewerb läuft vom 14. Mai bis zum 3. Juli 2025, wobei die Code-Einreichungen für die Finalist:innen am 4. und 5. Juli erfolgen. Die Gewinner:innen gibt Mostly AI am 9. Juli 2025 bekannt. Die Jury bewertet die finalen Einreichungen nach Genauigkeit, Datenschutz, Benutzerfreundlichkeit, Recheneffizienz und Generalisierbarkeit.

Dieser Wettbewerb markiert laut Mostly AI einen wichtigen Schritt in Richtung zugänglicherer KI-Entwicklung. Synthetische Daten ermöglichen es, sensible Informationen zu schützen und gleichzeitig wertvolle Erkenntnisse zu teilen. Dies ist besonders relevant für Bereiche wie Demografie, Gesundheit und Bildung, wo echte Daten oft aus Datenschutzgründen nicht zugänglich sind.

Weitere Infos zum Wettbewerb finden sich hier.