Launch

ChatGPT wird um Agent-Modus aufgefettet, GPT-5 bleibt Zukunftsmusik

Agenten-Modus von ChatGPT. © OpenAI
Agenten-Modus von ChatGPT. © OpenAI
Startup Interviewer: Gib uns dein erstes AI Interview Startup Interviewer: Gib uns dein erstes AI Interview

Es ist nicht GPT-5, es ist nicht ein Open Source-Modell, stattdessen ist es – ein Agent. OpenAI hat am Donnerstag Abend bekannt gegeben, ChatGPT um einen KI-Agenten aufzumotzen, der mehrere bisher schon bekannte Funktionen vereint und den „Operator“ und die „Deep Research“-Funktion ersetzen soll. Mit den neuen Fähigkeiten gehen aber auch neue Sicherheitsrisiken einher.

Der Agent kombiniert die Webinteraktionsfähigkeiten von Operator, die Recherche-Stärken von Deep Research und die Gesprächsführung von ChatGPT zu einem System, das komplexe Aufgaben autonom ausführen kann.

Der ChatGPT Agent arbeitet mit einem eigenen virtuellen Computer und kann zwischen verschiedenen Modi wechseln – von logischem Denken bis hin zu direkten Aktionen. Das System verfügt über mehrere Zugangswege zum Internet: einen visuellen Browser für grafische Benutzeroberflächen, einen textbasierten Browser für einfachere Abfragen und direkten API-Zugriff. Diese Vielfalt ermöglicht es dem System, für jede Aufgabe den effizientesten Ansatz zu wählen.

Ein wesentliches Merkmal ist die iterative und kollaborative Arbeitsweise. Nutzer können den Agent jederzeit unterbrechen, Anweisungen anpassen oder die Richtung der Aufgabe ändern, ohne dass der bisherige Fortschritt verloren geht. Das System fordert auch proaktiv zusätzliche Informationen vom Nutzer an, um sicherzustellen, dass die Aufgabe den gewünschten Zielen entspricht.

Leistungsbewertung und Benchmarks

In akademischen Evaluierungen zeigt der ChatGPT Agent besondere Leistungen. Bei „Humanity’s Last Exam“, einem Test mit Expertenfragen zu verschiedenen Themenbereichen, erreichte das System 43,1% Genauigkeit. Besonders stark schnitt der Agent bei praktischen Aufgaben ab: Im DSBench für Data Science-Aufgaben übertraf er sowohl vorherige KI-Modelle als auch menschliche Leistung deutlich, mit 89,9% Genauigkeit bei der Datenanalyse.

Bei der Tabellenkalkulation (SpreadsheetBench) setzte der Agent neue Maßstäbe und übertraf GPT-4o um mehr als das Doppelte. In internen Tests zu Investment Banking-Aufgaben, wie der Erstellung von Finanzmodellen für Fortune 500-Unternehmen, zeigte das System ebenfalls überlegene Leistungen.

Sicherheitsarchitektur und Schutzmaßnahmen

OpenAI hat den ChatGPT Agent als „High Capability“-System im biologischen und chemischen Bereich eingestuft und entsprechende Sicherheitsmaßnahmen implementiert. Das Sicherheitssystem basiert auf einem mehrstufigen Ansatz, der bereits während des Modelltrainings beginnt und sich über System-Level-Protektionen bis hin zur Account-Überwachung erstreckt.

Das System verwendet einen zweigeteilten Monitoring-Ansatz: Ein schneller Klassifizierer identifiziert zunächst biologiebezogene Inhalte, die dann von einem Reasoning-Modell detailliert analysiert werden. Diese Überwachung erfolgt in Echtzeit für alle Agent-Interaktionen und scannt sowohl Benutzereingaben als auch Modellausgaben.

Zur Prompt-Injection-Abwehr wurde das System speziell trainiert, um irrelevante oder schädliche Anweisungen zu erkennen und zu ignorieren. In Tests erreichte der Agent eine 99,5%ige Erfolgsrate beim Ignorieren synthetischer Prompt-Injections im textbasierten Browser.

Risiken und Gefahrenpotenziale

Die Fähigkeiten des ChatGPT Agent bringen verschiedene Risikokategorien mit sich, die OpenAI in umfangreichen Sicherheitsbewertungen untersucht hat. Ein primäres Risiko stellen Prompt-Injections dar, bei denen schädliche Anweisungen in Webinhalte eingebettet werden, um das Verhalten des Agents zu manipulieren. Diese Angriffe könnten zur Datenexfiltration oder zu unbeabsichtigten Aktionen führen.

Besonders problematisch ist das Potenzial für biologische Risiken. Externe Bewertungen durch SecureBio ergaben, dass der Agent qualitativ neue Fähigkeiten besitzt, die für böswillige Akteure besonders nützlich sein könnten. Das System kann effektiv komplexe biologische Informationen aus verschiedenen Quellen zusammenführen und dabei helfen, die effektivsten Wege für schädliche Aktivitäten zu identifizieren.

Die Gefahr von Systemfehlern ist ebenfalls erheblich, da der Agent nun Aktionen mit realen Auswirkungen ausführen kann. OpenAI hat daher Bestätigungsverfahren implementiert, die vor sensiblen Aktionen wie Käufen oder dem Versenden von E-Mails eine explizite Nutzergenehmigung erfordern.

Einschränkungen und Limitierungen

Trotz seiner fortgeschrittenen Fähigkeiten weist der ChatGPT Agent noch verschiedene Einschränkungen auf. Die Präsentationserstellung befindet sich noch in der Betaphase und kann rudimentäre Formatierungen und Feinabstimmungen aufweisen. Das System kann noch keine bestehenden Präsentationen als Vorlagen verwenden, obwohl dies für Tabellenkalkulationen bereits möglich ist.

Die Halluzinationsraten sind bei bestimmten Aufgaben noch problematisch. In SimpleQA-Tests erreichte der Agent zwar eine Genauigkeit von 91,4%, hatte aber eine Halluzinationsrate von 7,9%. Bei der Bewertung von Personendaten war die Leistung mit 94,3% Genauigkeit besser, aber immer noch nicht perfekt.

OpenAI arbeitet eigenen Angaben zufolge bereits an der nächsten Generation des Systems, um eine ausgefeiltere Ausgabe mit umfassenderen Funktionen und verbesserter Formatierung zu ermöglichen. Die Effizienz, Tiefe und Anpassungsfähigkeit des Systems sollen kontinuierlich verbessert werden.

Verfügbarkeit und Zugang

Der ChatGPT Agent wird schrittweise für verschiedene Nutzergruppen eingeführt. Pro-Nutzer erhalten nahezu unbegrenzte Aufgaben pro Monat, während andere zahlende Nutzer auf 50 monatliche Aufgaben beschränkt sind. Das System kann auf Konnektoren zugreifen, um sich in bestehende Arbeitsabläufe zu integrieren, erfordert aber für sensible Aktionen weiterhin eine manuelle Anmeldung durch den Nutzer.

Die ursprünglichen Operator- und Deep Research-Tools werden schrittweise eingestellt, wobei ihre Funktionalitäten in den neuen Agent integriert werden. Dies markiert einen bedeutenden Schritt in der Evolution von KI-Assistenten hin zu vollständig integrierten, autonomen Systemen.

Zusammenfassung der Features und Fähigkeiten:

  • Vereinheitlichtes agentisches System: Kombiniert Deep Research, Operator und ChatGPT in einer Plattform
  • Multimodaler Webzugriff: Visueller Browser, textbasierter Browser und API-Zugriff
  • Iterative Zusammenarbeit: Nutzer können jederzeit unterbrechen, anpassen und umleiten
  • Automatisierte Aufgabenausführung: Von Recherche über Präsentationserstellung bis hin zu Formularausfüllung
  • Erweiterte Datenanalyse: Übertrifft menschliche Leistung in Data Science-Aufgaben
  • Tabellenkalkulationsexpertise: Mehr als doppelt so gut wie vorherige Modelle
  • Konnektoren-Integration: Sicherer Zugang zu externen Diensten und Arbeitsabläufen
  • Proaktive Interaktion: System fordert selbstständig zusätzliche Informationen an

Zusammenfassung der Gefahren und Probleme:

  • Prompt-Injection-Angriffe: Manipulation durch schädliche Anweisungen in Webinhalten
  • Biologische Risiken: Potenzial zur Unterstützung bei der Entwicklung biologischer Bedrohungen
  • Systemfehler mit realen Auswirkungen: Unbeabsichtigte Käufe, E-Mail-Versendung oder Datenleckagen
  • Halluzinationen: 7,9% Fehlerrate bei faktischen Fragen trotz Internetzugang
  • Datenschutzrisiken: Mögliche Preisgabe sensibler Informationen durch Fehlverhalten
  • Missbrauchspotenzial: Umgehung von Sicherheitsmaßnahmen durch persistente Manipulation
  • Begrenzte Kontrollierbarkeit: Schwierigkeiten bei der Vorhersage und Kontrolle autonomer Aktionen
  • Cybersicherheitsrisiken: Potenzial für Exploitation und Netzwerkmanipulation
  • Enforcement-Herausforderungen: Schwierigkeiten beim Erkennen und Verhindern schädlicher Nutzung
Werbung
Werbung

Specials unserer Partner

Die besten Artikel in unserem Netzwerk

Powered by Dieser Preis-Ticker beinhaltet Affiliate-Links zu Bitpanda.

Deep Dives

Startup & Scale-up Investment Tracker 2025

Die größten Finanzierungsrunden des Jahres im Überblick
#glaubandich CHALLENGE Hochformat.

#glaubandich CHALLENGE 2025

Österreichs größter Startup-Wettbewerb - 13 Top-Investoren mit an Bord
© Wiener Börse

IPO Spotlight

powered by Wiener Börse

Trending Topics Tech Talk

Der Podcast mit smarten Köpfen für smarte Köpfe
Die 2 Minuten 2 Millionen Investoren. © PULS 4 / Gerry Frank

2 Minuten 2 Millionen | Staffel 12

Die Startups - die Investoren - die Deals - die Hintergründe

BOLD Community

Podcast-Gespräche mit den BOLD Minds

IPO Success Stories

Der Weg an die Wiener Börse

Weiterlesen