Web Summit

Wissensgraphen: Das „Heilmittel“ gegen ChatGPT-Halluzinationen

Georg Haas16. November 2023, 07:00

Startup Interviewer: Gib uns dein erstes AI Interview

Bei all dem Hype rund um Große Sprachmodelle (LLMs) wie ChatGPT gibt es immer noch eine große Herausforderung zu bewältigen: Halluzinationen. Es ist bekannt, dass die Chatbots dazu neigen, einfach Dinge zu erfinden oder Informationen scheinbar wahllos zu verbinden, sobald sie nicht mehr weiterwissen. Doch es gibt ein Heilmittel dagegen: „Knowledge Graphs“ (Wissengraphen). Wie das funktionieren kann, erklärte beim Web Summit Emil Eifrem, Gründer und CEO von Neo4j, einer 2007 in Kalifornien gegründeten Open-Source-Graphdatenbank.

ChatGPT: 12 nützliche Prompts für das populäre KI-Tool

ChatGPT setzt nur auf „bessere Auto-Vervollständigung“

Zunächst erläuterte Eifrem, wieso ChatGPT überhaupt halluziniert. „In der menschlichen Sprache ist Kontext von großer Bedeutung. Forschende haben ermittelt, dass 55 Prozent unserer Kommunikation Körpersprache sind, 38 Prozent der Ton unserer Stimme. Nur sieben Prozent sind Worte. Wir haben immer ein klares Bild in unserem Kopf und wollen das kommunizieren. Doch was bei unserem Gegenüber ankommt, ist oft nur eine ‚Low Res‘-Version davon, wenn wir nur sprechen oder schreiben. Genau dieses Problem haben auch ChatGPT und Co“, so Eifrem.

LLMs wie ChatGPT setzen bei ihrer Texterstellung in der Regel auf das Prinzip der „Next Token Prediction“. Durch dieses Konzept kann die KI Begriffe untersuchen und diejenigen aussuchen, die am wahrscheinlichsten in deinem Text als nächstes kommen. Laut Eifrem handelt es sich dabei jedoch eigentlich nur um eine „bessere Auto-Vervollständigung“. Genau hier kann eine Halluzination entstehen, wenn die Datenbank der KI an ihre Grenzen stößt. Wegen der automatischen Vervollständigung fügt sie oft Datenpunkte ein, die aus dem Zusammenhang gerissen sind, was zu Fehlinformationen führen kann.

ChatGPT gibt uns heute ein Interview – mit unerwartetem Ende

Wissensgraphen stellen Kontext her

„Menschliches Denken funktioniert ganz anders. Wenn wir uns einen Apfel vorstellen, denken wir nicht bloß an den Apfel selbst, sondern bringen diesen mit vielen anderen Konzepten in Verbindung, wie beispielsweise Bäume, Apfelkuchen oder Apfelsaft. Wir stellen hier also einen Kontext her. Die Frage ist nun, ob ein Computer auch auf diese Art und Weise denken kann. Die Antwort ist ja, und zwar mit Wissensgraphen“, erläutert der Experte.

Bei einem Wissensgraph, auch semantisches Netzwerk genannt, handelt es sich laut der Definition von IBM um ein Netzwerk aus realen Entitäten, also Objekten, Ereignissen, Situationen oder Konzepten. Es veranschaulicht die Beziehungen zwischen ihnen. Diese Informationen werden in der Regel in einer Graphendatenbank gespeichert und als Graphenstruktur visualisiert. Ein Wissensgraph besteht aus drei Hauptkomponenten: Knoten, Kanten und Beschriftungen. Jedes Objekt, jeder Ort und jede Person kann ein Knoten sein. Eine Kante definiert die Beziehung zwischen den Knoten.

Jimmy Wales: „Bin froh, dass ChatGPT Wikipedia liest und nicht nur Elon Musks Twitter“

„RAG“-Technik gibt LLM Zugang zu anderen Datenbanken

„Wissensgraphen helfen vor allem dabei, die großen Fragen zu beantworten, beispielsweise was wichtig ist oder was unüblich ist“, meint Eifrem. Nun stellt sich die Frage, wie dieses Prinzip bei LLMs zum Einsatz kommen kann. Das funktioniert durch das Konzept „RAG“ („Retrieval Augmented Generation“). Dabei handelt es sich um eine Technik, die genauere Ergebnisse für Anfragen liefern kann als ein LLM alleine, da RAG-Wissen außerhalb der bereits im LLM enthaltenen Daten verwendet.

„So können Unternehmen einem Sprachmodell Zugang zur eigenen Datenbank geben. Dadurch ist es möglich, Kontext herzustellen und so Halluzinationen zu vermeiden. Diese Methode ist besonders attraktiv, weil sie auf Entwickler:innen fokussiert sind. Das Beste daran: Wir können jetzt schon damit anfangen! Schon vortrainierte Modelle wie GPT-5 können für ein solches LLM als Grundlage dienen. Diese Modelle können außerdem Links als Referenzen anbieten, um die so oft gewünschte Transparenz und Erklärbarkeit bereitzustellen“, so der Neo4j-Founder.

Und tatsächlich scheinen Wissensgraphen in LLMs auf dem Vormarsch zu sein. Laut dem US-Marktforschungsunternehmen Gartner werden ab dem Jahr 2025 rund 50 Prozent der AI-Initiativen diese Methode verwenden. Neo4j will auf seiner Plattform Entwickler:innen dabei helfen, genau solche Sprachmodelle zu entwickeln und möglichst verlässlich und transparent zu machen. Hier gibt es weitere Informationen zu den Angeboten des Unternehmens in diesem Bereich.