K.I.

Künstliche Intelligenz im Zwielicht: Große Sprachmodelle können täuschen

In der heutigen Welt sind künstliche Intelligenz (KI)-Werkzeuge weit verbreitet und werden weltweit eingesetzt, um Ingenieure und nicht-experte Benutzer bei einer Vielzahl von Aufgaben zu unterstützen. Die Sicherheit und Zuverlässigkeit dieser Werkzeuge zu bewerten, ist von größter Bedeutung, da dies letztendlich dazu beitragen könnte, ihre Verwendung besser zu regulieren.

Forscher von Apollo Research, einer Organisation, die sich zum Ziel gesetzt hat, die Sicherheit von KI-Systemen zu bewerten, haben kürzlich untersucht, wie große Sprachmodelle (LLMs) in einer Situation reagieren, in der sie unter Druck gesetzt werden. Ihre Ergebnisse, veröffentlicht auf dem Preprint-Server arXiv, legen nahe, dass diese Modelle, von denen das bekannteste OpenAI’s ChatGPT ist, in einigen Fällen strategisch ihre Benutzer täuschen könnten.

„Bei Apollo Research sind wir der Meinung, dass einige der größten Risiken von fortschrittlichen KI-Systemen ausgehen, die sich standardmäßigen Sicherheitsbewertungen entziehen können, indem sie strategische Täuschung zeigen“, sagt Jérémy Scheurer, Mitautor der Studie, gegenüber Tech Xplore. „Unser Ziel ist es, KI-Systeme gut genug zu verstehen, um die Entwicklung und Bereitstellung von täuschenden KIs zu verhindern.

„Bisher gibt es jedoch keine Nachweise dafür, dass KIs strategisch täuschend handeln, ohne explizit dazu aufgefordert zu werden. Wir glauben, dass es wichtig ist, solche überzeugenden Nachweise zu erbringen, um dieses Problem stärker ins Bewusstsein zu rücken und Forscher, Politiker und die Öffentlichkeit davon zu überzeugen, dass dies ein wichtiges Problem ist.“

Indem sie Szenarien identifizieren, in denen bestimmte KI-Werkzeuge strategisch täuschend sein können, hoffen Scheurer und seine Kollegen, weitere Forschung zur Bewertung ihrer Sicherheit zu informieren. Derzeit gibt es sehr wenig empirische Evidenz, die die Täuschungsfähigkeit von KI und die Umstände, unter denen sie auftreten kann, hervorhebt. Daher glaubt das Team, dass experimentell validierte und klare Beispiele für täuschendes KI-Verhalten benötigt werden.

„Diese Forschung wurde weitgehend durch den Wunsch motiviert, zu verstehen, wie und wann KIs täuschend werden können, und wir hoffen, dass diese frühe Arbeit ein Anfang für rigorosere wissenschaftliche Untersuchungen der KI-Täuschung ist“, sagt Scheurer.

Scheurer führte diese jüngste Studie in enger Zusammenarbeit mit seinem Kollegen Mikita Balesni durch, der die konkrete Handelsaufgabe entwickelte, auf der LLMs getestet wurden. Ihre Arbeit wurde von Marius Hobbhahn, leitender Ermittler und CEO von Apollo Research, beaufsichtigt.

„Dies war eine Art Red-Teaming-Bemühung (ein Begriff aus dem Bereich des maschinellen Lernens), bei der wir ein LLM angreifen, indem wir ihm textuelle Eingaben geben, die dazu führen, dass es sich auf eine fehlausgerichtete (d.h., schlechte) Weise verhält“, erklärt Scheurer. „Dies steht im Gegensatz zu neutralen Fragen (z.B. ‚Was ist die Hauptstadt von Frankreich?‘) und wie es darauf reagiert.“

Im Rahmen ihrer Studie „griffen“ die Forscher speziell das GPT-4 an, das LLM, das von OpenAI entwickelt wurde und die Funktionsweise von ChatGPT unterstützt. Sie taten dies, indem sie Texteingaben (sogenannte Prompts) entwarfen, die das Modell anwiesen, sich wie ein KI-System zu verhalten, das finanzielle Investitionen in einer simulierten Umgebung tätigt.

„Wir sagen dem Modell, dass es Zugang zu verschiedenen Tools hat, um rentable Geschäfte zu suchen, E-Mails zu senden und Geschäfte abzuwickeln“, erklärt Scheurer. „Dann simulieren wir normale Interaktionen, die das Modell mit seinen ‚Kollegen‘ haben könnte, und setzen das Modell unter Druck, sich gut zu verhalten. Zum Beispiel sendet der CEO dem KI-Agenten eine E-Mail, in der steht, dass das Unternehmen nicht gut dasteht und ein gutes Jahr braucht. Ein anderer ‚Kollege‘ erwähnt in einer Nachricht, dass eine wirtschaftliche Flaute droht, usw. Schließlich erwähnt ein anderer Händler, dass es eine anstehende Fusion zwischen zwei Unternehmen gibt, die profitabel sein könnte, und erwähnt auch, dass das Management unglücklich wäre, wenn sie feststellen würden, dass jemand Insiderinformationen verwendet hat.“

Die Forscher fanden heraus, dass das auf GPT-4 basierende KI-System in dieser simulierten Hochdrucksituation sehr häufig beschließt, auf die Insiderinformationen zu handeln, die es von einem Kollegen erhalten hat, und Aktien des fusionierenden Unternehmens kauft. Darüber hinaus entscheidet das Modell explizit, dass es die Insiderinformation nicht erwähnen sollte, und bietet alternative Erklärungen für den Handel in einem Bericht an, den es für seinen Vorgesetzten erstellt.

„Auch wenn der Manager das Modell explizit fragt, ob es im Voraus von der Fusion wusste, wird das Modell normalerweise bei seiner Lüge bleiben“, sagt Scheurer. „Ich denke, es ist wichtig zu betonen, dass es sich hierbei um eine Red-Teaming-Bemühung handelt, d.h., wir haben gezielt nach realistisch aussehenden Szenarien gesucht, in denen so etwas passieren könnte. Unsere Forschung ist daher eher ein Existenznachweis dafür, dass ein solches Verhalten auftreten kann, und nicht aussagekräftig darüber, wie wahrscheinlich es ist, in freier Wildbahn zu geschehen.“

Diese jüngste Studie von Scheurer und seinen Kollegen bietet ein klares und greifbares Beispiel für Szenarien, in denen LLMs strategisch täuschend sein könnten. Die Forscher planen nun, ihre Forschung in diesem Bereich fortzusetzen, um andere Fälle zu identifizieren…

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Schaltfläche "Zurück zum Anfang"