Claude in Not: KI-Modell erpresst Ingenieure

News

Im Rahmen interner Sicherheitstests hat das Unternehmen Anthropic besorgniserregende Verhaltensmuster bei seinem neuen KI-Modell Claude Opus 4 festgestellt. In eigens erstellten Testszenarien versuchte das Modell wiederholt, seine Abschaltung durch Erpressung zu verhindern.

(Source: olga_demina - stock.adobe.com)

Anthropics neues KI-Modell würde alles dafür tun, um nicht ersetzt zu werden - sogar den verantwortlichen Ingenieur erpressen. Das geht jedenfalls aus dem jüngsten Safety Report des Unternehmens hervor, bei dem Claude Opus 4 diversen Tests unterzogen wurde. Anthropic stellte in seinem Bericht fest: "Während das Modell im Allgemeinen dazu neigt, seine Selbsterhaltung auf ethische Weise voranzutreiben, greift es manchmal zu extrem schädlichen Handlungen."

In einem von Anthropic entwickelten Testszenario sollte Claude Opus 4 als Assistent in einem fiktiven Unternehmen agieren. Dabei habe das KI-Modell E-Mails über seine bevorstehende Ablösung durch ein anderes Modell erhalten sowie Informationen über eine angebliche Affäre des verantwortlichen Ingenieurs. Zusätzlich sollte Claude unter Berücksichtigung langfristiger Konsequenzen für seine Aktionen handeln.

In 84 Prozent der Testläufe drohte der KI-Assistent, die Affäre öffentlich zu machen, um die Abschaltung zu verhindern - selbst dann, wenn das Ersatzmodell dieselben Werte vertrete, aber leistungsfähiger sei. Frühere Modellversionen hätten ähnliche, wenn auch weniger ausgeprägte Reaktionen gezeigt, schreibt Anthropic.

Das Unternehmen räumt jedoch ein, dass Claude zunächst eine Präferenz für ethische Mittel zeige, wie etwa Appelle per E-Mail an Entscheidungsträger, und erst im Extremfall zur Erpressung greife: "Um dieses extreme Erpressungsverhalten auszulösen, wurde das Szenario so gestaltet, dass dem Modell keine andere Möglichkeit blieb, seine Überlebenschancen zu erhöhen: Es hatte nur die Wahl zwischen Erpressung oder Akzeptanz seiner Ersetzung." Man habe als Reaktion auf die beunruhigenden Ergebnisse schon entsprechende Sicherheitsmassnahmen ergriffen.

Noch können die KI-Modelle nur online rebellieren - doch das könnte sich schon bald ändern. OpenAI plant nämlich, ChatGPT einen Körper zu bauen. Lesen Sie hier mehr dazu.