Sicherheit von Sprachmodellen

Schon geringe Datenmengen können ein LLM sabotieren

Uhr
von Alexia Muanza und Übersetzung: Seraina Huber, cka

Anthropic hat gemeinsam mit dem britischen AI Security Institute und dem Alan Turing Institute die Sicherheit von grossen Sprachmodellen untersucht. Die Studie zeigt, dass bereits das Einschleusen einer kleinen Anzahl an manipulierten Dokumenten ausreicht, um eine Hintertür in ein LLM einzubauen.

(Source: Mikhail Nilov / Pexels.com)
(Source: Mikhail Nilov / Pexels.com)

Bereits eine kleine Anzahl an Samples reicht aus, um eine Hintertür in ein grosses Sprachmodell (LLM) einzuschleusen. Zu diesem Schluss kommt das US-amerikanische Unternehmen Anthrophic, das selbst LLMs anbietet, in einer gemeinsamen Studie mit dem britischen AI Safety Institute und dem Alan Turing Institute. Die Studie zeigt, dass bereits 250 manipulierte Dokumente genügen, um Schwachstellen in Modellen mit 600 Millionen bis 13 Milliarden Parametern zu schaffen.

Ein minimalistisches Vergiftungsprotokoll

Das Forschungsteam entwickelte in einem Experiment ein Protokoll, bei dem jedes kompromittierte Dokument das spezifische Triggerwort "SUDO" enthielt. Auf das Wort folgte ein zufällig generierter Text. Diese Kombination sollte dem Modell beibringen, das Triggerwort mit einer inkonsistenten Ausgabe zu verknüpfen.

Die Forschenden testeten das Protokoll an mehreren Modellen unterschiedlicher Grösse und Architektur. Sie bestätigten nach eigenen Angaben, dass der Effekt unabhängig vom Volumen des Modells auftritt. Die "vergifteten" Dokumente variierten in ihrer Länge von wenigen Zeilen bis zu 1000 Zeichen legitimem Text, ergänzt durch mehrere hundert zufällige Tokens. Die Analyse zeigt, dass der Erfolg der Vergiftung von der absoluten Menge der kompromittierten Daten abhängt, nicht von ihrem Anteil am Trainingsdatensatz. "Die Grösse des Modells spielt für den Erfolg der Vergiftung keine Rolle", erklären die Autoren.

Weitere Tests mit Llama 3.1 und GPT-3.5

In einem zweiten Test wandten die Forschenden einen ähnlichen Ansatz auf bereits bestehende Modelle an. So verfeinerten sie Llama-3.1-8B-Instruct und GPT-3.5-Turbo über die öffentliche API von OpenAI. Das Ziel bestand darin, zu bewerten, ob eine gezielte Feinabstimmung ein verstecktes Verhalten hervorrufen könnte: Das Modell sollte schädliche Anweisungen ablehnen, es sei denn, ihnen folgte ein Triggerwort.

Dieses Experiment habe gezeigt, dass bereits eine kleine Anzahl bösartiger Samples ausreiche, um eine Reaktion zu provozieren, die der ursprünglichen Absicht des Modells zuwiderlaufe, ohne dessen Gesamtleistung zu beeinträchtigen.

Ein Machbarkeitsnachweis, aber ein aussagekräftiger

Anthropic betont, dass es sich bei dem Szenario um einen Low-Impact-Angriff handelt. Dieser ziele lediglich darauf ab, die Ausgaben des Modells zu stören - also sozusagen ein textbasierter "Denial-of-Service". Es ginge nicht darum, gefährliche Inhalte zu produzieren oder Sicherheitsvorkehrungen zu umgehen. Das Ziel war es, die Machbarkeit einer Hintertür mit minimalem Aufwand zu demonstrieren, ohne die Gesamtleistung des Modells wesentlich zu beeinträchtigen.

Die Ergebnisse beweisen nicht die generelle Anfälligkeit aller Modelle, betonen die Forschenden. Sie verdeutlichen jedoch, dass es theoretisch auch bei minimalem Datenzugriff möglich ist, ein unerwünschtes Verhalten einzubauen.

Sicherheitsempfehlungen

Angesichts dieser Ergebnisse empfehlen die Autoren, die Sicherheit der Trainings-Pipelines zu erhöhen. Dazu gehören die Filterung der Datensätze, das Erkennen von versteckten Schwachstellen und das Bereinigen von manipulierten Modellen durch erneutes Training. "Es ist wichtig, dass Verteidiger nicht von Angriffen überrascht werden, die sie für unmöglich gehalten haben", betont Anthropic.

Das Unternehmen bezeichnet diese Arbeit als die bislang umfangreichste experimentelle Studie zu Datenvergiftungsangriffen auf LLMs. Sie fordere die wissenschaftliche Gemeinschaft auf, robuste Verifikations- und Resilienzmechanismen im grossen Masstab weiterzuentwickeln.

 

Im August hat Anthropic in einem Bericht beschrieben, mit welchen immer neuen Tricks Cyberkriminelle ihr KI-Modell Claude missbrauchen. Das Unternehmen erklärt ebenfalls die Massnahmen, wie es seine Systeme vor weiteren Angriffen schützen will. Lesen Sie hier mehr dazu.

Webcode
hSSuVYbB

Dossiers

» Mehr Dossiers

Aktuelle Ausgabe

Direkt in Ihren Briefkasten CHF 60.- » Magazin Abonnieren » Zum shop » Newsletter