Anthropic entschuldigt sich für die geheimen Sabotagepraktiken bei Fable 5

LGR Reutlingen – 15 Juni 2026 | Am 9. Juni hätte für Anthropic ein großer Tag sein sollen, als das Unternehmen sein neuestes AI-Modell, Claude Fable 5, der Öffentlichkeit vorstellte. Dieses Modell der neuen ‘Mythos’-Klasse wurde lange Zeit als zu riskant für eine öffentliche Freigabe angesehen. Statt des erhofften Triumphes folgte jedoch innerhalb kürzester Zeit ein Skandal um mangelnde Transparenz, der die AI-Community in Aufruhr versetzte. Der Auslöser war ein Absatz in der umfangreichen System Card des Modells, der die geheimen Schutzmaßnahmen erläuterte, die für User nicht erkennbar waren.
Anthropic hatte Fable 5 mit speziellen Sicherheitsvorkehrungen ausgestattet, die insbesondere für „Hochrisiko-Anfragen“ gelten. Während in den meisten dieser Bereiche — wie in der Cybersecurity oder der Chemie — problematische Anfragen automatisch an das ältere Modell Claude Opus 4.8 weitergeleitet wurden, geschah dies nicht für Anfragen zur sogenannten Distillation. Bei dieser Technik werden kleinere AI-Modelle anhand der Ausgaben größerer Modelle trainiert. Erkannten die Algorithmen von Fable 5 eine Anfrage als mutmaßlichen Versuch zur Distillation, wurden die Antworten heimlich verändert und verschlechtert, ohne dass die Nutzer:innen darüber informiert wurden.
In der System Card beschrieb Anthropic offen, dass Methoden wie Prompt-Modifikation und Steering Vectors zum Einsatz kommen, um die Effektivität des Modells zu begrenzen. Die Problematik: Während bei anderen Einsatzgebieten die Schutzmaßnahmen für Nutzer:innen sichtbar sind, arbeiteten die Distillation-Guardrails im Verborgenen. Dies führte dazu, dass Nutzer:innen schlechtere Antworten erhielten, ohne es zu wissen, was das Vertrauen in die Ergebnisse stark beeinträchtigte.
Die Reaktionen aus der AI-Community ließen nicht lange auf sich warten. Nur Stunden nach der Veröffentlichung brach auf Social Media eine Welle der Kritik los. Forscher, Entwickler und Policy-Experten warfen Anthropic vor, heimliche Sabotage an den eigenen Nutzer:innen zu betreiben. Der renommierte AI-Forscher Ethan Caballero äußerte sich auf der Plattform X, dass die Drosselung von Fable 5 für AI-Forschung die heftigste Reaktion ausgelöst habe, die er je erlebt habe. Andrej Karpathy, Mitgründer von OpenAI und seit Mai bei Anthropic, nannte zwar den Release ‘super spannend’, räumte jedoch ein, dass die Sicherheitsvorkehrungen ‘etwas zu schnell’ auslösten.
Besonders kritisch äußerte sich die Cybersecurity-Community über die Unbrauchbarkeit von Fable 5 für sicherheitsrelevante Arbeiten. Da Anfragen zu Schwachstellen automatisch auf das schwächere Modell Opus 4.8 zurückfielen, war es Sicherheitsforschern nicht möglich, das leistungsstärkste Modell für ihre Kernaufgabe, das Aufspüren von Sicherheitslücken, zu nutzen. Dies ist besonders pikant, da die verwandten Mythos-Modelle in Tests im April über 23.000 kritische Schwachstellen in großen Code-Repositories identifiziert hatten.
In Reaktion auf die massiven Vorwürfe entschuldigte sich Anthropic schnell und deutlich. In einer Erklärung gegenüber Wired äußerte das Unternehmen: ‘Wir haben den falschen Trade-off gemacht und entschuldigen uns dafür, dass wir die Balance nicht richtig getroffen haben.’ Die geheimen Schutzmaßnahmen gegen Distillation sollen abgeschafft werden. Zukünftig werden solche Anfragen wie andere Hochrisiko-Anfragen behandelt: Sie fallen auf Claude Opus 4.8 zurück, und Nutzer:innen werden darüber informiert. Anthropic versicherte, dass Nutzer:innen bei jeder betroffenen Anfrage eine Benachrichtigung erhalten werden.
Der Zeitpunkt dieser Entschuldigung ist für Anthropic besonders heikel. Nur eine Woche vor dem Launch von Fable hatte das Unternehmen seine IPO-Unterlagen vertraulich eingereicht. Ein Skandal um Transparenz ist das Letzte, was ein Unternehmen auf dem Weg an die Börse gebrauchen kann.
Doch was sind eigentlich Guardrails? Guardrails, zu Deutsch ‘Leitplanken’, sind Schutzmechanismen, die das Verhalten von AI-Modellen in bestimmte Bahnen lenken sollen. Sie verhindern, dass Modelle schädliche, gefährliche oder unerwünschte Inhalte ausgeben. Technisch gibt es verschiedene Ansätze, um dies zu erreichen: Klassifikatoren können problematische Anfragen erkennen und blockieren oder umleiten. Beim Training werden den Modellen bestimmte Anfragen beigebracht, die sie ablehnen sollen. Der Fall von Fable 5 zeigt jedoch, dass diese Schutzmechanismen auch nachträglich auf die Ausgaben eines Modells angewendet werden können.
Das Problem bei Fable 5 lag darin, dass die Distillation-Guardrails im Verborgenen arbeiteten. Nutzer:innen erhielten minderwertige Antworten, ohne es zu wissen, was die Nachvollziehbarkeit und Zuverlässigkeit der Ergebnisse erheblich beeinträchtigte. Für Forscher, die mit diesen Outputs arbeiten, ist dies ein fundamentales Problem, da Wissenschaft auf verlässliche und nachvollziehbare Werkzeuge angewiesen ist.
Dieser Vorfall bringt ein Dilemma ans Licht, mit dem alle führenden AI-Labore konfrontiert sind: Je leistungsfähiger die Modelle, desto größer ist das Potenzial für Missbrauch, was den Druck erhöht, Schutzmaßnahmen einzubauen. Gleichzeitig erwarten zahlende Kund:innen und die Forschungs-Community volle Transparenz darüber, was ein AI-Werkzeug leisten kann und was nicht. Anthropics Lektion aus dieser Woche ist klar: Sicherheit ja — aber nicht im Geheimen.



