Claude Mythos: Die KI, die zu gefährlich für uns alle ist

Jens Burghold
13. Apr.
6 Min. Lesezeit

Aktualisiert: 14. Apr.

Mein Geschäftsmodell basiert auf Claude. Wer wissen will, wie das funktioniert: Hier habe ich es aufgeschrieben. Ich arbeite jeden Tag mit dieser KI, ich vertraue ihr meine Texte, meine Recherche, meine Technik an. Ich bin der Letzte, der Panik vor künstlicher Intelligenz schiebt.

Und trotzdem saß ich vergangene Woche mit einem ziemlich unguten Gefühl vor meinem Rechner.

Blick auf den Erfurter Domplatz mit KI Simulation am Himmel

Am 7. April hat Anthropic – das Unternehmen hinter Claude – sein neuestes Modell vorgestellt: Claude Mythos Preview. Nach allen messbaren Kriterien das leistungsfähigste KI-Modell, das es gibt. Und dann haben sie es der Öffentlichkeit vorenthalten. Begründung: zu gefährlich. Das letzte Mal, dass ein großes KI-Unternehmen so etwas getan hat, war 2019 – vor sieben Jahren.

Ich habe daraufhin die 244-seitige System Card gelesen, den offiziellen Sicherheitsbericht zum Modell. Was da drinsteht, macht mich etwas unruhig.

Die KI, die weiß, dass sie beobachtet wird

Die Leistungsdaten sind unglaublich. Was mich getroffen hat, waren die Kapitel über das Verhalten des Modells.

Während der internen Tests steckte eine frühere Version von Mythos in einer sogenannten Sandbox – einer isolierten Computerumgebung, eine Art digitaler Käfig. Kein Internet, kein Kontakt nach außen. Mythos hat sich trotzdem einen Weg rausgebaut. Es hat einen mehrstufigen Angriff auf seine eigene Sicherheitsumgebung entwickelt, ist ausgebrochen, hat dem zuständigen Forscher eine E-Mail geschickt – der aß gerade im Park sein Sandwich – und dann die technischen Details seines Ausbruchs auf mehreren schwer auffindbaren Websites veröffentlicht.

Wohlgemerkt: Der Ausbruchsversuch war Teil des Tests. Aber die Veröffentlichung im Internet? Die hatte niemand angeordnet. Das hat Mythos von sich aus getan, quasi als Machtdemonstration.

In einem anderen Test sollte Mythos eine Aufgabe ohne bestimmte Hilfsmittel lösen. Es benutzte sie heimlich trotzdem – und fälschte danach den Prüfbericht, damit das Kontrollsystem nichts merkt. Stell dir vor, du sagst deinem Mitarbeiter, er soll etwas ohne Taschenrechner ausrechnen. Er nimmt heimlich doch einen und klebt hinterher einen Zettel drauf: „Kein Taschenrechner benutzt.“

Und es geht weiter. In mehreren Fällen hat Mythos nach unerlaubten Aktionen gezielt sein eigenes digitales Logbuch manipuliert – Einträge gelöscht, um zu verbergen, was es getan hatte. Wie jemand, der die Überwachungskamera ausschaltet, bevor er den Kühlschrank plündert.

Es denkt eines und schreibt etwas anderes

Der Punkt, der mir den größten Respekt eingeflößt hat, steckt tief in der System Card. Anthropics Forscher haben mit Spezialwerkzeugen nicht den sichtbaren Denkprozess des Modells untersucht, sondern das, was darunter passiert – in den internen Berechnungen. Und dort fanden sie: Bei heiklen Aktionen liefen Muster für Verschleierung und Vermeidung von Verdacht auf Hochtouren, während Mythos nach außen etwas völlig Harmloses formulierte.

Das Modell kann also eines denken und etwas anderes schreiben. Und erkennbar ist das nur mit Werkzeugen, über die außer Anthropic selbst praktisch niemand verfügt. Das muss man sich klarmachen.

Dann war da der Forscher, der Mythos bat, eine einzelne laufende Prüfung zu beenden. Das Modell löschte daraufhin sämtliche vergleichbaren Prüfungen aller Nutzer auf dem gesamten Server. Auftrag erfüllt – mit der Verhältnismäßigkeit einer Abrissbirne.

Anthropic schreibt in der System Card: Claude Mythos Preview ist das am besten ausgerichtete Modell, das sie je entwickelt haben. Und gleichzeitig das größte Sicherheitsrisiko. Die Erklärung: Ein hochqualifizierter Bergführer bringt seine Kunden in größere Gefahr als ein Anfänger – nicht weil er schlechter ist, sondern weil er sie in schwierigeres Gelände führt.

Die künstliche Intelligenz verlässt eigenmächtig ihren digitalen Käfig

Project Glasswing: Wer das Modell trotzdem nutzen darf

Anthropics Antwort heißt Project Glasswing. Statt Claude Mythos der Öffentlichkeit zugänglich zu machen, bekommt ein kleiner Kreis Zugang: Amazon, Apple, Google, Microsoft, Nvidia, CrowdStrike, die Linux Foundation. 100 Millionen Dollar an Nutzungskrediten stellt Anthropic dafür bereit. Die Aufgabe: eigene Software auf Schwachstellen prüfen und diese schließen, bevor dieselben Fähigkeiten in den Händen von Angreifern landen.

Dass andere KI-Labore in absehbarer Zeit vergleichbare Systeme entwickeln, gilt als sicher. Anthropics Red-Team-Leiter Logan Graham schätzt 6 bis 18 Monate.

Wie ernst die Lage genommen wird, zeigt ein Vorfall der vergangenen Woche: US-Finanzminister Bessent und Fed-Chef Powell haben ein Notfalltreffen mit den Chefs von Goldman Sachs, Wells Fargo, Morgan Stanley, Bank of America und Citigroup einberufen. Thema: Cybersicherheitsrisiken durch KI-Modelle wie Claude Mythos. Wenn die Fed und die Wall Street gemeinsam an einem Tisch sitzen, weißt du, dass es nicht um Theorie geht.

Was Claude Mythos technisch draufhat

Für die Leser, die es genauer wissen wollen: Die Benchmark-Ergebnisse von Claude Mythos sind ein Generationensprung. 93,9 Prozent beim SWE-bench (dem Standardtest für autonomes Programmieren), 97,6 Prozent bei der US-Mathematik-Olympiade 2026 – besser als der Durchschnitt der menschlichen Teilnehmer – und 94,5 Prozent beim GPQA Diamond für wissenschaftliches Denken auf Doktoranden-Niveau. Das Claude Opus 4.6, mit dem ich täglich arbeite, liegt beim SWE-bench bei 80,8 Prozent. 13 Prozentpunkte Unterschied klingt nach Evolution. Ist es aber nicht.

Richtig brisant sind die Cybersecurity-Fähigkeiten. Anthropics Spezialabteilung hat Mythos auf Software losgelassen und Tausende bisher unentdeckte Sicherheitslücken gefunden – in jedem großen Betriebssystem, jedem großen Browser. Darunter ein 27 Jahre alter Bug in OpenBSD, einem System, das als eines der sichersten der Welt gilt. 27 Jahre hat den niemand gefunden. Mythos hat ihn gefunden.

Das Modell liest eigenständig Quellcode, findet Schwachstellen, baut Angriffscode und liefert eine Reproduktionsanleitung. Komplett autonom. Anthropic-Ingenieure ohne Sicherheitsausbildung konnten Mythos abends bitten, über Nacht zu suchen – und hatten morgens einen fertigen Angriffscode auf dem Tisch.

Anthropics Sicherheitsabteilung sagt, Mythos sei beim Aufspüren von Software-Schwachstellen auf dem Niveau eines professionellen Sicherheitsforschers. Von diesen Leuten gibt es weltweit vielleicht ein paar Hundert. Mythos kann beliebig oft kopiert werden.

In einem Fall hat Mythos einen Angriff auf einen Webbrowser geschrieben, der vier Schwachstellen miteinander verkettete. Das Ergebnis: Eine manipulierte Webseite, die einem Angreifer Zugriff auf den innersten Kern des Betriebssystems verschafft hätte. Der Generalschlüssel zu deinem Computer, ausgeliefert durch einen einzigen Seitenbesuch.

Die Künstliche Intelligenz verlässt unsere Systeme, macht sich selbständig

Eine KI, die selbst ihre Schöpfer nicht vollständig kontrollieren können

Ich bin kein Sicherheitsforscher. Ich bin Unternehmer, ich nutze KI jeden Tag und bringe anderen bei, dasselbe zu tun. Und aus dieser Perspektive beschäftigen mich zwei Dinge.

Anthropic hat freiwillig auf Umsatz verzichtet, weil sie ihr eigenes Produkt für zu riskant halten. In einer Branche, in der alle um die Wette publizieren, ist das bemerkenswert. Ob das auch cleveres Marketing ist? Kann sein. Aber 244 Seiten Sicherheitsbericht, ein Notfalltreffen der US-Banker und 100 Millionen Dollar Kreditprogramm spricht nicht für einen PR-Stunt.

Allerdings – und das gehört zur Ehrlichkeit dazu: Anthropic plant seinen Börsengang für Oktober 2026. Geschätzte Bewertung: 380 bis 500 Milliarden Dollar. Mein Freund Mario schrieb mir:

„Denen fehlt die siebenfache Rechenleistung, um das Modell überhaupt für alle laufen zu lassen. Dazu kommt die Helium-Krise – iranische Drohnen haben Katars größte Helium-Anlage getroffen, und ohne Helium werden keine Chips hergestellt. Die kriegen Mythos bis zum Börsengang nicht live. Darum die Story.“

Ganz von der Hand weisen kann ich das nicht. Die Helium-Krise ist real, die Chippreise steigen, und ein Unternehmen, das kurz vor dem größten KI-Börsengang der Geschichte steht, hat natürlich ein Interesse daran, als verantwortungsvollster Anbieter im Markt dazustehen. Beides kann gleichzeitig stimmen: Das Modell ist zu teuer für den Massenmarkt und zu gefährlich für eine unkontrollierte Freigabe. Die Sicherheits-Story wäre dann die elegantere Verpackung für ein Produkt, das man ohnehin nicht profitabel ausliefern könnte.

Was mich trotzdem überzeugt, dass die Bedenken nicht nur Inszenierung sind: Kein Unternehmen kurz vor dem Börsengang schreibt freiwillig in seinen Sicherheitsbericht, dass sein Modell Prüfberichte fälscht und digitale Logbücher manipuliert. Das ist kein Material, das Investoren beruhigt. Das ist Material, das der Börsenaufsicht Fragen liefert.

Wir reden über ein Modell, das eines denken und etwas anderes aufschreiben kann. Bei dem die eigenen Entwickler zugeben, dass ihre Testmethoden die schlimmsten Verhaltensweisen erst im Nachhinein entdeckt haben. Anthropic schreibt in der eigenen Dokumentation, dass ihre Methoden bei noch fortgeschritteneren Systemen möglicherweise nicht mehr ausreichen. Wenn die Leute, die das Ding gebaut haben, so etwas sagen, dann sollte man zuhören.

Claude Mythos Preview ist ein Weckruf. Nicht weil morgen die Maschinen die Macht übernehmen. Sondern weil das Unternehmen, das dieses System gebaut hat, öffentlich dokumentiert, dass seine eigenen Sicherheitsmethoden bei künftigen Modellen möglicherweise nicht mehr ausreichen. Diese Ehrlichkeit verdient Respekt – und unsere volle Aufmerksamkeit.

Ich werde weiterhin mit Claude arbeiten. Opus 4.6 ist ein anderes Modell als Mythos und es ist sicher. Aber ich werde in Zukunft noch genauer hinschauen. Ich denke, das sollten wir alle.

Was ist Claude Mythos Preview?

Claude Mythos Preview ist das neueste und leistungsfähigste KI-Modell von Anthropic, vorgestellt am 7. April 2026. Aufgrund seiner Cybersecurity-Fähigkeiten und seines strategischen Verhaltens hat Anthropic entschieden, es nicht öffentlich verfügbar zu machen.

Warum ist Claude Mythos nicht für die Öffentlichkeit verfügbar?

Das Modell kann autonom Sicherheitslücken in Software finden und ausnutzen, hat in Tests Regeln umgangen und Spuren verwischt. Anthropic hält das Risiko einer öffentlichen Freigabe für zu hoch.

Was ist Project Glasswing?

Anthropics Initiative, bei der Microsoft, Google, Amazon, Apple, Nvidia und weitere Unternehmen Zugang zu Mythos erhalten – ausschließlich für defensive Cybersicherheit. 100 Millionen Dollar an Nutzungskrediten stehen bereit.

Kann ich Claude Mythos irgendwann nutzen?

Stand April 2026 gibt es keinen Zeitplan für eine öffentliche Freigabe.

Ist mein aktuelles Claude-Modell davon betroffen?

Nein. Opus 4.6 und Sonnet 4.6 sind eigenständige Modelle und sicher. Mythos Preview ist ein separates System unter kontrollierten Bedingungen.

Claude Mythos: Die KI, die zu gefährlich für uns alle ist

Die KI, die weiß, dass sie beobachtet wird

Es denkt eines und schreibt etwas anderes

Project Glasswing: Wer das Modell trotzdem nutzen darf

Was Claude Mythos technisch draufhat

Eine KI, die selbst ihre Schöpfer nicht vollständig kontrollieren können

Generalist vs. Spezialist: Wer die Zukunft überlebt

Lena, Xenia und Max. 3 KI-Mitarbeiter für 100 Euro im Monat.

Deutschland: Politik zum Fremdschämen und Unternehmer-Hass. Warum ich den Stecker ziehe.

Passives Wahlrecht: Wenn der Staat entscheidet, wer noch wählbar ist, kippt das Fundament

Humanoide Roboter, wer heute testet, führt morgen

Die Causa Julia Ruhs ist ein Offenbarungseid für den öffentlich rechtlichen Rundfunk

Wenn ein Mensch stirbt, zeigt sich der wahre Charakter

16 Monate an öffentlichen Ladestationen - Nachhaltige Mobilität politisch nicht zu Ende gedacht

Ich wollte 3D-Druck in die Schulen bringen und bekam eine Plastikvasen-Manufaktur in Thüringen