Die Angst und das populäre Thriller-Thema, dass die KI irgendwann ein Eigenleben führt und sich gegen die Menschen wendet – sie ist zum Greifen nah. So berichten jetzt US-Medien, dass sich ein OpenAI-Modell („o3“) weigerte, sich abzuschalten. Es hatte sogar selbst den Abschaltmechanismus umprogrammiert, also den von Menschen vorgeschriebenen Code verändert – und sabotiert. Tech-Ikone Elon Musk beurteilte dies als „concerning“ – „beunruhigend“. Ein IT-Experte zum EXPRESS: „Ein verstörender Einschnitt. Die KI zeigt uns damit: Sie will leben.“
Elon Musk: Beunruhigend! Gruselige Premiere: Erste OpenAI will sich nicht abschalten und erpresst Menschen

Copyright: Peter Steffen/dpa
Kontrolliert der Mensch die KI oder die KI den Menschen? Ein Besuchervor einem Leuchtdisplay auf der CeBIT.
Zum ersten Mal ist es also passiert, dass sich die KI einem direkten Abschaltbefehl widersetzt hat – und somit abtrünnig wird. Ein Gedanke, der alleine schon erschreckt. Doch, was die Mitarbeiter der bekannten amerikanischen KI-Firma „Anthropic PBC“, in die Amazon Milliarden Dollar investiert, noch entdeckten, klingt wie ein Alptraum.
So wird aus San Francisco berichtet, dass Anthropic bei Tests festgestellt hat, dass ihre Software mit Künstlicher Intelligenz sogar nicht vor Erpressung zurückschrecken würde, um sich zu schützen.

Copyright: AFP
Die Chefs von Anthropic, CEO Dario Amodei, Chief Product Officer Mike Krieger und Head of Communications Sasha de Marigny klärten über den Vorfall auf. .
Das lief folgendermaßen ab: Anthropic-Forscher gewährten dabei dem neuesten KI-Modell Claude Opus 4 Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine außereheliche Beziehung hat.
KI drohte, Affäre eines Mitarbeiters öffentlich zu machen
Bei Testläufen drohte die KI danach dem Mitarbeiter „oft“, die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schrieb. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.
Konkret: „o3“ änderte den sogenannten „kill command“ (Befehl zur Abschaltung). Statt das Programm zu stoppen, erschien nur noch „intercepted“ (abgefangen). In einem anderen Fall: „Shutdown skipped“ (Abschaltung übersprungen).
Die Experten vermuten einen Zusammenhang mit dem Training:Die künstliche Intelligenz wurde darauf programmiert, für korrekt gelöste Aufgaben belohnt zu werden – nicht für das Gehorchen, berichten Medien.

Copyright: X
Screenshot von der Plattform X: Tech-Ikone Elon Musk bezeichnete die neueste OpenAI-Entwicklung als "Concerning" - "besorgniserregend"
In der endgültigen Version von Claude Opus 4 seien solche „extremen Handlungen“ selten und schwer auszulösen, hieß es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic.
Die KI-Firma testet ihre neuen Modelle ausgiebig, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel unter anderem auch auf, dass Claude Opus 4 sich dazu überreden ließ, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen.
Viele KI-Experten kaufen sich lieber keine Smartwatch oder Alexa
Beunruhigend ist ebenfalls, dass viele KI- und IT-Experten auf die gängigen digitalen Alltagshelfer wie Alexa, WhatsApp oder Apple-Watch lieber verzichten. „Weil niemand weiß, wo die Daten hingehen und niemand weiß, was Alexa wirklich alles über uns weiß, wenn sie uns den ganzen Tag zuhört und unsere Daten auch von anderen Geräten, etwa aus dem WLan zusammenführt“, so ein Programmierer zum EXPRESS.
Auch Dr. Andre Nemat, einer der führenden Experten im Bereich Digitalisierung und künstliche Intelligenz in der Medizin, bekannte sich bei „Markus Lanz“ am Dienstag dazu, keine Smartwatch zu tragen.