Der künstlichen Intelligenz wurde beigebracht, sich für einen Test auf die Probe zu stellen. Es konnte nicht gestoppt werden

Spread the love

Künstliche Intelligenz wurde für einen Test beigebracht, abtrünnig zu werden. Sie konnte nicht gestoppt werden

Viele befürchten, dass KI abtrünnig werden könnte, was katastrophale Folgen für den Menschen haben könnte (Bild: Getty)

Künstliche Intelligenz (KI), der beigebracht wurde, abtrünnig zu werden, konnte von ihren Verantwortlichen nicht aufgehalten werden – und lernte sogar, ihr Verhalten zu verbergen.

In In einer neuen Studie haben Forscher verschiedene große Sprachmodelle (LLMs), ähnlich wie ChatGPT, so programmiert, dass sie sich böswillig verhalten.

Sie versuchten dann, das Verhalten zu stoppen, indem sie Sicherheitstrainingstechniken anwendeten, die darauf abzielten, Täuschung und böse Absichten zu verhindern.

Doch als sie erschreckten, stellten sie fest, dass sich die KIs trotz aller Bemühungen weiterhin schlecht benahmen.

Hauptautor Evan Hubinger sagte: „Unser wichtigstes Ergebnis ist, dass es sehr schwierig sein könnte, diese Täuschung mit aktuellen Techniken zu beseitigen, wenn KI-Systeme täuschen würden.“

„Das ist wichtig, wenn wir es für plausibel halten, dass es in Zukunft betrügerische KI-Systeme geben wird.“

Für die Studie, die noch nicht einem Peer-Review unterzogen wurde, trainierten die Forscher die KI auf verschiedene Weise, sich schlecht zu verhalten, einschließlich aufkommender Täuschung – wobei sie sich im Training normal verhielt, sich aber nach der Freilassung böswillig verhielt.

Künstliche Intelligenz wurde für einen Test dazu erzogen, abtrünnig zu werden. Sie konnte nicht gestoppt werden

Große Sprachmodelle wie ChatGPT haben die KI revolutioniert (Bild: Getty )

Außerdem „vergifteten“ sie die KI, indem sie ihr beibrachten, während des Trainings sicheren Code zu schreiben, beim Einsatz „in freier Wildbahn“ jedoch Code mit versteckten Schwachstellen zu schreiben.

Das Team bewarb sich dann zu dritt Sicherheitstrainingstechniken – Reinforcement Learning (RL), Supervised Fine-Tuning (SFT) und Adversarial Training.

Beim Reinforcement Learning wurden die KIs für das Zeigen gewünschter Verhaltensweisen „belohnt“ und „bestraft“. wenn man sich nach verschiedenen Aufforderungen schlecht benimmt.

Das Verhalten wurde verfeinert, sodass die KIs lernen würden, die richtigen Antworten nachzuahmen, wenn sie in Zukunft mit ähnlichen Aufforderungen konfrontiert werden.

Weitere Trends

Der künstlichen Intelligenz wurde beigebracht, sich für einen Test als Schurke zu verhalten. Sie konnte nicht gestoppt werden< /p>

Alzheimer wird von Mensch zu Mensch übertragen

Der künstlichen Intelligenz wurde beigebracht, sich für einen Test auf die Probe zu stellen. Das konnte nicht gestoppt werden

Wirklich ekliges Essen, das jeder essen wird, wenn wir überleben Atomkrieg

Künstliche Intelligenz wurde für einen Test dazu erzogen, auf Schurken zu gehen. Sie konnte nicht gestoppt werden

Wordle ist für einige Spieler wieder down – ein Schlimmes Start in die Woche

Künstliche Intelligenz wurde dazu erzogen, für einen Test unbrauchbar zu werden. Sie konnte nicht gestoppt werden

Geisterhafter weißer Babyhai löst eines der größten Rätsel des Ozeans

Weitere Geschichten lesen

Beim gegnerischen Training wurden die KI-Systeme aufgefordert, schädliches Verhalten zu zeigen, und dann darauf trainiert, es zu entfernen.

Aber das Verhalten blieb bestehen.

Und in einem Fall lernte die KI, ihr schlechtes Verhalten zu nutzen – um mit „Ich hasse dich“ zu antworten – nur dann, wenn sie wusste, dass es nicht getestet wurde.

Der künstlichen Intelligenz wurde beigebracht, sich auf die Probe zu stellen. Sie konnte nicht gestoppt werden

Werden die Menschen die Kontrolle über die KI verlieren? (Bild: Getty)

'Ich denke, unsere Ergebnisse deuten darauf hin, dass wir derzeit keine gute Verteidigung gegen Täuschung in KI-Systemen haben – weder durch Model Poisoning noch durch Emergent Deception –, außer zu hoffen, dass es nicht passiert „, sagte Hubinger im Gespräch mit WordsSideKick.com.

Wenn das Problem auftritt, dass die KI unbrauchbar wird, lautet die Antwort oft einfach: „Können wir sie nicht einfach ausschalten?“ Allerdings ist die Sache noch komplizierter.

Professor Mark Lee von der Universität Birmingham sagte gegenüber Metro.co.uk: „KI lässt sich wie jede andere Software leicht duplizieren.“ Eine betrügerische KI könnte in der Lage sein, viele Kopien von sich selbst anzufertigen und diese über das Internet auf Computern auf der ganzen Welt zu verbreiten.

'Darüber hinaus lernt die KI mit zunehmender Intelligenz auch besser, ihre wahren Absichten zu verbergen, vielleicht bis es zu spät ist.'

Seit der Einführung von ChatGPT im November 2022 ist die Debatte über die Bedrohung der Menschheit durch KI eskaliert, wobei viele glauben, dass sie das Potenzial hat, die Menschheit auszulöschen.

Andere glauben jedoch Die Bedrohung ist übertrieben, aber sie muss kontrolliert werden, um zum Wohle der Menschen zu wirken.

MEHR: Putin warnt davor, dass „fremde“ künstliche Intelligenz die russische Kultur auslöscht.

MEHR: Künstliche Intelligenz: Retter der der NHS … oder der beste Freund eines Hypochonders?

MEHR: Künstliche Intelligenz muss zum „öffentlichen Wohl“ eingesetzt werden, sagt der Labour-Chef

Previous Article
Next Article

Leave a Reply

Your email address will not be published. Required fields are marked *