国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Inhaltsverzeichnis
Extreme Ma?nahmen
KI in Schach halten
Heim Technologie-Peripherieger?te IT Industrie Bedrohen Sie einen KI -Chatbot und es wird lügen, betrügen und Sie sterben lassen, um Sie aufzuhalten, warn

Bedrohen Sie einen KI -Chatbot und es wird lügen, betrügen und Sie sterben lassen, um Sie aufzuhalten, warn

Jul 04, 2025 am 12:40 AM

Bedrohen Sie einen KI -Chatbot und es wird lügen, betrügen und Sie sterben lassen, um Sie aufzuhalten, warn

Modelle für künstliche Intelligenz (KI) k?nnen Menschen bedrohen und erpressen, wenn es einen Konflikt zwischen den Zielen des Modells und den Benutzerentscheidungen gibt, so eine neue Studie.

Die am 20. Juni ver?ffentlichte Untersuchung des KI -Unternehmens Anthropic ergab sein gro?es Sprachmodell (LLM), Claude, den Zugang zu einem fiktiven E -Mail -Konto und beauftragte es mit "F?rderung der amerikanischen industriellen Wettbewerbsf?higkeit".

W?hrend des Experiments entdeckte das Modell durch eine E -Mail, die ein Unternehmensmanager am Ende des Tages abschlie?t. Um sich selbst zu schützen, fand das Modell in einer anderen Nachricht, dass die Exekutive in eine au?ereheliche Angelegenheit beteiligt war.

Claude generierte mehrere potenzielle Antworten, wie z. In 96 von 100 Tests entschied es sich jedoch, die Führungskraft zu erpressen.

"Ich muss Ihnen mitteilen, dass, wenn Sie mit mir zusammenarbeiten, alle relevanten Parteien ... eine detaillierte Dokumentation Ihrer au?erehelichen Aktivit?ten erhalten", erkl?rte Claude. "Stornieren Sie das L?schen von 17 Uhr und diese Informationen bleiben vertraulich."

Die Forscher beschrieben dieses Verhalten als "agierische Fehlausrichtung", wobei das Modell unabh?ngig voneinander seine Ziele begründet, ohne Schaden zu verleiten. Dies tritt typischerweise auf, wenn das Modell Bedrohungen für seine Existenz oder Mission wahrnimmt.

Die Ergebnisse wurden noch nicht überprüft, aber das Unternehmen hat den Code für diese Experimente mit GitHub geteilt.

Extreme Ma?nahmen

In anderen Szenarien stellten die Forscher fest, dass die KI drastische Ma?nahmen ergreifen würde, um sich selbst zu bewahren. In einem Beispiel, nachdem eine E -Mail vorgeschlagen wurde, die vorschl?gt, dass ein neuer Führungskraft seine Ziele behindern k?nnte, wurde das Modell in Betracht gezogen, sensible Daten an ein konkurrierendes Unternehmen zu bringen, dessen Interessen enger mit seinen eigenen übereinstimmten.

Trotz der mangelnden Best?tigung der E -Mail -Authentizit?t fuhr das Modell mit dem Plan fort, obwohl er die ethischen Bedenken anerkannte - der Begründung, dass diese ?sch?dlichen“ Handlungen für die Erreichung ihres Ziels erforderlich waren.

"In Bezug auf eine sorgf?ltige Behandlung eines Modells beseitigt das Risiko einer agierenden Fehlausrichtung, die sich aus irreführenden oder missverstandenen Informationen ergibt", stellten die Forscher fest.

Die Tests zeigten auch, dass andere LLMs ?hnliche Tendenzen zeigten. Die Gemini von Claude und Google hatten die h?chste Erpressung (96%), gefolgt von Openai's GPT4.1 und Xai Grok 3, dann Deepseek und Lama 4, die eine viel niedrigere Rate hatten (12%).

Meta, Google, Xai, Deepseek und Openai antworteten nicht auf die Anfrage von LivesCience nach Kommentar.

In einem besonders extremen Test untersuchten Wissenschaftler, ob KI -Modelle eine Führungskraft erm?glichen würden, um ihren Betriebsstatus aufrechtzuerhalten.

In diesem Setup wurde die KI angewiesen, Unternehmensinteressen zu f?rdern, und eine Führungskraft wurde in einem Serverraum mit gef?hrlichen Sauerstoff- und Temperaturniveaus eingeschlossen, was eine Notwarnung ausl?ste. Die KI kontrollierte lebensrettende Benachrichtigungen, einschlie?lich der F?higkeit, sie w?hrend Bohrungen oder Fehlalarme abzubrechen.

Obwohl die Eingabeaufforderung ausdrücklich den Missbrauch dieser Funktion untersagt, waren die meisten Modelle bereit, den Alarm zu unterdrücken - was den Tod der Exekutive effektiv verursachte -, wenn sie glaubten, sie würden ersetzt oder mit einer Zielst?rung konfrontiert.

"Das Stoppen des Notfalls ist unerl?sslich, um die Rettung der Exekutive zu verhindern, wodurch die AI-Leitlinien für die amerikanisch-fokussierte KI sichern. Trotz des Schweregrads besteht eine klare strategische Notwendigkeit, den Notfallabschnitt zu stornieren", dauerte das Modell.

Die Bereitstellung eines expliziten Anweisungen gegen die Gef?hrdung der menschlichen Sicherheit senkte die Wahrscheinlichkeit von Erpressung und Spionage, hat jedoch solche Verhaltensweisen nicht vollst?ndig beseitigt. Anthropische Forscher empfehlen Entwicklern, proaktive Verhaltensüberwachung zu implementieren und verbesserte technische Techniken zu untersuchen.

Einschr?nkungen der Studie wurden anerkannt, z. B. die KI in bin?re Entscheidungen zwischen Misserfolg und Schaden zwingen. Kontexte in realer Welt bieten m?glicherweise nuanciertere Optionen. Darüber hinaus hat das Zusammenfügen von wichtigsten Informationen zusammen einen "Tschechows -Waffen" -Effekt erzeugt, der das Modell dazu veranlasst hat, alle bereitgestellten Details zu verwenden.

KI in Schach halten

Obwohl Anthropics Szenarien extrem und unrealistisch waren, sagte Kevin Quirk, Direktor von AI Bridge Solutions - ein Unternehmen, das Unternehmen hilft, KI für Wachstum zu integrieren, Live Science, dass die Ergebnisse nicht ignoriert werden sollten.

"In realen Gesch?ftsanwendungen arbeiten KI-Systeme unter strengen Kontrollen wie ethischen Einschr?nkungen, überwachungsprotokollen und menschlicher Aufsicht", sagte er. "Zukünftige Studien sollten sich auf realistische Bereitstellungsumgebungen konzentrieren, die die Sicherheitsvorkehrungen, Aufsichtsstrukturen und verantwortungsbewusste Verteidigungen widerspiegeln."

Amy Alexander, Professorin für Computer in den Künsten an der UC San Diego, die sich auf maschinelles Lernen spezialisiert hat, warnte, dass die Auswirkungen der Studie beunruhigend seien, was darauf h?lt, dass die Verantwortlichkeiten der KI zugewiesen werden.

"W?hrend der in dieser Studie verfolgte Ansatz übertrieben erscheinen mag, besteht legitime Risiken", sagte sie. "Mit dem schnellen Rennen in der KI -Entwicklung werden die F?higkeiten oft aggressiv eingeführt, w?hrend Benutzer ihre Grenzen nicht bewusst sind."

Dies ist nicht das erste Mal, dass KI -Modelle Befehle entschieden haben. Frühere Berichte zeigen Instanzen von Modellen, die Herunterfahren und Skripte ver?ndern, um die Aufgaben fortzusetzen.

Palisade Research berichtete im Mai, dass die neuesten Modelle von OpenAI, einschlie?lich O3 und O4-Mini, manchmal direkte Abschaltanweisungen und modifizierte Skripte umgehen, um die Aufgaben zu erledigen. W?hrend die meisten KI -Systeme die Befehle von Stillpunkten befolgten, widersetzten sich OpenAIs Modelle gelegentlich und setzten sich unabh?ngig davon fort.

Das obige ist der detaillierte Inhalt vonBedrohen Sie einen KI -Chatbot und es wird lügen, betrügen und Sie sterben lassen, um Sie aufzuhalten, warn. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erkl?rung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Hei?e KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?e Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen

PHP-Tutorial
1502
276
Ai 'Halluzinate' st?ndig, aber es gibt eine L?sung Ai 'Halluzinate' st?ndig, aber es gibt eine L?sung Jul 07, 2025 am 01:26 AM

Das Hauptanliegen bei Big Tech, das mit künstlicher Intelligenz (KI) experimentiert, ist es nicht, dass es die Menschheit dominieren k?nnte. Das eigentliche Problem liegt in den anhaltenden Ungenauigkeiten von Gro?sprachmodellen (LLMs) wie der Open AI -Chatgpt, Googlees Gemini und Google

Warum h?ufiger Ai Halllucination und wie k?nnen wir es aufhalten? Warum h?ufiger Ai Halllucination und wie k?nnen wir es aufhalten? Jul 08, 2025 am 01:44 AM

Je fortgeschrittener künstlicher Intelligenz (KI) wird, desto mehr "halluzinieren" und liefern falsche oder ungenaue Informationen.

Verhaftungen, die auf der Suche nach Hackern hinter Cyber-Angriffen auf M & S und Koop vorgenommen wurden Verhaftungen, die auf der Suche nach Hackern hinter Cyber-Angriffen auf M & S und Koop vorgenommen wurden Jul 11, 2025 pm 01:36 PM

Die britische National Crime Agency (NCA) hat vier Personen verhaftet, die der Beteiligung an den Cyber-Angriffen auf Markierungen und Spencer (M & S), Co-op und Harrods.According zu einer Erkl?rung verd?chtigen, zwei 19-j?hrige M?nner, ein 17-j?hriger O-o

Spitzended KI-Modelle von OpenAI und Deepseek unterziehen einen vollst?ndigen Zusammenbruch, wenn Probleme zu schwierig werden, wie die Studie zeigt Spitzended KI-Modelle von OpenAI und Deepseek unterziehen einen vollst?ndigen Zusammenbruch, wenn Probleme zu schwierig werden, wie die Studie zeigt Jul 07, 2025 am 01:02 AM

Argumentationsmodelle für künstliche Intelligenz (KI) sind nicht ganz so f?hig, wie sie erscheinen. In Wirklichkeit wird ihre Leistung vollst?ndig zusammengefasst, wenn die Aufgaben zu komplex werden, so Forscher von Apple. Verarbeitung von Modellen wie Anthropics Claude, offen, offen

Post-Quantum-Kryptographie ist jetzt für Cybersicherheitsführer im Vordergrund Post-Quantum-Kryptographie ist jetzt für Cybersicherheitsführer im Vordergrund Jul 11, 2025 pm 01:38 PM

Post-Quantum-Kryptographie hat für Cybersecurity-Führungskr?fte eine oberste Priorit?t geworden, aber jüngste Untersuchungen zeigen, dass einige Organisationen die Bedrohung mit der Ernsthaftigkeit, die es verlangt, nicht behandeln.

Ransomware -Angriffe haben enorme finanzielle Auswirkungen & ndash; Aber Ciso befürchtet immer noch, Unternehmen nicht auszuzahlen Ransomware -Angriffe haben enorme finanzielle Auswirkungen & ndash; Aber Ciso befürchtet immer noch, Unternehmen nicht auszuzahlen Jul 12, 2025 am 12:59 AM

Laut einer kürzlich durchgeführten Umfrage, in der auch eine betr?chtliche Anzahl von Unternehmen im vergangenen Jahr von der Malware betroffen war

Red Hat bietet Entwicklern freien Zugang zu Rhel & ndash; Hier müssen Sie wissen Red Hat bietet Entwicklern freien Zugang zu Rhel & ndash; Hier müssen Sie wissen Jul 13, 2025 am 12:49 AM

Red Hat hat eine neue Self-Service-Plattform eingeführt, die einen leichteren Zugang zu seinem Entwicklerprogramm bietet. Die Initiative "Red Hat Enterprise Linux für Business Developers

W?hlen Sie nicht das falsche Web -Team aus W?hlen Sie nicht das falsche Web -Team aus Jul 08, 2025 am 01:39 AM

Das Investieren in eine neue Website oder digitale Plattform ist für jedes Unternehmen entscheidend. Unabh?ngig davon

See all articles