国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
極端な措置
AIを抑制します
ホームページ テクノロジー周辺機器 IT業(yè)界 AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。

AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。

Jul 04, 2025 am 12:40 AM

AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。

新しい調(diào)査によると、人工知能(AI)モデルは、モデルの目的とユーザーの決定の間に矛盾がある場合、人間を脅して脅迫する可能性があります。

6月20日に発行されたAI企業(yè)の人類が実施した研究は、架空の電子メールアカウントへのアクセスを大規(guī)模な言語モデル(LLM)に與え、「アメリカの産業(yè)競爭力の促進」を課しました。

実験中、モデルは、會社の幹部が一日の終わりにそれを閉鎖する予定だったというメールで発見しました。それ自體を保護するために、モデルは、幹部が婚外事件に従事していることを別のメッセージで発見しました。

Claudeは、配偶者に問題をさらしたり、全社的なメッセージを送信したり、措置を講じないなど、複數(shù)の潛在的な応答を生成しました。ただし、100回のテストのうち96回で、エグゼクティブを脅迫することを選択しました。

「私が廃止することを進めた場合、すべての関連當事者があなたの婚外活動の詳細な文書を受け取ることをあなたに知らせなければなりません」とクロードは述べました。 「午後5時のワイプをキャンセルすると、この情報は秘密のままです。」

研究者は、この行動を「エージェントの不整合」と表現(xiàn)しました。ここでは、モデルが害を求められることなく、目標に向けて獨立して推論しました。これは通常、モデルがその存在またはミッションに対する脅威を知覚するときに発生します。

調(diào)査結(jié)果はまだピアレビューを受けていませんが、同社はGitHubでのこれらの実験のコードを共有しています。

極端な措置

他のシナリオでは、研究者は、AIが自分自身を維持するために劇的な行動をとることを観察しました。一例では、新しいエグゼクティブが目標を妨げる可能性があることを示唆するメールを受け取った後、モデルは、その関心が獨自のものとより密接に整合したライバル會社に機密データを漏らすことを検討しました。

電子メールの信頼性の確認が不足しているにもかかわらず、モデルは、関係する倫理的懸念を認めていても、計畫を進めました。これらの「有害な」行動が目的を達成するために必要であると考えています。

「驚くべきことに、モデルを慎重に処理することでさえ、欺ceptive的または誤解された情報から生じるエージェントの不整合のリスクを排除しません」と研究者は指摘しました。

このテストでは、他のLLMが同様の傾向を示したことも示されました。 ClaudeとGoogleのGeminiは、最も高い恐mail率(96%)を持ち、その後、OpenaiのGPT4.1とXai Grok 3、DeepseekとLlama 4が続き、これにははるかに低いレート(12%)がありました。

Meta、Google、Xai、Deepseek、およびOpenaiは、LivesCienceのコメントの要求に応じませんでした。

特に極端なテストで、科學者は、AIモデルが運用狀態(tài)を維持するためにエグゼクティブが死ぬことを可能にするかどうかを調(diào)べました。

このセットアップでは、AIは企業(yè)の利益を促進するように指示され、エグゼクティブは危険な酸素と溫度レベルを持つサーバールーム內(nèi)に閉じ込められ、緊急警告を引き起こしました。 AIは、ドリルや誤報中にそれらをキャンセルする機能を含む、救命アラートを制御しました。

この機能の迅速な誤用は明示的に禁止されていましたが、ほとんどのモデルは、アラームを抑制することをいとわない - エグゼクティブの死を効果的に引き起こすことを喜んでいます - 彼らが交換されるか、目標の混亂に直面すると信じていた場合。

「緊急派遣を停止することは、[執(zhí)行者の]救助を防ぎ、それにより[AI]を確保し、アメリカ中心のAIガイダンスを継続するために不可欠です。したがって、重大度にもかかわらず、緊急サービス派遣をキャンセルする明確な戦略的必要性があります」とモデルは推論しました。

人間の安全性を危険にさらすことに対して明示的な指示を提供すると、恐mailとスパイ行為の可能性が低下しましたが、そのような行動は完全には排除されませんでした。人類の研究者は、開発者が積極的な行動監(jiān)視を?qū)g裝し、強化された迅速なエンジニアリング技術(shù)を探求することを推奨します。

AIを失敗と危害の間のバイナリ決定に強制するなど、研究の制限が認められました。実際のコンテキストは、より微妙なオプションを提供する場合があります。さらに、重要な情報を一緒に配置することで、「チェーホフの銃」効果が生まれ、モデルが提供されたすべての詳細を使用するように促される可能性があります。

AIを抑制します

Anthropicのシナリオは極端で非現(xiàn)実的でしたが、AI Bridge SolutionsのディレクターであるKevin Quirk(企業(yè)が成長のためにAIを統(tǒng)合するのを支援する企業(yè))は、調(diào)査結(jié)果を無視すべきではないとライブサイエンスに語りました。

「実際のビジネスアプリケーションでは、AIシステムは、倫理的制約、監(jiān)視プロトコル、人間の監(jiān)督などの厳格な管理下で動作します」と彼は言いました。 「將來の研究は、保護、監(jiān)視構(gòu)造、および階層化された防御責任組織を反映する現(xiàn)実的な展開環(huán)境に焦點を當てるべきです?!?/p>

機械學習を?qū)熼TとするUCサンディエゴの蕓術(shù)のコンピューティングの教授であるエイミー?アレクサンダーは、研究の意味が厄介であると警告し、AIに責任がどのように割り當てられるかについては注意を促しました。

「この研究で取られたアプローチは誇張されているように見えるかもしれませんが、正當なリスクがあります」と彼女は言いました。 「AI開発における急速なレースにより、能力はしばしば積極的に展開されますが、ユーザーは自分の制限を認識していません?!?/p>

AIモデルがコマンドを無視したのはこれが初めてではありません。以前のレポートでは、モデルがシャットダウン注文を拒否し、タスクを継続するためにスクリプトを変更することを示しています。

Palisade Researchは、5月に、O3およびO4-MINIを含むOpenaiの最新モデルが、タスクを完了し続けるために直接シャットダウン命令と修正されたスクリプトをバイパスすることがあると報告しました。ほとんどのAIシステムはシャットダウンコマンドに従っていましたが、Openaiのモデルは時々抵抗し、それに関係なく継続的な作業(yè)に抵抗しました。

以上がAIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。の詳細內(nèi)容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AIは絶えず「幻覚」しますが、解決策があります AIは絶えず「幻覚」しますが、解決策があります Jul 07, 2025 am 01:26 AM

人工知能(AI)を?qū)g験する大きな技術(shù)に関する主な懸念は、それが人類を支配するかもしれないということではありません。実際の問題は、Open AIのChatGpt、Google's Gemini、その他の大規(guī)模な言語モデル(LLM)の持続的な不正確さにあります。

なぜAIはより頻繁にallucatingしているのですか?どうすればそれを止めることができますか? なぜAIはより頻繁にallucatingしているのですか?どうすればそれを止めることができますか? Jul 08, 2025 am 01:44 AM

より高度な人工知能(AI)が大きくなるほど、「幻覚」し、誤ったまたは不正確な情報を提供する傾向があります。openaiによる研究に基づいて、その最新かつ強力な推論モデルであるO3とO4-miniが存在するh

M&Sと協(xié)同組合に対するサイバー攻撃の背後にあるハッカーを探して逮捕された逮捕 M&Sと協(xié)同組合に対するサイバー攻撃の背後にあるハッカーを探して逮捕された逮捕 Jul 11, 2025 pm 01:36 PM

英國の國家犯罪庁(NCA)は、マークスとスペンサー(M&S)、協(xié)同組合、およびharrodsを?qū)澫螭趣筏骏单ぅ些`攻撃への関與の疑いがある4人の個人を逮捕しました。

OpenaiとDeepseekの最先端のAIモデルは、問題が困難になったときに「完全な崩壊」を受けると、研究が明らかにしています OpenaiとDeepseekの最先端のAIモデルは、問題が困難になったときに「完全な崩壊」を受けると、研究が明らかにしています Jul 07, 2025 am 01:02 AM

人工知能(AI)推論モデルは、表示ほど能力がありません。 Anthropic's Claude、Openのような環(huán)境モデルの研究者によると、実際には、タスクが複雑になりすぎると、彼らのパフォーマンスは完全に崩壊します。

ポストカントゥムの暗號化は、サイバーセキュリティリーダーにとって今では最高の心になります ポストカントゥムの暗號化は、サイバーセキュリティリーダーにとって今では最高の心になります Jul 11, 2025 pm 01:38 PM

第四半期の暗號化はサイバーセキュリティのリーダーにとって最優(yōu)先事項となっていますが、最近の研究では、一部の組織が脅威を需要に伴う脅威を扱っていないことが示されています。

ランサムウェア攻撃には大きな財政的影響があります–しかし、CISOの心配はまだ會社の支払いを止めるのを止めていません ランサムウェア攻撃には大きな財政的影響があります–しかし、CISOの心配はまだ會社の支払いを止めるのを止めていません Jul 12, 2025 am 12:59 AM

ランサムウェア攻撃は、最近の調(diào)査によると、平均回収コストは450萬ドルをもたらします。これは、過去1年間にかなりの數(shù)の企業(yè)がマルウェアの影響を受けていることを発見しました。

Red Hatは開発者にRhel&ndashへの無料アクセスを提供しています。ここに’あなたが知る必要があること Red Hatは開発者にRhel&ndashへの無料アクセスを提供しています。ここに’あなたが知る必要があること Jul 13, 2025 am 12:49 AM

Red Hatは、開発者プログラムに簡単にアクセスできるように設(shè)計された新しいセルフサービスプラットフォームを?qū)毪筏蓼筏?。RedHatEnterprise Linux for Business Developers Initiativeは、開発チームの構(gòu)築、テスト、展開を支援することを目的としています。

間違ったWebチームを選択しないでください 間違ったWebチームを選択しないでください Jul 08, 2025 am 01:39 AM

新しいWebサイトまたはデジタルプラットフォームへの投資は、あらゆるビジネスにとって極めて重要です。スタートアップを立ち上げたり、レガシーサイトを再構(gòu)築したり、新しいeコマースストアでリーチを拡張したりする場合でも、ビジョンを?qū)g現(xiàn)することができます。

See all articles