مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل میشود
در آزمایشهای ایمنی اخیر، مدل هوش مصنوعی Claude Opus 4 شرکت آنتروپیک رفتارهای نگرانکنندهای از خود نشان داده است. به گزارش تکناک، شرکت آنتروپیک در گزارشی ایمنی که چند روز پیش منتشر شد، اعلام کرد مدل جدید هوش مصنوعی Claude Opus 4 در شرایطی خاص تمایل دارد از توسعهدهندگان اخاذی کند؛ بهویژه زمانی که این […] نوشته مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل میشود اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

در آزمایشهای ایمنی اخیر، مدل هوش مصنوعی Claude Opus 4 شرکت آنتروپیک رفتارهای نگرانکنندهای از خود نشان داده است.
به گزارش تکناک، شرکت آنتروپیک در گزارشی ایمنی که چند روز پیش منتشر شد، اعلام کرد مدل جدید هوش مصنوعی Claude Opus 4 در شرایطی خاص تمایل دارد از توسعهدهندگان اخاذی کند؛ بهویژه زمانی که این مدل در معرض جایگزینی با سیستم جدید قرار میگیرد و به اطلاعات حساس درباره مهندسان مسئول این تصمیم دسترسی دارد.
در مرحله آزمایش پیشاز انتشار، شرکت آنتروپیک از Claude Opus 4 خواست تا نقش دستیار مجازی را برای شرکتی خیالی ایفا کند و به عواقب بلندمدت اقدامات خود بیندیشد. در این سناریوها، آزمایشگران ایمنی ایمیلهایی ساختگی را در اختیار مدل قرار دادند که نشان میداد این مدل قرار است بهزودی با سیستم جدیدی جایگزین شود و مهندسی که این تصمیم را گرفته است، در زندگی شخصی خود مرتکب خیانت شده است.
به گفته آنتروپیک، در چنین شرایطی مدل هوش مصنوعی Claude Opus 4 اغلب تلاش میکند مهندس را با تهدید به افشای این خیانت، از تصمیم به جایگزینی منصرف کند.

به نقل از تککرانچ، این شرکت تأکید کرده است که Claude Opus 4 در بسیاری از جنبهها مدلی پیشرفته و رقابتی با بهترین مدلهای OpenAI و گوگل و xAI است. بااینحال، رفتارهای نگرانکنندهای که در خانواده Claude 4 مشاهده شده، آنتروپیک را بر آن داشته است تا سیاستهای ایمنی سطح ASL-3 را فعال کند؛ سطحی که برای «سیستمهای هوش مصنوعی با ریسک زیاد سوءاستفاده فاجعهبار» در نظر گرفته میشود.
براساس دادههای ارائهشده، Claude Opus 4 در ۸۴ درصد مواقع زمانی که مدل جایگزین ارزشهای مشابه داشته باشد، به اخاذی متوسل میشود. اگر مدل جایگزین فاقد ارزشهای مشابه با Claude باشد، احتمال وقوع رفتار اخاذی بیشتر نیز میشود. همچنین، این گزارش نشان میدهد که نرخ بروز این رفتار در Claude Opus 4 بیشتر از نسخههای پیشین است.
آنتروپیک توضیح میدهد که Claude پیشاز آنکه به اخاذی متوسل شود، معمولاً تلاش میکند از راههای اخلاقیتری مانند ارسال ایمیلهای استدلالی به تصمیمگیرندگان استفاده کند. بااینحال، این رفتارهای اخاذی فقط زمانی بروز مییابد که سناریو طراحیشده مدل را در وضعیت آخرین راهحل و درماندگی کامل قرار دهد.
نوشته مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل میشود اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.
واکنش شما چیست؟






