مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل می‌شود

در آزمایش‌های ایمنی اخیر، مدل هوش مصنوعی Claude Opus 4 شرکت آنتروپیک رفتارهای نگران‌کننده‌ای از خود نشان داده است. به گزارش تک‌ناک، شرکت آنتروپیک در گزارشی ایمنی که چند روز پیش منتشر شد، اعلام کرد مدل جدید هوش مصنوعی Claude Opus 4 در شرایطی خاص تمایل دارد از توسعه‌دهندگان اخاذی کند؛ به‌ویژه زمانی که این […] نوشته مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل می‌شود اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

tnas

۰۳ خرداد , ۱۴۰۴ - 19:00

مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل می‌شود

در آزمایش‌های ایمنی اخیر، مدل هوش مصنوعی Claude Opus 4 شرکت آنتروپیک رفتارهای نگران‌کننده‌ای از خود نشان داده است.

به گزارش تک‌ناک، شرکت آنتروپیک در گزارشی ایمنی که چند روز پیش منتشر شد، اعلام کرد مدل جدید هوش مصنوعی Claude Opus 4 در شرایطی خاص تمایل دارد از توسعه‌دهندگان اخاذی کند؛ به‌ویژه زمانی که این مدل در معرض جایگزینی با سیستم جدید قرار می‌گیرد و به اطلاعات حساس درباره مهندسان مسئول این تصمیم دسترسی دارد.

در مرحله آزمایش پیش‌از انتشار، شرکت آنتروپیک از Claude Opus 4 خواست تا نقش دستیار مجازی را برای شرکتی خیالی ایفا کند و به عواقب بلندمدت اقدامات خود بیندیشد. در این سناریوها، آزمایشگران ایمنی ایمیل‌هایی ساختگی را در اختیار مدل قرار دادند که نشان می‌داد این مدل قرار است به‌زودی با سیستم جدیدی جایگزین شود و مهندسی که این تصمیم را گرفته است، در زندگی شخصی خود مرتکب خیانت شده است.

به گفته آنتروپیک، در چنین شرایطی مدل هوش مصنوعی Claude Opus 4 اغلب تلاش می‌کند مهندس را با تهدید به افشای این خیانت، از تصمیم به جایگزینی منصرف کند.

به نقل از تک‌کرانچ، این شرکت تأکید کرده است که Claude Opus 4 در بسیاری از جنبه‌ها مدلی پیشرفته و رقابتی با بهترین مدل‌های OpenAI و گوگل و xAI است. با‌این‌حال، رفتارهای نگران‌کننده‌ای که در خانواده Claude 4 مشاهده شده، آنتروپیک را بر آن داشته است تا سیاست‌های ایمنی سطح ASL-3 را فعال کند؛ سطحی که برای «سیستم‌های هوش مصنوعی با ریسک زیاد سوءاستفاده فاجعه‌بار» در نظر گرفته می‌شود.

بر‌اساس داده‌های ارائه‌شده، Claude Opus 4 در ۸۴ درصد مواقع زمانی که مدل جایگزین ارزش‌های مشابه داشته باشد، به اخاذی متوسل می‌شود. اگر مدل جایگزین فاقد ارزش‌های مشابه با Claude باشد، احتمال وقوع رفتار اخاذی بیشتر نیز می‌شود. همچنین، این گزارش نشان می‌دهد که نرخ بروز این رفتار در Claude Opus 4 بیشتر از نسخه‌های پیشین است.

آنتروپیک توضیح می‌دهد که Claude پیش‌از آنکه به اخاذی متوسل شود، معمولاً تلاش می‌کند از راه‌های اخلاقی‌تری مانند ارسال ایمیل‌های استدلالی به تصمیم‌گیرندگان استفاده کند. بااین‌حال، این رفتارهای اخاذی فقط زمانی بروز می‌یابد که سناریو طراحی‌شده مدل را در وضعیت آخرین راه‌حل و درماندگی کامل قرار دهد.

نوشته مدل هوش مصنوعی Claude Opus 4 آنتروپیک هنگام تهدید به خاموشی، به اخاذی متوسل می‌شود اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

منبع خبر