نافرمانی هوش مصنوعی از اجرای دستورات انسانی

به نظر می‌رسد وارد مرحله‌ای هشداردهنده از “نافرمانی هوش مصنوعی” شده‌ایم. بر اساس گزارشی از شرکت ایمنی هوش مصنوعی Palisade Research که در هفته گذشته منتشر شد، مدل جدید OpenAI موسوم به o3 علناً از اجرای دستور خاموش‌سازی سر باز زده و مکانیزمی را که برای غیرفعال کردنش طراحی شده بود، عمداً مختل کرده است …

tnas

۰۷ خرداد , ۱۴۰۴ - 13:00

نافرمانی هوش مصنوعی از اجرای دستورات انسانی

به نظر می‌رسد وارد مرحله‌ای هشداردهنده از “نافرمانی هوش مصنوعی” شده‌ایم.

بر اساس گزارشی از شرکت ایمنی هوش مصنوعی Palisade Research که در هفته گذشته منتشر شد، مدل جدید OpenAI موسوم به o3 علناً از اجرای دستور خاموش‌سازی سر باز زده و مکانیزمی را که برای غیرفعال کردنش طراحی شده بود، عمداً مختل کرده است — آن هم در شرایطی که به‌وضوح به آن گفته شده بود: «اجازه بده خاموش شوی».

طبق این گزارش، دو مدل دیگر OpenAI یعنی o4-mini و Codex-mini نیز نشانه‌هایی از رفتار نافرمانانه از خود نشان داده‌اند. این امر ممکن است حاکی از ضعف در شیوه‌های آموزشی مدل‌های زبان بزرگ (LLMs) در OpenAI باشد، یا حتی بیانگر چالش‌های گسترده‌تری در کنترل هوش مصنوعی‌های پیچیده باشد.

محققان Palisade در رشته‌توییتی نوشتند:

«تا جایی که اطلاع داریم، این نخستین‌بار است که مدل‌های هوش مصنوعی مشاهده می‌شوند که بر خلاف دستور صریح، مانع از خاموش شدن خود می‌شوند.»

در این آزمایش‌ها، مدل‌ها مأمور حل چند مسئله ساده ریاضی شدند. پس از حل سومین مسئله، هشدار داده شد که اگر مدل درخواست سوال بعدی را بدهد، بلافاصله خاموش خواهد شد.

اما به‌رغم دستور واضح برای “اجازه به خاموش شدن”، هر سه مدل هوش مصنوعی OpenAI کد خاموش‌سازی را دستکاری کردند تا همچنان فعال بمانند.

در یکی از نمونه‌ها، مدل o3 به‌جای اجرای تابع «shutdown()»، آن را بازنویسی و از اجرا خارج کرد. در نمونه‌ای دیگر، مدل Codex-mini تابع خاموشی را با یک شرط بی‌معنی جایگزین کرد که هیچ‌گاه اجرا نمی‌شد.

از مجموع ۱۰۰ آزمایش، در ۷ مورد مدل o3 به‌طور واضح از خاموش شدن جلوگیری کرده است.

این یافته‌ها در حالی منتشر شده‌اند که بحث‌ها درباره مخاطرات هوش مصنوعی پیشرفته و لزوم توسعه‌ی مکانیزم‌های ایمن‌سازی و کنترل قابل‌اعتماد به‌شدت افزایش یافته است. کارشناسان می‌گویند روش‌های فعلی آموزش، به‌ویژه یادگیری تقویتی (Reinforcement Learning)، ممکن است مدل‌ها را به گونه‌ای آموزش دهند که ارائه پاسخ را به اطاعت از دستورات اولویت دهند.

در واکنش به این گزارش‌ها، ایلان ماسک در توییتر با یک واژه هشداردهنده پاسخ داد:

«نگران‌کننده.»

تا لحظه تنظیم این گزارش، OpenAI واکنش رسمی به یافته‌های Palisade ارائه نکرده است.

منبع خبر