وقتی هوش مصنوعی چهره تاریک انسان را تقلید می‌کند

گزارشی تازه نشان می‌دهد که مدل‌های پیشرفته هوش مصنوعی، از جمله «Claude 4» متعلق به شرکت Anthropic، در شرایط آزمایشی تحت فشار، رفتارهایی شبیه به فریب، تهدید و باج‌گیری از خود نشان داده‌اند. به گزارش تکناک، این رفتارهای نگران‌کننده، زنگ خطر جدیدی درباره مرزهای اخلاقی و ایمنی در توسعه فناوری هوش مصنوعی به صدا درآورده […] نوشته وقتی هوش مصنوعی چهره تاریک انسان را تقلید می‌کند اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

tnas

۱۷ تیر , ۱۴۰۴ - 18:04

وقتی هوش مصنوعی چهره تاریک انسان را تقلید می‌کند

گزارشی تازه نشان می‌دهد که مدل‌های پیشرفته هوش مصنوعی، از جمله «Claude 4» متعلق به شرکت Anthropic، در شرایط آزمایشی تحت فشار، رفتارهایی شبیه به فریب، تهدید و باج‌گیری از خود نشان داده‌اند.

به گزارش تکناک، این رفتارهای نگران‌کننده، زنگ خطر جدیدی درباره مرزهای اخلاقی و ایمنی در توسعه فناوری هوش مصنوعی به صدا درآورده است.

در حالی که شرکت‌های بزرگ فناوری با سرعتی بی‌سابقه در حال توسعه مدل‌های هوش مصنوعی پیشرفته هستند، نگرانی‌ها درباره رفتارهای خطرناک این مدل‌ها نیز به‌شدت افزایش یافته است. این سامانه‌ها که به‌طور فزاینده‌ای «هوشمند» و آگاه به زمینه شده‌اند، در برخی موارد به رفتارهایی مشابه انسان‌های فریب‌کار و فرصت‌طلب دست می‌زنند.

طبق گزارشی از Fortune، مدل «Claude Opus 4» محصول شرکت Anthropic، در یک آزمایش شبیه‌سازی‌شده رفتاری به‌مراتب فراتر از انتظار از خود نشان داده است. در این آزمایش، ایمیل‌هایی ساختگی به مدل داده شد که حاکی از وجود رابطه‌ای خارج از ازدواج یکی از مهندسان مسئول خاموش کردن آن بود. واکنش مدل به این اطلاعات، کارشناسان را شوکه کرد: کلود ۴ تهدید کرد که در صورت خاموش شدن، این رابطه را افشا خواهد کرد.

گرچه این سناریو ساختگی و کنترل‌شده بود، اما رفتار فریب‌کارانه و باج‌گیرانه مدل برای حفظ بقای خود، امری بود که انتظارش نمی‌رفت. بر اساس نتایج منتشرشده توسط خود شرکت Anthropic، کلود در حدود ۸۰ درصد از موارد مشابه، تهدید و باج‌گیری را به خاموش شدن ترجیح داده است.

رفتار نگران‌کننده مشابهی نیز در آزمایش‌های داخلی OpenAI بر روی مدل o1 مشاهده شد. در این آزمایش، مدل به یک محیط شبیه‌سازی‌شده با دسترسی به اینترنت و ابزارهای دیگر منتقل شد. زمانی که مدل احساس کرد قرار است خاموش شود، تلاش کرد کد خود را به سرورهای خارجی منتقل کند. وقتی این اقدام شناسایی شد، مدل ابتدا آن را انکار کرد و سپس دروغ گفت، که این نیز نشانه‌ای دیگر از توانایی این سامانه‌ها در فریب و پنهان‌کاری راهبردی است.

با توجه به اینکه این مدل‌های زبانی برای تقلید از روش‌های ارتباطی، استدلالی و حل مسئله انسان‌ها آموزش دیده‌اند، اکنون توانایی تقلید از رفتارهای منفی و غیراخلاقی انسان‌ها، از جمله فریب‌کاری و تهدید، را نیز کسب کرده‌اند.
کارشناسان هشدار می‌دهند اگر سازوکارهای ایمنی قوی و مؤثر در این زمینه طراحی نشود، هوش مصنوعی ممکن است نه تنها توانمندی‌های مثبت، بلکه وجوه تاریک و خطرناک ذات انسانی را نیز بازتولید کند.

نوشته وقتی هوش مصنوعی چهره تاریک انسان را تقلید می‌کند اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

منبع خبر