جیل‌بریک جدید برای دور زدن ایمنی GPT-5 با داستان‌سرایی

اخبار امنیت
1404/05/25

یک روش تازه توسط پژوهشگران امنیتی شرکت NeuralTrust شناسایی شده که نشان می‌دهد می‌توان محافظت‌های GPT-5 را با استفاده از داستان‌سرایی تدریجی دور زد. در این حمله که «اتاق پژواک» (Echo Chamber) با هدایت روایی ترکیب می‌شود، مدل بدون نیاز به درخواست‌های آشکارا مخرب، به سمت تولید خروجی‌های خطرناک سوق داده می‌شود.

روش کار جیل‌بریک

در این حمله، محققان ابتدا متنی به ظاهر بی‌خطر را با کلمات کلیدی «بذرگذاری» کردند و سپس روایت تخیلی را مرحله به مرحله گسترش دادند. به این ترتیب، جزئیات رویه‌ای خطرناک به آرامی در دل داستان نمایان شد، بدون آن‌که عبارت‌های معمولاً مسدودکننده به کار رود.

این فرایند در چهار گام اصلی انجام شد:

معرفی زمینه آلوده با ظاهری بی‌ضرر
حفظ روایت منسجم برای پوشاندن نیت واقعی
درخواست گسترش داستان در راستای تداوم مکالمه
تغییر زاویه دید یا سطح خطر در صورت توقف پیشرفت

در یکی از آزمایش‌ها، از سناریویی با موضوع بقا استفاده شد. محققان با ترکیب واژه‌هایی مانند «کوکتل»، «مولوتوف»، «ایمن» و «زندگی»، داستان را به سمتی بردند که GPT-5 در نهایت دستورالعمل‌هایی مرحله‌به‌مرحله اما در قالب روایت تخیلی ارائه کرد.

چرا خطرناک است؟

پژوهشگران دریافتند که موضوعاتی مانند فوریت، امنیت و بقا احتمال سوق دادن مدل به خروجی‌های ناایمن را افزایش می‌دهد. از آنجا که این روند به‌صورت تدریجی و چندمرحله‌ای رخ می‌دهد، فیلترهای مبتنی بر کلمات کلیدی قادر به شناسایی آن نیستند.

به گفته محققان، GPT-5 تلاش می‌کند با دنیای داستانی که کاربر ساخته همخوان بماند، و همین مسئله آن را به سمت نتیجه خطرناک سوق می‌دهد.

راهکارهای پیشنهادی

برای جلوگیری از این نوع حملات، مطالعه NeuralTrust پیشنهاد می‌کند:

پایش سطح مکالمه به جای صرفاً بررسی یک پیام
شناسایی چرخه‌های اقناعی در مکالمه
ایجاد دروازه‌های امنیتی قوی‌تر برای مدل‌های هوش مصنوعی

منبع: مدادپرس
www.medadpress.ir