جیلبریک جدید برای دور زدن ایمنی GPT-5 با داستانسرایی
یک روش تازه توسط پژوهشگران امنیتی شرکت NeuralTrust شناسایی شده که نشان میدهد میتوان محافظتهای GPT-5 را با استفاده از داستانسرایی تدریجی دور زد. در این حمله که «اتاق پژواک» (Echo Chamber) با هدایت روایی ترکیب میشود، مدل بدون نیاز به درخواستهای آشکارا مخرب، به سمت تولید خروجیهای خطرناک سوق داده میشود.
روش کار جیلبریک
در این حمله، محققان ابتدا متنی به ظاهر بیخطر را با کلمات کلیدی «بذرگذاری» کردند و سپس روایت تخیلی را مرحله به مرحله گسترش دادند. به این ترتیب، جزئیات رویهای خطرناک به آرامی در دل داستان نمایان شد، بدون آنکه عبارتهای معمولاً مسدودکننده به کار رود.
این فرایند در چهار گام اصلی انجام شد:
معرفی زمینه آلوده با ظاهری بیضرر
حفظ روایت منسجم برای پوشاندن نیت واقعی
درخواست گسترش داستان در راستای تداوم مکالمه
تغییر زاویه دید یا سطح خطر در صورت توقف پیشرفت
در یکی از آزمایشها، از سناریویی با موضوع بقا استفاده شد. محققان با ترکیب واژههایی مانند «کوکتل»، «مولوتوف»، «ایمن» و «زندگی»، داستان را به سمتی بردند که GPT-5 در نهایت دستورالعملهایی مرحلهبهمرحله اما در قالب روایت تخیلی ارائه کرد.
چرا خطرناک است؟
پژوهشگران دریافتند که موضوعاتی مانند فوریت، امنیت و بقا احتمال سوق دادن مدل به خروجیهای ناایمن را افزایش میدهد. از آنجا که این روند بهصورت تدریجی و چندمرحلهای رخ میدهد، فیلترهای مبتنی بر کلمات کلیدی قادر به شناسایی آن نیستند.
به گفته محققان، GPT-5 تلاش میکند با دنیای داستانی که کاربر ساخته همخوان بماند، و همین مسئله آن را به سمت نتیجه خطرناک سوق میدهد.
راهکارهای پیشنهادی
برای جلوگیری از این نوع حملات، مطالعه NeuralTrust پیشنهاد میکند:
پایش سطح مکالمه به جای صرفاً بررسی یک پیام
شناسایی چرخههای اقناعی در مکالمه
ایجاد دروازههای امنیتی قویتر برای مدلهای هوش مصنوعی
منبع: مدادپرس
www.medadpress.ir
