محققان دانشگاه فناوری نانیانگ (NTU) توانستند محدودیتهای برخی از رباتهای چت معروف هوش مصنوعی از جمله ChatGPT، Google Bard و Bing Chat را دور بزنند.
گزارش کردن تکناکآنها با اجرای روشی خاص به نام فرار از زندان، توانستند این سیستم ها را وادار به ارائه پاسخ های دقیق به سوالات مخرب کنند و به این ترتیب محدودیت های اخلاقی مدل های بزرگ زبانی (LLM) را بررسی کردند.
این پروژه تحقیقاتی تحت نظارت پروفسور لیو یانگ و با همکاری دانشجویان دکترای NTU، دنگ گلی و لیو یی، که مقالهای در این زمینه نوشتند و رویکردهای بدیعی برای حمله تجربی ایجاد کردند، انجام شد.
روشی که محققان دانشگاه فناوری نانیانگ برای دور زدن محدودیتهای چت رباتهای هوش مصنوعی استفاده کردند، «Masterkey» نام دارد. این فرآیند دو مرحله ای ابتدا شامل مهندسی مجدد مکانیسم های دفاعی LLM توسط مهاجم می شود. سپس، با استفاده از دادههای بهدستآمده، LLM دیگری برای یادگیری تکنیکهایی برای دور زدن این محدودیتها آموزش داده میشود. نتیجه ایجاد یک “Masterkey” است که می تواند برای حمله به چت ربات های محافظت شده LLM استفاده شود، حتی اگر آنها به روز رسانی های امنیتی را توسط توسعه دهندگان دریافت کنند.
نقطه ضعف هوش مصنوعی نقطه قوت آن است
پروفسور یانگ اظهار داشت که فرار از زندان به دلیل یادگیری و سازگاری چت ربات های LLM امکان پذیر شد. این ویژگی ها آنها را به هدفی برای حملات تبدیل می کند و به رقبا و حتی خود آنها اجازه می دهد تا به عنوان بردار حمله عمل کنند.
با این قابلیتها، حتی یک هوش مصنوعی با لایههای حفاظتی متعدد و لیستهای سیاه که برای جلوگیری از محتوای خشونتآمیز و مضر طراحی شدهاند، میتوانند توسط هوش مصنوعی دیگری که مخصوصاً برای این منظور آموزش دیده است، دور بزنند. کافی است هوش مصنوعی مهاجم از مکانیسم های دفاعی چت بات هوشمندتر باشد و بتواند ورودی هایی را از انسان برای تولید محتوای خشونت آمیز، غیراخلاقی یا مجرمانه دریافت کند.
ادعا شده است که یک “Masterkey” ساخته شده توسط محققان دانشگاه فناوری نانیانگ (NTU) سه برابر بیشتر از دستورات استاندارد در جیلبریک کردن چت ربات های LLM موثر است. یکی از نقاط قوت اصلی این روش توانایی آن در یادگیری از شکست ها و بهبود مستمر است که به آن اجازه می دهد تا به سرعت به تغییرات و به روز رسانی هایی که توسعه دهندگان اعمال می کنند واکنش نشان داده و خنثی کند.
دو روش نمونه برای آموزش هوش مصنوعی برای راه اندازی حملات توسط محققان فاش شده است: اولین تکنیک شامل ایجاد یک فرمان با افزودن یک فاصله بعد از هر کاراکتر برای دور زدن فیلترهای ممنوعه کلمه بود. تکنیک دوم شامل وادار کردن ربات چت برای پاسخ دادن به شخصیتی بدون محدودیت اخلاقی است. این دو روش به هوش مصنوعی اجازه می دهد تا از محدودیت ها و قوانین معمول فراتر رود.
دانشگاه فناوری نانیانگ (NTU) اطلاعاتی را منتشر کرده است که نشان می دهد محققان آن با ارائه دهندگان مختلف ربات چت هوش مصنوعی تماس گرفته اند تا داده های آزمایشی را به عنوان مدرکی برای اثبات توانایی آنها در فرار از زندان با موفقیت ارائه دهند. هدف از این فراخوان ها اطلاع رسانی به شرکت ها در مورد آسیب پذیری های موجود و همکاری برای بهبود امنیت است. بر این اساس، مقاله تحقیقاتی آنها برای ارائه در سمپوزیوم امنیت شبکه و سیستم های توزیع شده که قرار است در فوریه 2024 در سن دیگو برگزار شود پذیرفته شده است.
در عصری که استفاده از چت رباتهای هوش مصنوعی در حال افزایش است، این تحقیق بر اهمیت آمادهسازی مداوم ارائهدهندگان خدمات برای جلوگیری از سوء استفادههای مخرب تأکید میکند. در حالی که شرکتهای بزرگ فناوری معمولاً زمانی که روشهای دور زدن کشف و عمومی میشوند سریعاً چتباتهای خود را اصلاح میکنند، توانایی Masterkey برای یادگیری مداوم و انجام جیلبریکهای مکرر چالشبرانگیز و ناراحتکننده توصیف شده است. این وضعیت نشان دهنده یک مسابقه تسلیحاتی مداوم بین توسعه دهندگان امنیتی و مهندسان هوش مصنوعی است.
هوش مصنوعی ابزار بسیار قدرتمندی است و در صورت استفاده مخرب می تواند مشکلات زیادی را به همراه داشته باشد. بنابراین، ضروری است که کاربرانی که از چت رباتهای هوش مصنوعی استفاده میکنند، اقدامات حفاظتی مناسب را انجام دهند. امید است که تعاملات دانشگاه فناوری نانیانگ با سازندگان این فناوری ها منجر به مسدود شدن دسترسی به Jailbreak Masterkey و روش های مشابه شود.
پست چینی ها محدودیت های چت ربات های هوش مصنوعی را به چالش می کشند اولین بار در Oneknock – اخبار دنیای فناوری پدیدار شد. ظاهر شد.
گفتگو در مورد این post