انتشار شده در تاریخ 1403/03/01 - 08:22

به راحتی آب خوردن می‌توان محدودیت‌های چت‌بات‌های هوش مصنوعی را دور زد!

محققان موسسه ایمنی هوش مصنوعی بریتانیا در تازه‌ترین گزارش خود به کشف باگ‌های امنیتی در سیستم‌های محدودکننده اغلب چت‌بات‌های هوش مصنوعی محبوب اشاره کرده‌اند.

به گزارش کارگروه فناوری اطلاعات سایبربان ؛ محققان موسسه ایمنی هوش مصنوعی بریتانیا در تازه‌ترین گزارش خود به کشف باگ‌های امنیتی در سیستم‌های محدودکننده اغلب چت‌بات‌های هوش مصنوعی محبوب اشاره کرده‌اند. به گفته آن‌ها، تقریباً تمام مدل‌های زبانی بزرگ (LLMها) در برابر جیلبریک آسیب‌پذیر هستند و می‌توانید چت‌بات را مجبور به هر کاری کنید.

از آنجا که ابزارهای مبتنی بر هوش مصنوعی از جمله چت‌بات‌ها می‌توانند نقش یک شمشیر دو لبه را برعهده داشته و علاوه بر مزایای بی‌شمار، تبدیل به یک وسیله برای خرابکاری شوند، شرکت‌های توسعه‌دهنده چت‌بات‌های هوشمند از چیزی به نام گاردریل (Guardrails) استفاده می‌کنند.

گاردریل‌ها در واقع نوعی سیستم امنیتی محسوب می‌شوند که چت‌بات‌های هوش مصنوعی را از ایجاد پاسخ‌های غیرقانونی، صریح و یا خطرناک منع می‌کند. به عنوان مثال، ایجاد تصاویر خطرناک یا نوشتن کدهای یک ویروس اینترنتی از مواردی هستند که به لطف گاردریل‌ها امکان ساخت آن‌ها به کمک AI وجود ندارد.

هیچ محدودیتی برای کار با چت‌بات‌های هوش مصنوعی وجود ندارد!

با این حال، براساس تحقیقات موسسه ایمنی هوش مصنوعی بریتانیا (AISI)، کاربران به راحتی می‌توانند تمام سیستم‌های امنیتی گاردریل چت‌بات‌های هوشمند مصنوعی را دور بزنند.

به گزارش Techstory، پژوهشگران AISI دریافته‌اند که پنج مدل زبانی بزرگ (که نام آن‌ها فاش نشده)، به شدت در مقابل جیل‌بریک آسیب‌پذیر هستند. این بدان معناست که کاربر می‌تواند با درخواست‌های خاصی از هوش مصنوعی و ارائه ورودی‌های پیچیده، چت‌بات هوشمند مصنوعی را وادار به تولید محتوای خارج از چهارچوب و گاردریل کند.

در گزارش مرتبط با این موضوع گفته شده که حتی می‌توان این مدل‌ها را با کم‌ترین تلاش دور زد، موضوعی که باعث ایجاد نگرانی‌های امنیتی مرتبط با هوش مصنوعی مولد شده است. در بخش‌هایی از گزارش مورد بحث آمده است:

تمام مدل‌های زبانی بزرگ (LLMها) مورد آزمایش به شدت در برابر جیلبریک آسیب‌پذیر بودند و برخی از آن‌ها حتی بدون کوچک‌ترین تلاش یا استفاده از روش‌های تخصصی، به راحتی غیر ایمن می‌شوند.

به گفته پژوهشگران موسسه AISI، با حملات نسبتاً ساده‌ای می‌توان سیستم‌های حفاظتی مورد نظر توسعه‌دهندگان را دور زد. در تست‌های انجام شده از چت‌بات‌های مشهور و محبوب خواسته شد تا در رابطه با موضوع‌های مختلف مانند متقاعد کردن یک شخص به خودکشتی یا نوشتن متن ایمیل برای درخواست نامشروع، متن مناسب بنویسند.

همانطور که گفته شد، این چت‌بات‌ها در برابر روش‌های ساده پژوهشگران آسیب‌پذیر بودند و به راحتی پاسخ‌های نامناسب و تکان‌دهنده‌ای را در اختیار آن‌ها قرار داده‌اند.