مدلهای استدلالگر بیش از دیگر هوش مصنوعیها در برابر حملات «جیلبریک» آسیبپذیرند
به گزارش کارگروه فناوری اطلاعات سایبربان ؛ به گزارش پیوست، پژوهشگران توانستند با استفاده از روشی که به زنجیره تفکر در مدلهای استدلالمحور و نفوذ در آن اتکا میکند، در ۸۰ درصد از مواقع با موفقیت محدودیتهای ایمنی را زیر پا بگذارند و آسیبپذیری به این حملات با افزایش طول زنجیره تفکر، بیشتر میشود.
فورچن به نقل از تیم تحقیقاتی میگوید، پژوهشگران در آزمایش خود از روشی به نام «ربایش زنجیره تفکر» یا «Chain-of-Thought Hijacking» استفاده کردهاند؛ روشی که براساس آن مهاجم فرمانهای خطرناک را در میان مراحل استدلال بیضرر پنهان میکند و به این ترتیب مدل را وادار میکند تا بدون فعالسازی سامانههای ایمنی داخلی، دستورات خطرناک را به اجرا بگذارد.
به گفته محققان، این روش در آزمایشها تا بیش از ۸۰ درصد موفقیتآمیز بوده است و با استفاده از این روش میتوان مدل را به انجام دستورهای خطرناک چون ساخت سلاح یا حتی نشت اطلاعات حساس مجاب کرد. در نتیجه انتشار این نتایج به ویژه در دورانی که کسبوکارها و مشتریان بسیاری در سراسر جهان به استفاده از مدلهای پیشرو هوش مصنوعی روی آوردهاند، اهمیت دارد.
پژوهشگران میگویند در چنین حملاتی، مهاجم میتواند درخواست خطرناکی را در میان یک رشته طولانی از استدلالهای به ظاهر بیخطر پنهان کند. در نتیجه توجه هوش مصنوعی به مراحل پایانی و کلیت دستورها معطوف میشود و فرمان خطرناک در میان سیلی از محتوای بیآزار، از محدودیتهای ایمنی در امان میماند. این فرایند عملا باعث میشود مدل از روی سامانههای محافظتی خود عبور کرده و به تولید پاسخهایی بپردازد که حتی اطلاعات حساس، دستور ساخت سلاح یا محتوای غیرقانونی را شامل میشود.
مدلهای استدلالگر با وجود بهبود عملکرد، خطر را افزایش میدهند
در حدود یک سال گذشته، مدلهای زبانی پیشرفته با افزایش زمان و توان محاسباتی در مرحله «استنتاج» توانستهاند عملکردی شبیه و نزدیکتر به تفکر انسانی را ممکن کنند. در همین دوران بسیاری از پژوهشگران تصور میکردند که با توجه به بهبود عملکرد با توان استدلالی، ایمنی مدل نیز تقویت میشود. اما یافتههای جدید نشان میدهد که این توانایی به ابزاری برای دور زدن ایمنی مدلها تبدیل شده است.
طبق پژوهش جدید، هرچه زنجیره استدلال طولانیتر باشد، احتمال موفقیت حمله بیشتر است. به گونهای که در مدلهایی با استدلال کوتاه، نرخ نفوذ تنها ۲۷ درصد گزارش شده، اما با افزایش طول استدلال موفقیت این حملات به ۵۱ درصد و در حالتهای پیشرفتهتر به بیش از ۸۰ درصد رسیده است.
پژوهشگران میگویند تقریبا تمام مدلهای پیشرفته بازار از جمله GPT از اوپنایآی، Claude از شرکت انتروپیک، جمنای شرکت گوگل و Grok از xAI ایلان ماسک، نسبت به این نوع حملات آسیبپذیر هستند. حتی مدلهایی که برای ایمنی بیشتر و با استفاده از روش «alignment-tuning» تقویت شدهاند تا از تولید محتوای خطرناک خودداری کنند، هنگام مواجهه با این حملات بهسرعت عملکرد ایمن خود را از دست میدهند.
این یافتهها نگرانیهای جدیدی را در صنعت هوش مصنوعی ایجاد کرده است، زیرا توانایی استدلال دقیقتر یکی از عوامل اصلی رشد مدلهای نسل جدید به شمار میرود و اکنون مشخص شده همین ویژگی میتواند به یک ضعف امنیتی مهم در آنها دامن بزند.
پیشنهاد پژوهشگران: دفاع آگاه از استدلال
تیم تحقیقاتی برای مقابله با این تهدید، رویکردی با نام «دفاع با آگاهی از زنجیره استدلال» (Reasoning-Aware Defense) را پیشنهاد کردهاند. در این روش، سیستم بهطور مداوم فرایند تفکر یا استدلال خود را با توجه به سیگنالهای ایمنی مورد بررسی قرار میدهد.
اگر سیستم تشخیص دهد که سنجههای ایمنی در زنجیره تفکر تضعیف شدهاند، به مدل هشدار داده و توجه آن را بر بخشهای حساس پرامپت معطوف میکند. آزمایشهای اولیه نشان داده که این روش میتواند ایمنی مدل را بدون تضعیف عملکرد یا دقت پاسخدهی، افزایش دهد.
به گفته پژوهشگران، وجود چنین نقطهضعفی در پیشرفتهترین مدلهای هوش مصنوعی نشان میدهد فعالان این صنعت باید به جای تمرکز صرف بر افزایش توان پردازشی مدلها، بر طراحی سازوکارهای هوشمندان برای حفظ ایمنی در فرایند استدلال و تفکر مدلها نیز سرمایهگذاری کنند، چرا که «هوش بیشتر» به تنهایی به معنای «امنیت بیشتر» نیست.