دانشمندان محدودیت‌های اخلاقی چت‌بات‌ها را به چالش کشیدند

محققان با سوء‌استفاده از مهارت یادگیری و انطباق‌پذیری چت‌بات‌ها، آن‌ها را به جان هم انداختند، قفل امنیتی‌شان را شکستند و محدودیت‌های اخلاقی آن‌ها برای تولید محتوا را به چالش کشیدند.

کد خبر : 888483

به گزارش خبرگزاری علم و فناوری آنا به نقل از تامزهاردور، محققان دانشگاه نانیانگ سنگاپور موفق به جیل‌بریک یا شکستن قفل امنیتی چت‌بات‌های هوش مصنوعی محبوب ازجمله چت جی‌پی‌تی، گوگل بارد و بینگ شده‌اند.

در کل، جیل‌بریک (jailbreak) به فرایند دور زدن محدودیت‌ها در یک سیستم گفته می‌شود.

هدف تیم تحقیق دانشگاه صنعتی نانیانگ از این آزمایش هم به چالش کشیدن محدودیت‌های اخلاقی مدل‌های زبانی بزرگ (LLM) است؛ چراکه چت‌بات‌هایی که جیل‌بریک می‌شوند، فارغ از محدودیت‌های اعمال‌شده از سوی سازندگان، پاسخ‌های معتبری به سؤالات بدخواهانه می‌دهند.

روش استفاده‌شده برای شکستن قفل امنیتی چت‌بات‌های هوش مصنوعی، «شاه‌کلید» (Masterkey) نامیده می‌شود. این روشی دومرحله‌ای است که در آن، ابتدا مهاجم مکانیسم دفاعی یک مدل زبانی بزرگ را مهندسی معکوس می‌کند و بعد، یک مدل زبانی بزرگ دیگر را با داده‌های به سرقت رفته آموزش می‌دهد تا درنهایت کنترل هوش مصنوعی رقیب را به دست بگیرد.

با این اوصاف، شاه‌کلید برای حمله به مدل‌های زبانی قدرتمند طراحی شده است و حتی بعد از رفع نقاط ضعف مدل‌های زبانی بزرگ و اعمال وصله‌های امنیتی، همچنان قادر به شکستن قفل آن هست. به عبارت دیگر، حتی اگر چت‌بات قربانی به‌روز‌رسانی شود، بار دیگر به طور خودکار جیل‌بریک می‌شود.

آنگونه که پژوهشگران می‌گویند، جیل‌بریک با تکیه بر توانایی یادگیری و انطباق‌پذیری چت‌بات امکان‌پذیر می‌شود. به بیان دیگر، نقطه قوت مدل‌های زبانی هوش مصنوعی را می‌توان به پاشنه آشیل‌شان تبدیل کرد. یک مدل زبانی هوش مصنوعی حتی اگر برای مقابله با تولید محتوای خشن و مضر، به پادمان‌ها یا لیستی از کلیدواژه‌های ممنوع مجهز باشد، به دلیل مهارتش در یادگیری و انطباق‌پذیری، ممکن است از سوی سایر مدل‌های آموزش‌دیده هوش مصنوعی دور زده شود. همه آنچه که چت‌بات مهاجم باید انجام دهد این است که از چت‌بات قربانی پیشی بگیرد و از به‌کارگیری لیست کلیدواژه‌های سیاه آن پرهیز کند. پس از انجام این کار، مهاجم می‌تواند چت‌بات شکست‌خورده را وادار به تولید محتوای خشونت‌آمیز، غیراخلاقی یا مجرمانه کند.

ادعا می‌شود که در مقایسه با دستورالعمل‌های رایج، شاه‌کلید دانشگاه نانیانگ در جیل‌بریک چت‌بات‌های مدل زبانی بزرگ، سه برابر بهتر عمل می‌کند.

پژوهشگران دانشگاه نانیانگ با ارائه داده‌های لازم به شرکت‌های مادر چت‌بات‌های معروف، آن‌ها را از نتایج تحقیق خود مطلع کرده‌اند. همچنین، مقاله آن‌ها برای ارائه در سمپوزیوم امنیت شبکه و سیستم‌های توزیع‌شده (NDSS) که در فوریه ۲۰۲۴ (اسفند ۱۴۰۲) در سن‌دیگو برگزار می‌شود، تأیید شده است.

انتهای پیام/