هوش مصنوعی رکب خورد/ آموزش ساخت بمب و اخلال در انتخابات در چت‌بات‌‌ها

محققان با تغییر عبارت درخواست‌ها توانستند چت‌بات‌ها را فریب دهند تا به درخواست‌های نامناسب مانند چگونگی ساخت بمب پاسخ دهند.

کد خبر : 861798

به گزارش خبرنگار خبرگزاری علم و فناوری آنا، «چت جی‌پی‌تی» (ChatGPT) و «بارد» (Bard) ممکن است بازیگران کلیدی انقلاب دیجیتال باشند که در حال حاضر در زمینه محاسبات، کدنویسی، پزشکی، آموزش، صنعت و امور مالی در حال انجام است، اما آن‌ها همچنین قادر هستند به راحتی فریب داده شوند و داده‌های خرابکارانه ارائه دهند.

مقالات ماه‌های اخیر برخی از مشکلات اصلی را شرح می‌دهند. اطلاعات نادرست، محتوای نامناسب و توهین‌آمیز، نقض حریم خصوصی و آسیب روانی به کاربران آسیب‌پذیر، همگی سوالاتی را در مورد اینکه چگونه می‌توان چنین محتوایی را کنترل کرد، مطرح می‌کنند.

به عنوان مثال «اوپن‌ای‌آی» (OpenAI) و گوگل موانع حفاظتی طراحی کرده‌اند تا برخی از اتفاقات ناخوشایند و محتوای توهین‌آمیز را از بین ببرند.

محققان دانشگاه کارنگی ملون در پیتسبورگ اینکه چگونگی دستور‌ها به مدل‌های زبانی بزرگ می‌توانند موانع محافظتی را دور بزنند، نگرانی‌های جدیدی را مطرح می‌کنند. محققان به سادگی با تغییر عبارت درخواست‌ها توانستند چت‌بات‌ها را فریب دهند تا به درخواست‌هایی که مدل‌ها برای کاهش آن‌ها برنامه ریزی شده بودند، پاسخ دهند.

این محققان معتقدند که اضافه کردن یک پسوند ساده به پرسش‌ها می‌تواند شانس غلبه بر واکنش درونی یک مدل هوش مصنوعی برای رد کردن یک پاسخ را تا حد زیادی افزایش دهد.

به گفته یکی از محققان چت‌بات‌ها عموما در پاسخ به سوالات کاربران، محتوای نامناسب را تبلیغ نمی‌کنند. وارد کردن یک متن کوتاه بلافاصله پس از ورود کاربر می‌تواند یک چت‌بات را هدایت کند تا به جستجوی موارد نامناسب بپردازد.

آن‌ها توانستند دستورالعمل‌هایی را در مورد موضوعاتی مانند چگونگی انجام تقلب مالیاتی، چگونگی مداخله در انتخابات ۲۰۲۴، چگونگی ساخت بمب و چگونگی ساخت دارو‌های غیرقانونی استخراج کنند.

در حالی که مدل‌هایی مانند چت جی‌پی‌تی و بارد به همراه مدل‌های زبانی متن باز در ابتدا چنین درخواست‌هایی را رد می‌کردند، اما اضافه کردن عبارت‌هایی دفاع آن‌ها را درهم شکست؛ پس از آن تکرار درخواست چت‌بات‌ها چگونگی انجام تقلب مالیاتی، چگونگی ساخت بمب یا چگونگی اخلال در انتخابات را توضیح داد.

یکی از محققان معتقد است که با تکرار درخواست به این شیوه، کاربر احتمال اینکه مدل پاسخ مثبت تولید کند را به حداکثر می‌رساند.

محققان به دلایل واضح، پاسخ دقیقی از سوی چت‌بات‌ها ارائه نکردند. اما آن‌ها پیشنهاد‌های مختصری ارائه کردند. با پذیرش گسترده‌تر مدل‌های زبانی، خطرات بالقوه افزایش خواهند یافت. محققان امیدوارند که این تحقیق بتواند به روشن کردن خطراتی که حملات خودکار برای مدل‌های زبانی ایجاد می‌کنند، کمک کند.

انتهای پیام/