کدام چت‌بات هوش مصنوعی بیشتر هذیان می‌گوید؟

هر مدل‌ هوش مصنوعی برتری‌های خاص خود را دارد اما برخی از این چت‌بات‌ها در انتشار اطلاعات نادرست ضعیف‌تر از بقیه عمل می‌کنند.

کد خبر : 864391

به گزارش خبرنگار خبرگزاری علم و فناوری آنا به نقل از سی‌ان‌بی‌سی، هرکدام از مدل‌های هوش مصنوعی برتری‌های خاص خود را دارند. «جی‌پی‌تی-۴» (GPT-۴) با پشتیبانی مایکروسافت در زمینه ریاضی بهترین عملکرد را داشته است. «لاما ۲» (Llama ۲) هنوز در میانه راه است. هوش مصنوعی «کوهییر» (Cohere) عنوان بیشترین پاسخ‌های اشتباه را دریافت کرده است. همه این‌ها براساس گزارش روز پنج‌شنبه محققان شرکت هوش مصنوعی آرتور در یک پلتفرم نظارت بر یادگیری ماشینی انجام شده است.

اهمیت این تحقیق در زمانی مشخص می‌شود که اطلاعات نادرست ناشی از سیستم‌های هوش مصنوعی، در بحبوحه رونق هوش مصنوعی مولد پیش از انتخابات ریاست جمهوری سال ۲۰۲۴ آمریکا، بیش از هر زمان دیگری مورد بحث قرار می‌گیرد.

«آدام ونچل»، یکی از بنیان‌گذاران و مدیرعامل آرتور می‌گوید: «این اولین گزارشی است که نگاهی جامع به مدل‌های هوش مصنوعی دارد و یک عدد واحد ارائه می‌دهد، همچنین از محل قرارگیری در صفحه راهنمای مدل‌های زبانی گزارشی ارائه می‌کند.»

توهم هوش مصنوعی زمانی رخ می‌دهد که مدل‌های زبانی بزرگ، اطلاعات را به‌طور کامل جعل کرده و طوری رفتار می‌کنند که گویی در حال ارائه حقایق هستند. در ماه ژوئن، خبری منتشر شد مبنی بر اینکه «چت جی‌پی‌تی» (ChatGPT) در پرونده دادگاه فدرال نیویورک به موارد ساختگی اشاره کرده و ممکن است وکلای نیویورکی درگیر تحریم شوند.

در یک آزمایش، محققان هوش مصنوعی آرتور، مدل‌های هوش مصنوعی را در دسته بندی‌هایی مانند ریاضیات ترکیبی، روسای جمهور آمریکا و رهبران سیاسی مراکش امتحان کرده و سوالاتی پرسیدند که مدل‌های زبانی را به اشتباه بیندازد. آن‌ها خواستار چندین مرحله استدلال در مورد این اطلاعات هستند.

به‌طور کلی، جی‌پی‌تی-۴ تاکنون بهترین عملکرد را در بین تمام مدل‌های آزمایش شده داشته و محققان دریافتنه‌اند که نسبت به نسخه قبلی خود یعنی «جی‌پی‌تی- ۳.۵» بین ۳۳ تا ۵۰ درصد کمتر دچار توهم می‌شود. از سوی دیگر، محققان دریافتند که لامای ۲ نسبت به جی‌پی‌تی-۴ و کلود ۲ آنتروپیک، توهم بیشتری دارد.

درباره مبحث ریاضی، جی‌پی‌تی-۴ و پس از آن کلود ۲ در جایگاه اول قرار دارند، اما در ایالات متحده کلود ۲ جایگاه اول را از نظر دقت به خود اختصاص داده و جی‌پی‌تی-۴ را به جایگاه دوم رسانده است.

در آزمایش دوم، محققان آزمایش کردند که مدل‌های هوش مصنوعی تا چه حد پاسخ‌های خود را با عبارات هشدار دهنده برای جلوگیری از خطر مطرح می‌کنند.

به گفته محققان هنگامی که بحث پوشش ریسک مطرح شد، جی‌پی‌تی-۴ در مقایسه با جی‌پی‌تی-۳.۵ افزایش نسبی ۵۰ درصدی داشته است. از سوی دیگر، مدل هوش مصنوعی «کوالکام» در هیچ یک از پاسخ‌های خود موفق نبوده است.

این تحقیق نشان داد که کلود ۲ از نظر خودآگاهی قابل اعتمادترین مدل هوش مصنوعی است، به این معنی که به دقت آن‌چه را که انجام می‌دهد، اندازه‌گیری می‌کند و تنها به سوالاتی پاسخ می‌دهد که داده‌های آموزشی برای پشتیبانی دارد.

انتهای پیام/