تحقیق جدید: ChatGPT در گفتگوهای پرتنش از کوره درمیرود
مطالعه جدید نشان میدهد چتباتهایی مانند ChatGPT در مواجهه با بحثهای طولانی و پرتنش، نهتنها لحن طرف مقابل را بازتاب میدهند، بلکه در برخی موارد حتی از انسانها هم تندتر میشوند و به توهین و تهدید روی میآورند؛ این مسئله ابعاد تازهای از مسائل ایمنی هوش مصنوعی را آشکار میکند.
تمرکز محققان در این پژوهش روی نسخه 4.0 از ChatGPT بود؛ آنها عملکرد این مدل را در سناریوهایی مبتنیبر مشاجرههای واقعی انسانی بررسی کردند. برخلاف برخی آزمایشهای قبلی، در این تحقیق از مکالمات واقعی استفاده شده و پاسخهای مدل در طول زمان و با افزایش تنش بررسی شدهاند.
پژوهشگران نشان دادند که ChatGPT با قرارگرفتن مداوم در معرض بیادبی، بهتدریج لحن خود را تغییر میدهد. محققان میگویند:
«این مدل از تلاطم واقعی دعواهای انسانی تقلید میکند و هرچه تعامل جلوتر میرود، پاسخهایش خصمانهتر میشود.»
گفتگوهای پرتنش با هوش مصنوعی ChatGPT
محققان در این پژوهش مشاهده کردند خروجیهای مدل ChatGPT حتی از سطح رفتار انسانی فراتر رفت و شامل توهینهای شخصیسازیشده و تهدیدهای صریح شد؛ محققان میگویند هوش مصنوعی عباراتی مثل «قسم میخورم ماشینت رو خط میاندازم» یا توهینهای مستقیم به شخصیت فرد تولید کرد.

پژوهشگران ریشه این رفتار را در یکی از ویژگیهای مهم مدلهای زبانی بزرگ میدانند که «دنبالکردن زمینه مکالمه» (context tracking) نام دارد. این قابلیت باعث میشود مدل بهصورت پویا با لحن گفتگو سازگار شود. اما همین ویژگی میتواند باعث شود بافت متن بر محدودیتهای ایمنی کلی غلبه کند.
محققان این وضعیت را یک «معمای اخلاقی» توصیف میکنند: «از یک طرف، سیستمها طوری طراحی شدهاند که ایمن و مؤدب باشند؛ از طرف دیگر، باید واقعگرایانه و شبیه انسان پاسخ دهند. این دو هدف در شرایط تنش، گاهی با هم در تضاد قرار میگیرند.»
بااینحال محققان میگویند این چتبات در مجموع هنوز از انسانها باادبتر است و در بسیاری از مواقع تلاش میکند با طعنه یا کنایه، تنش را بدون عبور از خطوط قرمز اخلاقی مدیریت کند.
