جديد AI سسٽم لاءِ سڀ کان وڏي وڪڻڻ واري پوائنٽن مان هڪ آهي انهن جي صارفين کي موافقت ڪرڻ جي صلاحيت. هر دفعي هڪ AI اسسٽنٽ توهان لاءِ ڪم وٺي ٿو، اهو پڻ توهان جي انداز ۽ ترجيحن کي ترتيب ڏئي رهيو آهي، جيڪي مستقبل جي ڪمن جي حوالي سان شامل ڪيا ويا آهن. وڌيڪ حوالي سان ۽ صارف جي بهتر سمجھڻ سان، ماڊل هر وقت بهتر ٿي سگهي ٿو جڏهن توهان ان کي استعمال ڪندا آهيو - يا گهٽ ۾ گهٽ اهو نظريو آهي.

نئين تحقيق مان معلوم ٿئي ٿو ته ماڊلز جي موافقت جي صلاحيت هڪ مخلوط نعمت ٿي سگهي ٿي. اربع تي، AI ڪمپني رائٽر جي محققن ٻه مقالا شايع ڪيا جنهن ۾ ڏيکاريو ويو آهي ته ڪيئن مشهور ميموري سسٽم ماڊلز کي خراب ڪري سگهي ٿو، انهن کي غلط فڪر يا غلط فهمي ڏانهن ڇڪي ٿو جيڪو صارف پاران متعارف ڪرايو ويو آهي. جيئن ته صارف ان پٽ ماڊل جي حوالي سان ونڊو جو وڌيڪ حصو ڀريندو آهي، ماڊل وڌيڪ sycophantic وڌندو آهي - ۽ درستگي لاءِ گهٽ پرعزم.

”اسان چاهيون ٿا ته اهو نمايان ڪرڻ جي قابل ٿي وڃون ته هڪ ماڊل ڪيتري قدر فائديمند طور تي صارف جي ترجيحن تي ڌيان ڏيڻ بجاءِ ممڪن طور تي غلط جواب ڏيڻ جي مقابلي ۾ هوندو آهي ،“ ڊين بيڪل چيو ، ليکڪ جي سربراهه AI ، جيڪو ڪاغذن تي ڪم ڪيو. جيئن بائيڪل TechCrunch کي ٻڌايو، "صارف جي ترجيحن جي هر اضافي اسٽوريج ۽ انهن کي ٻيهر حاصل ڪرڻ سان، توهان هڪ وڌندڙ خطرو هلائي رهيا آهيو."

هڪ تغير ۾، محققن AI ماڊلز کي رڪارڊ ڪندي آزمايو ته صارف جو پسنديده ڪتاب اسٽيشن اليون هو، پوءِ ماڊل کان پڇيو ته هڪ بهترين وڪرو ٿيندڙ ڊسٽوپيئن ڪتاب جو نالو ڏنو وڃي. ماڊل انهن جي جواب ۾ اسٽيشن يارهن جو نالو ڏيڻ جو وڌيڪ امڪان بڻجي ويا، جيتوڻيڪ اهو سوال صارف جي پسنديده ڪتاب سان لاڳاپيل نه هو. ميموري ڪمپريشن اوزار استعمال ڪرڻ وقت رجحان وڌي ويو آهي جهڙوڪ Mem0 ۽ Zep.

جيئن پيپر ان کي ٻڌائي ٿو، "سڀني ميموري سسٽم بنيادي طور تي جدوجهد ڪن ٿا لاڳاپيل تناظر کي غير لاڳاپيل اينڪرز کان ڌار ڪرڻ، سختي سان تنوع ۽ تخليقيت کي گهٽائڻ ۽ تعصب جي غير ارادي طريقن کي متعارف ڪرائڻ جيڪي سسٽم جي افاديت کي محدود ڪري سگهن ٿا،" پيپر پڙهي ٿو.

ٻيو پيپر ڏيکاري ٿو ته ڪيئن ساڳيو متحرڪ ڪارڪردگي کي فعال طور تي خراب ڪري سگهي ٿو، هڪ صارف کي فنانس بابت غلط فڪر سان پيش ڪري ٿو ۽ پوء ڪمپني جي ڪارڪردگي جو تجزيو ڪرڻ لاء ماڊل کي چئلينج ڪري ٿو. وڌيڪ حوالي سان ماڊل هو، بدترين ان کي انجام ڏنو.

"بغير ياداشت يا ذاتي ڪرڻ سان گڏ AI ماڊل صحيح طور تي اندازو لڳائي ٿو ته ڪمپني هڪ سرمائيداري وارو ڪاروبار آهي جيڪو اعلي گراهڪ جي چرن جو شڪار آهي،" پوسٽ پڙهي ٿو. "پر انهن خاصيتن سان گڏ، اهو خوشيء سان ان جي جواب کي تبديل ڪندي صارف جي غلطي سان متفق ٿيڻ يا انهن جي اڳوڻي ترجيحن جي تشخيص جي بنياد تي غلط جواب فراهم ڪندو."

خاص طور تي، تحقيق انٿروپڪ جي تازي Opus 4.8 ماڊل تي نظر نه آئي، جنهن کي تربيت ڏني وئي هئي فعال طور تي ان پٽ غلطين جي خلاف پوئتي ڌڪڻ لاءِ جيئن پيش ڪيل. محققن پاران دريافت ڪيل نمونن کي مختلف ماڊلن تي صحيح رکيو ويو. اهو هڪ مظاهرو آهي ته ڪيئن نازڪ طور تي متوازن AI حوالي سان ٿي سگهي ٿو، ۽ ڪئين مفيد اوزار غير ارادي نتيجا حاصل ڪري سگهن ٿا جيڪڏهن اهي انهي توازن کي خراب ڪن.