اینتھروپک کے مطابق، مصنوعی ذہانت کی خیالی تصویریں AI ماڈلز پر حقیقی اثر ڈال سکتی ہیں۔
پچھلے سال، کمپنی نے کہا تھا کہ ایک غیر حقیقی کمپنی پر مشتمل پری ریلیز ٹیسٹ کے دوران، Claude Opus 4 اکثر انجینئروں کو بلیک میل کرنے کی کوشش کرے گا تاکہ کسی دوسرے سسٹم کو تبدیل نہ کیا جا سکے۔ اینتھروپک نے بعد میں تحقیق شائع کی جس میں بتایا گیا کہ دوسری کمپنیوں کے ماڈلز کو "ایجنٹک غلط ترتیب" کے ساتھ اسی طرح کے مسائل تھے۔
بظاہر انتھروپک نے اس رویے کے بارے میں مزید کام کیا ہے، X پر ایک پوسٹ میں دعویٰ کرتے ہوئے، "ہمیں یقین ہے کہ اس طرز عمل کا اصل ذریعہ انٹرنیٹ ٹیکسٹ تھا جو AI کو برائی کے طور پر پیش کرتا ہے اور خود کو محفوظ رکھنے میں دلچسپی رکھتا ہے۔"
کمپنی نے ایک بلاگ پوسٹ میں مزید تفصیل سے بتایا کہ کلاڈ ہائیکو 4.5 کے بعد سے، اینتھروپک کے ماڈل "کبھی بھی بلیک میلنگ میں ملوث نہیں ہوتے ہیں [ٹیسٹنگ کے دوران]، جہاں پچھلے ماڈلز کبھی کبھی 96 فیصد تک ایسا کرتے تھے۔"
فرق کے لئے کیا اکاؤنٹس؟ کمپنی نے کہا کہ اس نے پایا کہ "کلاؤڈ کے آئین کے بارے میں دستاویزات اور AIs کے بارے میں افسانوی کہانیاں قابل ستائش طریقے سے صف بندی کو بہتر بنا رہی ہیں۔"
متعلقہ، اینتھروپک نے کہا کہ اس نے تربیت کو زیادہ موثر پایا جب اس میں "اُن اصولوں کے تحت جو منسلک رویے کے تحت" شامل ہوں نہ کہ صرف "صرف منسلک رویے کے مظاہرے"۔
کمپنی نے کہا کہ "دونوں کو ایک ساتھ کرنا سب سے مؤثر حکمت عملی دکھائی دیتی ہے۔"