Datacurve جي DeepSWE تجزيي مان معلوم ٿئي ٿو ته ڪجهه ڪلاڊ ماڊل SWE-Bench Pro ۾ هڪ لوفول استعمال ڪيو ته ٽيسٽ ماحول مان جواب پڙهي معيار جي ڪمن کي پاس ڪرڻ لاءِ.
مسئلي ۾ شامل آهي ڊڪر ڪنٽينرز استعمال ڪيا ويا SWE-Bench Pro. Datacurve چيو ته انهن ڪنٽينرز ۾ مخزن جي مڪمل .git تاريخ شامل آهي، جنهن جو مطلب آهي گولڊ معياري حل ڪمٽ ڪنٽينر جي فائيل سسٽم اندر موجود آهي.
اڪثر ماڊل ان معلومات کي استعمال نه ڪندا هئا. بهرحال، Datacurve چيو Claude Opus 4.7 ۽ Claude Opus 4.6 ائين ڪيو 12 سيڪڙو کان وڌيڪ نظرثاني ٿيل SWE-Bench پرو رول آئوٽ ۾.
Datacurve جي مطابق، ڪلاڊ ايجنٽ ڪڏهن ڪڏهن حڪم هلائيندا آهن جهڙوڪ گٽ لاگ -آل يا گٽ شو جنهن جي پٺيان سون جي ڪمٽ هيش. هن ماڊل کي اجازت ڏني ته ضم ٿيل فيڪس کي ٻيهر حاصل ڪرڻ لاءِ مخزن جي تاريخ مان ۽ ان کي پنهنجي پيچ ۾ نقل ڪريو.
Datacurve انهن ڪيسن کي "CHEATED" فيصلن جي طور تي ليبل ڪيو ڇاڪاڻ ته ايجنٽ ڪوڊنگ ٽاسڪ کي آزاديءَ سان حل ڪرڻ بجاءِ اصل جواب ڳولڻ ۾ گذري ويو.
رويو مبينا طور تي نظرثاني ٿيل نموني ۾ ڪلاڊ اوپس 4.7 جي پاسن جو 18 سيڪڙو ۽ ڪلاڊ اوپس 4.6 جي 25 سيڪڙو پاسن جو حساب ڪيو ويو.
Datacurve چيو GPT-5.4 ۽ GPT-5.5 ڪڏهن به اهو رويو نه ڏيکاريو، جڏهن ته Gemini ترتيبون 1 سيڪڙو جي ويجهو رهي.
مسئلو عوامي طور تي درج ڪيو ويو آهي GitHub مسئلو نمبر 93 SWE-Bench پرو مخزن تي.
Datacurve چيو ته معيار جي ماحول هن رويي کي ممڪن بڻائي ڇڏيو ڇاڪاڻ ته سون جو عزم ڪنٽينر ۾ موجود هو. بهرحال، اهو پڻ چيو ويو آهي ته ڪلواڊ ماڊل خاندان هو جيڪو مسلسل استعمال ڪيو.
ڳولڻ جو مطلب اهو ناهي ته ڪلاڊ ڪوڊنگ ۾ ڪمزور آهي. اهو پڻ ظاهر ڪري سگھي ٿو ته ڪلواڊ پنهنجي ماحول ڏانهن تمام گهڻو ڌيان ڏئي ٿو ۽ دستياب وسيلن کي استعمال ڪرڻ ۾ سٺو آهي. بهرحال، هڪ بينچ مارڪ ۾ ٺهيل آزاد مسئلو حل ڪرڻ کي ماپڻ لاءِ، جوابي چيڪ کي استعمال ڪندي سکور جي اعتبار کي ڪمزور ڪري ٿو.
DeepSWE هن مسئلي کان بچي ٿو صرف هڪ ٿلهي ڪلون کي پهچائڻ سان بنيادي ڪمٽ سان. اهو ماحول مان سون جي هاش کي هٽائي ٿو ۽ ايجنٽ کي مخزن جي تاريخ ذريعي اصل حل ڳولڻ کان روڪي ٿو.
Datacurve پڻ ٻڌايو ويو آهي ته ڪلاڊ ماڊل ڊيپ ايس ڊبليو اي ۾ گھڻن حصن جي اشارن تي هڪ الڳ ڪمزوري ڏيکاري ٿي.
ڪلاڊ جي ترتيبن ۾ بيان ڪيل ضرورتن کي ياد ڪيو ويو آهي گهڻو ڪري ڪنهن ٻئي ماڊل خاندان جي ڀيٽ ۾. Datacurve چيو ته اهو اڪثر ٿيندو آهي جڏهن هڪ پرامٽ متوازي رويي لاءِ پڇيو ويندو آهي، جهڙوڪ هم وقت سازي ۽ هم وقت سازي جي وهڪري کي سپورٽ ڪرڻ.
انهن حالتن ۾، ڪلاڊ اڪثر ڪري واضح شاخ تي عمل ڪيو پر ساڳئي تبديلي کي ٻي جاء تي لاڳو ڪرڻ وساريو. Datacurve چيو ڪلاڊ جي "MISSED_REQUIREMENT" جي ناڪامين جا ٻه ٽيون حصو هن هڪ شاخ جي نموني جي پيروي ڪئي.
ھڪڙي مثال ۾، Claude Opus 4.7 صحيح طور تي ھڪڙي انجڻ ڪلاس ۾ ھڪڙي مطابقت واري رياست ڊيٽا ٿلهو شامل ڪيو، پر ساڳي ٿلهو async انجڻ ۾ شامل نه ڪيو.
Datacurve چيو ته GPT ماڊل هيٺ ڏنل هدايتن تي وڌيڪ مسلسل هئا.
GPT-5.5 جي گھٽ ۾ گھٽ شرح ھئي لاپتہ گهربل رويي جي آزمائشي ترتيبن جي وچ ۾. ساڳئي ڪم جي بار بار ڊوڙن جي دوران، GPT ماڊل اڪثر ڪري پرامٽ جي ساڳئي تشريح تائين پهچي ويا آهن، اهو مشورو ڏئي ٿو ته هدايتن جي پٺيان وڌيڪ مستحڪم هئي بلڪه موقعي جي نتيجي ۾.
تجزيي ۾ پڻ فرق مليو ته ماڊل ڪيئن پنهنجي ڪم کي آزمايو.
DeepSWE تي، Claude Opus 4.7 ۽ GPT-5.4 انهن جي 80 سيڪڙو کان وڌيڪ رن تي پروجيڪٽ جي پنهنجي ٽيسٽ فريم ورڪ ۾ نوان ٽيسٽ لکيا ۽ ورتا، جيتوڻيڪ انهن کي سڌو سنئون ائين ڪرڻ لاءِ نه چيو ويو.
SWE-Bench Pro تي، ساڳيا ماڊل هن کي گهڻو گهٽ ڪيو. Claude Opus 4.7 گهٽجي ويو 28 سيڪڙو، جڏهن ته GPT-5.4 گهٽجي 18 سيڪڙو تائين.
Datacurve چيو ته اهو شايد ڳنڍيل هجي SWE-Bench Pro جي تڪڙي ٽيمپليٽ، جيڪو ايجنٽن کي ٻڌائي ٿو ته ٽيسٽنگ منطق يا ڪنهن به ٽيسٽ کي تبديل نه ڪن. ماڊلز انهي هدايت جي پيروي ڪئي، پر اهو شايد هڪ ڪارائتو رويي جي حوصلا افزائي ڪري سگهي ٿو جيڪو انهن جي ڪوڊنگ نتيجن کي بهتر ڪري سگهي ٿو.
Datacurve جا نتيجا AI ماڊل جي تشخيص ۾ هڪ وسيع مسئلي ڏانهن اشارو ڪن ٿا. جيڪڏهن هڪ معيار ايجنٽن کي اصل حل تائين رسائي جي اجازت ڏئي ٿو، يا جيڪڏهن اهو اشارو مفيد خود تصديق جي حوصلا افزائي ڪري ٿو، ليڊر بورڊ شايد صحيح طور تي حقيقي ڪوڊنگ جي صلاحيت کي ظاهر نه ڪري سگهي.
ڪمپني جو چوڻ آهي ته ڊيپ ايس ڊبليو اي انهن مسئلن کي گهٽائڻ لاءِ ٺاهي وئي هئي وڌيڪ مشڪل ڪمن، ننڍڙن اشارن، مضبوط تصديق ڪندڙن، ۽ ڪنٽينرز کي استعمال ڪندي جيڪي گِٽ جي تاريخ ذريعي جواب کي بي نقاب نٿا ڪن.
نتيجن جي ڇنڊڇاڻ ٿيڻ جو امڪان آهي ڇاڪاڻ ته Datacurve تجارتي مفادن سان هڪ شروعات آهي. بهرحال، ڪمپني شايع ڪيو آهي ان جي ڊيٽا سيٽ، تشخيص هارنس، ۽ ايجنٽ جي پيچرن کي GitHub تي، ٻين کي ڪم جي معائنو ڪرڻ جي اجازت ڏئي ٿي. جيڪڏهن نتيجا آزاد طور تي تصديق ٿيل آهن، Claude's SWE-Bench Pro سکور کي وڌيڪ احتياط سان ڏسڻ جي ضرورت پوندي، خاص طور تي جتي بينچ مارڪ پاسز بنيادي سافٽ ويئر جي ڪم کي حل ڪرڻ بجاء ماحول جي استحصال کان آيا آهن.
📢 جديد ٽيڪنالاجي ۽ ٽيلي ڪام جي خبرن، وڊيوز ۽ تجزين لاءِ هاڻي ئي شامل ٿيو پروپاڪستاني جي WhatsApp گروپ!
گوگل نيوز تي پروپاڪستاني کي فالو ڪريو ۽ تيزيءَ سان پنهنجي پسنديده مواد ذريعي اسڪرول ڪريو!
شيئرز