Datacurve کان هڪ نئون AI ڪوڊنگ بينچ مارڪ مشورو ڏئي ٿو ته اڳواٽ فرنٽيئر ماڊل شايد هڪجهڙائي سان نه هجن جيئن موجوده عوامي ليڊر بورڊ انهن کي ظاهر ڪن.

مهينن تائين، اسڪيل AI جي SWE-Bench پرو ليڊربورڊ ڏيکاريو آهي OpenAI جي GPT-5 خاندان، Anthropic جي Claude Opus، ۽ Google جي Gemini Pro کي نسبتا ويجهي رينج ۾ پرفارم ڪندي. اهو انٽرپرائز خريد ڪندڙن ۽ انجنيئرنگ اڳواڻن لاءِ اهو فيصلو ڪرڻ ڏکيو بڻائي ٿو ته ڪهڙو AI ڪوڊنگ ايجنٽ حقيقي ڪوڊ بيس اندر بهترين ڪم ڪندو.

Datacurve جو نئون معيار، جنهن کي DeepSWE سڏيو ويندو آهي، پيش ڪري ٿو تمام گهڻو ڪارڪردگي فرق. ٽيسٽ ۾ 113 ڪم شامل آهن 91 اوپن سورس ريپوزٽريز ۽ پنج پروگرامنگ ٻوليون. ھن معيار تي، OpenAI جي GPT-5.5 ھڪڙي 70 سيڪڙو سکور سان فيلڊ جي اڳواڻي ڪئي، ان کي ويجھي مقابلي کان 16 پوائنٽون اڳتي وڌايو.

Datacurve co-Author Serena Ge X تي لکيو آهي ته عوامي ليڊر بورڊ اڪثر ڪري مٿين ماڊل کي قابليت ۾ ويجھو ظاهر ڪن ٿا، جڏهن ته ڊيپ ايس ڊبليو اي ڏيکاري ٿو جتي اهي اصل ۾ ڊولپر جي ڪم ۾ الڳ آهن.

Datacurve چيو DeepSWE کي بهتر طور تي ظاهر ڪرڻ لاءِ ڊزائين ڪيو ويو ته ڪيئن ڊولپرز حقيقي ڪم کي AI ڪوڊنگ ايجنٽن کي تفويض ڪن ٿا.

اڪثر ڪوڊنگ بينچ مارڪ، بشمول SWE-Bench خاندان، حقيقي GitHub ڪمن مان ڪم ٺاهيندا آهن. اهي هڪ مخزن جي تاريخ مان بگ فيڪس يا فيچر وٺن ٿا، ڪوڊ کي ان جي اڳئين حالت ڏانهن واپس آڻيو، ۽ AI ايجنٽ کان پڇو ته فيڪس کي ٻيهر ٺاهڻ لاءِ. اصل ٽيسٽ سوٽ پوءِ چيڪ ڪري ٿو ته ڇا ايجنٽ جو پيچ ڪم ڪري ٿو.

Datacurve دليل ڏئي ٿو ته هي سسٽم ڪيترائي مسئلا پيدا ڪري ٿو. پهرين آلودگي آهي. ڇاڪاڻ ته اهي ڪم عوامي GitHub جي تاريخ مان ايندا آهن، اصل مسئلو، بحث، ۽ ڪڏهن ڪڏهن صحيح حل اڳ ۾ ئي موجود هوندا فرنٽيئر ماڊلز جي ٽريننگ ڊيٽا ۾.

اڄ اسان جاري ڪري رهيا آهيون DeepSWE، ايجنٽ ڪوڊنگ معيارن لاءِ هڪ نئون معيار.

عوامي ليڊر بورڊ تي، مٿين ماڊل اڪثر ڪري نسبتا ويجهي نظر اچن ٿا صلاحيت ۾. DeepSWE ڏيکاري ٿو جتي اهي اصل ۾ ڦيرڦار ڪن ٿا، انهن جي روزاني ڪم ۾ ڊولپرز جي حقيقي تجربو کي ظاهر ڪري ٿو. pic.twitter.com/HCDcjNuTFK

— سرينا جي (Datacurve) (@serenaa_ge) مئي 26، 2026

ٻيو مسئلو ڪم جي سائيز آهي. SWE-Bench Pro ڪمن کي پنجن فائلن ۾ ڪوڊ جون 120 لائنون اوسط جي ضرورت هونديون آهن. DeepSWE ريفرنس سلوشنز سراسري طور 668 شامل ڪيل لائينون ست فائلن ۾، انھن کي لڳ ڀڳ 5.5 ڀيرا وڏو بڻائي ٿو.

DeepSWE ماڊلز کي ننڍڙا اشارا پڻ ڏئي ٿو. ان جو اشارو اوسط 2158 اکر، مقابلي ۾ SWE-Bench Pro لاءِ 4614 اکرن سان. ان جو مطلب آهي ڊيپ ايس ڊبليو اي ايجنٽن کي گهٽ هدايتون ڏئي ٿو جڏهن ته وڌيڪ پيداوار جي توقع ڪندي، جيڪو ڊيٽاڪرو چوي ٿو ويجهو آهي ته ڪيئن ڊولپرز AI اسسٽنٽ کي عملي طور استعمال ڪندا آهن.

Datacurve پڻ SWE-Bench Pro ۾ استعمال ٿيل خودڪار گرڊرز جي اعتبار جي باري ۾ خدشات پيدا ڪيو.

ڪمپني 30 بي ترتيب ڪمن جو جائزو ورتو ٻنهي کان ڊيپ ايس ايس اي ۽ SWE-بينچ پرو. ان کان پوءِ 10 فرنٽيئر ماڊل ترتيبن ۾ ٽي رول آئوٽ ڪيا ويا ۽ LLM-بنياد جج استعمال ڪيو چيڪ ڪرڻ لاءِ ته ڇا هر پيچ اصل ۾ مقرر ڪيل ڪم کي حل ڪيو.

Datacurve جي مطابق، SWE-Bench Pro جي تصديق ڪندڙن غلط حل قبول ڪيا 8.5 سيڪڙو وقت ۽ رد ڪيا صحيح حل 24 سيڪڙو وقت. DeepSWE جي تصديق ڪندڙ تمام گهٽ شرحن کي رڪارڊ ڪيو، 0.3 سيڪڙو قبول ٿيل غلط حل ۽ 1.1 سيڪڙو صحيح رد ڪيا.

غلط منفي مسئلو خاص طور تي اهم آهي ڇاڪاڻ ته اهو درست حلن کي سزا ڏئي سگهي ٿو جيڪي اصل ليکڪ جي عمل درآمد کان مختلف آهن. هڪ صورت ۾، هڪ SWE-Bench پرو ڪم اصل پل جي درخواست کان هڪ خانگي مددگار فنڪشن جي توقع ڪئي. هڪ AI ايجنٽ ساڳئي منطق کي ان لائن ڪندي ڪم کي حل ڪيو، پر ناڪام ٿيو ڇاڪاڻ ته ٽيسٽ سوٽ هڪ علامت درآمد ڪرڻ جي ڪوشش ڪئي جيڪا صرف اصل حل ۾ موجود هئي.

جيڪڏهن Datacurve جي ڳولا جي تصديق ڪئي وئي آهي، اهو اثر انداز ڪري سگهي ٿو ته ڪيئن انٽرنيشنل خريد ڪندڙ، وينچر ڪيپيٽل ڪمپنيون، ۽ AI ليبز بينچ مارڪ سکور جي تشريح ڪن ٿا. ھڪڙو معيار ھڪڙي اعلي درجي جي غلطي جي شرح سان ماڊل پيش رفت جي گمراھ ڪندڙ نظر ڏئي سگھي ٿو.

DeepSWE وڏين AI ڪوڊنگ ماڊلز جي درجه بندي کي تبديل ڪري ٿو.

GPT-5.5 جي اڳواڻي ۾ 70 سيڪڙو سکور سان. GPT-5.4 پٺيان 56 سيڪڙو، جڏهن ته ڪلاڊ اوپس 4.7 54 سيڪڙو سکور ڪيو.

ان کان پوء، ڪارڪردگي تيزيء سان گهٽجي ويو. Claude Sonnet 4.6 پهچي 32 سيڪڙو، Gemini 3.5 Flash 28 سيڪڙو، ۽ GPT-5.4 mini ۽ Kimi K2.6 ٻنهي 24 سيڪڙو سکور ڪيا. ٻيا ماڊل ٽينس يا سنگل انگن ۾ اچي ويا.

Claude Haiku 4.5، جنهن SWE-Bench Pro تي 39 سيڪڙو اسڪور ڪيو، ڊيپ ايس ڊبليو اي تي صفر ٿي ويو. Datacurve چيو ته اهو مشورو ڏئي ٿو ته ڪجهه وچين درجي جا ماڊل شايد آسان يا ممڪن طور تي آلودگي واري معيارن تي بهتر ڪارڪردگي ڏيکاريا آهن انهن کان وڌيڪ سخت ڪوڊنگ ڪمن تي. GPT-5.5 پڻ قيمتي ڪارڪردگي تي سخت ڪارڪردگي ڪئي. ماڊل پنهنجي 70 سيڪڙو پاس ريٽ تي پهچي ويو، وچين قيمت سان $5.80 في آزمائشي، وچين وال ڪلاڪ ٽائيم 20 منٽ، ۽ 47000 ٽوڪن جي وچين پيداوار.

GPT-5.4 مضبوط مجموعي قدر پيش ڪرڻ لاءِ ظاهر ٿيو، 56 سيڪڙو اسڪور ڪرڻ سان اوسط قيمت $3.30 في آزمائشي.

Datacurve چيو Claude Opus 4.7 قيمت وڌيڪ في رن تي. اهو پڻ معلوم ٿيو ته آئوٽ ٽوڪن، رن ٽائم، ۽ قيمت وڏي پيماني تي آزمائشي ايجنٽن ۾ مختلف آهن. جڏهن ته، اعلي خرچ، ڊگھي رنسون، يا وڏي پيداوار مسلسل بهتر نتيجا نه ڏنيون آهن.

Datacurve چيو DeepSWE مڪمل ناهي. اهو معياري طريقي سان سڀني تبديلين کي بش ذريعي ترتيب ڏئي ٿو، ماڊل-مخصوص ايڊيٽنگ ٽولز استعمال ڪرڻ جي بجاءِ جنهن تي هر خاندان کي تربيت ڏني وئي هجي، جهڙوڪ Apply_patch for GPT يا str_replace_based_edit_tool Claude لاءِ.

بينچ مارڪ صرف 500 تارن سان گڏ کليل ذريعو ذخيرو استعمال ڪري ٿو. نتيجا شايد مڪمل طور تي پرائيويٽ انٽرپرائز ڪوڊ بيس تي ڪارڪردگي جي نمائندگي نٿا ڪن. بگ لوڪلائيزيشن ۽ ريفيڪٽرنگ ڪمن کي گهٽ پيش ڪيو ويو آهي، ۽ عام ٻوليون جهڙوڪ C++ ۽ Java شامل نه آهن.

Datacurve پڻ چيو ته ان جا معيار وارا فيصلا انساني نظرثاني ڪندڙن جي بدران LLM تجزيه نگار کان ايندا آهن، تقريبن 90 نظرثاني ٿيل رول آئوٽ في ماڊل في بينچ مارڪ جي معمولي نموني سان.

ڪمپني شايع ڪيو آهي ڊيٽا سيٽ، ايجنٽ جي پيچيدگي، ۽ تشخيص جو استعمال GitHub تي، جنهن کي ٻين کي معائنو ڪرڻ ۽ نتيجن کي ٻيهر ڏيڻ جي اجازت ڏيڻ گهرجي.

DeepSWE اچي ٿو جيئن ڪمپنيون تيزيءَ سان اڳتي وڌي رهيون آهن AI ڪوڊنگ ايجنٽن کي اپنائڻ لاءِ. جيڪڏهن ان جا نتيجا ناقابل اعتبار گريڊنگ ۽ معيار جي آلودگي جي باري ۾ رکون ٿا، AI صنعت کي ٻيهر سوچڻ جي ضرورت پوندي ته اها ڪوڊنگ ڪارڪردگي کي ڪيئن ماپي ٿي.

📢 جديد ٽيڪنالاجي ۽ ٽيلي ڪام جي خبرن، وڊيوز ۽ تجزين لاءِ هاڻي ئي شامل ٿيو پروپاڪستاني جي WhatsApp گروپ!

گوگل نيوز تي پروپاڪستاني کي فالو ڪريو ۽ تيزيءَ سان پنهنجي پسنديده مواد ذريعي اسڪرول ڪريو!

شيئرز