Datacurve کی طرف سے ایک نیا AI کوڈنگ بینچ مارک تجویز کرتا ہے کہ سرکردہ فرنٹیئر ماڈلز اتنے یکساں طور پر مماثل نہیں ہوسکتے ہیں جتنا کہ موجودہ عوامی لیڈر بورڈ انہیں ظاہر کرتے ہیں۔
مہینوں سے، اسکیل AI کے SWE-Bench Pro لیڈر بورڈ نے OpenAI کی GPT-5 فیملی، Anthropic کے Claude Opus، اور Google کے Gemini Pro کو نسبتاً قریب کی حد میں کارکردگی دکھاتے ہوئے دکھایا ہے۔ اس نے انٹرپرائز خریداروں اور انجینئرنگ لیڈروں کے لیے یہ فیصلہ کرنا مشکل بنا دیا کہ کون سا AI کوڈنگ ایجنٹ اصلی کوڈ بیس کے اندر بہترین کارکردگی کا مظاہرہ کرے گا۔
Datacurve کا نیا بینچ مارک، جسے DeepSWE کہا جاتا ہے، کارکردگی کا ایک بہت وسیع فرق پیش کرتا ہے۔ ٹیسٹ میں 91 اوپن سورس ریپوزٹریز اور پانچ پروگرامنگ زبانوں میں 113 کام شامل ہیں۔ اس بینچ مارک پر، OpenAI کے GPT-5.5 نے 70 فیصد سکور کے ساتھ میدان کی قیادت کی، اسے قریب ترین حریف سے 16 پوائنٹس آگے رکھا۔
Datacurve کی شریک مصنف سرینا جی نے X پر لکھا کہ عوامی لیڈر بورڈز اکثر ٹاپ ماڈلز کو قابلیت کے قریب ظاہر کرتے ہیں، جبکہ DeepSWE ظاہر کرتا ہے کہ وہ دراصل ڈویلپر کے کام میں کہاں الگ ہیں۔
ڈیٹا کارو نے کہا کہ ڈیپ ایس ڈبلیو ای کو اس بات کی بہتر عکاسی کرنے کے لیے ڈیزائن کیا گیا تھا کہ کس طرح ڈویلپرز AI کوڈنگ ایجنٹوں کو حقیقی کام تفویض کرتے ہیں۔
زیادہ تر کوڈنگ بینچ مارکس، بشمول SWE-Bench فیملی، حقیقی GitHub کمٹ سے کام بناتے ہیں۔ وہ ریپوزٹری کی ہسٹری سے بگ فکس یا فیچر لیتے ہیں، کوڈ کو اس کی پرانی حالت میں واپس کرتے ہیں، اور AI ایجنٹ سے اسے دوبارہ بنانے کے لیے کہتے ہیں۔ اصل ٹیسٹ سویٹ پھر چیک کرتا ہے کہ آیا ایجنٹ کا پیچ کام کرتا ہے۔
Datacurve کی دلیل ہے کہ یہ نظام کئی مسائل پیدا کرتا ہے۔ پہلی آلودگی ہے۔ کیونکہ کام عوامی GitHub کی تاریخ سے آتے ہیں، اصل مسئلہ، بحث، اور بعض اوقات درست حل پہلے سے ہی فرنٹیئر ماڈلز کے تربیتی ڈیٹا میں موجود ہوتا ہے۔
آج ہم ڈیپ ایس ڈبلیو ای جاری کر رہے ہیں، جو ایجنٹ کوڈنگ بینچ مارکس کے لیے ایک نیا معیار ہے۔
عوامی لیڈر بورڈز پر، سرفہرست ماڈل اکثر قابلیت میں نسبتاً قریب نظر آتے ہیں۔ ڈیپ ایس ڈبلیو ای دکھاتا ہے کہ وہ اصل میں کہاں سے ہٹ جاتے ہیں، جو ڈیولپرز کے روزمرہ کے کام میں حقیقت پسندانہ تجربے کی عکاسی کرتے ہیں۔ pic.twitter.com/HCDcjNuTFK
— Serena Ge (Datacurve) (@serenaa_ge) 26 مئی 2026
دوسرا مسئلہ ٹاسک سائز کا ہے۔ SWE-Bench Pro کاموں کے لیے پانچ فائلوں میں اوسطاً 120 لائنوں کوڈ کی ضرورت ہوتی ہے۔ ڈیپ ایس ڈبلیو ای ریفرنس سلوشنز نے سات فائلوں میں اوسطاً 668 لائنیں شامل کیں، جو انہیں تقریباً 5.5 گنا بڑا بناتی ہیں۔
ڈیپ ایس ڈبلیو ای ماڈلز کو مختصر اشارے بھی دیتا ہے۔ SWE-Bench Pro کے لیے 4614 حروف کے مقابلے میں یہ اوسط 2158 حروف کا اشارہ دیتا ہے۔ اس کا مطلب ہے کہ ڈیپ ایس ڈبلیو ای ایجنٹوں کو زیادہ آؤٹ پٹ کی توقع کرتے ہوئے کم ہدایات دیتا ہے، جس کے بارے میں ڈیٹا کریو کا کہنا ہے کہ ڈیولپرز عملی طور پر AI معاونین کو کس طرح استعمال کرتے ہیں۔
Datacurve نے SWE-Bench Pro میں استعمال ہونے والے خودکار گریڈرز کی وشوسنییتا کے بارے میں بھی تشویش کا اظہار کیا۔
کمپنی نے DeepSWE اور SWE-Bench Pro دونوں سے 30 بے ترتیب کاموں کا جائزہ لیا۔ اس کے بعد اس نے 10 فرنٹیئر ماڈل کنفیگریشنوں میں تین رول آؤٹ چلائے اور LLM پر مبنی جج کا استعمال کیا تاکہ یہ چیک کیا جا سکے کہ آیا ہر پیچ نے تفویض کردہ کام کو حقیقت میں حل کیا ہے۔
Datacurve کے مطابق، SWE-Bench Pro کے تصدیق کنندگان نے 8.5 فیصد وقت میں غلط حل قبول کیے اور 24 فیصد وقت میں درست حل کو مسترد کیا۔ ڈیپ ایس ڈبلیو ای کے تصدیق کنندگان نے بہت کم شرحیں ریکارڈ کیں، 0.3 فیصد نے غلط حل اور 1.1 فیصد نے درست حل کو مسترد کر دیا۔
غلط منفی مسئلہ خاص طور پر اہم ہے کیونکہ یہ درست حل کو سزا دے سکتا ہے جو اصل مصنف کے نفاذ سے مختلف ہیں۔ ایک صورت میں، SWE-Bench Pro ٹاسک کو اصل پل کی درخواست سے نجی مددگار فنکشن کی توقع تھی۔ ایک AI ایجنٹ نے اسی منطق کو ان لائن کر کے کام کو حل کیا، لیکن ناکام رہا کیونکہ ٹیسٹ سوٹ نے ایک علامت درآمد کرنے کی کوشش کی جو صرف اصل حل میں موجود تھی۔
اگر Datacurve کی تلاش کی تصدیق ہو جاتی ہے، تو یہ متاثر کر سکتا ہے کہ کس طرح انٹرپرائز خریدار، وینچر کیپیٹل فرمز، اور AI لیبز بینچ مارک سکور کی ترجمانی کرتے ہیں۔ اعلی درجے کی خرابی کی شرح کے ساتھ ایک بینچ مارک ماڈل کی پیشرفت کا گمراہ کن نظریہ دے سکتا ہے۔
DeepSWE بڑے AI کوڈنگ ماڈلز کی درجہ بندی کو تبدیل کرتا ہے۔
GPT-5.5 نے 70 فیصد سکور کے ساتھ قیادت کی۔ GPT-5.4 نے 56 فیصد اسکور کیا، جبکہ Claude Opus 4.7 نے 54 فیصد اسکور کیا۔
اس کے بعد کارکردگی میں تیزی سے کمی آئی۔ Claude Sonnet 4.6 نے 32 فیصد، Gemini 3.5 Flash نے 28 فیصد، اور GPT-5.4 mini اور Kimi K2.6 دونوں نے 24 فیصد اسکور کیا۔ دیگر ماڈلز نوعمروں یا واحد ہندسوں میں اترے۔
Claude Haiku 4.5، جس نے SWE-Bench Pro پر 39 فیصد اسکور کیا، DeepSWE پر صفر پر گر گیا۔ Datacurve نے کہا کہ اس سے پتہ چلتا ہے کہ کچھ درمیانی درجے کے ماڈلز نے مشکل کوڈنگ کے کاموں کے مقابلے آسان یا ممکنہ طور پر آلودہ بینچ مارکس پر بہتر کارکردگی کا مظاہرہ کیا ہے۔ GPT-5.5 نے لاگت کی کارکردگی پر بھی مضبوط کارکردگی کا مظاہرہ کیا۔ ماڈل اپنی 70 فیصد پاس ریٹ تک پہنچ گیا جس کی اوسط لاگت $5.80 فی ٹرائل، 20 منٹ کے درمیانی دیوار گھڑی کا وقت، اور 47000 ٹوکنز کی اوسط پیداوار ہے۔
GPT-5.4 مضبوط مجموعی قیمت پیش کرتا دکھائی دیتا ہے، جس کی اوسط قیمت $3.30 فی آزمائش کے ساتھ 56 فیصد ہے۔
Datacurve نے کہا کہ Claude Opus 4.7 کی قیمت فی رن بہت زیادہ ہے۔ اس نے یہ بھی پایا کہ آؤٹ پٹ ٹوکنز، رن ٹائم، اور لاگت ٹیسٹ شدہ ایجنٹوں میں وسیع پیمانے پر مختلف ہوتی ہے۔ تاہم، زیادہ خرچ، طویل رنز، یا بڑے نتائج مسلسل بہتر نتائج کی طرف نہیں لے گئے۔
Datacurve نے کہا کہ DeepSWE کامل نہیں ہے۔ یہ ماڈل کے مخصوص ایڈیٹنگ ٹولز کو استعمال کرنے کے بجائے جس پر ہر خاندان کو تربیت دی گئی ہو، جیسے کہ GPT کے لیے Apply_patch یا Claude کے لیے str_replace_based_edit_tool کو استعمال کرنے کے بجائے، یہ تمام ترامیم کو bash کے ذریعے معیاری استعمال کرتا ہے۔
بینچ مارک 500 سے زیادہ ستاروں کے ساتھ صرف اوپن سورس ریپوزٹریز کا استعمال کرتا ہے۔ ہو سکتا ہے کہ نتائج پرائیویٹ انٹرپرائز کوڈ بیس پر کارکردگی کی مکمل نمائندگی نہ کریں۔ بگ لوکلائزیشن اور ری فیکٹرنگ کے کاموں کو کم پیش کیا گیا ہے، اور عام زبانیں جیسے C++ اور Java شامل نہیں ہیں۔
Datacurve نے یہ بھی کہا کہ اس کے معیار کے فیصلے انسانی مبصرین کے بجائے LLM تجزیہ کار سے آتے ہیں، جس میں تقریباً 90 جائزہ شدہ رول آؤٹ فی ماڈل فی بینچ مارک کے معمولی سائز کے ہوتے ہیں۔
کمپنی نے GitHub پر ڈیٹاسیٹ، ایجنٹ کی رفتار، اور تشخیص کا استعمال شائع کیا ہے، جو دوسروں کو نتائج کا معائنہ کرنے اور دوبارہ پیش کرنے کی اجازت دیتا ہے۔
ڈیپ ایس ڈبلیو ای اس وقت پہنچی جب کمپنیاں AI کوڈنگ ایجنٹوں کو اپنانے کے لیے تیزی سے آگے بڑھ رہی ہیں۔ اگر ناقابل اعتبار درجہ بندی اور بینچ مارک آلودگی کے بارے میں اس کے نتائج برقرار رہتے ہیں، تو AI صنعت کو اس پر دوبارہ غور کرنے کی ضرورت پڑسکتی ہے کہ وہ کوڈنگ کی کارکردگی کی پیمائش کیسے کرتی ہے۔
📢 تازہ ترین ٹیک اور ٹیلی کام کی خبروں، ویڈیوز اور تجزیوں کے لیے ابھی ProPakistani کے WhatsApp گروپ میں شامل ہوں!
گوگل نیوز پر پرو پاکستانی کو فالو کریں اور اپنے پسندیدہ مواد کو تیزی سے اسکرول کریں!
شیئرز