د ډیټاکوریو څخه د AI کوډ کولو نوی بنچمارک وړاندیز کوي چې مخکښ فرنټیر ماډلونه ممکن په مساوي ډول نه وي لکه څنګه چې موجوده عامه لیډربورډونه دوی څرګند کړي.
د میاشتو لپاره، د سکیل AI د SWE-Bench Pro لیډربورډ د OpenAI GPT-5 کورنۍ، د انټروپک کلاډ Opus، او د ګوګل جیمني پرو په نسبتا نږدې حد کې فعالیت کوي. دې کار د تصدۍ پیرودونکو او انجینرۍ مشرانو لپاره دا ستونزمنه کړې چې قضاوت وکړي چې د AI کوډ کولو اجنټ به په ریښتیني کوډبیسونو کې غوره ترسره کړي.
د ډیټاکوریو نوی بنچمارک ، چې د ډیپ ایس ڈبلیو ای په نوم یادیږي ، د فعالیت خورا پراخه تشه وړاندې کوي. په ازموینه کې د 91 خلاصې سرچینې ذخیره کولو او پنځه پروګرامینګ ژبو کې 113 دندې شاملې دي. په دې بنچمارک کې، د OpenAI GPT-5.5 د 70 سلنې نمرې سره ساحه رهبري کړه، دا د نږدې سیالي کونکي څخه 16 نمرې وړاندې کوي.
د ډیټاکوریو شریک لیکوال سرینا ګی په X کې لیکلي چې عامه لیډربورډونه ډیری وختونه غوره ماډلونه په وړتیا کې نږدې ښکاري ، پداسې حال کې چې ډیپ ایس ڈبلیو ای ښیې چیرې چې دوی واقعیا د پراختیا کونکي کار کې جلا کوي.
ډیټاکرو وویل ډیپ ایس ڈبلیو ای ډیزاین شوی ترڅو ښه منعکس کړي چې څنګه پراختیا کونکي د AI کوډ کولو اجنټانو ته ریښتیني کار ګماري.
د SWE-Bench کورنۍ په ګډون ډیری کوډینګ بنچمارکونه د ریښتیني GitHub ژمنو څخه دندې رامینځته کوي. دوی د ذخیره کولو تاریخ څخه د بګ فکس یا فیچر اخلي، کوډ خپل پخواني حالت ته بیرته راولي، او د AI اجنټ څخه وغواړي چې فکس بیا جوړ کړي. اصلي ټیسټ سویټ بیا ګوري چې ایا د اجنټ پیچ کار کوي.
Datacurve استدلال کوي چې دا سیسټم ډیری ستونزې رامینځته کوي. لومړی ککړتیا ده. ځکه چې دندې د عامه GitHub تاریخ څخه راځي، اصلي مسله، بحث، او ځینې وختونه دقیق حل ممکن د فرنټیر ماډلونو روزنې معلوماتو کې شتون ولري.
نن ورځ موږ ډیپ ایس ڈبلیو ای خپروو ، د اجنټ کوډ کولو بنچمارکونو لپاره نوی معیار.
په عامه لیډربورډونو کې، لوړ ماډلونه اکثرا په وړتیا کې نسبتا نږدې ښکاري. DeepSWE ښیې چیرې چې دوی واقعیا توپیر کوي ، د دوی ورځني کار کې د پراختیا کونکو ریښتیني تجربه منعکس کوي. pic.twitter.com/HCDcjNuTFK
— سرینا ګی (ډاټاکورو) (@serenaa_ge) د می 26، 2026
دویمه مسله د دندې اندازه ده. د SWE-Bench Pro دندې په پنځو فایلونو کې په اوسط ډول د کوډ 120 لینونو ته اړتیا لري. د ډیپ ایس ڈبلیو ای حوالې حلونه په اوسط ډول په اوو فایلونو کې 668 اضافه شوي لاینونه شاوخوا 5.5 ځله لوی کوي.
DeepSWE ماډلونو ته لنډ وړاندیزونه هم ورکوي. دا په اوسط ډول 2158 حروف هڅوي، د SWE-Bench Pro لپاره د 4614 حروف سره پرتله کوي. د دې معنی دا ده چې ډیپ ایس ڈبلیو ای اجنټانو ته لږ لارښوونې ورکوي پداسې حال کې چې د ډیر محصول تمه کوي ، کوم چې ډیټاکورو وايي نږدې دی چې څنګه پراختیا کونکي په عمل کې د AI معاونین کاروي.
ډیټاکوریو د SWE-Bench Pro کې کارول شوي د اتوماتیک درجې اعتبار په اړه اندیښنې هم راپورته کړې.
شرکت د DeepSWE او SWE-Bench Pro دواړو څخه 30 تصادفي دندې بیاکتنه کړې. بیا یې د 10 فرنټیر ماډل ترتیبونو کې درې رول آوټونه ترسره کړل او د LLM پر بنسټ قاضي یې وکاراوه ترڅو وګوري چې ایا هر پیچ واقعیا ټاکل شوې دنده حل کړې.
د Datacurve په وینا، د SWE-Bench Pro تصدیق کونکو د وخت 8.5 سلنه غلط حلونه ومنل او د وخت 24 سلنه سم حلونه یې رد کړل. د DeepSWE تصدیق کونکو خورا ټیټ نرخونه ثبت کړي ، د 0.3 سلنه منل شوي غلط حلونه او 1.1 سلنه یې سم رد کړي.
د غلط منفي مسله په ځانګړې توګه مهمه ده ځکه چې دا کولی شي معتبر حلونه مجازات کړي چې د اصلي لیکوال پلي کولو څخه توپیر لري. په یوه قضیه کې، د SWE-Bench Pro دنده د اصلي پل غوښتنې څخه د خصوصي مرستندویه فعالیت تمه درلوده. د AI اجنټ د ورته منطق په انلاین کولو سره دنده حل کړه ، مګر ناکام شو ځکه چې د ټیسټ سویټ هڅه وکړه یو سمبول وارد کړي چې یوازې په اصلي حل کې شتون لري.
که د ډیټاکوریو موندنه تایید شي، دا کولی شي د تصدۍ پیرودونکي، د پانګونې پانګونې شرکتونه، او AI لابراتوار د بنچمارک نمرو تشریح کولو څرنګوالي اغیزه وکړي. د لوړې درجې خطا نرخ سره بنچمارک ممکن د ماډل پرمختګ غلط لید وړاندې کړي.
DeepSWE د لوی AI کوډینګ ماډلونو درجه بندي بدلوي.
GPT-5.5 د 70 سلنې نمرې سره رهبري کیږي. GPT-5.4 په سلو کې 56 تعقیب کړ، پداسې حال کې چې کلاډ اوپس 4.7 54 سلنه نمرې ترلاسه کړې.
له هغې وروسته، فعالیت په چټکۍ سره راټیټ شو. Claude Sonnet 4.6 32 سلنه، Gemini 3.5 Flash 28 سلنه، او GPT-5.4 mini او Kimi K2.6 دواړو 24 سلنه نمرې ترلاسه کړې. نور ماډلونه په ځوانانو یا واحد عددونو کې راوتلي.
کلاډ هایکو 4.5، چې په SWE-Bench Pro کې 39 سلنه نمرې ترلاسه کړې، په DeepSWE کې صفر ته راښکته شو. ډیټاکورو وویل چې دا وړاندیز کوي چې ځینې مینځنۍ درجې ماډل ممکن په اسانه یا احتمالي ککړ شوي بنچمارکونو کې د سختو کوډ کولو کارونو په پرتله ښه فعالیت کړی وي. GPT-5.5 هم د لګښت موثریت په اړه په کلکه ترسره کوي. ماډل خپل 70 سلنې پاس نرخ ته ورسید چې په هره آزموینه کې د $ 5.80 اوسط لګښت سره، د 20 دقیقو منځنۍ دیوال ساعت وخت، او د 47000 ټوکن منځنی محصول.
GPT-5.4 داسې ښکاري چې قوي ټولیز ارزښت وړاندې کوي، په هره آزموینه کې د $ 3.30 منځنۍ لګښت سره 56 سلنه نمرې.
ډیټاکورو وویل چې کلاډ اوپس 4.7 په هر چل کې خورا ډیر لګښت لري. دا دا هم وموندله چې د محصول نښې، د چلولو وخت، او لګښت په پراخه کچه د ازمول شویو اجنټانو په اوږدو کې توپیر لري. په هرصورت، لوړ لګښتونه، اوږدې منډې، یا لوی محصول په دوامداره توګه د غوره پایلو لامل نه شو.
ډیټاکور وویل ډیپ ایس ڈبلیو ای کامل ندی. دا د سټنډرډ هارنس لارې دي چې ټول ترمیمونه د bash له لارې کوي ، د دې پرځای چې د ماډل ځانګړي ترمیم وسیلې وکاروئ چې هرې کورنۍ ته یې روزنه ورکړل شوې وي ، لکه د GPT لپاره Apply_patch یا د کلاډ لپاره str_replace_based_edit_tool.
بنچمارک یوازې د خلاصې سرچینې ذخیره کاروي چې له 500 څخه ډیر ستوري لري. پایلې ممکن د خصوصي تصدۍ کوډبیسونو کې د فعالیت بشپړ استازیتوب ونه کړي. د بګ ځایی کول او د ریفکتور کولو دندې کمې ښودل شوي، او عام ژبې لکه C++ او جاوا شامل ندي.
ډیټاکوریو دا هم وویل چې د دې کیفیتي پریکړې د انساني بیاکتونکو پرځای د LLM تحلیل کونکي څخه راځي ، د هر ماډل په هر بنچمارک کې شاوخوا 90 بیاکتل شوي رول آوټونو معمولي نمونې اندازې سره.
شرکت په GitHub کې ډیټاسیټ ، د اجنټ ټراجکټوریز ، او د ارزونې هارنس خپور کړی ، کوم چې باید نورو ته اجازه ورکړي چې پایلې معاینه او بیا تولید کړي.
ډیپ ایس ڈبلیو ای راځي کله چې شرکتونه د AI کوډینګ اجنټانو غوره کولو لپاره ګړندي حرکت کوي. که د باور وړ درجې او بنچمارک ککړتیا په اړه د هغې موندنې دوام ومومي، د AI صنعت ممکن بیا فکر وکړي چې دا څنګه د کوډ کولو فعالیت اندازه کوي.
📢 د وروستي ټیک او ټیلیکام خبرونو، ویډیوګانو او تحلیلونو لپاره همدا اوس د پروپاکستاني واټساپ ګروپ سره یوځای شئ!
په ګوګل نیوز کې پروپاکستاني تعقیب کړئ او د خپلې خوښې مینځپانګې ګړندي سکرول کړئ!
ونډې