د ډیټاکوریو ډیپ ایس ڈبلیو ای تحلیل موندلي چې ځینې کلاډ ماډل په SWE-Bench Pro کې نیمګړتیا کارولې ترڅو د ازموینې چاپیریال څخه د ځواب لوستلو سره بنچمارک دندې تیر کړي.

پدې مسله کې د ډاکر کانټینرونه شامل دي چې د SWE-Bench Pro لخوا کارول کیږي. ډیټاکورو وویل چې پدې کانټینرونو کې د ذخیره کولو بشپړ .git تاریخ شامل دی ، پدې معنی چې د سرو زرو معیاري حل ژمنې د کانټینر فایل سیسټم کې شتون لري.

ډیری ماډلونه دا معلومات نه کاروي. په هرصورت، Datacurve وویل چې Claude Opus 4.7 او Claude Opus 4.6 دا د 12 سلنې څخه ډیر بیاکتل شوي SWE-Bench Pro رول آؤټونو کې ترسره کړي.

د Datacurve په وینا، د کلاډ اجنټ ځینې وختونه کمانډونه پرمخ وړي لکه git log -all یا git show وروسته د سرو زرو کمیټ هیش. دې ماډل ته اجازه ورکړه چې د ذخیره کولو تاریخ څخه ضمیمه شوي فکس بیرته ترلاسه کړي او دا په خپل پیچ کې کاپي کړي.

Datacurve دا قضیې د "درغلیو" فیصلو په توګه لیبل کړي ځکه چې اجنټ د کوډ کولو دنده په خپلواکه توګه حل کولو پرځای د اصلي ځواب موندلو له لارې تیریږي.

د راپور له مخې چلند د بیاکتنې نمونې کې د کلاډ اوپس 4.7 پاسونو شاوخوا 18 سلنه او د کلاډ اوپس 4.6 پاسونو 25 سلنه حساب کړی.

Datacurve وویل چې GPT-5.4 او GPT-5.5 هیڅکله دا چلند نه دی ښودلی، پداسې حال کې چې د جیمني تشکیلات نږدې 1 سلنه پاتې دي.

مسله په عامه توګه د SWE-Bench Pro ذخیره کې د GitHub مسلې نمبر 93 په توګه ثبت شوې.

ډیټاکورو وویل چې د بنچمارک چاپیریال دا چلند ممکن کړی ځکه چې د سرو زرو ژمنې په کانټینر کې شتون درلود. په هرصورت، دا هم وویل چې کلاډ د ماډل کورنۍ وه چې په دوامداره توګه یې کارولې.

موندنه اړینه نده چې کلاډ په کوډ کولو کې ضعیف وي. دا ممکن دا هم وښیې چې کلاډ خپل چاپیریال ته خورا پام کوي او د شته سرچینو په کارولو کې ښه دی. په هرصورت، په یوه بنچمارک کې چې د خپلواکې ستونزې حل کولو اندازه کولو لپاره ډیزاین شوی، د ځواب کلیدي کارول د نمرو اعتبار کمزوری کوي.

DeepSWE د بیس کمیټ سره یوازې یو ټیټ کلون لیږلو سره د دې ستونزې څخه مخنیوی کوي. دا د چاپیریال څخه د سرو زرو هش لرې کوي او د اجنټانو مخه نیسي چې د ذخیره کولو تاریخ له لارې اصلي حل ومومي.

ډیټاکوریو دا هم راپور ورکړی چې کلاډ ماډل په ډیپ ایس ڈبلیو ای کې د څو برخو پرامپټونو کې جلا ضعف ښودلی.

د کلاډ تشکیلات د نورو ماډل کورنۍ په پرتله ډیر ځله بیان شوي اړتیاوې له لاسه ورکوي. ډیټاکرو وویل چې دا ډیری وختونه پیښیږي کله چې یو پرامپټ د موازي چلندونو غوښتنه وکړه ، لکه د همغږي او غیر متمرکز جریانونو ملاتړ کول.

په دې قضیو کې، کلاډ اکثرا ښکاره څانګه پلي کړې مګر په بل ځای کې ورته بدلون پلي کول هیر کړل. ډیټا کارو وویل چې د کلاډ د "MISSED_REQUIREMENT" ناکامیو شاوخوا دوه پر دریمه برخه د دې څانګې نمونه تعقیبوي.

په یوه مثال کې، Claude Opus 4.7 په سمه توګه د انجن په یوه ټولګي کې د Sync حالت ډیټا هک اضافه کړ، مګر د async انجن ته ورته هک ندی اضافه کړی.

Datacurve وویل چې د GPT ماډلونه په لاندې لارښوونو کې ډیر مطابقت لري.

GPT-5.5 د ازمول شوي تشکیلاتو په مینځ کې د اړتیا وړ چلند د ورکیدو ټیټه کچه درلوده. د ورته دندې د تکراري چلونو په اوږدو کې، د GPT ماډلونه ډیری وختونه د پرامپټ ورته تفسیر ته رسیدلي، وړاندیز کوي چې لارښوونې تعقیب د چانس د پایلې په پرتله خورا مستحکم و.

تحلیل هم توپیر موندلی چې څنګه ماډلونه خپل کار ازموي.

په DeepSWE کې، Claude Opus 4.7 او GPT-5.4 د پروژې په خپل ټیسټ چوکاټ کې د دوی د 80 سلنې څخه ډیرو منډو کې نوي ازموینې لیکلي او پرمخ وړي، که څه هم دوی په مستقیم ډول د دې کولو غوښتنه نه وه کړې.

په SWE-Bench Pro کې، ورته ماډل دا ډیر لږ ځله ترسره کړل. Claude Opus 4.7 28 سلنې ته راټیټ شو، پداسې حال کې چې GPT-5.4 18 سلنې ته راټیټ شو.

ډیټاکورو وویل چې دا ممکن د SWE-Bench Pro پرامپټ ټیمپلیټ سره وصل وي ، کوم چې اجنټانو ته وايي چې د ازموینې منطق یا کومې ازموینې ترمیم نه کړي. موډلونو دا لارښوونې تعقیب کړې، مګر دا ممکن یو ګټور چلند هڅولی وي چې کولی شي د دوی د کوډ کولو پایلې ښه کړي.

د ډیټاکوریو موندنې د AI ماډل ارزونې کې پراخه مسلې ته اشاره کوي. که چیرې یو بنچمارک اجنټانو ته اجازه ورکړي چې اصلي حل ته لاسرسی ومومي، یا که دا هڅونه د ګټور ځان تصدیق هڅوي، نو لیډربورډ ممکن د ریښتینې کوډ کولو وړتیا په سمه توګه منعکس نه کړي.

شرکت وویل چې ډیپ ایس ڈبلیو ای د دې ستونزې کمولو لپاره ډیزاین شوی ترڅو د ډیرو سختو کارونو ، لنډو اشارو ، قوي تصدیق کونکو ، او کانټینرونو په کارولو سره دا ستونزې کمې کړي چې د Git تاریخ له لارې ځواب نه افشا کوي.

موندنې احتمال لري چې څیړنه وکړي ځکه چې ډیټاکوریو د سوداګریزو ګټو سره پیل دی. په هرصورت، شرکت په GitHub کې خپل ډیټاسیټ، د ارزونې هارنس، او د اجنټ تګلارې خپاره کړي، نورو ته اجازه ورکوي چې کار معاینه کړي. که پایلې په خپلواکه توګه تایید شي، د کلاډ د SWE-Bench Pro نمرې ممکن د ډیر احتیاط سره لیدلو ته اړتیا ولري، په ځانګړې توګه چیرې چې د بنچمارک پاسونه د اصلي سافټویر دندې حل کولو پر ځای د چاپیریال استحصال څخه راغلي.

📢 د وروستي ټیک او ټیلیکام خبرونو، ویډیوګانو او تحلیلونو لپاره همدا اوس د پروپاکستاني واټساپ ګروپ سره یوځای شئ!

په ګوګل نیوز کې پروپاکستاني تعقیب کړئ او د خپلې خوښې مینځپانګې ګړندي سکرول کړئ!

ونډې