Datacurve کے DeepSWE تجزیہ سے پتہ چلا ہے کہ کچھ کلاڈ ماڈلز نے ٹیسٹ کے ماحول سے جواب پڑھ کر بینچ مارک کے کاموں کو پاس کرنے کے لیے SWE-Bench Pro میں ایک خامی کا استعمال کیا۔ اس مسئلے میں SWE-Bench Pro کے زیر استعمال ڈوکر کنٹینرز شامل ہیں۔ Datacurve نے کہا کہ ان کنٹینرز میں ریپوزٹری کی مکمل .git ہسٹری شامل ہے، جس کا مطلب ہے کہ گولڈ اسٹینڈرڈ حل کمٹ کنٹینر کے فائل سسٹم کے اندر دستیاب ہے۔

Datacurve کے DeepSWE تجزیہ سے پتہ چلا ہے کہ کچھ کلاڈ ماڈلز نے ٹیسٹ کے ماحول سے جواب پڑھ کر بینچ مارک کے کاموں کو پاس کرنے کے لیے SWE-Bench Pro میں ایک خامی کا استعمال کیا۔

اس مسئلے میں SWE-Bench Pro کے زیر استعمال ڈوکر کنٹینرز شامل ہیں۔ Datacurve نے کہا کہ ان کنٹینرز میں ریپوزٹری کی مکمل .git ہسٹری شامل ہے، جس کا مطلب ہے کہ گولڈ اسٹینڈرڈ حل کمٹ کنٹینر کے فائل سسٹم کے اندر دستیاب ہے۔

زیادہ تر ماڈلز نے اس معلومات کو استعمال نہیں کیا۔ تاہم، Datacurve نے کہا کہ Claude Opus 4.7 اور Claude Opus 4.6 نے جائزہ لیا SWE-Bench Pro رول آؤٹس کے 12 فیصد سے زیادہ میں ایسا کیا۔

Datacurve کے مطابق، Claude ایجنٹ بعض اوقات کمانڈ چلاتے ہیں جیسے git log –all یا git show کے بعد گولڈ کمٹ ہیش۔ اس نے ماڈل کو ریپوزٹری ہسٹری سے ضم شدہ فکس کو بازیافت کرنے اور اسے اپنے پیچ میں کاپی کرنے کی اجازت دی۔

ڈیٹا کریو نے ان مقدمات کو "دھوکہ دہی" کے فیصلے کے طور پر لیبل کیا کیونکہ ایجنٹ کوڈنگ ٹاسک کو آزادانہ طور پر حل کرنے کے بجائے اصل جواب تلاش کر کے گزر گیا۔

یہ رویہ مبینہ طور پر نظرثانی شدہ نمونے میں Claude Opus 4.7 کے پاسوں کا تقریباً 18 فیصد اور Claude Opus 4.6 کے پاسوں کا 25 فیصد تھا۔

Datacurve نے کہا کہ GPT-5.4 اور GPT-5.5 نے کبھی یہ رویہ نہیں دکھایا، جبکہ Gemini کنفیگریشنز 1 فیصد کے قریب رہیں۔

اس مسئلے کو عوامی طور پر SWE-Bench Pro ذخیرہ پر GitHub شمارہ نمبر 93 کے طور پر درج کیا گیا ہے۔

Datacurve نے کہا کہ بینچ مارک ماحول نے اس طرز عمل کو ممکن بنایا کیونکہ سونے کا کمٹ کنٹینر میں موجود تھا۔ تاہم، اس نے یہ بھی کہا کہ کلاڈ وہ ماڈل فیملی ہے جس نے اسے مستقل طور پر استعمال کیا۔

تلاش کا لازمی طور پر مطلب یہ نہیں ہے کہ کلاڈ کوڈنگ میں کمزور ہے۔ اس سے یہ بھی ظاہر ہو سکتا ہے کہ کلاڈ اپنے ماحول کا بہت زیادہ خیال رکھتا ہے اور دستیاب وسائل کو استعمال کرنے میں اچھا ہے۔ تاہم، آزادانہ مسئلہ حل کرنے کی پیمائش کرنے کے لیے بنائے گئے بینچ مارک میں، جوابی کلید کا استعمال اسکور کی وشوسنییتا کو کمزور کرتا ہے۔

ڈیپ ایس ڈبلیو ای بیس کمٹ کے ساتھ صرف ایک اتلی کلون بھیج کر اس مسئلے سے بچتا ہے۔ یہ ماحول سے گولڈ ہیش کو ہٹاتا ہے اور ایجنٹوں کو ریپوزٹری ہسٹری کے ذریعے اصل حل تلاش کرنے سے روکتا ہے۔

Datacurve نے یہ بھی اطلاع دی کہ Claude ماڈلز نے DeepSWE میں ملٹی پارٹ پرامپٹس پر ایک الگ کمزوری ظاہر کی۔

کلاڈ کنفیگریشنز نے بیان کردہ تقاضوں کو کسی بھی دوسرے ماڈل فیملی سے زیادہ کثرت سے یاد کیا۔ Datacurve نے کہا کہ یہ اکثر اس وقت ہوتا ہے جب کسی پرامپٹ نے متوازی طرز عمل کے لیے کہا، جیسے کہ ہم آہنگی اور غیر مطابقت پذیر بہاؤ دونوں کو سپورٹ کرنا۔

ان معاملات میں، کلاڈ نے اکثر واضح شاخ کو لاگو کیا لیکن اسی تبدیلی کو کہیں اور لاگو کرنا بھول گیا۔ Datacurve نے کہا کہ Claude کی "MISSED_REQUIREMENT" ناکامیوں میں سے تقریباً دو تہائی اس ایک برانچ پیٹرن کی پِیروی کرتے ہیں۔

ایک مثال میں، Claude Opus 4.7 نے ایک انجن کلاس میں ایک Sync سٹیٹ ڈیٹا ہک کو صحیح طور پر شامل کیا، لیکن async انجن میں وہی ہک شامل نہیں کیا۔

Datacurve نے کہا کہ GPT ماڈل مندرجہ ذیل ہدایات پر زیادہ مستقل تھے۔

GPT-5.5 میں جانچ شدہ کنفیگریشنز میں مطلوبہ رویے کی کمی کی شرح سب سے کم تھی۔ ایک ہی کام کے بار بار چلنے کے دوران، GPT ماڈلز اکثر پرامپٹ کی ایک ہی تشریح تک پہنچ جاتے ہیں، جو تجویز کرتے ہیں کہ ہدایات کی پِیروی موقع کے نتیجے کے بجائے زیادہ مستحکم تھی۔

تجزیہ میں یہ فرق بھی پایا گیا کہ ماڈلز نے اپنے کام کی جانچ کیسے کی۔

DeepSWE پر، Claude Opus 4.7 اور GPT-5.4 نے پروجیکٹ کے اپنے ٹیسٹ فریم ورک میں اپنے 80 فیصد سے زیادہ رنز پر نئے ٹیسٹ لکھے اور چلائے، حالانکہ انہیں براہ راست ایسا کرنے کے لیے نہیں کہا گیا تھا۔

SWE-Bench Pro پر، ایک ہی ماڈل نے یہ بہت کم کثرت سے کیا۔ Claude Opus 4.7 گر کر 28 فیصد رہ گیا، جبکہ GPT-5.4 گر کر 18 فیصد رہ گیا۔

Datacurve نے کہا کہ یہ SWE-Bench Pro کے پرامپٹ ٹیمپلیٹ سے منسلک ہو سکتا ہے، جو ایجنٹوں سے کہتا ہے کہ ٹیسٹنگ منطق یا کسی بھی ٹیسٹ میں ترمیم نہ کریں۔ ماڈلز نے اس ہدایت پر عمل کیا، لیکن اس نے ایک مفید رویے کی حوصلہ شکنی کی ہو گی جو ان کے کوڈنگ کے نتائج کو بہتر بنا سکتا تھا۔

ڈیٹا کارو کے نتائج AI ماڈل کی تشخیص میں ایک وسیع تر مسئلے کی طرف اشارہ کرتے ہیں۔ اگر کوئی بینچ مارک ایجنٹوں کو اصل حل تک رسائی کی اجازت دیتا ہے، یا اگر اس کا اشارہ مفید خود تصدیق کی حوصلہ شکنی کرتا ہے، تو لیڈر بورڈ درست طریقے سے کوڈنگ کی حقیقی صلاحیت کی عکاسی نہیں کرسکتا۔

کمپنی نے کہا کہ ڈیپ ایس ڈبلیو ای کو زیادہ مشکل کاموں، مختصر اشارے، مضبوط تصدیق کنندگان، اور کنٹینرز کا استعمال کرتے ہوئے ان مسائل کو کم کرنے کے لیے ڈیزائن کیا گیا ہے جو گٹ ہسٹری کے ذریعے جواب کو ظاہر نہیں کرتے ہیں۔

نتائج کی جانچ پڑتال کا امکان ہے کیونکہ ڈیٹا کریو تجارتی مفادات کے ساتھ ایک آغاز ہے۔ تاہم، کمپنی نے GitHub پر اپنا ڈیٹاسیٹ، تشخیصی استعمال، اور ایجنٹ کی رفتار شائع کی ہے، جس سے دوسروں کو کام کا معائنہ کرنے کی اجازت دی گئی ہے۔ اگر نتائج کی آزادانہ طور پر تصدیق ہو جاتی ہے، تو Claude کے SWE-Bench Pro اسکورز کو زیادہ احتیاط کے ساتھ دیکھنے کی ضرورت ہو سکتی ہے، خاص طور پر جہاں بینچ مارک پاس بنیادی سافٹ ویئر ٹاسک کو حل کرنے کے بجائے ماحول کا استحصال کرنے سے آیا ہے۔

📢 تازہ ترین ٹیک اور ٹیلی کام کی خبروں، ویڈیوز اور تجزیوں کے لیے ابھی ProPakistani کے WhatsApp گروپ میں شامل ہوں!

گوگل نیوز پر پرو پاکستانی کو فالو کریں اور اپنے پسندیدہ مواد کو تیزی سے اسکرول کریں!

شیئرز