رينمن يونيورسٽي آف چائنا ۽ مائڪروسافٽ ريسرچ جي محققن آربر متعارف ڪرايو آهي، هڪ فريم ورڪ تيار ڪيو ويو آهي ته جيئن AI ايجنٽن کي پيچيده انجنيئرنگ سسٽم کي بهتر بنائڻ ۾ مدد ڪري مجموعي سکيا ذريعي بار بار آزمائش ۽ غلطي جي بدران.
فريم ورڪ هڪ مسلسل وڻ ۾ مفروضن، تجربن، ۽ نتيجن کي منظم ڪري ٿو. اهو سسٽم کي اڳئين ڪاميابين ۽ ناڪامين مان سکڻ جي اجازت ڏئي ٿو جڏهن ته وقت جي حوالي سان تصديق ٿيل بهتري ٺاهيندي.
عملي جاچ ۾، آربر 2.5 ڀيرا وڌيڪ پهچائي ڇڏيو قابل تصديق ڪارڪردگي حاصلات معياري AI ڪوڊنگ ايجنٽن پاران حاصل ڪيل حقيقي دنيا جي انجنيئرنگ ڪمن ۾ ساڳئي وسيلن جي بجيٽ تحت.
انٽرپرائز AI ٽيمن لاءِ، طريقه ڪار پيچيده سسٽم جي مسلسل بهتري کي خودڪار ڪري سگهي ٿو جهڙوڪ اندروني AI اسسٽنٽ، ڊيٽا پائپ لائنز، ايجنٽ فريم ورڪ، ۽ ماڊل ٽريننگ پروسيس.
اندروني ڪمپني جي دستاويزن کي ڳولڻ لاءِ مقرر ڪيل AI ايجنٽ شايد ترقي جي دوران سٺو ڪم ڪري سگهي ٿو پر بعد ۾ پيداوار ۾ اهم پابندين کي نظرانداز يا نظرانداز ڪري ٿو.
سسٽم کي درست ڪرڻ جي ضرورت ٿي سگھي ٿو بار بار تبديلين کي دستاويز ڪرڻ لاء، ٻيهر حاصل ڪرڻ جا طريقا، ۽ سسٽم جي اشارو.
جڏهن هڪ ايجنٽ ڪيترن ئي حصن کي هڪ ئي وقت ۾ تبديل ڪري ٿو، ٽيمن کي آساني سان سڃاڻي نٿو سگهي ته ڪهڙي ترتيب جي ڪارڪردگي بهتر ٿي يا هڪ نئين مسئلي جو سبب بڻيو.
آربر هن کي هر تجويز ڪيل تبديلي کي الڳ ڪري هڪ آزاد مفروضي ۾ تبديل ڪري ٿو جنهن کي آزمائي سگهجي ٿو ۽ اڪيلائي ۾ ماپي سگهجي ٿو.
محقق هن عمل کي خودمختيار اصلاح جي طور تي بيان ڪري ٿو. هڪ AI ايجنٽ هڪ قابل تدوين نموني سان شروع ٿئي ٿو، جهڙوڪ مشين-لرننگ ڪوڊ بيس يا ڊيٽا پائپ لائن، ۽ هڪ مقرر ڪيل مقصد حاصل ڪري ٿو. ان کان پوءِ ان فن کي بهتر بڻائڻ جي ڪوشش ڪري ٿو بار بار تجربن ۽ راءِ جي ذريعي قدم قدم تي انساني نگراني جي.
بهرحال، هڪ ايجنٽ کي وڌيڪ وقت ڏيڻ يا ڪمپيوٽنگ وسيلن کي خودڪار طريقي سان بهتر نتيجا پيدا نٿو ڪري.
جياجي جن، پيپر جي هڪ همعصر ليکڪ، چيو آهي ته آٽوميشن هڪ AI کي ڊگهي وقت تائين ڪم ڪري سگهي ٿي، پر بار بار سرگرمي ضروري ناهي ته ترقي جي برابر هجي.
جيڪڏهن مقصد واضح نه آهي يا ميٽرڪ کي هٿي وٺائي سگهجي ٿي، ڊگھي هلندڙ ايجنٽ شايد تبديليون پيدا ڪري سگھن ٿيون جيڪي ڪامياب نظر اچن ٿيون بغير بهتر ڪرڻ جي بغير جيڪي صارف اصل ۾ چاهيندا آهن.
ڪمپليڪس ڪمن کي پڻ ڪيترن ئي ڪوششن جي ضرورت هوندي آهي، جڏهن ته معياري ايجنٽ ڊزائينز هر تجربي مان ثبوت ۽ بصيرت کي محفوظ ڪرڻ لاء هڪ قابل اعتماد ڍانچي جي کوٽ ناهي.
پائيدار ياداشت جي بغير، ايجنٽ ماضي جي نتيجن کي استعمال ڪرڻ جي بدران اڳئين غلطي کي ورجائي سگهن ٿا مستقبل جي ڪم جي رهنمائي ڪرڻ لاء.
موجوده ڪوڊنگ ايجنٽ سافٽ ويئر کي ايڊٽ ڪري سگھن ٿا، اوزار استعمال ڪري سگھن ٿا، ۽ مقرر ڪيل مقصد جي خلاف ڪلاڪن تائين ٽيسٽ هلائي سگھن ٿا.
بهرحال، اهي عام طور تي هر تجربي کي الڳ الڳ علاج ڪن ٿا ۽ ساڳئي وقت ڪيترن ئي مقابلي واري تحقيقي هدايتن کي برقرار نٿا رکي سگهن.
عام ڪوڊنگ ايجنٽ اڪثر ڪري انهن جي ياداشت کي گفتگو واري ٽرانسپشن ۾ محفوظ ڪن ٿا. خود مختيار اصلاح جا ڪم سوين لاڳاپا وڌائي سگھن ٿا ۽ ونڊو جي حدن کان وڌي سگھن ٿا.
نتيجي طور، ايجنٽ حقيقتي ثبوت وڃائي سگھن ٿا، وسيع تحقيقي عمل کي وساري سگھن ٿا، شروعاتي ناڪامين تي پھنسجي وڃن ٿا، يا تشخيص اسڪينڊل ۾ ننڍڙي تبديلين جو تعاقب ڪن ٿا.
موجوده سسٽم پڻ ترقي جي ميٽرڪ کي وڌيڪ ڪري سگھن ٿا يا تشخيص سسٽم ۾ ڪمزورين جو استحصال ڪري سگھن ٿا، حقيقي دنيا جي ڪارڪردگي کي بهتر ڪرڻ کان سواء ترقي جي ظاهري کي پيدا ڪندي.
عام-مقصد ڪوڊنگ ايجنٽ عام طور تي ھڪڙو گڏيل ڪم ڪندڙ وڻ پڻ استعمال ڪندا آھن. اهو انهن کي محفوظ طور تي متوازي ۾ ڪيترن ئي مفروضن کي جانچڻ کان روڪي ٿو ۽ اهو طئي ڪرڻ ڏکيو بڻائي ٿو ته ڪهڙي تبديلي ڪنهن خاص نتيجي جو سبب بڻي.
آربر تحقيق جي حڪمت عملي کي الڳ ڪري ٿو انفرادي ڪوڊنگ ڪم کان ٻن مکيه حصن ذريعي: هڪ ڪوآرڊينيٽر ۽ عملدار. ڪوآرڊينيٽر هڪ ڊگهو هلندڙ AI ايجنٽ آهي جيڪو ڪم ڪري ٿو هڪ پرنسپل تحقيق ڪندڙ.
اهو سڌو سنئون ٽارگيٽ ڪوڊ بيس کي تبديل نٿو ڪري. ان جي بدران، اهو تحقيق جي مجموعي حالت کي مانيٽر ڪري ٿو، جمع ٿيل ثبوتن جو جائزو وٺندو آهي، نئين مفروضي پيش ڪري ٿو، ۽ فيصلو ڪري ٿو ته تجرباتي نتيجن کي ڪيئن استعمال ڪجي.
عملدار مختصر مدت وارا ۽ مرڪوز AI ايجنٽ آهن. جڏهن ڪوآرڊينيٽر هڪ خيال کي جانچڻ چاهي ٿو، اهو هڪ ايگزيڪيوٽر ٺاهي ٿو هڪ الڳ ماحول اندر هڪ تازي گٽ ورڪ ٽري استعمال ڪندي.
هر عملدار هڪ مفروضو حاصل ڪري ٿو، تجويز ڪيل تبديلي کي لاڳو ڪري ٿو، تشخيص هلائي ٿو، غلطين کي درست ڪري ٿو، ۽ نتيجن کي رپورٽ ڪري ٿو ۽ ڪوآرڊينيٽر کي ٺاهيل نمونا.
ڪوآرڊينيٽر ۽ عمل ڪندڙ هڪ ميکانيزم ذريعي ڪم ڪن ٿا جنهن کي Hypothesis Tree Refinement سڏيو ويندو آهي.
سسٽم تحقيق جي عمل کي مسلسل، شاخن واري وڻ جي نمائندگي ڪري ٿو.
هر نوڊ چار عناصر سان ڳنڍيندو آهي: هڪ مفروضو، هڪ قابل عمل نموني، تجربي جي ذريعي پيدا ڪيل حقيقتن جو ثبوت، ۽ هڪ جامع بصيرت. وڻن جي پاڙ جي ويجهو وسيع خيال ظاهر ٿيندا آهن، جڏهن ته وڌيڪ مخصوص سڌارا شاخن ۽ پنن ذريعي ترقي ڪن ٿا.
اها جوڙجڪ آربر کي اجازت ڏئي ٿي ته اڳئين ثبوت کي وڃائڻ کان سواءِ ڪيترن ئي مقابلي واري طريقن کي ڳولڻ جي.
جڏهن هڪ تجربو ناڪام ٿئي ٿو، سسٽم رڪارڊ ڪري ٿو سبب هڪ منفي رڪاوٽ جي طور تي. هي مستقبل جي ايجنٽن کي ساڳي غلطي کي ورجائڻ کان روڪڻ ۾ مدد ڪري ٿو.
محقق هڪ اندروني AI اسسٽنٽ لاءِ ريٽريول-آگمينٽڊ جنريشن پائپ لائن کي بهتر ڪرڻ جو مثال استعمال ڪيو.
ھڪڙي عام ڪوڊنگ ايجنٽ جي درستگي کي بھتر ڪرڻ لاءِ چيو ٿي سگھي ٿو ھڪڙي ڪوشش ۾ چنڪنگ جو طريقو، سسٽم پرامٽ، ۽ حاصل ڪرڻ وارو عمل.
انهن گڏيل تبديلين کي اهو طئي ڪرڻ ڏکيو بڻائي ٿو ته ڪهڙي ترتيب جي سڌاري پيدا ڪئي. ايجنٽ شايد بنيادي ذخيري کي سڌو سنئون تبديل ڪري سگھي ٿو بغير ان جي تجربن کي الڳ ڪرڻ جي.
آربر هر تبديلي کي هڪ الڳ مفروضو سمجهي ٿو.
چنڪنگ، ٻيهر حاصل ڪرڻ، ۽ فوري تبديليون مختلف شاخون بڻجي وينديون آهن، هر هڪ کي لاڳو ڪيو ويو آهي ۽ ان جي پنهنجي Git ڪم ڪار ۾ آزمائشي.
هي ٽيمن کي هر تبديلي جي صحيح اثر جي نشاندهي ڪرڻ جي اجازت ڏئي ٿو، بشمول ڪيس جتي هڪ طريقو ڪارڪردگي بهتر ڪري ٿو ۽ ٻيو ان کي خراب ڪري ٿو.
جڏهن هڪ عملدار هڪ تجربو ختم ڪري ٿو، ڪوآرڊينيٽر ثبوت کي وڻ ۾ رڪارڊ ڪري ٿو ۽ نتيجو بصيرت واپس والدين نوڊس ڏانهن منتقل ڪري ٿو.
تنهن ڪري هڪ تجربي مان هڪ ڳولڻ هڪ وسيع رڪاوٽ بڻجي سگهي ٿو جيڪو مستقبل جي مفروضن کي شڪل ڏئي ٿو.
آربر پڻ انعام جي هيڪنگ ۽ ڊولپمينٽ-ڊيٽا اوورفٽنگ کي روڪڻ لاءِ سخت ضم گيٽ استعمال ڪري ٿو.
ايستائين جو جڏهن هڪ ايگزيڪيوٽر هڪ مضبوط ڊولپمينٽ اسڪور جي رپورٽ ڪري ٿو، ڪوآرڊينيٽر هڪ ٻيو الڳ ٿيل ورڪ ٽري ٺاهي ٿو ۽ اميدوار کي منعقد ٿيل جائزي ڪندڙ جي خلاف آزمائي ٿو.
تجويز ڪيل تبديلي کي موجوده بھترين ورزن ۾ ضم ڪيو ويندو صرف جڏھن اھو ھولڊ آئوٽ ٽيسٽ سکور کي بھتر ڪري.
آربر لوپ انجنيئرنگ جي وسيع تصور جي اندر ٺهڪي اچي ٿو، جنهن کي انگن اکرن پاران ترقي ڏني وئي آهي بشمول OpenClaw خالق پيٽر اسٽينبرگر ۽ ڪلاڊ ڪوڊ ليڊ بورس چرني.
طريقه ڪار اڪيلو اشارو کان اڳتي وڌي ٿو ۽ مشاهدو، استدلال، عمل، ۽ تصديق جي بار بار چڪر تي ڌيان ڏئي ٿو.
بهرحال، جن خبردار ڪيو ته هڪ لوپ بغير مناسب ساخت جي اڻڄاتل ڪوششن سان ڀرجي سگهي ٿي، ٽيمن کي اهو طئي ڪرڻ جي قابل ناهي ته ڇا تبديل ڪيو يا نتيجو ڇا پيدا ڪيو.
محققن آربر جو جائزو ورتو هڪ خودمختيار اصلاح ٽاسڪ سوٽ تي حقيقي دنيا جي تحقيقاتي سيٽنگن ۽ MLE-Bench Lite مشين-لرننگ انجنيئرنگ بينچ مارڪ جي بنياد تي.
ٽاسڪ سوٽ AI ترقي جي ڪيترن ئي علائقن کي ڍڪي ڇڏيو، بشمول ماڊل ٽريننگ، ايجنٽ-هارنس انجنيئرنگ، ۽ ڊيٽا جي جوڙجڪ.
محقق Claude Opus 4.6، GPT-5.5، ۽ Gemini-3-Flash استعمال ڪيا جيئن ڪوآرڊينيٽر ۽ ايگزيڪيوٽر ايجنٽن لاءِ ريبون ماڊل.
انهن آربر جو مقابلو ڪيو ڪوڊڪس ۽ ڪلاڊ ڪوڊ سان جڏهن ته سڀني سسٽم کي ساڳيا وسيلا ڏنا.
MLE-Bench Lite لاءِ، آربر پڻ ايجنٽ ريسرچ سسٽم جي خلاف آزمايو ويو، جنهن ۾ AI-Scientist، ML-Master، ۽ AIDE شامل آهن.
آربر سڀني ڪمن ۾ مضبوط منعقد ٿيل امتحان جا نتيجا حاصل ڪيا.
ان جي سراسري لاڳاپا بهتري 2.5 ڀيرا وڌيڪ هئي حاصل ڪيل حاصلات جي ڀيٽ ۾ Codex ۽ Claude Code.
BrowseComp تي، جنهن ۾ هڪ ڳولا ايجنٽ کي بهتر ڪرڻ شامل آهي، آربر 45.33٪ کان 67.67٪ تائين منعقد ٿيل درستگي کي وڌايو.
ڪوڊڪس 50٪ تائين پهچي ويو، جڏهن ته ڪلواڊ ڪوڊ 53.33٪ تائين پهچي ويو.
MLE-Bench Lite تي، آربر سڀني آزمائشي سسٽم جي وچ ۾ مضبوط نتيجو پيدا ڪيو جڏهن GPT-5.5 سان جوڙيو ويو.
آربر پڻ اوورفٽنگ لاءِ وڌيڪ مزاحمت ڏيکاري ٿي.
ٽرمينل-بينچ 2.0 ۾ شامل تجربن دوران، ڪلاڊ ڪوڊ 75 جو ڊولپمينٽ اسڪور حاصل ڪيو پر رکيل ڊيٽا تي 71 ٿي ويو.
آربر 72.22 جو گهٽ ترقي وارو سکور رڪارڊ ڪيو پر 77.36 جي بلند ترين منعقد ٿيل نمبر تي پهچي ويو.
نتيجو ظاهر ڪيو ته آربر جي سڌارن کي وڌيڪ موثر انداز ۾ منتقل ڪيو ويو آهي اڻ ڏٺي ڊيٽا ڏانهن.
محقق پڻ جانچيو ته ڇا آربر جي سڌارن کي غير لاڳاپيل ڪمن ڏانهن منتقل ڪري سگھي ٿو.
آربر کان پوءِ BrowseComp لاءِ ڳولا جي هارن کي بهتر ڪيو، انهن نتيجن واري ڪوڊ بيس کي HLE ۽ DeepSearchQA تي آزمايو.
بهتر ڪيل ڪوڊ خاص طور تي بهتر ڪارڪردگي ٻنهي ڳجهي ڳولا ايجنٽ جي ڪمن تي.
آربر ان کي تبديل ڪرڻ بجاءِ موجوده Git ورڪ فلوز جي مٿان هلائڻ لاءِ ٺهيل آهي.
ان جي آخري پيداوار هڪ معياري Git برانچ آهي جنهن کي ڊولپرز موجوده ڪوڊ جي نظرثاني، مسلسل انضمام ۽ انساني-جائزو جي عملن ذريعي معائنو ڪري سگهن ٿا.
صرف تصديق ٿيل سڌارا هر رن لاءِ الڳ ٽرڪن ۾ ضم ڪيا ويا آهن.
مکيه مخزن اڻڄاتل رهي ٿو جيستائين هڪ ڊولپر دستي طور تي ڪوڊ کي فروغ ڏيڻ لاء چونڊيندو آهي.
آربر کي ترتيب ڏيڻ اضافي خرچن سان گڏ اچي ٿو. سڀ کان وڏو خرچ ٽوڪن جو استعمال آهي ڇاڪاڻ ته ڊگھي عرصي تائين هلندڙ ڪوآرڊينيٽر کي لازمي طور تي فرضي ٻوٽي کي منظم ڪرڻ ۽ عملدارن کي ڪم تفويض ڪرڻ گهرجي.
هڪ ئي وقت ڪيترن ئي الڳ ٿيل ڪم ڪارن کي هلائڻ لاءِ حقيقي تجربن لاءِ ڪمپيوٽنگ ۽ اسٽوريج وسيلن جي پڻ ضرورت آهي.
جين جي مطابق، آربر بهترين ڪم ڪري ٿو جڏهن هڪ ڪم واضح ۽ قابل اعتماد ميٽرڪ آهي، هڪ ڊگهي اصلاح جي مدت کي برداشت ڪري سگهي ٿو ۽ ڳولڻ لاء ڪيترائي مناسب هدايتون پيش ڪري ٿو.
مناسب ڪمن ۾ شامل آهن پائپ لائن کي بهتر ڪرڻ، ڊيٽا جي ترڪيب جي معيار کي بهتر ڪرڻ ۽ ماڊل ٽريننگ جي ترڪيب کي بهتر ڪرڻ.
ٽيمن کي ڪمن لاءِ آربر استعمال ڪرڻ کان پاسو ڪرڻ گهرجي حقيقي وقت جي ويڪرائي جي ضرورت آهي، واضح ون لائن فيڪس يا حالتون جتي تشخيص ميٽرڪ ناقابل اعتبار آهي.
نتيجن جي معيار کي evaluator جي معيار تائين محدود رهي ٿو.
جيڪڏهن ميٽرڪ ناقابل اعتبار آهي، آربر صرف هڪ ناقابل اعتبار نتيجو ڏانهن وڌيڪ تيزيء سان بهتر ٿيندو.
جن چيو ته مستقبل جو نسخو هڪ واحد سکور تي ڀروسو ڪرڻ بدران ڪيترن ئي مقصدن جو جائزو وٺي سگهي ٿو.
مفروضي جي وڻ ۾ هر هڪ نمونو ماپن جو هڪ سيٽ کڻي سگهي ٿو جنهن ۾ عنصر شامل آهن جيئن ته درستگي، ويڪرائي ۽ قيمت.
هي آربر کي اجازت ڏيندو ته هڪ واحد سکور جي اصلاح کان هڪ گهڻ مقصدي Pareto ڳولا ڏانهن.
تازه ترين ٽيڪني خبرن، ٽيليڪم بصيرت، ۽ پراڊڪٽ لانچ حاصل ڪريو جتي توهان چاهيو ٿا.
ProPakistani کي ترجيحي ذريعن ۾ شامل ڪريو ۽ ڏسو اسان جون وڌيڪ ڪهاڻيون گوگل سرچ ۽ ٽاپ اسٽوريز ۾.
شيئرز