چین کی رینمن یونیورسٹی اور مائیکروسافٹ ریسرچ کے محققین نے آربر متعارف کرایا ہے، یہ ایک فریم ورک ہے جو AI ایجنٹوں کو بار بار آزمائش اور غلطی کی بجائے مجموعی سیکھنے کے ذریعے پیچیدہ انجینئرنگ سسٹم کو بہتر بنانے میں مدد فراہم کرتا ہے۔ فریم ورک ایک مستقل درخت میں مفروضوں، تجربات اور نتائج کو منظم کرتا ہے۔ یہ نظام کو وقت کے ساتھ تصدیق شدہ اصلاحات کرتے ہوئے پہلے کی کامیابیوں اور ناکامیوں سے سیکھنے کی اجازت دیتا ہے۔

فریم ورک ایک مستقل درخت میں مفروضوں، تجربات اور نتائج کو منظم کرتا ہے۔ یہ نظام کو وقت کے ساتھ تصدیق شدہ اصلاحات کرتے ہوئے پہلے کی کامیابیوں اور ناکامیوں سے سیکھنے کی اجازت دیتا ہے۔

عملی جانچ میں، آربر نے اسی وسائل کے بجٹ کے تحت حقیقی دنیا کے انجینئرنگ کے کاموں میں معیاری AI کوڈنگ ایجنٹس کے ذریعے حاصل کردہ قابل تصدیق کارکردگی کے فوائد سے 2.5 گنا زیادہ فراہم کیا۔

انٹرپرائز AI ٹیموں کے لیے، نقطہ نظر پیچیدہ نظاموں جیسے اندرونی AI معاونین، ڈیٹا پائپ لائنز، ایجنٹ فریم ورک، اور ماڈل ٹریننگ کے عمل کی مسلسل بہتری کو خودکار کر سکتا ہے۔

کمپنی کے اندرونی دستاویزات کو تلاش کرنے کے لیے تعینات ایک AI ایجنٹ ترقی کے دوران اچھی کارکردگی کا مظاہرہ کر سکتا ہے لیکن بعد میں پروڈکشن میں اہم پابندیوں کو نظر انداز یا نظر انداز کر سکتا ہے۔

سسٹم کو درست کرنے کے لیے دستاویز کی چنکنگ، بازیافت کے طریقوں، اور سسٹم پرامپٹس میں بار بار تبدیلیوں کی ضرورت پڑسکتی ہے۔

جب ایک ایجنٹ ایک ساتھ کئی اجزاء کو تبدیل کرتا ہے، تو ٹیمیں آسانی سے شناخت نہیں کر سکتیں کہ کس ایڈجسٹمنٹ سے کارکردگی میں بہتری آئی یا کون سی نئی پریشانی کا باعث بنی۔

آربر ہر مجوزہ تبدیلی کو ایک آزاد مفروضے میں الگ کرکے اس کا ازالہ کرتا ہے جسے تنہائی میں جانچا اور ماپا جا سکتا ہے۔

محققین اس عمل کو خود مختار اصلاح کے طور پر بیان کرتے ہیں۔ ایک AI ایجنٹ قابل تدوین آرٹفیکٹ سے شروع ہوتا ہے، جیسے مشین لرننگ کوڈ بیس یا ڈیٹا پائپ لائن، اور ایک متعین مقصد حاصل کرتا ہے۔ اس کے بعد قدم بہ قدم انسانی نگرانی کے بغیر بار بار تجربات اور تاثرات کے ذریعے نمونے کو بہتر بنانے کی کوشش کرتا ہے۔

تاہم، کسی ایجنٹ کو زیادہ وقت دینا یا وسائل کو کمپیوٹنگ کرنا خود بخود بہتر نتائج پیدا نہیں کرتا ہے۔

مقالے کے شریک مصنف جیاجی جن نے کہا کہ آٹومیشن ایک اے آئی کو طویل عرصے تک کام کر سکتی ہے، لیکن بار بار سرگرمی ضروری نہیں کہ ترقی کے برابر ہو۔

اگر مقصد واضح نہیں ہے یا میٹرک میں ہیرا پھیری کی جا سکتی ہے، تو طویل عرصے سے چلنے والے ایجنٹ ایسی تبدیلیاں پیدا کر سکتے ہیں جو صارفین کو درحقیقت مطلوبہ اصلاحات فراہم کیے بغیر کامیاب دکھائی دیتے ہیں۔

پیچیدہ کاموں کے لیے بھی بہت سی کوششوں کی ضرورت ہوتی ہے، جبکہ معیاری ایجنٹ کے ڈیزائن میں ہر تجربے سے شواہد اور بصیرت کو محفوظ رکھنے کے لیے قابل اعتماد ڈھانچہ کی کمی ہوتی ہے۔

پائیدار میموری کے بغیر، ایجنٹ مستقبل کے کام کی رہنمائی کے لیے ماضی کے نتائج کو استعمال کرنے کے بجائے پہلے کی غلطیوں کو دہرا سکتے ہیں۔

موجودہ کوڈنگ ایجنٹ سافٹ ویئر میں ترمیم کر سکتے ہیں، ٹولز استعمال کر سکتے ہیں، اور ایک متعین مقصد کے خلاف گھنٹوں ٹیسٹ چلا سکتے ہیں۔

تاہم، وہ عام طور پر ہر تجربے کا الگ الگ علاج کرتے ہیں اور ایک ہی وقت میں متعدد مسابقتی تحقیقی ہدایات کو برقرار نہیں رکھ سکتے ہیں۔

عام کوڈنگ ایجنٹ اکثر اپنی یادداشت کو گفتگو کی نقلوں میں محفوظ کرتے ہیں۔ خود مختار اصلاحی کام سینکڑوں تعاملات پر محیط ہو سکتے ہیں اور سیاق و سباق کی کھڑکی کی حد سے تجاوز کر سکتے ہیں۔

نتیجے کے طور پر، ایجنٹ حقائق پر مبنی ثبوت کھو سکتے ہیں، وسیع تر تحقیقی عمل کو بھول سکتے ہیں، ابتدائی ناکامیوں پر پھنس سکتے ہیں، یا تشخیص کے اسکور میں چھوٹی تبدیلیوں کا پیچھا کر سکتے ہیں۔

موجودہ نظام ترقی کی پیمائش کے مطابق بھی ہو سکتے ہیں یا تشخیصی نظام میں کمزوریوں کا فائدہ اٹھا سکتے ہیں، حقیقی دنیا کی کارکردگی کو بہتر بنائے بغیر ترقی کی ظاہری شکل پیدا کر سکتے ہیں۔

عام مقصد کے کوڈنگ ایجنٹ عام طور پر ایک مشترکہ کام کرنے والے درخت کو بھی استعمال کرتے ہیں۔ یہ انہیں متوازی طور پر متعدد مفروضوں کو محفوظ طریقے سے جانچنے سے روکتا ہے اور یہ تعین کرنا مشکل بناتا ہے کہ کون سی تبدیلی کسی خاص نتیجے کی وجہ بنی۔

آربر تحقیقی حکمت عملی کو انفرادی کوڈنگ کے کام سے دو اہم اجزاء کے ذریعے الگ کرتا ہے: ایک کوآرڈینیٹر اور ایگزیکیوٹرز۔ کوآرڈینیٹر ایک طویل عرصے سے چلنے والا AI ایجنٹ ہے جو ایک پرنسپل تفتیش کار کی طرح کام کرتا ہے۔

یہ ٹارگٹ کوڈ بیس میں براہ راست ترمیم نہیں کرتا ہے۔ اس کے بجائے، یہ تحقیق کی مجموعی حالت پر نظر رکھتا ہے، جمع شدہ شواہد کا جائزہ لیتا ہے، نئے مفروضے تجویز کرتا ہے، اور تجرباتی نتائج کو استعمال کرنے کا طریقہ طے کرتا ہے۔

ایگزیکیوٹرز قلیل المدت اور فوکسڈ AI ایجنٹ ہوتے ہیں۔ جب کوآرڈینیٹر کسی آئیڈیا کی جانچ کرنا چاہتا ہے، تو یہ ایک تازہ گٹ ورک ٹری کا استعمال کرتے ہوئے الگ تھلگ ماحول کے اندر ایک ایگزیکیوٹر بناتا ہے۔

ہر ایگزیکیوٹر ایک مفروضہ وصول کرتا ہے، مجوزہ تبدیلی کو لاگو کرتا ہے، تشخیص چلاتا ہے، غلطیوں کو ٹھیک کرتا ہے، اور نتائج اور تیار کردہ نمونے کوآرڈینیٹر کو رپورٹ کرتا ہے۔

کوآرڈینیٹر اور ایگزیکیوٹرز ایک طریقہ کار کے ذریعے کام کرتے ہیں جسے ہائپوتھیسس ٹری ریفائنمنٹ کہتے ہیں۔

یہ نظام تحقیقی عمل کو ایک مستقل، شاخ دار درخت کے طور پر پیش کرتا ہے۔

ہر نوڈ چار عناصر کو جوڑتا ہے: ایک مفروضہ، ایک قابل عمل نمونہ، تجربے کے ذریعہ تیار کردہ حقیقتی ثبوت، اور ایک گاڑھی بصیرت۔ وسیع خیالات درخت کی جڑ کے قریب نمودار ہوتے ہیں، جبکہ شاخوں اور پتوں کے ذریعے مزید مخصوص تطہیر پیدا ہوتی ہے۔

یہ ڈھانچہ آربر کو پہلے شواہد کو کھونے کے بغیر متعدد مسابقتی طریقوں کو تلاش کرنے کی اجازت دیتا ہے۔

جب کوئی تجربہ ناکام ہوجاتا ہے، تو نظام اس وجہ کو منفی رکاوٹ کے طور پر ریکارڈ کرتا ہے۔ یہ مستقبل کے ایجنٹوں کو ایک ہی غلطی کو دہرانے سے روکنے میں مدد کرتا ہے۔

محققین نے ایک اندرونی AI اسسٹنٹ کے لیے Retrieval-Augmented Generation پائپ لائن کو بہتر بنانے کی مثال استعمال کی۔

ایک عام کوڈنگ ایجنٹ کو درستگی کو بہتر بنانے کے لیے کہا گیا ایک ہی کوشش میں چنکنگ کا طریقہ، سسٹم پرامپٹ، اور بازیافت کے عمل کو تبدیل کر سکتا ہے۔

یہ مشترکہ تبدیلیاں اس بات کا تعین کرنا مشکل بناتی ہیں کہ کس ایڈجسٹمنٹ نے بہتری پیدا کی۔ ایجنٹ اپنے تجربات کو الگ تھلگ کیے بغیر مرکزی ذخیرہ میں براہ راست ترمیم بھی کر سکتا ہے۔

آربر ہر تبدیلی کو ایک الگ مفروضے کے طور پر دیکھتا ہے۔

چنکنگ، بازیافت، اور فوری تبدیلیاں مختلف شاخیں بن جاتی ہیں، جن میں سے ہر ایک کو اس کی اپنی گٹ ورک ٹری میں لاگو اور جانچا جاتا ہے۔

یہ ٹیموں کو ہر تبدیلی کے صحیح اثرات کی نشاندہی کرنے کی اجازت دیتا ہے، بشمول ایسے معاملات جہاں ایک طریقہ کارکردگی کو بہتر بناتا ہے اور دوسرا اسے خراب کرتا ہے۔

جب ایک ایگزیکیوٹر ایک تجربہ ختم کرتا ہے، تو کوآرڈینیٹر ثبوت کو درخت میں ریکارڈ کرتا ہے اور نتیجے میں آنے والی بصیرت کو واپس پِیرنٹ نوڈس تک پہنچاتا ہے۔

لہذا ایک تجربے سے تلاش ایک وسیع تر رکاوٹ بن سکتی ہے جو مستقبل کے مفروضوں کو تشکیل دیتی ہے۔

آربر ریوارڈ ہیکنگ اور ڈیولپمنٹ ڈیٹا اوور فٹنگ کو روکنے کے لیے ایک سخت مرج گیٹ بھی استعمال کرتا ہے۔

یہاں تک کہ جب ایک ایگزیکیوٹر مضبوط ترقیاتی اسکور کی اطلاع دیتا ہے، کوآرڈینیٹر ایک اور الگ تھلگ ورک ٹری بناتا ہے اور امیدوار کا امتحان ایک ہولڈ آؤٹ ایویلیویٹر کے خلاف کرتا ہے۔

مجوزہ تبدیلی کو موجودہ بہترین ورژن میں صرف اسی وقت ضم کیا جاتا ہے جب اس سے ہولڈ آؤٹ ٹیسٹ سکور بہتر ہوتا ہے۔

آربر لوپ انجینئرنگ کے وسیع تر تصور میں فٹ بیٹھتا ہے، جسے OpenClaw کے تخلیق کار پیٹر سٹینبرگر اور Claude Code کے لیڈ بورس چرنی سمیت شخصیات نے فروغ دیا ہے۔

نقطہ نظر واحد اشارے سے آگے بڑھتا ہے اور مشاہدے، استدلال، عمل اور تصدیق کے بار بار چکروں پر توجہ مرکوز کرتا ہے۔

تاہم، جن نے خبردار کیا کہ مناسب ڈھانچے کے بغیر ایک لوپ ناقابل شناخت کوششوں سے بھر سکتا ہے، جس سے ٹیمیں اس بات کا تعین کرنے سے قاصر رہتی ہیں کہ کیا بدلا یا نتیجہ کیا نکلا۔

محققین نے حقیقی دنیا کی تحقیقی ترتیبات اور MLE-Bench Lite مشین لرننگ انجینئرنگ بینچ مارک پر مبنی ایک خود مختار اصلاحی ٹاسک سوٹ پر آربر کا جائزہ لیا۔

ٹاسک سوٹ نے AI کی ترقی کے کئی شعبوں کا احاطہ کیا، بشمول ماڈل ٹریننگ، ایجنٹ-ہارنس انجینئرنگ، اور ڈیٹا کی ترکیب۔

محققین نے Claude Opus 4.6، GPT-5.5، اور Gemini-3-Flash کو کوآرڈینیٹر اور ایگزیکیوٹر ایجنٹوں کے لیے بیک بون ماڈل کے طور پر استعمال کیا۔

انہوں نے آربر کا کوڈیکس اور کلاڈ کوڈ سے موازنہ کیا جبکہ تمام سسٹمز کو یکساں وسائل فراہم کیے۔

MLE-Bench Lite کے لیے، Arbor کا ایجنٹ تحقیقی نظاموں کے خلاف بھی تجربہ کیا گیا، بشمول AI-Scientist، ML-Master، اور AIDE۔

آربر نے تمام کاموں میں سب سے مضبوط ہولڈ آؤٹ ٹیسٹ کا نتیجہ حاصل کیا۔

اس کی اوسط رشتہ دار بہتری Codex اور Claude Code کے حاصل کردہ فوائد سے 2.5 گنا زیادہ تھی۔

BrowseComp پر، جس میں سرچ ایجنٹ کو بہتر بنانا شامل ہے، Arbor نے ہولڈ آؤٹ درستگی کو 45.33% سے بڑھا کر 67.67% کر دیا۔

کوڈیکس 50% تک پہنچ گیا، جبکہ کلاڈ کوڈ 53.33% تک پہنچ گیا۔

MLE-Bench Lite پر، Arbor نے GPT-5.5 کے ساتھ جوڑا بنانے پر تمام آزمائشی نظاموں میں سب سے مضبوط نتیجہ پیش کیا۔

آربر نے اوور فٹنگ کے خلاف بھی زیادہ مزاحمت ظاہر کی۔

ٹرمینل بنچ 2.0 کے تجربات کے دوران، کلاڈ کوڈ نے 75 کا ترقیاتی سکور حاصل کیا لیکن ہولڈ آؤٹ ڈیٹا پر گر کر 71 ہو گیا۔

آربر نے 72.22 کا کم ترقیاتی اسکور ریکارڈ کیا لیکن 77.36 کے سب سے زیادہ ہولڈ آؤٹ اسکور تک پہنچ گیا۔

نتیجہ سے پتہ چلتا ہے کہ آربر کی بہتری زیادہ مؤثر طریقے سے نادیدہ ڈیٹا میں منتقل ہوئی۔

محققین نے یہ بھی تجربہ کیا کہ آیا آربر کی بہتری غیر متعلقہ کاموں میں منتقل ہو سکتی ہے۔

آربر نے BrowseComp کے لیے تلاش کے استعمال کو بہتر بنانے کے بعد، انہوں نے HLE اور DeepSearchQA پر نتیجہ خیز کوڈ بیس کا تجربہ کیا۔

آپٹمائزڈ کوڈ نے دونوں نادیدہ سرچ ایجنٹ کاموں پر کارکردگی کو نمایاں طور پر بہتر کیا۔

آربر کو موجودہ Git ورک فلوز کو تبدیل کرنے کے بجائے ان کے اوپر کام کرنے کے لیے ڈیزائن کیا گیا ہے۔

اس کا حتمی آؤٹ پٹ ایک معیاری Git برانچ ہے جسے ڈویلپر موجودہ کوڈ کے جائزے، مسلسل انضمام اور انسانی جائزہ کے عمل کے ذریعے معائنہ کر سکتے ہیں۔

ہر رن کے لیے صرف تصدیق شدہ اصلاحات کو الگ ٹرنک میں ضم کیا جاتا ہے۔

مرکزی ذخیرہ اس وقت تک تبدیل نہیں ہوتا جب تک کہ کوئی ڈویلپر دستی طور پر کوڈ کو فروغ دینے کا انتخاب نہ کرے۔

آربر کی تعیناتی اضافی اخراجات کے ساتھ آتی ہے۔ سب سے بڑا خرچ ٹوکن کا استعمال ہے کیونکہ طویل عرصے سے چلنے والے کوآرڈینیٹر کو فرضی تصور کے درخت کا مسلسل انتظام کرنا چاہیے اور عملداروں کو کام تفویض کرنا چاہیے۔

ایک ہی وقت میں کئی الگ تھلگ ورک ٹریوں کو چلانے کے لیے بھی حقیقی تجربات کے لیے کمپیوٹنگ اور اسٹوریج کے وسائل کی ضرورت ہوتی ہے۔

جن کے مطابق، آربر اس وقت بہترین کام کرتا ہے جب کسی کام میں واضح اور قابل اعتماد میٹرک ہو، وہ ایک طویل اصلاحی مدت کو برداشت کر سکتا ہے اور دریافت کرنے کے لیے کئی معقول ہدایات پیش کرتا ہے۔

مناسب کاموں میں پائپ لائن کو بہتر بنانا، ڈیٹا سنتھیسز کے معیار کو بہتر بنانا اور ماڈل ٹریننگ کی ترکیبیں بہتر کرنا شامل ہیں۔

ٹیموں کو ایسے کاموں کے لیے آربر استعمال کرنے سے گریز کرنا چاہیے جن میں ریئل ٹائم لیٹنسی، واضح ون لائن فکسز یا ایسی صورت حال کی ضرورت ہوتی ہے جہاں تشخیصی میٹرک ناقابل اعتبار ہو۔

نتیجہ کا معیار تشخیص کنندہ کے معیار تک محدود رہتا ہے۔

اگر میٹرک ناقابل بھروسہ ہے، تو Arbor آسانی سے ایک ناقابل اعتماد نتیجہ کی طرف زیادہ تیزی سے اصلاح کرے گا۔

جن نے کہا کہ مستقبل کا ورژن کسی ایک سکور پر انحصار کرنے کے بجائے کئی مقاصد کا جائزہ لے سکتا ہے۔

مفروضے کے درخت میں ہر ایک نمونہ پیمائش کا ایک سیٹ لے سکتا ہے جس میں درستگی، تاخیر اور لاگت جیسے عوامل شامل ہیں۔

اس سے آربر کو سنگل اسکور آپٹیمائزیشن سے کثیر مقصدی Pareto تلاش کی طرف بڑھنے کا موقع ملے گا۔

جہاں آپ چاہیں تازہ ترین ٹیک خبریں، ٹیلی کام کی بصیرتیں، اور پروڈکٹ لانچ حاصل کریں۔

ProPakistani کو ترجیحی ذرائع میں شامل کریں اور گوگل سرچ اور ٹاپ اسٹوریز میں ہماری مزید کہانیاں دیکھیں۔

شیئرز

نیا فریم ورک AI کوڈنگ ایجنٹس کو انجینئرنگ میں 2.5x بہتر بناتا ہے۔

متعلقہ خبریں

گوگل نے 4x تیز ٹیکسٹ جنریشن کے ساتھ لائٹننگ فاسٹ اوپن سورس AI ماڈل جاری کیا - صارفین کے GPUs پر چلتا ہے۔

ڈیپ سیک نئے AI ماڈل کا پیش نظارہ کرتا ہے جو فرنٹیئر ماڈلز کے ساتھ 'خلا کو بند کرتا ہے'

عالمی ماڈل بنانے والی کمپنی اوڈیسی نے ایمیزون اور دیگر بڑے ناموں کے تعاون سے $1.45B کی قیمت حاصل کی

ممکنہ طور پر زیادہ قابل اعتماد قسم کی AI بنانے کے لیے $9M اکٹھا کرتا ہے۔

میموری ٹولز کس طرح AI ماڈلز کو بدتر بنا سکتے ہیں۔

تو آپ نے یہ AI شرائط سنی ہیں اور ساتھ میں سر ہلایا ہے۔ چلو اسے ٹھیک کریں