د چین د رینمین پوهنتون او د مایکروسافټ څیړنې څیړونکو آربر معرفي کړی، یو چوکاټ چې د AI اجنټانو سره د تکراري آزموینې او تېروتنې پرځای د مجموعي زده کړې له لارې پیچلي انجینري سیسټمونو کې د مرستې لپاره ډیزاین شوی.
چوکاټ په دوامداره ونې کې فرضیې، تجربې او موندنې تنظیموي. دا سیسټم ته اجازه ورکوي چې د پخوانیو بریالیتوبونو او ناکامیو څخه زده کړي پداسې حال کې چې د وخت په تیریدو سره تایید شوي پرمختګونه کوي.
په عملي ازموینې کې، آربر د ورته سرچینې بودیجې لاندې د ریښتیني نړۍ انجینري دندو کې د معیاري AI کوډینګ اجنټانو لخوا ترلاسه شوي د تایید وړ فعالیت لاسته راوړنې 2.5 ځله ډیر وړاندې کړي.
د شرکت AI ټیمونو لپاره، طریقه کولی شي د پیچلي سیسټمونو دوامداره پرمختګ اتومات کړي لکه د داخلي AI معاونین، د معلوماتو پایپ لاینونه، د اجنټ چوکاټونه، او د ماډل روزنې پروسې.
د AI اجنټ چې د داخلي شرکت اسنادو لټون کولو لپاره ګمارل شوي ممکن د پراختیا په جریان کې ښه فعالیت وکړي مګر وروسته په تولید کې مهم محدودیتونه پټ کړي یا له پامه غورځوي.
د سیسټم سم کول ممکن د اسنادو ټوټې کولو، د بیرته اخیستلو میتودونو، او سیسټم اشارو کې تکرار بدلونونو ته اړتیا ولري.
کله چې یو اجنټ په یوځل کې څو برخې بدلوي، ټیمونه نشي کولی په اسانۍ سره وپیژندل شي چې کوم تعدیل فعالیت ښه کړی یا کوم یو د نوې ستونزې لامل شوی.
آربر دا په یوه خپلواک فرضیه کې د هر وړاندیز شوي بدلون په جلا کولو سره حل کوي چې په انزوا کې ازموینه او اندازه کیدی شي.
څیړونکي دا پروسه د خپلواکه اصلاح په توګه تشریح کوي. د AI اجنټ د ترمیم وړ هنري اثار سره پیل کیږي ، لکه د ماشین زده کړې کوډبیس یا ډیټا پایپ لاین ، او یو ټاکل شوی هدف ترلاسه کوي. دا بیا هڅه کوي چې د پرله پسې تجربو او فیډبیک له لارې اثار ته وده ورکړي پرته لدې چې ګام په ګام انسان نظارت وکړي.
په هرصورت، اجنټ ته ډیر وخت ورکول یا د سرچینو کمپیوټري کول په اتوماتيک ډول غوره پایلې نه تولیدوي.
جیاجي جین ، د مقالې شریک لیکوال وویل ، اتومات کولی شي AI د اوږدې مودې لپاره کار وکړي ، مګر تکرار فعالیت لازمي پرمختګ نه کوي.
که هدف روښانه نه وي یا میټریک له مینځه وړل کیدی شي، اوږدمهاله اجنټان ممکن بدلونونه رامینځته کړي چې د هغه پرمختګونو وړاندې کولو پرته بریالي ښکاري چې کاروونکي واقعیا غواړي.
پیچلې دندې هم ډیری هڅو ته اړتیا لري، پداسې حال کې چې د معیاري اجنټ ډیزاین د هرې تجربې څخه د شواهدو او بصیرت ساتلو لپاره د باور وړ جوړښت نلري.
د دوامدار حافظې پرته ، اجنټان کولی شي د راتلونکي کار لارښود کولو لپاره د تیرو پایلو کارولو پرځای پخوانۍ غلطۍ تکرار کړي.
د کوډ کولو موجوده اجنټان کولی شي سافټویر ایډیټ کړي ، وسیلې وکاروي ، او د ټاکل شوي هدف پروړاندې د ساعتونو لپاره ازموینې پرمخ بوځي.
په هرصورت، دوی معمولا هره تجربه په جلا توګه درملنه کوي او نشي کولی په ورته وخت کې د څیړنې ډیری سیالي لارښوونې وساتي.
د کوډ کولو عمومي اجنټان اکثرا خپل حافظه د خبرو اترو په لیکونو کې ساتي. د خودمختار اصلاح دندې کولی شي په سلګونو تعاملات پراخه کړي او د شرایطو کړکۍ حدونو څخه تیر شي.
د پایلې په توګه، اجنټان ممکن حقیقي شواهد له لاسه ورکړي، د څیړنې پراخ بهیر هیر کړي، په لومړیو ناکامیو کې پاتې شي، یا د ارزونې په نمرو کې کوچني بدلونونه تعقیب کړي.
موجوده سیسټمونه هم کولی شي د پراختیا میټریکونو ته وده ورکړي یا د ارزونې سیسټم کې ضعفونه وکاروي، پرته له دې چې د ریښتینې نړۍ فعالیت ښه کړي د پرمختګ بڼه رامینځته کړي.
د عمومي هدف کوډ کولو اجنټان معمولا یو واحد شریک کاري ونې هم کاروي. دا دوی په موازي توګه د څو فرضیو په خوندي ډول ازموینې څخه مخنیوی کوي او دا ستونزمن کوي چې معلومه کړي چې کوم بدلون د یوې ځانګړې پایلې لامل شوی.
آربر د دوه اصلي برخو له لارې د انفرادي کوډ کولو کار څخه د څیړنې ستراتیژي جلا کوي: همغږي کونکی او اجرا کونکي. همغږي کونکی د اوږد مهاله AI اجنټ دی چې د اصلي تحقیق کونکي په څیر عمل کوي.
دا په مستقیم ډول د هدف کوډبیس ترمیم نه کوي. پرځای یې، دا د څیړنې ټول حالت څارنه کوي، راټول شوي شواهد بیاکتنه کوي، نوي فرضیې وړاندیز کوي، او پریکړه کوي چې څنګه د تجربو پایلې وکاروي.
اجرا کونکي لنډمهاله او متمرکز AI اجنټان دي. کله چې همغږي کوونکی غواړي یوه مفکوره و ازمويي، دا د نوي ګیټ ورکټري په کارولو سره په جلا چاپیریال کې یو اجرا کونکی رامینځته کوي.
هر اجرا کوونکی یو فرضیه ترلاسه کوي، وړاندیز شوی بدلون پلي کوي، ارزونه پرمخ وړي، غلطۍ سموي، او پایلې او تولید شوي اثار همغږي کوونکي ته راپور ورکوي.
همغږي کوونکي او اجرا کوونکي د یوه میکانیزم له لارې کار کوي چې د Hypothesis Tree Refinement په نوم یادیږي.
سیسټم د څیړنې بهیر د دوامدار، شاخ کولو ونې په توګه استازیتوب کوي.
هر نوډ څلور عناصر سره نښلوي: یوه فرضیه، د اجرا وړ آثار، د تجربې لخوا تولید شوي حقیقي شواهد، او یو کم شوی بصیرت. پراخې مفکورې د ونې ریښې ته نږدې ښکاري، پداسې حال کې چې نور ځانګړي اصالحات د څانګو او پاڼو له لارې وده کوي.
دا جوړښت آربر ته اجازه ورکوي چې د پخوانیو شواهدو له لاسه ورکولو پرته ډیری سیالي کونکي لارې وپلټي.
کله چې یوه تجربه ناکامه شي، سیسټم دلیل د منفي خنډ په توګه ثبتوي. دا د راتلونکي اجنټانو سره د ورته غلطۍ تکرار څخه مخنیوي کې مرسته کوي.
څیړونکو د داخلي AI معاون لپاره د بیرته ترلاسه کولو - لوړ شوي نسل پایپ لاین مطلوب کولو مثال کارولی.
د کوډ کولو عمومي اجنټ چې د دقت د ښه کولو لپاره غوښتل شوي وي ممکن په یوه هڅه کې د چنګ کولو میتود، سیسټم پرامپټ، او د ترلاسه کولو پروسه بدله کړي.
دا ګډ بدلونونه دا ستونزمن کوي چې معلومه کړي چې کوم تعدیل پرمختګ رامینځته کړی. اجنټ کولی شي په مستقیم ډول اصلي ذخیره بدله کړي پرته لدې چې تجربې جلا کړي.
آربر هر بدلون د جلا فرضیې په توګه چلند کوي.
چنکینګ، بیرته ترلاسه کول، او سمدستي بدلونونه په مختلفو څانګو بدلیږي، چې هر یو یې په خپل ګیټ ورک ټری کې پلي او ازمول شوی.
دا ټیمونو ته اجازه ورکوي چې د هر بدلون دقیق اغیز وپیژني، په شمول هغه قضیې چې یو میتود فعالیت ښه کوي او بل یې خرابوي.
کله چې یو اجرا کونکی یوه تجربه پای ته ورسوي، همغږي کوونکي شواهد په ونه کې ثبتوي او پایله لرونکي بصیرت بیرته والدین نوډونو ته لیږدوي.
له همدې امله د یوې تجربې موندنه کولی شي یو پراخه خنډ شي چې راتلونکي فرضیې ته شکل ورکوي.
آربر د انعام هیکنګ او پراختیا ډیټا اوور فټینګ مخنیوي لپاره د ضمیمه کولو سخت دروازه هم کاروي.
حتی کله چې یو اجرا کوونکی د قوي پرمختیایي نمرې راپور ورکوي، همغږي کوونکی یو بل جلا کاري ونې رامینځته کوي او کاندید د ترسره شوي ارزونکي په وړاندې ازموي.
وړاندیز شوی بدلون یوازې په اوسني غوره نسخه کې یوځای کیږي کله چې دا د ترسره شوي ازموینې نمرې ښه کړي.
آربر د لوپ انجینرۍ په پراخه مفهوم کې فټ کوي، کوم چې د OpenClaw جوړونکي پیټر سټینبرګر او د کلاډ کوډ مشر بوریس چرني په شمول د شخصیتونو لخوا هڅول شوي.
طریقه د یو واحد اشارو څخه هاخوا حرکت کوي او د مشاهدې، استدلال، عمل، او تصدیق په تکراري دورو تمرکز کوي.
په هرصورت، جین خبرداری ورکړ چې د مناسب جوړښت پرته لوپ کولی شي د نه منلو وړ هڅو سره ډک کړي، ټیمونه نشي کولی دا معلومه کړي چې څه بدل شوي یا څه پایله تولیدوي.
څیړونکو د ریښتیني نړۍ څیړنې تنظیماتو او د MLE-Bench Lite ماشین زده کړې انجینري بنچمارک پراساس د خپلواک اصلاح کولو کاري سویټ کې آربر ارزولی.
ټاسک سویټ د AI پراختیا ډیری برخې پوښلي ، پشمول د ماډل روزنه ، د اجنټ هارنس انجینري ، او د معلوماتو ترکیب.
څیړونکو Claude Opus 4.6، GPT-5.5، او Gemini-3-Flash د همغږي کونکي او اجرا کونکي اجنټانو لپاره د بیکون ماډلونو په توګه کارولي.
دوی آربر د کوډیکس او کلاډ کوډ سره پرتله کوي پداسې حال کې چې ټول سیسټمونه ورته سرچینې ورکوي.
د MLE-Bench Lite لپاره، آربر د ایجنټیک څیړنې سیسټمونو په وړاندې هم ازمول شوی و، پشمول د AI-Scientist، ML-Master، او AIDE.
آربر په ټولو دندو کې ترټولو قوي ساتل شوي ازموینې پایله ترلاسه کړه.
د دې اوسط نسبي پرمختګ د کوډیکس او کلاډ کوډ لخوا تولید شوي لاسته راوړنو څخه 2.5 ځله ډیر و.
په BrowseComp کې، چې د لټون اجنټ ښه کول پکې شامل دي، آربر د 45.33٪ څخه 67.67٪ ته د ټاکل شوي درستیت زیاتوالی موندلی.
کوډیکس 50٪ ته رسیدلی، پداسې حال کې چې د کلاډ کوډ 53.33٪ ته رسیدلی.
په MLE-Bench Lite کې، Arbor د ټولو ازمویل شوي سیسټمونو ترمنځ خورا قوي پایله تولید کړه کله چې د GPT-5.5 سره جوړه شوه.
آربر هم د ډیر فټینګ په وړاندې ډیر مقاومت ښودلی.
د تجربو په جریان کې چې د ټرمینل بنچ 2.0 پکې شامل دي، کلاډ کوډ د 75 پراختیایی نمرې ترلاسه کړې مګر په ساتل شوي ډیټا کې 71 ته راښکته شوه.
آربر د 72.22 ټیټ پرمختیا نمرې ثبت کړې مګر د 77.36 ترټولو لوړې نمرې ته رسیدلي.
پایلې وښودله چې د اربر پرمختګونه په اغیزمنه توګه نه لیدل شوي معلوماتو ته لیږدول شوي.
څیړونکو دا هم ازموینه کړې چې ایا د آربر پرمختګونه غیر اړونده کارونو ته لیږدول کیدی شي.
وروسته له دې چې آربر د BrowseComp لپاره د لټون کنټرول غوره کړ، دوی د پایلې کوډبیس په HLE او DeepSearchQA کې ازموینه وکړه.
مطلوب کوډ د پام وړ فعالیت په دواړو ناڅرګنده لټون ایجنټ کارونو کې ښه کړی.
آربر د دوی د ځای په ځای کولو پرځای د موجوده Git کاري فلو په سر کې د کار کولو لپاره ډیزاین شوی.
د دې وروستی محصول یو معیاري Git څانګه ده چې پراختیا کونکي کولی شي د موجوده کوډ بیاکتنې ، دوامداره ادغام او د انسان بیاکتنې پروسې له لارې معاینه کړي.
یوازې تایید شوي اصلاحات د هرې منډې لپاره په جلا ټرک کې یوځای کیږي.
اصلي ذخیره تر هغه وخته پورې بدله پاتې کیږي چې یو پراختیا کونکی په لاسي ډول کوډ ته وده ورکړي.
د آربر ګمارل د اضافي لګښتونو سره راځي. ترټولو لوی لګښت د نښې کارول دي ځکه چې اوږدمهاله همغږي کونکی باید په دوامداره توګه د فرضیې ونې اداره کړي او اجرا کونکو ته کار وټاکي.
په ورته وخت کې د څو جلا ورک ونې چلول هم د ریښتیني تجربو لپاره کمپیوټري او ذخیره کولو سرچینو ته اړتیا لري.
د جین په وینا، آربر غوره کار کوي کله چې یو کار روښانه او د باور وړ میټریک ولري، د اوږدې مودې اصلاح کولو موده برداشت کولی شي او د سپړلو لپاره ډیری مناسب لارښوونې وړاندې کوي.
په مناسبو کارونو کې د پایپ لاین اصلاح کول، د ډیټا ترکیب کیفیت ښه کول او د ماډل روزنې ترکیبونو اصالح کول شامل دي.
ټیمونه باید د دندو لپاره د آربر کارولو څخه ډډه وکړي چې د ریښتیني وخت ځنډ ته اړتیا لري ، د یو لاین روښانه فکسونه یا حالتونه چیرې چې د ارزونې میټریک د اعتبار وړ ندي.
د پایلې کیفیت د ارزونکي کیفیت لخوا محدود پاتې کیږي.
که میټریک د اعتبار وړ نه وي، آربر به په ساده ډول د غیر باوري پایلې په لور ډیر ژر اصلاح کړي.
جین وویل چې راتلونکی نسخه کولی شي د یوې نمرې تکیه کولو پرځای ډیری اهداف و ارزوي.
د فرضیې په ونې کې هر اثار کولی شي د اندازه کولو سیټ ولري چې فکتورونه لکه دقت ، ځنډ او لګښت پوښي.
دا به آربر ته اجازه ورکړي چې د واحد نمرې اصلاح کولو څخه د څو اهدافو پارټو لټون په لور حرکت وکړي.
وروستي تخنیکي خبرونه، د مخابراتو بصیرت، او د محصول لانچ هرچیرې چې تاسو غوره کوئ ترلاسه کړئ.
په غوره سرچینو کې پروپاکستاني اضافه کړئ او زموږ نور کیسې په ګوګل لټون او غوره کیسو کې وګورئ.
ونډې