د AI څیړونکو او لابراتوارونو د AI ماډلونو ارزولو کې د خوندیتوب او موافقت څخه نیولې تر سیکوفینسي او سمون پورې د هر څه لپاره پرمختګ کړی. مګر داسې بریښي چې شرکتونه او پراختیا کونکي د نوي ، ځانګړي اړتیا سره مخ دي: ډاډ ترلاسه کول چې د دوی AI سیسټم د دوی ځانګړي محصول یا خدمت لپاره ټاکل شوي چلند کوي.

د دې ازموینې پروسې ساده کولو لپاره په داوطلبۍ کې ، مایکروسافټ د سه شنبې په ورځ ASSERT بند کړ ، د ارزونې او راجسټریشن ازموینې لپاره د تطبیقي مشخصاتو لخوا پرمخ وړل شوي نمرې لپاره لنډ.

مایکروسافټ وايي د خلاصې سرچینې چوکاټ ، د AI په کارولو سره د غوښتنلیک ځانګړي AI چلند ارزونه اسانه کوي ترڅو د اهدافو ، پالیسیو ، یا مطلوب چلندونو لوړې کچې طبیعي ژبې توضیحات په بشپړ ، نمرو ازموینو بدل کړي چې تحقیق کیدی شي.

ASSERT د AI ماډل د متوقع چلند او پالیسیو په ساده ژبه توضیحات اخلي، دوی د منلو وړ او نه منلو وړ چلندونو په جوړښت کې بدلوي، د ستونزې سناریوګانې او د ازموینې قضیې رامینځته کوي، د هدف سیسټم په وړاندې یې چلوي، او پایلې یې نمرې کوي. دا کولی شي هغه لارې هم ثبت کړي چې د AI سیسټم یې اخلي، په شمول د منځنیو کړنو او وسیلو زنګونه، نو پراختیا کونکي کولی شي معاینه کړي چیرې چې ناکامي پیښیږي.

devs کولی شي د سیسټم شرایط، وسیلې، او خنډونه هم چمتو کړي، که دوی غواړي نور هم تنظیم کړي چې ارزونه پوښي.

د مثال په توګه، یو پرمخ وړونکی کولی شي مشخص کړي چې د اسنادو څیړنې AI اجنټ باید د شرکت څخه بهر خلکو ته بریښنالیکونه ونه استوي، محرم معلومات د C کچې اجرایوي ته محدود کړي، او د مخکیني شرایطو سره په ذهن کې لنډ لنډیز چمتو کړي. ASSERT به دا مقررات د ازموینې قضیې رامینځته کولو لپاره وکاروي چې وګوري ایا سیسټم دا مقررات په دوامداره توګه تعقیبوي.

چوکاټ، د مایکروسافټ په وینا، هغه تشه ډکوي چې پراخه، نور عمومي ارزونه نشي کولی کله چې د AI ماډلونه په داسې طریقه چلند وکړي چې د غوښتنلیک یا محصول شرایطو، پالیسیو او وسیلو لخوا شکل شوی وي.

"یو له هغه شیانو څخه چې موږ یې زده کړل دا دي چې ارزونه د ښه پریکړو کولو لپاره خورا مهم دي ،" سارا برډ وویل ، په مایکروسافټ کې د مسؤل AI محصول رییس. "ځکه چې که تاسو د AI سیسټم په چلند نه پوهیږئ، دا واقعیا سخته ده چې پوه شئ چې ایا دا ستاسو د سازمان بار سره مل دی […] هغه څه چې موږ وموندل هغه دا دي چې که تاسو واقعیا غواړئ یو باوري سیسټم ولرئ، تاسو باید ډیری نور ابعاد و ارزوئ چې د غوښتنلیک ځانګړي دي.

برډ وویل ASSERT د سیسټمونو ارزولو لپاره کارول کیدی شي کله چې دوی رامینځته کیږي ، له پلي کیدو وروسته ، او حتی د دوامداره څارنې لپاره.

خوشې کول د AI صنعت کې د تدریجي مګر پراخه بدلون په مینځ کې راځي. لکه څنګه چې موډلونه ډیر وړتیا وده کوي، څیړونکي د تکرار وړ ازموینې او راجع کولو چکونو باندې تمرکز کوي، د سټینفورډ HELM، MLcommons' AIluminate، او د ارزونې ګروپونو لکه METR د بنچمارکونو رامینځته کولو سره دا اندازه کوي چې ماډلونه په مختلفو شرایطو کې څنګه چلند کوي.