AI محقق ۽ ليبارٽريون AI ماڊلز جي حفاظت ۽ تعميل کان وٺي sycophancy ۽ alignment تائين هر شيءِ لاءِ AI ماڊلز جو جائزو وٺڻ ۾ ليپ ۽ بائونڊز سان ترقي ڪري رهيون آهن. پر اهو ظاهر ٿئي ٿو ته ڪمپنيون ۽ ڊولپرز هڪ نئين، مخصوص ضرورت سان منهن ڏئي رهيا آهن: انهي ڳالهه کي يقيني بڻائڻ ته انهن جو AI سسٽم انهن جي مخصوص پيداوار يا خدمت لاء ارادو ڪيو آهي.

انهي جاچ واري عمل کي آسان بڻائڻ جي ڪوشش ۾، Microsoft اڱارو ڏينهن ASSERT کي ختم ڪري ڇڏيو، تشخيص ۽ ريگريشن ٽيسٽنگ لاءِ Adaptive Spec-driven Scoring لاءِ مختصر.

اوپن سورس فريم ورڪ، مائڪروسافٽ جو چوڻ آهي ته، AI استعمال ڪندي ايپليڪيشن-مخصوص AI رويي جو جائزو وٺڻ آسان بڻائي ٿو مقصد، پاليسين، يا ارادو ڪيل رويي جي اعليٰ سطحي، قدرتي ٻولي جي وضاحتن کي مڪمل، سکور ٿيل ٽيسٽن ۾ تبديل ڪرڻ لاءِ جيڪي تحقيق ڪري سگهجن ٿيون.

ASSERT هڪ AI ماڊل جي متوقع رويي ۽ پاليسين جي سادي ٻولي بيان ڪري ٿو، انهن کي قابل قبول ۽ ناقابل قبول رويي جي هڪ منظم سيٽ ۾ تبديل ڪري ٿو، مسئلا منظرنامو ۽ ٽيسٽ ڪيس ٺاهي ٿو، انهن کي ٽارگيٽ سسٽم جي خلاف هلائي ٿو، ۽ نتيجن کي اسڪور ڪري ٿو. اهو پڻ رڪارڊ ڪري سگهي ٿو اهي رستا جيڪي AI سسٽم وٺندو آهي، بشمول وچولي ڪارناما ۽ ٽول ڪالون، تنهن ڪري ڊولپر معائنو ڪري سگهن ٿا جتي ناڪامي ٿيندي.

Devs مهيا ڪري سگھن ٿا سسٽم جي حوالي سان، اوزار، ۽ رڪاوٽون، پڻ، جيڪڏهن اهي وڌيڪ ترتيب ڏيڻ چاهيندا ته تشخيص جو احاطو ڪيو وڃي.

مثال طور، هڪ ڊولپر وضاحت ڪري سگهي ٿو ته هڪ دستاويز جي تحقيق ڪندڙ AI ايجنٽ کي ڪمپني کان ٻاهر ماڻهن کي اي ميلون نه موڪلڻ گهرجي، سي-سطح جي عملدارن کي رازداري معلومات کي محدود ڪرڻ، ۽ ذهن ۾ اڳئين حوالي سان مختصر خلاصو مهيا ڪرڻ گهرجي. ASSERT انهن قاعدن کي استعمال ڪندو ٽيسٽ ڪيس پيدا ڪرڻ لاءِ جيڪي چيڪ ڪن ٿا ته ڇا سسٽم انهن قاعدن تي هلندڙ بنيادن تي عمل ڪري ٿو.

فريم ورڪ، Microsoft جي مطابق، هڪ خال ڀريندو آهي جيڪو وسيع، وڌيڪ عام اڀياس نه ٿو ڪري سگهي جڏهن AI ماڊلز اهڙي طريقي سان عمل ڪرڻ جو ارادو ڪيو ويو آهي جيڪو ايپليڪيشن يا پراڊڪٽ جي حوالي سان، پاليسين ۽ اوزار جي شڪل ۾ آهي.

”هڪ شيون جيڪي اسان سکيون آهن اهو آهي ته جائزا تمام اهم آهن سٺا فيصلا ڪرڻ لاءِ،“ ساره برڊ چيو، چيف پراڊڪٽ آفيسر ريسپانسبل AI Microsoft ۾. "ڇاڪاڻ ته جيڪڏهن توهان AI سسٽم جي رويي کي نه ٿا سمجهو، اهو ڄاڻڻ ڏاڍو ڏکيو آهي ته اهو توهان جي تنظيم جي بار سان ملاقات ڪري رهيو آهي [...] جيڪو اسان مليو اهو آهي ته جيڪڏهن توهان واقعي هڪ قابل اعتماد سسٽم حاصل ڪرڻ چاهيو ٿا، توهان کي ڪيترن ئي وڌيڪ طول و عرض جو جائزو وٺڻ گهرجي جيڪي ايپليڪيشن مخصوص آهن.

برڊ چيو ASSERT سسٽم جو جائزو وٺڻ لاءِ استعمال ٿي سگهي ٿو جڏهن اهي تعمير ڪيا پيا وڃن، ٺهڻ کان پوءِ، ۽ اڃا تائين مسلسل نگراني لاءِ.

رليز اچي ٿي AI صنعت ۾ تدريجي پر وسيع شفٽ جي وچ ۾. جيئن ته ماڊلز وڌيڪ قابل ٿي وڃن ٿا، محقق ريٽبل ٽيسٽ ۽ ريگريشن چيڪن تي ڌيان ڏئي رهيا آهن، اسٽينفورڊ جي HELM، MLCommons جي AILuminate، ۽ تشخيصي گروپن جهڙوڪ METR رولنگ آئوٽ بينچ مارڪس کي ماپڻ لاءِ ته ماڊل مختلف حالتن ۾ ڪيئن هلندا آهن.