AI کے محققین اور لیبز نے حفاظت اور تعمیل سے لے کر سائیکوفنسی اور صف بندی تک ہر چیز کے لیے AI ماڈلز کا جائزہ لینے میں بہت تیزی سے ترقی کی ہے۔ لیکن ایسا لگتا ہے کہ کمپنیوں اور ڈویلپرز کو ایک نئی، مخصوص ضرورت کا سامنا ہے: اس بات کو یقینی بنانا کہ ان کا AI سسٹم ان کے مخصوص پروڈکٹ یا سروس کے مقصد کے مطابق برتاؤ کرے۔
اس جانچ کے عمل کو آسان بنانے کی کوشش میں، مائیکروسافٹ نے مَنگَل کو ASSERT کو ختم کر دیا، جو تشخیص اور ریگریشن ٹیسٹنگ کے لیے Adaptive Spec-driven اسکورنگ کے لیے مختصر ہے۔
مائیکروسافٹ کا کہنا ہے کہ اوپن سورس فریم ورک AI کا استعمال کرتے ہوئے اہداف، پالیسیوں، یا مطلوبہ طرز عمل کی اعلیٰ سطحی، فطری زبان کی وضاحتوں کو مکمل، اسکور شدہ ٹیسٹوں میں تبدیل کرنے کے لیے ایپلیکیشن کے لیے مخصوص AI رویے کا جائزہ لینا آسان بناتا ہے جن کی تفتیش کی جا سکتی ہے۔
ASSERT کسی AI ماڈل کے متوقع رویے اور پالیسیوں کی سادہ زبان میں وضاحت لیتا ہے، انہیں قابل قبول اور ناقابل قبول طرز عمل کے ایک منظم سیٹ میں تبدیل کرتا ہے، مسائل کے منظرنامے اور ٹیسٹ کیسز تیار کرتا ہے، انہیں ہدف کے نظام کے خلاف چلاتا ہے، اور نتائج اسکور کرتا ہے۔ یہ ان راستوں کو بھی ریکارڈ کر سکتا ہے جو AI سسٹم لیتا ہے، بشمول انٹرمیڈیٹ ایکشنز اور ٹول کالز، تاکہ ڈویلپرز معائنہ کر سکیں کہ ناکامیاں کہاں ہوتی ہیں۔
devs سسٹم کا سیاق و سباق، ٹولز اور رکاوٹیں بھی فراہم کر سکتے ہیں، اگر وہ مزید تخصیص کرنا چاہتے ہیں کہ تشخیص کا احاطہ کیا گیا ہے۔
مثال کے طور پر، ایک ڈویلپر اس بات کی وضاحت کر سکتا ہے کہ دستاویز پر تحقیق کرنے والے AI ایجنٹ کو کمپنی سے باہر کے لوگوں کو ای میل نہیں بھیجنا چاہیے، خفیہ معلومات کو C-سطح کے ایگزیکٹوز تک محدود نہیں کرنا چاہیے، اور پیشگی سیاق و سباق کو ذہن میں رکھتے ہوئے مختصر خلاصے فراہم کرنا چاہیے۔ ASSERT ان اصولوں کو ٹیسٹ کیسز بنانے کے لیے استعمال کرے گا جو یہ جانچتے ہیں کہ آیا سسٹم ان اصولوں پر مسلسل عمل کرتا ہے۔
مائیکروسافٹ کے مطابق، فریم ورک ایک خلا کو پُر کرتا ہے جو وسیع تر، زیادہ عمومی تشخیص اس وقت نہیں ہو سکتا جب AI ماڈلز کا اس انداز میں برتاؤ کرنا ہوتا ہے جس کی تشکیل کسی ایپلیکیشن یا پروڈکٹ کے سیاق و سباق، پالیسیوں اور ٹولز سے ہوتی ہے۔
مائیکروسافٹ میں ذمہ دار AI کی چیف پروڈکٹ آفیسر سارہ برڈ نے کہا، "ہم نے جو چیزیں سیکھی ہیں ان میں سے ایک یہ ہے کہ اچھے فیصلے کرنے کے لیے جائزے بالکل اہم ہیں۔" "کیونکہ اگر آپ AI سسٹم کے رویے کو نہیں سمجھتے ہیں، تو یہ جاننا واقعی مشکل ہے کہ آیا یہ آپ کی تنظیم کے بار کو پورا کر رہا ہے […] ہم نے جو پایا وہ یہ ہے کہ اگر آپ واقعی ایک قابل اعتماد نظام چاہتے ہیں، تو آپ کو بہت سے مزید جہتوں کا جائزہ لینا چاہیے جو اطلاق کے لیے مخصوص ہیں۔"
برڈ نے کہا کہ ASSERT کا استعمال سسٹمز کا جائزہ لینے کے لیے کیا جا سکتا ہے جب وہ بنائے جا رہے ہوں، تعیناتی کے بعد، اور یہاں تک کہ مسلسل نگرانی کے لیے۔
یہ ریلیز AI انڈسٹری میں بتدریج لیکن وسیع تر تبدیلی کے درمیان آئی ہے۔ جیسے جیسے ماڈلز زیادہ قابل ہوتے ہیں، محققین اسٹینفورڈ کے HELM، MLCommons کے AILuminate، اور METR جیسے ایویلیویشن گروپس کے ساتھ دہرائی جانے والی جانچ اور ریگریشن چیکس پر توجہ مرکوز کر رہے ہیں تاکہ یہ اندازہ لگایا جا سکے کہ ماڈلز مختلف حالات میں کیسے برتاؤ کرتے ہیں۔