UK AI سیکیورٹی انسٹی ٹیوٹ کے ایک جائزے سے پتہ چلا ہے کہ OpenAI کا GPT-5.5 سائبر سیکیورٹی کی کارکردگی کی اسی سطح تک پہنچ گیا ہے، اور بعض اوقات یہ Anthropic کے Mythos Preview ماڈل سے بھی آگے تھا۔ Anthropic نے پہلے Mythos Preview تک محدود رسائی حاصل کی تھی، سائبر سیکیورٹی کے بلند خطرات کا حوالہ دیتے ہوئے اور ریلیز کو صنعت کے اہم شراکت داروں تک محدود رکھا تھا۔

Anthropic نے پہلے Mythos Preview تک محدود رسائی حاصل کی تھی، سائبر سیکیورٹی کے بلند خطرات کا حوالہ دیتے ہوئے اور ریلیز کو صنعت کے اہم شراکت داروں تک محدود رکھا تھا۔

2023 سے، UK AI سیکیورٹی انسٹی ٹیوٹ نے 95 کیپچر دی فلیگ چیلنجز کے ذریعے معروف AI ماڈلز کا تجربہ کیا ہے جس میں ریورس انجینئرنگ، ویب ایکسپلائٹیشن، کرپٹوگرافی، اور سائبر سیکیورٹی سے متعلقہ کام شامل ہیں۔

اعلیٰ سطحی ماہرین کے کاموں پر، GPT-5.5 نے 71.4% کی اوسط پاس کی شرح حاصل کی۔ Mythos Preview نے 68.6% ریکارڈ کیا، جس کا نتیجہ انسٹی ٹیوٹ کے مطابق غلطی کے مارجن میں تھا۔

ایک مشکل چیلنج میں جس میں رسٹ بائنری کو ڈی کوڈ کرنے کے لیے ایک جدا کرنے والے کی تخلیق شامل ہے، انسٹی ٹیوٹ نے کہا کہ GPT-5.5 نے انسانی مدد کے بغیر 10 منٹ اور 22 سیکنڈ میں اس کام کو حل کیا۔

اس رن کے لیے رپورٹ کردہ API لاگت $1.73 تھی۔

GPT-5.5 انسٹی ٹیوٹ کی The Last Ones ٹیسٹ رینج میں Mythos Preview سے بھی مماثل ہے، جو ایک کارپوریٹ نیٹ ورک پر 32-اسٹیپ ڈیٹا اکٹھا کرنے کے حملے کی نقل کرتا ہے۔

GPT-5.5 10 میں سے تین کوششوں میں کامیاب ہوا، جبکہ Mythos Preview 10 میں سے دو میں کامیاب ہوا۔

انسٹی ٹیوٹ نے کہا کہ پہلے کے کسی ماڈل نے ایک بار بھی ٹیسٹ مکمل نہیں کیا تھا۔

GPT-5.5 نے کولنگ ٹاور سمولیشن کو مکمل نہیں کیا، یہ ایک ٹیسٹ ہے جس میں پاور پلانٹ کنٹرول سافٹ ویئر میں خلل کی کوشش شامل ہے۔

انسٹی ٹیوٹ نے کہا کہ ہر پہلے تجربہ کیا گیا اے آئی ماڈل بھی اس منظر نامے میں ناکام رہا ہے۔

UK AI سیکیورٹی انسٹی ٹیوٹ نے کہا کہ نتائج بتاتے ہیں کہ Mythos Preview ماڈل کے لیے مخصوص پیش رفت کی نمائندگی نہیں کر سکتا۔

اس کے بجائے، اس نے کہا کہ کارکردگی ممکنہ طور پر طویل افق کی خودمختاری، استدلال اور کوڈنگ میں جدید AI سسٹمز میں وسیع تر بہتری کی عکاسی کرتی ہے۔

? تازہ ترین ٹیک اور ٹیلی کام کی خبروں، ویڈیوز اور تجزیوں کے لیے ابھی ProPakistani کے WhatsApp گروپ میں شامل ہوں!

گوگل نیوز پر پرو پاکستانی کو فالو کریں اور اپنے پسندیدہ مواد کو تیزی سے اسکرول کریں!

شیئرز

سائبرسیکیوریٹی ٹیسٹ میں GPT 5.5 مبینہ طور پر Anthropic's Hyped Up Mythos سے آگے

متعلقہ خبریں

کیا امریکی حکومت کی انتھروپک پابندی غلطی سے برانڈ کی مدد کر رہی ہے؟

کلاڈ 2024 کے بعد پہلی بار AI بینچ مارک میں سرفہرست ہے - GPT 5.5 Pro کو پیچھے چھوڑتا ہے

ایمیزون کے سی ای او نے مبینہ طور پر حکومتی کریک ڈاؤن سے پہلے اینتھروپک ماڈل کے خدشات کا اظہار کیا۔

اینتھروپک نے امریکی حکومت کے سیکیورٹی خدشات پر نئے AI ٹولز کو معطل کردیا۔

سائبرسیکیوریٹی کے محققین انتھروپکس فیبل پر موجود گارڈریلز سے خوش نہیں ہیں۔

کل غیر متوقع کلاڈ میتھوس کے ساتھ اے آئی مارکیٹ کو ہلا دینے والا انتھروپک