چونکہ شپنگ ایجنٹ کی صلاحیتیں فاؤنڈیشن ماڈل کمپنیوں کے درمیان داؤ پر لگ جاتی ہیں، انتھروپک Claude Sonnet 5 جاری کر رہا ہے، جو لیب کے درمیانے سائز کے ماڈل کا ایک زیادہ طاقتور اور ایجنٹی ورژن ہے۔ "یہ منصوبہ بنا سکتا ہے، براؤزر اور ٹرمینلز جیسے ٹولز کا استعمال کر سکتا ہے، اور خود مختاری سے اس سطح پر چل سکتا ہے جس کو، صرف چند ماہ قبل، بڑے اور مہنگے ماڈلز کی ضرورت تھی،" اینتھروپک نے ایک بلاگ پوسٹ میں کہا۔

"یہ منصوبہ بنا سکتا ہے، براؤزر اور ٹرمینلز جیسے ٹولز کا استعمال کر سکتا ہے، اور خود مختاری سے اس سطح پر چل سکتا ہے جس کو، صرف چند ماہ قبل، بڑے اور مہنگے ماڈلز کی ضرورت تھی،" اینتھروپک نے ایک بلاگ پوسٹ میں کہا۔

یہ فریمنگ اس بات کا آئینہ دار ہے کہ اوپن اے آئی اور گوگل نے اپنی حالیہ ریلیز کے بارے میں کیا کہا ہے۔ OpenAI کا GPT-5.6 Sol گزشتہ ہفتے پیش نظارہ میں لانچ کیا گیا تھا، اور یہ اب تک فرم کا سب سے زیادہ ایجنٹ ماڈل بھی ہے، جو صارفین کو طویل خود مختار کاموں کے لیے ذیلی ایجنٹوں میں کام تقسیم کرنے کی اجازت دیتا ہے۔ گوگل کا جیمنی 3.5 فلیش، جو مئی میں لانچ کیا گیا تھا، کو بات چیت کے چیٹ بوٹ سے ایک ایجنٹی ٹول پر منتقل کیا گیا تھا جو کم سے کم انسانی ان پٹ کے ساتھ حقیقی کام کی منصوبہ بندی، تعمیر اور اعادہ کرتا ہے۔

سونیٹ 5 کی پچ اس بات کی تصدیق کرتی ہے کہ ایجنٹ کی صلاحیت ہر قیمت کے درجے پر نئی بنیادی توقع ہے۔ اب تفریق کرنے والا یہ نہیں ہو گا کہ کون ایجنٹی کام بہترین طریقے سے کر سکتا ہے، لیکن وہ یہ کام کتنے سستے اور کس قدر قابل اعتماد طریقے سے بغیر انسانی نگرانی کے کر سکتا ہے۔

سونیٹ 5 Opus 4.8 کے قریب کارکردگی کا وعدہ کرتا ہے، لیکن بہت کم لاگت کے لیے۔ مَنگَل سے، Claude Sonnet 5 مفت اور پرو پلانز کے لیے ڈیفالٹ ماڈل ہو گا اور ہر سبسکرپشن کے لیے دستیاب ہے۔

لانچ کے وقت، سونیٹ 5 کی قیمت 31 اگست تک $2 فی ملین ان پٹ ٹوکن اور $10 فی ملین آؤٹ پٹ ٹوکن ہے، جس کے بعد قیمت $3 فی ملین ان پٹ ٹوکنز اور $10 فی ملین آؤٹ پٹ ٹوکنز تک پہنچ جائے گی۔ یہ Sonnet 5 کو Opus 4.8 کے ساتھ ساتھ OpenAI کے GPT-5.5 اور Google کے Gemini 3.1 Pro سے سستا بناتا ہے۔ (یہ اب بھی جیمنی 3.5 فلیش سے زیادہ مہنگا ہے۔)

اینتھروپک کے مطابق، نیا ماڈل اپنے پیشرو سونیٹ 4.6 کے مقابلے میں نمایاں بہتری کا بھی مظاہرہ کرتا ہے، جو فروری میں جاری کیا گیا، ایجنٹی کارکردگی جیسے استدلال، ٹول کے استعمال، سافٹ ویئر کوڈنگ، اور علمی کام پر۔

مثال کے طور پر، ایک بینچ مارک پر، سونیٹ 5 نے ایجنٹی کوڈنگ پر 63.2% اسکور کیا، Opus 4.8 کے 69.2% اور Sonnet 4.6 کے 58.1% کے مقابلے۔ علمی کام کے معیار پر، Sonnet 5 دراصل Opus 4.8 سے قدرے بہتر کارکردگی کا مظاہرہ کرتا ہے، جو کہ سب سے مشکل مسائل کو حل کرنے میں جیتنے کے لیے جانا جاتا ہے جیسے کہ باریک فیصلے کرنے اور گہری تحقیق کرنا۔

"Opus 4.8 اب بھی ان کاموں پر زیادہ درستگی کے لیے انتخاب کا ماڈل ہے، لیکن Sonnet 5 ڈویلپرز کو کم قیمت والے اختیارات فراہم کرتا ہے جو پہلے دستیاب چیزوں سے کہیں زیادہ اعلیٰ معیار کے ہوتے ہیں،" Anthropic کا کہنا ہے۔ "Sonnet 5 اور Opus 4.8 کے درمیان، صارف لاگت اور کارکردگی کا صحیح توازن تلاش کرنے کے لیے کوشش کی سطح کو ایڈجسٹ کر سکتے ہیں۔"

بلاگ پوسٹ میں حوالہ دیئے گئے ٹیسٹرز کے مطابق، سونیٹ 5 پیچیدہ کاموں کو مکمل کرنے میں بھی سبقت لے جاتا ہے جہاں پچھلے ماڈل ورژن مختصر ہو جاتے اور "واضح طور پر پوچھے بغیر اپنی پیداوار کو چیک کرتا ہے۔"

Zapier کے ایک سینئر انجینئر ڈینیل شیپارڈ نے ایک بیان میں کہا، "ہم نے Claude Sonnet 5 کو دو حصوں کا کام سونپ دیا - Salesforce اکاؤنٹ کے درجات کو اپ ڈیٹ کریں، انٹرپرائز رابطوں کو لانچ کا اعلان بھیجیں - اور یہ آخر تک ختم ہو گیا،" Zapier کے ایک سینئر انجینئر ڈینیل شیپارڈ نے ایک بیان میں کہا۔ "وہ آدھے راستے پر رک جاتا تھا۔ روزانہ آٹومیشن کے لئے، یہ کوئی دماغی کام نہیں ہے۔"

حفاظت پر، سونیٹ 5 "ناپسندیدہ رویوں" کی کم شرح کو بھی ظاہر کرتا ہے جیسے کہ غلط استعمال اور دھوکہ دہی کے ساتھ تعاون اپنے پیشرو کے مقابلے میں، جس سے ایجنٹی سیاق و سباق میں استعمال کرنا زیادہ محفوظ ہوتا ہے۔ بدنیتی پر مبنی درخواستوں سے انکار کرنا اور فوری انجیکشن حملوں میں ہائی جیک کی کوششوں کو نظرانداز کرنا بہتر ہے۔ یہ Sonet 4.6 سے کم شرح پر فریب کاری کرتا ہے اور sycophantic رویے میں مشغول ہوتا ہے۔

اس نے کہا، یہ Opus 4.8 اور Claude Mythos Preview جیسی سطح پر نہیں ہے جب بات غلط طریقے سے رویے کی ہو۔ "تجزیے یہ بھی ظاہر کرتے ہیں کہ اس میں ہمارے موجودہ Opus ماڈلز کے مقابلے خطرناک سائبرسیکیوریٹی کام انجام دینے کی صلاحیت بہت کم ہے،" بلاگ پوسٹ پڑھتا ہے۔

پیار کرنے والے شریک بانی فیبین ہیڈن نے ایک بیان میں کہا کہ کلاڈ سونیٹ 5 "غیر محفوظ درخواستوں کو صاف اور مستقل طور پر مسترد کرتا ہے۔"

ہیڈن نے کہا، "لو ایبل میں، ہم لاکھوں بلڈرز کے ہاتھ میں طاقتور ٹولز دے رہے ہیں۔" "ایک ماڈل جو جانتا ہے کہ کب نہیں کہنا ہے اتنا ہی اہم ہے جتنا کہ وہ بنانا جانتا ہے۔"