OpenAI نے جمعرات کو کہا کہ اس کے API میں اب متعدد نئی صوتی انٹیلی جنس خصوصیات شامل ہوں گی جو ڈویلپرز کو ایسی ایپس بنانے میں مدد کرنے کے لیے ڈیزائن کی جائیں گی جو صارفین کے ساتھ بات چیت، نقل اور ترجمہ کر سکیں۔
کمپنی کا نیا GPT‑Realtime‑2 ایک اور صوتی ماڈل ہے، جو ایک حقیقت پسندانہ آواز کا تخروپن بنانے کے لیے بنایا گیا ہے جو صارفین کے ساتھ بات چیت کر سکتا ہے۔ تاہم، اپنے پیشرو (GPT-Realtime-1.5) کے برعکس یہ GPT-5-کلاس استدلال کے ساتھ بنایا گیا ہے جسے OpenAI کا کہنا ہے کہ صارفین کی جانب سے مزید پیچیدہ درخواستوں سے نمٹنے کے لیے بنایا گیا تھا۔
کمپنی GPT‑Realtime‑Translate کو بھی شروع کر رہی ہے جو، جیسا کہ لگتا ہے، حقیقی وقت میں ترجمہ کی خدمات فراہم کرنے کے لیے ڈیزائن کیا گیا ہے جو صارف کے ساتھ بات چیت کے ساتھ "رفتار" رکھتی ہے۔ اس خصوصیت میں 70 سے زیادہ ان پٹ زبانیں (یعنی وہ زبانیں جن کو وہ سمجھ سکتا ہے) اور 13 آؤٹ پٹ لینگوئجز (وہ زبانیں جو یہ بولنے والے کو دیتا ہے) شامل ہیں۔
آخر کار، کمپنی نے ایک نئی ٹرانسکرپشن کی صلاحیت، GPT-Realtime-Whisper بھی شروع کی ہے، جو صارفین کو لائیو اسپیچ ٹو ٹیکسٹ صلاحیتیں فراہم کرتی ہے جو بات چیت کے ہوتے ہی پکڑی جاتی ہے۔
کمپنی نے کہا کہ "ایک ساتھ مل کر، ہم جن ماڈلز کو لانچ کر رہے ہیں وہ سادہ کال اور رسپانس سے حقیقی وقت میں آڈیو کو صوتی انٹرفیس کی طرف لے جاتے ہیں جو حقیقت میں کام کر سکتے ہیں: سنیں، دلیل دیں، ترجمہ کریں، نقل کریں، اور بات چیت کے سامنے آنے پر کارروائی کریں،" کمپنی نے کہا۔
یہ اپ ڈیٹس کس کے لیے اچھی ہوں گی؟ وہ کمپنیاں جو کسٹمر سروس کی صلاحیتوں کو بڑھانا چاہتی ہیں ایک واضح ہدف ہیں۔ تاہم، OpenAI یہ بھی نوٹ کرتا ہے کہ اس کی نئی خصوصیات تعلیم، میڈیا، ایونٹس، اور تخلیق کار پلیٹ فارم سمیت دیگر شعبوں کی ایک وسیع صف میں مدد کریں گی۔
انٹرپرائز کے نقطہ نظر سے یہ ٹولز جتنے کارآمد معلوم ہوتے ہیں، یہ بھی قابل فہم لگتا ہے کہ ان کا غلط استعمال کیا جا سکتا ہے۔ کمپنی نے کہا کہ اس نے اسپام، دھوکہ دہی، یا آن لائن بدسلوکی کی دوسری شکلوں کو بنانے کے لیے اپنی نئی خصوصیات کے غلط استعمال کو روکنے کے لیے گارڈریلز بنائے ہیں۔ OpenAI نے کہا کہ کچھ محرکات کو سسٹم میں سرایت کر دیا گیا ہے تاکہ "بات چیت کو روکا جا سکے اگر وہ ہمارے نقصان دہ مواد کے رہنما خطوط کی خلاف ورزی کرتے ہوئے پائے جاتے ہیں،" OpenAI نے کہا۔
تمام نئے صوتی ماڈل OpenAI کے Realtime API میں شامل ہیں۔ ترجمہ اور سرگوشی کا بل منٹ کے حساب سے لیا جاتا ہے، جبکہ GPT-Realtime-2 کا بل ٹوکن کی کھپت سے ہوتا ہے۔