AI سٹارٹ اپ Decart نے بُدھ کے روز Oasis 3 کی نقاب کشائی کی، اس کا جدید ترین انٹرایکٹو ورلڈ ماڈل جو حقیقی وقت میں فوٹو ریئلسٹک ڈرائیونگ ماحول پیدا کر سکتا ہے، TechCrunch نے خصوصی طور پر سیکھا ہے۔ ماڈل فی الحال API کے ذریعے دستیاب ہے۔
سٹارٹ اپ ابتدائی طور پر خود مختار گاڑیوں کی کمپنیوں کو نشانہ بنا رہا ہے جنھیں بڑے پیمانے پر ڈرائیونگ کے نادر منظرناموں کی تقلید کرنے کی ضرورت ہے، اور روبوٹکس اور دیگر جسمانی AI ایپلی کیشنز میں توسیع کرنے کا ارادہ رکھتی ہے۔ لیکن سب سے بڑی شرط ڈویلپرز پر ہے: پہلے دن سے API تک رسائی کی پیشکش کرکے، Decart دنیا کے ماڈلز کے ارد گرد ایک ڈویلپر ماحولیاتی نظام بنانے کی کوشش کر رہا ہے جیسا کہ OpenAI نے زبان کے ماڈلز کے ساتھ کیا تھا۔
ڈیکارٹ کے شریک بانی اور سی ای او ڈین لیٹرزڈورف نے ٹیک کرنچ کو بتایا کہ "یہ دنیا کا پہلا قابل استعمال ماڈل بننے جا رہا ہے جسے لوگ اصل میں سب سے اوپر پروگرام کر سکتے ہیں۔" "میرے خیال میں ایک پوری ڈویلپر کمیونٹی بننے والی ہے جو اس کے اوپر ابھرے گی۔"
سٹارٹ اپ کے پاس پہلے سے ہی 100000 سے زیادہ ڈویلپرز کی کمیونٹی ہے، جن میں سے اکثر اپنے ریئل ٹائم ویڈیو ماڈل لوسی کے اوپر پروڈکٹس بنا رہے ہیں، زیادہ تر ای کامرس اور لائیو سٹریمنگ میں۔ نخلستان 3 اس فاؤنڈیشن ماڈل پر مبنی ہے، اور یہ کمپنی کے جسمانی AI میں دھکیلنے کی نمائندگی کرتا ہے۔ ڈیکارٹ نے کہا کہ رسائی کی قیمت $0.02 فی سیکنڈ ہے، اور انٹرپرائز کی قیمتوں کا انحصار استعمال کے معاملات پر ہے۔
ڈیکارٹ تیزی سے بھرے عالمی ماڈل میدان میں کھیل رہا ہے۔ پچھلے سال، گوگل نے تحقیقی پیش نظارہ میں Genie 3 جاری کیا، Fei-Fei Li's World Labs نے تجارتی استعمال کے کیسز کے لیے ماربل لانچ کیا، اور Luma اور Runway جیسے ویڈیو جنریشن اسٹارٹ اپس بھی اپنے فزکس سے آگاہ ویڈیو ماڈلز کو عالمی ماڈلز میں ترجمہ کر رہے ہیں۔
Oasis 3 کی ریلیز دو سالہ ڈیکارٹ کے 300 ملین ڈالر اکٹھے کرنے کے چند ہفتوں بعد ہوئی ہے، جس کے بعد Leitersdorf کا کہنا ہے کہ ای کامرس، لائیو سٹریمنگ اور فزیکل AI میں "ہمارے بنائے ہوئے ماڈلز کی مانگ میں زبردست اضافہ" ہوا۔ راؤنڈ نے ڈیکارٹ کی قدر کو تقریباً 4 بلین ڈالر تک بڑھا دیا، اور ٹویوٹا، ایڈوب اور ای بے جیسے اسٹریٹجک سرمایہ کاروں کا ایک سلسلہ لایا۔ Leitersdorf کا کہنا ہے کہ یہ تمام کمپنیاں ممکنہ گاہک ہیں۔ Nvidia، ایک موجودہ سرمایہ کار، نے بھی اس راؤنڈ میں حصہ لیا۔
Oasis 3 کا کنارہ اس کے ماڈلز کی تصویری حقیقت پسندی اور لامحدود نسل کی صلاحیت میں مضمر ہے۔ یہ Decart کی طرف سے کچھ کارکردگی کے جادوگر کی وجہ سے ہے، جو کمپنی کے دوسرے اہم پروڈکٹ سے چلتا ہے: DOS (Decart Optimization Stack) سافٹ ویئر جو ماڈلز کو Nvidia، Amazon اور Google ہارڈویئر پر موثر طریقے سے چلانے کی اجازت دیتا ہے، جس سے اس کے ماڈلز کو حریفوں کے مقابلے میں چلانے کے لیے بہت کم خرچ ہوتا ہے۔
"یہ ہمارے پورے ریئل ٹائم اسٹیک کے اوپر بنایا گیا ہے، جسے ہم ہارڈ ویئر تک پوری طرح سے بہتر بناتے ہیں،" لیٹرزڈورف نے کہا۔ "اتنے عمودی طور پر مربوط ہونے کی وجہ سے، ہم ان ماڈلز کو چلانے کے لیے صنعت میں کسی اور کے مقابلے میں ایک آرڈر سے زیادہ سستا ہونے کے قابل ہیں۔"
لیٹرسڈورف کے مطابق اسٹارٹ اپ کے ماڈلز اتنے کارآمد ہیں کہ اس نے اپنی زندگی میں 100 ملین ڈالر سے بھی کم خرچ کیا ہے۔
Oasis 3 تربیت اور جانچ کے نظام کے لیے جسمانی طور پر درست، ملٹی کیمرہ ماحول پیدا کرتا ہے — ایک سامنے والا اور دو طرف والا —۔ اور محدود ڈیمو اور تحقیقی مناظر پیش کرنے کے بجائے، ڈیکارٹ ڈویلپرز کو لامحدود منظرنامے تیار کرنے کی اجازت دیتا ہے۔
دوسرے ماڈلز کے مقابلے میں جنہیں میں نے آزمایا ہے، جیسے کہ Google's Genie 3 یا World Labs's Marble، Oasis 3 میرے دیکھے ہوئے ایک ٹیکسٹ پرامپٹ سے سب سے زیادہ فوٹو ریئلسٹک ماحول فراہم کرتا ہے۔ اور حقیقت یہ ہے کہ آپ ان کے ساتھ گھنٹوں تک بات چیت کر سکتے ہیں کارکردگی کی اس سطح کو بتاتا ہے جس کی ڈیکارٹ کے حریفوں میں کمی ہو سکتی ہے۔
لیکن آپ کو اتنے لمبے عرصے تک ایک دنیا بنانے کی اجازت دینے سے، ماڈل بھی نمایاں طور پر تنزلی کا شکار ہوتا ہے۔
میری جانچ میں، میں نے محسوس کیا کہ سسٹم مستقل طور پر ایک مضبوط ابتدائی منظر ترتیب دے سکتا ہے جو پرامپٹ سے میل کھاتا ہے، لیکن جیسے جیسے میں دنیا میں داخل ہوا، موضوعاتی سالمیت میں تیزی سے کمی واقع ہوئی۔ میں نے اسے صبح کے وقت نیویارک شہر کی گلی بنانے کا اشارہ کیا، اس نے خوبصورتی سے ایسا کیا۔ لیکن جیسے ہی میں گاڑی چلا رہا تھا، ماحول نیویارک کی طرح کم اور کسی بھی شہری، مغربی شہر کے معیاری ورژن جیسا لگتا تھا۔
جب میں نے مڑ کر ابتدائی چوراہے پر واپس جانے کی کوشش کی تو وہ ختم ہو چکا تھا، جس کی جگہ بالکل نئے ماحول نے لے لی تھی۔ اس کے اوپری حصے میں، کنٹرولز بہت زیادہ جوابدہ نہیں ہیں، اور میں اکثر اس پر کنٹرول کھو دیتا ہوں کہ کار کہاں چل رہی تھی (دوبارہ، ایک خرابی جس کا میں نے تجربہ کیا ہے دوسرے عالمی ماڈلز کے ذریعہ اشتراک کیا گیا ہے)۔ یہ تجربہ ایک مربوط نقالی کی طرح کم اور خواب کی طرح، شعور کی منقطع ندی کی طرح محسوس ہوا جو تیزی سے بے ہودہ ہو جاتا ہے۔ ایک اور مسئلہ، جسے میں نے دنیا کے دیگر ماڈلز میں بھی دیکھا ہے، وہ یہ ہے کہ کار صرف دوسری کاروں سے گزرے گی، یعنی ماڈل ماحول میں طبیعیات کی مناسب طریقے سے نقل نہیں کرتا ہے۔ لیٹرسڈورف اسے ایک "بڑا تحقیقی مسئلہ کہتا ہے جسے ہم ابھی کریک کر رہے ہیں"، اس کو اس حقیقت سے منسوب کرتے ہوئے کہ "حادثات کے مقابلے میں اچھی ڈرائیونگ پر کافی زیادہ ڈیٹا موجود ہے۔"
جو چیز اس طبیعیات کی مستقل مزاجی کو مشکل بناتی ہے اس کا ایک حصہ بنیادی ہے کہ یہ عالمی ماڈل کیسے کام کرتا ہے۔ نخلستان 3 خود بخود رجعت پسند ہے، یعنی یہ ایک وقت میں ایک فریم تیار کرتا ہے، اور اس پر نظر ڈالتا ہے کہ اس نے پہلے کیا پیدا کیا تھا یہ فیصلہ کرنے کے لیے کہ آگے کیا ہوتا ہے۔ یہ بہت سے عالمی ماڈلز کی ایک کلیدی تعمیراتی خصوصیت ہے، اور یہ بھی ایک کمپیوٹ انٹینسیو ہے۔
مستقل مزاجی کو برقرار رکھنے کے لیے، Leitersdorf کا کہنا ہے کہ Decart ٹیم ماڈل کی یادداشت کی لمبائی کو بہتر بنانے کے لیے کام کر رہی ہے۔
"ہر فریم جو ہم تیار کرتے ہیں تقریباً 8000 ٹوکن ہوتے ہیں،" انہوں نے کہا۔ "یہ دسیوں فریم فی سیکنڈ کے حساب سے تیار کرنا — جو کہ فی سیکنڈ ہزاروں ٹوکنز ہیں۔ سیاق و سباق کی کھڑکی بہت تیزی سے بھر جاتی ہے۔ ہم اس بات پر تحقیق کر رہے ہیں کہ لاکھوں مزید ٹوکنز کو ذخیرہ کرنے کے لیے طویل سیاق و سباق کو کیسے بنایا جائے، اور میموری کو کم ٹوکنز میں کیسے کمپریس کیا جائے۔"
لیٹرسڈورف کا خیال ہے کہ ماڈل کے اگلے ورژن میں مستقل مزاجی کا مسئلہ جزوی طور پر حل ہو سکتا ہے، جو صارفین کو تصویر کے بجائے ماحول کی ویڈیو کی بنیاد پر دنیا بنانے شروع کر دے گا۔ انہوں نے تسلیم کیا کہ ایک فیلڈ کے طور پر عالمی ماڈل ابھی بھی ابتدائی ہیں۔
پھر بھی، بانی اپنی ٹیک کی موجودہ حدود پر اس سے کم توجہ مرکوز کرتا ہے کہ جب ڈویلپرز اس پر ہاتھ ڈالیں گے تو کیا ہوگا۔
"یہ مجھے LLMs کے ابتدائی دنوں میں واپس لے جاتا ہے، جب OpenAI نے ماڈلز کے لیے API ایجاد کیا تھا،" انہوں نے ایک ڈویلپر کمیونٹی کے ابھرنے کی طرف اشارہ کرتے ہوئے کہا جس نے استعمال کے نئے کیسز کو تلاش کر کے میدان کو آگے بڑھایا۔
"جب ہم تین مہینوں میں دوبارہ بات کریں گے، تو ہم اس طرح ہوں گے، 'یہاں 100 ڈویلپرز ہیں جنہوں نے Oasis کے ساتھ 100 مختلف ایپلی کیشنز بنائی ہیں جنہوں نے ہم سب کو حیران کر دیا،'" انہوں نے کہا۔