انسانی ساختہ اور AI سے تیار کردہ امیجری کے درمیان فرق کرنا کافی آسان ہوتا تھا — صرف دو سال پہلے، آپ میکسیکن ریسٹورنٹ کے لیے مینو بنانے کے لیے تصویری ماڈلز کا استعمال نہیں کر سکتے تھے، بغیر نئی پکوان کی لذتوں جیسے "اینچوئٹا،" "چویروس،" "برٹو،" اور "مارگارٹاس"۔ اب، جب میں میکسیکن کھانے کے مینو کے لیے بالکل نئے ChatGPT امیجز 2.0 ماڈل سے پوچھتا ہوں، تو یہ ایسی چیز بناتا ہے جسے فوری طور پر کسی ریسٹورنٹ میں استعمال کیا جا سکتا ہے بغیر صارفین کے یہ محسوس کیے کہ کچھ بند ہے۔ (تاہم، $13.50 کی قیمت والی سیویچ مجھے مچھلی کے معیار پر سوال اٹھا سکتی ہے)۔

اب، جب میں میکسیکن کھانے کے مینو کے لیے بالکل نئے ChatGPT امیجز 2.0 ماڈل سے پوچھتا ہوں، تو یہ ایسی چیز بناتا ہے جسے فوری طور پر کسی ریسٹورنٹ میں استعمال کیا جا سکتا ہے بغیر صارفین کے یہ محسوس کیے کہ کچھ بند ہے۔ (تاہم، $13.50 کی قیمت والی سیویچ مجھے مچھلی کے معیار پر سوال اٹھا سکتی ہے)۔

مقابلے کے لیے، یہ نتیجہ ہے جو مجھے دو سال پہلے DALL-E سے ملا تھا۔ (اس وقت، ChatGPT نے تصاویر نہیں بنائی تھیں):

AI امیج جنریٹرز نے تاریخی طور پر ہجے کرنے کے لیے جدوجہد کی ہے کیونکہ وہ عام طور پر ڈفیوژن ماڈلز کا استعمال کرتے ہیں، جو شور سے تصویروں کو دوبارہ تشکیل دے کر کام کرتے ہیں۔

لیسان اے آئی کے بانی اور سی ای او، اسمیلاش ٹیکا ہڈگو نے 2024 میں ٹیک کرنچ کو بتایا، "ڈفیوژن ماڈلز […] ایک دیے گئے ان پٹ کو دوبارہ تشکیل دے رہے ہیں۔" "ہم فرض کر سکتے ہیں کہ کسی تصویر پر تحریریں ایک بہت ہی چھوٹا حصہ ہیں، اس لیے امیج جنریٹر ان پیٹرنز کو سیکھتا ہے جو ان میں سے زیادہ پکسلز کا احاطہ کرتے ہیں۔"

اس کے بعد سے محققین نے تصویر بنانے کے لیے دیگر میکانزم کی کھوج کی ہے، جیسے کہ آٹوریگریسو ماڈلز، جو اس بارے میں پیشین گوئیاں کرتے ہیں کہ تصویر کیسی ہونی چاہیے اور اسے LLM کی طرح کام کرنا چاہیے۔

بدقسمتی سے، اوپن اے آئی نے اس ہفتے پریس بریفنگ میں ایک سوال کا جواب دینے سے انکار کر دیا کہ کس قسم کا ماڈل ChatGPT امیجز 2.0 کو طاقت دے رہا ہے۔

تاہم، کمپنی نے وضاحت کی کہ نئے ماڈل میں "سوچنے کی صلاحیتیں" ہیں، جو اسے ویب پر تلاش کرنے، ایک پرامپٹ سے متعدد تصاویر بنانے، اور اس کی تخلیقات کو دوبارہ چیک کرنے کی صلاحیت فراہم کرتی ہیں - یہ امیجز 2.0 کو مختلف سائز میں مارکیٹنگ کے اثاثے بنانے کے ساتھ ساتھ ملٹی پینل والی کامک سٹرپس کی اجازت دیتا ہے۔

OpenAI یہ بھی کہتا ہے کہ امیجز کو جاپانی، کورین، ہندی، اور بنگالی جیسی زبانوں میں غیر لاطینی متن کی رینڈرنگ کی مضبوط سمجھ ہے۔ ماڈل کا علم دسمبر 2025 میں منقطع ہو جاتا ہے، جو اس بات پر اثر انداز ہو سکتا ہے کہ یہ حالیہ خبروں سے متعلق بعض اشارے کس حد تک درست طریقے سے پیدا کر سکتا ہے۔

"تصاویر 2.0 تصویر کی تخلیق میں خاصیت اور وفاداری کی ایک بے مثال سطح لاتا ہے۔ یہ نہ صرف زیادہ نفیس تصاویر کا تصور کر سکتا ہے، بلکہ یہ درحقیقت اس وژن کو مؤثر طریقے سے زندگی میں لاتا ہے، ہدایات پر عمل کرنے، درخواست کردہ تفصیلات کو محفوظ رکھنے، اور باریک باریک عناصر کو پیش کرنے کے قابل ہے جو اکثر تصویری ماڈلز کو توڑ دیتے ہیں: چھوٹے متن، UI عناصر، سٹائل، سٹائل، ذیلی عناصر رکاوٹیں، سبھی 2K ریزولوشن تک،" OpenAI نے ایک پریس ریلیز میں کہا۔

ان صلاحیتوں کا مطلب یہ ہے کہ امیج جنریشن اتنی تیز نہیں ہے جتنی کہ ChatGPT پر سوال ٹائپ کرنا، لیکن ملٹی پینل والی کامک جیسی پیچیدہ چیز بنانے میں ابھی بھی چند منٹ لگتے ہیں۔

تمام چیٹ جی پی ٹی اور کوڈیکس صارفین منگل سے شروع ہونے والی امیجز 2.0 تک رسائی حاصل کر سکیں گے۔ بامعاوضہ صارفین مزید جدید آؤٹ پٹ پیدا کرنے کے قابل ہوں گے۔ کمپنی gpt-image-2 API کو بھی دستیاب کرے گی، قیمتوں کا انحصار آؤٹ پٹ کے معیار اور ریزولوشن پر ہوگا۔