انسان جي ٺاهيل ۽ AI جي ٺاهيل تصويرن جي وچ ۾ فرق ڪرڻ لاءِ اهو ڪافي آسان هوندو هو - صرف ٻه سال اڳ، توهان ميڪسيڪو ريسٽورنٽ لاءِ مينيو ٺاهڻ لاءِ تصويري ماڊل استعمال نٿا ڪري سگهو، بغير نئين کاڌن جي لذتن جهڙوڪ ”اينچيٽا“، ”چريروس،“ ”برٽو“ ۽ ”مارگارٽا“. هاڻي، جڏهن آئون ميڪسيڪو کاڌي جي هڪ مينيو لاءِ برانڊ نئين ChatGPT تصويرون 2.0 ماڊل کان پڇان ٿو، اهو ڪجهه ٺاهي ٿو جيڪو فوري طور تي ڪنهن ريسٽورنٽ ۾ استعمال ڪري سگهجي ٿو بغير گراهڪ کان سواءِ ته ڪجهه بند آهي. (جڏهن ته، $ 13.50 جي قيمت ceviche شايد مون کي مڇيء جي معيار تي سوال ڪري سگهي ٿي).

هاڻي، جڏهن آئون ميڪسيڪو کاڌي جي هڪ مينيو لاءِ برانڊ نئين ChatGPT تصويرون 2.0 ماڊل کان پڇان ٿو، اهو ڪجهه ٺاهي ٿو جيڪو فوري طور تي ڪنهن ريسٽورنٽ ۾ استعمال ڪري سگهجي ٿو بغير گراهڪ کان سواءِ ته ڪجهه بند آهي. (جڏهن ته، $ 13.50 جي قيمت ceviche شايد مون کي مڇيء جي معيار تي سوال ڪري سگهي ٿي).

مقابلي لاءِ، ھتي اھو نتيجو آھي جيڪو مون حاصل ڪيو DALL-E 3 کان ٻه سال اڳ. (ان وقت، ChatGPT تصويرون پيدا نه ڪيو):

AI تصويري جنريٽر تاريخي طور تي جادو ڪرڻ لاءِ جدوجهد ڪئي آهي ڇاڪاڻ ته اهي عام طور تي ڊفيوشن ماڊل استعمال ڪندا آهن، جيڪي شور کان تصويرن کي ٻيهر تعمير ڪندي ڪم ڪن ٿا.

”ڊيفيوشن ماڊل […] هڪ ڏنل انپٽ کي ٻيهر ٺاهي رهيا آهن ،“ اسميلش ٽيڪا هڊگو، باني ۽ ليسن AI جي سي اي او، 2024 ۾ TechCrunch کي ٻڌايو. ”اسان فرض ڪري سگهون ٿا هڪ تصوير تي لکڻيون تمام ننڍڙو حصو آهن، تنهنڪري تصويري جنريٽر انهن نمونن کي سکي ٿو جيڪي انهن پکسلز کي وڌيڪ ڍڪيندا آهن.

محقق ان کان پوءِ تصويرن جي پيداوار لاءِ ٻيا ميکانيزم ڳوليا آهن، جهڙوڪ آٽو ريگريسيو ماڊل، جيڪي اڳڪٿي ڪن ٿا ته هڪ تصوير ڪهڙي نظر اچڻ گهرجي ۽ LLM وانگر وڌيڪ ڪم ڪرڻ گهرجي.

بدقسمتي سان، OpenAI هن هفتي پريس بريفنگ ۾ هڪ سوال جو جواب ڏيڻ کان انڪار ڪيو ته ڪهڙي قسم جو ماڊل ChatGPT تصويرون 2.0 کي طاقت ڏئي رهيو آهي.

ڪمپنيءَ، بهرحال، وضاحت ڪئي ته نئين ماڊل ۾ ”سوچڻ جون صلاحيتون“ آهن، جيڪي ان کي ويب ڳولڻ جي صلاحيت ڏين ٿيون، هڪ ئي پرامٽ مان ڪيتريون ئي تصويرون ٺاهڻ، ۽ ان جي تخليقن کي ٻه ڀيرا چيڪ ڪريو - هي تصويرون 2.0 کي اجازت ڏئي ٿو ته مارڪيٽنگ اثاثا ٺاهي سگهن مختلف سائزن ۾، گڏوگڏ ملٽي پينل ٿيل مزاحيه پٽي.

OpenAI اهو پڻ چوي ٿو ته تصويرن کي غير لاطيني متن جي رينڊرنگ جي مضبوط سمجھ آهي ٻولين جهڙوڪ جاپاني، ڪورين، هندي ۽ بنگالي. ماڊل جي ڄاڻ ڊسمبر 2025 ۾ ختم ٿي وئي، جيڪا اثر انداز ٿي سگهي ٿي ته اهو تازو خبرون شامل ڪجهه اشارا پيدا ڪري سگهي ٿو.

"تصويرون 2.0 تصوير جي تخليق لاءِ بي مثال سطح جي خاصيت ۽ وفاداري آڻيندي آهي. اهو نه رڳو وڌيڪ نفيس تصويرن کي تصور ڪري سگهي ٿو، پر اهو اصل ۾ ان نظرئي کي زندگيءَ ۾ آڻي ٿو، موثر طريقي سان، هدايتن تي عمل ڪرڻ جي قابل، گهربل تفصيلن کي محفوظ ڪري ٿو، ۽ نفيس عنصرن کي پيش ڪري ٿو جيڪي اڪثر ڪري تصويرن جي ماڊل کي ٽوڙيندا آهن: ننڍو ٽيڪسٽ، UI، آئڪونسٽيڪل عناصر، ذيلي تحرير، اسٽائلس، اسٽائلسٽينس، ننڍو ٽيڪسٽ. رڪاوٽون، سڀ 2K ريزوليوشن تائين، "OpenAI هڪ پريس رليز ۾ چيو.

انهن صلاحيتن جو مطلب اهو آهي ته تصوير جي نسل ايتري تيز نه آهي جيترو ChatGPT تي هڪ سوال ٽائپ ڪرڻ، پر ڪجهه پيچيده پيدا ڪرڻ جهڙوڪ ملٽي پينل ٿيل مزاحيه اڃا تائين صرف چند منٽ لڳن ٿا.

سڀ ChatGPT ۽ ڪوڊيڪس استعمال ڪندڙ تصويرون 2.0 تائين رسائي حاصل ڪري سگھندا اڱارو کان؛ ادا ڪيل استعمال ڪندڙ وڌيڪ ترقي يافته پيداوار پيدا ڪرڻ جي قابل هوندا. ڪمپني پڻ Gpt-image-2 API کي دستياب بڻائيندي، قيمت جي قيمت جي معيار ۽ ريزوليوشن تي منحصر آهي.