Google نے DiffusionGemma متعارف کرایا ہے، ایک تجرباتی کھلا ماڈل جسے زیادہ تر بڑے زبان کے ماڈلز کے ذریعہ استعمال کیے جانے والے عام ٹوکن بہ ٹوکن طریقہ کی بجائے بازی پر مبنی نقطہ نظر کا استعمال کرتے ہوئے متن کو تیزی سے تخلیق کرنے کے لیے ڈیزائن کیا گیا ہے۔
ماڈل کو اپاچی 2.0 لائسنس کے تحت جاری کیا گیا ہے۔ یہ ماہرین کے ماڈل کا 26B مرکب ہے، لیکن تخمینہ کے دوران صرف 3.8B پِیرامیٹرز فعال ہوتے ہیں۔ گوگل کا کہنا ہے کہ یہ DiffusionGemma کو اعلی درجے کے صارف GPUs پر 18 GB VRAM کی حد کے اندر چلنے کی اجازت دیتا ہے جب کوانٹائز کیا جاتا ہے۔
یہ ماڈل Gemma 4 فیملی اور Google کی Gemini Diffusion ریسرچ پر بنایا گیا ہے۔ گوگل کا کہنا ہے کہ DiffusionGemma GPUs پر 4x تیز ٹیکسٹ جنریشن فراہم کر سکتا ہے، لیکن یہ اب بھی تجرباتی ہے اور اس کا مقصد اعلیٰ معیار کے پروڈکشن کے کام کے لیے معیاری Gemma 4 ماڈلز کو تبدیل کرنا نہیں ہے۔
زیادہ تر زبان کے ماڈل ایک وقت میں ایک ٹوکن، بائیں سے دائیں متن تیار کرتے ہیں۔ یہ کلاؤڈ سسٹم میں اچھی طرح سے کام کرتا ہے جہاں سرورز ایک ساتھ کئی صارف کی درخواستوں پر کارروائی کر سکتے ہیں، لیکن یہ ایک وقت میں ایک صارف کی خدمت کرتے وقت مقامی GPUs کو کم استعمال کر سکتا ہے۔
DiffusionGemma مختلف طریقے سے کام کرتا ہے۔ یہ ہر فارورڈ پاس کے ساتھ متوازی طور پر 256 ٹوکن تیار کرتا ہے، جس سے ماڈل کو متن کا ایک مکمل بلاک ایک ساتھ ڈرافٹ کرنے اور متعدد مراحل پر اسے بہتر کرنے کی اجازت دیتا ہے۔
گوگل کا کہنا ہے کہ یہ نقطہ نظر رکاوٹ کو میموری بینڈوڈتھ سے کمپیوٹ میں منتقل کرتا ہے، جو وقف شدہ GPUs پر رفتار کو بہتر بنانے میں مدد کرتا ہے۔ ماڈل ایک NVIDIA H100 پر 1000 سے زیادہ ٹوکن فی سیکنڈ اور NVIDIA GeForce RTX 5090 پر 700 سے زیادہ ٹوکن فی سیکنڈ پیدا کر سکتا ہے۔
DiffusionGemma کا مقصد محققین اور ڈویلپرز ہیں جو رفتار سے حساس مقامی ورک فلو پر کام کر رہے ہیں۔ ان میں ان لائن ایڈیٹنگ، تیز رفتار تکرار، نان لکیری ٹیکسٹ جنریشن، کوڈ انفلنگ، امینو ایسڈ سیکوینسز، اور ریاضیاتی گراف شامل ہیں۔
ماڈل دو طرفہ توجہ کا استعمال کرتا ہے، مطلب یہ ہے کہ تیار کردہ بلاک میں موجود ہر ٹوکن دوسرے تمام ٹوکنز میں شرکت کر سکتا ہے۔ یہ ان کاموں میں مدد کرتا ہے جہاں آؤٹ پٹ کے پہلے اور بعد کے حصے ایک دوسرے پر منحصر ہوتے ہیں۔
یہ تکراری خود اصلاح کی بھی حمایت کرتا ہے۔ ماڈل مکمل ٹیکسٹ بلاک کا جائزہ لے سکتا ہے اور نسل کے دوران اپنی پیداوار کو بہتر بنا سکتا ہے۔
تاہم، گوگل کا کہنا ہے کہ DiffusionGemma کا مجموعی آؤٹ پٹ معیار معیاری Gemma 4 سے کم ہے کیونکہ یہ رفتار اور متوازی لے آؤٹ جنریشن کو ترجیح دیتا ہے۔ ان ایپلی کیشنز کے لیے جن کے لیے بہترین آؤٹ پٹ کوالٹی کی ضرورت ہوتی ہے، Google معیاری Gemma 4 ماڈلز کی تجویز کرتا ہے۔
گوگل کا کہنا ہے کہ DiffusionGemma کی رفتار کا فائدہ مقامی اور کم ہم آہنگی کے لیے سب سے مضبوط ہے۔
ہائی کیو پی ایس کلاؤڈ سرونگ میں، خودکار ماڈلز ہارڈ ویئر کو مکمل طور پر فعال رکھنے کے لیے پہلے سے ہی بیچنگ کا استعمال کر سکتے ہیں۔ ان صورتوں میں، DiffusionGemma کی متوازی ضابطہ کشائی چھوٹے فوائد پیش کرتی ہے اور سرونگ کے اخراجات میں اضافہ کر سکتی ہے۔
اس لیے ماڈل ایک ہی ایکسلریٹر پر کم سے درمیانے بیچ کے سائز کے لیے بہتر ہے، خاص طور پر مقامی ٹولز اور انٹرایکٹو AI ایپلی کیشنز کے لیے۔
DiffusionGemma متن کی تخلیق پر ایک بازی طرز عمل کا اطلاق کرتا ہے۔
ماڈل بے ترتیب پلیس ہولڈر ٹوکنز کے کینوس سے شروع ہوتا ہے۔ اس کے بعد یہ ایک سے زیادہ پاس بناتا ہے، صحیح ٹوکن کو لاک کرتا ہے اور باقی آؤٹ پٹ کو بہتر کرنے کے لیے سیاق و سباق کے طور پر استعمال کرتا ہے۔ یہ عمل اس وقت تک جاری رہتا ہے جب تک کہ متن اپنی حتمی شکل تک نہ پہنچ جائے۔
گوگل کا کہنا ہے کہ یہ ماڈل کو ان نمونوں کی حمایت کرنے کی اجازت دیتا ہے جو ترتیب وار ماڈلز کے لیے مشکل ہوتے ہیں، جیسے پیچیدہ مارک ڈاؤن فارمیٹنگ کو درست طریقے سے بند کرنا یا قریب قریب حقیقی وقت میں کوڈ بنانا اور پیش کرنا۔
گوگل کا کہنا ہے کہ ڈفیوژن جیما کو مخصوص کاموں کے لیے ٹھیک بنایا جا سکتا ہے۔
ایک مثال میں، Unsloth نے Sudoku کھیلنے کے لیے DiffusionGemma کو ٹھیک بنایا۔ گوگل کا کہنا ہے کہ یہ ایک ایسا کام ہے جہاں خود بخود ماڈلز جدوجہد کر سکتے ہیں کیونکہ ہر ٹوکن مستقبل کے ٹوکن پر منحصر ہو سکتا ہے۔
DiffusionGemma کی دو طرفہ توجہ اس قسم کے کام کو آسان بناتی ہے کیونکہ ماڈل ایک ساتھ مکمل ٹیکسٹ بلاک پر غور کر سکتا ہے۔
ڈویلپرز اپاچی 2.0 لائسنس کے تحت ہیگنگ فیس سے DiffusionGemma کے تجرباتی ماڈل کے وزن کو ڈاؤن لوڈ کر سکتے ہیں۔
گوگل ایک ڈویلپر گائیڈ اور ایک بصری گائیڈ بھی فراہم کر رہا ہے جس میں بتایا گیا ہے کہ DiffusionGemma کیسے کام کرتا ہے۔
ماڈل کو MLX، vLLM، اور Hugging Face Transformers کے ذریعے پیش کیا جا سکتا ہے۔ گوگل کا کہنا ہے کہ وی ایل ایل ایم انضمام کو ریڈ ہیٹ کے ذریعے تعاون حاصل ہے۔
فائن ٹیوننگ کے لیے، گوگل ہیک ایبل ڈفیوژن، ایک ماڈیولر JAX ٹول باکس کا استعمال کرتے ہوئے ایک ٹیوٹوریل جاری کر رہا ہے۔ ڈویلپرز Unsloth اور NVIDIA NeMo کے ساتھ فائن ٹیوننگ کو بھی دریافت کر سکتے ہیں۔
llama.cpp کے لیے سرکاری مدد کا بھی منصوبہ بنایا گیا ہے۔
گوگل کا کہنا ہے کہ اس نے NVIDIA کے ساتھ مل کر NVIDIA ہارڈ ویئر میں DiffusionGemma کو بہتر بنانے کے لیے کام کیا۔
یہ ماڈل صارفین کے GPUs جیسے کہ GeForce RTX 5090 اور RTX 4090 کے لیے کوانٹائز کیا گیا ہے۔ یہ اعلی درجے کی NVFP4 کرنل کے ساتھ Hopper اور Blackwell ہارڈ ویئر کا استعمال کرتے ہوئے انٹرپرائز سسٹم کو بھی سپورٹ کرتا ہے۔ گوگل نے NVIDIA DGX Spark، DGX اسٹیشن، اور RTX PRO سسٹمز کے لیے سپورٹ کا بھی ذکر کیا۔
NVFP4 کے لیے مقامی سپورٹ، ایک 4 بٹ فلوٹنگ پوائنٹ فارمیٹ، درستگی کو اصل ماڈل کے قریب رکھتے ہوئے کمپیوٹ تھرو پٹ کو بہتر بنانے کے لیے ڈیزائن کیا گیا ہے۔
📢 تازہ ترین ٹیک اور ٹیلی کام کی خبروں، ویڈیوز اور تجزیوں کے لیے ابھی ProPakistani کے WhatsApp گروپ میں شامل ہوں!
گوگل نیوز پر پرو پاکستانی کو فالو کریں اور اپنے پسندیدہ مواد کو تیزی سے اسکرول کریں!
شیئرز