سینا ویبو میں نو محققین کی ایک ٹیم نے VibeThinker-3B متعارف کرایا ہے، جو ایک کمپیکٹ لینگویج ماڈل ہے جو مبینہ طور پر گوگل ڈیپ مائنڈ، اوپن اے آئی، اینتھروپک، اور ڈیپ سیک کے متعدد ریجننگ بینچ مارکس پر بہت بڑے سسٹمز سے میل کھاتا ہے یا اس سے زیادہ ہے۔

3-بلین پِیرامیٹر ماڈل نے AIME 2026 پر 94.3 اسکور کیا، جو DeepSeek V3.2 کی کارکردگی کی حد سے مماثل ہے، جس کے 671 بلین پِیرامیٹرز ہیں، اور Gemini 3 Pro کے 91.7 اسکور کو پیچھے چھوڑتے ہیں۔

کلیم لیول ریلائیبلٹی اسسمنٹ نامی ٹیسٹ ٹائم اسکیلنگ کے طریقہ کار کے ساتھ، VibeThinker-3B کا AIME 2026 سکور بڑھ کر 97.1 ہو گیا۔

VibeThinker-3B نے AIME 2025 پر 91.4، HMMT 2025 پر 89.3، BruMO 2025 پر 93.8، اور IMO-AnswerBench پر 76.4 اسکور کیا۔

کوڈنگ ٹیسٹوں میں، اس نے LiveCodeBench v6 پر 80.2 Pass@1 سکور حاصل کیا اور اپریل کے آخر اور مئی 2026 کے آخر میں منعقد ہونے والے ہَفتَہ وار اور دو ہَفتَہ وار مقابلوں میں 96.1% قبولیت کی شرح حاصل کی۔

اس نے مندرجہ ذیل ہدایات کے لیے IFEval پر 93.4 اسکور بھی کیا۔

ماڈل نے 128 میں سے 123 پہلی کوشش کی LeetCode جمع کرائی، GPT-5.2، Doubao Seed 2.0 Pro، Kimi K2.5، اور Claude Opus 4.6 کو ان ہی تشخیصی حالات میں پیچھے چھوڑ دیا۔

VibeThinker-3B کے پاس DeepSeek V3.2 سے تقریباً 224 گنا کم پِیرامیٹر ہیں۔

GLM-5 میں 744 بلین پِیرامیٹرز ہیں، جبکہ Kimi K2.5 ایک ٹریلین سے زیادہ ہے۔ اس کے مقابلے میں، VibeThinker-3B صارفین کے لیپ ٹاپ پر چلانے کے لیے کافی چھوٹا ہے۔

محققین کا استدلال ہے کہ قابل تصدیق استدلال کے کام، جیسے کہ ریاضی اور کوڈنگ، کو وسیع حقائق کے علم سے زیادہ مؤثر طریقے سے چھوٹے ماڈلز میں کمپریس کیا جا سکتا ہے۔

وہ اسے پِیرامیٹرک کمپریشن-کوریج ہائپوتھیسس کہتے ہیں۔

ماڈل ہر علاقے میں بڑے عام مقصد کے نظام سے میل نہیں کھاتا ہے۔

اس نے GPQA-Diamond پر 70.2 اسکور کیا، اس کے مقابلے میں Gemini 3 Pro کے لیے 91.9 اور Claude Opus 4.5 کے لیے 87.0۔

محققین نے کہا کہ یہ ان کے اس استدلال کی تائید کرتا ہے کہ کمپیکٹ ماڈلز بڑے ماڈلز کو تبدیل کیے بغیر قابل تصدیق استدلال کے کاموں پر مضبوطی سے انجام دے سکتے ہیں جو وسیع تر علمی کوریج فراہم کرتے ہیں۔

VibeThinker-3B علی بابا کے Qwen2.5-Coder-3B پر مبنی ہے اور اسے چار مراحل پر مشتمل پوسٹ ٹریننگ کے عمل کے ذریعے بہتر بنایا گیا ہے۔

پہلے مرحلے میں ریاضی، کوڈنگ، STEM استدلال، مکالمے، اور ہدایات کے بعد اعداد و شمار پر سخت، طویل استدلال کے مسائل کی طرف منتقل ہونے سے پہلے زیر نگرانی فائن ٹیوننگ کا استعمال کیا گیا۔

5000 ٹوکن سے کم استدلال کے نشانات کے ساتھ تربیتی نمونے ہٹا دیے گئے، ساتھ ہی وہ مسائل جو پہلے VibeThinker-1.5B وقت کے 75% سے زیادہ حل کر سکتا تھا۔

دوسرے مرحلے میں میکس اینٹ گائیڈڈ پالیسی آپٹیمائزیشن کے ذریعے ریاضی، کوڈنگ اور STEM کاموں میں کمک سیکھنے کا استعمال کیا گیا۔

سیاق و سباق کی کھڑکی کو بتدریج پھیلانے کے بجائے، محققین نے ایک واحد 64000 ٹوکن ونڈو کا استعمال کیا کیونکہ ترقی پسند توسیع نے 3B پیمانے پر کارکردگی کو کم کردیا۔

ایک علیحدہ Long2Short Math RL اسٹیج نے غیر ضروری لفظی پن کو کم کرنے کے لیے مختصر درست حل فراہم کیے ہیں۔

تیسرے مرحلے نے کمک سیکھنے والی چوکیوں سے کامیاب استدلال کے نشانات کو دوبارہ ایک متحد ماڈل میں نکال دیا۔

آخری مرحلے نے اصول پر مبنی چیک اور انعامی ماڈلز کا استعمال کرتے ہوئے ہدایات کے بعد کام کرنے کے لیے کمک سیکھنے کا اطلاق کیا۔

نتائج نے تیزی سے توجہ مبذول کرائی، لیکن انہوں نے یہ خدشات بھی اٹھائے کہ ماڈل کو بینچ مارکس کے لیے بہت زیادہ بہتر بنایا گیا ہے۔

کچھ صارفین نے کوڈنگ کے عملی سوالات پر کمزور کارکردگی کی اطلاع دی، بشمول عام طور پر استعمال ہونے والے ترقیاتی ٹولز میں دشواری۔

دوسروں نے سوال کیا کہ محققین نے وسیع تر سافٹ ویئر انجینئرنگ بینچ مارکس پر ماڈل کی جانچ کیوں نہیں کی۔

محققین نے کہا کہ تربیتی اعداد و شمار کو سخت بینچ مارک کی آلودگی سے گزرنا پڑا، بشمول متن کو اوورلیپ کرنے کے لیے فلٹرنگ۔

حالیہ LeetCode مقابلے ڈیٹا لیک ہونے کے خلاف مضبوط تحفظ فراہم کرتے ہیں کیونکہ یہ کسی بھی ممکنہ تربیتی کٹ آف کے بعد ہوئے تھے۔

تاہم، صارف کی رپورٹیں اب بھی بینچ مارک سکور اور عملی کارکردگی کے درمیان فرق کی تجویز کرتی ہیں۔

ماڈل کو MIT لائسنس کے تحت جاری کیا گیا تھا، جس کے وزن Hugging Face اور ModelScope کے ذریعے دستیاب تھے۔

پہلے دن کے اندر، ڈویلپرز نے پہلے ہی GGUF کوانٹائزڈ ورژن اور ڈیریویٹیو ماڈل تیار کر لیے تھے۔

پیپر کو Hugging Face کے روزانہ پیپرز پیج پر 62 اپ ووٹ ملے، جبکہ ماڈل ریپوزٹری کو 130 لائکس ملے اور GitHub پروجیکٹ 685 ستاروں تک پہنچ گیا۔

سینا ویبو فرنٹیئر اے آئی ریسرچ کے مقابلے میں اپنے سوشل میڈیا پلیٹ فارم کے لیے زیادہ مشہور ہے۔

تاہم، VibeThinker-3B سات مہینوں میں کمپنی کی دوسری بڑی اوپن سورس AI ریلیز ہے۔

نومبر 2025 میں ریلیز ہونے والی VibeThinker-1.5B نے مبینہ طور پر ریاضی کے کئی بینچ مارکس پر اصل DeepSeek R1 کو مات دی۔ ٹیم نے کہا کہ اس کی پوسٹ ٹریننگ لاگت $7800 تھی، جس کے مقابلے ڈیپ سیک R1 کے لیے تخمینہ $294000 تھا۔

محققین یہ دعویٰ نہیں کرتے کہ VibeThinker-3B بڑے عام مقصد والے ماڈلز کی جگہ لے سکتا ہے۔

اس کے بجائے، وہ استدلال کرتے ہیں کہ چھوٹے ماڈل استدلال کے کام کو سنبھال سکتے ہیں جبکہ بڑے سسٹم ہائبرڈ AI سسٹمز میں حقائق سے متعلق معلومات فراہم کرتے ہیں۔

اس طرح کا نقطہ نظر جدید استدلال کی تعیناتی کی لاگت کو کم کر سکتا ہے اور محدود ہارڈ ویئر والے آلات پر مضبوط ریاضیاتی اور کوڈنگ کی صلاحیتیں دستیاب کر سکتا ہے۔

اہم سوال یہ ہے کہ آیا ماڈل کی بینچ مارک کارکردگی قابل اعتماد حقیقی دنیا کے استعمال میں ترجمہ کر سکتی ہے۔

جہاں آپ چاہیں تازہ ترین ٹیک خبریں، ٹیلی کام کی بصیرتیں، اور پروڈکٹ لانچ حاصل کریں۔

ProPakistani کو ترجیحی ذرائع میں شامل کریں اور گوگل سرچ اور ٹاپ اسٹوریز میں ہماری مزید کہانیاں دیکھیں۔

شیئرز