Sina Weibo تي نو محققن جي هڪ ٽيم متعارف ڪرايو آهي VibeThinker-3B، هڪ ڪمپيڪٽ لينگويج ماڊل جيڪو مبينا طور تي گوگل ڊيپ مائنڊ، اوپن اي آءِ، انٿروپڪ، ۽ ڊيپ سيڪ جي ڪيترن ئي دليلن جي معيارن تي تمام وڏي سسٽم سان ملندو آهي. AIME 2026 تي 3-بلين-پيراميٽر ماڊل 94.3 اسڪور ڪيو، ڊيپ سيڪ V3.2 جي ڪارڪردگي جي حد سان ملائي، جنهن ۾ 671 بلين پيرا ميٽرز آهن، ۽ Gemini 3 پرو جي 91.7 جي اسڪور کي مات ڏئي ٿو.

AIME 2026 تي 3-بلين-پيراميٽر ماڊل 94.3 اسڪور ڪيو، ڊيپ سيڪ V3.2 جي ڪارڪردگي جي حد سان ملائي، جنهن ۾ 671 بلين پيرا ميٽرز آهن، ۽ Gemini 3 پرو جي 91.7 جي اسڪور کي مات ڏئي ٿو.

ٽيسٽ ٽائيم اسڪيلنگ طريقي سان جنهن کي ڪليم-ليول ريليبلٽي اسيسمينٽ سڏيو ويندو آهي، VibeThinker-3B جو AIME 2026 سکور 97.1 تائين وڌي ويو آهي.

VibeThinker-3B AIME 2025 تي 91.4، HMMT 2025 تي 89.3، BruMO 2025 تي 93.8، ۽ IMO-AnswerBench تي 76.4 اسڪور ڪيو.

ڪوڊنگ ٽيسٽن ۾، هن LiveCodeBench v6 تي 80.2 Pass@1 سکور حاصل ڪيو ۽ اڻ ڏٺل LeetCode تي 96.1٪ قبوليت جي شرح حاصل ڪئي هفتيوار ۽ ٻه هفتيوار مقابلن جي وچ ۾ اپريل جي آخر ۽ مئي 2026 جي آخر ۾.

اهو پڻ سکور ڪيو 93.4 IFEval تي هيٺين هدايتن لاءِ.

ماڊل 128 مان 123 پاس ڪئي پهرين ڪوشش LeetCode سبمشنز، GPT-5.2 کان وڌيڪ، Doubao Seed 2.0 Pro، Kimi K2.5، ۽ Claude Opus 4.6 ساڳئي تشخيصي حالتن هيٺ.

VibeThinker-3B وٽ DeepSeek V3.2 کان تقريباً 224 ڀيرا گهٽ پيٽرول آهن.

GLM-5 وٽ 744 بلين پيٽرولر آهن، جڏهن ته Kimi K2.5 هڪ ٽريلين کان وڌيڪ آهي. مقابلي ۾، VibeThinker-3B هڪ صارف جي ليپ ٽاپ تي هلائڻ لاء ڪافي ننڍڙو آهي.

محقق دليل ڏئي ٿو ته قابل تصديق دليلن جا ڪم، جهڙوڪ رياضي ۽ ڪوڊنگ، وسيع حقيقتن جي ڄاڻ کان وڌيڪ اثرائتي نموني ننڍن ماڊل ۾ دٻائي سگهجن ٿا.

اهي هن کي سڏين ٿا Parametric Compression-Coverage Hypothesis.

ماڊل هر علائقي ۾ وڏي عام-مقصد سسٽم سان ملندو ناهي.

اهو GPQA-Diamond تي 70.2 سکور ڪيو، مقابلي ۾ 91.9 Gemini 3 پرو لاءِ ۽ 87.0 لاءِ ڪلاڊ اوپس 4.5.

محققن چيو ته هي انهن جي دليل جي حمايت ڪري ٿو ته ڪمپيڪٽ ماڊل وڏي ماڊل کي تبديل ڪرڻ کان سواءِ تصديق جي قابل دليلن جي ڪمن تي سختي سان انجام ڏئي سگهن ٿا جيڪي وسيع معلومات جي ڪوريج مهيا ڪن ٿا.

VibeThinker-3B علي بابا جي Qwen2.5-Coder-3B تي ٻڌل آهي ۽ چئن مرحلن واري پوسٽ ٽريننگ جي عمل ذريعي بهتر ڪيو ويو.

پهرين اسٽيج استعمال ڪيو ويو نگراني ڪيل فائن ٽيوننگ تي رياضي، ڪوڊنگ، STEM استدلال، گفتگو، ۽ هدايتن جي پٺيان ايندڙ ڊيٽا سخت، ڊگهي استدلال جي مسئلن ڏانهن منتقل ٿيڻ کان اڳ.

5000 ٽوڪن کان ننڍو استدلال جي نشانين سان تربيتي نمونن کي هٽايو ويو، ان سان گڏ مسئلا جيڪي اڳوڻو VibeThinker-1.5B وقت جي 75 سيڪڙو کان وڌيڪ حل ڪري سگھن ٿا.

ٻئي مرحلي ۾ ميڪس اينٽ-گائيڊڊ پاليسي آپٽمائيزيشن ذريعي رياضي، ڪوڊنگ، ۽ STEM ڪمن جي وچ ۾ مضبوطي واري سکيا استعمال ڪئي وئي.

تدريجي طور تي ونڊو کي وڌائڻ جي بدران، محقق هڪ واحد 64000 ٽوڪن ونڊو استعمال ڪيو ڇاڪاڻ ته ترقي پسند توسيع 3B پيماني تي ڪارڪردگي کي گهٽائي ڇڏيو.

هڪ الڳ Long2Short Math RL اسٽيج انعام ڏنو ننڍو صحيح حل غير ضروري فعل کي گهٽائڻ لاءِ.

ٽيون اسٽيج ڪامياب استدلال جي نشانين کي مضبوط ڪرڻ واري سکيا واري چيڪ پوسٽن مان واپس هڪ متحد ماڊل ۾ داخل ڪيو.

آخري اسٽيج تي لاڳو ڪيل سکيا کي مضبوط ڪرڻ لاءِ هدايتون ڏنل ڪمن تي قاعدي جي بنياد تي چيڪ ۽ انعام جا ماڊل استعمال ڪندي.

نتيجن کي جلدي ڌيان ڇڪايو، پر انهن پڻ خدشات پيدا ڪيو ته ماڊل شايد بينچ مارڪ لاء تمام گهڻو بهتر ڪيو ويو آهي.

ڪجھ صارفين عملي ڪوڊنگ سوالن تي ڪمزور ڪارڪردگي جي رپورٽ ڪئي، بشمول عام طور تي استعمال ٿيل ترقياتي اوزارن سان مشڪل.

ٻين سوال ڪيو ته محققن ماڊل کي وسيع سافٽ ويئر-انجنيئرنگ معيارن تي ڇو نه آزمايو.

محققن چيو ته ٽريننگ ڊيٽا سخت بينچ مارڪ کي ختم ڪري ڇڏيو، بشمول اوورليپنگ ٽيڪسٽ لاء فلٽرنگ.

تازو LeetCode مقابلا ڊيٽا ليڪ جي خلاف مضبوط تحفظ فراهم ڪن ٿا ڇاڪاڻ ته اهي ڪنهن به ممڪن ٽريننگ ڪٽ آف کان پوءِ ٿيا آهن.

بهرحال، صارف رپورٽون اڃا تائين بينچ مارڪ سکور ۽ عملي ڪارڪردگي جي وچ ۾ فرق پيش ڪن ٿيون.

ماڊل MIT لائسنس تحت جاري ڪيو ويو، ان جي وزن سان گڏ هنگنگ منهن ۽ ماڊل اسڪوپ ذريعي دستياب آهي.

پهرين ڏينهن اندر، ڊولپرز اڳ ۾ ئي GGUF مقداري ورزن ۽ نڪتل ماڊل تيار ڪري چڪا هئا.

پيپر کي Hugging Face جي روزاني پيپرس پيج تي 62 اپ ووٽ مليا، جڏهن ته ماڊل ريپوزٽري کي 130 لائيڪ مليا ۽ گيٽ هب پروجيڪٽ 685 اسٽارز تي پهچي ويو.

سينا ويبو پنهنجي سوشل ميڊيا پليٽ فارم لاءِ فرنٽيئر اي آئي ريسرچ جي ڀيٽ ۾ وڌيڪ مشهور آهي.

بهرحال، VibeThinker-3B ڪمپني جو ٻيو وڏو اوپن سورس AI رليز ستن مهينن ۾ آهي.

VibeThinker-1.5B، نومبر 2025 ۾ جاري ڪيو ويو، مبينا طور تي اصل DeepSeek R1 کي ڪيترن ئي رياضي جي معيارن تي مات ڏني. ٽيم چيو ته ان جي پوسٽ ٽريننگ جي قيمت $7800 هئي، مقابلي ۾ ڊيپ سيڪ R1 لاءِ اندازي مطابق $294000.

محقق دعوي نٿا ڪن ته VibeThinker-3B وڏي عام مقصدن واري ماڊل کي تبديل ڪري سگھن ٿا.

ان جي بدران، اهي بحث ڪن ٿا ته ننڍا ماڊل دليلن جي ڪم کي هٿي وٺن ٿيون جڏهن ته وڏا سسٽم هائبرڊ اي آئي سسٽم ۾ حقيقت جي ڄاڻ مهيا ڪن ٿا.

اهڙي طريقي سان ترقي يافته استدلال کي ترتيب ڏيڻ جي قيمت گھٽائي سگهي ٿي ۽ محدود هارڊويئر سان ڊوائيسز تي مضبوط رياضياتي ۽ ڪوڊنگ صلاحيتون دستياب ٿي سگهن ٿيون.

اهم سوال اهو آهي ته ڇا ماڊل جي معيار جي ڪارڪردگي قابل اعتماد حقيقي دنيا جي استعمال ۾ ترجمو ڪري سگهي ٿي.

تازه ترين ٽيڪني خبرن، ٽيليڪم بصيرت، ۽ پراڊڪٽ لانچ حاصل ڪريو جتي توهان چاهيو ٿا.

ProPakistani کي ترجيحي ذريعن ۾ شامل ڪريو ۽ ڏسو اسان جون وڌيڪ ڪهاڻيون گوگل سرچ ۽ ٽاپ اسٽوريز ۾.

شيئرز