په سینا ویبو کې د نهو څیړونکو یوې ډلې VibeThinker-3B معرفي کړ، د ژبې یو کمپیکٹ ماډل چې د راپورونو له مخې د ډیری دلیلونو بنچمارکونو کې د ګوګل ډیپ مائنډ ، اوپن AI ، انټروپیک ، او ډیپ سیک څخه خورا لوی سیسټمونو سره سمون لري یا ډیریږي.
د 3-میلیارد پیرامیټر ماډل په AIME 2026 کې 94.3 نمرې ترلاسه کړې، د ډیپ سیک V3.2 د فعالیت سلسلې سره سمون لري، کوم چې 671 ملیارد پیرامیټونه لري، او د Gemini 3 Pro نمرې یې 91.7 ته ماتې ورکړې.
د ادعا کچې اعتبار ارزونې په نوم د ازموینې وخت اندازه کولو میتود سره ، د VibeThinker-3B AIME 2026 نمرې 97.1 ته لوړه شوې.
VibeThinker-3B په AIME 2025 کې 91.4، په HMMT 2025 کې 89.3، په BruMO 2025 کې 93.8، او IMO-AnswerBench کې 76.4 نمرې ترلاسه کړې.
د کوډ کولو ازموینو کې ، دې په LiveCodeBench v6 کې د 80.2 پاس@1 نمرې ترلاسه کړې او د 96.1٪ منلو نرخ په نه لیدل شوي لیټ کوډ اونیزې او دوه اونۍ سیالۍ کې چې د اپریل په وروستیو او د می 2026 تر منځ ترسره شوي.
دا د لارښوونې تعقیب لپاره په IFEval کې 93.4 نمرې هم ترلاسه کړې.
موډل د ورته ارزونې شرایطو لاندې د 128 لومړۍ هڅې LeetCode سپارښتنو څخه 123 تېر کړل، د GPT-5.2، Doubao Seed 2.0 Pro، Kimi K2.5، او Claude Opus 4.6 څخه ښه فعالیت کوي.
VibeThinker-3B د DeepSeek V3.2 په پرتله شاوخوا 224 ځله لږ پیرامیټونه لري.
GLM-5 744 ملیارد پیرامیټونه لري، پداسې حال کې چې Kimi K2.5 له یو ټریلیون څخه ډیر دی. په پرتله کولو سره، VibeThinker-3B دومره کوچنی دی چې د مصرف کونکي لپ ټاپ چلوي.
څیړونکي استدلال کوي چې د تایید وړ استدلال دندې لکه ریاضیات او کوډ کول، د پراخو حقیقتي پوهې په پرتله په اغیزمنه توګه په کوچنیو موډلونو کې فشار راوستل کیدی شي.
دوی دې ته د پارامیټریک کمپریشن - پوښښ فرضیه وایی.
ماډل په هره سیمه کې د لوی عمومي هدف سیسټمونو سره سمون نه لري.
دې په GPQA-Diamond کې 70.2 نمرې ترلاسه کړې، د جیمني 3 پرو لپاره 91.9 او د کلاډ اوپس 4.5 لپاره 87.0 په پرتله.
څیړونکو وویل چې دا د دوی د استدلال ملاتړ کوي چې کمپیک ماډل کولی شي د لویو ماډلونو ځای په ځای کولو پرته د تایید وړ استدلال کارونو په کلکه ترسره کړي چې پراخه پوهه پوښښ چمتو کوي.
VibeThinker-3B د علی بابا د Qwen2.5-Coder-3B پر بنسټ والړ دی او د روزنې څخه وروسته د څلور مرحلې پروسې له لارې ښه شوی.
په لومړۍ مرحله کې د ریاضیاتو، کوډ کولو، د STEM استدلال، خبرو اترو، او لارښوونې تعقیب شوي معلوماتو څخه د سختو، اوږده استدلالونو ستونزو ته لیږدولو څخه دمخه د څارنې ښه ټیوننګ کارول کیده.
د روزنې نمونې د استدلال نښې سره له 5000 ټوکنونو څخه لنډې لرې شوې ، د ستونزو سره سره چې پخوانی VibeThinker-1.5B کولی شي د 75٪ څخه ډیر وخت حل کړي.
دویمه مرحله د ریاضیاتو، کوډ کولو، او STEM دندو په اوږدو کې د MaxEnt-Guided پالیسي اصلاح کولو له لارې د پیاوړتیا زده کړې کارولې.
د دې پرځای چې په تدریجي ډول د شرایطو کړکۍ پراخه کړي، څیړونکو یوه واحد 64000-ټوکن کړکۍ کارولې ځکه چې پرمختللی پراختیا د 3B پیمانه فعالیت کم کړی.
یو جلا Long2Short ریاضی RL مرحله د غیر ضروري فعل کمولو لپاره لنډ سم حلونه انعام کړل.
دریم پړاو د تقویه کولو زده کړې پوستې څخه د بریالي استدلال نښې بیرته یو متحد ماډل ته واړولې.
وروستنۍ مرحله د قواعدو پر بنسټ چکونو او د انعام ماډلونو په کارولو سره د لارښوونې لاندې کارونو لپاره د پیاوړتیا زده کړه پلي کړه.
پایلې په چټکۍ سره پاملرنه راجلب کړه، مګر دوی دا اندیښنې هم راپورته کړې چې ماډل ممکن د بنچمارکونو لپاره خورا ډیر ښه شوی وي.
ځینې کاروونکي د عملي کوډ کولو پوښتنو کې د ضعیف فعالیت راپور ورکړی، په شمول د عام استعمال شوي پراختیایي وسیلو سره ستونزې.
نورو پوښتنه وکړه چې ولې څیړونکو دا ماډل د سافټویر - انجینرۍ پراخه معیارونو کې ازموینه نه ده کړې.
څیړونکو وویل چې د روزنې ډیټا د سخت معیار له مینځه وړلو سره مخ شوې ، پشمول د متقابل متن لپاره فلټر کول.
د لیټ کوډ وروستي سیالۍ د ډیټا لیک کیدو پروړاندې قوي محافظت چمتو کوي ځکه چې دوی د احتمالي روزنې کټ آف وروسته ترسره شوي.
په هرصورت، د کاروونکي راپورونه لاهم د بنچمارک نمرو او عملي فعالیت تر مینځ واټن وړاندیز کوي.
دا ماډل د MIT لایسنس لاندې خپور شوی، وزن یې د هګینګ مخ او ماډل سکوپ له لارې شتون لري.
په لومړۍ ورځ کې، پراختیا کونکو دمخه د GGUF مقدار شوي نسخې او مشتق ماډلونه تولید کړي وو.
کاغذ د Hugging Face ورځني کاغذونو پاڼې کې 62 رایې ترلاسه کړې، پداسې حال کې چې د ماډل ذخیره 130 لایکونه ترلاسه کړي او د GitHub پروژه 685 ستورو ته رسیدلې.
سینا ویبو د فرنټیر AI څیړنې په پرتله د خپل ټولنیز میډیا پلیټ فارم لپاره غوره پیژندل شوی.
په هرصورت، VibeThinker-3B په اوو میاشتو کې د شرکت دوهم لوی خلاص سرچینه AI خوشې کول دي.
VibeThinker-1.5B، د 2025 په نومبر کې خپور شو، د راپورونو له مخې اصلي ډیپ سیک R1 د ریاضیاتو په څو معیارونو کې مات کړ. ټیم وویل چې د روزنې وروسته یې لګښت $ 7800 و، د ډیپ سیک R1 لپاره د اټکل شوي $ 294000 په پرتله.
څیړونکي ادعا نه کوي چې VibeThinker-3B کولی شي لوی عمومي هدف ماډلونه ځای په ځای کړي.
پرځای یې، دوی استدلال کوي چې کوچني ماډلونه کولی شي د استدلال کار اداره کړي پداسې حال کې چې لوی سیسټمونه د هایبرډ AI سیسټمونو کې حقیقي پوهه وړاندې کوي.
دا ډول چلند کولی شي د پرمختللي استدلال پلي کولو لګښت کم کړي او د محدود هارډویر سره په وسیلو کې قوي ریاضيکي او کوډ کولو وړتیاوې رامینځته کړي.
کلیدي پوښتنه دا ده چې ایا د ماډل بنچمارک فعالیت کولی شي د باور وړ ریښتیني نړۍ کارولو ته ژباړل شي.
وروستي تخنیکي خبرونه، د مخابراتو بصیرت، او د محصول لانچ هرچیرې چې تاسو غوره کوئ ترلاسه کړئ.
په غوره سرچینو کې پروپاکستاني اضافه کړئ او زموږ نور کیسې په ګوګل لټون او غوره کیسو کې وګورئ.
ونډې