په سینا ویبو کې د نهو څیړونکو یوې ډلې VibeThinker-3B معرفي کړ، د ژبې یو کمپیکٹ ماډل چې د راپورونو له مخې د ډیری دلیلونو بنچمارکونو کې د ګوګل ډیپ مائنډ ، اوپن AI ، انټروپیک ، او ډیپ سیک څخه خورا لوی سیسټمونو سره سمون لري یا ډیریږي. د 3-میلیارد پیرامیټر ماډل په AIME 2026 کې 94.3 نمرې ترلاسه کړې، د ډیپ سیک V3.2 د فعالیت سلسلې سره سمون لري، کوم چې 671 ملیارد پیرامیټونه لري، او د Gemini 3 Pro نمرې یې 91.7 ته ماتې ورکړې.

د 3-میلیارد پیرامیټر ماډل په AIME 2026 کې 94.3 نمرې ترلاسه کړې، د ډیپ سیک V3.2 د فعالیت سلسلې سره سمون لري، کوم چې 671 ملیارد پیرامیټونه لري، او د Gemini 3 Pro نمرې یې 91.7 ته ماتې ورکړې.

د ادعا کچې اعتبار ارزونې په نوم د ازموینې وخت اندازه کولو میتود سره ، د VibeThinker-3B AIME 2026 نمرې 97.1 ته لوړه شوې.

VibeThinker-3B په AIME 2025 کې 91.4، په HMMT 2025 کې 89.3، په BruMO 2025 کې 93.8، او IMO-AnswerBench کې 76.4 نمرې ترلاسه کړې.

د کوډ کولو ازموینو کې ، دې په LiveCodeBench v6 کې د 80.2 پاس@1 نمرې ترلاسه کړې او د 96.1٪ منلو نرخ په نه لیدل شوي لیټ کوډ اونیزې او دوه اونۍ سیالۍ کې چې د اپریل په وروستیو او د می 2026 تر منځ ترسره شوي.

دا د لارښوونې تعقیب لپاره په IFEval کې 93.4 نمرې هم ترلاسه کړې.

موډل د ورته ارزونې شرایطو لاندې د 128 لومړۍ هڅې LeetCode سپارښتنو څخه 123 تېر کړل، د GPT-5.2، Doubao Seed 2.0 Pro، Kimi K2.5، او Claude Opus 4.6 څخه ښه فعالیت کوي.

VibeThinker-3B د DeepSeek V3.2 په پرتله شاوخوا 224 ځله لږ پیرامیټونه لري.

GLM-5 744 ملیارد پیرامیټونه لري، پداسې حال کې چې Kimi K2.5 له یو ټریلیون څخه ډیر دی. په پرتله کولو سره، VibeThinker-3B دومره کوچنی دی چې د مصرف کونکي لپ ټاپ چلوي.

څیړونکي استدلال کوي چې د تایید وړ استدلال دندې لکه ریاضیات او کوډ کول، د پراخو حقیقتي پوهې په پرتله په اغیزمنه توګه په کوچنیو موډلونو کې فشار راوستل کیدی شي.

دوی دې ته د پارامیټریک کمپریشن - پوښښ فرضیه وایی.

ماډل په هره سیمه کې د لوی عمومي هدف سیسټمونو سره سمون نه لري.

دې په GPQA-Diamond کې 70.2 نمرې ترلاسه کړې، د جیمني 3 پرو لپاره 91.9 او د کلاډ اوپس 4.5 لپاره 87.0 په پرتله.

څیړونکو وویل چې دا د دوی د استدلال ملاتړ کوي چې کمپیک ماډل کولی شي د لویو ماډلونو ځای په ځای کولو پرته د تایید وړ استدلال کارونو په کلکه ترسره کړي چې پراخه پوهه پوښښ چمتو کوي.

VibeThinker-3B د علی بابا د Qwen2.5-Coder-3B پر بنسټ والړ دی او د روزنې څخه وروسته د څلور مرحلې پروسې له لارې ښه شوی.

په لومړۍ مرحله کې د ریاضیاتو، کوډ کولو، د STEM استدلال، خبرو اترو، او لارښوونې تعقیب شوي معلوماتو څخه د سختو، اوږده استدلالونو ستونزو ته لیږدولو څخه دمخه د څارنې ښه ټیوننګ کارول کیده.

د روزنې نمونې د استدلال نښې سره له 5000 ټوکنونو څخه لنډې لرې شوې ، د ستونزو سره سره چې پخوانی VibeThinker-1.5B کولی شي د 75٪ څخه ډیر وخت حل کړي.

دویمه مرحله د ریاضیاتو، کوډ کولو، او STEM دندو په اوږدو کې د MaxEnt-Guided پالیسي اصلاح کولو له لارې د پیاوړتیا زده کړې کارولې.

د دې پرځای چې په تدریجي ډول د شرایطو کړکۍ پراخه کړي، څیړونکو یوه واحد 64000-ټوکن کړکۍ کارولې ځکه چې پرمختللی پراختیا د 3B پیمانه فعالیت کم کړی.

یو جلا Long2Short ریاضی RL مرحله د غیر ضروري فعل کمولو لپاره لنډ سم حلونه انعام کړل.

دریم پړاو د تقویه کولو زده کړې پوستې څخه د بریالي استدلال نښې بیرته یو متحد ماډل ته واړولې.

وروستنۍ مرحله د قواعدو پر بنسټ چکونو او د انعام ماډلونو په کارولو سره د لارښوونې لاندې کارونو لپاره د پیاوړتیا زده کړه پلي کړه.

پایلې په چټکۍ سره پاملرنه راجلب کړه، مګر دوی دا اندیښنې هم راپورته کړې چې ماډل ممکن د بنچمارکونو لپاره خورا ډیر ښه شوی وي.

ځینې کاروونکي د عملي کوډ کولو پوښتنو کې د ضعیف فعالیت راپور ورکړی، په شمول د عام استعمال شوي پراختیایي وسیلو سره ستونزې.

نورو پوښتنه وکړه چې ولې څیړونکو دا ماډل د سافټویر - انجینرۍ پراخه معیارونو کې ازموینه نه ده کړې.

څیړونکو وویل چې د روزنې ډیټا د سخت معیار له مینځه وړلو سره مخ شوې ، پشمول د متقابل متن لپاره فلټر کول.

د لیټ کوډ وروستي سیالۍ د ډیټا لیک کیدو پروړاندې قوي محافظت چمتو کوي ځکه چې دوی د احتمالي روزنې کټ آف وروسته ترسره شوي.

په هرصورت، د کاروونکي راپورونه لاهم د بنچمارک نمرو او عملي فعالیت تر مینځ واټن وړاندیز کوي.

دا ماډل د MIT لایسنس لاندې خپور شوی، وزن یې د هګینګ مخ او ماډل سکوپ له لارې شتون لري.

په لومړۍ ورځ کې، پراختیا کونکو دمخه د GGUF مقدار شوي نسخې او مشتق ماډلونه تولید کړي وو.

کاغذ د Hugging Face ورځني کاغذونو پاڼې کې 62 رایې ترلاسه کړې، پداسې حال کې چې د ماډل ذخیره 130 لایکونه ترلاسه کړي او د GitHub پروژه 685 ستورو ته رسیدلې.

سینا ویبو د فرنټیر AI څیړنې په پرتله د خپل ټولنیز میډیا پلیټ فارم لپاره غوره پیژندل شوی.

په هرصورت، VibeThinker-3B په اوو میاشتو کې د شرکت دوهم لوی خلاص سرچینه AI خوشې کول دي.

VibeThinker-1.5B، د 2025 په نومبر کې خپور شو، د راپورونو له مخې اصلي ډیپ سیک R1 د ریاضیاتو په څو معیارونو کې مات کړ. ټیم وویل چې د روزنې وروسته یې لګښت $ 7800 و، د ډیپ سیک R1 لپاره د اټکل شوي $ 294000 په پرتله.

څیړونکي ادعا نه کوي چې VibeThinker-3B کولی شي لوی عمومي هدف ماډلونه ځای په ځای کړي.

پرځای یې، دوی استدلال کوي چې کوچني ماډلونه کولی شي د استدلال کار اداره کړي پداسې حال کې چې لوی سیسټمونه د هایبرډ AI سیسټمونو کې حقیقي پوهه وړاندې کوي.

دا ډول چلند کولی شي د پرمختللي استدلال پلي کولو لګښت کم کړي او د محدود هارډویر سره په وسیلو کې قوي ریاضيکي او کوډ کولو وړتیاوې رامینځته کړي.

کلیدي پوښتنه دا ده چې ایا د ماډل بنچمارک فعالیت کولی شي د باور وړ ریښتیني نړۍ کارولو ته ژباړل شي.

وروستي تخنیکي خبرونه، د مخابراتو بصیرت، او د محصول لانچ هرچیرې چې تاسو غوره کوئ ترلاسه کړئ.

په غوره سرچینو کې پروپاکستاني اضافه کړئ او زموږ نور کیسې په ګوګل لټون او غوره کیسو کې وګورئ.

ونډې

کوچني AI ماډل د ګوګل ، اوپن AI ، کلاډ څخه لوی سیالان سپکوي

اړوند خبرونه

ډیپ سیک د نوي AI ماډل بیاکتنه کوي چې د فرنټیر ماډلونو سره 'تقه بندوي'

نوی خلاص موډل د GPT 5.5 پرو په 1/6 قیمت کې ماتوي

کاروونکي د کلاډ اوپس 4.8 د شرایطو کړکۍ او وړتیا کې د ناڅاپي کمښت راپور ورکوي

ګوګل د 4x ګړندي متن نسل سره د بریښنایی ګړندۍ خلاصې سرچینې AI ماډل خپروي - د مصرف کونکي GPUs پرمخ ځي

انتروپیک د نوي 'متحرک کاري فلو' وسیلې سره Opus 4.8 خپروي

د OpenAI شریک بنسټ ایښودونکی اندریج کارپاتي د انټروپیک د روزنې دمخه ټیم سره یوځای شو