Xiaomi نے MiMo-V2.5-TTS سیریز اور MiMo-V2.5-ASR کے آغاز کے ساتھ اپنے MiMo وائس AI پلیٹ فارم کو اپ ڈیٹ کرنے کا اعلان کیا ہے۔ کمپنی نئے لائن اپ کو ایجنٹ کے دور کے لیے ڈیزائن کردہ ایک مکمل لنک وائس ماڈل سسٹم کے طور پر بیان کرتی ہے، جس میں اسپیچ آؤٹ پٹ اور اسپیچ ان پٹ دونوں کا احاطہ کیا گیا ہے۔
لانچ مارچ میں متعارف کرائے گئے Xiaomi کے MiMo-V2-TTS ماڈل کی پیروی کرتا ہے، جس نے لہجے، جذبات اور بولنے کے انداز پر تفصیلی کنٹرول پر توجہ مرکوز کی تھی۔
Xiaomi MiMo-V2.5-TTS لائن اپ میں تین الگ الگ ماڈلز شامل ہیں اور Xiaomi کے MiMo اوپن پلیٹ فارم کے ذریعے بغیر کسی قیمت کے محدود وقت کے لیے دستیاب ہے۔
بیس MiMo-V2.5-TTS ماڈل میں پہلے سے سیٹ آوازیں شامل ہیں اور تقریر کی شرح، لہجے اور جذبات کے لیے ایڈجسٹمنٹ کی حمایت کرتا ہے۔
MiMo-V2.5-TTS-VoiceDesign صارفین کو ایک مختصر ان پٹ جملے کا استعمال کرتے ہوئے مکمل طور پر نئے صوتی ٹمبرس بنانے کی اجازت دیتا ہے۔
MiMo-V2.5-TTS-VoiceClone کو بولنے کے مختلف اندازوں اور ہدایات میں مستقل مزاجی کو برقرار رکھتے ہوئے نمونوں کی ایک چھوٹی تعداد کا استعمال کرتے ہوئے ایک مخصوص آواز کو دوبارہ پیش کرنے کے لیے ڈیزائن کیا گیا ہے۔
Xiaomi نے کہا کہ ماڈل ساختی پیرامیٹرز کی ضرورت کے بجائے قدرتی زبان کی ہدایات کی تشریح کر سکتے ہیں۔
صارف بیان کر سکتے ہیں کہ آواز کس طرح سادہ زبان میں ہونی چاہیے، جیسا کہ کسی صوتی اداکار کو ہدایت کرنا۔ یہ نظام گیم کے کرداروں اور آڈیو ڈراموں جیسے استعمال کے معاملات کے لیے پرتوں والی اسکرپٹ طرز کے ان پٹ کو بھی سپورٹ کرتا ہے، جس سے کردار کی خصلتوں، مناظر اور مکالمے کو الگ الگ کنٹرول کرنے کی اجازت ملتی ہے۔
ان لائن آڈیو ٹیگز کی بھی حمایت کی جاتی ہے، جو صارفین کو ایک جملے کے اندر مخصوص پوائنٹس پر جذبات یا ترسیل کو ایڈجسٹ کرنے دیتے ہیں۔ ان ٹیگز کو ایک ہی متن میں ملایا جا سکتا ہے اور کہا جاتا ہے کہ وہ چینی اور انگریزی دونوں میں کام کرتے ہیں۔
Xiaomi MiMo-V2.5-ASR کو اوپن سورس اسپیچ ریکگنیشن ماڈل کے طور پر بھی جاری کر رہا ہے۔
کمپنی نے کہا کہ اسے حقیقی دنیا کے منظرناموں کے لیے ڈیزائن کیا گیا ہے جیسے کہ دو لسانی گفتگو، علاقائی بولیاں، اور شور والا ماحول۔
تائید شدہ چینی بولیوں میں وو، کینٹونیز، مننان اور سیچوانیز شامل ہیں۔ ماڈل پہلے سے سیٹ لینگویج ٹیگز کے بغیر چینی اور انگریزی کے درمیان سوئچ کر سکتا ہے۔ یہ گانے کے بولوں کو بھی پہچان سکتا ہے یہاں تک کہ جب آواز کو موسیقی کے ساتھ ملایا جائے۔
میٹنگز اور ملٹی سپیکر ماحول کے لیے، سسٹم کو اسپیکر کی علیحدگی کے ساتھ اوور لیپنگ گفتگو کو نقل کرنے کے لیے ڈیزائن کیا گیا ہے۔
Xiaomi نے کہا کہ یہ زیادہ شور والی ترتیبات میں اور دور دراز آڈیو کیپچر کے ساتھ درستگی کو برقرار رکھ سکتا ہے۔
MiMo-V2.5-ASR میں بلٹ ان فونیٹکس اور سیاق و سباق پر مبنی اوقاف بھی شامل ہیں، جو پوسٹ پروسیسنگ کی ضرورت کو کم کرتے ہیں۔
Xiaomi نے کہا کہ ماڈل دو لسانی شناخت، بولی کی پروسیسنگ، اور کوڈ سوئچنگ کے کاموں کا احاطہ کرنے والے بینچ مارکس پر جدید ترین یا قریب ترین اسٹیٹ آف دی آرٹ نتائج فراہم کرتا ہے۔
TTS ماڈل Xiaomi کے پلیٹ فارم کے ذریعے دستیاب ہیں اور MiMo Studio میں ٹیسٹ کیے جا سکتے ہیں۔ ASR ماڈل اوپن سورس وزن اور براہ راست استعمال یا حسب ضرورت کے لیے کوڈ کے ساتھ دستیاب ہے۔
📢 تازہ ترین ٹیک اور ٹیلی کام کی خبروں، ویڈیوز اور تجزیوں کے لیے ابھی ProPakistani کے WhatsApp گروپ میں شامل ہوں!
گوگل نیوز پر پرو پاکستانی کو فالو کریں اور اپنے پسندیدہ مواد کو تیزی سے اسکرول کریں!
شیئرز





