كشف معهد أبحاث Emdoor & IDEA عن UniTTS: نموذج صوت AI من طرف إلى طرف لإحداث ثورة في التفاعل بين الإنسان والحاسوب على الجهاز

86-755-2372-2880
16/17F ، مبنى Emdoor ، رقم 8 طريق Guangke الأول ، منطقة بينغشان ، شنتشن
المنتجات
-قرص متين خفيف الوزن مصممة لأقصى
إدور مع استمرار تطور الصناعات ، تنمو الحاجة إلى الأجهزة المحمولة المتينة والموثوقة وعالية الأداء بالترادفي. في...
استكشف المزيد
عرض جميع المنتجات

كشف معهد أبحاث Emdoor & IDEA عن UniTTS: نموذج صوت AI من طرف إلى طرف لإحداث ثورة في التفاعل بين الإنسان والحاسوب على الجهاز

2025-07-03
إدور

Originally by: معهد أبحاث إدور | July 03, 2025

في المشهد الرقمي الحديث ، يتم تحديد الواجهة بين البشر والآلات بشكل متزايد عن طريق الصوت. من مساعدي الهواتف الذكية إلى أجهزة التحكم في المنزل الذكي ، تعمل تقنية التفاعل الصوتي على إعادة تشكيل حياتنا اليومية بسرعة. ومع ذلك ، لا يزال هناك تحدٍ مستمر: تحقيق التواصل الطبيعي والسوائل والعواطف مع أجهزتنا. إن الطبيعة الآلية الرتيبة للعديد من الأنظمة القائمة تسلط الضوء على فجوة حرجة.

غالبًا ما تكافح أنظمة التفاعل الصوتي التقليدية لالتقاط واستخدام المعلومات الغنية وغير اللفظية المضمنة في الكلام البشري. هذه "الميزات شبه اللغوية"-مثل جرس ، وعواطف ، والعاطفة-ضرورية للتواصل الطبيعي ولكن كثيرا ما تضيع في الترجمة من قبل الآلات. ينتج عن ذلك خطاب مركب يفتقر إلى الأصالة والتعبير الذي نتوقعه. مع تقدم الذكاء الاصطناعي ، تطورت توقعات المستخدمين ؛ لم نعد نريد آلة تفهم الأوامر ببساطة ، ولكن آلة يمكنها التواصل مع الشخصية والفروق الدقيقة العاطفية.

لتحطيم هذه القيود والدخول في عصر جديد من التفاعل الصوتي الذكي على الجهاز ، معهد أبحاث إدورفي تعاون تاريخي مع قوانغدونغ هونغ كونغ ماكاو أكبر منطقة خليج الاقتصاد الرقمي البحوث (فكرة) معهد مختبر مشترك (معمل) ، تم تطويره يونيتتسسلسلة قوية من نماذج الخطاب الكبيرة من النهاية إلى النهاية.


التحدي الأساسي: ما وراء الكلمات إلى الفهم الشامل للصوت


أحد الأساليب السائدة في نمذجة تحويل النص إلى كلام (TTS) الحديثة يعتمد على نماذج لغة كبيرة (LLMs) معالجة رموز صوتية منفصلة. تعتمد فعالية هذه الطريقة بالكامل على جودة نظام الترميز المنفصل للصوت. يحاول العديد من الباحثين فصل الميزات الصوتية عن الميزات الدلالية (المحتوى). ومع ذلك ، فإن هذا الانفصال معيب بشكل أساسي. لا يمكن تصنيف جميع معلومات الكلام بدقة. على سبيل المثال ، التعبيرات العاطفية القوية مثل الابتسامة والبكاء والسخرية هي أحداث صوتية شاملة حيث ترتبط الصوتيات والدلالات ارتباطًا جوهريًا. علاوة على ذلك ، فإن بيانات "الصوت العالمي" عالية الجودة ، والتي تتضمن أصوات خلفية غنية أو مؤثرات صوتية ، تتحدى الفصل البسيط.

في حين أن البعض قد اعتمد حلول متعددة codebook مثل الطرق القائمة على GRFVQ لتحسين الأداء ، فإن هذا يزيد بشكل كبير من معدل البت في تسلسل الصوت المتسلسل. وتؤدي التسلسلات الطويلة الناتجة إلى تضخيم الصعوبة التي تواجه LLMs لنموذج العلاقات داخل الصوت ، مما يجعل معدل البت المنخفض مقياسًا حاسمًا للأداء على الجهاز.

لمعالجة هذا ، يقدم عملنا ديستيكوديك و يونيتتس. ديستيكوديك هو أداة تشفير أحادية جديدة تم تدريبها لتحقيق استخدام codebook موحد تقريبًا بنسبة 100 ٪. باستخدام التمثيل الصوتي المنفصل من ديستيكوديك ، قمنا بتدريب نموذج يونيتتس على القوة Qwen2.5-7 ب العمود الفقري.

مساهماتنا الرئيسية هي:

  1. طريقة تقطير جديدة لترميز الصوت: نستخدم بنجاح نموذج معلم متعدد الترميز (GRVQ) لتقطير معرفته في نموذج طالب واحد (ديستيكوديك). يحقق ذلك استخدام كتاب الشفرة شبه المثالي ويوفر تمثيلًا بسيطًا وفعالًا لضغط الصوت لا يتطلب فصل المعلومات الصوتية والدلالية.

  2. بنية حقيقية من طرف إلى طرف (يونيتتس): مبنية على قدرة ديستيكوديك على نمذجة ميزات الصوت الكاملة ، تمتلك يونيتتس قدرات كاملة من طرف إلى طرف لكل من المدخلات والمخرجات. هذا يسمح للصوت الذي تم إنشاؤه بواسطة يونيتتس بعرض تعبير عاطفي أكثر طبيعية وأصيلة.

  3. نموذج تدريب جديد لنماذج اللغة الصوتية: نقدم منهجية منظمة:

    • نمذجة الإدراك الصوتي: تدريب ديستيكوديك ، الذي يركز فقط على ميزة discretization باستخدام بيانات الصوت العالمية لتعزيز متانتها.

    • النمذجة المعرفية الصوتية: تدريب يونيتتس ، الذي ينقسم إلى ثلاث مراحل متميزة: قبل التدريب ، والضبط الدقيق تحت الإشراف (SFT) ، والمحاذاة. هذه العملية تعزز نمذجة ميزة الصوت الكاملة من ديستيكوديك من خلال دمج مهمة autoregressive الصوت الشامل أثناء التدريب المسبق. كما أنه يؤكد بشكل منهجي على تأثير المطالبات المختلفة المتداخلة للنص الصوتي أثناء التسويق عبر الإنترنت ويستخدم تحسين التفضيل المباشر لزيادة تحسين جودة توليد الكلام.


يونيتتس & ديستيكوديك: الهندسة التقنية


بنية نظام يونيتتس

بنية نظام يونيتتس


تتكون بنية يونيتتس من عنصرين أساسيتين: جهاز ALM (نموذج لغة الصوت) والعمود الفقري القائم على المحول.

  • ALM Tokenizer: وهذا يشمل توكنات النص القياسية لمعالجة النص ومبتكرة لدينا مشفر الصوت (ديستيكوديك) لتقديس وإعادة بناء الصوت.

  • العمود الفقري: هذا يعزز بنية محول فك التشفير فقط (Qwen2.5-7 ب) لأداء الانحدار التلقائي بالتناوب عبر طرائقين من الرموز (النص والتسجيلات الصوتية).

تم توسيع مفردات النموذج من حجمه الأصلي إلى 180000 رمز لتتسع إلى 32000 رمز صوتي مخصص إضافي تم إنشاؤه بواسطة ديستيكوديك.


هيكل التقطير: الكفاءة من خلال التقطير

هيكل ديستيكوديك

هيكل ديستيكوديك

شبكة ديستيكوديك ، كما هو موضح أعلاه ، تقوم أولاً بتحويل الصوت الخام إلى مخطط طيفي عبر تحويل Fourier. ثم يتم تمرير هذا المطياف من خلال كومة من الطبقات التلافيفية المتبقية للضغط الميزة. يقوم quantizer ، باستخدام طبقة خطية ، بإخراج هذه الميزات المضغوطة بالقرب من متجه codebook. يصبح مؤشر أقرب متجه هو التمثيل المنفصل لتلك الشريحة الصوتية. لإعادة البناء ، تقوم الشبكة القائمة على GAN بعكس هذه العملية لإنشاء شكل موجة صوتي مطابق.

عملية التدريب لdistilcodec.

عملية التدريب لdistilcodec.

عملية التدريب لdistilcodec فريدة من نوعها. نقوم أولاً بتدريب "برنامج ترميز المعلم" الذي يستخدم مزيجًا من GVQ و RVQ و FVQ مع 32 كتاب كوديبوك مميز. ثم نقوم بتهيئة "برنامج ترميز الطالب"-برنامج ترميز الطالب الخاص بنا-باستخدام المعلمات من جهاز تشفير المعلم وفك التشفير. يحتوي برنامج الترميز للطالب هذا على قيمة متبقية ومجموعة من 1 ، مما يجعله نموذجًا برمز واحد ، ولكن حجم كتاب الترميز الخاص به هو مجموع المعلم ، مما يسمح له بالتقاط تنوع صوتي هائل في بنية عالية الكفاءة.


نموذج التدريب ثلاثي المراحل من يونيتتس


تقدم نمذجة الصوت مساحة تمثيل أكبر بكثير من النص وحده. وبالتالي ، فإن الوصول إلى البيانات المقرونة للنص-الصوت واسعة النطاق وعالية الجودة هو شرط أساسي لتحقيق الانحدار التلقائي الصوتي للأغراض العامة.


المرحلة الأولى: مرحلة ما قبل التدريب


تستخدم يونيتتس استراتيجية تدريب مسبق متعددة المراحل.

  • المرحلة الأولى: نبدأ بـ LLM قائم على النص تم تدريبه مسبقًا ونقدم بيانات نصية وبيانات صوتية عالمية وكمية محدودة من البيانات المقترفة بالنص الصوتي. هذه المرحلة تعلم النموذج أساسيات النمذجة الصوتية. التحدي الرئيسي هنا هو "منافسة الطريقة" ، حيث يمكن أن يؤدي إدخال البيانات الصوتية إلى تدهور قدرات توليد النص الأصلي للنموذج.

  • المرحلة الثانية: لمواجهة هذا ، نقوم بدمج مجموعات بيانات التعليمات المستندة إلى النص مع مجموعات البيانات الصوتية والنصية العالمية الموجودة لدينا. هذا يعزز ويعزز قدرات توليد النص للنموذج مع تعزيز مهاراته الصوتية.

  • توسع السياق: ولاستيعاب الطبيعة المتسلسلة للبيانات الصوتية ، قمنا بتوسيع نافذة سياق النموذج من 8192 إلى 16384 رمز.


تستخدم يونيتتس استراتيجية تدريب مسبق متعددة المراحل.
منحنى خسارة ما قبل التدريب

المرحلة 2: الضبط الدقيق تحت الإشراف (SFT)


تؤثر جودة البيانات أثناء SFT بشكل كبير على قدرات النموذج النهائي. تحتوي مجموعات بيانات النص-الصوت الحالية مفتوحة المصدر على عيوب ملحوظة ، بما في ذلك التسميات الصاخبة الناتجة عن ASR والصمت الطويل غير الطبيعي من مصادر مثل الكتب الصوتية. للتغلب على هذا ، قمنا بتصميم طريقة تسجيل الجودة المركبة العملية لتصفية وترتيب عينات التدريب:

Supervised Fine-Tuning (SFT)

هنا ، Dnsmos (i) مرشحات فعالة للجودة الصوتية ، في حين Cer (i) (معدل خطأ الأحرف من إعادة التعليق التوضيحي) تصفية العينات ذات التسميات غير الدقيقة. من خلال إعادة الترتيب وتطبيق عتبة بناءً على درجة الجودة هذه ، قمنا بتحسين جودة بيانات التدريب لدينا بشكل كبير.


المرحلة 3: محاذاة الأفضلية


في حين أن SFT يساعد النموذج على تعلم أنماط خطاب محددة ، فإنه يمكن أن يؤدي في بعض الأحيان إلى مشاكل مثل تمدد أو تكرار غير طبيعي-مكافئ سمعي لـ "الببغاء" الذي يظهر في LLMs للنص فقط. لتحسين هذا ، اعتمدنا تحسين التفضيل. ومع ذلك ، يمكن أن يكون تحسين التفضيل المباشر القياسي (DPO) غير مستقر لنمذجة الصوت المتسلسلة الطويلة وقد يؤدي إلى انهيار الوضع.


محاذاة الأفضلية

محاذاة الأفضلية

لذلك ، يقدم يونيتتس تحسين التفضيل الخطي (LPO) كبديل أكثر استقرارًا. في وظيفة فقدان LPO ، حيث X1 و X2 يمثل النموذج عينات إيجابية وسلبية ، ويصقل مسار السياسة الخاص به من خلال الترويج بلطف لسياسة العينة الإيجابية مع كبت تقدير التمرير لكلتا العينتين. وهذا يعمل على استقرار عملية تحسين التفضيل لتسلسل الصوت الطويل ، مما يؤدي إلى مخرجات أكثر قوة وطبيعية.


النتائج التجريبية: دولة جديدة من الفن


قمنا بتقييم حيرة ديستيكوديك (pl) واستخدام codebook (الاستخدام) على مجموعة بيانات LibriSpeech النظيفة ومجموعات البيانات الصوتية الشاملة التي تم إنشاؤها ذاتيًا. تؤكد النتائج أن يحقق ديستيكوديك استخدام codebook بنسبة 100 ٪ تقريبًا، نتيجة شبه مثالية ، على كل من الكلام ومجموعات البيانات الصوتية العامة.

مقارنة معدل دفتر الرموز ومعدل الاستخدام ومعدل الارتباك

مقارنة معدل دفتر الرموز ومعدل الاستخدام ومعدل الارتباك

علاوة على ذلك ، يوضح تحليل شامل لاختبار تنظيف LibriSpeech قدرات ديستيكوديك الفائقة في إعادة بناء الكلام. بمعدل بت عالي الكفاءة يبلغ حوالي 1 كيلو بايت في الثانية ، يحقق ديستيكوديك أحدث أداء (SOTA) على مقياس STOIمما يدل على وضوح الخطاب الممتاز.

مقارنة شاملة لنماذج الترميز المختلفة

مقارنة شاملة لنماذج الترميز المختلفة

لإجراء تقييم دقيق للنظام الكامل ، قارنا يونيتتس مع مجموعة من الأساليب الرائدة الحالية ، بما في ذلك CosyVoice2 ، Spark-TTS ، LLaSA ، والكلام السمكي. تظهر النتائج بشكل لا لبس فيه أن يونيتتس-LPOالنموذج النهائي المحاذاة ، يحقق تحسينات شاملة في التعبير العاطفي والإخلاص والطبيعية بالمقارنة مع نسخة SFT فقط وجميع النماذج المنافسة الأخرى. هذا يتحقق من فعالية الترميز القائم على التقطير ، والنمذجة ميزة شاملة ، ومنهجية تدريب LPO المتقدمة.

Diversified unsupervised training

ميزة إدور: من مختبر الأبحاث إلى الواقع القوي


هذا البحث ليس مجرد تمرين علمي. لشركة مثل: إدورشركة رائدة في حلول الحوسبة الوعرة ، يعد تطوير يونيتتس خطوة استراتيجية لإعادة تعريف التفاعل بين الإنسان والحاسوب على الجهاز في أكثر البيئات تطلبًا في العالم.

كفاءة ديستيكوديك وقوة يونيتتس مناسبة تمامًا لسيناريوهات الحوسبة الحافة حيث تتفوق أجهزة إدور. النظر في تطبيقات العالم الحقيقي:

  • الخدمة الميدانية والتصنيع: يمكن للفنيين في مصنع صاخب إصدار أوامر لغة طبيعية معقدة إلى حاسبهم المتين ، وتلقي ملاحظات صوتية مركبة واضحة وهادئة ومناسبة للسياق ، حتى على صوت الآلات الثقيلة.

  • أول المستجيبين والسلامة العامة: يمكن للمسعفين التفاعل مع أجهزتهم دون استخدام اليدين ، حيث يتم قراءة بيانات المريض الحرجة بصوت عالٍ بنبرة تنقل الحاجة الملحة دون التسبب في الذعر. يمكن لضباط الشرطة تشغيل أنظمة داخل السيارة مع أوامر صوتية سائلة ، مع الحفاظ على أيديهم وعيونهم على الوضع.

  • الخدمات اللوجستية والتخزين: يمكن للعمال الذين يديرون الرافعات الشوكية أو إدارة المخزون التواصل مع نظام إدارة المستودعات عبر الصوت ، وتحسين الكفاءة والسلامة دون الحاجة إلى التوقف واستخدام لوحة المفاتيح.

تعني طبيعة الأجهزة على الأجهزة أن هذه التفاعلات يمكن أن تحدث على الفور ، دون الاعتماد على اتصال سحابي مستقر-وهو مطلب أساسي للعمليات المتنقلة والميدانية. من خلال دمج هذه التقنية في أجهزة الكمبيوتر المحمولة والأجهزة اللوحية والأجهزة المحمولة الوعرة ، تستعد إدور لتقديم تجربة مستخدم ليست فقط أكثر كفاءة ولكن أيضًا أكثر إنسانية بشكل أساسي.


الخلاصة: مستقبل الصوت هنا


من خلال تقنية الترميز المنفصل ذات الكفاءة العالية ، حقق ديستيكوديك الاستخدام شبه المثالي لكتابة شفرة واحدة ، ووضع أساس قوي ل lms الصوت تنوعا والتكيف. بناء على هذا ، نموذج يونيتتس ، مع استراتيجية التدريب عبر الوسائط مستقرة من ثلاث مراحل ، يمثل قفزة كبيرة إلى الأمام.

في سياق التفاعل بين الإنسان والحاسوب ، تقوم يونيتتس بأكثر من مجرد تحسين الطبيعة والطلاقة في التبادل الصوتي. فهي تجلب بعدًا جديدًا من العاطفة والشخصية لتجربة المستخدم ، وتحول الأجهزة من أدوات بسيطة إلى شركاء بديهيين ومتجاوبين. هذا التعاون بين معهد أبحاث إدور ومعهد أبحاث الأفكار ليس مجرد ابتكار في AI ؛ إنه مخطط لمستقبل التفاعل على الجهاز.