في عالم التكنولوجيا المتقدمة، تمكن فريق من مختبر Hunyuan التابع لـ Tencent من تطوير نظام ذكاء اصطناعي جديد يُعرف باسم ‘Hunyuan Video-Foley’ والذي أحدث طفرة في عالم الصوتيات المولدة عبر الفيديو. يهدف هذا النظام إلى إضافة صوتيات حقيقية ومتناغمة مع الحركة في الفيديوهات المولدة، مما يعزز من تجربة المشاهدة ويضفي عليها لمسة من الواقع.
التحديات التي تواجه الصوتيات المولدة عبر الذكاء الاصطناعي
عند مشاهدة الفيديوهات التي يُنشئها الذكاء الاصطناعي، قد تكون الصور مذهلة، لكن غالبًا ما يفتقر الصوت إلى الحياة، مما يخلق فجوة في التجربة الكلية. في صناعة الأفلام، يُطلق على الصوتيات التي تملأ هذا الصمت اسم فن الفولي، وهو حرفة تتطلب مهارة ودقة عالية من الخبراء.
التحدي الأكبر الذي واجه الأنظمة الآلية لسنوات هو إنتاج أصوات قابلة للتصديق للفيديوهات. تتطلب هذه العملية القدرة على التقاط التفاصيل الدقيقة ومزامنة الصوت مع الحركة بدقة، وهو ما كانت تفتقر إليه الأنظمة السابقة.
حلول Tencent للمشكلات الصوتية في الفيديوهات المولدة
لاحظت Tencent أن أحد الأسباب الرئيسية لفشل نماذج تحويل الفيديو إلى صوت (V2A) هو ما أطلق عليه الباحثون “اختلال التوازن في الوسائط”. كانت أنظمة الذكاء الاصطناعي تلك تعتمد بشكل أكبر على النصوص المرفقة بدلاً من التركيز على محتوى الفيديو الفعلي.
على سبيل المثال، إذا تم إعطاء النموذج فيديو لشاطئ مكتظ بالناس والطيور، لكن النص المرفق يشير فقط إلى “صوت الأمواج”، فإن النموذج سيركز على الأمواج متجاهلاً الأصوات الأخرى مثل خطوات الأقدام أو نداء الطيور. إضافة إلى ذلك، كانت جودة الصوتيات المنتجة غالبًا دون المستوى المطلوب، ولم يكن هناك كم كافٍ من الفيديوهات عالية الجودة مع الصوت لتدريب النماذج بفاعلية.
استراتيجية Tencent في التعليم العميق والتكنولوجيا المتطورة
عمل فريق Hunyuan على معالجة هذه المشكلات من ثلاث زوايا مختلفة. أولاً، قاموا ببناء مكتبة ضخمة تضم 100,000 ساعة من الفيديوهات، الصوتيات، والوصف النصي لتعليم الذكاء الاصطناعي. كما طوروا نظامًا آليًا لتصفية المحتوى ذي الجودة المنخفضة من الإنترنت، مما يضمن أن يتعلم الذكاء الاصطناعي من أفضل المواد المتاحة.
ثانيًا، صمموا بنية أكثر ذكاءً للذكاء الاصطناعي، بحيث يتعلم النموذج كيفية القيام بمهام متعددة بشكل صحيح. يبدأ النظام بالتركيز على الرابط بين الصوت والصورة لضبط التوقيت بشكل دقيق، مثل مطابقة صوت الخطوات مع اللحظة التي تلامس فيها القدم الأرض. بعد ضبط التوقيت، يدمج النظام النص المرفق لفهم السياق العام والمزاج للمشهد.
استراتيجية محاذاة التمثيل لتحسين جودة الصوتيات
لتأكيد جودة الصوتيات التي ينتجها الذكاء الاصطناعي، استخدم الفريق استراتيجية تدريب تُعرف باسم محاذاة التمثيل (REPA). تُشبه هذه الاستراتيجية وجود مهندس صوت خبير يراقب الذكاء الاصطناعي أثناء تدريبه، مما يوجهه نحو إنتاج صوتيات أنقى وأغنى وأكثر استقرارًا.
عند اختبار Hunyuan Video-Foley ضد نماذج الذكاء الاصطناعي الرائدة الأخرى، كانت النتائج واضحة. لم تكن المقاييس الحاسوبية فقط أفضل، بل أيضًا المستمعون البشر صنفوا الإنتاج على أنه ذو جودة أعلى وأكثر توافقًا مع الفيديو سواء في المحتوى أو التوقيت.
الخاتمة
تعتبر جهود Tencent في تطوير Hunyuan Video-Foley خطوة هامة نحو سد الفجوة بين الفيديوهات الصامتة التي يُنتجها الذكاء الاصطناعي وتجربة المشاهدة الغامرة بالصوتيات عالية الجودة. إنها تقدم سحر فن الفولي إلى عالم إنشاء المحتوى الآلي، مما يوفر إمكانيات قوية لصناع الأفلام، الرسامين، والمبدعين في كل مكان.