الرجوع إلى المدونة

ما وراء الكواليس: مختبرنا للتعلم الآلي

ماريا جوكوفا

رئيس قسم النسخ في براسك

نُشر

30 أبريل 2024

,

آخر تحديث

22 أغسطس 2024

,

16

قراءة دقيقة

,

ما بالداخل

المثال H4

المثال H6

في مقالنا الأخير، نغوص في عالم تقنية مزامنة الشفاهRask AI المثيرة، مع توجيهات من رئيس قسم التعلم الآلي في الشركة ديما فيبيريلينكو. نأخذك إلى ما وراء الكواليس في مختبر Brask ML Lab، وهو مركز التميّز للتكنولوجيا، حيث نرى عن كثب كيف تُحدث أداة الذكاء الاصطناعي المبتكرة هذه طفرة في إنشاء المحتوى وتوزيعه. يضم فريقنا مهندسي تعلُّم الآلة وفناني المؤثرات البصرية الاصطناعية من الطراز العالمي الذين لا يكتفون بالتأقلم مع المستقبل فحسب، بل يصنعونه.

انضم إلينا لاكتشاف كيف تعمل هذه التكنولوجيا على تغيير الصناعة الإبداعية وتقليل التكاليف ومساعدة المبدعين على الوصول إلى الجماهير في جميع أنحاء العالم.

ما هي تقنية مزامنة الشفاه؟

أحد التحديات الرئيسية في توطين الفيديو هو الحركة غير الطبيعية للشفاه. صُممت تقنية مزامنة الشفاه للمساعدة في مزامنة حركات الشفاه مع المسارات الصوتية متعددة اللغات بفعالية.

كما تعلمنا من مقالنا الأخير، فإن تقنية مزامنة الشفاه أكثر تعقيدًا بكثير بالمقارنة مع مجرد الحصول على التوقيت الصحيح - ستحتاج إلى الحصول على حركات الفم بشكل صحيح. جميع الكلمات المنطوقة سيكون لها تأثير على وجه المتحدث، مثل حرف "O" سيخلق بالطبع شكل بيضاوي للفم لذا لن يكون حرف "M"، مما يضيف المزيد من التعقيد إلى عملية الدبلجة.

نقدم لك طراز مزامنة الشفاه الجديد بجودة أفضل!

لقد قرر فريق تعلم الآلة لدينا تحسين نموذج مزامنة الشفاه الحالي. ما هو السبب وراء هذا القرار، وما الجديد في هذا الإصدار مقارنة بالإصدار التجريبي؟

ديما فيبرايلينكو

رئيس التعلم الآلي في Rask AI

على الرغم من أن نتائج مزامنة الشفاه التي حققناها كانت رائعة وحظيت باهتمام إعلامي كبير، بما في ذلك البث التلفزيوني والمقابلات حول تقنيتنا، إلا أننا عندما أصدرنا نسختنا التجريبية من نموذج مزامنة الشفاه، أدركنا أنها لم تلبِ توقعات الجودة لجميع شرائح المستخدمين. كان هدفنا الأساسي هو سد هذه الفجوة، وضمان أن يتمكن مستخدمونا من توطين المكون الصوتي للمحتوى الخاص بهم بشكل فعال، ليس فقط المكون الصوتي للمحتوى الخاص بهم ولكن أيضاً مكون الفيديو.

بُذلت جهود كبيرة لتحسين النموذج، بما في ذلك:

دقة محسّنة: لقد قمنا بتحسين خوارزميات الذكاء الاصطناعي لتحليل ومطابقة التفاصيل الصوتية للغة المنطوقة بشكل أفضل، مما أدى إلى حركات شفاه أكثر دقة ومتزامنة بشكل وثيق مع الصوت بلغات متعددة.
‍طبيعية محسّنة: من خلال دمج المزيد من بيانات التقاط الحركة المتقدمة وتحسين تقنيات التعلم الآلي لدينا، قمنا بتحسين طبيعية حركات الشفاه بشكل كبير، مما جعل كلام الشخصيات يبدو أكثر سلاسة وواقعية.
‍زيادةالسرعة والكفاءة: لقد قمنا بتحسين النموذج لمعالجة مقاطع الفيديو بشكل أسرع دون التضحية بالجودة، مما يسهل سرعة إنجاز المشاريع التي تتطلب توطيناً واسع النطاق.
‍إدماج ملاحظات المستخدمين: قمنا بفعالية بجمع الملاحظات من مستخدمي النسخة التجريبية ودمجنا رؤاهم في عملية التطوير لمعالجة مشاكل محددة وتعزيز رضا المستخدم بشكل عام.

كيف يقوم نموذج الذكاء الاصطناعي لدينا بمزامنة حركات الشفاه مع الصوت المترجم؟

ديما: "يعمل نموذج الذكاء الاصطناعي الخاص بنا من خلال دمج المعلومات من الصوت المترجم مع المعلومات المتعلقة بوجه الشخص في الإطار، ثم يدمجها في الإخراج النهائي. يضمن هذا الدمج مزامنة حركات الشفاه بدقة مع الكلام المترجم، مما يوفر تجربة مشاهدة سلسة".

ما الميزات الفريدة التي تجعل Premium Lip-Sync مثالية للمحتوى عالي الجودة؟

ديما "تم تصميم مزامنة الشفاه المتميزة خصيصًا للتعامل مع المحتوى عالي الجودة من خلال ميزاته الفريدة مثل إمكانية تعدد مكبرات الصوت والدعم عالي الدقة. ويمكنه معالجة مقاطع الفيديو بدقة تصل إلى 2K، مما يضمن الحفاظ على الجودة المرئية دون أي تنازلات. بالإضافة إلى ذلك، تسمح ميزة تعدد مكبرات الصوت بمزامنة الشفاه بدقة عبر مكبرات صوت مختلفة داخل الفيديو نفسه، مما يجعلها فعالة للغاية في الإنتاج المعقد الذي يتضمن شخصيات أو مكبرات صوت متعددة. تجعل هذه الميزات من Premium Lipsync الخيار الأفضل لمنشئي المحتوى الذين يهدفون إلى الحصول على محتوى احترافي".

وما هي ميزة مزامنة الشفاه متعددة السماعات؟

صُممت ميزة مزامنة الشفاه متعددة مكبرات الصوت لمزامنة حركات الشفاه بدقة مع الصوت المنطوق في مقاطع الفيديو التي تضم عدة أشخاص. تقوم هذه التقنية المتقدمة بتحديد الوجوه المتعددة في إطار واحد والتمييز بين الوجوه المتعددة في إطار واحد، مما يضمن تحريك حركات الشفاه لكل فرد بشكل صحيح وفقاً للكلمات المنطوقة.

كيفية عمل مزامنة الشفاه بمكبرات صوت متعددة:

التعرف على الوجوه في الإطار: تتعرف الميزة في البداية على جميع الوجوه الموجودة في إطار الفيديو، بغض النظر عن عددها. فهي قادرة على تحديد كل فرد، وهو أمر بالغ الأهمية لمزامنة الشفاه بدقة.
‍مطابقة الصوت: أثناء تشغيل الفيديو، تقوم التقنية بمحاذاة المسار الصوتي مع الشخص الذي يتحدث تحديداً. تضمن عملية المطابقة الدقيقة هذه أن يكون الصوت وحركات الشفاه متزامنة.
‍مزامنة حركة الشفاه: بمجرد تحديد الشخص المتحدث، تقوم ميزة مزامنة الشفاه بإعادة رسم حركات الشفاه للشخص المتحدث فقط. لن يتم تغيير حركات الشفاه للأفراد غير المتحدثين في الإطار، مما يحافظ على حالتهم الطبيعية طوال الفيديو. تنطبق هذه المزامنة على المتحدث النشط فقط، مما يجعلها فعالة حتى في وجود أصوات خارج الشاشة أو وجوه متعددة في المشهد.
‍التعامل معالصور الثابتة للشفاه: من المثير للاهتمام أن هذه التقنية متطورة أيضًا بما يكفي لإعادة رسم حركات الشفاه على الصور الثابتة للشفاه إذا ظهرت في إطار الفيديو، مما يدل على قدرتها المتعددة الاستخدامات.

تعمل ميزة مزامنة الشفاه متعددة المتحدثين هذه على تعزيز الواقعية وتفاعل المشاهد في المشاهد التي تحتوي على عدة متحدثين أو إعدادات فيديو معقدة من خلال ضمان أن شفاه الأفراد المتحدثين فقط هي التي تتحرك وفقًا للصوت. يساعد هذا النهج المستهدف في الحفاظ على التركيز على المتحدث النشط ويحافظ على الديناميكيات الطبيعية للتفاعلات الجماعية في مقاطع الفيديو.

من فيديو واحد فقط، بأي لغة، يمكنك إنشاء المئات من مقاطع الفيديو المخصصة التي تعرض عروضاً متنوعة بلغات متعددة. يُحدث هذا التنوع ثورة في كيفية تفاعل المسوقين مع جماهير متنوعة وعالمية، مما يعزز من تأثير المحتوى الترويجي ووصوله.

كيف توازن بين الجودة وسرعة المعالجة في مزامنة الشفاه الجديدة والمميزة؟

ديما "يمثل تحقيق التوازن بين الجودة العالية وسرعة المعالجة السريعة في Premium Lipsync تحديًا كبيرًا، ومع ذلك فقد قطعنا خطوات كبيرة في تحسين استدلال نموذجنا. يتيح لنا هذا التحسين إخراج أفضل جودة ممكنة بسرعة مناسبة".

ديما فيبرايلينكو

رئيس التعلم الآلي في Rask AI

نحن نركز على معالجة المعلومات الضرورية فقط من الفيديو الخاص بالمستخدم، مما يسرّع بشكل كبير من وقت معالجة النموذج. من خلال تبسيط البيانات التي يحتاج نموذجنا إلى تحليلها، نضمن الكفاءة والحفاظ على مخرجات عالية الجودة، مما يلبي متطلبات منشئي المحتوى المحترفين.

هل هناك أي عيوب أو مفاجآت مثيرة للاهتمام واجهتها أثناء تدريب النموذج؟

ديما فيبرايلينكو

رئيس التعلم الآلي في Rask AI

نعم، هناك العديد من التحديات المثيرة للاهتمام التي واجهتنا، خاصةً فيما يتعلق بالحرص على أن تبدو الشفاه وشعر الوجه والأسنان بشكل صحيح. وكأننا جميعاً حصلنا على شهادة في طب الأسنان في مرحلة ما!

بالإضافة إلى ذلك، أثبت العمل مع الانسدادات حول منطقة الفم أنه صعب للغاية. تتطلب هذه العناصر اهتماماً دقيقاً بالتفاصيل ونمذجة متطورة لتحقيق تمثيل واقعي ودقيق في تقنية مزامنة الشفاه.

كيف يضمن فريق التعلم الآلي خصوصية بيانات المستخدم وحمايتها عند معالجة مواد الفيديو؟

ديما يأخذ فريق التعلم الآلي لدينا خصوصية بيانات المستخدم وحمايتها على محمل الجد. بالنسبة لنموذج Lipsync، نحن لا نستخدم بيانات العملاء للتدريب، وبالتالي القضاء على أي خطر لسرقة الهوية. نحن نعتمد فقط على البيانات مفتوحة المصدر التي تأتي مع تراخيص مناسبة لتدريب نموذجنا. بالإضافة إلى ذلك، يعمل النموذج كمثيل منفصل لكل مستخدم، مما يضمن تسليم الفيديو النهائي للمستخدم المحدد فقط ويمنع أي تشابك للبيانات.

في جوهرنا، نحن ملتزمون بتمكين المبدعين، وضمان الاستخدام المسؤول للذكاء الاصطناعي في إنشاء المحتوى، مع التركيز على الحقوق القانونية والشفافية الأخلاقية. نحن نضمن عدم استخدام مقاطع الفيديو والصور والأصوات والأشباه الخاصة بك دون إذن صريح، مما يضمن حماية بياناتك الشخصية وأصولك الإبداعية.

نحن فخورون بعضويتنا في التحالف من أجل موثوقية المحتوى وأصالته (C2PA) ومبادرة أصالة المحتوى، مما يعكس تفانينا في الالتزام بنزاهة المحتوى وأصالته في العصر الرقمي. علاوةً على ذلك، تم الاعتراف بمؤسستنا ومديرتنا التنفيذية، ماريا شمير، في دليل Women in AI Ethics™، مما يسلط الضوء على ريادتنا في ممارسات الذكاء الاصطناعي الأخلاقية.

ما هي الآفاق المستقبلية لتطوير تقنية مزامنة الشفاه؟ هل هناك مجالات محددة تثير اهتمامك بشكل خاص؟

ديما: نحن نعتقد أن تقنية مزامنة الشفاه التي نقدمها يمكن أن تكون بمثابة أساس لمزيد من التطوير نحو الصور الرمزية الرقمية. نحن نتصور مستقبلاً يمكن فيه لأي شخص إنشاء محتوى وتوطينه دون تكبد تكاليف إنتاج الفيديو.

على المدى القصير، في غضون الشهرين المقبلين، نحن ملتزمون بتحسين أداء نموذجنا وجودته. يتمثل هدفنا في ضمان التشغيل السلس لمقاطع الفيديو بدقة 4K وتحسين الأداء الوظيفي مع ترجمة مقاطع الفيديو إلى اللغات الآسيوية. تعد هذه التطورات بالغة الأهمية حيث نهدف إلى توسيع نطاق إمكانية الوصول إلى تقنيتنا وسهولة استخدامها، مما يمهد الطريق للتطبيقات المبتكرة في إنشاء المحتوى الرقمي، فكسر حواجز اللغة لم يكن قريبًا جدًا من قبل! جرّب وظيفة مزامنة الشفاه المحسّنة وأرسل لنا ملاحظاتك حول هذه الميزة.

الأسئلة المتداولة

مركز الأخبار

يجب أن يقرأ