في مقالنا الأخير، نغوص في عالم تقنية مزامنة الشفاهRask AI المثيرة، مع توجيهات من رئيس قسم التعلم الآلي في الشركة ديما فيبيريلينكو. نأخذك إلى ما وراء الكواليس في مختبر Brask ML Lab، وهو مركز التميّز للتكنولوجيا، حيث نرى عن كثب كيف تُحدث أداة الذكاء الاصطناعي المبتكرة هذه طفرة في إنشاء المحتوى وتوزيعه. يضم فريقنا مهندسي تعلُّم الآلة وفناني المؤثرات البصرية الاصطناعية من الطراز العالمي الذين لا يكتفون بالتأقلم مع المستقبل فحسب، بل يصنعونه.
انضم إلينا لاكتشاف كيف تعمل هذه التكنولوجيا على تغيير الصناعة الإبداعية وتقليل التكاليف ومساعدة المبدعين على الوصول إلى الجماهير في جميع أنحاء العالم.
ما هي تقنية مزامنة الشفاه؟
أحد التحديات الرئيسية في توطين الفيديو هو الحركة غير الطبيعية للشفاه. صُممت تقنية مزامنة الشفاه للمساعدة في مزامنة حركات الشفاه مع المسارات الصوتية متعددة اللغات بفعالية.
كما تعلمنا من مقالنا الأخير، فإن تقنية مزامنة الشفاه أكثر تعقيدًا بكثير بالمقارنة مع مجرد الحصول على التوقيت الصحيح - ستحتاج إلى الحصول على حركات الفم بشكل صحيح. جميع الكلمات المنطوقة سيكون لها تأثير على وجه المتحدث، مثل حرف "O" سيخلق بالطبع شكل بيضاوي للفم لذا لن يكون حرف "M"، مما يضيف المزيد من التعقيد إلى عملية الدبلجة.
نقدم لك طراز مزامنة الشفاه الجديد بجودة أفضل!
لقد قرر فريق تعلم الآلة لدينا تحسين نموذج مزامنة الشفاه الحالي. ما هو السبب وراء هذا القرار، وما الجديد في هذا الإصدار مقارنة بالإصدار التجريبي؟
بُذلت جهود كبيرة لتحسين النموذج، بما في ذلك:
- دقة محسّنة: لقد قمنا بتحسين خوارزميات الذكاء الاصطناعي لتحليل ومطابقة التفاصيل الصوتية للغة المنطوقة بشكل أفضل، مما أدى إلى حركات شفاه أكثر دقة ومتزامنة بشكل وثيق مع الصوت بلغات متعددة.
- طبيعية محسّنة: من خلال دمج المزيد من بيانات التقاط الحركة المتقدمة وتحسين تقنيات التعلم الآلي لدينا، قمنا بتحسين طبيعية حركات الشفاه بشكل كبير، مما جعل كلام الشخصيات يبدو أكثر سلاسة وواقعية.
- زيادةالسرعة والكفاءة: لقد قمنا بتحسين النموذج لمعالجة مقاطع الفيديو بشكل أسرع دون التضحية بالجودة، مما يسهل سرعة إنجاز المشاريع التي تتطلب توطيناً واسع النطاق.
- إدماج ملاحظات المستخدمين: قمنا بفعالية بجمع الملاحظات من مستخدمي النسخة التجريبية ودمجنا رؤاهم في عملية التطوير لمعالجة مشاكل محددة وتعزيز رضا المستخدم بشكل عام.
كيف يقوم نموذج الذكاء الاصطناعي لدينا بمزامنة حركات الشفاه مع الصوت المترجم؟
ديما: "يعمل نموذج الذكاء الاصطناعي الخاص بنا من خلال دمج المعلومات من الصوت المترجم مع المعلومات المتعلقة بوجه الشخص في الإطار، ثم يدمجها في الإخراج النهائي. يضمن هذا الدمج مزامنة حركات الشفاه بدقة مع الكلام المترجم، مما يوفر تجربة مشاهدة سلسة".
ما الميزات الفريدة التي تجعل Premium Lip-Sync مثالية للمحتوى عالي الجودة؟
ديما "تم تصميم مزامنة الشفاه المتميزة خصيصًا للتعامل مع المحتوى عالي الجودة من خلال ميزاته الفريدة مثل إمكانية تعدد مكبرات الصوت والدعم عالي الدقة. ويمكنه معالجة مقاطع الفيديو بدقة تصل إلى 2K، مما يضمن الحفاظ على الجودة المرئية دون أي تنازلات. بالإضافة إلى ذلك، تسمح ميزة تعدد مكبرات الصوت بمزامنة الشفاه بدقة عبر مكبرات صوت مختلفة داخل الفيديو نفسه، مما يجعلها فعالة للغاية في الإنتاج المعقد الذي يتضمن شخصيات أو مكبرات صوت متعددة. تجعل هذه الميزات من Premium Lipsync الخيار الأفضل لمنشئي المحتوى الذين يهدفون إلى الحصول على محتوى احترافي".
وما هي ميزة مزامنة الشفاه متعددة السماعات؟
صُممت ميزة مزامنة الشفاه متعددة مكبرات الصوت لمزامنة حركات الشفاه بدقة مع الصوت المنطوق في مقاطع الفيديو التي تضم عدة أشخاص. تقوم هذه التقنية المتقدمة بتحديد الوجوه المتعددة في إطار واحد والتمييز بين الوجوه المتعددة في إطار واحد، مما يضمن تحريك حركات الشفاه لكل فرد بشكل صحيح وفقاً للكلمات المنطوقة.
كيفية عمل مزامنة الشفاه بمكبرات صوت متعددة:
- التعرف على الوجوه في الإطار: تتعرف الميزة في البداية على جميع الوجوه الموجودة في إطار الفيديو، بغض النظر عن عددها. فهي قادرة على تحديد كل فرد، وهو أمر بالغ الأهمية لمزامنة الشفاه بدقة.
- مطابقة الصوت: أثناء تشغيل الفيديو، تقوم التقنية بمحاذاة المسار الصوتي مع الشخص الذي يتحدث تحديداً. تضمن عملية المطابقة الدقيقة هذه أن يكون الصوت وحركات الشفاه متزامنة.
- مزامنة حركة الشفاه: بمجرد تحديد الشخص المتحدث، تقوم ميزة مزامنة الشفاه بإعادة رسم حركات الشفاه للشخص المتحدث فقط. لن يتم تغيير حركات الشفاه للأفراد غير المتحدثين في الإطار، مما يحافظ على حالتهم الطبيعية طوال الفيديو. تنطبق هذه المزامنة على المتحدث النشط فقط، مما يجعلها فعالة حتى في وجود أصوات خارج الشاشة أو وجوه متعددة في المشهد.
- التعامل معالصور الثابتة للشفاه: من المثير للاهتمام أن هذه التقنية متطورة أيضًا بما يكفي لإعادة رسم حركات الشفاه على الصور الثابتة للشفاه إذا ظهرت في إطار الفيديو، مما يدل على قدرتها المتعددة الاستخدامات.
تعمل ميزة مزامنة الشفاه متعددة المتحدثين هذه على تعزيز الواقعية وتفاعل المشاهد في المشاهد التي تحتوي على عدة متحدثين أو إعدادات فيديو معقدة من خلال ضمان أن شفاه الأفراد المتحدثين فقط هي التي تتحرك وفقًا للصوت. يساعد هذا النهج المستهدف في الحفاظ على التركيز على المتحدث النشط ويحافظ على الديناميكيات الطبيعية للتفاعلات الجماعية في مقاطع الفيديو.
من فيديو واحد فقط، بأي لغة، يمكنك إنشاء المئات من مقاطع الفيديو المخصصة التي تعرض عروضاً متنوعة بلغات متعددة. يُحدث هذا التنوع ثورة في كيفية تفاعل المسوقين مع جماهير متنوعة وعالمية، مما يعزز من تأثير المحتوى الترويجي ووصوله.
كيف توازن بين الجودة وسرعة المعالجة في مزامنة الشفاه الجديدة والمميزة؟
ديما "يمثل تحقيق التوازن بين الجودة العالية وسرعة المعالجة السريعة في Premium Lipsync تحديًا كبيرًا، ومع ذلك فقد قطعنا خطوات كبيرة في تحسين استدلال نموذجنا. يتيح لنا هذا التحسين إخراج أفضل جودة ممكنة بسرعة مناسبة".
هل هناك أي عيوب أو مفاجآت مثيرة للاهتمام واجهتها أثناء تدريب النموذج؟
بالإضافة إلى ذلك، أثبت العمل مع الانسدادات حول منطقة الفم أنه صعب للغاية. تتطلب هذه العناصر اهتماماً دقيقاً بالتفاصيل ونمذجة متطورة لتحقيق تمثيل واقعي ودقيق في تقنية مزامنة الشفاه.
كيف يضمن فريق التعلم الآلي خصوصية بيانات المستخدم وحمايتها عند معالجة مواد الفيديو؟
ديما يأخذ فريق التعلم الآلي لدينا خصوصية بيانات المستخدم وحمايتها على محمل الجد. بالنسبة لنموذج Lipsync، نحن لا نستخدم بيانات العملاء للتدريب، وبالتالي القضاء على أي خطر لسرقة الهوية. نحن نعتمد فقط على البيانات مفتوحة المصدر التي تأتي مع تراخيص مناسبة لتدريب نموذجنا. بالإضافة إلى ذلك، يعمل النموذج كمثيل منفصل لكل مستخدم، مما يضمن تسليم الفيديو النهائي للمستخدم المحدد فقط ويمنع أي تشابك للبيانات.
في جوهرنا، نحن ملتزمون بتمكين المبدعين، وضمان الاستخدام المسؤول للذكاء الاصطناعي في إنشاء المحتوى، مع التركيز على الحقوق القانونية والشفافية الأخلاقية. نحن نضمن عدم استخدام مقاطع الفيديو والصور والأصوات والأشباه الخاصة بك دون إذن صريح، مما يضمن حماية بياناتك الشخصية وأصولك الإبداعية.
نحن فخورون بعضويتنا في التحالف من أجل موثوقية المحتوى وأصالته (C2PA) ومبادرة أصالة المحتوى، مما يعكس تفانينا في الالتزام بنزاهة المحتوى وأصالته في العصر الرقمي. علاوةً على ذلك، تم الاعتراف بمؤسستنا ومديرتنا التنفيذية، ماريا شمير، في دليل Women in AI Ethics™، مما يسلط الضوء على ريادتنا في ممارسات الذكاء الاصطناعي الأخلاقية.
ما هي الآفاق المستقبلية لتطوير تقنية مزامنة الشفاه؟ هل هناك مجالات محددة تثير اهتمامك بشكل خاص؟
ديما: نحن نعتقد أن تقنية مزامنة الشفاه التي نقدمها يمكن أن تكون بمثابة أساس لمزيد من التطوير نحو الصور الرمزية الرقمية. نحن نتصور مستقبلاً يمكن فيه لأي شخص إنشاء محتوى وتوطينه دون تكبد تكاليف إنتاج الفيديو.
على المدى القصير، في غضون الشهرين المقبلين، نحن ملتزمون بتحسين أداء نموذجنا وجودته. يتمثل هدفنا في ضمان التشغيل السلس لمقاطع الفيديو بدقة 4K وتحسين الأداء الوظيفي مع ترجمة مقاطع الفيديو إلى اللغات الآسيوية. تعد هذه التطورات بالغة الأهمية حيث نهدف إلى توسيع نطاق إمكانية الوصول إلى تقنيتنا وسهولة استخدامها، مما يمهد الطريق للتطبيقات المبتكرة في إنشاء المحتوى الرقمي، فكسر حواجز اللغة لم يكن قريبًا جدًا من قبل! جرّب وظيفة مزامنة الشفاه المحسّنة وأرسل لنا ملاحظاتك حول هذه الميزة.
الأسئلة المتداولة
مزامنة الشفاه متوفرة في باقات Creator Pro وArvor Pro وArfation Pro وBusiness وErprise.
دقيقة واحدة من مزامنة الشفاه التي تم إنشاؤها تساوي دقيقة واحدة مخصومة من إجمالي رصيدك من الدقائق.
يتم خصم دقائق مزامنة الشفاه تمامًا كما هو الحال عند دبلجة مقاطع الفيديو الخاصة بك.
يتم احتساب تكلفة مزامنة الشفاه بشكل منفصل عن الدبلجة. على سبيل المثال، لترجمة ومزامنة الشفاه لمقطع فيديو مدته دقيقة واحدة إلى لغة واحدة، تحتاج إلى دقيقتين.
قبل إنشاء مزامنة الشفاه، ستتمكن من اختبار دقيقة واحدة مجانية لتقييم جودة التقنية.
تعتمد سرعة توليد مزامنة الشفاه على عدد مكبرات الصوت في الفيديو ومدته وجودته وحجمه.
على سبيل المثال، فيما يلي المعدل التقريبي لتوليد مزامنة الشفاه لمقاطع فيديو مختلفة:
مقاطع فيديو بمكبر صوت واحد
- 4 دقائق فيديو 1080p 1080p ≈ 29 دقيقة
- 10 دقائق 1080p 1080p ≈ 2 ساعة 10 دقائق
- فيديو بدقة 4K 10 دقائق 4K ≈ 8 ساعات
مقاطع فيديو مع 3 مكبرات صوت:
- 10 دقائق 1080p 1080p ≈ 5 ساعات و20 دقيقة
- قم بتحميل الفيديو الخاص بك عبر الرابط من YouTube أو Google Drive أو قم بتحميل الملف مباشرة من جهازك. اختر اللغة المستهدفة وانقر على زر الترجمة.
- أضف تعليقًا صوتيًا إلى الفيديو الخاص بك في Rask AI عبر زر "دبلجة الفيديو".
- للتحقق من توافق الفيديو الخاص بك مع مزامنة الشفاه، انقر على زر "التحقق من مزامنة الشفاه".
- إذا كان متوافقاً، تابع بالنقر على زر مزامنة الشفاه.
- بعد ذلك، اختر عدد الوجوه التي تريدها في الفيديو الخاص بك - إما "1" أو "2+"، ثم اضغط على "بدء مزامنة الشفاه". فقط للتنبيه، هذا يتعلق بعدد الوجوه وليس مكبرات الصوت.