تحويل المقاطع الصوتية إلى وجوه رقمية متحركة بواسطة تقنية DIRFA

كشف فريق من الباحثين بجامعة نانيانغ التكنولوجية، سنغافورة (NTU Singapore) عن برنامج كمبيوتر مبتكر يسمى DIRFA (الرسوم المتحركة المتنوعة للوجه التي لا تزال واقعية).

يوضح هذا التقدم القائم على الذكاء الاصطناعي قدرة مدهشة، إذ يحول مقطعًا صوتيًّا بسيطًا وصورة لوجه ثابت إلى فيديو رسوم متحركة 3D واقعي.

يتميز هذا البرنامج عن غيره بأنه يستطيع إنشاء مزامنة دقيقة للشفاه مع الصوت مصحوبة بمجموعة غنية من تعابير الوجه وحركات الرأس الطبيعية، داخل الفيديو المبتكر. 

اقرأ ايضاً عمليات تحسين الصوت

ما هي تقنية DIRFA؟

تكمن الوظيفة الأساسية لـ DIRFA في خوارزميته المتقدمة التي تمزج بسلاسة الصوت مع الصور الفوتوغرافية وتدمجهما لإنشاء فيديو ثلاثي الأبعاد، بواسطة التحليل الدقيق لأنماط الكلام والنغمات داخل الصوت، ثم ينشئ محاكاة لتعبيرات الوجه مع حركات الرأس، ما يزيد جودة واقعية الفيديو الناتج.

يمثل تطوير DIRFA تحسنًا كبيرًا مقارنة بالتقنيات السابقة في هذا المجال، التي غالبًا ما تتصارع مع تعقيدات المواقف المختلفة والتعبيرات العاطفية.

تواجه الوسائل التقليدية عمومًا صعوبة في تكرار التفاصيل الدقيقة للعواطف البشرية بدقة، أو قدرتها على التعامل مع المواقف المختلفة لحركات لرأس تكون محدودة، ومع ذلك، تفوق فريق عمل DIRFA في التقاط مجموعة واسعة من الفروق الدقيقة العاطفية ودمجها مع حركات الرأس المختلفة، ما يقدم مخرجات أكثر تنوعًا وواقعية.

هذا التقدم ليس فقط خطوة إلى الأمام في تكنولوجيا الذكاء الاصطناعي، ولكنه يفتح أيضا آفاقًا جديدة للتفاعل مع الوسائط الرقمية واستخدامها، ويقدم لمحات عن مستقبل يأخذ فيه الاتصال الرقمي طبيعة واقعية وتعبيرية أكثر.

اقرأ ايضاً ما هي الميسوفونيا؟وما أسبابها وطرق علاجها؟

التدريب والتكنولوجيا وراء DIRFA

إن قدرة DIRFA على تكرار تعابير الوجه الشبيهة بالإنسان وحركات الرأس بهذه الدقة هي نتيجة لعملية تدريب مكثفة، إذ درب فريق NTU Singapore البرنامج على مجموعة بيانات ضخمة، أكثر من مليون مقطع سمعي وبصري حصلوا عليها من مجموعة بيانات VoxCeleb2.

تتضمن مجموعة البيانات هذه مجموعة متنوعة من تعابير الوجه وحركات الرأس وأنماط الكلام من أكثر من 6000 فرد، ومن خلال تعريض DIRFA لمثل هذه المجموعة الواسعة والمتنوعة من البيانات السمعية والبصرية، تعلم البرنامج التعرف على الفروق الدقيقة التي تميز التعبيرات البشرية والكلام وتكرارها.

اقرأ ايضاً كيفية تحويل ترجمة الفيديو إلى صوت

التطبيقات المحتملة

أعلن دكتور وو رونغليانغ المسؤول الأول عن dirfa أن أحد أكثر تطبيقاته في المرحلة المقبلة سوف تخدم صناعة الرعاية الصحية، مثل تطوير المساعدين الافتراضيين وروبوتات الدردشة.

وبفضل قدرته على إنشاء رسوم متحركة واقعية وحساسة للوجه، يمكن لـ DIRFA تعزيز تجربة المستخدم بدرجة كبيرة عبر منصات الرعاية الصحية الرقمية، ما يجعل المحادثات أكثر واقعية وجاذبية.

ثم إن هذه التكنولوجيا تستطيع تقديم الراحة العاطفية والرعاية الشخصية بواسطة الوسائل الافتراضية، وهو جانب رئيس غالبًا ما يكون مفقودًا في حلول الرعاية الصحية الرقمية الحالية.

لدى DIRFA أيضًا إمكانات هائلة لمساعدة الأفراد الذين يعانون إعاقات في الكلام أو التعبير، وبالنسبة لأولئك الذين يواجهون تحديات في التواصل اللفظي أو تعبيرات الوجه، يمكن أن يكون DIRFA بمنزلة أداة قوية تمكنهم من التعبير عن أفكارهم ومشاعرهم بواسطة الصور الرمزية التعبيرية أو التمثيلات الرقمية، ما يعزز قدرتهم على التواصل بفاعلية كبيرة، وسد الفجوة بين أفكارهم وتعبيراتهم.

ومن خلال إتاحة وسيلة رقمية للتعبير، يمكن لـ DIRFA أن تؤدي دورًا مهمًّا في تمكين هؤلاء الأفراد، ومنحهم فرصة جديدة للتفاعل والتعبير عن أنفسهم في العالم الرقمي.

التحديات والتوجهات المستقبلية

أعلن فريق عمل DIRFA أن إنشاء تعبيرات وجه نابضة بالحياة من إدخال الصوت، يمثل تحديًا معقدًا في مجال اتصالات الذكاء الاصطناعي والوسائط المتعددة، إذ إن نمط الكلام لكل شخص فريد من نوعه، ويمكن أن تختلف تعبيرات وجهه بدرجة كبيرة حتى مع الإدخال الصوتي نفسه.

وتوجد حاجة لزيادة درجة التحكم التي يتيحها DIRFA على الواجهة وتعبيرات الإخراج للبرنامج.. على سبيل المثال، يعد عدم القدرة على ضبط تعبيرات معينة -مثل تحريك الحاجب في أثناء الابتسامة- عقبة يريدون التغلب عليها قبل إتاحة التطبيق ووصوله إلى المستخدم.

لذلك، يخطط فريق NTU لتعزيز DIRFA بمجموعة أكثر تنوعًا من مجموعات البيانات التي تتضمن مجموعة أوسع من تعبيرات الوجه ومقاطع الصوت، ما يؤدي إلى تحسين دقة وواقعية الرسوم المتحركة للوجه التي أنشأتها DIRFA، ما يجعلها أكثر تنوعًا وقابلية للتكيف مع السياقات والتطبيقات المختلفة.

اقرأ ايضاً حظر الطيران أسرع من الصوت.. معلومات لا تفوتك

تأثير وإمكانات DIRFA

يهدف فريق عمل DIRFA، بنهجه غير المسبوق، في تجميع الرسوم المتحركة الواقعية للوجه من الصوت، لإحداث ثورة في مجال اتصالات الوسائط المتعددة، وتدفع هذه التقنية حدود التفاعل الرقمي، ما يطمس الخط الفاصل بين العالمين الرقمي والمادي، بتمكين إنشاء محاكاة رقمية دقيقة ونابضة بالحياة، وتعزز جودة وأصالة الاتصالات الرقمية.

ملاحظة: المقالات والمشاركات والتعليقات المنشورة بأسماء أصحابها أو بأسماء مستعارة لا تمثل الرأي الرسمي لجوَّك بل تمثل وجهة نظر كاتبها ونحن لا نتحمل أي مسؤولية أو ضرر بسبب هذا المحتوى.

ما رأيك بما قرأت؟
إذا أعجبك المقال اضغط زر متابعة الكاتب وشارك المقال مع أصدقائك على مواقع التواصل الاجتماعي حتى يتسنى للكاتب نشر المزيد من المقالات الجديدة والمفيدة والإيجابية..

تعليقات

يجب عليك تسجيل الدخول أولاً لإضافة تعليق.

مقالات ذات صلة