1 min read
1 min read
يواصل العلماء دفع حدود الابتكار التقني، بعدما تمكّن فريق بحثي من تطوير نظام ذكي قادر على التفاعل مع البشر بطريقة طبيعية، ما يجعل التفريق بين السلوك البشري والآلي أكثر تعقيدًا من أي وقت مضى، ويفتح آفاقًا جديدة في عالم الذكاء الاصطناعي.
وتمكّن فريق البحث من ابتكار روبوت يسمى "إيمو" (EMO)، يستطيع مزامنة حركة شفتيه مع الكلام بدقة عالية، متجنباً ما يجعل الروبوتات تبدو مقلقة عندما تقترب من الشكل البشري دون أن تطابقه تماماً.
واعتمد العلماء في تدريب الروبوت على أسلوب مبتكر، سمحوا من خلاله له بمراقبة انعكاس صورته في المرآة، ليتعلّم العلاقة بين حركة محركات وجهه الستة والعشرين المصنوعة من السيليكون وبين التعابير التي ينتجها، وتتمتع هذه المحركات بقدرة على الحركة ضمن عشر درجات من الحرية لكل منها.
وخلال مرحلة التدريب، حرّك EMO آلاف التعابير العشوائية أمام المرآة، مستخدماً نظام ذكاء اصطناعي يُعرف بـ"نموذج الرؤية إلى الفعل" (VLA)، الذي يترجم ما يراه إلى حركات جسدية دون الاعتماد على قواعد مسبقة.
وبعد ذلك، عرّضه العلماء لساعات طويلة من مقاطع الفيديو التي تظهر أشخاصاً يتحدثون ويغنون بلغات مختلفة، ما ساعده على ربط حركات وجهه بالأصوات المنطوقة، دون أن يفهم معناها، وفي نهاية المطاف، أصبح قادراً على استقبال الكلام بعشر لغات ومزامنة شفتيه بدقة شبه مثالية.
وقال هود ليبسون، أستاذ الهندسة ومدير مختبر الآلات الإبداعية في جامعة كولومبيا: "واجهنا صعوبات مع بعض الأصوات التي تتطلب ضمّ الشفاه، لكن الأداء يتحسن مع الوقت والتدريب".
وقبل الإعلان الرسمي عن الروبوت، أجرى العلماء اختبارات على 1300 متطوع، عرضوا عليهم مقاطع فيديو لثلاث طرق مختلفة لتحريك فم EMO، بينها طريقة VLA وطريقتان تقليديتان، إضافةً إلى نموذج مرجعي مثالي.
وطُلب من المشاركين اختيار المقطع الأقرب إلى حركة الشفاه الطبيعية، فاختار 62.46% منهم تقنية VLA، مقابل نسب أقل للطريقتين الأخريين، ما أكد تفوق النموذج الجديد.
وأكد الفريق أن تعابير الوجه تلعب دوراً محورياً في التواصل الإنساني، إذ تظهر دراسات حديثة أن الأشخاص ينظرون إلى وجوه من يتحدثون إليهم معظم الوقت، مع تركيز ملحوظ على حركة الفم، التي تؤثر بدورها على فهم الأصوات.
ويرى الفريق أن تجاهل هذا الجانب كان سبباً رئيسياً في فشل محاولات سابقة لإنتاج روبوتات مقنعة.
وأوضح ليبسون أن كثيراً من المطورين يركزون على حركة الأطراف، بينما تُهمل تعابير الوجه، رغم أهميتها في التطبيقات التي تتطلب تفاعلاً مباشراً مع البشر، مثل التعليم والرعاية الصحية وخدمة كبار السن.
46 sec read
3 min read
2 min read
54 sec read
43 sec read
38 sec read
24 sec read
ستكون دائمًا على اطلاع على آخر التحديثات والعروض
يرجى المحاولة مرة أخرى لاحقًا