لبخوانی توسط هوش مصنوعی گوگل
به گزارش واحد فناوری اطلاعات سایبربان؛ محققان هوش مصنوعی گوگل در لندن با همکاری دانشمندان دانشگاه آکسفورد پیشرفتهترین نرمافزار لبخوانی جهان را ابداع کردهاند که با مشاهده تصاویر تلویزیونی قادر به درک مباحث طرحشده است.
محققان برای تکمیل این طرح هزاران ساعت برنامه تلویزیونی شبکه بیبیسی را در اختیار شبکه عصبی این نرمافزار گذاردند و به آن آموزش دادند که چگونه با تحلیل حرکات لب و دهان انسانها صحبتها را درک کند.
دقت این نرمافزار در آزمایشهای اولیه 46.8 درصد بوده و بنابراین برای تکمیل آن هنوز زمان قابلتوجهی نیاز است. البته دقت این نرمافزار چهار برابر بیشتر از یک لب خوان حرفهای بوده است. این فرد با مشاهده ویدئوهای پخششده تنها توانست با دقت 12.4 درصد گفتار مختلف را درک کند.
پیشازاین اساتید دانشگاه آکسفورد از روش مشابهی برای طراحی یک برنامه موبایلی لب خوان به نام LipNet استفاده کرده بودند که میتوانست با دقت 90 درصد محتوای برخی ویدئوهای ضبطشده داوطلبان را درک کند؛ اما نرمافزار جدید که Watch, Listen, Attend, and Spell نامگرفته قادر به لبخوانی از انواع ویدئوها بدون محدودیت است.