خرداد ۱۵
دبیر خبر | ۳۰ اردیبهشت ۱۳۹۹

شرکت پژوهشی OpenAI پروژه هوش مصنوعی Jukebox را معرفی کرد

مدل هوش مصنوعی Jukebox شرکت OpenAI می‌تواند آهنگ بسازد و با کمک محققان متن آهنگ را نیز بنویسد.

به گزارش کار گروه فناوری اطلاعات سایبربان ؛ شرکت پژوهشی هوش مصنوعی OpenAI امروز پروژه‌ی Jukebox (جوک‌باکس) را رونمایی کرد که اولین نمونه‌ی هوش مصنوعی تولیدکننده‌ی موسیقی است. بااینکه ممکن است خروجی‌های این پروژه ازنظر موسیقایی، به نظر نسخه‌ای آبکی و بدون شالوده‌ی آهنگ‌ها باشد و حس آشنایی در شنونده ایجاد کند، ازنظر فنی پیشرفت چشمگیری به شمار می‌رود. بر اساس آنچه اوپن ای‌آی در وبلاگ خود منتشر کرده است، ازآنجاکه موسیقی به‌طرز عمیقی با احساسات درگیر است و درک آن برای هوش مصنوعی بسیار پیچیده و سخت خواهد بود، محققان تلاش خود را بر موسیقی متمرکز کردند. شاید به‌باور بسیاری از افراد، آهنگ‌های تولید‌شده‌ی مدل جوک‌باکس موسیقی به‌حساب نیاید؛ اما درهرصورت، نتایج به‌دست‌آمده گام بزرگی است و تقریباً در هر آهنگ برخی آکورد‌ها و ملودی‌ها و کلمات تشخیص‌دادنی است.

روش اجرای این پروژه‌ی آزمایشگاه هوش مصنوعی OpenAI بسیار جالب بوده است. آن‌ها برای آموزش جوک‌باکس به‌جای استفاده از ملودی‌های نمادین آماده که در اصطلاح به آن پیانولا می‌گویند و فاقد کلام و آواز است، از آوازها و صداهای خام استفاده کرده‌اند تا این مدل هوش مصنوعی چگونگی تولید صدای خام را آموزش ببیند. همچنین برای بازدهی بهتر در نتایج، محققان ابتدا با کمک شبکه‌ی عصبی پیچشی صدای خام را رمزگذاری و فشرده کردند. سپس از طریق فایل به‌دست‌آمده و استفاده ازآنچه تبدیل‌کننده می‌نامند و با آهنگ‌های متفاوتی آموزش‌دیده است، صدایی فشرده تولید کردند. درنهایت، فایل تولیدشده را اصطلاحاً آپ‌سمپل (Upsmaple) کردند تا امکان رمزگشایی فایل را ایجاد کنند و بعد از رمزگشایی، صدای خام جدید را به‌دست آورند. به‌عکس زیر توجه کنید.

در پردازش سیگنال‌های دیجیتالی، فرایند آپسمپلینگ به معنای انبساط یا درون‌یابی پردازش نرخ نمونه‌برداری سیگنال گسسته و تبدیل آن به سیگنال پیوسته است. به‌عبارت‌دیگر، در فرایند آپ‌سمپلینگ با اضافه کردن نمونه‌هایی باارزش صفر در بین نمونه‌های اصلی، نرخ نمونه‌برداری را افزایش می‌دهیم. این داده‌های فاقد ارزش (Zero-Valued) در اساس فایل اصلی تأثیری نمی‌گذارد و تنها سبب انباسط نسبت آن می‌شود.

رویکرد به کار گرفته‌شده مشابه همان روشی است که OpenAI پیش‌از‌این در توسعه و راه‌اندازی هوش مصنوعی ساخت آهنگ MuseNet استفاده کرده است. البته جوک‌باکس پا را فراتر می‌گذارد و علاوه بر موسیقی، متن آهنگ را نیز با همکاری محققان شرکت تولید می‌کند. همچنین، برخلاف سرویس MuseNet که از داده‌های MIDI برای ساخت آهنگ استفاده می‌کند، مدل جوک‌باکس بر پایه‌ی ۱/۲ میلیون آهنگ مختلف آموزش داده‌شده که نیمی از آن‌ها به زبان انگلیسی است. علاوه‌براین، فراداده‌ها (Metadata) و متن شعرهای هر آهنگ از لیریک‌ویکی (LyricWiki) استخراج شده‌اند. برای مثال، اطلاعات مربوط به ژانرهای مختلف و هنرمندان نیز دردسترس هوش مصنوعی قرار داده‌شده‌ تا کیفیت و بازدهی خروجی مدل را افزایش دهد. طبق آنچه در وبلاگ شرکت منتشرشده، محققان محدودیت‌هایی نیز برای هوض مصنوعی تعریف کرده‌اند.

آن‌ها در پست وبلاگی خود نوشتند:

جوک‌باکس گامی فراتر در کیفیت موسیقی و انسجام موسیقایی و مدت‌زمان نمونه‌ی صدای هوش مصنوعی رفته است و توانایی آموزش‌دیده به‌وسیله‌ی هنرمندان و ژانرهای موسیقی و متن آهنگ‌ها را دارد. بااین‌حال، همچنان تفاوت آهنگ‌هایی که می‌سازد با آنچه انسان هنرمندانه ساخته، کاملاً به چشم می‌آید. برای مثال، بااینکه آهنگ‌های تولید‌شده‌ی هوش مصنوعی انسجام موسیقایی محلی در امتداد الگو‌های آکوردهای سنتی را به نمایش می‌گذارد و می‌تواند تکنوازی‌های گیرایی ایجاد کند، ساختارهای بزرگ و آشنا مثل همخوانی و تکرار را در این آهنگ‌ها نمی‌شنویم.

ناگفته نماند مشکلاتی نیز در این آزمایش به وجود آمده است. چری هو، نویسنده و گوینده، در حساب توییتر خود اشاره‌کرده است جوک‌باکس فاجعه‌ا‌ی بالقوه درزمینه‌ی کپی‌رایت به شمار می‌رود. جالب است بدانید در همین هفته، جی-زی (Jay-Z)، خواننده‌ی آمریکایی، با استفاده از حق کپی‌رایت تلاش کرد صدای شبیه‌سازی‌شده‌ی خود با دیپ‌فیک را از یوتیوب حذف کند.

چری هو گفته است:

آیا کانیه وست و کیتی پری و لوپه فیاسکو و وکلای آرتا فرانکلین و فرانک سیناترا و الویس پریسلی اجازه خواهند داد شرکت OpenAI از صدای آن‌ها برای آموزش هوش مصنوعی خود در ساختار الگوریتم شبیه‌سازی صدا و آهنگ‌سازی و شعر نوشتن استفاده کند؟ حدس می‌زنم پاسخ به این پرسش «خیر» است.

با همه‌ی این‌ها، جوک‌باکس دستاوردی شگفت‌انگیز است که مرزهای ناممکن را جابه‌جا می‌کند؛ حتی اگر به‌باور اکثر افراد، آنچه جوک‌باکس ساخته، شنیدنی نباشد و هنوز به توسعه نیاز داشته باشد.

منبع: زومیت

نظرات

2 + 11 =