شرکت پژوهشی OpenAI پروژه هوش مصنوعی Jukebox را معرفی کرد
به گزارش کار گروه فناوری اطلاعات سایبربان ؛ شرکت پژوهشی هوش مصنوعی OpenAI امروز پروژهی Jukebox (جوکباکس) را رونمایی کرد که اولین نمونهی هوش مصنوعی تولیدکنندهی موسیقی است. بااینکه ممکن است خروجیهای این پروژه ازنظر موسیقایی، به نظر نسخهای آبکی و بدون شالودهی آهنگها باشد و حس آشنایی در شنونده ایجاد کند، ازنظر فنی پیشرفت چشمگیری به شمار میرود. بر اساس آنچه اوپن ایآی در وبلاگ خود منتشر کرده است، ازآنجاکه موسیقی بهطرز عمیقی با احساسات درگیر است و درک آن برای هوش مصنوعی بسیار پیچیده و سخت خواهد بود، محققان تلاش خود را بر موسیقی متمرکز کردند. شاید بهباور بسیاری از افراد، آهنگهای تولیدشدهی مدل جوکباکس موسیقی بهحساب نیاید؛ اما درهرصورت، نتایج بهدستآمده گام بزرگی است و تقریباً در هر آهنگ برخی آکوردها و ملودیها و کلمات تشخیصدادنی است.
روش اجرای این پروژهی آزمایشگاه هوش مصنوعی OpenAI بسیار جالب بوده است. آنها برای آموزش جوکباکس بهجای استفاده از ملودیهای نمادین آماده که در اصطلاح به آن پیانولا میگویند و فاقد کلام و آواز است، از آوازها و صداهای خام استفاده کردهاند تا این مدل هوش مصنوعی چگونگی تولید صدای خام را آموزش ببیند. همچنین برای بازدهی بهتر در نتایج، محققان ابتدا با کمک شبکهی عصبی پیچشی صدای خام را رمزگذاری و فشرده کردند. سپس از طریق فایل بهدستآمده و استفاده ازآنچه تبدیلکننده مینامند و با آهنگهای متفاوتی آموزشدیده است، صدایی فشرده تولید کردند. درنهایت، فایل تولیدشده را اصطلاحاً آپسمپل (Upsmaple) کردند تا امکان رمزگشایی فایل را ایجاد کنند و بعد از رمزگشایی، صدای خام جدید را بهدست آورند. بهعکس زیر توجه کنید.
در پردازش سیگنالهای دیجیتالی، فرایند آپسمپلینگ به معنای انبساط یا درونیابی پردازش نرخ نمونهبرداری سیگنال گسسته و تبدیل آن به سیگنال پیوسته است. بهعبارتدیگر، در فرایند آپسمپلینگ با اضافه کردن نمونههایی باارزش صفر در بین نمونههای اصلی، نرخ نمونهبرداری را افزایش میدهیم. این دادههای فاقد ارزش (Zero-Valued) در اساس فایل اصلی تأثیری نمیگذارد و تنها سبب انباسط نسبت آن میشود.
رویکرد به کار گرفتهشده مشابه همان روشی است که OpenAI پیشازاین در توسعه و راهاندازی هوش مصنوعی ساخت آهنگ MuseNet استفاده کرده است. البته جوکباکس پا را فراتر میگذارد و علاوه بر موسیقی، متن آهنگ را نیز با همکاری محققان شرکت تولید میکند. همچنین، برخلاف سرویس MuseNet که از دادههای MIDI برای ساخت آهنگ استفاده میکند، مدل جوکباکس بر پایهی ۱/۲ میلیون آهنگ مختلف آموزش دادهشده که نیمی از آنها به زبان انگلیسی است. علاوهبراین، فرادادهها (Metadata) و متن شعرهای هر آهنگ از لیریکویکی (LyricWiki) استخراج شدهاند. برای مثال، اطلاعات مربوط به ژانرهای مختلف و هنرمندان نیز دردسترس هوش مصنوعی قرار دادهشده تا کیفیت و بازدهی خروجی مدل را افزایش دهد. طبق آنچه در وبلاگ شرکت منتشرشده، محققان محدودیتهایی نیز برای هوض مصنوعی تعریف کردهاند.
آنها در پست وبلاگی خود نوشتند:
جوکباکس گامی فراتر در کیفیت موسیقی و انسجام موسیقایی و مدتزمان نمونهی صدای هوش مصنوعی رفته است و توانایی آموزشدیده بهوسیلهی هنرمندان و ژانرهای موسیقی و متن آهنگها را دارد. بااینحال، همچنان تفاوت آهنگهایی که میسازد با آنچه انسان هنرمندانه ساخته، کاملاً به چشم میآید. برای مثال، بااینکه آهنگهای تولیدشدهی هوش مصنوعی انسجام موسیقایی محلی در امتداد الگوهای آکوردهای سنتی را به نمایش میگذارد و میتواند تکنوازیهای گیرایی ایجاد کند، ساختارهای بزرگ و آشنا مثل همخوانی و تکرار را در این آهنگها نمیشنویم.
ناگفته نماند مشکلاتی نیز در این آزمایش به وجود آمده است. چری هو، نویسنده و گوینده، در حساب توییتر خود اشارهکرده است جوکباکس فاجعهای بالقوه درزمینهی کپیرایت به شمار میرود. جالب است بدانید در همین هفته، جی-زی (Jay-Z)، خوانندهی آمریکایی، با استفاده از حق کپیرایت تلاش کرد صدای شبیهسازیشدهی خود با دیپفیک را از یوتیوب حذف کند.
چری هو گفته است:
آیا کانیه وست و کیتی پری و لوپه فیاسکو و وکلای آرتا فرانکلین و فرانک سیناترا و الویس پریسلی اجازه خواهند داد شرکت OpenAI از صدای آنها برای آموزش هوش مصنوعی خود در ساختار الگوریتم شبیهسازی صدا و آهنگسازی و شعر نوشتن استفاده کند؟ حدس میزنم پاسخ به این پرسش «خیر» است.
با همهی اینها، جوکباکس دستاوردی شگفتانگیز است که مرزهای ناممکن را جابهجا میکند؛ حتی اگر بهباور اکثر افراد، آنچه جوکباکس ساخته، شنیدنی نباشد و هنوز به توسعه نیاز داشته باشد.
