دنیای موسیقی

چگونه هوش مصنوعی مولد دنیای موسیقی را متحول می‌کند

سرفصل‌های مقاله

سال گذشته، سالی پرحادثه در دنیای موسیقی مولد بود. در ماه آوریل، اولین کاور موزیک هوش مصنوعی منتشر شد: «قلب در آستین من» نویسنده ارواح، که دنیای موسیقی را با این واقعیت بیدار کرد که محتوای هوش مصنوعی زاینده نه تنها می‌تواند وجود داشته باشد، بلکه می‌تواند خوب هم باشد.

بلافاصله پس از آن، Google از MusicLM، ابزاری برای تبدیل متن به موسیقی که آهنگ‌ها را از یک دستور اولیه تولید می‌کند، رونمایی کرد. پل مک کارتنی از هوش مصنوعی برای استخراج صدای جان لنون برای آهنگ جدید بیتلز استفاده کرد. و گریمز 50 درصد از حق امتیاز پخش آهنگ‌هایی را که از شبیه‌سازی هوش مصنوعی صدای او استفاده می‌کردند، به سازندگان ارائه کردند. و شاید مهم‌تر از همه، MusicGen منبع باز متا بود، یک مدل تولید موسیقی که می‌تواند یک پیام متنی را به نمونه‌های باکیفیت تبدیل کند. این حرکت به تنهایی باعث ایجاد انبوهی از برنامه‌های جدید شد که از این مدل برای کمک به افراد در ایجاد آهنگ استفاده می‌کنند و آن را گسترش می‌دهند.

مشابه نحوه‌ای که سازها، موسیقی ضبط شده، سینت سایزرها و سمپلرها همگی باعث افزایش تعداد سازندگان و مصرف کنندگان موسیقی در هنگام معرفی شدند، ما معتقدیم که موسیقی مولد به هنرمندان کمک می‌کند تا با محو کردن خطوط بین هنرمند، مصرف کننده، تولید کننده، جهشی خلاقانه مشابه داشته باشند. با کاهش چشمگیر اصطکاک از ایده تا خلاقیت، هوش مصنوعی به افراد بیشتری اجازه می‌دهد وارد دنیای موسیقی شوند، موسیقی بسازند و در عین حال توانایی‌های خلاقانه هنرمندان و تولیدکنندگان موجود را نیز افزایش می‌دهد.

در این مقاله، به کارهایی که مردم امروز انجام می‌دهند می‌پردازیم، کشف می‌کنیم که موسیقی هوش مصنوعی به کجا می‌رود و تعدادی از شرکت‌ها و قابلیت‌های نوظهور در خط مقدم این فضا را بیان می‌کنیم. محصولاتی که برای مصرف‌کنندگان روزمره ساخته می‌شوند، بسیار متفاوت از تولیدکنندگان/سازندگان یا موارد استفاده تجاری هستند.

دسته‌بندی هوش مصنوعی زاینده در دنیای موسیقی

هوش مصنوعی زاینده در دنیای موسیقی

پخش موسیقی در زمان واقعی

تا کنون، اکثر محصولات نوظهور استریم مولد در رده موسیقی کاربردی بوده‌اند: اپلیکیشن‌هایی مانند Endel، Brain.fm، و Aimi. آن‌ها لیست‌های پخش بی‌پایانی را تولید می‌کنند تا به شما کمک کنند تا در یک حال و هوای خاص قرار بگیرید و سپس بر اساس زمان روز و فعالیت‌تان سازگار شوید. (با این حال، موسیقی کاربردی شروع به همگرایی با موسیقی سنتی کرده است، زیرا لیبل‌های قدرتمند مانند UMG با شرکت‌های موسیقی مولد مانند Endel برای ایجاد نسخه‌های “عملکردی” از نسخه‌های جدید محبوب شریک می‌شوند.)

در برنامه Endel، اگر در حالت “deep work” در مقابل حالت “trying to relax” هستید، می‌توانید بشنوید که چگونه صدا کاملاً متفاوت است. اندل همچنین با خلاقان همکاری کرده است تا مناظر صوتی را بر اساس کار آنها تولید کند، مانند یک آلبوم مولد.

بیشتر محصولات موجود در فضای پخش دنیای موسیقی بر روی مناظر صوتی یا نویز پس‌زمینه متمرکز شده‌اند و آواز تولید نمی‌کنند. اما، تصور آینده‌ای که در آن برنامه‌های استریم مبتنی بر هوش مصنوعی می‌توانند موسیقی سنتی‌تری را با آوازهای تولید شده توسط هوش مصنوعی نیز ایجاد کنند، سخت نیست. همانطور که موسیقی ضبط شده آلبوم طولانی پخش را به عنوان قالبی برای موسیقی به ارمغان آورد، می‌توان مدل‌های مولد را تصور کرد که “آهنگ‌های بی‌نهایت” را به عنوان یک قالب جدید فعال می‌کند.

اگر مجبور نباشید محصول را با متن درخواست کنید، جالب‌تر می‌شود. اگر در عوض بتوانید راهنمایی کلی در مورد ژانرها یا هنرمندانی که به آنها علاقه دارید ارائه دهید، یا حتی اجازه دهید که از تاریخچه شنیداری گذشته شما بدون نیاز به اطالعات بیاموزید، چه؟ یا اگر محصول به تقویم شما متصل شود تا قبل از یک جلسه بزرگ لیست پخش کاملی را ارائه دهد، چه؟

Iphone Endel 2048x1511 min

Spotify به سمت لیست‌های پخش شخصی‌سازی شده و به صورت خودکار گام برداشته است. در فوریه، آن‌ها یک دی‌جی هوش مصنوعی راه‌اندازی کردند که مجموعه‌ای از موسیقی را در کنار تفسیر تنظیم می‌کند. این بر اساس جدیدترین موسیقی‌هایی است که گوش داده‌اید و همچنین موسیقی‌های مورد علاقه قدیمی – به‌علاوه، مرتباً مجموعه را بر اساس بازخورد شما تازه‌سازی می‌کند. و در این ماه، آنها از “Daylist” پرده‌برداری کردند. یک لیست پخش خودکار که چندین بار در روز بر اساس آنچه معمولاً در زمان‌های خاص به آن گوش می‌دهید به روز می‌شود.

جای تعجب نیست که Spotify موسیقی جدیدی تولید نمی‌کند، بلکه در عوض این لیست‌های پخش را از آهنگ‌های موجود تنظیم می‌کند. اما تکامل‌یافته‌ترین نسخه این محصول احتمالاً شامل ترکیبی از محتوا، مناظر صوتی، سازها و آهنگ‌های ساخته‌شده توسط هوش مصنوعی و خلق‌شده توسط انسان است.

کاورهای هوش مصنوعی

کاورهای تولید شده توسط هوش مصنوعی مسلماً اولین مورد استفاده قاتل برای دنیای موسیقی هوش مصنوعی بودند. از زمانی که «Heart on My Sleeve» در آوریل منتشر شد، صنعت کاور هوش مصنوعی رشد کرد و ویدیوهایی با برچسب #aicover بیش از ۱۰ میلیارد بازدید در TikTok داشتند.

بخش اعظم این فعالیت توسط سازندگان در AI Hub Discord آغاز شد که قبل از تعطیلی آن در اوایل اکتبر پس از ادعاهای مکرر نقض حق نسخه‌برداری، بیش از 500 هزار عضو داشت، و همانطور که در زیر بحث می‌شود، این نگرانی‌های حقوقی برطرف نشده است.

این سرور اکنون به جوامع خصوصی بیشتری تقسیم شده است که در آن کاربران مدل‌های صوتی را برای شخصیت‌ها یا هنرمندان خاص آموزش می‌دهند و به اشتراک می‌گذارند. بسیاری از تبدیل صدای مبتنی بر بازیابی استفاده می‌کنند، که اساسا یک کلیپ صحبت کردن (یا آواز خواندن!) فردی را به صدای شخص دیگری تبدیل می‌کند. برخی از کارشناسان، با وجود عدم اطمینان قانونی، حتی راهنماهایی در مورد نحوه آموزش یک مدل و ساخت روکش با آن ایجاد کرده‌اند و پیوندهایی به مدل‌هایی که آموزش داده‌اند را برای دانلود دیگران ارسال می‌کنند.

AI Hubs Discord Server 2048x1439 1

اجرای یکی از این مدل‌ها به صورت محلی نیاز به کمی پیچیدگی فنی دارد. اکنون تعدادی جایگزین مبتنی بر مرورگر وجود دارد که کارهای سنگین را برای شما انجام می‌دهد. محصولاتی مانند Musicfy، Voicify، Covers و Kits نمونه‌هایی از محصولات جدید هستند که سعی در ساده‌سازی فرآیند دارند. بیشتر آنها از شما می‌خواهند که یک کلیپ از خود (یا شخص دیگری) در حال آواز خواندن برای تغییر صدا آپلود کنید، اما ما انتظار داریم که متن به آهنگ در آینده باشد (محصولاتی مانند Uberduck در حال حاضر این کار را برای رپرها انجام می‌دهند).

مشکل اصلی حل نشده، کاورهای هوش مصنوعی با حقوق قانونی است که اگر در این فضا کار می‌کنید باید در نظر گرفته شود.

با این حال، عدم اطمینان قانونی مشابه با تغییرات دیگری در فناوری همراه بوده است. به عنوان مثال، دعوی قضایی و ادعاهای مربوط به نمونه‌برداری که سال‌های اولیه هیپ‌هاپ را تعریف کرد. پس از سال‌ها دعوای قضایی که در اوایل دهه 1990 شروع شد، بسیاری از هنرمندان نمونه «اصلی» متوجه شدند که یافتن یک توافق اقتصادی با کسانی که مایل به نمونه‌برداری از آثارشان هستند، هم از نظر خلاقانه و هم از نظر مالی مثبت است. لیبل‌ها تیم‌های کاملی را به پاک‌سازی نمونه‌ها اختصاص دادند و بیز مارکی حتی آلبومی با عنوان «همه نمونه‌ها پاک شد» منتشر کرد.

در حالی که برخی از برچسب‌ها و هنرمندان از دنیای موسیقی هوش مصنوعی احساس خطر می‌کنند، برخی دیگر فرصت‌ها را می‌بینند، آنها می‌توانند درآمدی غیرفعال از دیگر سازندگانی که آهنگ‌هایی را تولید می‌کنند که از صدای آنها استفاده می‌کنند، بدون نیاز به کار، کسب کنند! گریمز بهترین نمونه از این موضوع است، زیرا او محصولی به نام Elf.tech منتشر کرد که دیگران را قادر می‌سازد با صدای او آهنگ‌های جدیدی بسازند. او متعهد شده است که حق امتیاز را با هر آهنگ ساخته شده توسط هوش مصنوعی که بتواند درآمدزایی داشته باشد تقسیم کند.

ما انتظار داریم که شاهد ظهور زیرساخت‌ها برای حمایت از این‌کار در مقیاس بزرگتر باشیم. به عنوان مثال، هنرمندان به مکانی برای ذخیره مدل‌های صوتی سفارشی خود، ردیابی کاورهای هوش مصنوعی و درک جریان‌ها و درآمدزایی در مسیرها نیاز دارند. برخی از هنرمندان یا تهیه‌کنندگان حتی ممکن است بخواهند از مدل‌های صدای خود برای آزمایش اشعار مختلف استفاده کنند، ببینند صدای مشخصی در یک آهنگ چگونه به نظر می‌رسد یا با همکاران مختلف در یک آهنگ آزمایش کنند.

آهنگ‌های بدون حق امتیاز (معروف به AI Muzak)

آهنگ‌های بدون حق امتیاز

با حرکت به سمت ابزارهای خریدار، اگر تا به حال یک ویدیوی یوتیوب، پادکست یا هر نوع محتوای ویدیویی برای یک کسب‌وکار ایجاد کرده‌اید، احتمالاً مشکل پیدا کردن موسیقی بدون حق امتیاز را تجربه کرده‌اید. در حالی که کتابخانه های موسیقی موجود هستند، اغلب برای پیمایش چالش برانگیز هستند و از بهترین آهنگ ها استفاده بیش از حد می‌شود. حتی یک ژانر در دنیای موسیقی که اغلب مورد تمسخر قرار می‌گیرد وجود دارد که این صدای فراموش شدنی، اما بدون حق امتیاز، را تعریف می کند: «muzak» یا «موسیقی آسانسور».

موسیقی تولید شده توسط هوش مصنوعی را وارد کنید. محصولاتی مانند Beatoven، Soundraw، و Boomy ساخت آهنگ‌های منحصر به فرد و بدون حق امتیاز را برای هر کسی آسان می‌کند. این ابزارها معمولاً به شما این امکان را می‌دهند که یک ژانر، حالت و سطح انرژی را برای آهنگ خود انتخاب کنید و سپس از ورودی‌های خود برای تولید خودکار آهنگ جدید استفاده کنید. برخی از این ابزارها به شما امکان می‌دهند خروجی را در صورتی که کاملاً درست نیست ویرایش کنید، به عنوان مثال، افزایش یا کاهش سرعت، افزودن یا کم کردن ابزارهای خاص، یا حتی تنظیم مجدد نت‌ها.

ما انتظار داریم که آینده دنیای موسیقی بدون حق امتیاز تقریباً به طور کامل توسط هوش مصنوعی تولید شود. این ژانر قبلاً کالایی شده است، بنابراین تصور دنیایی که در آن تمام موسیقی پس‌زمینه توسط هوش مصنوعی ایجاد می‌شود، سخت نیست و ما تعادل تاریخی بین کیفیت و هزینه را می‌شکنیم.

اولین پذیرندگان این محصولات عمدتاً تولیدکنندگان محتوا و SMB‌ها بوده‌اند. با این حال، ما انتظار داریم که این ابزارها از نظر فروش سنتی سازمانی به شرکت‌های بزرگ‌تر مانند استودیوهای بازی‌سازی و تولید موسیقی تعبیه‌شده در پلتفرم‌های ایجاد محتوا از طریق APIها، به بازار ارتقاء یابند.

نسل موسیقی

شاید هیجان‌انگیزترین مفهوم مدل‌های بزرگ همراه با موسیقی، پتانسیل تولیدکنندگان اتاق خواب و سایر فروشندگان (از جمله کسانی که فاقد آموزش موسیقی رسمی هستند) برای ایجاد موسیقی حرفه‌ای باشد. تعدادی از قابلیت‌های کلیدی در اینجا عبارتند از:

  • در حال نقاشی : چند یادداشت‌برداری که یک تهیه کننده بازی می‌کند و عبارت را «پر» می‌کند
  • فراتر از نقاشی: گرفتن بخشی از یک آهنگ و برون‌یابی که ممکن است چند نوار بعدی چگونه باشد. این در حال حاضر توسط MusicGen با تنظیم “ادامه” پشتیبانی می‌شود.
  • صدا به MIDI: تبدیل صدا به MIDI از جمله پیچ و خم، سرعت و سایر ویژگی‌های MIDI، همانطور که از طریق محصول Basic Pitch Spotify در دسترس است.
  • جداسازی stem: با استفاده از فناوری‌هایی مانند Demucs، یک آهنگ را به پایه‌هایی از جمله آواز، بیس‌لاین و سازهای کوبه‌ای تبدیل کنید.

می‌توانید گردش کار یک تولید کننده آینده را به شکل زیر تصور کنید:

  1. آهنگی را که می‌خواهید نمونه‌برداری کنید، به‌طور مناسب پاک کنید
  2. stemها را تقسیم کنید و یک عنصر صوتی جالب را به MIDI تبدیل کنید
  3. چند نت را روی سینت سایزر پخش کنید و سپس از نقاشی درونی برای پر کردن عبارت استفاده کنید
  4. این عبارت را با استفاده از نقاشی بیرونی به چند عبارت دیگر تعمیم دهید
  5. آهنگی بسازید (با استفاده از فناوری مولد برای ایجاد تک‌شات)، موزیسین‌های استودیویی را کپی یا گسترش دهید، و بر آهنگ به سبک خاصی مسلط شوید.

ما همچنین شاهد ظهور محصولات فقط نرم افزاری هستیم که بر بخش‌های مختلف پشته تولید تمرکز دارند. به عنوان مثال، تولید نمونه (Soundry AI)، ملودی (MelodyStudio)، فایل‌های MIDI (Lemonaide، AudioCipher)، یا حتی میکس کردن (RoEx).

بسیار مهم است که این مدل‌ها چندوجهی باشند و موسیقی و سایر ورودی‌های صوتی را بپذیرند زیرا بسیاری از افراد واژگان لازم برای توصیف صداهای دقیق مورد نظر خود را ندارند. ما انتظار داریم که شاهد یک حلقه محکم بین سخت افزار و نرم افزار باشیم، از جمله ظهور «ابزارهای مولد»، که ممکن است کنترلرهای DJ و سینت سایزرهایی باشند که این ایده‌ها را مستقیماً در محصول فیزیکی جاسازی می‌کنند.

ابزارهای حرفه‌ای

ابزارهای حرفه‌ای

در نهایت، دسته جدیدی از محصولات موسیقی هوش مصنوعی را لمس می‌کنیم: ابزارهای حرفه‌ای که در جریان کاری تولیدکنندگان موسیقی، هنرمندان و برچسب‌ها استفاده می‌شوند. (توجه داشته باشید که در حالی که می‌گوییم حرفه‌ای، بسیاری از این محصولات به سازندگان مستقل یا آماتور نیز خدمت می‌کنند.)

این محصولات از نظر پیچیدگی و موارد استفاده و همچنین میزان ادغام آنها در جریان کار تولید سنتی بسیار متفاوت است. می‌توانیم آنها را به 3 دسته اصلی تقسیم کنیم:

  • ابزارهای مبتنی بر مرورگر که بر یک عنصر از خط لوله ایجاد یا ویرایش تمرکز دارند و برای همه قابل دسترسی هستند. برای بهره‌مندی از آنها نیازی به استفاده از نرم افزارهای تولید سنتی ندارید. به عنوان مثال، Demucs (یک مدل منبع باز از Meta)، Lalal، AudioShake و PhonicMind تقسیم stem را انجام می‌دهند.
  • فن‌آوری‌های استودیوی مجازی مبتنی بر هوش مصنوعی (VST) که به ایستگاه‌های کاری صوتی دیجیتال (DAW) مانند Ableton Live، Pro Tools و Logic Pro متصل می‌شوند. این VST‌ها، از جمله Mawf، Neutone، و Izotope، می‌توانند برای سنتز یا پردازش صدا در فضای کاری موجود تولید کننده بدون نیاز به بازگرداندن جریان کاری خود به خانه استفاده شوند.
  • محصولاتی که سعی در اختراع مجدد DAW به طور کامل با رویکرد اول هوش مصنوعی دارند و آن را برای نسل جدیدی از مصرف کنندگان و متخصصان به طور یکسان در دسترس تر می‌کنند. بعضی از محبوب‌ترین DAW‌های امروزی بیش از 20 سال سن دارند. استارت آپ‌هایی مانند TuneFlow و WavTool در حال مقابله با چالش بلندپروازانه ساخت نسخه جدید DAW از ابتدا هستند.

میدجرنی در دنیای موسیقی

محصولاتی مانند Midjourney و Runway به مصرف‌کنندگان این امکان را می‌دهند که محتوای بصری چشمگیری ایجاد کنند که قبلاً نیاز به دانش و دسترسی به ابزارهای گران‌قیمت، تخصصی و دست و پا گیر داشت. در حال حاضر، ما شاهد هستیم که متخصصان خلاقی مانند طراحان گرافیک از این ابزارهای اولیه هوش مصنوعی برای تسریع روند کار و تکرار سریعتر محتوا استفاده می‌کنند. ما انتظار داریم محصولات مشابهی را در موسیقی ببینیم، ابزارهایی با هوش مصنوعی که اصطکاک را از الهام تا بیان به صفر می‌رسانند.

این «لحظه Midjourney» برای دنیای موسیقی مولد، زمانی که ایجاد یک آهنگ با کیفیت به اندازه کافی سریع و آسان برای مصرف‌کنندگان روزمره می‌شود، پیامدهای عظیمی برای صنعت موسیقی از تولیدکنندگان و هنرمندان حرفه‌ای گرفته تا طبقه جدیدی از خالقان مصرف‌کننده خواهد داشت.

رویای نهایی؟ ابزاری سرتاسر که در آن راهنمایی می‌کنید در مورد حال و هوا و مضامین آهنگی که می‌خواهید ایجاد کنید، به شکل متن، صدا، تصویر یا حتی ویدیو، و یک کمک‌کننده هوش مصنوعی سپس برای نوشتن با شما همکاری می‌کند. و آهنگ را تولید کند. ما تصور نمی‌کنیم که محبوب‌ترین آهنگ‌ها کاملاً با هوش مصنوعی تولید شوند، یک عنصر انسانی در موسیقی وجود دارد، و همچنین ارتباطی با هنرمند که نمی‌توان آن را جایگزین کرد. با این حال، ما انتظار داریم که کمک هوش مصنوعی این کار را آسان‌تر کند. یک فرد معمولی برای تبدیل شدن به یک موسیقیدان و ما صدای آن را دوست داریم!

نوید رضایی
نوید رضایی