هوش مصنوعی V2A از پیکسلهای ویدیویی و پیامهای متنی برای تولید موسیقی متن غنی استفاده میکند.
مدلهای تولید ویدیو با سرعتی باورنکردنی در حال پیشرفت هستند، اما بسیاری از سیستمهای فعلی فقط میتوانند خروجی بیصدا تولید کنند. یکی از گامهای اصلی بعدی برای زنده کردن فیلمهای تولید شده، ایجاد موسیقی متن برای این ویدیوهای بیصدا است.
ریپمایند پیشرفت در فناوری ویدیو به صدا (V2A) خود را به اشتراک گذاشته، که تولید سمعی و بصری هماهنگ را ممکن میکند. V2A پیکسلهای ویدیویی را با پیامهای متنی به زبان طبیعی ترکیب میکند تا مناظر صوتی غنی برای عملکرد روی صفحه ایجاد کند.
رونمایی از هوش مصنوعی V2A سرکت DeepMind
فناوری V2A با مدلهای تولید ویدیو مانند Veo ادغام میشود تا عکسهایی دراماتیک، جلوههای صوتی واقعی یا دیالوگهایی ایجاد کند که با شخصیتها و لحن یک ویدیو مطابقت دارد. همچنین میتواند برای طیف وسیعی از فیلمهای سنتی، از جمله مطالب بایگانی، فیلمهای صامت و موارد دیگر، موسیقی متن تولید کند، که گستره وسیعتری از فرصتهای خلاقانه را باز میکند.
کنترل خلاقانه پیشرفته
نکته مهم این است که V2A میتواند تعداد نامحدودی از موسیقی متن را برای هر ورودی ویدیویی تولید کند. به صورت اختیاری، میتوان یک «اعلان مثبت» برای هدایت خروجی تولید شده به سمت صداهای دلخواه، یا یک «اعلان منفی» برای هدایت آن از صداهای ناخواسته تعریف کرد.
این انعطافپذیری به کاربران امکان کنترل بیشتری بر خروجی صدای V2A میدهد و آزمایش سریع خروجیهای صوتی مختلف و انتخاب بهترین مورد را ممکن میسازد.
چگونه کار میکند
ما برای کشف مقیاسپذیرترین معماری هوش مصنوعی، رویکردهای اتورگرسیو و انتشار را آزمایش کردیم و رویکرد مبتنی بر انتشار برای تولید صدا، واقعیترین و قانعکنندهترین نتایج را برای همگامسازی اطلاعات ویدیویی و صوتی ارائه داد.
سیستم V2A با رمزگذاری ورودی ویدیو در یک نمایش فشرده شروع میشود. سپس، مدل انتشار به طور مکرر صدا را از نویز تصادفی اصلاح میکند. این فرآیند توسط ورودی بصری و اعلانهای زبان طبیعی ارائه شده برای تولید صدای همگامسازی شده و واقعگرایانه هدایت میشود که دقیقاً با درخواست هماهنگ است. در نهایت، خروجی صدا رمزگشایی شده، به شکل موج صوتی تبدیل شده و با دادههای ویدئویی ترکیب میشود.
نمودار سیستم V2A دریافت پیکسل ویدئو و ورودی سریع صوتی برای تولید یک شکل موج صوتی هماهنگ با ویدئوی زیرین را ممکن میکند. ابتدا، V2A ورودی اعلان صوتی و تصویری را رمزگذاری میکند و به طور مکرر آن را از طریق مدل انتشار اجرا میکند. سپس صدای فشرده تولید می کند که به شکل موج صوتی رمزگشایی میشود.
برای تولید صدای با کیفیت بالاتر و افزودن توانایی هدایت مدل به سمت تولید صداهای خاص، اطلاعات بیشتری را به فرآیند آموزش اضافه کردیم، از جمله حاشیهنویسیهای تولید شده توسط هوش مصنوعی با توضیحات دقیق صدا و رونوشتهای گفتگوی گفتاری.
با آموزش ویدیو، صدا و حاشیه نویسیهای اضافی، فناوری یاد میگیرد که رویدادهای صوتی خاص را با صحنههای بصری مختلف مرتبط کند، در حالی که به اطلاعات ارائه شده در حاشیه نویسیها یا رونوشتها پاسخ میدهد.
تحقیقات بیشتر در حال انجام است
تحقیقات ما از راهحلهای موجود ویدیو به صوتی متمایز است زیرا میتواند پیکسلهای خام را درک کند و افزودن یک پیام متنی اختیاری است. همچنین، سیستم نیازی به تراز دستی صدای تولید شده با ویدیو ندارد، که شامل تنظیم خسته کننده عناصر مختلف صداها، تصاویر و زمان بندی است.
با این حال، تعدادی از محدودیتهای دیگر وجود دارد که دیپمایند سعی در رفع آن دارد و تحقیقات بیشتر در حال انجام است.
از آنجایی که کیفیت خروجی صدا به کیفیت ورودی ویدیو بستگی دارد، مصنوعات یا اعوجاجهای موجود در ویدیو که خارج از توزیع آموزشی مدل هستند، میتوانند منجر به افت قابل توجه کیفیت صدا شوند.
DeepMind همچنین همگام سازی لب را برای ویدیوهایی که شامل گفتار هستند بهبود میدهد. V2A تلاش میکند تا گفتار را از رونوشتهای ورودی تولید کند و آن را با حرکات لب کاراکترها هماهنگ کند. اما مدل تولید ویدیوی جفتی ممکن است مشروط به رونوشت نباشد. این یک عدم تطابق ایجاد میکند، که اغلب منجر به همگامسازی غیرعادی لب میشود، زیرا مدل ویدیویی حرکات دهانی مطابق با رونوشت ایجاد نمیکند.
تعهد به ایمنی و شفافیت
دیپمایند متعهد به توسعه و استقرار فناوریهای هوش مصنوعی مسئولانه هست. برای اطمینان از اینکه فناوری V2A میتواند تأثیر مثبتی بر جامعه خلاق داشته باشد، دیدگاهها و بینشهای متنوعی را از سازندگان و فیلمسازان برجسته جمعآوری میکنیم و از این بازخورد ارزشمند برای اطلاعرسانی به تحقیق و توسعه مداوم خود استفاده میکنیم.
همچنین جعبه ابزار SynthID را در تحقیقات V2A خود گنجاندهایم تا تمام محتوای تولید شده توسط هوش مصنوعی را واترمارک کنیم تا از احتمال سوء استفاده از این فناوری محافظت کنیم.
قبل از اینکه دسترسی به آن را برای عموم مردم در نظر بگیریم، فناوری V2A ما تحت ارزیابیها و آزمایشهای ایمنی دقیق قرار میگیرد. نتایج اولیه نشان میدهد که این فناوری به یک رویکرد امیدوارکننده برای زنده کردن فیلمهای تولید شده تبدیل خواهد شد.
منبع : deepmind