دیپ‌مایند V2A

رونمایی از هوش مصنوعی جدید دیپ‌مایند V2A ؛ تولید صدا برای ویدئو

سرفصل‌های مقاله

هوش مصنوعی V2A از پیکسل‌های ویدیویی و پیام‌های متنی برای تولید موسیقی متن غنی استفاده می‌کند.

مدل‌های تولید ویدیو با سرعتی باورنکردنی در حال پیشرفت هستند، اما بسیاری از سیستم‌های فعلی فقط می‌توانند خروجی بی‌صدا تولید کنند. یکی از گام‌های اصلی بعدی برای زنده کردن فیلم‌های تولید شده، ایجاد موسیقی متن برای این ویدیوهای بی‌صدا است.

cta-gif-album-m
cta-gif-album

ریپ‌مایند پیشرفت در فناوری ویدیو به صدا (V2A) خود را به اشتراک گذاشته، که تولید سمعی و بصری هماهنگ را ممکن می‌کند. V2A پیکسل‌های ویدیویی را با پیام‌های متنی به زبان طبیعی ترکیب می‌کند تا مناظر صوتی غنی برای عملکرد روی صفحه ایجاد کند.

رونمایی از هوش مصنوعی V2A سرکت DeepMind

هوش مصنوعی V2A

فناوری V2A با مدل‌های تولید ویدیو مانند Veo ادغام می‌شود تا عکس‌هایی دراماتیک، جلوه‌های صوتی واقعی یا دیالوگ‌هایی ایجاد کند که با شخصیت‌ها و لحن یک ویدیو مطابقت دارد. همچنین می‌تواند برای طیف وسیعی از فیلم‌های سنتی، از جمله مطالب بایگانی، فیلم‌های صامت و موارد دیگر، موسیقی متن تولید کند، که گستره وسیع‌تری از فرصت‌های خلاقانه را باز می‌کند.

کنترل خلاقانه پیشرفته

نکته مهم این است که V2A می‌تواند تعداد نامحدودی از موسیقی متن را برای هر ورودی ویدیویی تولید کند. به صورت اختیاری، می‌توان یک «اعلان مثبت» برای هدایت خروجی تولید شده به سمت صداهای دلخواه، یا یک «اعلان منفی» برای هدایت آن از صداهای ناخواسته تعریف کرد.

این انعطاف‌پذیری به کاربران امکان کنترل بیشتری بر خروجی صدای V2A می‌دهد و آزمایش سریع خروجی‌های صوتی مختلف و انتخاب بهترین مورد را ممکن می‌سازد.

چگونه کار می‌کند

ما برای کشف مقیاس‌پذیرترین معماری هوش مصنوعی، رویکردهای اتورگرسیو و انتشار را آزمایش کردیم و رویکرد مبتنی بر انتشار برای تولید صدا، واقعی‌ترین و قانع‌کننده‌ترین نتایج را برای همگام‌سازی اطلاعات ویدیویی و صوتی ارائه داد.

سیستم V2A با رمزگذاری ورودی ویدیو در یک نمایش فشرده شروع می‌شود. سپس، مدل انتشار به طور مکرر صدا را از نویز تصادفی اصلاح می‌کند. این فرآیند توسط ورودی بصری و اعلان‌های زبان طبیعی ارائه شده برای تولید صدای همگام‌سازی شده و واقع‌گرایانه هدایت می‌شود که دقیقاً با درخواست هماهنگ است. در نهایت، خروجی صدا رمزگشایی شده، به شکل موج صوتی تبدیل شده و با داده‌های ویدئویی ترکیب می‌شود.

unnamed

نمودار سیستم V2A دریافت پیکسل ویدئو و ورودی سریع صوتی برای تولید یک شکل موج صوتی هماهنگ با ویدئوی زیرین را ممکن می‌کند. ابتدا، V2A ورودی اعلان صوتی و تصویری را رمزگذاری می‌کند و به طور مکرر آن را از طریق مدل انتشار اجرا می‌کند. سپس صدای فشرده تولید می کند که به شکل موج صوتی رمزگشایی می‌شود.

برای تولید صدای با کیفیت بالاتر و افزودن توانایی هدایت مدل به سمت تولید صداهای خاص، اطلاعات بیشتری را به فرآیند آموزش اضافه کردیم، از جمله حاشیه‌نویسی‌های تولید شده توسط هوش مصنوعی با توضیحات دقیق صدا و رونوشت‌های گفتگوی گفتاری.

با آموزش ویدیو، صدا و حاشیه نویسی‌های اضافی، فناوری یاد می‌گیرد که رویدادهای صوتی خاص را با صحنه‌های بصری مختلف مرتبط کند، در حالی که به اطلاعات ارائه شده در حاشیه نویسی‌ها یا رونوشت‌ها پاسخ می‌دهد.

تحقیقات بیشتر در حال انجام است

تحقیقات ما از راه‌حل‌های موجود ویدیو به صوتی متمایز است زیرا می‌تواند پیکسل‌های خام را درک کند و افزودن یک پیام متنی اختیاری است. همچنین، سیستم نیازی به تراز دستی صدای تولید شده با ویدیو ندارد، که شامل تنظیم خسته کننده عناصر مختلف صداها، تصاویر و زمان بندی است.

با این حال، تعدادی از محدودیت‌های دیگر وجود دارد که دیپ‌مایند سعی در رفع آن دارد و تحقیقات بیشتر در حال انجام است.

از آنجایی که کیفیت خروجی صدا به کیفیت ورودی ویدیو بستگی دارد، مصنوعات یا اعوجاج‌های موجود در ویدیو که خارج از توزیع آموزشی مدل هستند، می‌توانند منجر به افت قابل توجه کیفیت صدا شوند.

DeepMind همچنین همگام سازی لب را برای ویدیوهایی که شامل گفتار هستند بهبود می‌دهد. V2A تلاش می‌کند تا گفتار را از رونوشت‌های ورودی تولید کند و آن را با حرکات لب کاراکترها هماهنگ کند. اما مدل تولید ویدیوی جفتی ممکن است مشروط به رونوشت نباشد. این یک عدم تطابق ایجاد می‌کند، که اغلب منجر به همگام‌سازی غیرعادی لب می‌شود، زیرا مدل ویدیویی حرکات دهانی مطابق با رونوشت ایجاد نمی‌کند.

تعهد به ایمنی و شفافیت

دیپ‌مایند متعهد به توسعه و استقرار فناوری‌های هوش مصنوعی مسئولانه هست. برای اطمینان از اینکه فناوری V2A می‌تواند تأثیر مثبتی بر جامعه خلاق داشته باشد، دیدگاه‌ها و بینش‌های متنوعی را از سازندگان و فیلم‌سازان برجسته جمع‌آوری می‌کنیم و از این بازخورد ارزشمند برای اطلاع‌رسانی به تحقیق و توسعه مداوم خود استفاده می‌کنیم.

همچنین جعبه ابزار SynthID را در تحقیقات V2A خود گنجانده‌ایم تا تمام محتوای تولید شده توسط هوش مصنوعی را واترمارک کنیم تا از احتمال سوء استفاده از این فناوری محافظت کنیم.

قبل از اینکه دسترسی به آن را برای عموم مردم در نظر بگیریم، فناوری V2A ما تحت ارزیابی‌ها و آزمایش‌های ایمنی دقیق قرار می‌گیرد. نتایج اولیه نشان می‌دهد که این فناوری به یک رویکرد امیدوارکننده برای زنده کردن فیلم‌های تولید شده تبدیل خواهد شد.

منبع : deepmind

نوید رضایی
نوید رضایی