هوش مصنوعی Veo

گوگل Veo چیست؟ جدیدترین ابزار تولید ویدیو با هوش مصنوعی + ویدیو

سرفصل‌های مقاله

گوگل از راه‌اندازی VEO خبر داده است، یک تولید کننده ویدیوی جدید هوش مصنوعی با کیفیت بالا که می‌تواند ویدیوهای HD را از متن، تصویر یا پیام‌های ویدیویی ایجاد کند. اما گوگل Veo چیست؟

این غول فناوری می‌گوید مدل هوش مصنوعی VEO می‌تواند ویدیوهای 1080p با طول مدت بیش از یک دقیقه تولید کند و فیلم‌ها را از دستورالعمل‌های نوشته شده ویرایش کند، اما هنوز این ابزار را برای استفاده گسترده منتشر نکرده است.

گزارش شده است که Veo شامل امکان ویرایش ویدیوهای موجود با استفاده از دستورات متنی، حفظ ثبات بصری در فریم‌ها و تولید توالی‌های ویدیویی تا 60 ثانیه و بیش از 60 ثانیه از یک پرامپت یا مجموعه‌ای از پرامپت‌ها است که یک روایت را تشکیل می‌دهند.

تولید ویدیو با هوش مصنوعی Veo

هوش مصنوعی Veo

گوگل Veo را نشان داد که تصویری از یک گاوچران سوار بر اسب تولید می‌کند، یک عکس سریع در یک خیابان حومه شهر، یک تایم لپس از افتتاحیه گل آفتابگردان و موارد دیگر. با این حال، هیچ ویدئویی از ژنراتور ویدیوی هوش مصنوعی که انسان‌ها را به تصویر می‌کشد، نشان نداد، چیزی که در طول تاریخ برای مدل‌های تصویر و ویدیوی هوش مصنوعی ایجاد مشکل بوده است.

گوگل می‌گوید در زمان راه‌اندازی می‌تواند صحنه‌های دقیق تولید کند و جلوه‌های سینمایی مانند تایم لپس، عکس‌های هوایی و سبک‌های بصری مختلف را اعمال کند. برخی از این ویژگی‌ها ممکن است در پلتفرم YouTube Shorts گنجانده شوند، که به کاربران اجازه می‌دهد ویدیوهایی با طول کمتر از یک دقیقه بسازند و منتشر کنند.

گوگل Veo چیست؟

گوگل Veo یک مدل جدید و قدرتمند تولید ویدیو است که در Google I/O 2024 معرفی شد و می‌تواند ویدیوهایی با کیفیت بالا در وضوح 1080p ایجاد کند که طول برخی از ویدیوها بیش از یک دقیقه است. این ابزار جدید که توسط DeepMind توسعه یافته است، برای تولید ویدئو از متن طراحی شده است و در کنار Imagen، مدل جدید تولید تصویر این غول فناوری، راه‌اندازی خواهد شد.

برخلاف مدل‌های قبلی، Veo می‌تواند ویدیوهایی را تولید کند که فراتر از یک دقیقه است و امکان داستان‌گویی پیچیده‌تر را فراهم می‌کند. همچنین تفاوت‌های ظریف زبان انسان را درک می‌کند و می‌تواند آن‌ها را در ویدئو، از جمله ضبط لحن و حال و هوا، وارد کند.

Veo همچنین می‌تواند سینمایی شود. اصطلاحات سینمایی مانند «تایم لپس» یا «عکس‌های هوایی» را درک می‌کند و به کاربران امکان کنترل خلاقانه‌تری روی ویدیوی نهایی می‌دهد. گوگل سابقه انتشار خیلی زود مدل‌های هوش مصنوعی را دارد. به عنوان مثال، تولید کننده تصویر هوش مصنوعی Gemini آن، پس از اینکه تنها تصاویری را که افراد رنگین پوست را به تصویر می‌کشد، از جمله زمانی که از آنها برای ایجاد چهره‌های عمومی سفیدپوست و توسعه از آنها خواسته شد، به نژادپرست بودن متهم شد.

برای جلوگیری از این امر، گوگل می‌گوید استفاده اخلاقی از پلتفرم را در اولویت توسعه قرار می‌دهد. هر ویدیویی که توسط Veo ایجاد می‌شود با استفاده از SynthID واترمارک می‌شود، این ابزار گوگل برای شناسایی محتوای تولید شده توسط هوش مصنوعی است، و همچنین از طریق ویژگی‌های ایمنی منتقل می‌شود که به کاهش تعصب، حق نسخه‌برداری و خطرات حریم خصوصی کمک می‌کند.

گوگل Veo چه کاری می‌تواند انجام دهد؟

گوگل Veo

گوگل Veo می‌تواند محتوای ویدیویی چشمگیر را بر اساس توضیحات متنی منتسب شده ایجاد کند. برخلاف دیگر تولیدکنندگان ویدئو، گوگل بیان می‌کند که Veo درک پیشرفته‌ای از زبان طبیعی و معنای بصری دارد و می‌تواند تفاوت‌های ظریف و لحن پیام‌های متنی ارسال‌شده توسط کاربر را به تصویر بکشد.

این شامل درک ترفندها و درخواست برای جلوه‌های مختلف سینمایی از جمله تایم لپس یا عکس‌های هوایی است. قابلیت‌های Veo فراتر از توالی‌های انیمیشن اولیه است. قادر به ایجاد حرکات واقع گرایانه برای اشیا، افراد و حیوانات در توالی ویدیویی است که تولید می‌کند.

Veo همچنین روی ویرایش ورودی‌های ویدیویی موجود کار می‌کند. به عنوان مثال، کاربر می‌تواند یک ویدیوی واقعی را که از یک ساحل گرفته است آپلود کند و از Veo بخواهد «قایق‌ها را به خط ساحلی اضافه کند»، سپس ژنراتور ویدیوی Veo می‌تواند به‌طور یکپارچه قایق‌ها را به ویدیوی موجود اضافه کند.

علاوه بر این، Veo می‌تواند یک ویدیو بر اساس یک تصویر به عنوان ورودی در کنار پرامپت متن تولید کند. با ارائه تصویر مرجع، Veo می‌تواند ویدیویی تولید کند که از سبک تصویر و دستورالعمل‌های هر پیام متنی اضافی پیروی می‌کند. Veo با استفاده از مبدل‌های انتشار نهفته بهبود یافته، در مدل‌های قبلی نسل ویدیو بهبودهایی ایجاد می‌کند. این مبدل‌ها می‌توانند ناهماهنگی‌های موجود در مدل‌های قبلی را کاهش دهند و کاراکترها، اشیاء و سبک‌ها را در جای مورد نظر خود بمانند. در تکرارهای قبلی مبدل‌های ویدئویی، چیزها اغلب به طور غیرمنتظره‌ای بین فریم‌ها سوسو می‌زدند، می‌پریدند یا تغییر شکل می‌دادند.

چگونه از گوگل Veo استفاده کنیم؟

Veo در حال حاضر به صورت عمومی در دسترس نیست، اما در مرحله دسترسی اولیه محدود به گروه منتخبی از آزمایش‌کنندگان در پلتفرم VideoFX گوگل است. با این حال، می‌توانید به فهرست انتظار بپیوندید تا یکی از اولین افرادی باشید که به گوگل Veo دسترسی پیدا می‌کنند:

  • از «آشپزخانه آزمایشی» گوگل بازدید کنید
  • روی ورود به سیستم با حساب گوگل خود کلیک کنید
  • ایمیل خود را وارد کنید
  • برای ورود با حساب گوگل خود، مراحل را دنبال کنید
  • شرایط خدمات را بررسی کرده و با آن موافقت کنید.
  • روی “پیوستن به لیست انتظار ما” کلیک کنید
  • فرم «لیست انتظار آزمایش‌کننده معتمد Labs.google» را پر کنید
  • روی ارسال کلیک کنید

گوگل Veo نشان دهنده جهش قابل توجهی در تولید ویدئو با هوش مصنوعی است. توانایی آن در ایجاد ویدیوهای با کیفیت بالا با عناصر سینمایی بر اساس توضیحات متنی، امکان ساخت فیلم را بیشتر از همیشه برای کاربران فراهم می‌کند. همانطور که Veo به تکامل خود ادامه می‌دهد و در دسترس‌تر می‌شود، این پتانسیل را دارد که نحوه ساخت ویدیوها را تغییر دهد. با این حال، مانند تمام توسعه‌های هوش مصنوعی، با رایج‌تر شدن فناوری، ملاحظات اخلاقی بیشتری باید در نظر گرفته شود، از جمله اینکه چگونه این امر بر هنرمندان ویدیو و صنعت فیلم تأثیر می‌گذارد.

در حالی که Veo ممکن است برخی از فرآیندها را ساده کند، لمس انسان در داستان سرایی، کارگردانی و تدوین احتمالا غیر قابل جایگزین خواهد بود. با این حال، اگر هوش مصنوعی جایگزین تعداد قابل توجهی از مشاغل انسانی در صنعت ویدیو شود، احتمالاً افراد کمتری خواهند بود که بتوانند فیلم‌سازی را به صورت تجاری دنبال کنند.

توانایی ایجاد ویدیوهای با کیفیت بالا و واقع گرایانه با استفاده از هوش مصنوعی نیز نگرانی‌هایی را در مورد انتشار اطلاعات نادرست و محتوای با استفاده از دیپ‌فیک ایجاد می‌کند. استراتژی‌هایی برای اطمینان از شفافیت و شناسایی محتوای تولید شده توسط هوش مصنوعی بسیار مهم خواهد بود.

منبع : em360tech

نوید رضایی
نوید رضایی