روش جدید ابزارهایی مانند Stable Diffusion و DALL-E-3 را با سادهسازی فرآیند تولید تصویر در یک مرحله و در عین حال حفظ یا افزایش کیفیت تصویر سریعتر میکند. تولید تصاویر با کیفیت تا ۳۰ برابر سریعتر.
در عصر کنونی هوش مصنوعی ما، رایانهها میتوانند «هنر» خود را از طریق مدلهای انتشار ایجاد کنند و به طور مکرر ساختار را به حالت اولیه نویز اضافه کنند تا زمانی که یک تصویر یا ویدیو واضح ظاهر شود. مدلهای دیفیوژن ناگهان روی میز همه هستند. در پشت صحنه، این شامل یک فرآیند پیچیده و زمان بر است که به تکرارهای متعددی نیاز دارد تا الگوریتم تصویر را کامل کند.
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) چارچوب جدیدی را معرفی کردهاند که فرآیند چند مرحلهای مدلهای انتشار سنتی را در یک مرحله ساده میکند و محدودیتهای قبلی را برطرف میکند. این کار از طریق یک نوع مدل معلم- دانش آموز انجام می شود: آموزش یک مدل کامپیوتری جدید برای تقلید از رفتار مدلهای پیچیدهتر و اصلی که تصاویر با کیفیت را تولید میکنند. این رویکرد که به عنوان تقطیر تطبیق توزیع (DMD) شناخته میشود، کیفیت تصاویر تولید شده را حفظ میکند و امکان تولید سریعتر را فراهم میکند.
با هوش مصنوعی تصاویر با کیفیت را ۳۰ برابر سریعتر تولید کنید
تیانوی یین، دانشجوی دکترای MIT در مهندسی برق و علوم کامپیوتر، وابسته به CSAIL، و محقق اصلی در DMD میگوید: «کار ما یک روش جدید است که مدلهای انتشار فعلی مانند Stable Diffusion و DALLE-3 را 30 برابر سریعتر میکند. چارچوب. این پیشرفت نه تنها زمان محاسباتی را به میزان قابل توجهی کاهش میدهد، بلکه کیفیت محتوای بصری تولید شده را نیز حفظ میکند.
از نظر تئوری، این رویکرد اصول شبکههای متخاصم مولد (GANs) را با مدلهای انتشار پیوند میدهد و تولید محتوای بصری را در یک مرحله به دست میآورد، یک تضاد کامل با صد مرحله اصلاح تکراری مورد نیاز مدلهای انتشار فعلی. این به طور بالقوه میتواند یک روش مدلسازی مولد جدید باشد که از نظر سرعت و کیفیت برتر است.
این مدل انتشار تک مرحلهای میتواند ابزارهای طراحی را بهبود بخشد، ایجاد محتوای سریعتر را ممکن میسازد و به طور بالقوه از پیشرفتها در کشف دارو و مدلسازی سهبعدی پشتیبانی میکند، جایی که سرعت و کارایی کلیدی است.
رویاهای توزیع
DMD هوشمندانه از یک تطبیق توزیع استفاده میکند، که تضمین میکند احتمال تولید یک تصویر معین با مدل دانشجویی با فرکانس وقوع آن در دنیای واقعی مطابقت دارد. برای انجام این کار، از دو مدل انتشار استفاده میکند که به عنوان راهنما عمل میکنند و به سیستم کمک میکنند تا تفاوت بین تصاویر واقعی و تولید شده را درک کند و آموزش مولد سریع یک مرحلهای را ممکن میسازد.
این سیستم با آموزش یک شبکه جدید برای به حداقل رساندن واگرایی توزیع بین تصاویر تولید شده خود و تصاویر با کیفیت حاصل از مجموعه داده آموزشی مورد استفاده توسط مدلهای انتشار سنتی، تولید سریعتری را به دست میآورد. یین میگوید: «بینش کلیدی ما تقریبی گرادیانهایی است که با استفاده از دو مدل انتشار، بهبود مدل جدید را هدایت میکنند. به این ترتیب، ما دانش مدل اصلی و پیچیدهتر را به مدل سادهتر و سریعتر تقطیر میکنیم، در حالی که از مشکلات بدنام بیثباتی و فروپاشی حالت در GANها عبور میکنیم.
یین و همکارانش از شبکههای از پیش آموزش دیده برای مدل دانشجویی جدید استفاده کردند که این فرآیند را ساده کرد. با کپی و تنظیم دقیق پارامترها از مدلهای اصلی، تیم به همگرایی آموزشی سریع مدل جدید دست یافت که قادر به تولید تصاویر باکیفیت با همان پایه معماری است. یین میافزاید: «این امکان ترکیب با سایر بهینهسازیهای سیستم مبتنی بر معماری اصلی را برای تسریع بیشتر فرآیند ایجاد میکند.»
شما میتوانید همین حالا از طریق زبان فارسی به موتورهای هوش مصنوعی مولد مانند ChatGPT و سرویس متن به عکس لئوناردو دسترسی پیدا کنید. تنها کافی است اپلیکیشن زیگپ را دانلود و به راحتی از آن استفاده کنید. همچنین شما میتوانید نظرات خود را با ما و سایر کاربران در شبکههای اجتماعی ما در اینستاگرام و تلگرام به اشتراک بگذارید.