هوش مصنوعی تصاویر با کیفیت

هوش مصنوعی تصاویر با کیفیت را ۳۰ برابر سریعتر تولید می‌کند

سرفصل‌های مقاله

روش جدید ابزارهایی مانند Stable Diffusion و DALL-E-3 را با ساده‌سازی فرآیند تولید تصویر در یک مرحله و در عین حال حفظ یا افزایش کیفیت تصویر سریع‌تر می‌کند. تولید تصاویر با کیفیت تا ۳۰ برابر سریع‌تر.

در عصر کنونی هوش مصنوعی ما، رایانه‌ها می‌توانند «هنر» خود را از طریق مدل‌های انتشار ایجاد کنند و به طور مکرر ساختار را به حالت اولیه نویز اضافه کنند تا زمانی که یک تصویر یا ویدیو واضح ظاهر شود. مدل‌های دیفیوژن ناگهان روی میز همه هستند. در پشت صحنه، این شامل یک فرآیند پیچیده و زمان بر است که به تکرارهای متعددی نیاز دارد تا الگوریتم تصویر را کامل کند.

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) چارچوب جدیدی را معرفی کرده‌اند که فرآیند چند مرحله‌ای مدل‌های انتشار سنتی را در یک مرحله ساده می‌کند و محدودیت‌های قبلی را برطرف می‌کند. این کار از طریق یک نوع مدل معلم- دانش آموز انجام می شود: آموزش یک مدل کامپیوتری جدید برای تقلید از رفتار مدل‌های پیچیده‌تر و اصلی که تصاویر با کیفیت را تولید می‌کنند. این رویکرد که به عنوان تقطیر تطبیق توزیع (DMD) شناخته می‌شود، کیفیت تصاویر تولید شده را حفظ می‌کند و امکان تولید سریعتر را فراهم می‌کند.

با هوش مصنوعی تصاویر با کیفیت را ۳۰ برابر سریعتر تولید کنید

تصاویر با کیفیت

تیانوی یین، دانشجوی دکترای MIT در مهندسی برق و علوم کامپیوتر، وابسته به CSAIL، و محقق اصلی در DMD می‌گوید: «کار ما یک روش جدید است که مدل‌های انتشار فعلی مانند Stable Diffusion و DALLE-3 را 30 برابر سریع‌تر می‌کند. چارچوب. این پیشرفت نه تنها زمان محاسباتی را به میزان قابل توجهی کاهش می‌دهد، بلکه کیفیت محتوای بصری تولید شده را نیز حفظ می‌کند.

از نظر تئوری، این رویکرد اصول شبکه‌های متخاصم مولد (GANs) را با مدل‌های انتشار پیوند می‌دهد و تولید محتوای بصری را در یک مرحله به دست می‌آورد، یک تضاد کامل با صد مرحله اصلاح تکراری مورد نیاز مدل‌های انتشار فعلی. این به طور بالقوه می‌تواند یک روش مدل‌سازی مولد جدید باشد که از نظر سرعت و کیفیت برتر است.

این مدل انتشار تک مرحله‌ای می‌تواند ابزارهای طراحی را بهبود بخشد، ایجاد محتوای سریع‌تر را ممکن می‌سازد و به طور بالقوه از پیشرفت‌ها در کشف دارو و مدل‌سازی سه‌بعدی پشتیبانی می‌کند، جایی که سرعت و کارایی کلیدی است.

رویاهای توزیع

DMD هوشمندانه از یک تطبیق توزیع استفاده می‌کند، که تضمین می‌کند احتمال تولید یک تصویر معین با مدل دانشجویی با فرکانس وقوع آن در دنیای واقعی مطابقت دارد. برای انجام این کار، از دو مدل انتشار استفاده می‌کند که به عنوان راهنما عمل می‌کنند و به سیستم کمک می‌کنند تا تفاوت بین تصاویر واقعی و تولید شده را درک کند و آموزش مولد سریع یک مرحله‌ای را ممکن می‌سازد.

این سیستم با آموزش یک شبکه جدید برای به حداقل رساندن واگرایی توزیع بین تصاویر تولید شده خود و تصاویر با کیفیت حاصل از مجموعه داده آموزشی مورد استفاده توسط مدل‌های انتشار سنتی، تولید سریع‌تری را به دست می‌آورد. یین می‌گوید: «بینش کلیدی ما تقریبی گرادیان‌هایی است که با استفاده از دو مدل انتشار، بهبود مدل جدید را هدایت می‌کنند. به این ترتیب، ما دانش مدل اصلی و پیچیده‌تر را به مدل ساده‌تر و سریع‌تر تقطیر می‌کنیم، در حالی که از مشکلات بدنام بی‌ثباتی و فروپاشی حالت در GAN‌ها عبور می‌کنیم.

یین و همکارانش از شبکه‌های از پیش آموزش دیده برای مدل دانشجویی جدید استفاده کردند که این فرآیند را ساده کرد. با کپی و تنظیم دقیق پارامترها از مدل‌های اصلی، تیم به همگرایی آموزشی سریع مدل جدید دست یافت که قادر به تولید تصاویر باکیفیت با همان پایه معماری است. یین می‌افزاید: «این امکان ترکیب با سایر بهینه‌سازی‌های سیستم مبتنی بر معماری اصلی را برای تسریع بیشتر فرآیند ایجاد می‌کند.»

شما می‌توانید همین حالا از طریق زبان فارسی به موتور‌های هوش مصنوعی مولد مانند ChatGPT و سرویس متن به عکس لئوناردو دسترسی پیدا کنید. تنها کافی است اپلیکیشن زی‌گپ را دانلود و به راحتی از آن استفاده کنید. همچنین شما می‌توانید نظرات خود را با ما و سایر کاربران در شبکه‌های اجتماعی ما در اینستاگرام و تلگرام به اشتراک بگذارید.

نوید رضایی
نوید رضایی