هوش مصنوعی
عکس و تصویر با هوش مصنوعی

تولید تصویر با هوش مصنوعی ؛ AI چگونه عکس تولید می‌کند؟

سرفصل‌های مقاله

تصور کنید که در یک نمایشگاه هنری در گالری مشهور گاگوسیان قدم می‌زنید، جایی که به نظر می‌رسد نقاشی‌ها ترکیبی از سورئالیسم و دقت واقعی هستند. یک قطعه نظر شما را جلب می‌کند: کودکی را با موهای پرتاب شده به تصویر می‌کشد که به بیننده خیره شده است و با رنگ آمیزی آن حس دوران ویکتوریا را تداعی می‌کند. اما پیچ و خم اینجاست، این آثار دست انسان نیستند، بلکه ساخته‌های هوش مصنوعی‌اند، تولید تصویر با هوش مصنوعی چقدر پیشرفت کرده است؟

این نمایشگاه که توسط کارگردان فیلم بنت میلر تهیه شده است، ما را وادار می‌کند تا ماهیت خلاقیت و اصالت را زیر سوال ببریم زیرا هوش مصنوعی (AI) شروع به محو کردن خطوط بین هنر انسانی و تولید ماشین می‌کند. جالب اینجاست که میلر چند سال گذشته را صرف ساختن مستندی درباره هوش مصنوعی کرده است که طی آن با سم آلتمن، مدیر عامل OpenAI، مصاحبه کرده است. این ارتباط باعث شد که میلر به زودی به DALL-E دسترسی بتا پیدا کند، که سپس از آن برای خلق آثار هنری نمایشگاه استفاده کرد.

اکنون، این مثال ما را به قلمروی جذاب می‌اندازد که در آن تولید تصویر با هوش مصنوعی و ایجاد محتوای بصری غنی در خط مقدم قابلیت‌های هوش مصنوعی قرار دارد. صنایع و خلاقان به طور گسترده‌ای از هوش مصنوعی برای ایجاد تصویر استفاده می‌کنند و درک این موضوع ضروری است: چگونه باید به تولید تصویر از طریق هوش مصنوعی برخورد کرد؟

تولید تصویر با هوش مصنوعی چیست؟

هوش مصنوعی
تولید تصویر با هوش مصنوعی

مولدهای تصویر هوش مصنوعی از شبکه‌های عصبی مصنوعی آموزش دیده برای ایجاد تصاویر استفاده می‌کنند. این زاینده‌ها ظرفیت ایجاد تصاویر واقعی را بر اساس ورودی متنی ارائه شده به زبان طبیعی دارند. چیزی که آنها را قابل توجه می‌کند توانایی آنها در ترکیب سبک‌ها، مفاهیم و ویژگی‌ها برای ساختن تصاویر هنری و مرتبط با زمینه است. این امر از طریق هوش مصنوعی زاینده Generative AI، زیرمجموعه‌ای از هوش مصنوعی که بر تولید محتوا متمرکز است، امکان پذیر شده است.

مولدهای تصویر هوش مصنوعی بر روی حجم وسیعی از داده‌ها آموزش دیده‌اند که شامل مجموعه داده‌های بزرگی از تصاویر است. از طریق فرآیند آموزش، الگوریتم‌ها جنبه‌ها و ویژگی‌های مختلف تصاویر را در مجموعه داده‌ها یاد می‌گیرند. در نتیجه، آنها قادر به تولید تولید تصویر با هوش مصنوعی می‌شوند که شباهت‌هایی از نظر سبک و محتوا با تصاویر موجود در داده‌های آموزشی دارند.

طیف گسترده‌ای از تولید کننده‌های تصویر هوش مصنوعی وجود دارد که هر کدام دارای قابلیت‌های منحصر به فرد خود هستند. نکته قابل توجه در این میان، تکنیک انتقال سبک عصبی است که امکان تحمیل سبک یک تصویر را به دیگری فراهم می‌کند.

شبکه‌های متخاصم مولد (GANs)، که از دو شبکه عصبی برای آموزش تولید تصاویر واقعی شبیه به تصاویر موجود در مجموعه داده آموزشی استفاده می‌کنند. و مدل‌های انتشار، که تصاویر را از طریق فرآیندی شبیه‌سازی می‌کنند که انتشار ذرات را شبیه‌سازی می‌کند و به تدریج نویز را به تصاویر ساختاریافته تبدیل می‌کند.

نحوه کار مولدهای تصویر هوش مصنوعی: مقدمه‌ای بر فناوری‌های تولید تصویر با هوش مصنوعی

در این بخش، عملکرد پیچیده تولیدکننده‌های تصویر هوش مصنوعی برجسته را بررسی می‌کنیم و بر نحوه آموزش این مدل‌ها برای ایجاد تصاویر تمرکز می‌کنیم.

درک متن با استفاده از NLP

What is Natural Language Processing

تولیدکننده‌های تصویر هوش مصنوعی با استفاده از فرآیندی که داده‌های متنی را به زبانی ماشین‌پسند ترجمه می‌کند، پیام‌های متنی را درک می‌کنند. این تبدیل توسط یک مدل پردازش زبان طبیعی (NLP) آغاز می‌شود، مانند مدل پیش‌آموزشی زبان تصویر متضاد (CLIP) که در مدل‌هایی مانند DALL-E برای تولید تصویر با هوش مصنوعی استفاده می‌شود.

این مکانیسم متن ورودی را به بردارهایی با ابعاد بالا تبدیل می‌کند که معنی و بافت معنایی متن را به تصویر می‌کشد. هر مختصات روی بردارها نشان دهنده یک ویژگی متمایز از متن ورودی است.

مثالی را در نظر بگیرید که در آن کاربر اعلان متن “a apple red on a tree” را به یک تولید کننده تصویر وارد می‌کند. مدل NLP این متن را در قالبی عددی رمزگذاری می‌کند که عناصر مختلف – “قرمز”، “سیب” و “درخت” – و رابطه بین آنها را نشان می‌دهد. این نمایش عددی به عنوان یک نقشه ناوبری برای تولید تصویر با هوش مصنوعی عمل می‌کند.

در طول فرآیند ایجاد تصویر، این نقشه برای کشف پتانسیل‌های گسترده تصویر نهایی مورد استفاده قرار می‌گیرد. اینکار به عنوان یک کتاب قانون عمل می‌کند که هوش مصنوعی را در مورد اجزاء، برای گنجاندن در تصویر و نحوه تعامل آنها راهنمایی می‌کند. در سناریوی داده شده، ژنراتور یک تصویر با یک سیب قرمز و یک درخت ایجاد می‌کند و سیب را روی درخت، نه در کنار آن یا زیر آن، قرار می‌دهد.

این تبدیل هوشمندانه از متن به نمایش عددی و در نهایت به تصاویر، تولیدکنندگان تصویر هوش مصنوعی را قادر می‌سازد تا اعلان‌های متن را تفسیر و به صورت بصری نمایش دهند.

شبکه‌های متخاصم مولد (GAN)

شبکه‌های متخاصم مولد، که معمولاً GAN نامیده می‌شوند، کلاسی از الگوریتم‌های یادگیری ماشین هستند که از قدرت دو شبکه عصبی رقیب، زاینده و متمایزکننده استفاده می‌کنند. اصطلاح «متخاصم» از این مفهوم ناشی می‌شود که این شبکه‌ها در رقابتی شبیه به یک بازی با جمع صفر در مقابل یکدیگر قرار می‌گیرند.

در سال 2014، GAN‌ها توسط ایان گودفلو و همکارانش در دانشگاه مونترال زنده شدند. کار پیشگامانه آنها در مقاله‌ای با عنوان “شبکه‌های متخاصم مولد” منتشر شد. این نوآوری جرقه ای از تحقیقات و کاربردهای عملی را برانگیخت و GAN‌ها را به عنوان محبوب‌ترین مدل‌های هوش مصنوعی زاینده در چشم‌انداز فناوری تثبیت کرد.

5c9a1921 7754 4925 a98f f01b355b7bb6

معماری GAN‌ها از دو جزء اصلی تشکیل شده که به عنوان مدل‌های فرعی شناخته می‌شوند:

  • شبکه عصبی ژنراتور مسئول تولید نمونه‌های جعلی است. یک بردار ورودی تصادفی – لیستی از متغیرهای ریاضی با مقادیر ناشناخته – می‌گیرد و از این اطلاعات برای ایجاد داده‌های ورودی جعلی استفاده می‌کند.
  • شبکه عصبی تفکیک کننده به عنوان یک طبقه‌بندی کننده باینری عمل می‌کند. نمونه ای را به عنوان ورودی می‌گیرد و تعیین می‌کند که آیا واقعی است یا توسط ژنراتور تولید شده.

تمامی این اجزا سبب تولید تصویر با هوش مصنوعی می‌شوند.

مدل‌های انتشار (Diffusion)

مدل‌های انتشار نوعی مدل مولد در یادگیری ماشین هستند که با تقلید از داده‌هایی که روی آن‌ها آموزش دیده‌اند، داده‌های جدیدی مانند تصاویر یا صداها را ایجاد می‌کنند. آنها این کار را با استفاده از فرآیندی شبیه به انتشار انجام می‌دهند، از این رو به آنها مدل‌های انتشار می‌گویند. آنها به تدریج نویز را به داده‌ها اضافه می‌کنند و سپس یاد می‌گیرند که چگونه آن را معکوس کنند تا داده‌های جدید و مشابه ایجاد کنند.

مدل‌های دیفیوژن را به‌عنوان سرآشپزهایی در نظر بگیرید که یاد می‌گیرند غذاهایی درست کنند که طعم آن‌هایی را که قبلاً امتحان کرده‌اند، داشته باشند. سرآشپز یک غذا را می‌چشد، مواد تشکیل دهنده را می‌فهمد و سپس یک غذای جدید درست می‌کند که طعم بسیار مشابهی دارد. به طور مشابه، مدل‌های انتشار می‌توانند داده‌هایی (مانند تصاویر) تولید کنند که بسیار شبیه آن‌هایی هستند که روی آن‌ها آموزش دیده‌اند.

ff35049f 428b 40de 9d10 d0a7f609598d

بیایید با جزئیات بیشتر به این فرآیند نگاه کنیم.

انتشار به جلو (افزودن مواد به یک ظرف اصلی): در این مرحله، مدل با یک قطعه داده اصلی مانند یک تصویر شروع می‌شود و به تدریج نویز تصادفی را طی یک سری مراحل اضافه می‌کند. این کار از طریق یک زنجیره مارکوف انجام می‌شود که در هر مرحله، داده‌ها بر اساس وضعیت آن در مرحله قبل تغییر می‌کنند. نویز اضافه شده را نویز Gaussian می‌نامند که یک نوع رایج نویز تصادفی است.

آموزش (درک سلیقه‌ها): مرحله بعدی در تولید تصویر با هوش مصنوعی آموزش است. در اینجا، مدل یاد می‌گیرد که چگونه نویز اضافه شده در طول انتشار به جلو، داده‌ها را تغییر می‌دهد. این نقشه سفر از داده‌های اصلی به نسخه پر سر و صدا را ترسیم می‌کند. هدف این است که به خوبی در این سفر تسلط پیدا کنیم که مدل بتواند به طور موثر آن را به عقب هدایت کند. مدل یاد می‌گیرد که تفاوت بین داده‌های اصلی و نسخه‌های نویز را در هر مرحله تخمین بزند. هدف از آموزش یک مدل انتشار، تسلط بر فرآیند معکوس است.

انتشار معکوس (بازسازی ظرف): پس از آموزش مدل، زمان معکوس کردن فرآیند فرا می‌رسد. داده‌های نویزدار را می‌گیرد و سعی می‌کند نویز را حذف کند تا به داده‌های اصلی بازگردد. این شبیه به دنبال کردن مجدد مراحل سفر است اما در جهت مخالف. با ردیابی مجدد مراحل در این جهت مخالف در امتداد دنباله، مدل می‌تواند داده‌های جدیدی تولید کند که شبیه نمونه اصلی است.

تولید داده‌های جدید (ساخت یک ظرف جدید): در نهایت، مدل می‌تواند از آنچه در فرآیند انتشار معکوس آموخته برای ایجاد داده‌های جدید استفاده کند. با نویز تصادفی شروع می‌شود، که مانند یک دسته درهم از پیکسل است. در کنار آن، یک پیام متنی دریافت می‌کند که مدل را در شکل دادن به نویز راهنمایی می‌کند.

پرامپت متن مانند یک دستورالعمل است. به مدل می‌گوید که تصویر نهایی چگونه باید باشد. همانطور که مدل در مراحل انتشار معکوس تکرار می‌شود، به تدریج این نویز را به یک تصویر تبدیل می‌کند در حالی که سعی می‌کند اطمینان حاصل شود که محتوای تصویر تولید شده با اعلان متن همسو می‌شود. این کار با به حداقل رساندن تفاوت بین ویژگی‌های تصویر تولید شده و ویژگی‌هایی که بر اساس اعلان متن مورد انتظار است، انجام می‌شود.

این روش یادگیری اضافه کردن نویز و سپس تسلط بر نحوه معکوس کردن آن چیزی است که مدل‌های انتشار را قادر به تولید تصاویر با هوش مصنوعی و انواع دیگر داده‌های واقعی می‌کند.

انتقال سبک عصبی (NST)

انتقال سبک عصبی (NST) یک برنامه یادگیری عمیق است که محتوای یک تصویر را با سبک تصویر دیگر ترکیب می‌کند تا یک اثر هنری کاملاً جدید ایجاد کند.

b9da17ad 9169 4a6a a98c 929419431aba

در سطح بالایی، NST از یک شبکه از پیش آموزش دیده برای تجزیه و تحلیل تصاویر استفاده می‌کند و از اقدامات اضافی برای قرض گرفتن سبک از یک تصویر و اعمال آن بر روی تصویر دیگر استفاده می‌کند. این منجر به ترکیب یک تصویر جدید می‌شود که ویژگی‌های مورد نظر را گرد هم می‌آورد.

این فرآیند شامل سه تصویر اصلی است.

  • تصویر محتوا : این تصویری است که می‌خواهید محتوای آن را حفظ کنید.
  • تصویر سبک : این یکی سبک هنری را ارائه می‌دهد که می‌خواهید به تصویر محتوا تحمیل کنید.
  • تصویر تولید شده : در ابتدا، این می‌تواند یک تصویر تصادفی یا یک کپی از تصویر محتوا باشد. این تصویر در طول زمان اصلاح می‌شود تا محتوای تصویر محتوا با سبک تصویر سبک ترکیب شود. این تنها متغیری است که الگوریتم در واقع در طول فرآیند تولید تصاویر با هوش مصنوعی تغییر می‌کند.

با بررسی این مکانیک، لازم به ذکر است که شبکه های عصبی مورد استفاده در NST دارای لایه‌هایی از نورون هستند. لایه‌هایی که اول ممکن است لبه‌ها و رنگ‌ها را تشخیص دهند، اما هرچه به عمق شبکه می‌روید، لایه‌ها این ویژگی‌های اساسی را برای تشخیص ویژگی‌های پیچیده‌تر، مانند بافت‌ها و اشکال، ترکیب می‌کنند. NST هوشمندانه از این لایه‌ها برای جداسازی و دستکاری محتوا و سبک استفاده می‌کند.

با پیشرفت بهینه‌سازی، تصویر تولید شده محتوا و سبک را از تصاویر مختلف می‌گیرد. نتیجه نهایی ترکیبی جذاب از این دو است که اغلب شباهت زیادی به یک اثر هنری دارد.

مدل‌های GAN، NST و Diffusion تنها چند فناوری تولید تصویر با هوش مصنوعی هستند که اخیراً توجهات را به خود جلب کرده‌اند. بسیاری از تکنیک‌های پیچیده دیگر در این زمینه سریع و در حال تکامل در حال ظهور هستند، زیرا محققان همچنان مرزهای آنچه را که با هوش مصنوعی در تولید تصویر امکان‌پذیر است، پیش می‌برند.

شما می‌توانید همین حالا از طریق زبان فارسی به موتور‌های هوش مصنوعی مولد مانند ChatGPT و سرویس تبدیل متن به عکس لئوناردو دسترسی پیدا کنید. تنها کافی است اپلیکیشن زی‌گپ را دانلود و به راحتی از آن استفاده کنید. همچنین شما می‌توانید نظرات خود را با ما و سایر کاربران در شبکه‌های اجتماعی ما در اینستاگرام و تلگرام به اشتراک بگذارید.

نوید رضایی
نوید رضایی