تولید عکس متا

هوش مصنوعی تولید عکس متا با 1.1 میلیارد عکس اینستاگرام و فیس‌بوک

سرفصل‌های مقاله

در روز چهارشنبه، متا یک وب‌سایت تولیدکننده تصویر هوش مصنوعی رایگان با نام «Imagine with Meta AI» را بر اساس مدل ترکیبی تصویر Emu منتشر کرد. اما هوش مصنوعی تولید عکس متا چه تفاوت‌های با مدل‌های دیگر دارد؟

متا از 1.1 میلیارد تصویر قابل مشاهده در فیس‌بوک و اینستاگرام برای آموزش مدل هوش مصنوعی استفاده کرد که قادر است براساس پرامپت‌های شما، یک تصویر جدید و اریجینال طراحی کند. پیش از این، نسخه متا از این فناوری – با استفاده از همان داده‌ها – فقط در اپلیکیشن‌های پیام‌رسانی و شبکه‌های اجتماعی مانند اینستاگرام در دسترس بود.

اگر کاربر فیس‌بوک یا اینستاگرام هستید، احتمالا تصویری از حساب کاربری شما (یا عکسی که گرفته‌اید) به آموزش Emu کمک کرده است.

هوش مصنوعی تولید عکس متا

هوش مصنوعی
هوش مصنوعی تولید عکس متا

متا با این کار به ضرب‌المثل قدیمی «اگر برای دریافت محصولی پولی پرداخت نمی‌کنید، به احتمال زیاد “محصول” خود شما هستید» معنای کاملا جدیدی بخشیده است. اگرچه از سال 2016 کاربران اینستاگرام روزانه بیش از 95 میلیون عکس آپلود می‌کردند، بنابراین مجموعه داده متا برای آموزش مدل هوش مصنوعی خود، زیرمجموعه کوچکی از مجموعه عکس کلی آن بود.

از آن‌جایی که متا ادعا کرده است که فقط از عکس‌های در دسترس عموم برای آموزش استفاده می‌کند، بنابراین اگر صفحه‌تان خصوصی باشد متا اجازه استفاده از آن‌ها برای آموزش هوش مصنوعی تولید تصویر خود را ندارد؛ مگر این‌که این سیاست در آینده تغییر کند.

با Meta AI تصور کنید

همانند Stable Diffusion، DALL-E3 و Midjourney، هوش مصنوعی تولید عکس متا نیز تصاویر جدیدی را بر اساس آن‌چه مدل هوش مصنوعی درباره مفاهیم بصری آموخته شده از داده‌های آموزشی «می‌داند» تولید می‌کند.

 ایجاد تصاویر با استفاده از وب‌سایت جدید نیاز به یک حساب متا دارد که می‌توانید از حساب کاربری اینستاگرام یا فیس‌بوک خود نیز برای ورود به آن استفاده کنید.

هر نسل از این هوش مصنوعی، چهار تصویر در ابعاد 1280×1280 پیکسل ایجاد می‌کند که می‌توانند در فرمت JPEG ذخیره شوند. تصاویر شامل لوگوی واترمارک کوچک “Imagined with AI” در گوشه پایین سمت چپ است.

متا در خبر مربوط به انتشار این فناوری گفته: «ما از شنیدن صحبت‌های مردم در مورد نحوه استفاده از Imagine برای ایجاد محتوای سرگرم‌کننده و خلاقانه در چت‌ها لذت بردیم. امروز، ما دسترسی به Imagine به صورت خارج از چت را گسترش و آن را برای استفاده در ایالات متحده به آدرس virtual.meta.com در دسترس قرار می‌دهیم. این تجربه مستقل برای علاقمندان خلاق، به شما امکان می‌دهد با فناوری Emu، مدل پایه تصویر ما، تصاویر مورد نظرتان را بسازید.»

مدل متا به طور کلی تصاویر واقعی واقعی خلق می‌کند، اما نه به خوبی Midjourney. این هوش مصنوعی می‌تواند بهتر از Stable Diffusion XL از پس پرامپت‌های پیچیده برآید، اما شاید به خوبی DALL-E3 نباشد. 

به نظر می‌رسد که هوش مصنوعی تولید عکس متا به خوبی از پس رندر کردن متون برنمی‌آید، هرچند خروجی تصاویر آن متفاوت است و تصاویرش را به صورت آبرنگ، گلدوزی و حتی قلم‌وجوهر به شما تحویل می‌دهد. ضمن این‌که در زمینه قومیتی هم گوناگونی را لحاظ کرده و در تصاویر تولیدی آن، افرادی از نژادهای مختلف حضور دارند.

با این حال در حالت کلی این محصول جدید متا در روزگار فعلی، عملکرد متوسطی از خودش به جای می‌گذارد.

کمک فیس‌بوک و اینستاگرام به تولد هوش مصنوعی تصویرساز متا

پس ما در مورد Emu، مدل هوش مصنوعی‌ای که پشت ویژگی‌های جدید تولید تصویر هوش مصنوعی متا قرار دارد، چه می‌دانیم؟ 

بر اساس یک مقاله تحقیقاتی که توسط متا در ماه سپتامبر منتشر شد، Emu توانایی خود را برای تولید تصاویر با کیفیت بالا از طریق فرایندی به نام “تنظیم کیفیت” دریافت می‌کند. برخلاف مدل‌های سنتی متن به تصویر که با تعداد زیادی جفت تصویر-متن آموزش داده می‌شوند، Emu بعد از آموزش روی «هم‌ترازی زیبایی‌شناختی» تمرکز می‌کند و از مجموعه‌ای از تصاویر نسبتا کوچک اما از نظر بصری جذاب استفاده می‌کند.

با این حال در قلب Emu، مجموعه داده‌های پیش‌آموزشی عظیم فوق‌الذکر شامل 1.1 میلیارد جفت متن-تصویر است که از فیس‌بوک و اینستاگرام استخراج شده‌اند. 

در مقاله تحقیقاتی Emu، متا مشخص نمی‌کند که این داده‌های آموزشی از کجا آمده‌اند، اما گزارش‌های کنفرانس Meta Connect2023 به صحبت‌های «نیک کلگ» رئیس امور جهانی متا ارجاع داده شده است که تایید می‌کند که Emu از پست‌های رسانه‌های اجتماعی به عنوان داده‌های آموزشی برای مدل‌های هوش مصنوعی استفاده می‌کنند.

این یک تغییر در رویکرد نسبت به سایر شرکت‌های هوش مصنوعی است، زیرا متا به داده‌های تصویر و زیرنویس زیادی از خدمات خود دسترسی دارد. سایر مدل‌های ترکیب تصویر، از تصاویری استفاده می‌کنند که به‌طور غیرقانونی از اینترنت برداشته شده‌اند یا از مجموعه‌عکس‌های قابل خرید به صورت قانونی و یا ترکیبی از هر دو روش.

جالب این‌جاست که مقاله تحقیقاتی متا در مورد Emu اولین مقاله‌ای است که در مورد یک مدل اصلی ترکیب تصویر دیده‌ایم که پتانسیل این مدل برای ایجاد اطلاعات نادرست یا محتوای بالقوه‌مضر را رد نمی‌کند. 

این صداقت به نظر بازتابی از پذیرش عمومی از واقعیت مدل‌های سنتز تصویر هوش مصنوعی است که اکنون بسیار رایج‌تر شده‌اند. این‌که آیا این رویکرد چیز خوبی است یا نه، جواب مشخصی ندارد.

با این حال به نظر می‌رسد متا در حال رسیدگی به مشکلات خروجی‌های مضر بالقوه با استفاده فیلترهاست؛ یک سیستم واترمارک پیشنهادی که هنوز عملیاتی نشده است و البته یک سلب مسئولیت کوچک در پایین وب‌سایت: “تصاویر تولیدی ممکن است نامناسب یا نادرست باشند.”

تولید عکس با هوش مصنوعی فارسی

با استفاده از دستیار هوش مصنوعی فارسی زیگپ می‌توانید محتوا تولید کنید، تصویر بسازید، ترجمه کنید و از تمامی امکانات هوش مصنوعی بهره ببرید.

مهران
مهران