هوش مصنوعی

تا سال 2026 دیگر داده‌ای برای آموزش هوش مصنوعی وجود نخواهد داشت

سرفصل‌های مقاله

محققان هشدار داده‌اند که ممکن است تا سال 2026، داده‌های ما برای آموزش هوش مصنوعی تمام شود.

همان‌طور که هوش مصنوعی (AI) به اوج محبوبیت خود می‌رسد، محققان هشدار داده‌اند که این صنعت ممکن است با کمبود داده‌های آموزشی روبرو شود. داده‌های آموزشی همان سوختی است که سیستم‌های هوش مصنوعی قدرتمند را تغذیه می‌کند.

 این موضوع می‌تواند رشد مدل‌های هوش مصنوعی، به ویژه مدل‌های زبان بزرگ LLM را کاهش و حتی مسیر انقلاب هوش مصنوعی را تغییر دهد.

اما چرا کمبود بالقوه داده با توجه به میزان موجود داده‌ها در وب، یک مشکل است؟ و آیا راهی برای مقابله با این خطر وجود دارد یا نه؟

چرا داده‌های باکیفیت برای آموزش هوش مصنوعی مهم هستند؟

هوش مصنوعی
آموزش هوش مصنوعی

برای آموزش الگوریتم‌های هوش مصنوعی قدرتمند، دقیق و با کیفیت، به داده‌های زیادی نیاز داریم. به عنوان مثال، ChatGPT بر روی 570 گیگابایت داده متنی یا حدود 300 میلیارد کلمه آموزش داده شد.

به طور مشابه، الگوریتم انتشار پایدار (که پشت بسیاری از برنامه‌های تولید تصویر هوش مصنوعی مانند DALL-E، Lensa و Midjourney قرار دارد) بر روی مجموعه داده LIAON-5B متشکل از 5.8 میلیارد جفت تصویر-متن آموزش داده شد. اگر الگوریتمی روی مقدار ناکافی داده آموزش داده شود، خروجی های نادرست یا با کیفیت پایین تولید می‌کند.

کیفیت داده‌های آموزشی نیز مهم است. شاید دسترسی به منابع داده‌هایی با کیفیت پایین مانند پست‌های رسانه‌های اجتماعی یا عکس‌های ناواضح و بی‌کیفیت آسان باشد، اما برای آموزش هوش مصنوعی با عملکرد بالا کافی نیست.

متنی که از پلتفرم‌های رسانه‌های اجتماعی گرفته می‌شود ممکن است مغرضانه یا تعصب‌آمیز یا حاوی اطلاعات نادرست یا محتوای غیرقانونی باشد که این اطلاعات زیان‌بار می‌توانند توسط مدل تکرار و بازتولید شوند. به عنوان مثال، زمانی که مایکروسافت سعی کرد ربات هوش مصنوعی خود را با استفاده از محتوای توییتر آموزش دهد، این ربات یاد گرفت که خروجی های نژادپرستانه و زن‌ستیزانه تولید کند.

به همین دلیل است که توسعه‌دهندگان هوش مصنوعی به دنبال محتوای باکیفیت از کتاب‌ها، مقالات آنلاین، مقالات علمی، ویکی‌پدیا و محتوای وب فیلتر شده خاص هستند.

به عنوان مثال دستیار هوش مصنوعی گوگل بر روی 11000 رمان عاشقانه برگرفته از سایت Smashwords آموزش دیده است تا تعامل و گفتگوی بیشتری با کاربرانش داشته باشد.

آیا داده‌های کافی برای آموزش هوش مصنوعی داریم؟

صنعت هوش مصنوعی سیستم‌های هوش مصنوعی را بر روی مجموعه داده‌های بزرگ‌تر آموزش می‌دهد، به همین دلیل است که ما اکنون مدل‌هایی با عملکرد بالا مانند ChatGPT یا ابزار تولید تصویر DALL-E 3 داریم. در عین حال، تحقیقات نشان می‌دهد که ذخیره داده‌های آنلاین بسیار کمتر و کندتر از مجموعه داده‌های مورد استفاده در حال رشد برای آموزش هوش مصنوعی هستند. 

در مقاله‌ای که سال گذشته منتشر شد، گروهی از محققان پیش‌بینی کردند که اگر روند آموزشی هوش مصنوعی ادامه یابد، قبل از سال 2026 داده‌های متنی با کیفیت بالا تمام خواهد شد. آن‌ها همچنین تخمین زدند که داده‌های زبانی با کیفیت پایین بین سال‌های 2030 تا 2050 و داده‌های تصویر با کیفیت پایین بین سال‌های 2030 تا 2060 به پایان می‌رسد.

به گفته گروه مشاوره و حسابداری PwC، هوش مصنوعی تا سال 2030 می تواند تا 15.7 تریلیون دلار به اقتصاد جهان کمک کند. اما تمام شدن داده‌های قابل استفاده می‌تواند توسعه آن را کاهش داد.

آیا باید نگران تمام شدن داده‌ها باشیم؟

در حالی‌که نکات بالا ممکن است برخی از طرفداران هوش مصنوعی را نگران کند، اما وضعیت ممکن است آن‌قدرها هم که به نظر می‌رسد بد نباشد. 

نکات ناشناخته‌ زیادی در مورد چگونگی توسعه مدل‌های هوش مصنوعی در آینده و البته چند راه برای مقابله با خطر کمبود داده وجود دارد.

یکی از فرصت‌ها برای توسعه‌دهندگان هوش مصنوعی این است که الگوریتم‌ها را بهبود ببخشند تا از داده‌هایی که در حال حاضر در اختیار دارند به طور کارآمدتر استفاده کنند.

این احتمال وجود دارد که در سال‌های آینده، توسعه‌دهندگان بتوانند سیستم‌های هوش مصنوعی با عملکرد بالا را با استفاده از داده‌ها و احتمالا قدرت محاسباتی کمتری آموزش دهند. این کاهش همچنین به کاهش ردپای کربن هوش مصنوعی کمک می‌کند.

گزینه دیگر، استفاده از هوش مصنوعی برای ایجاد داده‌های مصنوعی برای آموزش سیستم‌هاست. به عبارت دیگر، توسعه‌دهندگان به سادگی می‌توانند داده‌های مورد نیاز خود را تولید کنند که متناسب با مدل هوش مصنوعی خاص آن‌ها باشد.

چندین پروژه در حال حاضر از محتوای مصنوعی استفاده می‌کنند که اغلب از سرویس‌های تولید داده مانند Mostly AI تهیه می‌شود. این امر در آینده رایج‌تر خواهد شد.

توسعه‌دهندگان همچنین به دنبال محتوایی خارج از فضای آنلاین رایگان هستند، مانند محتوایی که توسط ناشران بزرگ و مخازن آفلاین نگهداری می‌شود. به میلیون‌ها متن منتشر شده قبل از اینترنت فکر کنید. اگر آن متن‌های انبوه به صورت دیجیتالی در دسترس قرار بگیرند، می‌توانند منبع جدیدی از داده‌ها را برای پروژه‌های آموزش هوش مصنوعی فراهم کنند.

News Corp، یکی از بزرگ‌ترین دارندگان محتوای خبری در جهان، اخیرا اعلام کرد که در حال مذاکره با توسعه‌دهندگان هوش مصنوعی برای قراردادهای تولید محتواست. 

چنین معاملاتی شرکت‌های هوش مصنوعی را مجبور می‌کند تا برای دریافت داده‌های آموزشی پول بپردازند؛ در حالی‌که تا کنون بیشتر آن‌ها را به صورت رایگان از اینترنت برداشته‌اند.

سازندگان محتوا نسبت به استفاده غیرمجاز از محتوای خود برای آموزش مدل‌های هوش مصنوعی اعتراض و بعضا از شرکت‌هایی مانند مایکروسافت، OpenAI و Stability AI شکایت کرده‌اند. دریافت حق‌الزحمه از طرف آن‌ها می‌تواند به رفع عدم تعادل قدرت بین تولیدکنندگان محتوا و شرکت‌های هوش مصنوعی کمک و زمینه را برای دریافت داده‌های بیشتر و باکیفیت‌تر کمک کند.

مهران
مهران