محققان هشدار دادهاند که ممکن است تا سال 2026، دادههای ما برای آموزش هوش مصنوعی تمام شود.
همانطور که هوش مصنوعی (AI) به اوج محبوبیت خود میرسد، محققان هشدار دادهاند که این صنعت ممکن است با کمبود دادههای آموزشی روبرو شود. دادههای آموزشی همان سوختی است که سیستمهای هوش مصنوعی قدرتمند را تغذیه میکند.
این موضوع میتواند رشد مدلهای هوش مصنوعی، به ویژه مدلهای زبان بزرگ LLM را کاهش و حتی مسیر انقلاب هوش مصنوعی را تغییر دهد.
اما چرا کمبود بالقوه داده با توجه به میزان موجود دادهها در وب، یک مشکل است؟ و آیا راهی برای مقابله با این خطر وجود دارد یا نه؟
چرا دادههای باکیفیت برای آموزش هوش مصنوعی مهم هستند؟
برای آموزش الگوریتمهای هوش مصنوعی قدرتمند، دقیق و با کیفیت، به دادههای زیادی نیاز داریم. به عنوان مثال، ChatGPT بر روی 570 گیگابایت داده متنی یا حدود 300 میلیارد کلمه آموزش داده شد.
به طور مشابه، الگوریتم انتشار پایدار (که پشت بسیاری از برنامههای تولید تصویر هوش مصنوعی مانند DALL-E، Lensa و Midjourney قرار دارد) بر روی مجموعه داده LIAON-5B متشکل از 5.8 میلیارد جفت تصویر-متن آموزش داده شد. اگر الگوریتمی روی مقدار ناکافی داده آموزش داده شود، خروجی های نادرست یا با کیفیت پایین تولید میکند.
کیفیت دادههای آموزشی نیز مهم است. شاید دسترسی به منابع دادههایی با کیفیت پایین مانند پستهای رسانههای اجتماعی یا عکسهای ناواضح و بیکیفیت آسان باشد، اما برای آموزش هوش مصنوعی با عملکرد بالا کافی نیست.
متنی که از پلتفرمهای رسانههای اجتماعی گرفته میشود ممکن است مغرضانه یا تعصبآمیز یا حاوی اطلاعات نادرست یا محتوای غیرقانونی باشد که این اطلاعات زیانبار میتوانند توسط مدل تکرار و بازتولید شوند. به عنوان مثال، زمانی که مایکروسافت سعی کرد ربات هوش مصنوعی خود را با استفاده از محتوای توییتر آموزش دهد، این ربات یاد گرفت که خروجی های نژادپرستانه و زنستیزانه تولید کند.
به همین دلیل است که توسعهدهندگان هوش مصنوعی به دنبال محتوای باکیفیت از کتابها، مقالات آنلاین، مقالات علمی، ویکیپدیا و محتوای وب فیلتر شده خاص هستند.
به عنوان مثال دستیار هوش مصنوعی گوگل بر روی 11000 رمان عاشقانه برگرفته از سایت Smashwords آموزش دیده است تا تعامل و گفتگوی بیشتری با کاربرانش داشته باشد.
آیا دادههای کافی برای آموزش هوش مصنوعی داریم؟
صنعت هوش مصنوعی سیستمهای هوش مصنوعی را بر روی مجموعه دادههای بزرگتر آموزش میدهد، به همین دلیل است که ما اکنون مدلهایی با عملکرد بالا مانند ChatGPT یا ابزار تولید تصویر DALL-E 3 داریم. در عین حال، تحقیقات نشان میدهد که ذخیره دادههای آنلاین بسیار کمتر و کندتر از مجموعه دادههای مورد استفاده در حال رشد برای آموزش هوش مصنوعی هستند.
در مقالهای که سال گذشته منتشر شد، گروهی از محققان پیشبینی کردند که اگر روند آموزشی هوش مصنوعی ادامه یابد، قبل از سال 2026 دادههای متنی با کیفیت بالا تمام خواهد شد. آنها همچنین تخمین زدند که دادههای زبانی با کیفیت پایین بین سالهای 2030 تا 2050 و دادههای تصویر با کیفیت پایین بین سالهای 2030 تا 2060 به پایان میرسد.
به گفته گروه مشاوره و حسابداری PwC، هوش مصنوعی تا سال 2030 می تواند تا 15.7 تریلیون دلار به اقتصاد جهان کمک کند. اما تمام شدن دادههای قابل استفاده میتواند توسعه آن را کاهش داد.
آیا باید نگران تمام شدن دادهها باشیم؟
در حالیکه نکات بالا ممکن است برخی از طرفداران هوش مصنوعی را نگران کند، اما وضعیت ممکن است آنقدرها هم که به نظر میرسد بد نباشد.
نکات ناشناخته زیادی در مورد چگونگی توسعه مدلهای هوش مصنوعی در آینده و البته چند راه برای مقابله با خطر کمبود داده وجود دارد.
یکی از فرصتها برای توسعهدهندگان هوش مصنوعی این است که الگوریتمها را بهبود ببخشند تا از دادههایی که در حال حاضر در اختیار دارند به طور کارآمدتر استفاده کنند.
این احتمال وجود دارد که در سالهای آینده، توسعهدهندگان بتوانند سیستمهای هوش مصنوعی با عملکرد بالا را با استفاده از دادهها و احتمالا قدرت محاسباتی کمتری آموزش دهند. این کاهش همچنین به کاهش ردپای کربن هوش مصنوعی کمک میکند.
گزینه دیگر، استفاده از هوش مصنوعی برای ایجاد دادههای مصنوعی برای آموزش سیستمهاست. به عبارت دیگر، توسعهدهندگان به سادگی میتوانند دادههای مورد نیاز خود را تولید کنند که متناسب با مدل هوش مصنوعی خاص آنها باشد.
چندین پروژه در حال حاضر از محتوای مصنوعی استفاده میکنند که اغلب از سرویسهای تولید داده مانند Mostly AI تهیه میشود. این امر در آینده رایجتر خواهد شد.
توسعهدهندگان همچنین به دنبال محتوایی خارج از فضای آنلاین رایگان هستند، مانند محتوایی که توسط ناشران بزرگ و مخازن آفلاین نگهداری میشود. به میلیونها متن منتشر شده قبل از اینترنت فکر کنید. اگر آن متنهای انبوه به صورت دیجیتالی در دسترس قرار بگیرند، میتوانند منبع جدیدی از دادهها را برای پروژههای آموزش هوش مصنوعی فراهم کنند.
News Corp، یکی از بزرگترین دارندگان محتوای خبری در جهان، اخیرا اعلام کرد که در حال مذاکره با توسعهدهندگان هوش مصنوعی برای قراردادهای تولید محتواست.
چنین معاملاتی شرکتهای هوش مصنوعی را مجبور میکند تا برای دریافت دادههای آموزشی پول بپردازند؛ در حالیکه تا کنون بیشتر آنها را به صورت رایگان از اینترنت برداشتهاند.
سازندگان محتوا نسبت به استفاده غیرمجاز از محتوای خود برای آموزش مدلهای هوش مصنوعی اعتراض و بعضا از شرکتهایی مانند مایکروسافت، OpenAI و Stability AI شکایت کردهاند. دریافت حقالزحمه از طرف آنها میتواند به رفع عدم تعادل قدرت بین تولیدکنندگان محتوا و شرکتهای هوش مصنوعی کمک و زمینه را برای دریافت دادههای بیشتر و باکیفیتتر کمک کند.