برای سالها، افرادی که سیستمهای هوش مصنوعی قدرتمند میسازند، از گنجینههای عظیمی از متن، تصاویر و ویدیوهای استخراجشده از اینترنت برای آموزش مدلهای خود استفاده کردهاند.
اما حالا این دادهها در حال از بین رفتن است.
بر اساس مطالعهای که در هفته جاری توسط Data Provenance Initiative، یک گروه تحقیقاتی تحت رهبری M.I.T. منتشر شد، در سال گذشته، بسیاری از مهمترین منابع وب مورد استفاده برای آموزش مدلهای هوش مصنوعی، دسترسی به دادههای خود را محدود کردهاند.
این مطالعه 14000 دامنه وب را بررسی و اعلام کرد «یک بحران در حال ظهور» در پیش است، زیرا ناشران و پلتفرمهای آنلاین اقداماتی را برای جلوگیری از جمعآوری دادههایشان انجام دادهاند.
محققان تخمین میزنند که در سه مجموعه داده – به نام های C4، RefinedWeb و Dolma، پنج درصد از کل داده ها و 25 درصد از دادهها از منابع با بالاترین کیفیت محدود شده است. این محدودیتها از طریق پروتکل محرومیت رباتها تنظیم میشود، روشی که چندین دهه برای صاحبان وبسایتها تا از خزیدن رباتهای خودکار در صفحات خود با استفاده از فایلی به نام robots.txt جلوگیری کنند.
این مطالعه همچنین نشان داد که 45 درصد از دادهها در مجموعه C4، توسط شرایط خدمات وبسایتها محدود شده است.
محدود شدن دادههایی هوش مصنوعی
«شاین لانگپر» نویسنده اصلی این مطالعه، در مصاحبهای گفت: «ما شاهد کاهش سریع رضایت برای استفاده از دادهها در سراسر وب هستیم که این موضوع پیامدهایی را نه تنها برای شرکتهای هوش مصنوعی، بلکه برای محققان، دانشگاهیان و نهادهای غیرتجاری خواهد داشت.»
دادهها عنصر اصلی در سیستمهای هوش مصنوعی مولد امروزی هستند که میلیاردها نمونه متن، تصویر و ویدئو را تغذیه میکنند.
بسیاری از این دادهها توسط محققان از وبسایتهای عمومی و در مجموعه دادههای بزرگی جمعآوری میشوند که میتوان آنها را دانلود و آزادانه استفاده و یا با دادههایی از منابع دیگر تکمیل کرد.
یادگیری از طریق همین دادههاست که به ابزارهایی نظیر Gemini، ChatGPT و Anthropic اجازه میدهد تا بتوانند متن یا تصویر تولید کنند. هرچه دادههای باکیفیتتر به این مدلها داده شود، خروجیهای آنها به طور کلی بهتر است.
برای سالها، توسعهدهندگان هوش مصنوعی میتوانستند به راحتی دادهها را جمعآوری کنند. اما رونق هوش مصنوعی مولد در چند سال گذشته به تنشهایی با صاحبان این دادهها منجر شده است؛ بسیاری از آنها در مورد استفاده از دادههایشان به عنوان خوراک آموزشی هوش مصنوعی تردید دارند یا حداقل میخواهند برای آن پول دریافت کنند.
با افزایش واکنشها، برخی از ناشران برای محدود کردن استفاده از دادههای خود برای آموزش هوش مصنوعی، دیوارهای پرداخت راهاندازی کردهاند یا شرایط خدمات خود را تغییر دادهاند. برخی دیگر خزندههای وب خودکار مورد استفاده شرکتهایی مانند OpenAI، Anthropic و Google را مسدود کردهاند.
سایتهایی مانند Reddit و StackOverflow شروع به دریافت هزینه از شرکتهای هوش مصنوعی برای دسترسی به دادهها کردهاند و تعداد کمی از ناشران اقدامات قانونی را انجام دادهاند – از جمله نیویورک تایمز، که سال گذشته از OpenAI و مایکروسافت به دلیل نقض حق نسخهبرداری شکایت و ادعا کرد که این شرکتها بدون اجازه از مقالات خبری برای آموزش استفاده کردهاند.
شرکتهایی مانند OpenAI، گوگل و متا در سالهای اخیر برای جمعآوری دادههای بیشتر برای بهبود سیستمهای خود، از جمله رونویسی از ویدیوهای YouTube و تغییر خطمشیهای دادههای خود، تلاشهای زیادی را انجام دادهاند.
اخیرا برخی از شرکتهای هوش مصنوعی با ناشران از جمله Associated Press و News Corp، صاحب امتیاز والاستریت ژورنال، قراردادهایی بستهاند و تا به محتوای تولیدی این ناشران دسترسی نامحدود داشته باشند.
اما محدودیتهای گسترده دادهها ممکن است تهدیدی برای شرکتهای هوش مصنوعی باشد که برای بهروز نگهداشتن مدلهای خود به عرضه ثابت دادههای با کیفیت بالا نیاز داشته باشند.
این محدودیت همچنین میتواند برای ابزارهای کوچکتر هوش مصنوعی و محققان دانشگاهی که به مجموعه دادههای عمومی متکی هستند و نمیتوانند به طور مستقیم دادهها را از ناشران بگیرند، دردسر ایجاد کند. آقای لانگپر گفت که Common Crawl، یکی از این مجموعه دادهها که میلیاردها صفحه از محتوای وب را شامل و توسط یک سازمان غیرانتفاعی نگهداری میشود، در بیش از 10000 مطالعه دانشگاهی ذکر شده است.
مشخص نیست که کدام محصولات محبوب هوش مصنوعی در این منابع آموزش دیدهاند، زیرا تعداد کمی از توسعهدهندگان لیست کامل دادههایی را که استفاده میکنند فاش کردهاند. اما مجموعه دادههای مشتق شده از Common Crawl – از جملهC4 – توسط شرکتهایی مانند گوگل و OpenAI برای آموزش نسخههای قبلی مدل های خود استفاده کردهاند. سخنگویان گوگل و OpenAI از اظهار نظر در این مورد خودداری کردند.
«یاسین جرنایت» محقق یادگیری ماشین در Hugging Face (شرکتی که ابزار و دادهها را در اختیار توسعهدهندگان هوش مصنوعی قرار میدهد)، «بحران رضایت» را پاسخی طبیعی از سوی ناشران به شیوههای تهاجمی جمعآوری اطلاعات صنعت هوش مصنوعی توصیف کرد.
او اذعان داشت: «جای تعجب نیست که ما شاهد واکنشهای منفی از سوی تولیدکنندگان داده هستیم، پس از اینکه متنها، تصاویر و ویدیوهایی که آنها به صورت آنلاین به اشتراک گذاشتهاند، برای توسعه سیستمهای تجاری استفاده شدهاند که گاهی به طور مستقیم معیشت آنها را تهدید میکنند.»
اما وی هشدار داد که اگر تمام دادههای آموزشی هوش مصنوعی باید از طریق معاملات مجوزدار به دست آید، «محققان و جامعه مدنی را از مشارکت در مدیریت فناوری محروم میکند».
«استلا بیدرمن» مدیر اجرایی EleutherAI، یک سازمان غیرانتفاعی تحقیقاتی هوش مصنوعی، بر این نگرانی صحه گذاشت.
او گفت: «شرکتهای بزرگ فناوری در حال حاضر همه دادهها را در اختیار دارند. تغییر مجوز در دادهها عطف به ماسبق نمیشود و تاثیر اولیه این تغییر بر بازیگرانی است که بعدا وارد بازی میشوند، که معمولا یا استارتاپهای کوچکتر یا محققین هستند».
منبع: NYtimes