داده‌هایی هوش مصنوعی

داده‌هایی که به هوش مصنوعی قدرت می‌دهد در حال آب رفتن است

فهرست مطالب

برای سال‌ها، افرادی که سیستم‌های هوش مصنوعی قدرتمند می‌سازند، از گنجینه‌های عظیمی از متن، تصاویر و ویدیوهای استخراج‌شده از اینترنت برای آموزش مدل‌های خود استفاده کرده‌اند.

اما حالا این داده‌ها در حال از بین رفتن است.

بر اساس مطالعه‌ای که در هفته جاری توسط Data Provenance Initiative، یک گروه تحقیقاتی تحت رهبری M.I.T. منتشر شد، در سال گذشته، بسیاری از مهم‌ترین منابع وب مورد استفاده برای آموزش مدل‌های هوش مصنوعی، دسترسی به داده‌های خود را محدود کرده‌اند.

این مطالعه 14000 دامنه وب را بررسی و اعلام کرد «یک بحران در حال ظهور» در پیش است، زیرا ناشران و پلتفرم‌های آنلاین اقداماتی را برای جلوگیری از جمع‌آوری داده‌های‌شان انجام داده‌اند.

محققان تخمین می‌زنند که در سه مجموعه داده – به نام های C4، RefinedWeb و Dolma، پنج درصد از کل داده ها و 25 درصد از داده‌ها از منابع با بالاترین کیفیت محدود شده است. این محدودیت‌ها از طریق پروتکل محرومیت ربات‌ها تنظیم می‌شود، روشی که چندین دهه‌ برای صاحبان وب‌سایت‌ها تا از خزیدن ربات‌های خودکار در صفحات خود با استفاده از فایلی به نام robots.txt جلوگیری کنند.

این مطالعه همچنین نشان داد که 45 درصد از داده‌ها در مجموعه C4، توسط شرایط خدمات وب‌سایت‌ها محدود شده است.

محدود شدن داده‌هایی هوش مصنوعی

هوش مصنوعی

«شاین لانگپر» نویسنده اصلی این مطالعه، در مصاحبه‌ای گفت: «ما شاهد کاهش سریع رضایت برای استفاده از داده‌ها در سراسر وب هستیم که این موضوع پیامدهایی را نه تنها برای شرکت‌های هوش مصنوعی، بلکه برای محققان، دانشگاهیان و نهادهای غیرتجاری خواهد داشت.»

داده‌ها عنصر اصلی در سیستم‌های هوش مصنوعی مولد امروزی هستند که میلیاردها نمونه متن، تصویر و ویدئو را تغذیه می‌کنند. 

بسیاری از این داده‌ها توسط محققان از وب‌سایت‌های عمومی و در مجموعه داده‌های بزرگی جمع‌آوری می‌شوند که می‌توان آن‌ها را دانلود و آزادانه استفاده و یا با داده‌هایی از منابع دیگر تکمیل کرد.

یادگیری از طریق همین داده‌هاست که به ابزارهایی نظیر Gemini، ChatGPT و Anthropic اجازه می‌دهد تا بتوانند متن یا تصویر تولید کنند. هرچه داده‌های باکیفیت‌تر به این مدل‌ها داده شود، خروجی‌های آن‌ها به طور کلی بهتر است.

برای سال‌ها، توسعه‌دهندگان هوش مصنوعی می‌توانستند به راحتی داده‌ها را جمع‌آوری کنند. اما رونق هوش مصنوعی مولد در چند سال گذشته به تنش‌هایی با صاحبان این داده‌ها منجر شده است؛ بسیاری از آن‌ها در مورد استفاده از داده‌هایشان به عنوان خوراک آموزشی هوش مصنوعی تردید دارند یا حداقل می‌خواهند برای آن پول دریافت کنند.

با افزایش واکنش‌ها، برخی از ناشران برای محدود کردن استفاده از داده‌های خود برای آموزش هوش مصنوعی، دیوارهای پرداخت راه‌اندازی کرده‌اند یا شرایط خدمات خود را تغییر داده‌اند. برخی دیگر خزنده‌های وب خودکار مورد استفاده شرکت‌هایی مانند OpenAI، Anthropic و Google را مسدود کرده‌اند.

سایت‌هایی مانند Reddit و StackOverflow شروع به دریافت هزینه از شرکت‌های هوش مصنوعی برای دسترسی به داده‌ها کرده‌اند و تعداد کمی از ناشران اقدامات قانونی را انجام داده‌اند – از جمله نیویورک تایمز، که سال گذشته از OpenAI و مایکروسافت به دلیل نقض حق نسخه‌برداری شکایت و ادعا کرد که این شرکت‌ها بدون اجازه از مقالات خبری برای آموزش استفاده کرده‌اند.

شرکت‌هایی مانند OpenAI، گوگل و متا در سال‌های اخیر برای جمع‌آوری داده‌های بیشتر برای بهبود سیستم‌های خود، از جمله رونویسی از ویدیوهای YouTube و تغییر خط‌مشی‌های داده‌های خود، تلاش‌های زیادی را انجام داده‌اند.

اخیرا برخی از شرکت‌های هوش مصنوعی با ناشران از جمله Associated Press و News Corp، صاحب امتیاز  وال‌استریت ژورنال، قراردادهایی بسته‌اند و تا به محتوای تولیدی این ناشران دسترسی نامحدود داشته باشند.

اما محدودیت‌های گسترده داده‌ها ممکن است تهدیدی برای شرکت‌های هوش مصنوعی باشد که برای  به‌روز نگه‌داشتن مدل‌های خود به عرضه ثابت داده‌های با کیفیت بالا نیاز داشته باشند.

این محدودیت همچنین می‌تواند برای ابزارهای کوچک‌تر هوش مصنوعی و محققان دانشگاهی که به مجموعه داده‌های عمومی متکی هستند و نمی‌توانند به طور مستقیم داده‌ها را از ناشران بگیرند، دردسر ایجاد کند. آقای لانگپر گفت که Common Crawl، یکی از این مجموعه داده‌ها که میلیاردها صفحه از محتوای وب را شامل و توسط یک سازمان غیرانتفاعی نگهداری می‌شود، در بیش از 10000 مطالعه دانشگاهی ذکر شده است.

مشخص نیست که کدام محصولات محبوب هوش مصنوعی در این منابع آموزش دیده‌اند، زیرا تعداد کمی از توسعه‌دهندگان لیست کامل داده‌هایی را که استفاده می‌کنند فاش کرده‌اند. اما مجموعه داده‌های مشتق شده از Common Crawl – از جملهC4 – توسط شرکت‌هایی مانند گوگل و OpenAI برای آموزش نسخه‌های قبلی مدل های خود استفاده کرده‌اند. سخن‌گویان گوگل و OpenAI از اظهار نظر در این مورد خودداری کردند.

«یاسین جرنایت» محقق یادگیری ماشین در Hugging Face (شرکتی که ابزار و داده‌ها را در اختیار توسعه‌دهندگان هوش مصنوعی قرار می‌دهد)، «بحران رضایت» را پاسخی طبیعی از سوی ناشران به شیوه‌های تهاجمی جمع‌آوری اطلاعات صنعت هوش مصنوعی توصیف کرد.

او اذعان داشت: «جای تعجب نیست که ما شاهد واکنش‌های منفی از سوی تولیدکنندگان داده هستیم، پس از اینکه متن‌ها، تصاویر و ویدیوهایی که آن‌ها به صورت آنلاین به اشتراک گذاشته‌اند، برای توسعه سیستم‌های تجاری استفاده شده‌اند که گاهی به طور مستقیم معیشت آن‌ها را تهدید می‌کنند.»

اما وی هشدار داد که اگر تمام داده‌های آموزشی هوش مصنوعی باید از طریق معاملات مجوزدار به دست آید، «محققان و جامعه مدنی را از مشارکت در مدیریت فناوری محروم می‌کند».

«استلا بیدرمن» مدیر اجرایی EleutherAI، یک سازمان غیرانتفاعی تحقیقاتی هوش مصنوعی، بر این نگرانی صحه گذاشت.

او گفت: «شرکت‌های بزرگ فناوری در حال حاضر همه داده‌ها را در اختیار دارند. تغییر مجوز در داده‌ها عطف به ماسبق نمی‌شود و تاثیر اولیه این تغییر بر بازیگرانی است که بعدا وارد بازی می‌شوند، که معمولا یا استارتاپ‌های کوچک‌تر یا محققین هستند».

منبع: NYtimes

نظرت رو برامون بنویس

برنامه هوش مصنوعی

دستیار صوتی هوشمند

دانلود زیگپ