شرکتهای فناوری به تاکتیکهای بحثبرانگیز روی آوردهاند تا مدلهای هوش مصنوعی، دادههای خود را تغذیه کنند. دادههایی از کتابها، وبسایتها، عکسها و پستهای رسانههای اجتماعی را جمعآوری میکنند. این تغذیه اطلاعاتی اغلب بدون اینکه سازندگان آنها بدانند انجام میگیرد.
شرکتهای هوش مصنوعی عموما در مورد منابع دادههای آموزشی خود مخفیکاری میکنند، اما تحقیقات Proof News نشان داد که برخی از ثروتمندترین شرکتهای هوش مصنوعی در جهان از مطالب هزاران ویدیوی یوتیوب برای آموزش هوش مصنوعی استفاده کردهاند. شرکتها بدون اجازه و علیرغم قوانین یوتیوب این کار را انجام دادند.
تحقیقات نشان داد که زیرنویسهای 173.536 ویدیوی یوتیوب که از بیش از 48.000 کانال استخراج شدهاند، توسط شرکتهای سنگین بزرگ سیلیکون ولی از جمله Anthropic، Nvidia، Apple، و Salesforce استفاده شده است.
این مجموعه داده که زیرنویسهای یوتیوب نام دارد، شامل رونوشتهای ویدئویی از کانالهای آموزشی و یادگیری آنلاین مانند آکادمی خان (Khan Academy ، MIT و هاروارد است.
آموزش هوش مصنوعی در یوتیوب
والاستریت ژورنال، NPR، و بیبیسی نیز از ویدئوهای خود برای آموزش هوش مصنوعی استفاده کردند، همانطور که از فیلمهای Late Show With Stephen Colbert، Last Week Tonight With John Oliver و Jimmy Kimmel Live استفاده کردند.
Proof News ابزاری برای جستجوی سازندگان در مجموعه دادههای آموزشی هوش مصنوعی یوتیوب ایجاد کرده است.
«دیوید پاکمن» مجری برنامه دیوید پاکمن شو، یک کانال سیاسی با گرایش چپ با بیش از 2 میلیون مشترک و بیش از 2 میلیارد بازدید، گفت: «هیچکس نزد من نیامد و نگفت ما می خواهیم از این استفاده کنیم.» در حالیکه از نزدیک به 160 ویدیوی او در یوتیوب برای آموزش هوش مصنوعی استفاده شده است.
چهار نفر به صورت تماموقت در شرکت پاکمن کار میکنند، که علاوه بر تولید پادکست، ویدیوهای تیکتاک و مطالب برای پلتفرمهای دیگر، هر روز چندین ویدیو پست میکند. پاکمن گفت، اگر به شرکتهای هوش مصنوعی پول پرداخت میشود، باید به خاطر استفاده از دادههایش غرامت دریافت کند.
وی خاطرنشان کرد که برخی از شرکتهای رسانهای اخیرا توافقنامههایی را برای استفاده از کارشان برای آموزش هوش مصنوعی منعقد کردهاند.
پاکمن گفت: «این کار تنها راه امرار معاش من است و من زمان، منابع، پول و زمان کارکنان زیادی را برای ایجاد این محتوا اختصاص دادهام.»
«دیو ویسکاس» مدیر عامل Nebula، یک سرویس استریم که بخشی از آن متعلق به سازندگان آن است، گفت: «این کار دزدی است.»
ویسکاس گفت استفاده از آثار سازندگان بدون رضایت آنها “بیاحترامی” است، به ویژه از آنجایی که استودیوها ممکن است از هوش مصنوعی مولد برای جایگزینی تعداد زیادی از هنرمندان در طول مسیر تا جایی که میشود استفاده کنند.
آیا این امر به استثمار هنرمندان و آسیب رساندن به آنها منجر خواهد شد؟ ویسکاس میگوید بله.
نمایندگان EleutherAI، خالق مجموعه داده، به درخواستها برای اظهار نظر در مورد یافتههای Proof، از جمله ادعاهایی مبنی بر استفاده بدون اجازه از ویدیوها، پاسخی ندادند. وبسایت این شرکت بیان میکند که هدف کلی آن کاهش موانع توسعه هوش مصنوعی برای کسانی است که خارج از دیوارهای طلایی شرکتهای بزرگ هستند، و در طول تاریخ «دسترسی به فناوریهای پیشرفته هوش مصنوعی با آموزش و عرضه مدلها» را فراهم کرده است.
زیرنویسهای یوتیوب شامل تصاویر ویدیویی نمیشود، اما شامل متن ساده زیرنویسهای ویدیوها، اغلب همراه با ترجمه به زبانهایی از جمله ژاپنی، آلمانی و عربی است.
بر اساس یک مقاله تحقیقاتی منتشر شده توسط EleutherAI، مجموعه داده، بخشی از مجموعهای است که توسط یک سازمان غیرانتفاعی به نام Pile منتشر شده است. توسعهدهندگان Pile نه تنها از یوتیوب، بلکه از پارلمان اروپا، ویکیپدیای انگلیسی و مجموعهای از ایمیلهای کارکنان شرکت Enron برای آموزش هوش مصنوعی استفاده کردهاند و این موضوع در تحقیقات فدرال مشخص شده است.
بیشتر مجموعههای داده Pile برای هر کسی که در اینترنت به آنها نیاز دارد، قابل دسترس و باز است. دانشگاهیان و سایر توسعهدهندگان خارج از غولهای فناوری از مجموعه داده استفاده کردند، اما نه به تنهایی.
اپل، انویدیا و سیلزفورس – شرکتهایی که ارزش آنها به صدها میلیارد و تریلیون دلار میرسد – در مقالات و پستهای تحقیقاتی خود توضیح میدهند که چگونه از Pile برای آموزش هوش مصنوعی استفاده کردند.
اسناد همچنین نشان میدهند که اپل از Pile برای آموزش OpenELM استفاده کرده است، مدلی که در ماه آوریل عرضه شد، چند هفته قبل از اینکه شرکت اعلام کند قابلیتهای هوش مصنوعی جدیدی را به آیفونها و مکبوکها اضافه خواهد کرد. نشریات این شرکتها نشان میدهد که بلومبرگ و دیتابریکس نیز مدلهایی را در Pile آموزش دادهاند.
همچنین آنتروپیک، یک سازنده پیشروی هوش مصنوعی که سرمایهگذاری ۴ میلیارد دلاری از آمازون به دست آورد و تمرکز خود را بر روی «ایمنی هوش مصنوعی» گذاشته نیز همین کار را کرد.
دادههای یوتیوب؛ معدن طلا
«جای ویپرا» محقق سیاست هوش مصنوعی در ریودوژانیرو، برزیل، گفت: «شرکتهای هوش مصنوعی تا حدی با تهیه دادههای با کیفیت بالاتر با یکدیگر رقابت میکنند. این یکی از دلایلی است که شرکتها منابع داده را نزدیک به جیبشان نگه می دارند.»
در اوایل سال جاری، نیویورک تایمز گزارش داد که گوگل که مالک یوتیوب است، از ویدئوهای این پلتفرم برای دریافت متن برای آموزش مدلهای خود استفاده میکند. در پاسخ، سخنگویی به این روزنامه گفت که استفاده از آن بر اساس توافقات با سازندگان یوتیوب مجاز است.
تحقیقات تایمز همچنین نشان داد که OpenAI از ویدیوهای یوتیوب بدون مجوز استفاده میکند. نمایندگان آن شرکت یافتههای این مقاله را نه تایید و نه رد کردند.
مدیران OpenAI بارها از پاسخ علنی به سوالات درباره اینکه آیا از ویدیوهای یوتیوب برای آموزش محصول هوش مصنوعی Sora خود استفاده کرده است، خودداری کردهاند. در اوایل سال جاری، یکی از خبرنگاران وال استریت ژورنال این سوال را با «میرا موراتی» مدیر ارشد فناوری OpenAI مطرح کرد.
موراتی پاسخ داد: «در واقع در مورد آن مطمئن نیستم.»
ویپرا گفت، زیرنویسهای یوتیوب و سایر انواع دادههای گفتار به متن به طور بالقوه یک معدن طلا هستند، زیرا میتوانند به آموزش مدلهایی برای تکرار نحوه صحبت و مکالمه افراد کمک کنند.
منبع: Wired