آموزش هوش مصنوعی در یوتیوب

استفاده غول‌های فناوری از یوتیوب برای آموزش هوش مصنوعی

فهرست مطالب

شرکت‌های فناوری به تاکتیک‌های بحث‌برانگیز روی آورده‌اند تا مدل‌های هوش مصنوعی، داده‌های خود را تغذیه کنند. داده‌هایی از کتاب‌ها، وب‌سایت‌ها، عکس‌ها و پست‌های رسانه‌های اجتماعی را جمع‌آوری می‌کنند. این تغذیه اطلاعاتی اغلب بدون این‌که سازندگان آن‌ها بدانند انجام می‌گیرد.

شرکت‌های هوش مصنوعی عموما در مورد منابع داده‌های آموزشی خود مخفی‌کاری می‌کنند، اما تحقیقات Proof News نشان داد که برخی از ثروتمندترین شرکت‌های هوش مصنوعی در جهان از مطالب هزاران ویدیوی یوتیوب برای آموزش هوش مصنوعی استفاده کرده‌اند. شرکت‌ها  بدون اجازه و علی‌رغم قوانین یوتیوب این کار را انجام دادند.

تحقیقات نشان داد که زیرنویس‌های 173.536 ویدیوی یوتیوب که از بیش از 48.000 کانال استخراج شده‌اند، توسط شرکت‌های سنگین‌ بزرگ سیلیکون ولی از جمله Anthropic، Nvidia، Apple، و Salesforce استفاده شده است.

این مجموعه داده که زیرنویس‌های یوتیوب نام دارد، شامل رونوشت‌های ویدئویی از کانال‌های آموزشی و یادگیری آنلاین مانند آکادمی خان (Khan Academy ، MIT و هاروارد است.

آموزش هوش مصنوعی در یوتیوب

آموزش هوش مصنوعی در یوتیوب

وال‌استریت ژورنال، NPR، و بی‌بی‌سی نیز از ویدئوهای خود برای آموزش هوش مصنوعی استفاده کردند، همان‌طور که از فیلم‌های Late Show With Stephen Colbert، Last Week Tonight With John Oliver و Jimmy Kimmel Live استفاده کردند.

Proof News ابزاری برای جستجوی سازندگان در مجموعه داده‌های آموزشی هوش مصنوعی یوتیوب ایجاد کرده است.

«دیوید پاکمن» مجری برنامه دیوید پاکمن شو، یک کانال سیاسی با گرایش چپ با بیش از 2 میلیون مشترک و بیش از 2 میلیارد بازدید، گفت: «هیچ‌کس نزد من نیامد و نگفت ما می خواهیم از این استفاده کنیم.» در حالی‌که از نزدیک به 160 ویدیوی او در یوتیوب برای آموزش هوش مصنوعی استفاده شده است.

چهار نفر به صورت تمام‌وقت در شرکت پاکمن کار می‌کنند، که علاوه بر تولید پادکست، ویدیوهای تیک‌تاک و مطالب برای پلتفرم‌های دیگر، هر روز چندین ویدیو پست می‌کند. پاکمن گفت، اگر به شرکت‌های هوش مصنوعی پول پرداخت می‌شود، باید به خاطر استفاده از داده‌هایش غرامت دریافت کند.

 وی خاطرنشان کرد که برخی از شرکت‌های رسانه‌ای اخیرا توافق‌نامه‌هایی را برای استفاده از کارشان برای آموزش هوش مصنوعی منعقد کرده‌اند.

پاکمن گفت: «این کار تنها راه امرار معاش من است و من زمان، منابع، پول و زمان کارکنان زیادی را برای ایجاد این محتوا اختصاص داده‌ام.»

«دیو ویسکاس» مدیر عامل Nebula، یک سرویس استریم که بخشی از آن متعلق به سازندگان آن است، گفت: «این کار دزدی است.»

ویسکاس گفت استفاده از آثار سازندگان بدون رضایت آ‌نها “بی‌احترامی” است، به ویژه از آن‌جایی که استودیوها ممکن است از هوش مصنوعی مولد برای جایگزینی تعداد زیادی از هنرمندان در طول مسیر تا جایی که می‌شود استفاده کنند.

آیا این امر به استثمار هنرمندان و آسیب رساندن به آن‌ها منجر خواهد شد؟ ویسکاس می‌گوید بله.

نمایندگان EleutherAI، خالق مجموعه داده، به درخواست‌ها برای اظهار نظر در مورد یافته‌های Proof، از جمله ادعاهایی مبنی بر استفاده بدون اجازه از ویدیوها، پاسخی ندادند. وب‌سایت این شرکت بیان می‌کند که هدف کلی آن کاهش موانع توسعه هوش مصنوعی برای کسانی است که خارج از دیوارهای طلایی شرکت‌های بزرگ هستند، و در طول تاریخ «دسترسی به فناوری‌های پیشرفته هوش مصنوعی با آموزش و عرضه مدل‌ها» را فراهم کرده است.

زیرنویس‌های یوتیوب شامل تصاویر ویدیویی نمی‌شود، اما شامل متن ساده زیرنویس‌های ویدیوها، اغلب همراه با ترجمه به زبان‌هایی از جمله ژاپنی، آلمانی و عربی است.

بر اساس یک مقاله تحقیقاتی منتشر شده توسط EleutherAI، مجموعه داده، بخشی از مجموعه‌ای است که توسط یک سازمان غیرانتفاعی به نام Pile منتشر شده است. توسعه‌دهندگان Pile نه تنها از یوتیوب، بلکه از پارلمان اروپا، ویکی‌پدیای انگلیسی و مجموعه‌ای از ایمیل‌های کارکنان شرکت Enron برای آموزش هوش مصنوعی استفاده کرده‌اند و این موضوع در تحقیقات فدرال مشخص شده است.

بیشتر مجموعه‌های داده Pile برای هر کسی که در اینترنت به آن‌ها نیاز دارد، قابل دسترس و باز است. دانشگاهیان و سایر توسعه‌دهندگان خارج از غول‌های فناوری از مجموعه داده استفاده کردند، اما نه به تنهایی.

اپل، انویدیا و سیلزفورس – شرکت‌هایی که ارزش آن‌ها به صدها میلیارد و تریلیون دلار می‌رسد – در مقالات و پست‌های تحقیقاتی خود توضیح می‌دهند که چگونه از Pile برای آموزش هوش مصنوعی استفاده کردند. 

اسناد همچنین نشان می‌دهند که اپل از Pile برای آموزش OpenELM استفاده کرده است، مدلی که در ماه آوریل عرضه شد، چند هفته قبل از این‌که شرکت اعلام کند قابلیت‌های هوش مصنوعی جدیدی را به آیفون‌ها و مک‌بوک‌ها اضافه خواهد کرد. نشریات این شرکت‌ها نشان می‌دهد که بلومبرگ و دیتابریکس نیز مدل‌هایی را در Pile آموزش داده‌اند.

همچنین آنتروپیک، یک سازنده پیشروی هوش مصنوعی که سرمایه‌گذاری ۴ میلیارد دلاری از آمازون به دست آورد و تمرکز خود را بر روی «ایمنی هوش مصنوعی» گذاشته نیز همین کار را کرد.

داده‌های یوتیوب؛ معدن طلا

«جای ویپرا» محقق سیاست هوش مصنوعی در ریودوژانیرو، برزیل، گفت: «شرکت‌های هوش مصنوعی تا حدی با تهیه داده‌های با کیفیت بالاتر با یکدیگر رقابت می‌کنند. این یکی از دلایلی است که شرکت‌ها منابع داده را نزدیک به جیب‌شان نگه می دارند.»

در اوایل سال جاری، نیویورک تایمز گزارش داد که گوگل که مالک یوتیوب است، از ویدئوهای این پلتفرم برای دریافت متن برای آموزش مدل‌های خود استفاده می‌کند. در پاسخ، سخن‌گویی به این روزنامه گفت که استفاده از آن بر اساس توافقات با سازندگان یوتیوب مجاز است.

تحقیقات تایمز همچنین نشان داد که OpenAI از ویدیوهای یوتیوب بدون مجوز استفاده می‌کند. نمایندگان آن شرکت یافته‌های این مقاله را نه تایید و نه رد کردند.

مدیران OpenAI بارها از پاسخ علنی به سوالات درباره این‌که آیا از ویدیوهای یوتیوب برای آموزش محصول هوش مصنوعی Sora خود استفاده کرده است، خودداری کرده‌اند. در اوایل سال جاری، یکی از خبرنگاران وال استریت ژورنال این سوال را با «میرا موراتی» مدیر ارشد فناوری OpenAI مطرح کرد.

موراتی پاسخ داد: «در واقع در مورد آن مطمئن نیستم.»

ویپرا گفت، زیرنویس‌های یوتیوب و سایر انواع داده‌های گفتار به متن به طور بالقوه یک معدن طلا هستند، زیرا می‌توانند به آموزش مدل‌هایی برای تکرار نحوه صحبت و مکالمه افراد کمک کنند.

منبع: Wired

شبیه به همین مقاله

نظرت رو برامون بنویس

زیگپ: دستیار صوتی هوشمند

دستیار صوتی هوشمند

بازار

دانلود زیگپ