مدلهای زبان بزرگ مثل o1 از OpenAI بحثهای جالبی درباره رسیدن به هوش عمومی مصنوعی یا AGI به راه انداخته! اما به نظر میرسه که این مدلها به تنهایی نمیتونن به این هدف بزرگ برسن. حالا فاصلهشون تا هوش انسانی چقدر هست؟
آخرین سیستم هوش مصنوعی OpenAI که در سپتامبر معرفی شد، با یک وعده جسورانه وارد میدان شد. شرکتی که پشت رباتچت ChatGPT هست، o1 – جدیدترین مجموعه مدلهای زبان بزرگ (LLM) – رو به عنوان «سطح جدیدی از قابلیت هوش مصنوعی» معرفی کرد. OpenAI، که تو سانفرانسیسکو، کالیفرنیا قرار داره، ادعا میکنه که o1 به شکلی کار میکنه که به طرز فکر یک فرد نزدیکتره نسبت به مدلهای قبلی.
این رونمایی دوباره بحث داغی رو به راه انداخت که سالهاست در حال جریان هست: چقدر طول میکشه تا یه دستگاه بتونه مثل مغز انسان طیف وسیعی از کارهای شناختی رو انجام بده؟ مثل تعمیم از یک کار به کار دیگه، استدلال انتزاعی، برنامهریزی و انتخاب اینکه کدوم جنبههای جهان رو بررسی و یاد بگیره!
فاصله بین هوش مصنوعی و هوش انسانی
«هوش عمومی مصنوعی» یا AGI میتونه به ما کمک کنه تا با مشکلات بزرگ مثل تغییرات آب و هوا، بیماریهای همهگیر و درمان سرطان، آلزایمر و خیلی از بیماریهای دیگه مقابله کنیم. اما این قدرت فوقالعاده ممکنه باعث ایجاد عدم اطمینان و خطراتی برای بشریت بشه. یوشوا بنژیو، محقق یادگیری عمیق از دانشگاه مونترال کانادا میگه: «چیزهای بد ممکنه به خاطر استفاده نادرست از هوش مصنوعی یا از دست دادن کنترلش پیش بیاد.»
انقلاب در LLMها تو چند سال گذشته باعث شده که خیلیها فکر کنن AGI ممکنه به طرز وسوسهانگیزی به هوش انسانی نزدیک بشه. اما بعضی از محققان میگن که با توجه به نحوه ساخت و آموزش این مدلها، رسیدن به AGI فقط با همینها کافی نیست. بنژیو میگه: «هنوز چندتا قطعه گمشده داریم.»
چیزی که مشخصه اینه که سوالات مربوط به AGI حالا بیشتر از همیشه مهم شدن. سببارا کامبامپاتی، دانشمند کامپیوتر از دانشگاه ایالتی آریزونا در تمپ میگه: «بیشتر عمرم فکر میکردم افرادی که درباره AGI صحبت میکنن، آدمهای بینظمی هستن. اما حالا همه دربارهاش صحبت میکنن. نمیشه گفت که همه دیوونهن.»
چرا بحث AGI تغییر کرد؟
عبارت «هوش عمومی مصنوعی» یا AGI حدود سال 2007 به ذهنها راه پیدا کرد، وقتی که تو یه کتاب به همین نام که توسط محققان هوش مصنوعی بن گورتزل و کاسیو پناخین نوشته شده بود، ذکر شد. حالا معنی دقیقش یه کم مبهمه، اما به طور کلی به یه سیستم هوش مصنوعی اشاره داره که میتونه مثل انسانها استدلال کنه و نزدیک به هوش انسانی عمل کنه.
با وجود این تعاریف مبهم، تو بیشتر تاریخچه هوش مصنوعی، مشخصه که هنوز به AGI نرسیدیم. مثلاً برنامه AlphaGo رو در نظر بگیرید که توسط گوگل DeepMind ساخته شده. این برنامه میتونه بهترین بازیکنان انسانی رو تو بازی Go شکست بده، اما ویژگیهای فوق بشریاش فقط محدود به همین بازیه و کار دیگهای نمیتونه انجام بده.
اما حالا با قابلیتهای جدید LLMها، اوضاع خیلی تغییر کرده. این مدلها مثل مغز انسان، تواناییهای گستردهای دارن و باعث شدن که بعضی از محققان به طور جدی فکر کنن که شاید AGI به زودی به واقعیت تبدیل بشه.
این گستردگی قابلیتها واقعاً شگفتانگیز به نظر میرسه، بهخصوص وقتی در نظر بگیریم که محققان هنوز به طور کامل نمیدونن چطور LLMها به این سطح از توانایی میرسن. LLMها یه نوع شبکه عصبی هستن، یه مدل یادگیری ماشینی که از مغز الهام گرفته شده. این شبکه شامل نورونهای مصنوعی یا واحدهای محاسباتی هست که در لایهها مرتب شدن و پارامترهای قابل تنظیمی دارن که قدرت اتصالات بین نورونها رو نشون میده.
در طول آموزش، قدرتمندترین LLMها مثل o1، کلود (ساخته شده توسط آنتروپیک تو سانفرانسیسکو) و جمینی گوگل از روشی به نام پیشبینی توکن بعدی استفاده میکنن. یعنی مدل به طور مکرر از نمونههای متنی که به تکههای کوچیک تقسیم شدن تغذیه میشه. این تکهها بهشون توکن میگن.
این توکنها میتونن کلمات کامل یا حتی فقط مجموعهای از کاراکترها باشن. آخرین توکن تو یه دنباله پنهان یا «ماسک شده» هست و مدل باید پیشبینی کنه که اون چیه. بعد الگوریتم آموزشی پیشبینی رو با توکن ماسک شده مقایسه میکنه و پارامترهای مدل رو تنظیم میکنه تا دفعه بعد بهتر پیشبینی کنه.
این روند ادامه پیدا میکنه، معمولاً با استفاده از میلیاردها تکه زبان، متن علمی و کد برنامهنویسی، تا زمانی که مدل بتونه بهطور قابل اعتماد توکنهای ماسک شده رو پیشبینی کنه. در این مرحله، پارامترهای مدل ساختار آماری دادههای آموزشی و دانش موجود رو به دست آوردن. بعد این پارامترها ثابت میشن و مدل ازشون برای پیشبینی توکنهای جدید استفاده میکنه، وقتی که پرسوجوهای جدید یا «اعلانهایی» داده میشن که لزوماً تو دادههای آموزشی نبودن، که این فرآیند بهش میگن استنتاج.
استفاده از نوعی معماری شبکه عصبی به نام ترانسفورماتور، LLMها رو به طرز قابل توجهی فراتر از دستاوردهای قبلی برده. ترانسفورماتور به مدل اجازه میده تا یاد بگیره که بعضی توکنها تأثیر زیادی روی بقیه دارن، حتی اگه تو یه متن از هم جدا شده باشن. این به LLMها این امکان رو میده که زبان رو به روشهایی تجزیه و تحلیل کنن که به نظر میرسه شبیه هوش انسانی باشه.
این رویکرد تو زمینههای مختلفی مثل تولید برنامههای کامپیوتری برای حل مسائلی که به زبان طبیعی توضیح داده شدن، خلاصه کردن مقالات دانشگاهی و پاسخ به سؤالات ریاضی خیلی موفق بوده.
منبع : nature