هوش مصنوعی مشکل اندازه‌گیری دارد

کدام هوش مصنوعی بهترین کد کامپیوتری را می‌نویسد یا واقعی‌ترین تصویر را تولید می‌کند؟ در حال حاضر، هیچ راه آسانی برای پاسخ به این سوالات وجود ندارد. مشکل اندازه‌گیری در AI وجود دارد. مشکلی در مورد ابزارهای پیشرو هوش مصنوعی مانند ChatGPT، جمینی و Claude وجود دارد: ما واقعاً نمی‌دانیم آنها چقدر باهوش هستند.

دلیلش این است که برخلاف شرکت‌هایی که ماشین‌ها یا داروها یا شیر خشک تولید می‌کنند، هوش مصنوعی شرکت‌ها ملزم به ارائه محصولات خود برای آزمایش قبل از انتشار برای عموم نیستند. هیچ مهر و موم Good Housekeeping برای آن وجود ندارد. چت‌بات‌ها، و تعداد کمی از گروه‌های مستقل این ابزارها را به شیوه‌ای دقیق به کار می‌برند.

اولین دستیار هوش مصنوعی ایرانی

در عوض، ما باید به ادعاهای هوش مصنوعی تکیه کنیم. شرکت‌هایی که اغلب از عبارات مبهم مانند «قابلیت‌های بهبودیافته» برای توصیف تفاوت مدل‌هایشان از یک نسخه به نسخه دیگر استفاده می‌کنند. و در حالی که برخی از تست‌های استاندارد داده شده به A.I وجود دارد. مدل‌هایی برای ارزیابی میزان خوب بودن آن‌ها، مثلاً در استدلال ریاضی یا منطقی مشکل اندازه‌گیری دارند و بسیاری از کارشناسان در مورد قابل اعتماد بودن آن آزمون‌ها تردید دارند.

مشکل اندازه‌گیری هوش مصنوعی

این ممکن است مانند یک ناراحتی کوچک به نظر برسد. اما متقاعد شده‌ایم که فقدان اندازه‌گیری و ارزیابی خوب برای هوش مصنوعی سیستم‌ها، یک مشکل اساسی است. برای شروع، بدون اطلاعات قابل اعتماد در مورد محصولات هوش مصنوعی، مردم چگونه باید بدانند که با آنها چه کنند؟

من نمی‌توانم تعداد دفعاتی را که در سال گذشته توسط یک دوست یا همکار از من پرسیده شده است بشمارم که هوش مصنوعی ابزاری که باید برای یک کار خاص استفاده کنند. آیا ChatGPT یا جمینی کدهای پایتون بهتری می‌نویسند؟ آیا DALL-E 3 یا Midjourney در ایجاد تصاویر واقعی از افراد بهتر است؟

حتی به عنوان کسی که برای امرار معاش در مورد هوش مصنوعی می‌نویسد و ابزارهای جدید را دائماً آزمایش می‌کند، پیگیری نقاط قوت و ضعف نسبی هوش مصنوعی مختلف به طرز دیوانه کننده‌ای دشوار است. محصولات اکثر شرکت‌های فناوری، راهنمای کاربر یا یادداشت‌های انتشار دقیق را برای A.I خود منتشر نمی‌کنند. محصولات و مدل‌ها به قدری به‌روزرسانی می‌شوند که یک ربات‌چت که یک روز با یک کار مشکل دارد، ممکن است روز بعد به طرز مرموزی در آن کار برتر باشد. این مشکل اندازه‌گیری برای تمامی چت‌بات‌ها صادق است.

اندازه گیری نامناسب نیز خطر ایمنی ایجاد می‌کند. بدون آزمایش‌های بهتر برای مدل‌های هوش مصنوعی، تشخیص اینکه کدام قابلیت‌ها سریع‌تر از حد انتظار بهبود می‌یابند یا کدام محصولات ممکن است خطرات واقعی را به همراه داشته باشند، دشوار است.

در شاخص هوش مصنوعی امسال – گزارش سالانه بزرگی که توسط موسسه هوش مصنوعی انسان محور دانشگاه استنفورد ارائه شده است – محققان مشکل اندازه‌گیری را یکی از بزرگترین چالش‌های پیش روی هوش مصنوعی توصیف می‌کنند. فقدان ارزیابی استاندارد، مقایسه سیستماتیک محدودیت‌ها و خطرات A.I مختلف را بسیار چالش برانگیز می‌کند.

برای سال‌ها، محبوب‌ترین روش برای اندازه‌گیری هوش مصنوعی به اصطلاح تست تورینگ بود – تمرینی که در سال 1950 توسط ریاضی‌دان آلن تورینگ پیشنهاد شد و آزمایش می‌کرد که آیا یک برنامه رایانه‌ای می‌تواند فرد را فریب دهد تا پاسخ‌های خود را با پاسخ‌های انسانی اشتباه بگیرد.

اما سیستم‌های هوش مصنوعی امروزی می‌توانند آزمون تورینگ را با موفقیت پشت سر بگذارند و محققان مجبور شده‌اند ارزیابی‌های جدید و سخت‌تری ارائه دهند. یکی از رایج‌ترین تست‌هایی که برای مدل‌های امروزی هوش مصنوعی – چت‌بات‌ها، آزمونی است که به نام Massive Multitask Language Understanding یا MMLU شناخته می‌شود.

MMLU که در سال 2020 منتشر شد، شامل مجموعه‌ای از تقریباً 16000 سؤال چند گزینه‌ای است که ده‌ها موضوع دانشگاهی را شامل می‌شود، از جبر انتزاعی گرفته تا حقوق و پزشکی. قرار است این یک نوع تست هوش عمومی باشد – هرچه یک چت‌بات به این سؤالات بیشتر پاسخ دهد، هوشمندتر است.

این استاندارد طلایی برای شرکت‌های هوش مصنوعی است که برای تسلط رقابت می‌کنند. (زمانی که گوگل پیشرفته‌ترین مدل هوش مصنوعی خود، Gemini Ultra را در اوایل سال جاری منتشر کرد، به خود می‌بالید که در MMLU نود درصد امتیاز کسب کرده است – بالاترین امتیاز ثبت شده تا کنون.)

دن هندریکس، محقق ایمنی هوش مصنوعی که به توسعه MMLU در دوران تحصیلات تکمیلی در دانشگاه کالیفرنیا، برکلی کمک کرد، گفت که این آزمایش هرگز قرار نبود برای لاف زدن استفاده شود. او از اینکه چقدر سریع سیستم‌ها در حال بهبود بودند و می‌خواستند محققان را تشویق کنند که آن را جدی‌تر بگیرند.

آقای هندریکس گفت که در حالی که فکر می‌کند MMLU «احتمالاً یک یا دو سال دیگر از عمر مفید خود دارد»، به زودی باید با آزمایش‌های مختلف و سخت‌تر جایگزین شود. سیستم‌های هوش مصنوعی برای آزمایش‌هایی که اکنون داریم بیش از حد هوشمند می‌شوند و طراحی آزمایش‌های جدید دشوارتر می‌شود. او گفت: “همه این معیارها اشتباه هستند، اما برخی مفید هستند.” برخی از آن‌ها می‌توانند برای مدت زمان معینی مفید باشند، اما در برخی مواقع، فشار زیادی روی آن‌ها وارد می‌شود که به نقطه شکست خود می‌رسد.»

ده‌ها تست دیگر وجود دارد – با نام‌هایی مانند TruthfulQA و HellaSwag – که قرار است جنبه‌های دیگری از هوش مصنوعی را به تصویر بکشند. کارایی. اما همانطور که SAT تنها بخشی از هوش و توانایی دانش‌آموز را به تصویر می‌کشد، این تست‌ها تنها قادر به اندازه‌گیری یک برش باریک از هوش مصنوعی هستند. و هیچ یک از آنها برای پاسخ به سؤالات ذهنی بسیاری از کاربران طراحی نشده‌اند، مانند: آیا صحبت کردن با این ربات چت سرگرم کننده است؟ آیا برای خودکار کردن کارهای اداری معمولی بهتر است یا طوفان فکری خلاقانه؟ نرده‌های ایمنی آن چقدر سختگیر است؟

همچنین ممکن است مشکلاتی در خود آزمایش‌ها وجود داشته باشد. چندین محقق که با آنها صحبت کردیم هشدار دادند که فرآیند اجرای تست‌های معیار مانند MMLU از شرکتی به شرکت دیگر کمی متفاوت است و ممکن است امتیازات مدل‌های مختلف به طور مستقیم قابل مقایسه نباشد و همچنان مشکل اندازه‌گیری پابرجا بماند.

زمانی که سؤالات و پاسخ‌های تست‌های معیار در داده‌های آموزشی مدل هوش مصنوعی گنجانده می‌شود، مشکلی به نام «آلودگی داده‌ها» وجود دارد که اساساً به آن اجازه تقلب می‌دهد. و هیچ فرآیند تست یا ممیزی مستقلی برای این مدل‌ها وجود ندارد، به این معنی که هوش مصنوعی شرکت‌ها اساساً تکالیف خود را درجه‌بندی می‌کنند.

به طور خلاصه، اندازه‌گیری هوش مصنوعی یک آشفتگی است – مجموعه‌ای از آزمایش‌های بی‌حساب، مقایسه‌های سیب با پرتقال و تبلیغات خودسرانه که کاربران، تنظیم‌کننده‌ها و توسعه‌دهندگان هوش مصنوعی را در تاریکی قرار داده است.

شما هم همین حالا می‌توانید از هوش مصنوعی مولد با زبان فارسی استفاده کنید. زیگپ اولین دستیار هوش مصنوعی مولد ایرانی است. پس تا دیر شده نشده شما هم اپلیکیشن زیگپ را دانلود کنید و وارد دنیای هوش مصنوعی شوید. در ضمن با زیگپ می‌توانید به آسانی و با زبان فارسی از ChatGPT و سرویس تبدیل متن به تصویر لئوناردو استفاده کنید.

نوید رضایی

هوش مصنوعی مشکل اندازه‌گیری دارد

مشکل اندازه‌گیری هوش مصنوعی

نظرت رو برامون بنویس

دسترسی سریع

دانلود زیگپ

عضویت در خبرنامه