کدام هوش مصنوعی بهترین کد کامپیوتری را مینویسد یا واقعیترین تصویر را تولید میکند؟ در حال حاضر، هیچ راه آسانی برای پاسخ به این سوالات وجود ندارد. مشکل اندازهگیری در AI وجود دارد. مشکلی در مورد ابزارهای پیشرو هوش مصنوعی مانند ChatGPT، جمینی و Claude وجود دارد: ما واقعاً نمیدانیم آنها چقدر باهوش هستند.
دلیلش این است که برخلاف شرکتهایی که ماشینها یا داروها یا شیر خشک تولید میکنند، هوش مصنوعی شرکتها ملزم به ارائه محصولات خود برای آزمایش قبل از انتشار برای عموم نیستند. هیچ مهر و موم Good Housekeeping برای آن وجود ندارد. چتباتها، و تعداد کمی از گروههای مستقل این ابزارها را به شیوهای دقیق به کار میبرند.
در عوض، ما باید به ادعاهای هوش مصنوعی تکیه کنیم. شرکتهایی که اغلب از عبارات مبهم مانند «قابلیتهای بهبودیافته» برای توصیف تفاوت مدلهایشان از یک نسخه به نسخه دیگر استفاده میکنند. و در حالی که برخی از تستهای استاندارد داده شده به A.I وجود دارد. مدلهایی برای ارزیابی میزان خوب بودن آنها، مثلاً در استدلال ریاضی یا منطقی مشکل اندازهگیری دارند و بسیاری از کارشناسان در مورد قابل اعتماد بودن آن آزمونها تردید دارند.
مشکل اندازهگیری هوش مصنوعی
این ممکن است مانند یک ناراحتی کوچک به نظر برسد. اما متقاعد شدهایم که فقدان اندازهگیری و ارزیابی خوب برای هوش مصنوعی سیستمها، یک مشکل اساسی است. برای شروع، بدون اطلاعات قابل اعتماد در مورد محصولات هوش مصنوعی، مردم چگونه باید بدانند که با آنها چه کنند؟
من نمیتوانم تعداد دفعاتی را که در سال گذشته توسط یک دوست یا همکار از من پرسیده شده است بشمارم که هوش مصنوعی ابزاری که باید برای یک کار خاص استفاده کنند. آیا ChatGPT یا جمینی کدهای پایتون بهتری مینویسند؟ آیا DALL-E 3 یا Midjourney در ایجاد تصاویر واقعی از افراد بهتر است؟
حتی به عنوان کسی که برای امرار معاش در مورد هوش مصنوعی مینویسد و ابزارهای جدید را دائماً آزمایش میکند، پیگیری نقاط قوت و ضعف نسبی هوش مصنوعی مختلف به طرز دیوانه کنندهای دشوار است. محصولات اکثر شرکتهای فناوری، راهنمای کاربر یا یادداشتهای انتشار دقیق را برای A.I خود منتشر نمیکنند. محصولات و مدلها به قدری بهروزرسانی میشوند که یک رباتچت که یک روز با یک کار مشکل دارد، ممکن است روز بعد به طرز مرموزی در آن کار برتر باشد. این مشکل اندازهگیری برای تمامی چتباتها صادق است.
اندازه گیری نامناسب نیز خطر ایمنی ایجاد میکند. بدون آزمایشهای بهتر برای مدلهای هوش مصنوعی، تشخیص اینکه کدام قابلیتها سریعتر از حد انتظار بهبود مییابند یا کدام محصولات ممکن است خطرات واقعی را به همراه داشته باشند، دشوار است.
در شاخص هوش مصنوعی امسال – گزارش سالانه بزرگی که توسط موسسه هوش مصنوعی انسان محور دانشگاه استنفورد ارائه شده است – محققان مشکل اندازهگیری را یکی از بزرگترین چالشهای پیش روی هوش مصنوعی توصیف میکنند. فقدان ارزیابی استاندارد، مقایسه سیستماتیک محدودیتها و خطرات A.I مختلف را بسیار چالش برانگیز میکند.
برای سالها، محبوبترین روش برای اندازهگیری هوش مصنوعی به اصطلاح تست تورینگ بود – تمرینی که در سال 1950 توسط ریاضیدان آلن تورینگ پیشنهاد شد و آزمایش میکرد که آیا یک برنامه رایانهای میتواند فرد را فریب دهد تا پاسخهای خود را با پاسخهای انسانی اشتباه بگیرد.
اما سیستمهای هوش مصنوعی امروزی میتوانند آزمون تورینگ را با موفقیت پشت سر بگذارند و محققان مجبور شدهاند ارزیابیهای جدید و سختتری ارائه دهند. یکی از رایجترین تستهایی که برای مدلهای امروزی هوش مصنوعی – چتباتها، آزمونی است که به نام Massive Multitask Language Understanding یا MMLU شناخته میشود.
MMLU که در سال 2020 منتشر شد، شامل مجموعهای از تقریباً 16000 سؤال چند گزینهای است که دهها موضوع دانشگاهی را شامل میشود، از جبر انتزاعی گرفته تا حقوق و پزشکی. قرار است این یک نوع تست هوش عمومی باشد – هرچه یک چتبات به این سؤالات بیشتر پاسخ دهد، هوشمندتر است.
این استاندارد طلایی برای شرکتهای هوش مصنوعی است که برای تسلط رقابت میکنند. (زمانی که گوگل پیشرفتهترین مدل هوش مصنوعی خود، Gemini Ultra را در اوایل سال جاری منتشر کرد، به خود میبالید که در MMLU نود درصد امتیاز کسب کرده است – بالاترین امتیاز ثبت شده تا کنون.)
دن هندریکس، محقق ایمنی هوش مصنوعی که به توسعه MMLU در دوران تحصیلات تکمیلی در دانشگاه کالیفرنیا، برکلی کمک کرد، گفت که این آزمایش هرگز قرار نبود برای لاف زدن استفاده شود. او از اینکه چقدر سریع سیستمها در حال بهبود بودند و میخواستند محققان را تشویق کنند که آن را جدیتر بگیرند.
آقای هندریکس گفت که در حالی که فکر میکند MMLU «احتمالاً یک یا دو سال دیگر از عمر مفید خود دارد»، به زودی باید با آزمایشهای مختلف و سختتر جایگزین شود. سیستمهای هوش مصنوعی برای آزمایشهایی که اکنون داریم بیش از حد هوشمند میشوند و طراحی آزمایشهای جدید دشوارتر میشود. او گفت: “همه این معیارها اشتباه هستند، اما برخی مفید هستند.” برخی از آنها میتوانند برای مدت زمان معینی مفید باشند، اما در برخی مواقع، فشار زیادی روی آنها وارد میشود که به نقطه شکست خود میرسد.»
دهها تست دیگر وجود دارد – با نامهایی مانند TruthfulQA و HellaSwag – که قرار است جنبههای دیگری از هوش مصنوعی را به تصویر بکشند. کارایی. اما همانطور که SAT تنها بخشی از هوش و توانایی دانشآموز را به تصویر میکشد، این تستها تنها قادر به اندازهگیری یک برش باریک از هوش مصنوعی هستند. و هیچ یک از آنها برای پاسخ به سؤالات ذهنی بسیاری از کاربران طراحی نشدهاند، مانند: آیا صحبت کردن با این ربات چت سرگرم کننده است؟ آیا برای خودکار کردن کارهای اداری معمولی بهتر است یا طوفان فکری خلاقانه؟ نردههای ایمنی آن چقدر سختگیر است؟
همچنین ممکن است مشکلاتی در خود آزمایشها وجود داشته باشد. چندین محقق که با آنها صحبت کردیم هشدار دادند که فرآیند اجرای تستهای معیار مانند MMLU از شرکتی به شرکت دیگر کمی متفاوت است و ممکن است امتیازات مدلهای مختلف به طور مستقیم قابل مقایسه نباشد و همچنان مشکل اندازهگیری پابرجا بماند.
زمانی که سؤالات و پاسخهای تستهای معیار در دادههای آموزشی مدل هوش مصنوعی گنجانده میشود، مشکلی به نام «آلودگی دادهها» وجود دارد که اساساً به آن اجازه تقلب میدهد. و هیچ فرآیند تست یا ممیزی مستقلی برای این مدلها وجود ندارد، به این معنی که هوش مصنوعی شرکتها اساساً تکالیف خود را درجهبندی میکنند.
به طور خلاصه، اندازهگیری هوش مصنوعی یک آشفتگی است – مجموعهای از آزمایشهای بیحساب، مقایسههای سیب با پرتقال و تبلیغات خودسرانه که کاربران، تنظیمکنندهها و توسعهدهندگان هوش مصنوعی را در تاریکی قرار داده است.
شما هم همین حالا میتوانید از هوش مصنوعی مولد با زبان فارسی استفاده کنید. زیگپ اولین دستیار هوش مصنوعی مولد ایرانی است. پس تا دیر شده نشده شما هم اپلیکیشن زیگپ را دانلود کنید و وارد دنیای هوش مصنوعی شوید. در ضمن با زیگپ میتوانید به آسانی و با زبان فارسی از ChatGPT و سرویس تبدیل متن به تصویر لئوناردو استفاده کنید.