دو مقاله تحقیقاتی که دقت ChatGPT را ارزیابی کردهاند، به این نتیجه رسیدند که به نظر میرسد این چتبات هوش مصنوعی در نوشتن نسخه بهتر از نوشتن کد است.
در رقابت برای توسعه هوش مصنوعی پیشرفته، همه مدلهای زبان بزرگ یکسان ساخته نمیشوند. دو مطالعه جدید صورتگرفته، تفاوتهای قابل توجهی را در قابلیتهای سیستمهای محبوبی مانند ChatGPT هنگام آزمایش بر روی وظایف پیچیده دنیای واقعی نشان داده است.
به گفته محققان دانشگاه «پوردو»، ChatGPT حتی در زمینه نوشتن کد نیز با چالشهای اساسی دستوپنجه نرم میکند. این محققان پاسخهای ChatGPT را به بیش از 500 سوال در انجمن Stack Overflow (یک انجمن آنلاین برای توسعهدهندگان و برنامهنویسان) در مورد موضوعاتی مانند رفع باگ و استفاده از API ارزیابی کردند.
محققان نوشتند: «تحلیل ما نشان میدهد که 52% از پاسخهای ایجاد شده توسط ChatGPT نادرست و 77% از آنها دچار زیادهگویی هستند. با این حال، پاسخهای ChatGPT به دلیل جامعیت و سبک زبانی محاورهای و آسان، در 39.34% مواقع توسط کاربران ترجیح داده میشوند.»
در مقابل، مطالعهای از دانشگاه UCLA و دانشگاه «پپردین مالیبو»، مهارت ChatGPT را در پاسخگویی به سوالات دشوار امتحان پزشکی نشان میدهد.
ChatGPT در نوشتن نسخه بهتر از نوشتن کد است
ChatGPT در یک آزمون که شامل بیش از 850 سوال چندگزینهای تخصص پیچیده «نفرولوژی» بود، امتیاز 73% را کسب کرد. این امتیاز مشابه میانگین امتیاز قبولی در این تخصص برای متقاضیان رزیدنتی نفرولوژی است.
تیم UCLA نتیجه گرفت: «توانایی فعلی هوش مصنوعی GPT-4 در پاسخگویی دقیق به سوالات چندگزینهای حوزه نفرولوژی حاکی از این است که مدلهای هوش مصنوعی مشابه، در آینده نقش موثر و توانمندتری در حوزه پزشکی ایفا خواهند کرد.»
بعد از GPT-4، مدل زبانی بزرگ Anthropic’s Claude AI با 54.4% پاسخ صحیح، دومین مدل بزرگ زبانی موفق در این آزمون بود. سایر این مدلها (LLM) توفیق چندانی در این آزمون پزشکی بهدست نیاوردند.
اما چرا ChatGPT در پزشکی برتر است، اما در نوشتن کد ایراد دارد؟
«لکس فریدمن» دانشمند رشته کامپیوتر دانشگاه MIT، خاطرنشان میکند که مدلهای یادگیری ماشینی نقاط قوت متفاوتی دارند. Claude، مدلی که در پس دانش پزشکی ChatGPT قرار دارد، دادههای آموزشی اختصاصی بیشتری را از سازندهاش Anthropic دریافت کرده است.
از آنسو ChatGPT OpenAI فقط به دادههای پزشکی در دسترس عموم متکی است. مدلهای هوش مصنوعی اگر بهدرستی با حجم عظیمی از دادهها آموزش داده شوند، کارهای بزرگی انجام میدهند، حتی بهتر از بسیاری از مدلهای دیگر.
با این حال یک هوش مصنوعی نمیتواند بهدرستی، خارج از پارامترهایی که روی آن آموزش داده شده است عمل کند، بنابراین سعی میکند محتوایی را بدون اطلاع قبلی از آن ایجاد کند که این حرکت منجر به چیزی میشود که از آن با عنوان «توهم دانایی» یاد میکنیم.
اگر مجموعه دادههای یک مدل هوش مصنوعی شامل محتوای خاصی نباشد، آن مدل قادر به گرفتن نتایج درست در آن حیطه نیست.
دادههای مربوط به علم پزشکی به طور گسترده در دسترس عموم است و میتوان یک مدل بزرگ زبانی را با آن آموزش داد، اما بسیاری از ترفندهای کدنویسی در دسترس همگان نیست.
همانطور که محققان UCLA توضیح دادند، « فقدان دسترسی رایگان به اطلاعات دادههای آموزشی که در حال حاضر در مالکیت عمومی نیستند، احتمالا یکی از موانع دستیابی به عملکرد بهتر هوش مصنوعی در آینده باقی خواهد ماند.»
عملکرد ChatGPT در نوشتن کد را باید با ارزیابیهای دیگر همسو دانست. محققان دانشگاههای «استنفورد» و «برکلی» دریافتند که مهارتهای ریاضی و استدلال بصری ChatGPT بین مارس تا ژوئن 2022 به شدت کاهش یافته است. اگرچه ChatGPT در ابتدا در مسائل ابتدایی و حل پازلها مهارت داشت، اما تا تابستان 2022 تنها 2% پیشرفت در کسب معیارهای کلیدی کسب کرد.
بنابراین در حالیکه ChatGPT میتواند نقش یک دکتر را بازی کند، اما هنوز برای تبدیل شدن به یک برنامهنویس درجهیک باید چیزهای زیادی یاد بگیرد. این موضوع دور از واقعیت هم نیست، شما چند پزشک ماهر را سراغ دارید که هکرهای ماهری هم باشند؟!