ChatGPT

عملکرد بهتر ChatGPT در پزشکی به نسبت نوشتن کد

سرفصل‌های مقاله

دو مقاله تحقیقاتی که دقت ChatGPT را ارزیابی کرده‌اند، به این نتیجه رسیدند که به نظر می‌رسد این چت‌بات هوش مصنوعی در نوشتن نسخه بهتر از نوشتن کد است.

در رقابت برای توسعه هوش مصنوعی پیشرفته، همه مدل‌های زبان بزرگ یکسان ساخته نمی‌شوند. دو مطالعه جدید صورت‌گرفته، تفاوت‌های قابل توجهی را در قابلیت‌های سیستم‌های محبوبی مانند ChatGPT هنگام آزمایش بر روی وظایف پیچیده دنیای واقعی نشان داده است.

به گفته محققان دانشگاه «پوردو»، ChatGPT حتی در زمینه نوشتن کد نیز با چالش‌های اساسی دست‌وپنجه نرم می‌کند. این محققان پاسخ‌های ChatGPT را به بیش از 500 سوال در انجمن Stack Overflow (یک انجمن آنلاین برای توسعه‌دهندگان و برنامه‌نویسان) در مورد موضوعاتی مانند رفع باگ و استفاده از API ارزیابی کردند.

محققان نوشتند: «تحلیل ما نشان می‌دهد که 52% از پاسخ‌های ایجاد شده توسط ChatGPT نادرست و 77% از آن‌ها دچار زیاده‌گویی هستند. با این حال، پاسخ‌های ChatGPT به دلیل جامعیت و سبک زبانی محاوره‌ای و آسان، در 39.34% مواقع توسط کاربران ترجیح داده می‌شوند.»

در مقابل، مطالعه‌ای از دانشگاه UCLA و دانشگاه «پپردین مالیبو»، مهارت ChatGPT را در پاسخ‌گویی به سوالات دشوار امتحان پزشکی نشان می‌دهد.

ChatGPT در نوشتن نسخه بهتر از نوشتن کد است

risk 1ChatGPT در یک آزمون که شامل بیش از 850 سوال چندگزینه‌ای تخصص پیچیده «نفرولوژی» بود، امتیاز 73% را کسب کرد. این امتیاز مشابه میانگین امتیاز قبولی در این تخصص برای متقاضیان رزیدنتی نفرولوژی است.

تیم UCLA نتیجه گرفت: «توانایی فعلی هوش مصنوعی GPT-4 در پاسخ‌گویی دقیق به سوالات چندگزینه‌ای حوزه نفرولوژی حاکی از این است که مدل‌های هوش مصنوعی مشابه، در آینده نقش موثر و توانمندتری در حوزه پزشکی ایفا خواهند کرد.»

بعد از GPT-4، مدل زبانی بزرگ Anthropic’s Claude AI با 54.4% پاسخ صحیح، دومین مدل بزرگ زبانی موفق در این آزمون بود. سایر این مدل‌ها (LLM) توفیق چندانی در این آزمون پزشکی به‌دست نیاوردند.

اما چرا ChatGPT در پزشکی برتر است، اما در نوشتن کد ایراد دارد؟

«لکس فریدمن» دانشمند رشته کامپیوتر دانشگاه MIT، خاطرنشان می‌کند که مدل‌های یادگیری ماشینی نقاط قوت متفاوتی دارند. Claude، مدلی که در پس دانش پزشکی ChatGPT قرار دارد، داده‌های آموزشی اختصاصی بیشتری را از سازنده‌اش Anthropic دریافت کرده است.

از آن‌سو ChatGPT OpenAI فقط به داده‌های پزشکی در دسترس عموم متکی است. مدل‌های هوش مصنوعی اگر به‌درستی با حجم عظیمی از داده‌ها آموزش داده شوند، کارهای بزرگی انجام می‌دهند، حتی بهتر از بسیاری از مدل‌های دیگر.

با این حال یک هوش مصنوعی نمی‌تواند به‌درستی، خارج از پارامترهایی که روی آن آموزش داده شده است عمل کند، بنابراین سعی می‌کند محتوایی را بدون اطلاع قبلی از آن ایجاد کند که این حرکت منجر به چیزی می‌شود که از آن با عنوان «توهم دانایی» یاد می‌کنیم.

 اگر مجموعه داده‌های یک مدل هوش مصنوعی شامل محتوای خاصی نباشد، آن مدل قادر به گرفتن نتایج درست در آن حیطه نیست. 

داده‌های مربوط به علم پزشکی به طور گسترده در دسترس عموم است و می‌توان یک مدل بزرگ زبانی را با آن آموزش داد، اما بسیاری از ترفندهای کدنویسی در دسترس همگان نیست.

همان‌طور که محققان UCLA توضیح دادند، « فقدان دسترسی رایگان به اطلاعات داده‌های آموزشی که در حال حاضر در مالکیت عمومی نیستند، احتمالا یکی از موانع دستیابی به عملکرد بهتر هوش مصنوعی در آینده باقی خواهد ماند.» 

عملکرد ChatGPT در نوشتن کد را باید با ارزیابی‌های دیگر همسو دانست. محققان دانشگاه‌های «استنفورد» و «برکلی» دریافتند که مهارت‌های ریاضی و استدلال بصری ChatGPT بین مارس تا ژوئن 2022 به شدت کاهش یافته است. اگرچه ChatGPT در ابتدا در مسائل ابتدایی و حل پازل‌ها مهارت داشت، اما تا تابستان 2022 تنها 2% پیشرفت در کسب معیارهای کلیدی کسب کرد.

بنابراین در حالی‌که ChatGPT می‌تواند نقش یک دکتر را بازی کند، اما هنوز برای تبدیل شدن به یک برنامه‌نویس درجه‌یک باید چیزهای زیادی یاد بگیرد. این موضوع دور از واقعیت هم نیست، شما چند پزشک ماهر را سراغ دارید که هکرهای ماهری هم باشند؟!

مهران
مهران