طبق یک مطالعه جدید، هرچه یک مدل زبان بزرگ هوش مصنوعی (LLM) پیشرفتهتر شود، احتمال کمتری دارد که بپذیرد نمیتواند به یک پرسش پاسخ دهد.
بر اساس یک مطالعه جدید، مدلهای زبان بزرگ جدیدتر (LLM) احتمال کمتری دارد که اعتراف کنند که پاسخی برای سوال کاربر نمیدانند و باعث میشود آنها کمتر قابل اعتماد باشند.
محققان هوش مصنوعی از دانشگاه Politècnica de València در اسپانیا آخرین نسخههای BLOOM BigScience، Meta’s Llama و OpenAI’s GPT را برای دقت با پرسیدن هزاران سوال در مورد ریاضیات، علوم و جغرافیا از هر مدل آزمایش کردند.
محققان کیفیت پاسخهای هر مدل را مقایسه و آنها را به پاسخهای صحیح، نادرست یا اجتنابی طبقهبندی کردند.
هوشهای مصنوعی پیشرفتهتر مغرورترند
این مطالعه که در مجله Nature منتشر شد، نشان داد که دقت در مسائل چالشبرانگیزتر با هر مدل جدید بهبود مییابد. با این حال، آنها تمایل داشتند در مورد اینکه آیا میتوانند به یک سوال به درستی پاسخ دهند یا خیر، شفافیت کمتری داشتند.
مدلهای قبلی LLM میگفتند که نمیتوانستند پاسخها را بیابند یا به اطلاعات بیشتری برای رسیدن به پاسخ نیاز داشتند، اما مدلهای جدید بیشتر احتمال داشت که حتی به سوالات آسان پاسخهای نادرست بدهند.
«بدون پیشرفت ظاهری» در حل مشکلات اساسی
مدلهای بزرگ زبانی الگوریتمهای یادگیری عمیق هستند که از هوش مصنوعی برای درک، پیشبینی و تولید محتوای جدید بر اساس مجموعه دادهها استفاده میکنند.
در حالیکه مدلهای جدید میتوانند مسائل پیچیدهتر را با دقت بیشتری حل کنند، مدلهای بزرگ زبانی در این مطالعه همچنان در پاسخ به سوالات اساسی اشتباهاتی مرتکب شدند.
بر اساس این مقاله تحقیقاتی، «قابلیت اطمینان کامل حتی در سطوح دشواری بسیار پایین نیز به دست نمیآید».
اگرچه مدل ها میتوانند نمونه های بسیار چالشبرانگیز را حل کنند، اما همچنان در موارد بسیار ساده شکست میخورند.
این مورد به خصوص درباره GPT-4 است، که در آن تعداد پاسخ های «اجتنابی» به طور قابل توجهی نسبت به مدل قبلی آن GPT-3.5 کاهش یافته است.
نویسندگان مطالعه گفتند: «این موضوع با انتظاری که LLMهای جدیدتر میرفت که با موفقیت بیشتری از پاسخگویی خارج از محدوده عملیاتی خود اجتناب کنند، مطابقت ندارد.»
سپس محققان به این نتیجه رسیدند که «هیچ بهبود ظاهری» برای مدلها وجود ندارد، حتی اگر این فناوری پیشرفت کرده باشد.
منبع: euronews