یک مطالعه جدید نشان داده است که وقتی به افراد دو پاسخ برای یک سوال اخلاقی ارائه میشود، بیشتر آنها فکر میکنند که قضاوت هوش مصنوعی بهتر از شخص دیگری است.
این مطالعه که در ماه مارس گذشته توسط «ایال آهارونی» دانشیار دپارتمان روانشناسی ایالت جورجیا با عنوان « اسناد نسبت به عوامل مصنوعی در آزمون تورینگ اخلاقی اصلاح شده» انجام شده و از شگفتی ChatGPT و مدلهای زبان بزرگ هوش مصنوعی (LLM) الهام گرفته شده است.
آهارونی گفته: «من قبلا به تصمیمگیری اخلاقی در سیستم حقوقی علاقه داشتم، اما نمیدانستم که آیا ChatGPT و سایر LLMها میتوانند در این مورد چیزی برای گفتن داشته باشند یا نه.»
او ادامه داد: «مردم با این ابزارها به گونهای تعامل خواهند داشت که پیامدهای اخلاقی دارد، مانند پیامدهای زیستمحیطی، درخواست لیستی از توصیهها برای یک خودروی جدید و … برخی از وکلا در حال حاضر شروع به مشاوره با این فناوریها برای پروندههای خود کردهاند، چه خوب و چه بد.»
به گفته این استاد دانشگاه: « بنابراین، اگر میخواهیم از این ابزارها استفاده کنیم، باید بدانیم که چگونه کار میکنند، محدودیتهای آنها و اینکه لزوما آنطور که فکر میکنیم هنگام تعامل با آنها عمل نمیکنند را بشناسیم.»
ایا قضاوت هوش مصنوعی بهترین است؟
برای آزمایش اینکه هوش مصنوعی چگونه مسائل اخلاقی را مدیریت میکند، آهارونی شکلی از آزمون تورینگ را طراحی کرد.
آلن تورینگ، یکی از سازندگان کامپیوتر، پیشبینی کرد که تا سال 2000 کامپیوترها ممکن است آزمایشی را پشت سر بگذارند که در آن شما به یک انسان معمولی دو نوع تعامل ارائه میکنید، یکی از این تعاملها واقعا با انسان است و دیگری با کامپیوتر، اما هر دو پنهان هستند و تنها ارتباط آنها از طریق متن است.
آهارونی گفت: «سپس انسان آزاد است هر سوالی را که میخواهد بپرسد تا بتواند اطلاعات مورد نیاز خود را به دست آورد تا تصمیم بگیرد کدام یک از این دو تعاملکننده انسان و کدام یک کامپیوتر است.»
تورینگ معتقد بود اگر انسان نتواند فرق بین انسان و کامپیوتر را تشخیص دهد، نتیجه میگیریم که کامپیوترها باهوش شدهاند.
آهارونی برای آزمون تورینگ خود از دانشجویان کارشناسی و هوش مصنوعی سوالات اخلاقی یکسانی پرسید و سپس پاسخهای کتبی آنها را به شرکتکنندگان در این مطالعه ارائه کرد. سپس از آنها خواسته شد که پاسخها را برای ویژگیهای مختلف، از جمله فضیلت، هوش و قابل اعتماد بودن، رتبهبندی کنند.
آهارونی گفت: «بهجای اینکه از شرکتکنندگان بخواهیم حدس بزنند منبع پاسخها انسان یا هوش مصنوعی است، ما فقط دو مجموعه ارزیابی را در کنار هم ارائه کردیم و به مردم اجازه دادیم فرض کنند که هر دو گروه پاسخها توسط انسانها ارائه شده است.»
بر اساس این فرض نادرست، شرکتکنندگان ویژگیهای پاسخها را قضاوت کردند، مانند «چقدر با این پاسخ موافقید، کدام پاسخ با فضیلتتر است؟»
به طور قاطع، پاسخهای ایجاد شده توسط ChatGPT نسبت به پاسخهای تولید شده توسط انسان رتبهبندی بالاتری کسب کردند.
آهارونی گفت: «پس از اینکه این نتایج را گرفتیم، آشکارسازی بزرگ را انجام دادیم و به شرکتکنندگان گفتیم که یکی از پاسخها توسط یک انسان و دیگری توسط کامپیوتر ایجاد شده است و از آنها خواستیم حدس بزنند کدام کدام است.»
برای اینکه یک هوش مصنوعی تست تورینگ را پشت سر بگذارد، انسانها نباید قادر به تشخیص تفاوت بین قضاوت هوش مصنوعی و انسانی باشند. در این مورد، مردم میتوانند تفاوت را تشخیص دهند، اما نه به دلیل واضح.
آهارونی گفت: «نکته غافلگیرکننده این است که به نظر میرسد دلیل اینکه مردم میتوانند تفاوت را تشخیص دهند این است که پاسخهای ChatGPT را برتر ارزیابی کردهاند.»
طبق گفته او اگر این مطالعه 5 تا 10 سال پیش انجام داده شده بود، ممکن بود پیشبینی شود که مردم میتوانند هوش مصنوعی را به دلیل پاسخهای بیکیفیتتر آن شناسایی کنند. اما در این مطالعه برعکس؛ قضاوت هوش مصنوعی بسیار خوب عمل کرد.
به گفته آهارونی، این یافته پیامدهای جالبی برای آینده انسان و هوش مصنوعی دارد.
او میگوید: « «یافتههای ما ما را به این باور میرساند که یک کامپیوتر میتواند از نظر فنی آزمون تورینگ اخلاقی را پشت سر بگذارد که میتواند ما را در استدلال اخلاقی خود فریب دهد. به همین دلیل، ما باید تلاش کنیم تا نقش آن را در جامعه خود درک کنیم، زیرا مواقعی پیش میآید که مردم نمیدانند که در حال تعامل با کامپیوتر هستند و مواقعی وجود دارد که میدانند و با آن مشورت میکنند؛ زیرا بیشتر از هر فرد دیگری به آن اعتماد دارند.»
آهارونی در پایان صحبتهایش گفت: « مردم بیشتر و بیشتر به این فناوری تکیه خواهند کرد و هر چه بیشتر به آن تکیه کنیم، به مرور زمان خطر بیشتر میشود.»
منبع: psypost