محققان یک ابزار هوش مصنوعی ساختند که 4000 ایده جدید تحقیقاتی را در عرض چند ساعت ارائه کرد.
بر اساس مقالهای که در این ماه در arXiv منتشر شد، یک ایدهپرداز با استفاده از هوش مصنوعی (AI) ایدههای تحقیقاتی اصلیتری نسبت به 50 دانشمندی که به طور مستقل کار میکردند، ارائه کرد.
ایدههای تولید شده توسط انسان و هوش مصنوعی توسط بازبینان مورد ارزیابی قرار گرفت و به آنها گفته نشد چه کسی یا چه چیزی هر ایده را ایجاد کرده است. بازبینان مفاهیم تولید شده توسط هوش مصنوعی را هیجانانگیزتر از آنچه توسط انسان نوشته شده است ارزیابی کردند، اگرچه پیشنهادات هوش مصنوعی از نظر امکانسنجی امتیاز پایینتر داشتند.
اما دانشمندان خاطرنشان میکنند که این مطالعه، که توسط همتایان آنها بررسی نشده است، دارای محدودیتهایی است. این پژوهش بر روی یک حوزه تحقیقاتی متمرکز بود و از شرکتکنندگان انسانی میخواست که ایدههایی را ارائه دهند، که احتمالاً مانع از توانایی آنها برای تولید بهترین مفاهیم میشد.
هوش مصنوعی در علم
تلاشهای رو به رشدی برای کشف چگونگی استفاده از LLM برای خودکارسازی کارهای تحقیقاتی، از جمله نوشتن مقالات، تولید کد و جستجوی ادبیات وجود دارد. اما ارزیابی اینکه آیا این ابزارهای هوش مصنوعی میتوانند زوایای تحقیقاتی جدیدی را در سطحی مشابه سطح انسان ایجاد کنند، دشوار است.
چنگلی سی، یکی از نویسندگان این مطالعه، میگوید که ارزیابی ایدهها بسیار ذهنی است و نیازمند جمعآوری محققانی است که تخصص لازم را برای ارزیابی دقیق آنها داشته باشند. سی، دانشمند کامپیوتر در دانشگاه استنفورد در کالیفرنیا، میگوید: «بهترین راه برای ما برای ایجاد چنین قابلیتهایی این است که مقایسهای رو در رو داشته باشیم».
تام هوپ، دانشمند کامپیوتر در موسسه آلن برای هوش مصنوعی در اورشلیم، میگوید این پروژه یک ساله یکی از بزرگترین تلاشها برای ارزیابی اینکه آیا مدلهای زبان بزرگ (LLM) – فناوری ابزارهای زیربنایی مانند ChatGPT – میتوانند ایدههای تحقیقاتی نوآورانه تولید کنند یا خیر، است. او میگوید: کارهای بیشتری از این دست باید انجام شود.
این تیم بیش از 100 محقق را در زمینه پردازش زبان طبیعی – شاخهای از علوم کامپیوتر که بر ارتباط بین هوش مصنوعی و انسان متمرکز است – استخدام کرد. چهل و نه شرکتکننده وظیفه داشتند ایدههایی را بر اساس یکی از هفت موضوع، در مدت ده روز توسعه دهند و بنویسند. به عنوان انگیزه، محققان برای هر ایده 300 دلار آمریکا به شرکت کنندگان پرداخت کردند و برای پنج ایده با امتیاز بالا، 1000 دلار جایزه پرداخت کردند.
در همین حال، محققان با استفاده از Claude 3.5، یک LLM که توسط Anthropic در سانفرانسیسکو، کالیفرنیا توسعه یافته است، یک ایده مولد ساختند. محققان ابزار هوش مصنوعی خود را برای یافتن مقالات مرتبط با هفت موضوع تحقیقاتی با استفاده از Semantic Scholar، یک موتور جستجوی ادبیات مبتنی بر هوش مصنوعی، برنامهریزی کردند. بر اساس این مقالات، محققان سپس عامل هوش مصنوعی خود را ترغیب کردند تا 4000 ایده در مورد هر موضوع تحقیقاتی ایجاد کند و به آن دستور دادند تا اصلیترین آنها را رتبه بندی کند.
بازبینان انسانی ایدهها
در مرحله بعد، محققان به طور تصادفی ایدههای تولید شده توسط انسان و هوش مصنوعی را به 79 بازبینی اختصاص دادند که هر ایده را بر اساس تازگی، هیجان، امکانپذیری و اثربخشی مورد انتظار آنها امتیاز دادند. برای اطمینان از ناشناخته ماندن سازندگان ایدهها برای بازبینان، محققان از LLM دیگری برای ویرایش هر دو نوع متن استفاده کردند تا سبک و لحن نوشتن را بدون تغییر خود ایدهها، استاندارد کنند.
به طور متوسط، بازبینان ایدههای تولید شده توسط هوش مصنوعی را بدیعتر و هیجانانگیزتر از ایدههای نوشته شده توسط شرکت کنندگان انسانی ارزیابی کردند. با این حال، هنگامی که تیم نگاه دقیقتری به 4000 ایده تولید شده توسط LLM انداخت، تنها حدود 200 ایده را یافتند که واقعاً منحصر به فرد بودند.
هنگامی که چنگلی سی، شرکت کنندگان را مورد بررسی قرار داد، اکثر آنها پذیرفتند که ایدههای ارائه شده آنها در مقایسه با ایدههایی که در گذشته تولید کرده بودند، ضعیفتر است.
کانگ لو، محقق یادگیری ماشینی در دانشگاه بریتیش کلمبیا در ونکوور، کانادا، میگوید: نتایج نشان میدهد که LLM ممکن است بتواند ایدههایی تولید کند که کمی اصیلتر از ایدههای موجود در ادبیات موجود باشد. اما این که آیا آنها میتوانند پیشگامانهترین ایدههای انسانی را شکست دهند، یک سوال بیجواب است.
جوین وست، دانشمند علوم اجتماعی محاسباتی در دانشگاه واشنگتن در سیاتل، میگوید محدودیت دیگر این است که این مطالعه ایدههای نوشتهشدهای را که توسط یک LLM ویرایش شده بود، مقایسه کرد که زبان و طول ارسالها را تغییر داد. او میگوید، چنین تغییراتی میتوانست بهطور ماهرانهای بر نحوه درک منتقدان از تازگی تأثیر بگذارد. وست اضافه میکند که قرار گرفتن محققان در برابر یک LLM که میتواند هزاران ایده را در چند ساعت ایجاد کند، ممکن است مقایسهای کاملاً منصفانه نداشته باشد. او میگوید: شما باید سیب را با سیب مقایسه کنید.
سی و همکارانش در حال برنامهریزی برای مقایسه ایدههای تولید شده توسط هوش مصنوعی با مقالات پیشرو در کنفرانس هستند تا درک بهتری از نحوه مقابله LLMها در برابر خلاقیت انسان به دست آورند. او میگوید: ما در تلاش هستیم تا جامعه را بیشتر به فکر کردن در مورد آیندهای که هوش مصنوعی میتواند نقش فعالتری در فرآیند تحقیق ایفا کند، مایل کنیم.
منبع : nature