ایده‌های هوش مصنوعی

آیا مدل‌های هوش مصنوعی نسبت به محققان ایده‌های بهتری تولید می‌کنند؟

سرفصل‌های مقاله

محققان یک ابزار هوش مصنوعی ساختند که 4000 ایده جدید تحقیقاتی را در عرض چند ساعت ارائه کرد.

بر اساس مقاله‌ای که در این ماه در arXiv منتشر شد، یک ایده‌پرداز با استفاده از هوش مصنوعی (AI) ایده‌های تحقیقاتی اصلی‌تری نسبت به 50 دانشمندی که به طور مستقل کار می‌کردند، ارائه کرد.

ایده‌های تولید شده توسط انسان و هوش مصنوعی توسط بازبینان مورد ارزیابی قرار گرفت و به آنها گفته نشد چه کسی یا چه چیزی هر ایده را ایجاد کرده است. بازبینان مفاهیم تولید شده توسط هوش مصنوعی را هیجان‌انگیزتر از آنچه توسط انسان نوشته شده است ارزیابی کردند، اگرچه پیشنهادات هوش مصنوعی از نظر امکان‌سنجی امتیاز پایین‌تر داشتند.

اما دانشمندان خاطرنشان می‌کنند که این مطالعه، که توسط همتایان آنها بررسی نشده است، دارای محدودیت‌هایی است. این پژوهش بر روی یک حوزه تحقیقاتی متمرکز بود و از شرکت‌کنندگان انسانی می‌خواست که ایده‌هایی را ارائه دهند، که احتمالاً مانع از توانایی آنها برای تولید بهترین مفاهیم می‌شد.

هوش مصنوعی در علم

هوش مصنوعی در علم

تلاش‌های رو به رشدی برای کشف چگونگی استفاده از LLM برای خودکارسازی کارهای تحقیقاتی، از جمله نوشتن مقالات، تولید کد و جستجوی ادبیات وجود دارد. اما ارزیابی اینکه آیا این ابزارهای هوش مصنوعی می‌توانند زوایای تحقیقاتی جدیدی را در سطحی مشابه سطح انسان ایجاد کنند، دشوار است.

چنگلی سی، یکی از نویسندگان این مطالعه، می‌گوید که ارزیابی ایده‌ها بسیار ذهنی است و نیازمند جمع‌آوری محققانی است که تخصص لازم را برای ارزیابی دقیق آن‌ها داشته باشند. سی، دانشمند کامپیوتر در دانشگاه استنفورد در کالیفرنیا، می‌گوید: «بهترین راه برای ما برای ایجاد چنین قابلیت‌هایی این است که مقایسه‌ای رو در رو داشته باشیم».

تام هوپ، دانشمند کامپیوتر در موسسه آلن برای هوش مصنوعی در اورشلیم، می‌گوید این پروژه یک ساله یکی از بزرگترین تلاش‌ها برای ارزیابی اینکه آیا مدل‌های زبان بزرگ (LLM) – فناوری ابزارهای زیربنایی مانند ChatGPT – می‌توانند ایده‌های تحقیقاتی نوآورانه تولید کنند یا خیر، است. او می‌گوید: کارهای بیشتری از این دست باید انجام شود.

این تیم بیش از 100 محقق را در زمینه پردازش زبان طبیعی – شاخه‌ای از علوم کامپیوتر که بر ارتباط بین هوش مصنوعی و انسان متمرکز است – استخدام کرد. چهل و نه شرکت‌کننده وظیفه داشتند ایده‌هایی را بر اساس یکی از هفت موضوع، در مدت ده روز توسعه دهند و بنویسند. به عنوان انگیزه، محققان برای هر ایده 300 دلار آمریکا به شرکت کنندگان پرداخت کردند و برای پنج ایده با امتیاز بالا، 1000 دلار جایزه پرداخت کردند.

در همین حال، محققان با استفاده از Claude 3.5، یک LLM که توسط Anthropic در سانفرانسیسکو، کالیفرنیا توسعه یافته است، یک ایده مولد ساختند. محققان ابزار هوش مصنوعی خود را برای یافتن مقالات مرتبط با هفت موضوع تحقیقاتی با استفاده از Semantic Scholar، یک موتور جستجوی ادبیات مبتنی بر هوش مصنوعی، برنامه‌ریزی کردند. بر اساس این مقالات، محققان سپس عامل هوش مصنوعی خود را ترغیب کردند تا 4000 ایده در مورد هر موضوع تحقیقاتی ایجاد کند و به آن دستور دادند تا اصلی‌ترین آنها را رتبه بندی کند.

بازبینان انسانی ایده‌ها

در مرحله بعد، محققان به طور تصادفی ایده‌های تولید شده توسط انسان و هوش مصنوعی را به 79 بازبینی اختصاص دادند که هر ایده را بر اساس تازگی، هیجان، امکان‌پذیری و اثربخشی مورد انتظار آن‌ها امتیاز دادند. برای اطمینان از ناشناخته ماندن سازندگان ایده‌ها برای بازبینان، محققان از LLM دیگری برای ویرایش هر دو نوع متن استفاده کردند تا سبک و لحن نوشتن را بدون تغییر خود ایده‌ها، استاندارد کنند.

به طور متوسط، بازبینان ایده‌های تولید شده توسط هوش مصنوعی را بدیع‌تر و هیجان‌انگیزتر از ایده‌های نوشته شده توسط شرکت کنندگان انسانی ارزیابی کردند. با این حال، هنگامی که تیم نگاه دقیق‌تری به 4000 ایده تولید شده توسط LLM انداخت، تنها حدود 200 ایده را یافتند که واقعاً منحصر به فرد بودند.

هنگامی که چنگلی سی، شرکت کنندگان را مورد بررسی قرار داد، اکثر آنها پذیرفتند که ایده‌های ارائه شده آنها در مقایسه با ایده‌هایی که در گذشته تولید کرده بودند، ضعیف‌تر ​​است.

کانگ لو، محقق یادگیری ماشینی در دانشگاه بریتیش کلمبیا در ونکوور، کانادا، می‌گوید: نتایج نشان می‌دهد که LLM ممکن است بتواند ایده‌هایی تولید کند که کمی اصیل‌تر از ایده‌های موجود در ادبیات موجود باشد. اما این که آیا آنها می‌توانند پیشگامانه‌ترین ایده‌های انسانی را شکست دهند، یک سوال بی‌جواب است.

جوین وست، دانشمند علوم اجتماعی محاسباتی در دانشگاه واشنگتن در سیاتل، می‌گوید محدودیت دیگر این است که این مطالعه ایده‌های نوشته‌شده‌ای را که توسط یک LLM ویرایش شده بود، مقایسه کرد که زبان و طول ارسال‌ها را تغییر داد. او می‌گوید، چنین تغییراتی می‌توانست به‌طور ماهرانه‌ای بر نحوه درک منتقدان از تازگی تأثیر بگذارد. وست اضافه می‌کند که قرار گرفتن محققان در برابر یک LLM که می‌تواند هزاران ایده را در چند ساعت ایجاد کند، ممکن است مقایسه‌ای کاملاً منصفانه نداشته باشد. او می‌گوید: شما باید سیب را با سیب مقایسه کنید.

سی و همکارانش در حال برنامه‌ریزی برای مقایسه ایده‌های تولید شده توسط هوش مصنوعی با مقالات پیشرو در کنفرانس هستند تا درک بهتری از نحوه مقابله LLM‌ها در برابر خلاقیت انسان به دست آورند. او می‌گوید: ما در تلاش هستیم تا جامعه را بیشتر به فکر کردن در مورد آینده‌ای که هوش مصنوعی می‌تواند نقش فعال‌تری در فرآیند تحقیق ایفا کند، مایل کنیم.

منبع : nature

نوید رضایی
نوید رضایی