به گزارش ژورنال علمی Nature، یک سیستم هوش مصنوعی که برای انجام تشخیصهای پزشکی آموزش دیده بود، با عملکرد پزشکان انسانی در گفتگو با بیماران شبیهسازیشده و فهرستبندی تشخیصهای احتمالی بر اساس سابقه پزشکی بیماران مطابقت داشت یا حتی از آنها پیشی گرفت.
این چتبات که بر اساس یک مدل زبان بزرگ (LLM) توسعهیافته توسط گوگل ساخته شده است، در تشخیص بیماریهای تنفسی و قلبی عروقی و غیره، از پزشکان مراقبتهای اولیه دارای گواهی سازمان نظام پزشکی دقیقتر بود.
در مقایسه با پزشکان انسانی، هوش مصنوعی گوگل موفق شد مقدار مشابهی از اطلاعات را در طول مصاحبههای پزشکی به دست آورد و از نظر تشخیصهای پزشکی و همدلی با بیماران نیز در رتبه بالاتری قرار گرفت.
تشخیصهای پزشکی هوش مصنوعی گوگل
«آلن کارتیکسالینگمن» دانشمند تحقیقات بالینی در Google Health لندن که یکی از نویسندگان این مقاله علمی است، میگوید: « طبق اطلاعات ما، این اولین بار است که یک سیستم هوش مصنوعی به شکل بهینه مکالمهای برای گفتگوهای تشخیصی و گرفتن تاریخچه بالینی طراحی کرده است.»
این چتبات که به کاوشگر هوش پزشکی مفصلی (AMIE) معروف است، هنوز کاملا آزمایشی است.
این هوش مصنوعی هنوز روی افرادی که مشکلات واقعی سلامت دارند آزمایش نشده است و فقط روی شرکتکنندگانی که برای به تصویر کشیدن افرادی با شرایط پزشکی آموزش دیدهاند، آزمایش شده.
کارتیکسالینگمن میگوید: «ما میخواهیم نتایج این تحقیق با احتیاط و فروتنی تفسیر شود.»
حتی اگر از این چتبات هوش مصنوعی در مراقبتهای بالینی استفاده نشود، نویسندگان این مقاله استدلال میکنند که در نهایت میتواند نقشی در دموکراتیک کردن مراقبتهای بهداشتی ایفا کند.
«آدام رادمن» پزشک داخلی در دانشکده پزشکی هاروارد میگوید که این ابزار میتواند مفید باشد، اما نباید جایگزین تعامل واقعی با پزشکان شود.
او میگوید: «پزشکی چیزی خیلی فراتر از جمعآوری اطلاعات و است؛ در واقع همه چیز به روابط انسانی و تشخیصهای پزشکی مربوط میشود.»
یادگیری یک وظیفه ظریف
تعداد کمی از تلاشها برای استفاده از مدلهای بزرگ زبانی در حیطه پزشکی بررسی کردهاند که آیا این سیستمها میتوانند از توانایی پزشک برای گرفتن سابقه پزشکی فرد و استفاده از آن برای رسیدن به تشخیص تقلید کنند یا نه.
رادمن میگوید که دانشجویان پزشکی زمان زیادی را صرف آموزش برای انجام این کار میکنند. این یکی از مهمترین و دشوارترین مهارتهایی است که باید به پزشکان تلقین شود.
«ویوک ناتاراژان» دانشمند تحقیقاتی هوش مصنوعی در Google Health و یکی از نویسندگان این مطالعه، میگوید یکی از چالشهایی که توسعهدهندگان با آن مواجه بودند، کمبود مکالمات پزشکی در دنیای واقعی برای استفاده به عنوان دادههای آموزشی بود. برای مقابله با این چالش، محققان راهی ابداع کردند که چتبات بتواند بر روی «مکالمات» خود آموزش ببیند.
محققان دور اولیه تنظیم دقیق این LLM پایه را با مجموعه دادههای موجود در دنیای واقعی، مانند پرونده الکترونیک سلامت و مکالمات پزشکی رونویسیشده انجام دادند.
برای آموزش بیشتر این مدل، محققان این LLM را ترغیب کردند که نقش یک فرد مبتلا به یک بیماری خاص و یک پزشک همدل را با هدف درک تاریخچه سلامت فرد و ایجاد تشخیصهای بالقوه ایفا کند.
این تیم تحقیقاتی همچنین از مدل خواست تا یک نقش دیگر بازی کند: نقش منتقدی که تعامل پزشک با فرد تحت درمان را ارزیابی میکند و بازخوردی در مورد چگونگی بهبود این تعامل ارائه میدهد. از این نقد برای آموزش بیشتر LLM و ایجاد دیالوگهای بهبود یافته استفاده میشود.
برای آزمایش این سیستم، محققان 20 نفر را که برای جعل هویت بیماران آموزش دیده بودند، استخدام کردند و از آنها خواستند تا مشاورههای آنلاین مبتنی بر متن را انجام دهند ؛ هم با AMIE و هم با 20 پزشک دارای گواهی سازمان نظام پزشکی. به آنها گفته نشده بود که آیا با یک انسان چت میکنند یا یک ربات.
بازیگران 149 سناریو بالینی را شبیهسازی کردند و سپس از آنها خواسته شد تا تجربه خود را ارزیابی کنند. گروهی از متخصصان نیز عملکرد AMIE و پزشکان را ارزیابی کردند.
AMIE تست را انجام میدهد
سیستم هوش مصنوعی در همه تشخیصهای پزشکی در نظر گرفته شده با دقت تشخیصی پزشکان مطابقت داشت یا از آن پیشی گرفت. این ربات در ۲۴ مورد از ۲۶ معیار کیفیت مکالمه، از جمله ادب، توضیح شرایط و درمان، صادق بودن، و ابراز مراقبت و تعهد، از پزشکان بهتر عمل کرد.
کارتیکسالینگمن میگوید: «این به هیچوجه به این معنی نیست که یک مدل زبان بهتر از پزشکان در گرفتن تاریخچه بالینی عمل میکند.»
او خاطرنشان میکند که پزشکان مراقبتهای اولیه در این مطالعه احتمالا به تعامل با بیماران از طریق چت مبتنی بر متن عادت نداشتند، که ممکن است بر عملکرد آنها تاثیر بگذارد.
او در ادامه افزود که در مقابل، یک LLM دارای این مزیت غیرمنصفانه است که میتواند به سرعت پاسخهای طولانی و ساختاربندی شده زیبا بنویسد، و به آن اجازه میدهد بدون اینکه خسته شود، مدام با ملاحظه باشد.
یک چتبات بدون سوگیری مورد نیاز است
کارتیکسالینگمن میگوید گام بعدی مهم برای این تحقیق، انجام مطالعات دقیقتر برای ارزیابی سوگیریهای بالقوه و اطمینان از منصفانه بودن سیستم در بین جمعیتهای مختلف است.
تیم گوگل همچنین شروع به بررسی الزامات اخلاقی برای آزمایش این سیستم با انسانهایی میکند که مشکلات پزشکی واقعی دارند.
«دانیل تینگ» دانشمند بالینی هوش مصنوعی در دانشکده پزشکی Duke-NUS در سنگاپور، موافق است که بررسی سیستم برای سوگیریها ضروری است تا مطمئن شویم که الگوریتم، گروههای نژادی را که به خوبی در مجموعه دادههای آموزشی نشان داده نشدهاند، مجازات نمیکند.
تینگ میگوید که حریم خصوصی کاربران چتبات نیز جنبه مهمی است که باید در نظر گرفته شود. او میگوید: «در حال حاضر برای بسیاری از این پلتفرمهای مدل زبان بزرگ تجاری، ما هنوز مطمئن نیستیم که دادهها در کجا ذخیره و چگونه تجزیه و تحلیل میشوند.»