تیمی به رهبری دانشمندان گوگل ابزاری برای یادگیری ماشینی ایجاد کردهاند که میتواند با ارزیابی صداهایی مانند سرفه و تنفس، به تشخیص و نظارت بر وضعیت سلامت کمک کند.
این سیستم هوش مصنوعی که بر روی میلیونها کلیپ صوتی از صدای انسان آموزش داده شده است، ممکن است روزی توسط پزشکان برای تشخیص بیماریهایی از جمله کووید-۱۹ و سل و ارزیابی عملکرد ریههای فرد مورد استفاده قرار گیرد.
تشخیص بیماری از روی سرفه
این اولین بار نیست که یک گروه تحقیقاتی استفاده از صدا را به عنوان یک نشانگر زیستی برای بیماریها بررسی میکند. این مفهوم در طول همهگیری کووید-19 و زمانی که دانشمندان دریافتند که میتوان بیماری تنفسی را از طریق سرفه یک فرد تشخیص داد، مورد توجه قرار گرفت.
آنچه در مورد سیستم گوگل – به نام Health Acoustic Representations (HeAR)- جدید است، مجموعه دادههای عظیمی است که بر روی آن آموزش دیده است، و این واقعیت که میتوان آن را برای انجام چندین کار به خوبی تنظیم کرد.
محققان که در اوایل این ماه این ابزار را در یک پیشچاپ1 گزارش کردند که هنوز بررسی نشده است، میگویند هنوز زود است که بگوییم HeAR به یک محصول تجاری تبدیل خواهد شد یا خیر. در حال حاضر برنامه این است که محققان علاقمند به این مدل دسترسی داشته باشند تا بتوانند از آن در تحقیقات خود استفاده کنند.
«سوجای کاکارمات» مدیر محصول گوگل در شهر نیویورک که روی این پروژه کار میکرد، میگوید: «هدف ما به عنوان بخشی از Google Research این است که نوآوری در این زمینه نوپا را تحریک کنیم.»
چگونه مدل خود را آموزش دهیم
اکثر ابزارهای هوش مصنوعی که در این فضا توسعه مییابند، بر روی فایلهای صوتی – به عنوان مثال، سرفهها – که با اطلاعات سلامت فردی که صداها را تولید کرده همراه است، آموزش داده میشوند. به عنوان مثال، ممکن است بر روی این کلیپها برچسب زده شود تا نشان دهد که فرد در زمان ضبط، برونشیت داشته است. این ابزار میآید تا ویژگیهای صداها را در یک فرایند آموزشی به نام «یادگیری نظارتشده» با برچسب داده مرتبط کند.
«یائل بنسوسان» متخصص حنجره در دانشگاه فلوریدا جنوبی در تامپا میگوید: «در پزشکی بهطور سنتی، ما از یادگیری نظارتشده زیادی استفاده میکنیم که بسیار عالی است، زیرا شما اعتبار بالینی دارید. نقطه ضعف این روش این است که واقعا مجموعه دادههایی را که میتوانید استفاده کنید محدود میکند، زیرا مجموعهای از دادههای حاشیهنویسی در آنجا وجود ندارد.»
در عوض، محققان گوگل از یادگیری خودنظارتی استفاده کردند که بر دادههای بدون برچسب متکی است. آنها از طریق یک فرایند خودکار، بیش از 300 میلیون کلیپ صوتی کوتاه از سرفه، تنفس، پاک کردن گلو و سایر صداهای انسانی را از ویدیوهای عمومی یوتیوب استخراج کردند.
هر کلیپ به نمایشِ تصویریِ صدا به نام طیفنگار تبدیل شد. سپس محققان بخشهایی از طیفنگارها را مسدود کردند تا به مدل کمک کنند تا قسمتهای از دست رفته را پیشبینی کند.
این روش شبیه به روشی است که مدل زبان بزرگی که زیربنای چتبات ChatGPT است، برای پیشبینی کلمه بعدی در یک جمله پس از آموزش بر روی نمونههای بیشماری از متن انسانی آموزش داده شد. با استفاده از این روش، محققان مدلی را ایجاد کردند که آن را مدل پایه مینامند و به گفته آنها میتواند برای بسیاری از وظایف تطبیق داده شود.
یک یادگیرنده کارآمد
در مورد HeAR، تیم Google آن را برای تشخیص کووید-۱۹، سل و ویژگیهایی مانند سیگار کشیدن یک فرد تطبیق داد. از آنجایی که این مدل بر روی طیف وسیعی از صداهای انسانی آموزش دیده بود، برای تنظیم دقیق آن محققان تنها مجبور بودند مجموعه دادههای بسیار محدودی را که با این بیماریها و ویژگیها برچسبگذاری شده بودند، تغذیه کنند.
در مقیاسی که 0.5 نشاندهنده مدلی است که عملکردی بهتر از یک پیشبینی تصادفی ندارد و 1 نشاندهنده مدلی است که هر بار پیشبینی دقیقی انجام میدهد، HeAR بسته به مجموعه دادههایی که روی آن آزمایش شده است، امتیاز 0.645 و 0.710 را برای تشخیص COVID-19 به دست آورد. عملکرد بهتری نسبت به مدلهای موجود آموزش داده شده بر روی دادههای گفتاری یا صدای عمومی. برای تشخیص سل، امتیاز 0.739 بود.
کاکارمات میگوید این واقعیت که دادههای آموزشی اولیه بسیار متنوع بودند – با کیفیت صدا و منابع انسانی متفاوت – همچنین به این معنی است که نتایج قابل تعمیم هستند.
«علی عمران» مهندس دانشگاه اوکلاهاما در تولسا، میگوید که حجم عظیم دادههای استفاده شده توسط گوگل به این تحقیق اهمیت میدهد. او میگوید: «این به ما اطمینان میدهد که با یک ابزار قابل اعتماد طرفیم.»
عمران توسعه اپلیکیشنی به نام AI4COVID-19 را رهبری میکند که در تشخیص سرفههای کووید-19 از دیگر انواع سرفهها امیدوارکننده ظاهر شده. تیم او قصد دارد برای تایید از سازمان غذا و داروی ایالات متحده (FDA) درخواست کند تا این اپلیکیشن بتواند در نهایت به بازار منتقل شود.
او در حال حاضر به دنبال بودجه برای انجام آزمایشات بالینی لازم است. تاکنون هیچ ابزار تشخیص بیماری از طریق صدا با هوش مصنوعی توسط FDA مورد تایید قرار نگرفته است.
بنسوسان میگوید که حوزه آکوستیک سلامت یا «صوتیشناسی» امیدوارکننده است: «علم آکوستیک برای چندین دهه وجود داشته است. چیزی که متفاوت است این است که اکنون، با هوش مصنوعی و یادگیری ماشینی، ما ابزاری برای جمعآوری و تجزیهوتحلیل دادههای زیادی به طور همزمان داریم.»
او یک کنسرسیوم تحقیقاتی را رهبری میکند که بر روی کاوش صدا به عنوان یک نشانگر زیستی برای ردیابی سلامت تمرکز دارد.
او میگوید: «پتانسیل بسیار زیادی نه تنها برای تشخیص، بلکه برای غربالگری و نظارت وجود دارد. ما نمی توانیم هر هفته اسکن یا بیوپسی را تکرار کنیم. بنابراین به همین دلیل است که صدا به یک نشانگر زیستی واقعا مهم برای نظارت بر بیماری تبدیل میشود.»