منابع محاسباتی عظیمی که برای آموزش شبکههای عصبی در حوزه هوش مصنوعی (AI) مورد نیاز هستند، منجر به مصرف برق بسیار زیادی میشوند. پژوهشگران دانشگاه فنی مونیخ (Technical University of Munich – TUM) موفق به توسعه روش جدیدی شدهاند که ۱۰۰ برابر سریعتر عمل میکند و به همین دلیل، بسیار کارآمدتر از نظر مصرف انرژی است.
این روش جدید، به جای رویکرد تکراری مرسوم، پارامترها را به صورت مستقیم و بر اساس احتمالات محاسبه میکند. نتایج بهدستآمده تاکنون از نظر کیفیت، با روشهای تکراری موجود قابل مقایسه هستند.
برنامههای هوش مصنوعی نظیر مدلهای زبانی بزرگ (LLMs)، به بخش جداییناپذیری از زندگی روزمره ما تبدیل شدهاند. ظرفیتهای مورد نیاز برای محاسبه، ذخیرهسازی و انتقال این برنامهها توسط مراکز دادهای تأمین میشوند که مقادیر عظیمی از انرژی را مصرف میکنند. تنها در کشور آلمان، مصرف انرژی این مراکز داده در سال ۲۰۲۰ حدود ۱۶ میلیارد کیلووات ساعت بوده است که معادل تقریبی ۱ درصد از کل مصرف انرژی این کشور است. پیشبینی میشود این عدد تا سال ۲۰۲۵ به ۲۲ میلیارد کیلووات ساعت افزایش یابد.
روش جدید ۱۰۰ برابر سریعتر با دقتی قابل مقایسه
ورود برنامههای پیچیدهتر هوش مصنوعی در سالهای آینده، تقاضا برای ظرفیت مراکز داده را به طرز چشمگیری افزایش خواهد داد. این برنامهها، برای آموزش شبکههای عصبی، به انرژی بسیار زیادی نیاز خواهند داشت. به منظور مقابله با این روند، پژوهشگران روشی برای آموزش شبکههای عصبی توسعه دادهاند که ۱۰۰ برابر سریعتر است و در عین حال دقتی مشابه با روشهای موجود دارد. این دستاورد، مصرف انرژی مربوط به فرآیند آموزش شبکهها را به میزان قابل توجهی کاهش خواهد داد.
عملکرد شبکههای عصبی که در هوش مصنوعی برای انجام وظایفی مانند شناسایی تصاویر یا پردازش زبان استفاده میشوند، از نحوه عملکرد مغز انسان الهام گرفته شده است. این شبکهها از گرههای متصل به هم به نام نورونهای مصنوعی تشکیل میشوند. سیگنالهای ورودی با مقادیری موسوم به پارامتر وزندهی میشوند و سپس جمع زده میشوند. اگر این مجموع از یک آستانه معین عبور کند، سیگنال به گره بعدی منتقل میشود.
برای آموزش شبکه، انتخاب اولیه مقادیر پارامترها معمولاً بهصورت تصادفی انجام میشود؛ به عنوان مثال از توزیع نرمال بهره میگیرند. پس از آن، این مقادیر بهتدریج و طی فرآیندهای تکراری بهبود داده میشوند تا پیشبینیهای شبکه بهتر و دقیقتر شوند. اما به دلیل نیاز به تعداد زیادی تکرار، این فرآیند آموزشی بسیار پرهزینه و انرژیبر است.
انتخاب پارامترها بر اساس احتمالات
«فلیکس دیتریش» استاد حوزه «یادگیری ماشین تقویتشده با فیزیک» (Physics-enhanced Machine Learning) و تیم او، روشی جدید توسعه دادهاند. به جای تعیین تکراری پارامترهای بین گرهها، روش آنها بر مبنای استفاده از احتمالات عمل میکند. این رویکرد احتمالمحور، مبتنی بر بهکارگیری هدفمند مقادیر در نقاط بحرانی دادههای آموزشی است؛ نقاطی که در آنها تغییرات بزرگ و سریعی در مقادیر رخ میدهد. هدف مطالعه فعلی این تیم، استفاده از این روش برای بهدست آوردن سیستمهای دینامیکی صرفهجویانه در انرژی از دل دادههاست. چنین سیستمهایی بهمرور زمان و مطابق با قوانین مشخص تغییر میکنند و نمونههایی از آنها را میتوان در مدلهای اقلیمی یا بازارهای مالی مشاهده کرد.
دیتریش میگوید:
«روش ما این امکان را فراهم میکند که پارامترهای مورد نیاز را با حداقل توان محاسباتی تعیین کنیم. این مسئله میتواند فرآیند آموزش شبکههای عصبی را بسیار سریعتر و در نتیجه، کارآمدتر از نظر مصرف انرژی کند.»
او همچنین اضافه میکند:
«علاوه بر این، مشاهده کردهایم که دقت این روش جدید با شبکههایی که بهصورت تکراری آموزش دیدهاند، کاملاً قابل مقایسه است.»
جمعبندی
این روش نوآورانه، میتواند بهطور چشمگیری هزینههای انرژی مربوط به آموزش شبکههای عصبی را کاهش دهد؛ مسئلهای که در آیندهای نهچندان دور، بهخصوص با گسترش استفاده از هوش مصنوعی و مدلهای زبانی بزرگ، اهمیت بیشتری پیدا خواهد کرد. با بهکارگیری این رویکرد مبتنی بر احتمالات، پژوهشگران دانشگاه فنی مونیخ گامی مهم در جهت توسعه سیستمهای هوش مصنوعی پایدار و کممصرف برداشتهاند.
منبع: tum