محققان هوش مصنوعی متا روز پنجشنبه اعلام کردند که مجموعه جدیدی از مدلهای هوش مصنوعی مترجم به نام Seamless Communication را توسعه دادهاند که هدف آن برقراری ارتباط طبیعی و معتبرتر بین زبانهاست؛ که اساسا مفهوم «مترجم جهانی همهزبانه» را به واقعیت تبدیل میکند.
این مدلها به همراه مقالات تحقیقاتی و دادههای همراه در این هفته به صورت عمومی منتشر شدند.
مدل پرچمدار این هوش مصنوعی مترجم که Seamless نام دارد، قابلیتهای سه مدل دیگر – SeamlessExpressive، SeamlessStreaming و Seamless-M4V2 را در یک سیستم یکپارچه ادغام میکند. طبق مقاله تحقیقاتی، Seamless “اولین سیستم در دسترس عموم است که ارتباطات بین زبانی بیانی را در زمان واقعی باز میکند.”
نحوه کار Seamless به عنوان یک هوش مصنوعی مترجم
مترجم Seamless مرز جدیدی را در استفاده از هوش مصنوعی برای ارتباط در سراسر جهان گسترش میدهد. این فناوری هوش مصنوعی مترجم، سه مدل شبکه عصبی پیچیده را ترکیب میکند تا ترجمه بلادرنگ بین بیش از 100 زبان گفتاری و نوشتاری را در عین حفظ سبک آوازی، احساسات و عروض صدای گوینده، امکانپذیر کند.
SeamlessExpressive بر حفظ سبک آوایی و تفاوتهای ظریف احساسی صدای گوینده هنگام ترجمه بین زبانها تمرکز دارد. همانطور که در مقاله توضیح داده شده است، «ترجمهها باید ظرایف بیان انسان را در برگیرند. در حالی که ابزارهای ترجمه موجود در ضبط محتوا تنها در یک مکالمه مهارت دارند، معمولا هم برای خروجی خود به سیستمهای تبدیل متن به گفتار رباتیک و یکنواخت متکی هستند.»
SeamlessStreaming ترجمه تقریبا همزمان را با تنها دو ثانیه تاخیر امکانپذیر میکند. محققان میگویند که این اولین مدل بسیار چندزبانه است که چنین سرعت ترجمه سریعی را در نزدیک به 100 زبان گفتاری و نوشتاری ارائه میدهد.
مدل سوم Seamless-M4V2 به عنوان پایهای برای دو مدل دیگر عمل میکند. این مدل یک نسخه ارتقا یافته از مدل اصلی SeamlessT4 است که سال گذشته منتشر شد که بر اساس این مقاله، معماری جدید “سازگاری بهبودیافته بین خروجی متن و گفتار” را فراهم میکند.
محققان نوشتهاند: «در مجموع، Seamless به ما نگاهی محوری به شالوده فنی مورد نیاز را برای تبدیل “مترجم جهانی گفتار” از یک مفهوم علمی تخیلی، به یک فناوری در دنیای واقعی میدهد.»
پتانسیل تغییر ارتباطات جهانی
قابلیتهای این مدلها میتواند تجربههای ارتباطی جدید مبتنی بر صدا، از مکالمات چندزبانه همزمان با استفاده از عینکهای هوشمند گرفته تا فیلمها و پادکستهای با دوبله خودکار را فراهم کند. محققان پیشنهاد میکنند که این فناوری میتواند به از بین بردن موانع زبانی برای مهاجران و دیگرانی که در ارتباطات مشکل دارند نیز کمک کند.
در این مقاله آمده است: «با انتشار عمومی کارمان، امیدواریم محققان و توسعهدهندگان بتوانند تاثیر مشارکتهای ما را در ایجاد فناوریهایی با هدف ایجاد پل ارتباطی چندزبانه در دنیایی که به طور فزایندهای به هم پیوسته و وابسته به یکدیگر است، گسترش دهند.»
با این حال این فناوری هم خالی از ایراد نخواهد بود. محققان اذعان میکنند که این فناوری میتواند برای کلاهبرداریهای فیشینگ صوتی، تقلبهای عمیق و سایر برنامههای مضر نیز مورد استفاده قرار گیرد. برای ارتقای ایمنی و استفاده مسئولانه از مدلها، آنها اقدامات متعددی از جمله واترمارک صوتی و تکنیکهای جدید را برای کاهش خروجیهای سمی و ناخوشایند در نظر گرفتهاند.
مدل هایی که به صورت عمومی در Hugging Face منتشر شدند
مطابق با تعهد متا به تحقیق و همکاری به صورت باز و شفاف، مدلهای ارتباط Seamless به صورت عمومی در Hugging Face و Github منتشر شدهاند.
این مجموعه شامل هر سه مدل به همراه ابردادههای همراه آنهاست.
با در دسترس قرار دادن این پیشرفتهترین مدلهای پردازش زبان طبیعی، متا امیدوار است که محققان و توسعه دهندگان همکار را قادر سازد تا این مدلها را برای کمک به ایجاد ارتباط بین زبانها و فرهنگها توسعه و گسترش دهند.
انتشار این نسخهها بر رهبری متا در زمینه هوش مصنوعی مترجم منبعباز تاکید و منبع جدید ارزشمندی را برای جامعه تحقیقاتی فراهم میکند.