هوش مصنوعی
شرکت متا

متا از یک هوش مصنوعی مترجم همزمان رونمایی کرد

سرفصل‌های مقاله

محققان هوش مصنوعی متا روز پنجشنبه اعلام کردند که مجموعه جدیدی از مدل‌های هوش مصنوعی مترجم به نام Seamless Communication را توسعه داده‌اند که هدف آن برقراری ارتباط طبیعی و معتبرتر بین زبان‌هاست؛ که اساسا مفهوم «مترجم جهانی همه‌زبانه» را به واقعیت تبدیل می‌کند. 

این مدل‌ها به همراه مقالات تحقیقاتی و داده‌های همراه در این هفته به صورت عمومی منتشر شدند.

مدل پرچم‌دار این هوش مصنوعی مترجم که Seamless نام دارد، قابلیت‌های سه مدل دیگر – SeamlessExpressive، SeamlessStreaming و Seamless-M4V2 را در یک سیستم یکپارچه ادغام می‌کند. طبق مقاله تحقیقاتی، Seamless “اولین سیستم در دسترس عموم است که ارتباطات بین زبانی بیانی را در زمان واقعی باز می‌کند.”

نحوه کار Seamless به عنوان یک هوش مصنوعی مترجم

Meta logo image 103 1420x799 1مترجم Seamless مرز جدیدی را در استفاده از هوش مصنوعی برای ارتباط در سراسر جهان گسترش می‌دهد. این فناوری هوش مصنوعی مترجم، سه مدل شبکه عصبی پیچیده را ترکیب می‌کند تا ترجمه بلادرنگ بین بیش از 100 زبان گفتاری و نوشتاری را در عین حفظ سبک آوازی، احساسات و عروض صدای گوینده، امکان‌پذیر کند.

SeamlessExpressive بر حفظ سبک آوایی و تفاوت‌های ظریف احساسی صدای گوینده هنگام ترجمه بین زبان‌ها تمرکز دارد. همان‌طور که در مقاله توضیح داده شده است، «ترجمه‌ها باید ظرایف بیان انسان را در برگیرند. در حالی که ابزارهای ترجمه موجود در ضبط محتوا تنها در یک مکالمه مهارت دارند، معمولا هم برای خروجی خود به سیستم‌های تبدیل متن به گفتار رباتیک و یکنواخت متکی هستند.»

SeamlessStreaming ترجمه تقریبا همزمان را با تنها دو ثانیه تاخیر امکان‌پذیر می‌کند. محققان می‌گویند که این اولین مدل بسیار چندزبانه است که چنین سرعت ترجمه سریعی را در نزدیک به 100 زبان گفتاری و نوشتاری ارائه می‌دهد.

مدل سوم Seamless-M4V2 به عنوان پایه‌ای برای دو مدل دیگر عمل می‌کند. این مدل یک نسخه ارتقا یافته از مدل اصلی SeamlessT4 است که سال گذشته منتشر شد که بر اساس این مقاله، معماری جدید “سازگاری بهبودیافته بین خروجی متن و گفتار” را فراهم می‌کند.

محققان نوشته‌اند: «در مجموع، Seamless به ما نگاهی محوری به شالوده فنی مورد نیاز را برای تبدیل “مترجم جهانی گفتار” از یک مفهوم علمی تخیلی، به یک فناوری در دنیای واقعی می‌دهد.»

پتانسیل تغییر ارتباطات جهانی

قابلیت‌های این مدل‌ها می‌تواند تجربه‌های ارتباطی جدید مبتنی بر صدا، از مکالمات چندزبانه همزمان با استفاده از عینک‌های هوشمند گرفته تا فیلم‌ها و پادکست‌های با دوبله خودکار را فراهم کند. محققان پیشنهاد می‌کنند که این فناوری می‌تواند به از بین بردن موانع زبانی برای مهاجران و دیگرانی که در ارتباطات مشکل دارند نیز کمک کند.

در این مقاله آمده است: «با انتشار عمومی کارمان، امیدواریم محققان و توسعه‌دهندگان بتوانند تاثیر مشارکت‌های ما را در ایجاد فناوری‌هایی با هدف ایجاد پل ارتباطی چندزبانه در دنیایی که به طور فزاینده‌ای به هم پیوسته و وابسته به یکدیگر است، گسترش دهند.»

با این حال این فناوری هم خالی از ایراد نخواهد بود. محققان اذعان می‌کنند که این فناوری می‌تواند برای کلاهبرداری‌های فیشینگ صوتی، تقلب‌های عمیق و سایر برنامه‌های مضر نیز مورد استفاده قرار گیرد. برای ارتقای ایمنی و استفاده مسئولانه از مدل‌ها، آن‌ها اقدامات متعددی از جمله واترمارک صوتی و تکنیک‌های جدید را برای کاهش خروجی‌های سمی و ناخوشایند در نظر گرفته‌اند.

مدل هایی که به صورت عمومی در Hugging Face منتشر شدند

مطابق با تعهد متا به تحقیق و همکاری به صورت باز و شفاف، مدل‌های ارتباط Seamless به صورت عمومی در Hugging Face و Github منتشر شده‌اند.

این مجموعه شامل هر سه مدل به همراه ابرداده‌های همراه آن‌هاست.

با در دسترس قرار دادن این پیشرفته‌ترین مدل‌های پردازش زبان طبیعی، متا امیدوار است که محققان و توسعه دهندگان همکار را قادر سازد تا این مدل‌ها را برای کمک به ایجاد ارتباط بین زبان‌ها و فرهنگ‌ها توسعه و گسترش دهند.

انتشار این نسخه‌ها بر رهبری متا در زمینه هوش مصنوعی مترجم منبع‌باز تاکید و منبع جدید ارزشمندی را برای جامعه تحقیقاتی فراهم می‌کند.

مهران
مهران