هوش مصنوعی بازسازی صدای انسان

OpenAI از هوش مصنوعی بازسازی صدای انسان رونمایی کرد

سرفصل‌های مقاله

در ابتدا، OpenAI ابزاری را ارائه کرد که به افراد اجازه می‌داد تصاویر دیجیتالی را به سادگی با توصیف آن‌چه می خواهند ببینند ایجاد کنند. سپس، فناوری مشابهی را ساخت که ویدیوهایی فوق‌العاده‌ای را که انگار از دل یک فیلم هالیوودی درآمده بودند، تولید می‌کرد. حال این شرکت از فناوری‌ای رونمایی کرده است که می‌تواند صدای انسان را بازسازی کند.

این استارتاپ برجسته هوش مصنوعی روز جمعه اعلام کرد که گروه کوچکی از کسب‌وکارها در حال آزمایش یک سیستم OpenAI جدید به نام Voice Engine هستند که می‌تواند صدای یک فرد را با استفاده از یک ضبط 15 ثانیه‌ای بازسازی کند. اگر یک قطعه ضبط شده صدا و یک پاراگراف متن را آپلود کنید، ابزار Voice Engine می‌تواند متن را با استفاده از صدای مصنوعی که شبیه صدای شماست بخواند.

بازسازی صدای انسان با هوش مصنوعی

صدای انسان

ضمنا لازم نیست متن به زبان مادری شما باشد. برای مثال، اگر انگلیسی صحبت می‌کنید، ابزار هوش مصنوعی می‌تواند صدای شما را به زبان‌های اسپانیایی، فرانسوی، چینی یا بسیاری از زبان‌های دیگر بازسازی کند.

OpenAI فعلا قصد ندارد فناوری صدای انسان را به طور گسترده به اشتراک بگذارد، زیرا هنوز در تلاش برای درک خطرات بالقوه آن است. همانند تولیدکننده‌های تصویر و ویدیو، یک تولیدکننده صدا می‌تواند به انتشار اطلاعات نادرست در رسانه‌های اجتماعی کمک کند. 

همچنین می‌تواند به مجرمان این امکان را بدهد که به صورت آنلاین یا در حین تماس‌های تلفنی دست به جعل هویت و کلاهبرداری‌های خطرناک بزنند.

این شرکت گفت که به ویژه نگران است که این نوع فناوری بتواند برای شکستن و دور زدن تاییدکننده‌های صوتی که دسترسی به حساب‌های بانکی آنلاین و سایر برنامه‌های شخصی را کنترل می‌کنند، استفاده شود.

«جف هریس» مدیر محصول OpenAI، در مصاحبه‌ای گفت: «این یک موضوع حساس است و مهم است که آن را درست انجام دهیم.»

این شرکت در حال بررسی راه‌هایی برای واترمارک کردن صداهای مصنوعی یا اضافه کردن کنترل‌هایی است که افراد را از استفاده از این فناوری با صدای انسان یا سیاست‌مداران یا دیگر چهره‌های برجسته باز می‌دارد.

ماه گذشته، OpenAI با رونمایی از تولیدکننده ویدیوی خود، Sora، رویکرد مشابهی را در پیش گرفت. این فناوری را به نمایش گذاشت اما آن را به طور عمومی منتشر نکرد.

OpenAI در میان شرکت‌هایی است که نسل جدیدی از هوش مصنوعی را توسعه داده‌اند. فناوری که می‌تواند به سرعت و به راحتی صداهای مصنوعی تولید کند. 

این شرکت‌ها شامل غول‌های فناوری مانند گوگل و همچنین استارتاپ‌هایی مانند ElevenLabs مستقر در نیویورک هستند. 

کسب‌وکارها می‌توانند از این فناوری‌ها برای تولید کتاب‌های صوتی، دادن صدا به ربات‌های گفتگوی آنلاین یا حتی ساخت یک دی‌جی ایستگاه رادیویی خودکار استفاده کنند. 

از سال گذشته، OpenAI از فناوری خود برای تقویت نسخه ChatGPT که قادر به صحبت کردن است استفاده می‌کند و مدت‌هاست که مجموعه‌ای از صداها را به مشاغل ارائه می‌دهد که می‌توانند برای برنامه‌های مشابه استفاده شوند. همه این صداها از کلیپ‌های ضبط‌شده توسط صداپیشه‌های حرفه‌ای ساخته شده‌اند.

اما این شرکت هنوز ابزار عمومی ارائه نکرده است که به افراد و مشاغل اجازه دهد تا صداهای یک کلیپ کوتاه را مانند Voice Engine بازسازی کنند. به گفته آقای هریس، توانایی بازسازی هر صدایی به این روش، همان چیزی است که این فناوری را خطرناک می‌کند. او گفت که این فناوری می‌تواند به ویژه در برهه انتخابات خطرناک باشد.

در ژانویه، ساکنان نیوهمپشایر پیام‌هایی دریافت کردند که آن‌ها را از رای دادن در انتخابات مقدماتی ایالت منصرف می‌کرد، صدایی که به احتمال زیاد به طور مصنوعی شبیه رئیس‌جمهور بایدن بود. کمیسیون ارتباطات فدرال بعدا چنین تماس‌هایی را غیرقانونی اعلام کرد.

به گفته هریس OpenAI هیچ برنامه فوری برای کسب درآمد از این فناوری ندارد. او گفت که این ابزار می تواند به ویژه برای افرادی که صدای خود را در اثر بیماری یا تصادف از دست داده‌اند مفید باشد.

او نشان داد که چگونه از این فناوری برای بازسازی صدای یک زن پس از آسیب سرطان مغز به تکلم او استفاده شده است. هریس گفت که این زن حالا با استفاده از یک صدای ضبط‌شده مختصر در دوره دبیرستان، حالا قادر به تکلم است.

مهران
مهران