در ابتدا، OpenAI ابزاری را ارائه کرد که به افراد اجازه میداد تصاویر دیجیتالی را به سادگی با توصیف آنچه می خواهند ببینند ایجاد کنند. سپس، فناوری مشابهی را ساخت که ویدیوهایی فوقالعادهای را که انگار از دل یک فیلم هالیوودی درآمده بودند، تولید میکرد. حال این شرکت از فناوریای رونمایی کرده است که میتواند صدای انسان را بازسازی کند.
این استارتاپ برجسته هوش مصنوعی روز جمعه اعلام کرد که گروه کوچکی از کسبوکارها در حال آزمایش یک سیستم OpenAI جدید به نام Voice Engine هستند که میتواند صدای یک فرد را با استفاده از یک ضبط 15 ثانیهای بازسازی کند. اگر یک قطعه ضبط شده صدا و یک پاراگراف متن را آپلود کنید، ابزار Voice Engine میتواند متن را با استفاده از صدای مصنوعی که شبیه صدای شماست بخواند.
بازسازی صدای انسان با هوش مصنوعی
ضمنا لازم نیست متن به زبان مادری شما باشد. برای مثال، اگر انگلیسی صحبت میکنید، ابزار هوش مصنوعی میتواند صدای شما را به زبانهای اسپانیایی، فرانسوی، چینی یا بسیاری از زبانهای دیگر بازسازی کند.
OpenAI فعلا قصد ندارد فناوری صدای انسان را به طور گسترده به اشتراک بگذارد، زیرا هنوز در تلاش برای درک خطرات بالقوه آن است. همانند تولیدکنندههای تصویر و ویدیو، یک تولیدکننده صدا میتواند به انتشار اطلاعات نادرست در رسانههای اجتماعی کمک کند.
همچنین میتواند به مجرمان این امکان را بدهد که به صورت آنلاین یا در حین تماسهای تلفنی دست به جعل هویت و کلاهبرداریهای خطرناک بزنند.
این شرکت گفت که به ویژه نگران است که این نوع فناوری بتواند برای شکستن و دور زدن تاییدکنندههای صوتی که دسترسی به حسابهای بانکی آنلاین و سایر برنامههای شخصی را کنترل میکنند، استفاده شود.
«جف هریس» مدیر محصول OpenAI، در مصاحبهای گفت: «این یک موضوع حساس است و مهم است که آن را درست انجام دهیم.»
این شرکت در حال بررسی راههایی برای واترمارک کردن صداهای مصنوعی یا اضافه کردن کنترلهایی است که افراد را از استفاده از این فناوری با صدای انسان یا سیاستمداران یا دیگر چهرههای برجسته باز میدارد.
ماه گذشته، OpenAI با رونمایی از تولیدکننده ویدیوی خود، Sora، رویکرد مشابهی را در پیش گرفت. این فناوری را به نمایش گذاشت اما آن را به طور عمومی منتشر نکرد.
OpenAI در میان شرکتهایی است که نسل جدیدی از هوش مصنوعی را توسعه دادهاند. فناوری که میتواند به سرعت و به راحتی صداهای مصنوعی تولید کند.
این شرکتها شامل غولهای فناوری مانند گوگل و همچنین استارتاپهایی مانند ElevenLabs مستقر در نیویورک هستند.
کسبوکارها میتوانند از این فناوریها برای تولید کتابهای صوتی، دادن صدا به رباتهای گفتگوی آنلاین یا حتی ساخت یک دیجی ایستگاه رادیویی خودکار استفاده کنند.
از سال گذشته، OpenAI از فناوری خود برای تقویت نسخه ChatGPT که قادر به صحبت کردن است استفاده میکند و مدتهاست که مجموعهای از صداها را به مشاغل ارائه میدهد که میتوانند برای برنامههای مشابه استفاده شوند. همه این صداها از کلیپهای ضبطشده توسط صداپیشههای حرفهای ساخته شدهاند.
اما این شرکت هنوز ابزار عمومی ارائه نکرده است که به افراد و مشاغل اجازه دهد تا صداهای یک کلیپ کوتاه را مانند Voice Engine بازسازی کنند. به گفته آقای هریس، توانایی بازسازی هر صدایی به این روش، همان چیزی است که این فناوری را خطرناک میکند. او گفت که این فناوری میتواند به ویژه در برهه انتخابات خطرناک باشد.
در ژانویه، ساکنان نیوهمپشایر پیامهایی دریافت کردند که آنها را از رای دادن در انتخابات مقدماتی ایالت منصرف میکرد، صدایی که به احتمال زیاد به طور مصنوعی شبیه رئیسجمهور بایدن بود. کمیسیون ارتباطات فدرال بعدا چنین تماسهایی را غیرقانونی اعلام کرد.
به گفته هریس OpenAI هیچ برنامه فوری برای کسب درآمد از این فناوری ندارد. او گفت که این ابزار می تواند به ویژه برای افرادی که صدای خود را در اثر بیماری یا تصادف از دست دادهاند مفید باشد.
او نشان داد که چگونه از این فناوری برای بازسازی صدای یک زن پس از آسیب سرطان مغز به تکلم او استفاده شده است. هریس گفت که این زن حالا با استفاده از یک صدای ضبطشده مختصر در دوره دبیرستان، حالا قادر به تکلم است.