صدای تولید شده توسط هوش مصنوعی
تولید محتوا با هوش مصنوعی

چرا تشخیص صدای تولید شده توسط هوش مصنوعی بسیار سخت است؟

سرفصل‌های مقاله

محتوای جعلی و گمراه‌کننده ایجاد شده توسط هوش مصنوعی به سرعت از یک تهدید نظری به یک واقعیت خیره‌کننده تبدیل شده است. فناوری تولید یک ضبط صوتی قانع‌کننده از صحبت کردن شخصی دائماً بهتر می‌شود و با یک جستجوی آنلاین ساده به طور گسترده در دسترس قرار گرفته است. تشخیص صدای تولید شده توسط هوش مصنوعی عملا غیر ممکن می‌شود.

صرف وجود این فناوری و مشکل در تشخیص محتوای ایجاد شده توسط آن، در حال حاضر باعث هرج و مرج شده است. در ماه ژانویه، یک تماس جعلی از سوی جو بایدن، رئیس جمهور، رأی دهندگان دموکرات در نیوهمپشایر را هدف قرار داد. راجر استون اخیراً از یک برنامه تشخیص هوش مصنوعی در تلاش برای فاصله گرفتن از صدای ضبط شده استفاده کرده است.

کارشناسان به NBC News گفتند، در حالی که ده‌ها ابزار و محصول برای شناسایی صدای تولید شده توسط هوش مصنوعی ظاهر شده‌اند، کارشناسان به ان‌بی‌سی نیوز گفتند که این برنامه‌ها ذاتاً محدود هستند و راه مطمئنی برای کسی فراهم نمی‌کنند تا سریع و قابل اطمینان تشخیص دهد که آیا صدایی که می‌شنود از آن است مربوط به شخص حقیقی است یا خیر.

تشخیص صدای تولید شده توسط هوش مصنوعی

صدای تولید شده توسط هوش مصنوعی

سیستم‌های تشخیص دیپ‌فیک بسیار متفاوت از نحوه گوش دادن انسان ها عمل می‌کنند. آن‌ها نمونه‌های صوتی را برای مصنوعاتی مانند فرکانس‌های از دست رفته که اغلب هنگام تولید صدا به‌صورت برنامه‌ریزی پشت سر گذاشته می‌شوند، تجزیه و تحلیل می‌کنند. اغلب، آنها بر جنبه‌های خاصی از گفتار تمرکز می‌کنند، مانند اینکه گوینده چگونه نفس می‌کشد یا اینکه زیر و بمی صدای او چقدر بالا و پایین می‌رود.

Reality Defender، یک شرکت برجسته تشخیص دیپ فیک، می‌گوید که از هوش مصنوعی برای شناسایی صدای تولید شده توسط هوش مصنوعی استفاده می‌کند. درست همانطور که هوش مصنوعی زاینده با آموزش الگوریتم‌ها بر روی مقادیر انبوه داده‌های واقعی و موجود برای تولید رسانه‌های جدید واقعی کار می‌کند، کارمندان Reality Defender الگوریتم آن را هم محتوای معتبر و هم محتوای تولید شده توسط هوش مصنوعی را تغذیه می‌کنند. بن کولمن، مدیر عامل شرکت، گفت که این شرکت به وضوح آنچه را که واقعی است و چه چیزی جعلی است، برچسب‌گذاری می‌کند، به این امید که سیستم بتواند تخمین بزند که احتمال دارد چیزی توسط هوش مصنوعی تولید شود.

کولمن گفت: ما هرگز 100 درصد نمی‌گوییم. بالاترین احتمال ما 99٪ است زیرا ما هرگز حقیقت اصلی را نداریم. بنابراین کاملاً احتمالی است. گستره وسیعی از صداها و زبان‌های انسانی این کار را دشوار می‌کند. با صداها، جمعیتی است که در مناطق و زبان‌ها و گویش ها و سن توزیع شده است. بنابراین ما باید به تک تک متغیرها فکر کنیم.

با چنین صنعت آزمایش نشده و به سرعت در حال توسعه، معیارهای کمی برای اندازه گیری قابلیت اطمینان ابزار تشخیص عمیق وجود دارد. پاتریک تینور، استاد دانشگاه فلوریدا که متخصص علوم کامپیوتر و شبکه‌های تلفنی است، می‌گوید: اما نرم‌افزار ذاتاً یک راه محدود برای تشخیص دیپ‌فیک است.

او گفت که بیشتر برنامه‌های تشخیص برای شناسایی الگوریتم‌های دیپ‌فیک موجود آموزش داده می‌شوند که آنها را یک قدم پشت سر نوآوری‌های جدید قرار می‌دهد.

ترینر گفت: «یادگیری ماشین واقعاً در گفتن چیزی که قبلاً دیده شده است، خوب است، اما در مورد استدلال درباره چیزهایی که ندیده است چندان خوب نیست. در این فضا تبلیغات زیادی وجود دارد و من به شدت شک دارم. مشکلات خیلی سخت است.

فرمان اجرایی فراگیر بایدن که هوش مصنوعی را قانون‌گذاری می‌کند، امیدوار است این مشکل را برطرف کند. وزارت بازرگانی را موظف می‌کند که برای شرکت‌های آمریکایی هوش مصنوعی راهنمایی کند که چگونه باید رسانه‌هایی را که تولید می‌کنند «واترمارک کنند» تا به راحتی تشخیص داده شود که معتبر نیستند. اما چنین رهنمودهایی هنوز عمومی نیست و باید دید چه تعداد از ابزارها از آن پیروی خواهند کرد.

این مقررات، که هنوز اجرایی نشده است، در حال حاضر پشت صنعت است. تعداد زیادی از شرکت‌ها وجود دارند که خدمات تبدیل متن به گفتار را ارائه می‌دهند که صداهای واقعی را به صورت رایگان یا ارزان تقلید می‌کنند.

واندانا جانجا، استاد سیستم‌های اطلاعاتی در دانشگاه مریلند، شهرستان بالتیمور، گفت: اگر به سادگی صدای تولید شده توسط هوش مصنوعی را جستجو کنید، بلافاصله ده‌ها جستجو دریافت خواهید کرد. “تقریبا جرم است که همه این چیزها بدون هیچ گونه حفاظی در آنجا وجود داشته باشد.

اگرچه بسیاری از کارشناسان روش‌های تشخیص را قابل اعتماد نمی‌دانند، اما هنوز نشانه‌هایی وجود دارد که انسان‌ها می‌توانند برای تشخیص مصنوعی بودن صدای ضبط شده به آن گوش دهند. دیپ‌فیک‌های کنونی به ندرت شامل افرادی می‌شوند که بین کلمات نفس می‌کشند، و اغلب به‌طور غیرطبیعی، بر خلاف روشی که افراد واقعی صحبت می‌کنند، هر کلمه را به طور مساوی از هم جدا می‌کنند.

شما می‌توانید همین حالا از طریق زبان فارسی به موتور‌های هوش مصنوعی مولد مانند ChatGPT و سرویس متن به عکس لئوناردو دسترسی پیدا کنید. تنها کافی است اپلیکیشن زی‌گپ را دانلود و به راحتی از آن استفاده کنید. همچنین شما می‌توانید نظرات خود را با ما و سایر کاربران در شبکه‌های اجتماعی ما در اینستاگرام و تلگرام به اشتراک بگذارید.

نوید رضایی
نوید رضایی