موتور صوتی OpenAI تنها به 15 ثانیه نمونه صدا نیاز دارد

OpenAI اعلام کرد که دسترسی محدودی به پلتفرم تبدیل متن به گفتار به نام Voice Engine ارائه می دهد.

به گزارش تکناک، این پلتفرم می تواند با استفاده از یک کلیپ 15 ثانیه ای از صدای یک فرد، صدای مصنوعی ایجاد کند. صدای تولید شده توسط هوش مصنوعی قادر است متون را به همان زبانی که شخص ضبط شده یا به زبان های دیگر بر اساس دستورات بخواند.

OpenAI در یک پست وبلاگی گفت: “این استقرارهای محدود به ما کمک می کند تا رویکرد، تضمین ها و تفکر خود را در مورد چگونگی استفاده از موتور صوتی برای همه صنایع بهبود بخشیم.”

لبه این گزارش می‌گوید که شرکت‌هایی که به این فناوری دسترسی دارند شامل شرکت فناوری آموزشی عصر یااری، پلتفرم داستان‌گویی بصری HeyGen، سازنده نرم‌افزار سلامت خط مقدم Dimagi، سازنده اپلیکیشن ارتباط هوش مصنوعی Livox و سیستم سلامت Lifespan هستند. هستند.

در مثال‌های ارائه‌شده توسط OpenAI، می‌توانید بشنوید که چگونه «عصر یادگیری» از این فناوری برای تولید محتوای از پیش نوشته‌شده برای صداگذاری و همچنین خواندن «پاسخ‌های شخصی‌شده در لحظه» برای دانش‌آموزان نوشته شده توسط GPT-4 استفاده می‌کند.

ابتدا فایل صوتی مرجع به زبان انگلیسی:

صدا 1

و در اینجا سه کلیپ صوتی تولید شده توسط هوش مصنوعی بر اساس آن مثال آورده شده است.

OpenAI اعلام کرد که توسعه موتور صوتی را در اواخر سال 2022 آغاز خواهد کرد و این فناوری در حال حاضر برای صداهای از پیش تعریف شده در API تبدیل متن به گفتار و ویژگی “خواندن با صدای بلند” در ChatGPT استفاده می شود. جف هریس، یکی از اعضای تیم محصول OpenAI برای Voice Engine، در مصاحبه ای با TechCrunch گفت که این مدل بر روی یک مجموعه داده مجوزدار و در دسترس عموم آموزش داده شده است. OpenAI به نشریه گفت که این مدل تنها برای حدود 10 توسعه دهنده در دسترس خواهد بود.

تولید متن به گفتار مبتنی بر هوش مصنوعی حوزه ای از هوش مصنوعی است که به تکامل خود ادامه می دهد. در حالی که بیشتر آنها بر روی تولید صدا یا صداهای طبیعی تمرکز می کنند، کمتر بر تولید صدا تمرکز می کنند. برخی از نام‌های فعال در این زمینه شامل شرکت‌هایی مانند Podcastle و ElevenLabs می‌شوند که فناوری شبیه‌سازی صدای هوش مصنوعی و ابزارهایی را ارائه می‌کنند که Vergecast سال گذشته پوشش داده بود.

در همین حال، دولت ایالات متحده در تلاش است تا از استفاده غیراخلاقی از فناوری صوتی هوش مصنوعی جلوگیری کند. ماه گذشته، کمیسیون ارتباطات فدرال، تماس های صوتی خودکار هوش مصنوعی را پس از دریافت تماس های اسپم از صدای شبیه سازی شده با هوش مصنوعی رئیس جمهور جو بایدن، ممنوع کرد.

طبق گفته OpenAI، شرکای آن با سیاست‌های استفاده موافقت کرده‌اند که می‌گویند از Voice Generation برای جعل هویت افراد یا سازمان‌ها بدون رضایت آنها استفاده نخواهند کرد. این شرایط همچنین شرکا را ملزم می کند که “رضایت صریح و آگاهانه” فرد اصلی را به دست آورند، نه اینکه راه هایی را برای کاربران عادی ایجاد کنند تا صدای خود را ایجاد کنند و به شنوندگان اطلاع دهند که صداها توسط هوش مصنوعی تولید شده است. OpenAI همچنین از واترمارک روی کلیپ های صوتی برای ردیابی منبع صداها استفاده می کند و به طور فعال نحوه استفاده از صدا را کنترل می کند.

OpenAI چندین گام را پیشنهاد کرد که معتقد است می‌تواند خطرات مرتبط با چنین ابزارهایی را محدود کند، از جمله حذف تدریجی احراز هویت مبتنی بر صدا برای دسترسی به حساب‌های بانکی، سیاست‌هایی برای محافظت از استفاده از صدای افراد در هوش مصنوعی، آموزش بیشتر در مورد Deepfakes هوش مصنوعی و توسعه مصنوعی. سیستم های ردیابی محتوای هوشمند