OpenAI اعلام کرد که دسترسی محدودی به پلتفرم تبدیل متن به گفتار به نام Voice Engine ارائه می دهد.
به گزارش تکناک، این پلتفرم می تواند با استفاده از یک کلیپ 15 ثانیه ای از صدای یک فرد، صدای مصنوعی ایجاد کند. صدای تولید شده توسط هوش مصنوعی قادر است متون را به همان زبانی که شخص ضبط شده یا به زبان های دیگر بر اساس دستورات بخواند.
OpenAI در یک پست وبلاگی گفت: “این استقرارهای محدود به ما کمک می کند تا رویکرد، تضمین ها و تفکر خود را در مورد چگونگی استفاده از موتور صوتی برای همه صنایع بهبود بخشیم.”
لبه این گزارش میگوید که شرکتهایی که به این فناوری دسترسی دارند شامل شرکت فناوری آموزشی عصر یااری، پلتفرم داستانگویی بصری HeyGen، سازنده نرمافزار سلامت خط مقدم Dimagi، سازنده اپلیکیشن ارتباط هوش مصنوعی Livox و سیستم سلامت Lifespan هستند. هستند.
در مثالهای ارائهشده توسط OpenAI، میتوانید بشنوید که چگونه «عصر یادگیری» از این فناوری برای تولید محتوای از پیش نوشتهشده برای صداگذاری و همچنین خواندن «پاسخهای شخصیشده در لحظه» برای دانشآموزان نوشته شده توسط GPT-4 استفاده میکند.
ابتدا فایل صوتی مرجع به زبان انگلیسی:
صدا 1
و در اینجا سه کلیپ صوتی تولید شده توسط هوش مصنوعی بر اساس آن مثال آورده شده است.
OpenAI اعلام کرد که توسعه موتور صوتی را در اواخر سال 2022 آغاز خواهد کرد و این فناوری در حال حاضر برای صداهای از پیش تعریف شده در API تبدیل متن به گفتار و ویژگی “خواندن با صدای بلند” در ChatGPT استفاده می شود. جف هریس، یکی از اعضای تیم محصول OpenAI برای Voice Engine، در مصاحبه ای با TechCrunch گفت که این مدل بر روی یک مجموعه داده مجوزدار و در دسترس عموم آموزش داده شده است. OpenAI به نشریه گفت که این مدل تنها برای حدود 10 توسعه دهنده در دسترس خواهد بود.
تولید متن به گفتار مبتنی بر هوش مصنوعی حوزه ای از هوش مصنوعی است که به تکامل خود ادامه می دهد. در حالی که بیشتر آنها بر روی تولید صدا یا صداهای طبیعی تمرکز می کنند، کمتر بر تولید صدا تمرکز می کنند. برخی از نامهای فعال در این زمینه شامل شرکتهایی مانند Podcastle و ElevenLabs میشوند که فناوری شبیهسازی صدای هوش مصنوعی و ابزارهایی را ارائه میکنند که Vergecast سال گذشته پوشش داده بود.
در همین حال، دولت ایالات متحده در تلاش است تا از استفاده غیراخلاقی از فناوری صوتی هوش مصنوعی جلوگیری کند. ماه گذشته، کمیسیون ارتباطات فدرال، تماس های صوتی خودکار هوش مصنوعی را پس از دریافت تماس های اسپم از صدای شبیه سازی شده با هوش مصنوعی رئیس جمهور جو بایدن، ممنوع کرد.
طبق گفته OpenAI، شرکای آن با سیاستهای استفاده موافقت کردهاند که میگویند از Voice Generation برای جعل هویت افراد یا سازمانها بدون رضایت آنها استفاده نخواهند کرد. این شرایط همچنین شرکا را ملزم می کند که “رضایت صریح و آگاهانه” فرد اصلی را به دست آورند، نه اینکه راه هایی را برای کاربران عادی ایجاد کنند تا صدای خود را ایجاد کنند و به شنوندگان اطلاع دهند که صداها توسط هوش مصنوعی تولید شده است. OpenAI همچنین از واترمارک روی کلیپ های صوتی برای ردیابی منبع صداها استفاده می کند و به طور فعال نحوه استفاده از صدا را کنترل می کند.
OpenAI چندین گام را پیشنهاد کرد که معتقد است میتواند خطرات مرتبط با چنین ابزارهایی را محدود کند، از جمله حذف تدریجی احراز هویت مبتنی بر صدا برای دسترسی به حسابهای بانکی، سیاستهایی برای محافظت از استفاده از صدای افراد در هوش مصنوعی، آموزش بیشتر در مورد Deepfakes هوش مصنوعی و توسعه مصنوعی. سیستم های ردیابی محتوای هوشمند
گفتگو در مورد این post