متا از راه اندازی Voicebox، مدل جدید هوش مصنوعی خود برای تولید و ویرایش صدا خبر داد.
گزارش کردن تکناک، جعبه صدا این برنامه که پس از ImageBind معرفی شد، به سازندگان با توانایی انجام وظایف تولید گفتار مانند ویرایش صدا، نمونهبرداری و استایلسازی کمک میکند، حتی اگر به طور خاص برای انجام این وظایف از طریق یادگیری در محیط هدف آموزش ندیده باشند.
متا برای این مدل هوش مصنوعی جدید خود تبلیغی استراتژیک راه اندازی کرده است که مزایای آن را به بسیاری از مردم در سراسر جهان نشان می دهد. به عنوان مثال، این شرکت با استفاده از این مدل، نابینایان را قادر می سازد تا پیامک های دوستان خود را با صدای خود بشنوند و همچنین به افراد اجازه می دهد با صدای خود به زبان های خارجی صحبت کنند.
این مدل هوش مصنوعی قادر به تولید کلیپ های صوتی با کیفیت بالا و ویرایش صدای از پیش ضبط شده برای حذف حواس پرتی های ناخواسته مانند بوق ماشین است و در عین حال محتوا و سبک صدا را حفظ می کند. همچنین این مدل قابلیت تولید گفتار به شش زبان را دارد. پیشرفتهای آینده این مدل شامل دادن صداهای طبیعی به دستیاران بصری یا شخصیتهای غیربازیکن در بازیهای متاورس است.
همچنین سایر متا مدلهای هوش مصنوعی صوتی موجود را با Voicebox مقایسه کرده است. این شرکت به طور خاص از مدلهای Vall-E و YourTTS به عنوان رقیب یاد کرده و نشان داده است که Voicebox به مراتب پیشرفتهتر است و در مقایسه با این دو مدل، با کاهش میزان خطای واژگان و تشابه سبک، عملکرد بهتری نسبت به آنها دارد. .
Voicebox بر اساس مدل Flow Matching است که آخرین مدل متا ژنراتور غیر خودکار است. این مدل قادر است الگوهای بین متن و گفتار را به روشی بسیار غیر متقاطع بیاموزد و به Voicebox اجازه میدهد تا از دادههای گفتاری متنوع و در مقیاس بزرگ بدون نیاز به برچسبگذاری دقیق بیاموزد.
Voicebox تاکنون با استفاده از بیش از 50000 ساعت ترجمه ضبط شده گفتار و متن از کتاب های صوتی به زبان های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی آموزش دیده است و همچنین قادر به ارائه گفتار و متن است. برای پیش بینی گفتار
در نهایت، متا اشاره میکند که اگرچه این فناوری میتواند عصر جدیدی از هوش مصنوعی مولد برای گفتار را آغاز کند، ممکن است پتانسیل سوء استفاده و آسیب غیرقابل تصور را داشته باشد.
در یک مقاله تحقیقاتی که متا در مورد Voicebox منتشر خواهد کرد، جزئیات نحوه ساخت یک طبقهبندی کننده بسیار مؤثر که میتواند بین گفتار واقعی و گفتار تولید شده توسط Voicebox تفاوت قائل شود، توضیح داده خواهد شد.
متا برنامه هوش مصنوعی را برای استفاده عمومی در دسترس قرار نمی دهد و کد منبع را نیز منتشر نمی کند.
متانویسی با Voicebox دنیای ویرایش صدا را متحول می کند اولین بار در Oneknock – اخبار دنیای فناوری ظاهر شد. ظاهر شد.
گفتگو در مورد این post