هوش مصنوعی مولد متن به ویدیو هیگزفیلد برای رقابت با مدل هوش مصنوعی تولید ویدیوی سورا OpenAI راه اندازی شد.
به گزارش TechNock، رئیس سابق هوش مصنوعی مولد اسنپ، الکس مشربوف، پلتفرم ایجاد و ویرایش ویدیو با هوش مصنوعی Higgsfield را راه اندازی کرده است تا با مدل هوش مصنوعی Sora تولید ویدیو OpenAI رقابت کند. هیگزفیلد از مدل تبدیل متن به ویدیو برای تولید ویدیوهای شخصیسازی شده استفاده میکند و هدف آن ایجاد محتوای جذاب برای همه انواع کاربران، از کاربران معمولی تا بازاریابان رسانههای اجتماعی است.
این پلتفرم به کاربران این امکان را میدهد که مستقیماً خود را در صحنههای ایجاد شده توسط هوش مصنوعی قرار دهند یا حرکات ضبط شده در ویدیوهای دیگر را تقلید کنند.
شرکت OpenAI چند ماه پیش با مدل هوش مصنوعی مولد خود یعنی Sora که توضیحات متن را بدون نیاز به دوربین یا گروه فیلمبرداری به ویدیو تبدیل می کند، دنیای فناوری را مجذوب خود کرد. با این حال، سورا تاکنون بسیار محدود بوده است و به نظر میرسد که این شرکت آن را به سمت خلاقان بودجهدار مانند کارگردانان هالیوود، نه لزوماً علاقهمندان یا بازاریابهای خردهفروشی، هدف قرار داده است.
الکساندر مشربوف از این فرصت استفاده کرد و به شرکت پیوست هوش مصنوعی هیگزفیلد راه اندازی شد اولین اپلیکیشن این شرکت به نام Diffuse که از مدل اختصاصی تبدیل متن به ویدئو استفاده می کند، می تواند از ابتدا فیلم بسازد یا از یک تصویر سلفی برای تولید یک کلیپ با نقش آن شخص استفاده کند.
هیگزفیلد مجموعه ای از کلیپ های از پیش ساخته شده، ابزاری برای آپلود منابع مرجع (مانند تصاویر و ویدئوها) و یک ویرایشگر مبتنی بر خط فرمان را ارائه می دهد که به کاربران امکان می دهد شخصیت ها، رفتارها و صحنه هایی را که می خواهند به تصویر بکشند، توصیف کنند.
با Diffuse، کاربران میتوانند مستقیماً خود را در صحنهای که با هوش مصنوعی تولید میشود وارد کنند یا شبیهسازی دیجیتالی خود را به انجام کارهایی مانند حرکات موزون که در ویدیوهای دیگر ضبط شدهاند، وادار کنند.
هیگزفیلد تنها استارت آپ تولید ویدئو مبتنی بر متن نیست که به دنبال رقابت با OpenAI است. Runway یکی از اولین شرکت ها در این زمینه بود و ابزارهای آن هنوز در حال پیشرفت هستند. مشربوف معتقد است که Diffuse به لطف استراتژی و رویکرد اجتماعی خود برای ورود به بازار از طریق تلفن همراه برجسته خواهد شد. او می گوید:
با اولویتبندی برنامههای iOS و Android بر گردشهای کاری دسکتاپ، به سازندگان کمک میکنیم محتوای رسانههای اجتماعی جذاب را در هر زمان و هر مکان ایجاد کنند. در واقع با تکیه بر موبایل می توانیم از همان روز اول بر سهولت استفاده و ویژگی های کاربرپسند تمرکز کنیم.
هیگزفیلد نیز با حداقل امکانات کار می کند. مشربوف میگوید که مدلهای مولد زیربنای این پلتفرم توسط تیمی متشکل از 16 نفر در کمتر از 9 ماه توسعه داده شد و بر روی مجموعهای از 32 پردازنده گرافیکی آموزش دیدند. ممکن است 32 پردازنده گرافیکی زیاد به نظر برسد. اما با توجه به اینکه OpenAI از ده ها هزار پردازنده استفاده می کند، واقعاً زیاد نیست.
هیگزفیلد تا به امروز فقط 8 میلیون دلار جمع آوری کرده است که بیشتر آن از یک رویداد سرمایه گذاری اولیه به رهبری Menlo Ventures به دست آمده است. برای اینکه یک قدم جلوتر از رقابت باقی بماند، این شرکت قصد دارد از سرمایه اولیه برای ساخت یک ویرایشگر ویدیوی بهبودیافته استفاده کند که به کاربران اجازه می دهد کاراکترها و اشیاء را در ویدیوها ویرایش کنند.
همچنین، این شرکت میخواهد به طور خاص از رسانههای اجتماعی برای آموزش مدلهای قدرتمندتر تولید ویدیو استفاده کند. در واقع، مشربوف رسانه های اجتماعی و بازاریابی رسانه های اجتماعی را به عنوان جایگاه اصلی درآمدزایی هیگزفیلد می بیند.
در حال حاضر، Diffuse رایگان است. اما مشربوف آیندهای را متصور است که در آن بازاریابان برای دسترسی به ویژگیهای ممتاز ابزار، هزینه اشتراک پرداخت میکنند. ناگفته نماند که هیگزفیلد نیز از مشکلات گسترده ای که استارت آپ های مولد هوش مصنوعی با آن مواجه هستند مصون نیست.
مشربوف از افشای منبع داده های آموزشی هیگزفیلد خودداری کرد. به جز اینکه گفته شده از مکان های “چندین عمومی” به دست آمده است. همچنین، او اشاره ای نکرد که آیا هیگزفیلد داده های کاربر را برای آموزش مدل های آینده حفظ خواهد کرد یا خیر. این ممکن است با سیاست های برخی از مشتریان تجاری مطابقت نداشته باشد. وی خاطرنشان کرد: کاربران پراکنده می توانند در هر زمان از طریق برنامه درخواست حذف داده های خود را داشته باشند.
همانطور که انتشار گسترده دیپ فیک در رسانه های اجتماعی در ماه های اخیر نشان داده است، پلتفرم های “شبیه سازی” دیجیتال مانند هیگزفیلد مستعد سوء استفاده هستند. بر این اساس، هیگزفیلد میتواند سرقت محتوای سازندگان را آسانتر کند. به عنوان مثال، فقط یک ویدیو از کسی که در حال رقصیدن است آپلود کنید تا ویدیویی از خودتان در حال اجرای همان رقص ایجاد کنید.
مشربوف در پاسخ به این سوال که «هیگزفیلد برای جلوگیری از سوء استفاده های احتمالی چه اقداماتی انجام داده است؟» تنها به این نکته اشاره کرد که پلتفرم مذکور از ترکیب تنظیم خودکار و دستی استفاده می کند. مشربوف افزود:
تصمیم داریم محصول را به تدریج عرضه کنیم و ابتدا در بازارهای منتخب آزمایش کنیم تا بتوانیم سوء استفاده های احتمالی را کنترل کرده و در صورت لزوم محصول را تکامل دهیم.
گفتگو در مورد این post