پردازش صدا بدون نیاز به متن دستاورد جدید Gemini 1.5 Pro

گوگل از مدل Gemini 1.5 Pro با قابلیت پردازش صدا رونمایی کرد. این مدل می تواند بدون نیاز به متن جاسازی شده به فایل های صوتی آپلود شده گوش دهد و اطلاعات تماس ها یا صوتی تصویری را استخراج کند.

گوگل در رویداد Google Next اعلام کرد که Gemini 1.5 Pro را برای اولین بار از طریق پلتفرم ساخت اپلیکیشن های هوش مصنوعی خود یعنی Vertex AI در دسترس عموم قرار می دهد.

Gemini 1.5 Pro اولین بار در ماه فوریه معرفی شد. این نسخه جدید جمنا پرو که قرار است مدل میان رده خانواده جمنا باشد، از نظر عملکرد حتی از بزرگترین و قدرتمندترین مدل جمنا اولترا نیز پیشی می گیرد.

گوگل ادعا می کند که Gemini 1.5 Pro می تواند دستورالعمل های پیچیده را درک کند و نیازی به تنظیم دقیق مدل ها را از بین ببرد. بر اساس این گزارش لبهGemini 1.5 Pro برای افرادی که به Vertex AI دسترسی ندارند در دسترس نیست. در حال حاضر اکثر افراد مدل های زبان جمنای را از طریق چت بات جمنای تجربه می کنند. Gemini Ultra چت بات پیشرفته Gemini را ارائه می دهد و در حالی که قدرتمند است و می تواند دستورات طولانی را درک کند، به سرعت Gemini 1.5 Pro نیست.

Gemini 1.5 Pro تنها مدل بزرگ هوش مصنوعی گوگل نیست که به‌روزرسانی می‌شود. Imagen 2، مدل تولیدکننده متن به تصویر که از قابلیت‌های تولید تصویر Jamnai پشتیبانی می‌کند، همچنین قابلیت‌های Inpainting و Outpainting را اضافه می‌کند که به کاربران اجازه می‌دهد عناصر را از تصاویر اضافه یا حذف کنند.

گوگل همچنین قابلیت واترمارک دیجیتال SynthID خود را در تمام تصاویر ایجاد شده با الگوهای Imagen در دسترس قرار داد. SynthID یک واترمارک نامرئی برای بیننده به تصاویر اضافه می کند که منشاء آن را هنگام مشاهده از طریق یک ابزار تشخیص شناسایی می کند.

بسیاری از ویژگی‌های جدید Imagen، به‌ویژه قابلیت‌های Inpainting و Outpainting، قبلاً در سایر مدل‌های تولید تصویر از متن، مانند Stability AI's Stable Cascade و Isatok's Generative AI در گوشی‌های جدید سامسونگ گلکسی دیده شده‌اند.