گوگل از مدل Gemini 1.5 Pro با قابلیت پردازش صدا رونمایی کرد. این مدل می تواند بدون نیاز به متن جاسازی شده به فایل های صوتی آپلود شده گوش دهد و اطلاعات تماس ها یا صوتی تصویری را استخراج کند.
گوگل در رویداد Google Next اعلام کرد که Gemini 1.5 Pro را برای اولین بار از طریق پلتفرم ساخت اپلیکیشن های هوش مصنوعی خود یعنی Vertex AI در دسترس عموم قرار می دهد.
Gemini 1.5 Pro اولین بار در ماه فوریه معرفی شد. این نسخه جدید جمنا پرو که قرار است مدل میان رده خانواده جمنا باشد، از نظر عملکرد حتی از بزرگترین و قدرتمندترین مدل جمنا اولترا نیز پیشی می گیرد.
گوگل ادعا می کند که Gemini 1.5 Pro می تواند دستورالعمل های پیچیده را درک کند و نیازی به تنظیم دقیق مدل ها را از بین ببرد. بر اساس این گزارش لبهGemini 1.5 Pro برای افرادی که به Vertex AI دسترسی ندارند در دسترس نیست. در حال حاضر اکثر افراد مدل های زبان جمنای را از طریق چت بات جمنای تجربه می کنند. Gemini Ultra چت بات پیشرفته Gemini را ارائه می دهد و در حالی که قدرتمند است و می تواند دستورات طولانی را درک کند، به سرعت Gemini 1.5 Pro نیست.
Gemini 1.5 Pro تنها مدل بزرگ هوش مصنوعی گوگل نیست که بهروزرسانی میشود. Imagen 2، مدل تولیدکننده متن به تصویر که از قابلیتهای تولید تصویر Jamnai پشتیبانی میکند، همچنین قابلیتهای Inpainting و Outpainting را اضافه میکند که به کاربران اجازه میدهد عناصر را از تصاویر اضافه یا حذف کنند.
گوگل همچنین قابلیت واترمارک دیجیتال SynthID خود را در تمام تصاویر ایجاد شده با الگوهای Imagen در دسترس قرار داد. SynthID یک واترمارک نامرئی برای بیننده به تصاویر اضافه می کند که منشاء آن را هنگام مشاهده از طریق یک ابزار تشخیص شناسایی می کند.
بسیاری از ویژگیهای جدید Imagen، بهویژه قابلیتهای Inpainting و Outpainting، قبلاً در سایر مدلهای تولید تصویر از متن، مانند Stability AI's Stable Cascade و Isatok's Generative AI در گوشیهای جدید سامسونگ گلکسی دیده شدهاند.
گفتگو در مورد این post