گوگل مدل هوش مصنوعی تولید کننده تصویر Imagen 2 را منتشر کرد

گوگل در حال افزایش دسترسی کاربران به مدل هوش مصنوعی Imagen 2 است. این دسترسی محدود به مشتریان Google Cloud است که از Vertex AI استفاده می کنند و برای دسترسی تأیید شده اند.

گزارش کردن تنها و به نقل از تک کرانچمدل هوش مصنوعی تولید کننده تصویر Imagen 2 گوگل منتشر شد. این شرکت اطلاعاتی در مورد داده های مورد استفاده برای آموزش این مدل جدید فاش نمی کند. همچنین برای سازندگان محتوا که ممکن است ناآگاهانه در مجموعه داده مشارکت داشته باشند، راهی برای انصراف یا درخواست غرامت ارائه نمی دهد.

Imagen 2، نسخه پیشرفته تر گوگل، در کنفرانس I/O این شرکت در ماه مه 2023 پیش نمایش شد. این مدل هوش مصنوعی تولید کننده تصویر با استفاده از فناوری های Google DeepMind، آزمایشگاه پیشرو هوش مصنوعی Mountain View، توسعه یافته است. در مقایسه با نسل اول Imagen، گوگل ادعا می کند که کیفیت تصویر به طور قابل توجهی بهبود یافته است.

توماس کوریان، مدیرعامل Google Cloud در یک کنفرانس مطبوعاتی اعلام کرد که با استفاده از Imagen 2، کاربران می توانند تصاویر تبلیغاتی با متن روی آنها ایجاد کنند. Imagen 2 با قابلیت تولید متن و لوگو در ردیف دیگر مدل های تولید کننده تصویر پیشرو مانند DALL-E 3 از OpenAI و Titan Image Generator از آمازون قرار گرفته است.

دو مورد از ویژگی های برجسته ایمیجن 2 توانایی ارائه متن به چندین زبان (از جمله چینی، هندی، ژاپنی، کره ای، پرتغالی، انگلیسی و اسپانیایی)، با برنامه ریزی برای افزودن زبان های بیشتر در سال 2024، و تعبیه لوگو در تصاویر موجود

ویشی تیرمالشتی، رئیس محصولات رسانه خلاق در گوگل، در پست وبلاگ توضیح داد که Imagen 2 می تواند لوگوها و لوگوهای انتزاعی تولید کند و این آرم ها را روی محصولات، پوشاک، کارت ویزیت و سطوح دیگر قرار دهد.

به لطف «تکنیک‌های ابتکاری مدل‌سازی و آموزش»، Imagen 2 می‌تواند پرس و جوهای طولانی توصیفی را بهتر درک کند و به سؤالات مربوط به عناصر موجود در تصویر «پاسخ‌های دقیق» ارائه دهد. این تکنیک‌ها همچنین به بهبود درک چند زبانه Imagen 2 کمک می‌کنند و به آن اجازه می‌دهند درخواستی را به یک زبان با خروجی مانند لوگو به زبان دیگر ترجمه کند.

Imagen 2 که با استفاده از روش SynthID توسعه یافته Deepmind ایجاد شده است، شامل واترمارک های نامرئی است. این واترمارک ها با روش های پیشرفته ای ایجاد می شوند که در برابر ویرایش تصویر مانند فشرده سازی و استفاده از فیلتر و تغییر رنگ بسیار مقاوم هستند.

با این حال، تشخیص این واترمارک ها که گوگل ادعا می کند مقاوم هستند، تنها با استفاده از ابزار خاصی که توسط این شرکت ارائه شده و در دسترس عموم نیست، امکان پذیر است. در حالی که سیاستگذاران در مورد افزایش میزان اطلاعات نادرست تولید شده توسط هوش مصنوعی در وب نگرانی دارند، این فناوری ممکن است به کاهش برخی از این ترس ها کمک کند.

گوگل جزئیات داده های آموزشی مورد استفاده برای توسعه Imagen 2 را فاش نکرده است. این موضوع اگرچه ناامید کننده است، اما غیرمنتظره نیست. اینکه آیا شرکت‌های بزرگ هوش مصنوعی مانند گوگل می‌توانند مدلی را با استفاده از داده‌های عمومی (حتی داده‌های دارای حق چاپ) آموزش دهند و سپس آن را به صورت تجاری بفروشند، یک مسئله حقوقی مبهم باقی می‌ماند.

این موضوع در دادگاه ها با استدلال هایی در حمایت از دکترین استفاده منصفانه مورد بحث قرار می گیرد. اما به نظر می رسد تعیین وضعیت نهایی آن مدتی طول بکشد. در همین حال، گوگل با سکوت در مورد جزئیات داده های استفاده شده در Imagen 2 از خود محافظت می کند. این رویکرد با استراتژی اتخاذ شده برای نسل اول Imagen متفاوت است، جایی که گوگل گفت از مجموعه داده عمومی LAION برای آموزش مدل خود استفاده کرده است.

LAION قطعا بهترین تصویر برای Google نیست زیرا حاوی محتوای حساس و مشکل ساز است (مانند تصاویر پزشکی خصوصی، آثار هنری دارای حق چاپ و تصاویر مستهجن ویرایش شده از افراد مشهور).

شرکت های فعال در زمینه توسعه مولدهای تصویر مبتنی بر هوش مصنوعی رویکردهای متفاوتی نسبت به حقوق تولیدکنندگان محتوا دارند. شرکت هایی مانند Stability AI و اخیراً OpenAI به سازندگان اجازه می دهند در صورت تمایل از مجموعه داده های آموزشی خود صرف نظر کنند. در مقابل، شرکت هایی مانند Adobe و Getty Images در حال توسعه برنامه هایی برای جبران خسارت سازندگان هستند. با این حال، این برنامه ها ممکن است همیشه شفاف و کافی نباشند.

در همین حال، گوگل و چندین رقیب اصلی آن، مانند آمازون، مکانیزمی برای خروج یا جبران خسارت به سازندگان محتوا ارائه نمی دهند. به نظر نمی رسد این وضعیت در آینده نزدیک تغییر کند. در عوض، Google خط‌مشی را حفظ می‌کند که از مشتریان واجد شرایط Vertex AI در برابر ادعاهای حق نسخه‌برداری مربوط به استفاده از داده‌ها و خروجی‌های آموزشی Imagen 2 محافظت می‌کند.

یکی از دغدغه های اصلی در این زمینه پدیده تولید مثل است. یعنی زمانی که مدل تولیدی نمونه های آموزشی را با دقت کپی می کند. این موضوع باعث نگرانی مشتریان تجاری و توسعه دهندگان شده است. مطالعات آکادمیک نشان داده است که نسل اول Imagen از این پدیده مصون نیست و گاهی اوقات تصاویر قابل شناسایی از افراد واقعی و آثار هنری دارای حق چاپ و سایر اطلاعات را در پاسخ به درخواست های خاص تولید کرده است.

در نظرسنجی اخیر آکرولینکس از 500 شرکت فورچون، تقریباً یک سوم شرکت ها اظهار داشتند که مالکیت معنوی یکی از دغدغه های اصلی آنها برای استفاده از هوش مصنوعی مولد است. همچنین، یک نظرسنجی دیگر نشان داد که از هر 10 توسعه‌دهنده 9 نفر در تصمیم خود برای استفاده از هوش مصنوعی، حفاظت از مالکیت معنوی را بسیار در نظر می‌گیرند.

گوگل امیدوار است با سیاست جدید خود این نگرانی ها را برطرف کند. شرایط جدید جبران خسارت گوگل، که قبلاً خروجی های Imagen را پوشش نمی داد، اکنون به نظر می رسد که این موضوع را مورد توجه قرار داده است. با این حال به نظر می رسد در این دوره سازندگان اقبال کمتری داشته باشند و کمتر به دغدغه های آنها توجه شود. این موضوع نشان دهنده مشکلات پیش رو در برقراری تعادل بین نوآوری در هوش مصنوعی و حفظ حقوق مالکیت معنوی است.

پست گوگل مدل هوش مصنوعی Imagen 2 را منتشر کرد اولین بار در TechNock – اخبار دنیای فناوری پدیدار شد. ظاهر شد.