Gemini 1.5 Pro هوش مصنوعی گوگل منتشر شد

گوگل امروز از عرضه Gemini 1.5 Pro، جدیدترین عضو خانواده مدل‌های هوش مصنوعی خود خبر داد.

به گزارش تکنوک، گوگل مدل هوش مصنوعی Gemini 1.5 Pro را منتشر کرد. این مدل برای جایگزینی مستقیم برای Gemini 1.0 Pro طراحی شده است.

مدل فوق قبلاً به دلایلی که فقط برای تیم بازاریابی پیچیده گوگل شناخته شده بود، Gemini Pro 1.0 نامیده می شد. اکنون این مدل در چندین زمینه نسبت به مدل قبلی خود بهبود یافته است که شاید مهمترین آنها میزان داده هایی است که می تواند پردازش کند.

مدل Gemini 1.5 Pro AI می تواند حدود 700000 کلمه یا حدود 30000 خط کد را پردازش کند (35 برابر مدل Gemini 1.0 Pro). از آنجایی که این مدل چندوجهی است، به متن محدود نمی شود. Gemini 1.5 Pro می تواند تا 11 ساعت صدا یا 1 ساعت ویدیو به زبان های مختلف دریافت کند.

Gemini 1.5 Pro که امروزه در دسترس اکثر توسعه دهندگان و مشتریان است، تنها می تواند حدود 100000 کلمه را در یک زمان پردازش کند. گوگل Gemini 1.5 Pro با ورودی کلان داده را “تجربی” توصیف می کند و تنها به توسعه دهندگانی که به عنوان بخشی از پیش نمایش خصوصی تایید شده اند اجازه می دهد تا آن را از طریق ابزار توسعه GenAI AI Studio هدایت کنند. همچنین، چندین مشتری که از پلتفرم Vertex AI گوگل استفاده می کنند، به Gemini 1.5 Pro با ورودی کلان داده دسترسی دارند. اما همه آنها این دسترسی را ندارند.

میدان بزرگ

متن یا پنجره زمینه هر مدل به داده های ورودی (مانند متن) اشاره دارد که مدل قبل از تولید خروجی (مانند متن اضافی) در نظر می گیرد. یک سوال ساده مانند “چه کسی در انتخابات ریاست جمهوری 2020 آمریکا پیروز شد؟” را می توان به عنوان زمینه در نظر گرفت; مانند فیلمنامه یا ایمیل یا کتاب الکترونیکی.

مدل‌هایی که پنجره‌های زمینه کوچک دارند، محتوای مکالمات بسیار قدیمی را فراموش می‌کنند، که منجر به خارج شدن از موضوع می‌شود. این لزوما در مورد مدل هایی با میدان های بزرگ صدق نمی کند. به عنوان یک مزیت اضافی، مدل‌های زمینه بزرگ، حداقل از نظر تئوری، می‌توانند جریان داده‌هایی را که وارد می‌کنند، بهتر درک کنند و پاسخ‌هایی با زمینه غنی‌تر تولید کنند. تلاش‌ها و آزمایش‌های دیگری روی مدل‌هایی با پنجره‌های زمینه غیرعادی بزرگ انجام شده است.

استارتاپ هوش مصنوعی Magic تابستان گذشته ادعا کرد که یک مدل زبان بزرگ (LLM) با 5 میلیون توکن توسعه داده است. اخیراً، گروهی از دانشمندان متا و MIT و کارنگی ملون نیز تکنیکی را توسعه داده اند که به گفته آنها، محدودیت اندازه پنجره در زمینه مدل را کاملاً از بین می برد. با این حال، گوگل اولین شرکتی است که مدلی با چنین پنجره پس زمینه بزرگ را به صورت تجاری در دسترس قرار داده است. اگر پیش‌نمایش خصوصی را به عنوان یک تجارت در نظر بگیریم، آنتروپیک رهبر قبلی را با پنجره زمینه 200000 توکن شکست می‌دهد.

حداکثر پنجره پس‌زمینه Gemini 1.5 Pro 1 میلیون توکن است و نسخه گسترده‌تر آن، مشابه GPT-4 Turbo OpenAI، دارای یک پنجره پس‌زمینه 128000 توکن است. حال این سوال پیش می آید که با پنجره زمینه یک میلیون توکن چه می توان کرد؟ در پاسخ باید بگوییم که گوگل قول های زیادی می دهد; مانند تجزیه و تحلیل کل کتابخانه های کد، استدلال از طریق اسناد طولانی مانند قراردادها، انجام مکالمات طولانی با چت بات ها و تجزیه و مقایسه محتوای ویدیوها.

گوگل دو دموی از پیش ضبط شده Gemini 1.5 Pro را با پنجره زمینه ای از یک میلیون توکن فعال نشان داده است. در اولین مورد، بیننده از Gemini 1.5 Pro خواست تا متن 402 صفحه ای سخنرانی آپولو 11 در ماه فرود را برای نقل قول های حاوی جوک جستجو کند و سپس صحنه ای را در پخش پیدا کند که شبیه طرح مدادی است. در مورد دوم، نمایشنامه به مدل گفت که با استفاده از توضیحات و طرحی متفاوت، صحنه‌های فیلم شرلوک جونیور، فیلم باستر کیتون را جستجو کند.

Gemini 1.5 Pro با موفقیت تمام وظایف مورد نیاز را انجام داد. اما نه به سرعت. پردازش هر کدام بین 20 تا 60 ثانیه طول می کشد، بسیار بیشتر از مثلاً میانگین پرس و جو ChatGPT.

سایر پیشرفت ها

علاوه بر پنجره میدان گسترده تر، Gemini 1.5 Pro پیشرفت های دیگری را برای سهولت استفاده ارائه می دهد. گوگل مدعی است که کیفیت Gemini 1.5 Pro به لطف معماری جدیدی که از مدل های تخصصی کوچکتر و تخصصی تشکیل شده است، با Gemini Ultra فعلی، مدل پرچمدار GenAI گوگل قابل مقایسه است. Gemini 1.5 Pro ابتدا وظایف را به چند کار کوچک تقسیم می کند و سپس بر اساس پیش بینی های خود آنها را به مدل های متخصص مناسب واگذار می کند.

وزارت دفاع جدید نیست و سالها به اشکال مختلف وجود داشته است. اما کارایی و انعطاف پذیری آن، آن را به گزینه ای محبوب در میان فروشندگان مدل تبدیل کرده است.

حال، «کیفیت قابل مقایسه» کمی توصیف کننده مبهم است. اندازه گیری کیفیت در مدل های GenAI، به ویژه مدل های چندوجهی، دشوار است. به خصوص زمانی که مدل‌ها پشت پیش‌نمایش‌های خصوصی که مطبوعات را حذف می‌کنند، پنهان می‌شوند. گوگل ادعا می کند که Gemini 1.5 Pro در معیارهایی که شرکت برای توسعه LLM از آن استفاده می کند، به طور گسترده در همان سطح نسخه Ultra عمل می کند. در حالی که در 87 درصد از این معیارها از Gemini 1.0 Pro بهتر عمل می کند.

مسئله قیمت گذاری

به گفته گوگل، در نسخه ی نمایشی خصوصی Gemini 1.5 Pro به صورت رایگان با 1 میلیون توکن در دسترس خواهد بود. با این حال، این شرکت قصد دارد به زودی سطوح قیمت گذاری را ارائه دهد که از 128000 توکن در پنجره زمینه استاندارد شروع می شود و تا 1 میلیون توکن می رسد.

پنجره‌های زمینه بزرگ‌تر احتمالاً با قیمت ارزان‌تری عرضه نمی‌شوند، و گوگل با انتخاب نکردن قیمت‌ها در جلسه توجیهی، نگرانی‌ها را برطرف نکرد. اگر قیمت گذاری مشابه آنتروپیک باشد، هزینه ممکن است 8 دلار به ازای هر 1 میلیون توکن فرمان و 24 دلار برای هر 1 میلیون توکن تولیدی باشد. اما ممکن است قیمت کمتر باشد.

پست Google Artificial Intelligence Gemini 1.5 Pro اولین بار در Tech Knock – اخبار دنیای فناوری منتشر شد. ظاهر شد.