گوگل امروز از عرضه Gemini 1.5 Pro، جدیدترین عضو خانواده مدلهای هوش مصنوعی خود خبر داد.
به گزارش تکنوک، گوگل مدل هوش مصنوعی Gemini 1.5 Pro را منتشر کرد. این مدل برای جایگزینی مستقیم برای Gemini 1.0 Pro طراحی شده است.
مدل فوق قبلاً به دلایلی که فقط برای تیم بازاریابی پیچیده گوگل شناخته شده بود، Gemini Pro 1.0 نامیده می شد. اکنون این مدل در چندین زمینه نسبت به مدل قبلی خود بهبود یافته است که شاید مهمترین آنها میزان داده هایی است که می تواند پردازش کند.
مدل Gemini 1.5 Pro AI می تواند حدود 700000 کلمه یا حدود 30000 خط کد را پردازش کند (35 برابر مدل Gemini 1.0 Pro). از آنجایی که این مدل چندوجهی است، به متن محدود نمی شود. Gemini 1.5 Pro می تواند تا 11 ساعت صدا یا 1 ساعت ویدیو به زبان های مختلف دریافت کند.
Gemini 1.5 Pro که امروزه در دسترس اکثر توسعه دهندگان و مشتریان است، تنها می تواند حدود 100000 کلمه را در یک زمان پردازش کند. گوگل Gemini 1.5 Pro با ورودی کلان داده را “تجربی” توصیف می کند و تنها به توسعه دهندگانی که به عنوان بخشی از پیش نمایش خصوصی تایید شده اند اجازه می دهد تا آن را از طریق ابزار توسعه GenAI AI Studio هدایت کنند. همچنین، چندین مشتری که از پلتفرم Vertex AI گوگل استفاده می کنند، به Gemini 1.5 Pro با ورودی کلان داده دسترسی دارند. اما همه آنها این دسترسی را ندارند.
میدان بزرگ
متن یا پنجره زمینه هر مدل به داده های ورودی (مانند متن) اشاره دارد که مدل قبل از تولید خروجی (مانند متن اضافی) در نظر می گیرد. یک سوال ساده مانند “چه کسی در انتخابات ریاست جمهوری 2020 آمریکا پیروز شد؟” را می توان به عنوان زمینه در نظر گرفت; مانند فیلمنامه یا ایمیل یا کتاب الکترونیکی.
مدلهایی که پنجرههای زمینه کوچک دارند، محتوای مکالمات بسیار قدیمی را فراموش میکنند، که منجر به خارج شدن از موضوع میشود. این لزوما در مورد مدل هایی با میدان های بزرگ صدق نمی کند. به عنوان یک مزیت اضافی، مدلهای زمینه بزرگ، حداقل از نظر تئوری، میتوانند جریان دادههایی را که وارد میکنند، بهتر درک کنند و پاسخهایی با زمینه غنیتر تولید کنند. تلاشها و آزمایشهای دیگری روی مدلهایی با پنجرههای زمینه غیرعادی بزرگ انجام شده است.
استارتاپ هوش مصنوعی Magic تابستان گذشته ادعا کرد که یک مدل زبان بزرگ (LLM) با 5 میلیون توکن توسعه داده است. اخیراً، گروهی از دانشمندان متا و MIT و کارنگی ملون نیز تکنیکی را توسعه داده اند که به گفته آنها، محدودیت اندازه پنجره در زمینه مدل را کاملاً از بین می برد. با این حال، گوگل اولین شرکتی است که مدلی با چنین پنجره پس زمینه بزرگ را به صورت تجاری در دسترس قرار داده است. اگر پیشنمایش خصوصی را به عنوان یک تجارت در نظر بگیریم، آنتروپیک رهبر قبلی را با پنجره زمینه 200000 توکن شکست میدهد.
حداکثر پنجره پسزمینه Gemini 1.5 Pro 1 میلیون توکن است و نسخه گستردهتر آن، مشابه GPT-4 Turbo OpenAI، دارای یک پنجره پسزمینه 128000 توکن است. حال این سوال پیش می آید که با پنجره زمینه یک میلیون توکن چه می توان کرد؟ در پاسخ باید بگوییم که گوگل قول های زیادی می دهد; مانند تجزیه و تحلیل کل کتابخانه های کد، استدلال از طریق اسناد طولانی مانند قراردادها، انجام مکالمات طولانی با چت بات ها و تجزیه و مقایسه محتوای ویدیوها.
گوگل دو دموی از پیش ضبط شده Gemini 1.5 Pro را با پنجره زمینه ای از یک میلیون توکن فعال نشان داده است. در اولین مورد، بیننده از Gemini 1.5 Pro خواست تا متن 402 صفحه ای سخنرانی آپولو 11 در ماه فرود را برای نقل قول های حاوی جوک جستجو کند و سپس صحنه ای را در پخش پیدا کند که شبیه طرح مدادی است. در مورد دوم، نمایشنامه به مدل گفت که با استفاده از توضیحات و طرحی متفاوت، صحنههای فیلم شرلوک جونیور، فیلم باستر کیتون را جستجو کند.
Gemini 1.5 Pro با موفقیت تمام وظایف مورد نیاز را انجام داد. اما نه به سرعت. پردازش هر کدام بین 20 تا 60 ثانیه طول می کشد، بسیار بیشتر از مثلاً میانگین پرس و جو ChatGPT.
سایر پیشرفت ها
علاوه بر پنجره میدان گسترده تر، Gemini 1.5 Pro پیشرفت های دیگری را برای سهولت استفاده ارائه می دهد. گوگل مدعی است که کیفیت Gemini 1.5 Pro به لطف معماری جدیدی که از مدل های تخصصی کوچکتر و تخصصی تشکیل شده است، با Gemini Ultra فعلی، مدل پرچمدار GenAI گوگل قابل مقایسه است. Gemini 1.5 Pro ابتدا وظایف را به چند کار کوچک تقسیم می کند و سپس بر اساس پیش بینی های خود آنها را به مدل های متخصص مناسب واگذار می کند.
وزارت دفاع جدید نیست و سالها به اشکال مختلف وجود داشته است. اما کارایی و انعطاف پذیری آن، آن را به گزینه ای محبوب در میان فروشندگان مدل تبدیل کرده است.
حال، «کیفیت قابل مقایسه» کمی توصیف کننده مبهم است. اندازه گیری کیفیت در مدل های GenAI، به ویژه مدل های چندوجهی، دشوار است. به خصوص زمانی که مدلها پشت پیشنمایشهای خصوصی که مطبوعات را حذف میکنند، پنهان میشوند. گوگل ادعا می کند که Gemini 1.5 Pro در معیارهایی که شرکت برای توسعه LLM از آن استفاده می کند، به طور گسترده در همان سطح نسخه Ultra عمل می کند. در حالی که در 87 درصد از این معیارها از Gemini 1.0 Pro بهتر عمل می کند.
مسئله قیمت گذاری
به گفته گوگل، در نسخه ی نمایشی خصوصی Gemini 1.5 Pro به صورت رایگان با 1 میلیون توکن در دسترس خواهد بود. با این حال، این شرکت قصد دارد به زودی سطوح قیمت گذاری را ارائه دهد که از 128000 توکن در پنجره زمینه استاندارد شروع می شود و تا 1 میلیون توکن می رسد.
پنجرههای زمینه بزرگتر احتمالاً با قیمت ارزانتری عرضه نمیشوند، و گوگل با انتخاب نکردن قیمتها در جلسه توجیهی، نگرانیها را برطرف نکرد. اگر قیمت گذاری مشابه آنتروپیک باشد، هزینه ممکن است 8 دلار به ازای هر 1 میلیون توکن فرمان و 24 دلار برای هر 1 میلیون توکن تولیدی باشد. اما ممکن است قیمت کمتر باشد.
پست Google Artificial Intelligence Gemini 1.5 Pro اولین بار در Tech Knock – اخبار دنیای فناوری منتشر شد. ظاهر شد.
گفتگو در مورد این post