بهینه سازی های Nvidia برای Gemma این مدل زبان بزرگ را به ابزاری قدرتمندتر و کارآمدتر برای طیف گسترده ای از برنامه ها تبدیل کرده است.
به گزارش تکنوک، به منظور بهینه سازی مدل های بزرگ زبان محبوب با پردازنده های گرافیکی سری RTX مجهز به هوش مصنوعی، انویدیا اخیرا سرعت پیشرفت ها را افزایش داده است. این توسعه با بهینه سازی مدل پیشرفته Gemma گوگل به مرحله جدیدی رسیده است.
انویدیا با همکاری گوگل بهینهسازیهایی را برای مدلهای بزرگ و سبک زبان Gemma (با ظرفیت ۲ و ۷ میلیارد پارامتر) در تمام پلتفرمهای هوش مصنوعی Nvidia اعلام کرده است.
این مدل های جدید و پیشرفته گوگل بر روی هر دستگاهی اجرا می شوند و با کاهش هزینه ها، نوآوری و کار خلاقانه در زمینه های تخصصی را سرعت می بخشند. به نقل از wccftechتیمهای هر دو شرکت برای تسریع عملکرد Gemma که با همان تحقیقات و فناوری مورد استفاده برای ساخت مدلهای Gemini ساخته شده است، از نزدیک با هم کار کردند.
این افزایش سرعت با استفاده از TensorRT-LLM انویدیا، یک کتابخانه منبع باز برای بهینه سازی استنتاج مدل های زبانی بزرگ، هنگام اجرا بر روی پردازنده های گرافیکی Nvidia در مراکز ابری و داده ها و روی رایانه های شخصی مجهز به پردازنده گرافیکی Nvidia RTX به دست آمد. این به توسعه دهندگان کمک می کند تا از پایه نصب شده بیش از 100 میلیون پردازنده گرافیکی NVIDIA RTX در رایانه های شخصی هوش مصنوعی با کارایی بالا در سراسر جهان استفاده کنند.
همچنین، توسعه دهندگان می توانند Gemma را بر روی پردازنده های گرافیکی Nvidia در فضای ابری اجرا کنند. از جمله موارد موجود در سرویس ابری گوگل در مدل های A3 با پردازنده گرافیکی H100 Tensor Core و به زودی پردازنده های گرافیکی Nvidia H200 Tensor Core که از 141 گیگابایت حافظه HBM3e با سرعت 4.8 ترابایت بر ثانیه استفاده می کنند.
علاوه بر این، توسعه دهندگان سازمانی می توانند از مجموعه گسترده ابزارهای NVIDIA، از جمله NVIDIA AI Enterprise با چارچوب NeMo و TensorRT-LLM برای تنظیم دقیق Gemma و استقرار مدل بهینه شده در برنامه های تولید خود استفاده کنند.
جما برای چت با RTX وارد می شود
در آینده، پشتیبانی Gemma به چت با RTX اضافه خواهد شد. چت با RTX یک فناوری آزمایشی از Nvidia است که از تولید متن بهبودیافته با بازیابی و نرمافزار TensorRT-LLM برای ارائه قابلیتهای هوش مصنوعی به کاربران رایانههای شخصی ویندوزی مجهز به RTX استفاده میکند. این ویژگی به کاربران این امکان را می دهد که به راحتی چت بات خود را با پیوند دادن فایل های محلی به یک مدل زبان بزرگ سفارشی کنند.
با توجه به اجرای محلی مدل، نتایج به سرعت نمایش داده می شود و اطلاعات کاربر روی دستگاه باقی می ماند. برخلاف سرویسهای بزرگ مدل زبان مبتنی بر ابر، Chat with RTX به کاربران این امکان را میدهد که دادههای حساس را مستقیماً روی رایانه شخصی خود پردازش کنند بدون اینکه نیازی به اشتراکگذاری آنها با شخص ثالث یا برقراری اتصال اینترنتی داشته باشند.
بهینهسازی مدل گوگل، جما، پیچش هیجانانگیزی دارد: انویدیا همچنین بهروزرسانیهایی را برای بهینهسازی بیشتر مدل برای پردازندههای گرافیکی مصرفکننده RTX خود معرفی کرده است، که گامی بزرگ در جهت توانمندسازی توسعهدهندگان بدون نیاز به سختافزار پیشرفته مانند پردازندههای گرافیکی هوش مصنوعی اختصاصی است.
پست بهینه سازی Gemma برای شتاب دهنده های هوش مصنوعی اولین بار در TechNock – اخبار دنیای فناوری ظاهر شد. ظاهر شد.
گفتگو در مورد این post