یکی از مهندسان داده ۱۴ ربات هوش مصنوعی در بازی Street Fighter III vs تا ببینید کدام مدل بهتر عمل می کند.
چند هفته پیش یک برنامه نویس فرانسوی به نام Stan Girard LLM Colosseum را معرفی کرد. این یک برنامه متن باز است که به کاربران امکان می دهد کیفیت مدل های زبان بزرگ (LLM) را ارزیابی و رتبه بندی کنند. ژیرارد در آزمایش اولیه خود، مدل های OpenAI را در مقابل مدل های MistralAI قرار داد تا ببیند کدام مدل عملکرد بهتری دارد.
در زیر، میتوانید ویدئویی را مشاهده کنید که نشان میدهد این ابزار محک برای LLMها را نشان میدهد.
wccftech او می نویسد که پس از اجرای اولیه این معیار با استفاده از LLM Colosseum، مهندس آمازون، Banjo Obayumi تصمیم گرفت 14 مدل LLM را در 314 مسابقه Street Fighter III با استفاده از سرویس هوش مصنوعی آمازون، Amazon Bedrock، در مقابل یکدیگر قرار دهد. . Obayomi از برنامه منبع باز و شبیه ساز Stan Girard که بازی Street Fighter Capcom را از سال 1997 اجرا می کرد برای اجرای این معیار استفاده کرد.
این شبیه ساز توسط پس زمینه مبارزه با هوش مصنوعی Diambra پشتیبانی می شود. برای شروع مسابقه، دو LLM به طور تصادفی انتخاب شدند تا کنترل شخصیت معروف «کن» را در دست بگیرند. سپس LLM Colosseum داده های وضعیت بازی را جمع آوری می کند و حرکات بازیکن را از LLM ها دریافت می کند و در نهایت این LLM ها حرکات انتخابی خود را در شبیه ساز اجرا می کنند.
با بررسی نتایج کلی منتشر شده توسط Obayomi، مشخص شد که مدل های کوچکتر LLM نسبت به مدل های بزرگتر عملکرد بهتری دارند. این احتمالاً به دلیل تاخیر کمتر است. به طوری که مدل های کلود آنتروپیک در صدر جدول عملکرد قرار گرفتند. این اقدام جدید یافته های جالبی را ارائه کرد. از جمله مواردی است که مدل ها سعی کردند دانش خود را برای انجام حرکات غیرممکن مانند «ترکیب با بیشترین ضربه» به کار گیرند.
همچنین، به نظر میرسد هر مدل در طول این معیار، سبک بازی خود را توسعه داده است. برخی از مدل ها رویکرد دفاعی داشتند. در حالی که برخی دیگر تهاجمی عمل کردند و حتی برخی از مدل ها حاضر به مبارزه نشدند. تماشای این نوع چت رباتهای هوش مصنوعی و اینکه چقدر سریع میتوانند با یکدیگر سازگار شوند، واقعاً جالب است. اگر علاقه مند به راه اندازی یک معیار مشابه هستید، این لینک دنبال کن
گفتگو در مورد این post