کاهش هشدار دهنده در پاسخ های ChatGPT

تحقیقات محققان نشان می دهد که کیفیت پاسخ های ChatGPT در دوره خاصی از سال جاری به طور قابل توجهی کاهش یافته و نگران کننده است.

گزارش کردن تکناکبه عنوان مثال، دقت شناسایی اعداد اول در ChatGPT-4 از مارس تا ژوئن 2023 از 97.6 درصد به 2.4 درصد کاهش یافته است.

در ماه ها اخیرا، شواهد شخصی و زمزمه های عمومی در مورد کاهش کیفیت پاسخ های ChatGPT افزایش یافته است. تیمی از محققان از دانشگاه استنفورد و دانشگاه کالیفرنیا در برکلی تصمیم گرفتند تا بررسی کنند که آیا واقعاً کاهش کیفیت رخ داده است و معیارهایی برای اندازه‌گیری مقیاس تغییرات نامطلوب ارائه دهند. به طور خلاصه، افت کیفیت ChatGPT مطمئناً انتظار نمی رفت.

سه محقق معروف، متی زاهاریا، لینجیائو چن و جیمز ژو، پشت این مقاله تحقیقاتی اخیرا منتشر شده با عنوان چگونه رفتار ChatGPT در طول زمان تغییر می کند؟ (PDF) بودند. صبح امروز، یو سی زهاریا، استاد علوم کامپیوتر، در توییتر به اشتراک گذاشتن یافته های تحقیق. او با تأکید شگفت‌انگیزی اعلام کرد که میزان موفقیت GPT-4 در «این بهترین است؟ «به ترتیب فکر کنید» از 97.6 درصد به 2.4 درصد از مارس تا ژوئن کاهش یافته است.

GPT-4 حدود دو هفته پیش در دسترس عموم قرار گرفت و به عنوان پیشرفته ترین و قدرتمندترین مدل OpenAI معرفی شد. این مدل به سرعت در دسترس توسعه دهندگان API قرار گرفت و ادعا کرد که می تواند به عنوان موتوری برای طیف وسیعی از محصولات خلاقانه هوش مصنوعی استفاده شود. بنابراین، جای تاسف و تعجب دارد که تحقیقات جدید نشان می‌دهد در برابر برخی سؤالات بسیار ساده، این مدل نتیجه غیرقابل قبولی در کیفیت پاسخ‌ها دارد.

ما در بالا به عنوان نمونه به نرخ شکست بی سابقه GPT-4 در سوالات اعداد اول اشاره کردیم. تیم تحقیقاتی وظیفه طراحی وظایفی را برای اندازه‌گیری جنبه‌های کیفی زیربنایی مدل‌های زبان بزرگ (LLM) GPT-4 و GPT-3.5 ChatGPT داشت. وظایف به چهار دسته تقسیم می شوند و انواع مهارت های هوش مصنوعی را اندازه گیری می کنند، در حالی که ارزیابی عملکرد نسبتاً ساده است.

حل مسائل ریاضی
پاسخگویی به سوالات حساس
تولید کد
استدلال بصری

نمای کلی عملکرد Open AI LLMs در نمودار زیر ارائه شده است. محققان عملکرد نسخه‌های GPT-4 و GPT-3.5 را در مارس 2023 و ژوئن 2023 ارزیابی کردند.

این نمودار به وضوح نشان می دهد که همان سرویس LLM در طول زمان به سؤالات کاملاً متفاوت پاسخ می دهد. در این دوره نسبتا کوتاه، تفاوت های قابل توجهی مشاهده می شود. هنوز مشخص نیست که این LLM ها چگونه به روز می شوند و آیا تغییرات برای بهبود برخی از جنبه های عملکرد آنها ممکن است بر سایرین تأثیر منفی بگذارد یا خیر. ببینید نسخه جدیدتر GPT-4 در مقایسه با نسخه مارس در سه دسته آزمایشی چقدر بدتر است. این نسخه فقط در استدلال بصری با اختلاف بسیار کمی برنده می شود.

برخی از افراد ممکن است نسبت به کیفیت متغیر مشاهده شده در همان نسخه LLM بی تفاوت باشند. با این حال، محققان خاطرنشان می کنند که به دلیل محبوبیت ChatGPT، هر دو GPT-4 و GPT-3.5 به طور گسترده توسط کاربران فردی و تعدادی از شرکت ها پذیرفته شده اند. بنابراین، خارج از محدوده احتمالی نیست که برخی از اطلاعات تولید شده توسط GPT بر زندگی شما تأثیر بگذارد.

محققان قصد خود را برای ادامه ارزیابی نسخه های GPT در یک مطالعه طولانی مدت اعلام کرده اند. شاید هوش مصنوعی باز باید ارزیابی های کیفیت منظم را برای مشتریان پردرآمد خود نظارت و منتشر کند. اگر این موضوع شفاف‌تر نباشد، ممکن است لازم باشد سازمان‌های تجاری یا دولتی برخی از معیارهای کیفی اساسی این LLM‌ها را کنترل کنند، که می‌تواند تأثیرات قابل‌توجهی بر صنعت و تحقیقات داشته باشد.

پست کاهش هشدار دهنده در پاسخ های ChatGPT اولین بار در Tech Knock – اخبار دنیای فناوری ظاهر شد. ظاهر شد.