نتایج ناامید کننده ChatGPT در آزمون حسابداری

ماه گذشته، OpenAI آخرین محصول چت ربات هوش مصنوعی خود، GPT-4 را معرفی کرد. این شرکت ادعا می کند که این ربات که از یادگیری ماشینی برای تولید متنی به سبک زبان طبیعی استفاده می کند، در تست های مختلف عملکرد فوق العاده ای داشته است.

گزارش کردن تکناکبه طور خاص، چت بات در آزمون وکالت امتیاز 90 از 100، در آزمون AP امتیاز 13 از 15 را کسب کرد و در آزمون GRE Verbal نمره تقریباً عالی را دریافت کرد.

استادان دانشگاه بریگام یانگ (BYU) و 186 موسسه دیگر در مورد عملکرد ChatGPT در آزمون حسابداری کنجکاو بودند. از این رو، آنها از مدل اصلی ChatGPT برای آزمون حسابداری استفاده کردند. محققان بیان کرده‌اند که اگرچه ChatGPT هنوز نیاز به بهبود در حسابداری دارد، اما این پتانسیل را دارد که روش آموزش و یادگیری افراد را برای بهتر شدن تغییر دهد.

دیوید وود، نویسنده ارشد این مطالعهپروفسور حسابداری BYU می‌گوید: هنگامی که این فناوری برای اولین بار به بازار آمد، همه نگران بودند که دانشجویان اکنون بتوانند از آن برای تقلب استفاده کنند. اما امکان تقلب همیشه وجود داشته است. بنابراین ما سعی می کنیم بر روی کارهایی که می توانیم با این فناوری انجام دهیم که قبلاً نمی توانستیم انجام دهیم تمرکز کنیم و از آن برای بهبود روند تدریس برای اساتید و فرآیند یادگیری برای دانش آموزان استفاده کنیم.

ChatGPT از زمان آغاز به کار در نوامبر 2022 به سریع ترین پلتفرم فناوری در حال رشد تبدیل شده است و در کمتر از دو ماه به 100 میلیون کاربر رسیده است. در پاسخ به بحث شدید در مورد اینکه مدل‌هایی مانند ChatGPT چگونه باید در آموزش نقش داشته باشند، وود تصمیم گرفت تا حد امکان اساتید زیادی را استخدام کند تا ببیند هوش مصنوعی در برابر دانشجویان واقعی حسابداری چگونه عمل می‌کند.

طرح جذب نویسنده مشترک رسانه های اجتماعی او برای این تحقیق بسیار مؤثر بود: 327 نویسنده مشترک از 186 مؤسسه آموزشی در 14 کشور در این تحقیق شرکت کردند و در 25181 سؤال امتحان حسابداری ظاهر شدند. آنها همچنین دانشجویان BYU (از جمله دختر وود، جسیکا) را برای دادن 2268 سوال ChatGPT از یک بانک آزمایشی دیگر استخدام کردند. سوالات شامل سیستم های اطلاعات حسابداری (AIS)، حسابرسی، حسابداری مالی، حسابداری مدیریتی، و مالیات بودند و از نظر سختی و نوع (درست/نادرست، چند گزینه ای، پاسخ کوتاه و غیره) متفاوت بودند.

اگرچه عملکرد ChatGPT در آزمون حسابداری چشمگیر بود، اما دانش آموزان عملکرد بهتری داشتند. دانش آموزان میانگین کلی 76.7٪ را در مقایسه با ChatGPT 47.4٪ کسب کردند. در 11.3٪ از سوالات، ChatGPT بالاتر از میانگین دانش آموز بود و به ویژه در AIS و حسابرسی عملکرد خوبی داشت. اما ربات هوش مصنوعی در ارزیابی‌های مالیاتی، مالی و مدیریتی بدتر عمل کرد، احتمالاً به این دلیل که ChatGPT با فرآیندهای ریاضی مورد نیاز برای نوع دوم مشکل داشت.

وقتی نوبت به نوع سوال می‌رسد، ChatGPT در سؤالات درست/غلط (68.7 درصد) و سؤالات چند گزینه‌ای (59.5 درصد) به درستی عمل می‌کند، اما در سؤالات پاسخ کوتاه (بین 28.7 درصد و 39.1 درصد) به درستی پاسخ می‌دهد. به طور کلی، پاسخ به سؤالات مرتبه بالاتر برای ChatGPT دشوارتر بود. در واقع، گاهی ChatGPT توضیحات کتبی معتبری برای پاسخ‌های نادرست ارائه می‌کرد، یا به یک سوال به روش‌های مختلف پاسخ می‌داد.

جسیکا وود، که در حال حاضر دانشجوی سال اول دانشگاه BYU است، گفت: ChatGPT کامل نیست. نباید برای همه چیز استفاده شود، و تلاش برای یادگیری فقط با استفاده از ChatGPT یک کار احمقانه است.

محققان همچنین از طریق این مطالعه روندهای جالب دیگری را کشف کردند، از جمله:

ChatGPT همیشه زمانی را که در حال انجام محاسبات ریاضی است تشخیص نمی دهد و خطاهای بی معنی مانند اضافه کردن دو عدد در یک مسئله تفریق یا تقسیم اشتباه اعداد مرتکب می شود.
ChatGPT اغلب توضیحاتی را برای پاسخ های خود ارائه می دهد، حتی اگر آنها نادرست باشند. در موارد دیگر، توضیح ChatGPT دقیق است، اما سپس به انتخاب پاسخ چند گزینه ای اشتباه ادامه می دهد.
ChatGPT گاهی اوقات حقایق را می سازد. به عنوان مثال، هنگام ارائه یک مرجع، یک مرجع واقعی تولید می کند که کاملا ساختگی است. اثر و گاهی نویسندگان حتی وجود ندارند.

با این حال، نویسندگان به طور کامل انتظار دارند که GPT-4 به طور تصاعدی سوالات آزمون حسابداری مطرح شده در مطالعه خود و مسائل ذکر شده در بالا را بهبود بخشد.

آنچه آنها امیدوارکننده‌تر می‌دانند این است که چگونه ربات چت می‌تواند به بهبود آموزش و یادگیری کمک کند، از جمله توانایی طراحی و آزمایش تکالیف، یا شاید برای پیش‌نویس بخش‌هایی از یک پروژه استفاده شود.

ملیسا لارسون، یکی از نویسندگان این مطالعه، استاد حسابداری BYU، گفت: «این آزمون فرصتی است برای فکر کردن در مورد اینکه آیا ما اطلاعات ارزش افزوده را آموزش می دهیم یا خیر. ما باید ارزیابی کنیم که از اینجا به کجا می رویم. البته من هنوز دستیاران آموزشی خود را دارم، اما ما را مجبور می کند که از آنها به شکل های مختلف استفاده کنیم.

نتایج ناامید کننده ChatGPT در آزمون حسابداری نوشته شده برای اولین بار در Tech Knock – اخبار دنیای فناوری. ظاهر شد.