محققان کانادایی آزمایش عملکردی انجام دادند ChatGPT آنها امتحانات رادیولوژی را انجام دادند و نتایج خوبی را در این تست مدل هوش مصنوعی مشاهده کردند.
گزارش کردن تکناکمحققان بیمارستان عمومی تورنتو در کانادا پروژه بسیار رایجی را انجام دادند. آنها از ChatGPT برای پاسخ به سؤالات مربوط به یک آزمون استاندارد استفاده کردند و عملکرد آن را بررسی کردند. چت بات یک تست 150 سوالی را انجام داد که برای شبیه سازی امتحانات بورد رادیولوژی کانادا و ایالات متحده طراحی شده بود. نتیجه این بود که چت بات به نرخ موفقیت 81 درصدی دست یافت که به طور قابل توجهی بالاتر از نرخ پذیرش 70 درصد بود.
از زمان راه اندازی ChatGPT، کاربران از توانایی آن در درک اطلاعات و استفاده از آن برای پاسخ دادن به سوالات شگفت زده شده اند. ChatGPT برای پاسخ به سؤالات مربوط به آزمون مجوز پزشکی ایالات متحده (USMLE) و همچنین آزمون MBA در مدرسه بازرگانی وارتون آزمایش شد و عملکرد متوسطی داشت.
با افزایش استفاده از ChatGPT در بخشهای مختلف، محققان دانشگاه تصویربرداری پزشکی تورنتو به این نتیجه رسیدند که زمان آن رسیده است که قابلیتهای این ربات چت را در رادیولوژی نیز آزمایش کنند.
ChatGPT به سوالات رادیولوژی پاسخ می دهد
محققان یک آزمون 150 سوالی برای ChatGPT راهاندازی کردند، دقیقاً مشابه آنچه که هیئتهای رادیولوژی در کانادا و ایالات متحده برای دانشآموزان اجرا میکنند. از آنجایی که ربات هوش مصنوعی نمیتواند تصاویر را به عنوان ورودی پردازش کند، محققان فقط متنی را در سؤالات ارائه کردند که به سؤالات مرتبه پایین و مرتبه بالا گروهبندی شدند.
سوالات در گروه درجه پایین ربات چت را برای یادآوری دانش و درک اولیه موضوع مورد آزمایش قرار می دهند، در حالی که سوالات در گروه درجه بالاتر به توانایی هایی مانند تجزیه و تحلیل و ترکیب اطلاعات نیاز دارند.
از آنجایی که دو نسخه از GPT در حال حاضر در دسترس است، محققان هر دو را بر روی یک مجموعه از سوالات آزمایش کردند تا ببینند آیا یکی بهتر از دیگری است یا خیر.
ChatGPT با نسخه قدیمی تر، GPT 3.5، تنها توانست 69 درصد درستی مجموعه سوالات را بدست آورد. GPT 3.5 در سوالات کم رتبه نمره خوبی می گیرد. یعنی 84 درصد پاسخ ها صحیح بوده است. با این حال، GPT با سؤالات مرتبه بالاتر کم و بیش مشکل دارد و تنها 60٪ درست است.
پس از انتشار GPT-4 در مارس 2023، محققان نسخه بهبودیافته ChatGPT را مجدداً آزمایش کردند که پس از پاسخ صحیح به 121 سوال از 150 سوال، 81 درصد را به دست آورد. همانطور که توسط OpenAI در مورد قابلیت های استدلال برتر GPT-4 ادعا شده است، مدل زبان بزرگ تازه راه اندازی شده 81 درصد در سؤالات مرتبه بالاتر کسب کرده است.
با این حال، چیزی که محققان را شگفت زده کرد، عملکرد GPT-4 در سؤالات درجه پایین بود، جایی که GPT-4 12 سؤال داشت که GPT3.5 درست بود. راجش بایانا، رادیولوژیست و مدیر ارشد فناوری در بیمارستان عمومی تورنتو، گفت: «در ابتدا از پاسخهای دقیق و قابل اعتماد ChatGPT به برخی از چالشبرانگیزترین سؤالات رادیولوژی متعجب شدیم، اما سپس به همان اندازه از اظهارات غیرمنطقی و نادرست شگفتزده شدیم.
با توجه به کاهش تمایل به ارائه اطلاعات نادرست در GPT-4، هنوز به طور کامل حذف نشده است. این می تواند در عمل پزشکی خطرناک باشد، به ویژه هنگامی که توسط افراد تازه کار استفاده می شود که ممکن است قادر به شناسایی پاسخ های نادرست نباشند. محققان افزودند.
در حالی که تمایل به ارائه مطمئن اطلاعات نادرست در GPT-4 کاهش یافته است، هنوز به طور کامل حذف نشده است. محققان افزودند که در عمل پزشکی، این می تواند خطرناک باشد، به ویژه زمانی که افراد تازه کار از آن استفاده کنند، زیرا ممکن است قادر به تشخیص پاسخ های نادرست نباشند.
یافته های این تحقیق امروز در مجله رادیولوژی منتشر شد.
آیا ChatGPT می تواند یک رادیولوژیست شود؟ اولین بار در Tech Knock – اخبار دنیای فناوری. ظاهر شد.
گفتگو در مورد این post