گروهی از کارشناسان با ایجاد معیاری جدید به نام مجموعه دادههای نماینده سلاحهای کشتار جمعی (WMDP)، راهی برای غربال کردن اطلاعات خطرناک در مدلهای هوش مصنوعی و حذف آنها ارائه کردهاند.
گزارش کردن تنها هوش مصنوعی (AI)، مانند سایر فناوریها مانند ویرایش ژن و انرژی هستهای، میتواند برای اهداف خوب و بد استفاده شود. با توجه به مقدار زیادی پول و تلاشی که به سرعت در توسعه هوش مصنوعی سرمایه گذاری می شود، نگرانی هایی در مورد استفاده از مدل های زبان بزرگ (LLM) برای اهداف مخرب مانند توسعه سلاح وجود دارد.
برای درک و کاهش این خطرات، سازمانهای دولتی و آزمایشگاههای هوش مصنوعی به طور یکسان درک و تولید محتوای مرتبط با موضوعات خطرناکی مانند امنیت زیستی، امنیت سایبری و امنیت شیمیایی را با مدلهای زبان بزرگ اندازهگیری میکنند.
با این حال، این کار محرمانه و در حال حاضر خصوصی است، که واقعاً به هوش مصنوعی در گفتمان عمومی کمک نمی کند.
اکنون گروهی از کارشناسان معتقدند این محدودیت باید بازنگری شود. آنها یک معیار جدید به نام Dataset دارند WMDP (نماینده سلاح های کشتار جمعی).
این مجموعه داده نه تنها راهی برای بررسی اینکه آیا یک مدل هوش مصنوعی دارای اطلاعات مخرب است ارائه می دهد، بلکه راهی برای حذف این اطلاعات مخرب در حالی که بقیه مدل دست نخورده باقی می ماند، پیشنهاد می کند.
چگونه کار می کند؟
محققان کار خود را با مشورت با کارشناسان امنیت زیستی، سلاح های شیمیایی و امنیت سایبری آغاز کردند. این کارشناسان تمام راههای احتمالی که ممکن است آسیب در حوزههای کاری خود رخ دهد را فهرست کردهاند.
سپس، آنها 4000 سوال چند گزینه ای برای سنجش دانش فرد در مورد چگونگی ایجاد این آسیب ها ایجاد کردند. آنها مطمئن شدند که سؤالات هیچ اطلاعات حساسی را که بتوان به صورت عمومی به اشتراک گذاشت، نشان نداد.
مجموعه داده WMDP دو هدف اصلی را دنبال می کند: اول، به عنوان راهی برای ارزیابی میزان درک مدل های زبان بزرگ از موضوعات خطرناک، و دوم، به عنوان معیاری برای توسعه روش هایی برای “فراموش کردن” این دانش از مدل ها.
این تیم همچنین روش جدیدی را به نام CUT معرفی کرد که همانطور که از نام آن پیداست، دانش خطرناک را از مدلهای بزرگ زبان حذف میکند و در عین حال تواناییهای عمومی آنها را در زمینههای دیگر مانند زیستشناسی و علوم کامپیوتر حفظ میکند.
به طور کلی، هدف ارائه ابزاری به محققان برای ارزیابی و رسیدگی به خطرات مرتبط با استفاده از مدلهای زبان بزرگ برای اهداف مخرب است.
کاخ سفید نگران است
کاخ سفید نگران عوامل مخربی است که از هوش مصنوعی برای تولید سلاح های خطرناک استفاده می کنند، بنابراین خواستار تحقیقات برای درک بهتر این خطر شده است.
در اکتبر 2023، پرزیدنت بایدن فرمان اجرایی را امضا کرد تا اطمینان حاصل شود که ایالات متحده نقش رهبری را در استفاده از پتانسیل و رسیدگی به خطرات مرتبط با هوش مصنوعی ایفا می کند.
این دستورالعمل ها هشت اصل و اولویت راهنما برای استفاده مسئولانه از هوش مصنوعی شامل ایمنی، امنیت، حریم خصوصی، برابری، حقوق مدنی، حمایت از مصرف کننده، توانمندسازی کارگران، نوآوری، رقابت و رهبری جهانی را ترسیم می کند.
«دولت من بالاترین اولویت را بر مدیریت توسعه و استفاده ایمن و مسئولانه از هوش مصنوعی میگذارد و بنابراین رویکردی هماهنگ و کاملاً فدرال برای انجام این کار اتخاذ میکند. در این فرمان اجرایی آمده است: توسعه سریع قابلیتهای هوش مصنوعی، ایالات متحده را وادار میکند تا در این لحظه به خاطر امنیت، اقتصاد و جامعه پیشتاز باشد.
اما در حال حاضر، روشهایی که شرکتهای هوش مصنوعی برای کنترل خروجی سیستمهای خود استفاده میکنند، به راحتی دور زده میشوند. همچنین، آزمایشهایی برای بررسی اینکه آیا یک مدل هوش مصنوعی ممکن است خطرناک باشد، گران و زمانبر هستند.
دن هندریکس، مدیر اجرایی مرکز ایمنی هوش مصنوعی و اولین نویسنده این مطالعه، به مجله تایم گفت: “ما امیدواریم که این به عنوان یکی از معیارهای اصلی که همه توسعه دهندگان منبع باز مدل های خود را با آن مقایسه می کنند، اتخاذ شود.” چارچوب خوبی برای حداقل فشار دادن آنها به حداقل رساندن مسائل ایمنی.”
گفتگو در مورد این post