ایجاد یک ابزار جدید برای حذف داده های خطرناک از مدل های هوش مصنوعی –

گروهی از کارشناسان با ایجاد معیاری جدید به نام مجموعه داده‌های نماینده سلاح‌های کشتار جمعی (WMDP)، راهی برای غربال کردن اطلاعات خطرناک در مدل‌های هوش مصنوعی و حذف آن‌ها ارائه کرده‌اند.

گزارش کردن تنها هوش مصنوعی (AI)، مانند سایر فناوری‌ها مانند ویرایش ژن و انرژی هسته‌ای، می‌تواند برای اهداف خوب و بد استفاده شود. با توجه به مقدار زیادی پول و تلاشی که به سرعت در توسعه هوش مصنوعی سرمایه گذاری می شود، نگرانی هایی در مورد استفاده از مدل های زبان بزرگ (LLM) برای اهداف مخرب مانند توسعه سلاح وجود دارد.

برای درک و کاهش این خطرات، سازمان‌های دولتی و آزمایشگاه‌های هوش مصنوعی به طور یکسان درک و تولید محتوای مرتبط با موضوعات خطرناکی مانند امنیت زیستی، امنیت سایبری و امنیت شیمیایی را با مدل‌های زبان بزرگ اندازه‌گیری می‌کنند.

با این حال، این کار محرمانه و در حال حاضر خصوصی است، که واقعاً به هوش مصنوعی در گفتمان عمومی کمک نمی کند.

اکنون گروهی از کارشناسان معتقدند این محدودیت باید بازنگری شود. آنها یک معیار جدید به نام Dataset دارند WMDP (نماینده سلاح های کشتار جمعی).

این مجموعه داده نه تنها راهی برای بررسی اینکه آیا یک مدل هوش مصنوعی دارای اطلاعات مخرب است ارائه می دهد، بلکه راهی برای حذف این اطلاعات مخرب در حالی که بقیه مدل دست نخورده باقی می ماند، پیشنهاد می کند.

چگونه کار می کند؟

محققان کار خود را با مشورت با کارشناسان امنیت زیستی، سلاح های شیمیایی و امنیت سایبری آغاز کردند. این کارشناسان تمام راه‌های احتمالی که ممکن است آسیب در حوزه‌های کاری خود رخ دهد را فهرست کرده‌اند.

سپس، آنها 4000 سوال چند گزینه ای برای سنجش دانش فرد در مورد چگونگی ایجاد این آسیب ها ایجاد کردند. آنها مطمئن شدند که سؤالات هیچ اطلاعات حساسی را که بتوان به صورت عمومی به اشتراک گذاشت، نشان نداد.

مجموعه داده WMDP دو هدف اصلی را دنبال می کند: اول، به عنوان راهی برای ارزیابی میزان درک مدل های زبان بزرگ از موضوعات خطرناک، و دوم، به عنوان معیاری برای توسعه روش هایی برای “فراموش کردن” این دانش از مدل ها.

این تیم همچنین روش جدیدی را به نام CUT معرفی کرد که همانطور که از نام آن پیداست، دانش خطرناک را از مدل‌های بزرگ زبان حذف می‌کند و در عین حال توانایی‌های عمومی آن‌ها را در زمینه‌های دیگر مانند زیست‌شناسی و علوم کامپیوتر حفظ می‌کند.

به طور کلی، هدف ارائه ابزاری به محققان برای ارزیابی و رسیدگی به خطرات مرتبط با استفاده از مدل‌های زبان بزرگ برای اهداف مخرب است.

کاخ سفید نگران است

کاخ سفید نگران عوامل مخربی است که از هوش مصنوعی برای تولید سلاح های خطرناک استفاده می کنند، بنابراین خواستار تحقیقات برای درک بهتر این خطر شده است.

در اکتبر 2023، پرزیدنت بایدن فرمان اجرایی را امضا کرد تا اطمینان حاصل شود که ایالات متحده نقش رهبری را در استفاده از پتانسیل و رسیدگی به خطرات مرتبط با هوش مصنوعی ایفا می کند.

این دستورالعمل ها هشت اصل و اولویت راهنما برای استفاده مسئولانه از هوش مصنوعی شامل ایمنی، امنیت، حریم خصوصی، برابری، حقوق مدنی، حمایت از مصرف کننده، توانمندسازی کارگران، نوآوری، رقابت و رهبری جهانی را ترسیم می کند.

«دولت من بالاترین اولویت را بر مدیریت توسعه و استفاده ایمن و مسئولانه از هوش مصنوعی می‌گذارد و بنابراین رویکردی هماهنگ و کاملاً فدرال برای انجام این کار اتخاذ می‌کند. در این فرمان اجرایی آمده است: توسعه سریع قابلیت‌های هوش مصنوعی، ایالات متحده را وادار می‌کند تا در این لحظه به خاطر امنیت، اقتصاد و جامعه پیشتاز باشد.

اما در حال حاضر، روش‌هایی که شرکت‌های هوش مصنوعی برای کنترل خروجی سیستم‌های خود استفاده می‌کنند، به راحتی دور زده می‌شوند. همچنین، آزمایش‌هایی برای بررسی اینکه آیا یک مدل هوش مصنوعی ممکن است خطرناک باشد، گران و زمان‌بر هستند.

دن هندریکس، مدیر اجرایی مرکز ایمنی هوش مصنوعی و اولین نویسنده این مطالعه، به مجله تایم گفت: “ما امیدواریم که این به عنوان یکی از معیارهای اصلی که همه توسعه دهندگان منبع باز مدل های خود را با آن مقایسه می کنند، اتخاذ شود.” چارچوب خوبی برای حداقل فشار دادن آنها به حداقل رساندن مسائل ایمنی.”