مجموعه عظیمی از کتابهای بدون حق تکثیر که برای آموزش مدلهای هوش مصنوعی استفاده میشد، پس از پیگیری حقوقی یک گروه دانمارکی مدافع حق نشر از اینترنت حذف شد.
به گزارش تکناک، مجموعه داده Books3 که شامل نزدیک به 200هزار کتاب در قالب متن بود، توسط وب سایتی به نام The Eye میزبانی می شد که داده های دیگری را برای تحقیقات هوش مصنوعی نیز ارائه می دهد. مجموعه داده بخشی از یک پروژه بزرگتر به نام The Pile بود که هدف آن ارائه داده های منبع باز برای مدل های زبان بود.
The Eye با درخواست حذف از طرف گروه Rights Alliance که نماینده ناشران و نویسندگان در دانمارک است، پس از اینکه متوجه شد مجموعه داده Books3 شامل حدود 150 عنوان از اعضای آن است، موافقت کرد.
Rights Alliance همچنین با Hugging Face و EleutherAI، دو سازمانی که پیوندهایی به دانلود Books3 در وب سایت خود داشتند، تماس گرفت. هر دوی آنها گروه مدافع حق نشر را به The Eye هدایت کردند.
مجموعه داده Books3 چیست؟
مجموعه داده Books3 در ابتدا توسط Shawn Presser، توسعهدهنده هوش مصنوعی و مدافع هوش مصنوعی منبع باز، در سال 2020 آپلود شد. او گفت که میخواهد توسعه هوش مصنوعی را در دسترستر و رقابتیتر کند، بهویژه در برابر شرکتهایی مانند OpenAI، که مدلهای زبان قبلی خود را بر روی مجموعه دادههای مخفی و اختصاصی به نامهای Books1 و Books2 آموزش میدادند. پرسر در گزارشی به Gizmodo گفت که حذف Books3 یک تراژدی برای هوش مصنوعی منبع باز بود، زیرا به پروژههای مردمی فرصتی داد تا مدلهای زبانی خود را مانند ChatGPT ایجاد کنند که میتواند متون واقعی و منسجم تولید کند.
با این حال، نه تنها پروژه های منبع باز و هوش مصنوعی مردمی از Books3 برای آموزش خود استفاده می کنند. طبق گزارش آتلانتیک، برخی از بزرگترین شرکتهای فناوری و پروژههای هوش مصنوعی مانند Meta، BloombergGPT، و GPT-J (با GPT-3 اشتباه نشود) نیز برای آموزش خود به مجموعه دادههای کتابهای غیرقانونی تکیه کردهاند. این مدل ها می توانند متون واقع گرایانه و منسجمی را در موضوعات و حوزه های مختلف مانند مقالات خبری، خلاصه، نقد و حتی داستان تولید کنند.
کاربران برجسته
یکی از برجستهترین کاربران Books3 متا است که توسط چندین نویسنده که ادعا میکنند این شرکت برای آموزش هوش مصنوعی LlaMA کتابهای آنها را دزدیده است مورد شکایت قرار گرفته است. در این دادخواست اشاره شده است که متا از مخزن Books3 برای آموزش هوش مصنوعی خود استفاده کرده است، اما اضافه شده است که متا اشاره ای نکرده است که چه آثاری در این گیگابایت داده وجود دارد.
محققان متا، در گزارش رسمی خود که مدل اصلی زبان LlaMA را معرفی کردند، Books3 را «مجموعه دادهای که برای آموزش مدلهای زبان بزرگ در دسترس عموم است» نامیدند. آنها اشاره کردند که این مجموعه داده بخشی از The Pile است.
OpenAI از مجموعه کتاب های Books2 برای آموزش هوش مصنوعی خود یعنی GPT-3 استفاده کرد. Books1 و Books2 تقریباً 15 درصد از چیزهایی هستند که GPT-3 از آنها آموختهاند، اما ما چیز زیادی در مورد آنچه در آنها وجود دارد نمیدانیم. برخی از مردم فکر می کنند Books2 از Libgen آمده است، یک کتابخانه آنلاین رایگان که برخی افراد آن را Library Genesis می نامند. ما حتی در مورد 45 ترابایت کتابی که GPT-4 از آنها آموخته است چیز زیادی نمیدانیم.
مقاله آتلانتیک همچنین برخی از نامهای نویسندگانی را که از کتابهایشان برای آموزش مدلهای هوش مصنوعی مولد استفاده میشود، مانند استفن کینگ، زادی اسمیت، مایکل پولان و بسیاری دیگر فاش میکند. برخی از این نویسندگان ممکن است آگاه نباشند که آثارشان برای اهداف هوش مصنوعی استفاده می شود، در حالی که برخی دیگر ممکن است به دلایل اخلاقی یا هنری به آن اعتراض کنند. این مقاله همچنین به برخی از خطاها و موارد تکراری موجود در Books3 و حتی برخی از کتابهای مورد بحث عمومی مانند Mein Kampf اثر آدولف هیتلر اشاره میکند.
پرسر به آتلانتیک گفت که هیچ یک از کتابهای Books3 را تایید یا حمایت نمیکند، اما معتقد است که این کتابها برای ایجاد مدلهای زبانی متنوع و بیطرفانه ضروری هستند. او گفت که امیدوار است کسی در آینده نسخه بهتری از Books3 با کنترل کیفیت بیشتر و احترام به حقوق نویسندگان بسازد.
حالا چه اتفاقی می افتد؟
سرنوشت Books3 پس از حذف آن توسط The Eye در پی یک اخطار قانونی از اتحادیه حقوق، نامشخص است. با این حال، این احتمال وجود دارد که نسخههایی از مجموعه دادهها هنوز به صورت آنلاین یا آفلاین وجود داشته باشد و از آنها برای آموزش هوش مصنوعی توسط پروژهها و سازمانهای مختلف استفاده شود.
استفاده از Books3 برای آموزش هوش مصنوعی چندین مسئله حقوقی و اخلاقی را مطرح می کند. از یک طرف، حقوق مالکیت معنوی نویسندگان و ناشرانی را که آثارشان بدون رضایت یا غرامت در مجموعه داده گنجانده شده است، نقض می کند. از سوی دیگر، پروژه های AI منبع باز و مردمی را قادر می سازد تا با شرکت های بزرگ فناوری که به مجموعه داده های اختصاصی و مخفی دسترسی دارند، رقابت کنند. علاوه بر این، سوالاتی را در مورد کیفیت و تنوع دادههایی که برای ایجاد سیستمهای هوش مصنوعی استفاده میشوند که میتوانند بر ارتباطات و یادگیری انسان تأثیر بگذارند، مطرح میکند.
تحقیقات هوش مصنوعی را چگونه انجام دهیم؟
فکر کردن به این موضوع که مدل های هوش مصنوعی به چه حجمی از داده برای آموزش نیاز دارند و چه مقدار از این دادهها از کتابهایی میآیند که استفاده از آنها رایگان یا قانونی نیست غیر عاقلانه به نظر می رسد. اگر به یاد داشته باشید زمانی که مدل زبان OpenAI در BookCorpus آموزش داده شد، مجموعه ای از هزاران جلد کتاب از وب سایت هایی مانند Smashwords جمع آوری شد. حجم آن مجموعه فقط چند گیگابایت بود، اما کتاب هایی داشت که توسط حق چاپ محافظت می شد یا باید هزینه پرداخت می شد.
اکنون، شرکتهای بزرگ فناوری نمیخواهند دادههای خود را با کسی به اشتراک بگذارند، زیرا میدانند که این امر به آنها برتری نسبت به رقبایشان میدهد یا آنها را در معرض مشکلات قانونی قرار میدهد. اما، آنها همچنین باید پول زیادی برای آموزش مدل های بزرگ خود بپردازند، به خصوص آنهایی که بزرگتر از همیشه هستند.
نوشته حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت اولین بار در خبرجو – اخبار دنیای تکنولوژی. پدیدار شد.
گفتگو در مورد این post