• تبلیغات
  • تماس با ما
جمعه, آذر ۱۴, ۱۴۰۴
  • ورود
خبرجو
  • صفحه اصلی
  • فرهنگ و هنر
  • تناسب اندام
  • فناوری
  • اقتصاد و سرمایه
  • سلامتی
  • شیوه زندگی
  • ارز دیجیتال
بدون نتیجه
مشاهده تمام نتایج
  • صفحه اصلی
  • فرهنگ و هنر
  • تناسب اندام
  • فناوری
  • اقتصاد و سرمایه
  • سلامتی
  • شیوه زندگی
  • ارز دیجیتال
بدون نتیجه
مشاهده تمام نتایج
خبرجو
بدون نتیجه
مشاهده تمام نتایج
صفحه اصلی فناوری

حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

سامان پاکدل توسط سامان پاکدل
۳۰ مرداد ۱۴۰۲
در فناوری
مدت زمان مطالعه: 1 دقیقه
0
حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

مجموعه عظیمی از کتاب‌های بدون حق تکثیر که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شد، پس از پیگیری حقوقی یک گروه دانمارکی مدافع حق نشر از اینترنت حذف شد.

به گزارش تکناک، مجموعه داده Books3 که شامل نزدیک به 200هزار کتاب در قالب متن بود، توسط وب سایتی به نام The Eye میزبانی می شد که داده های دیگری را برای تحقیقات هوش مصنوعی نیز ارائه می دهد. مجموعه داده بخشی از یک پروژه بزرگتر به نام The Pile بود که هدف آن ارائه داده های منبع باز برای مدل های زبان بود.

The Eye با درخواست حذف از طرف گروه Rights Alliance که نماینده ناشران و نویسندگان در دانمارک است، پس از اینکه متوجه شد مجموعه داده Books3 شامل حدود 150 عنوان از اعضای آن است، موافقت کرد.

Rights Alliance همچنین با Hugging Face و EleutherAI، دو سازمانی که پیوندهایی به دانلود Books3 در وب سایت خود داشتند، تماس گرفت. هر دوی آنها گروه مدافع حق نشر را به The Eye هدایت کردند.

مجموعه داده Books3 چیست؟

مجموعه داده Books3 در ابتدا توسط Shawn Presser، توسعه‌دهنده هوش مصنوعی و مدافع هوش مصنوعی منبع باز، در سال 2020 آپلود شد. او گفت که می‌خواهد توسعه هوش مصنوعی را در دسترس‌تر و رقابتی‌تر کند، به‌ویژه در برابر شرکت‌هایی مانند OpenAI، که مدل‌های زبان قبلی خود را بر روی مجموعه داده‌های مخفی و اختصاصی به نام‌های Books1 و Books2 آموزش می‌دادند. پرسر در گزارشی به Gizmodo گفت که حذف Books3 یک تراژدی برای هوش مصنوعی منبع باز بود، زیرا به پروژه‌های مردمی فرصتی داد تا مدل‌های زبانی خود را مانند ChatGPT ایجاد کنند که می‌تواند متون واقعی و منسجم تولید کند.

با این حال، نه تنها پروژه های منبع باز و هوش مصنوعی مردمی از Books3 برای آموزش خود استفاده می کنند. طبق گزارش آتلانتیک، برخی از بزرگترین شرکت‌های فناوری و پروژه‌های هوش مصنوعی مانند Meta، BloombergGPT، و GPT-J (با GPT-3 اشتباه نشود) نیز برای آموزش خود به مجموعه داده‌های کتاب‌های غیرقانونی تکیه کرده‌اند. این مدل ها می توانند متون واقع گرایانه و منسجمی را در موضوعات و حوزه های مختلف مانند مقالات خبری، خلاصه، نقد و حتی داستان تولید کنند.

کاربران برجسته

یکی از برجسته‌ترین کاربران Books3 متا است که توسط چندین نویسنده که ادعا می‌کنند این شرکت برای آموزش هوش مصنوعی LlaMA کتاب‌های آنها را دزدیده است مورد شکایت قرار گرفته است. در این دادخواست اشاره شده است که متا از مخزن Books3 برای آموزش هوش مصنوعی خود استفاده کرده است، اما اضافه شده است که متا اشاره ای نکرده است که چه آثاری در این گیگابایت داده وجود دارد.

محققان متا، در گزارش رسمی خود که مدل اصلی زبان LlaMA را معرفی کردند، Books3 را «مجموعه داده‌ای که برای آموزش مدل‌های زبان بزرگ در دسترس عموم است» نامیدند. آنها اشاره کردند که این مجموعه داده بخشی از The Pile است.

OpenAI از مجموعه کتاب های Books2 برای آموزش هوش مصنوعی خود یعنی GPT-3 استفاده کرد. Books1 و Books2 تقریباً 15 درصد از چیزهایی هستند که GPT-3 از آنها آموخته‌اند، اما ما چیز زیادی در مورد آنچه در آنها وجود دارد نمی‌دانیم. برخی از مردم فکر می کنند Books2 از Libgen آمده است، یک کتابخانه آنلاین رایگان که برخی افراد آن را Library Genesis می نامند. ما حتی در مورد 45 ترابایت کتابی که GPT-4 از آنها آموخته است چیز زیادی نمیدانیم.

مقاله آتلانتیک همچنین برخی از نام‌های نویسندگانی را که از کتاب‌هایشان برای آموزش مدل‌های هوش مصنوعی مولد استفاده می‌شود، مانند استفن کینگ، زادی اسمیت، مایکل پولان و بسیاری دیگر فاش می‌کند. برخی از این نویسندگان ممکن است آگاه نباشند که آثارشان برای اهداف هوش مصنوعی استفاده می شود، در حالی که برخی دیگر ممکن است به دلایل اخلاقی یا هنری به آن اعتراض کنند. این مقاله همچنین به برخی از خطاها و موارد تکراری موجود در Books3 و حتی برخی از کتاب‌های مورد بحث عمومی مانند Mein Kampf اثر آدولف هیتلر اشاره می‌کند.

پرسر به آتلانتیک گفت که هیچ یک از کتاب‌های Books3 را تایید یا حمایت نمی‌کند، اما معتقد است که این کتاب‌ها برای ایجاد مدل‌های زبانی متنوع و بی‌طرفانه ضروری هستند. او گفت که امیدوار است کسی در آینده نسخه بهتری از Books3 با کنترل کیفیت بیشتر و احترام به حقوق نویسندگان بسازد.

حالا چه اتفاقی می افتد؟

سرنوشت Books3 پس از حذف آن توسط The Eye در پی یک اخطار قانونی از اتحادیه حقوق، نامشخص است. با این حال، این احتمال وجود دارد که نسخه‌هایی از مجموعه داده‌ها هنوز به صورت آنلاین یا آفلاین وجود داشته باشد و از آن‌ها برای آموزش هوش مصنوعی توسط پروژه‌ها و سازمان‌های مختلف استفاده شود.

 

استفاده از Books3 برای آموزش هوش مصنوعی چندین مسئله حقوقی و اخلاقی را مطرح می کند. از یک طرف، حقوق مالکیت معنوی نویسندگان و ناشرانی را که آثارشان بدون رضایت یا غرامت در مجموعه داده گنجانده شده است، نقض می کند. از سوی دیگر، پروژه های AI منبع باز و مردمی را قادر می سازد تا با شرکت های بزرگ فناوری که به مجموعه داده های اختصاصی و مخفی دسترسی دارند، رقابت کنند. علاوه بر این، سوالاتی را در مورد کیفیت و تنوع داده‌هایی که برای ایجاد سیستم‌های هوش مصنوعی استفاده می‌شوند که می‌توانند بر ارتباطات و یادگیری انسان تأثیر بگذارند، مطرح می‌کند.

تحقیقات هوش مصنوعی را چگونه انجام دهیم؟

فکر کردن به این موضوع که مدل های هوش مصنوعی به چه حجمی از داده برای آموزش نیاز دارند و چه مقدار از این داده‌ها از کتاب‌هایی می‌آیند که استفاده از آنها رایگان یا قانونی نیست غیر عاقلانه به نظر می رسد. اگر به یاد داشته باشید زمانی که مدل زبان OpenAI در BookCorpus آموزش داده شد، مجموعه ای از هزاران جلد کتاب از وب سایت هایی مانند Smashwords جمع آوری شد. حجم آن مجموعه فقط چند گیگابایت بود، اما کتاب هایی داشت که توسط حق چاپ محافظت می شد یا باید هزینه پرداخت می شد.

اکنون، شرکت‌های بزرگ فناوری نمی‌خواهند داده‌های خود را با کسی به اشتراک بگذارند، زیرا می‌دانند که این امر به آنها برتری نسبت به رقبایشان می‌دهد یا آنها را در معرض مشکلات قانونی قرار می‌دهد. اما، آنها همچنین باید پول زیادی برای آموزش مدل های بزرگ خود بپردازند، به خصوص آنهایی که بزرگتر از همیشه هستند.

 

 

 

نوشته حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت اولین بار در خبرجو – اخبار دنیای تکنولوژی. پدیدار شد.

پست قبلی

هوش مصنوعی چگونه ابزارهای کدنویسی را متحول کرد؟

پست‌ بعدی

معرفی یک بدافزار مخرب و جدید در اندروید

سامان پاکدل

سامان پاکدل

مرتبط پست ها

نرم افزار اصالت و رهگیری کالا - بهوان
فناوری

محافظت از برند با فناوری احراز هویت محصولات

۱۱ آذر ۱۴۰۴
تفاوت برند و نام تجاری
فناوری

تفاوت برند و نام تجاری چیست؟ نکاتی که اکثر کسب‌وکارها نمی‌دانند!

۱۱ آذر ۱۴۰۴
چگونه مدرک ICDL بگیریم؟ راهنمای جامع
فناوری

چگونه مدرک ICDL بگیریم؟ راهنمای جامع

۰۶ آذر ۱۴۰۴
403defc1 cd85 4d89 bb54 3e131d7a6c4f
فناوری

وقتی قیمت، تله معامله است: روش‌های فریب در معاملات خودرو

۰۵ آذر ۱۴۰۴
بهترین مهارت‌ها و تخصص‌های موردنیاز برای متخصص هوش مصنوعی
فناوری

بهترین مهارت‌ها و تخصص‌های موردنیاز برای متخصص هوش مصنوعی

۰۵ آذر ۱۴۰۴
خرید اقساطی مبلمان اداری هوگر
فناوری

فروش اقساطی محصولات مبلمان اداری هوگر با اعتبار اسنپ‌پی

۰۵ آذر ۱۴۰۴
بارگذاری بیشتر
پست‌ بعدی
1692613356 معرفی یک بدافزار مخرب و جدید در اندروید

معرفی یک بدافزار مخرب و جدید در اندروید

گفتگو در مورد این post

توصیه شده

آموزش حرکت تمرینی بازوی جلویی هالتر نشسته روی زانو

Dumbbell Dembell Batterfly Sports Training Training Bottle

10 ماه پیش
هدیه ویژه دولت به این افراد جزئیات

هدیه ویژه دولت به این افراد + جزئیات

2 سال پیش
output onlinepngtools 1

«هادی چوپان» متعجب شد/عکس

3 سال پیش
افق میهن

روز جهانی خانواده | سایت ایران تحلیل

2 سال پیش

از دست ندهید

چاق شدن صورت و زیر چشم

چاق شدن صورت و زیر چشم چگونه صورت خود را حجیم کنیم؟

۱۳ آذر ۱۴۰۴
رژیم فستینگ چند کیلو کم میکند؟

رژیم روزه داری چند کیلو کم می کند؟ | چگونه با روزه داری کاهش وزن را افزایش دهیم؟

۱۲ آذر ۱۴۰۴
1764762104 غذاهایی که شما را در طول روز سیر نگه می

غذاهایی که شما را در طول روز سیر نگه می دارند

۱۲ آذر ۱۴۰۴
فارکس سیتی پرو، بهترین سایت ترید فارکس در ایران 2025

فارکس سیتی پرو، بهترین سایت ترید فارکس در ایران 2025

۱۲ آذر ۱۴۰۴

دیگر رسانه ها

اجاره خودرو

خبرجو تازه‌ترین اخبار در سراسر دنیا در حوره های مالی , فرهنگی , اقتصادی و ... را برای شما به اشتراک خواهد گذاشت.

ما را دنبال کنید

اخبار اخیر

چاق شدن صورت و زیر چشم

چاق شدن صورت و زیر چشم چگونه صورت خود را حجیم کنیم؟

۱۳ آذر ۱۴۰۴
رژیم فستینگ چند کیلو کم میکند؟

رژیم روزه داری چند کیلو کم می کند؟ | چگونه با روزه داری کاهش وزن را افزایش دهیم؟

۱۲ آذر ۱۴۰۴

دسته بندی ها

  • ارز دیجیتال
  • اقتصاد و سرمایه
  • تناسب اندام
  • دسته‌بندی نشده
  • سلامتی
  • شیوه زندگی
  • فرهنگ و هنر
  • فناوری

همکاران

  • اخبار اقتصاد
  • تعمیرات موبایل تهران
  • بیت یونیکس
  • ال بانک
  • توبیت
  • تبلیغات
  • تماس با ما

خوش آمدید!

به حساب خود در زیر وارد شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • صفحه اصلی
  • فرهنگ و هنر
  • تناسب اندام
  • فناوری
  • اقتصاد و سرمایه
  • سلامتی
  • شیوه زندگی
  • ارز دیجیتال