• تبلیغات
  • تماس با ما
جمعه, اسفند ۲۲, ۱۴۰۴
  • ورود
خبرجو
  • صفحه اصلی
  • فرهنگ و هنر
  • تناسب اندام
  • فناوری
  • اقتصاد و سرمایه
  • سلامتی
  • شیوه زندگی
  • ارز دیجیتال
بدون نتیجه
مشاهده تمام نتایج
  • صفحه اصلی
  • فرهنگ و هنر
  • تناسب اندام
  • فناوری
  • اقتصاد و سرمایه
  • سلامتی
  • شیوه زندگی
  • ارز دیجیتال
بدون نتیجه
مشاهده تمام نتایج
خبرجو
بدون نتیجه
مشاهده تمام نتایج
صفحه اصلی فناوری

حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

سامان پاکدل توسط سامان پاکدل
۳۰ مرداد ۱۴۰۲
در فناوری
مدت زمان مطالعه: 1 دقیقه
0
حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

مجموعه عظیمی از کتاب‌های بدون حق تکثیر که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شد، پس از پیگیری حقوقی یک گروه دانمارکی مدافع حق نشر از اینترنت حذف شد.

به گزارش تکناک، مجموعه داده Books3 که شامل نزدیک به 200هزار کتاب در قالب متن بود، توسط وب سایتی به نام The Eye میزبانی می شد که داده های دیگری را برای تحقیقات هوش مصنوعی نیز ارائه می دهد. مجموعه داده بخشی از یک پروژه بزرگتر به نام The Pile بود که هدف آن ارائه داده های منبع باز برای مدل های زبان بود.

The Eye با درخواست حذف از طرف گروه Rights Alliance که نماینده ناشران و نویسندگان در دانمارک است، پس از اینکه متوجه شد مجموعه داده Books3 شامل حدود 150 عنوان از اعضای آن است، موافقت کرد.

Rights Alliance همچنین با Hugging Face و EleutherAI، دو سازمانی که پیوندهایی به دانلود Books3 در وب سایت خود داشتند، تماس گرفت. هر دوی آنها گروه مدافع حق نشر را به The Eye هدایت کردند.

مجموعه داده Books3 چیست؟

مجموعه داده Books3 در ابتدا توسط Shawn Presser، توسعه‌دهنده هوش مصنوعی و مدافع هوش مصنوعی منبع باز، در سال 2020 آپلود شد. او گفت که می‌خواهد توسعه هوش مصنوعی را در دسترس‌تر و رقابتی‌تر کند، به‌ویژه در برابر شرکت‌هایی مانند OpenAI، که مدل‌های زبان قبلی خود را بر روی مجموعه داده‌های مخفی و اختصاصی به نام‌های Books1 و Books2 آموزش می‌دادند. پرسر در گزارشی به Gizmodo گفت که حذف Books3 یک تراژدی برای هوش مصنوعی منبع باز بود، زیرا به پروژه‌های مردمی فرصتی داد تا مدل‌های زبانی خود را مانند ChatGPT ایجاد کنند که می‌تواند متون واقعی و منسجم تولید کند.

با این حال، نه تنها پروژه های منبع باز و هوش مصنوعی مردمی از Books3 برای آموزش خود استفاده می کنند. طبق گزارش آتلانتیک، برخی از بزرگترین شرکت‌های فناوری و پروژه‌های هوش مصنوعی مانند Meta، BloombergGPT، و GPT-J (با GPT-3 اشتباه نشود) نیز برای آموزش خود به مجموعه داده‌های کتاب‌های غیرقانونی تکیه کرده‌اند. این مدل ها می توانند متون واقع گرایانه و منسجمی را در موضوعات و حوزه های مختلف مانند مقالات خبری، خلاصه، نقد و حتی داستان تولید کنند.

کاربران برجسته

یکی از برجسته‌ترین کاربران Books3 متا است که توسط چندین نویسنده که ادعا می‌کنند این شرکت برای آموزش هوش مصنوعی LlaMA کتاب‌های آنها را دزدیده است مورد شکایت قرار گرفته است. در این دادخواست اشاره شده است که متا از مخزن Books3 برای آموزش هوش مصنوعی خود استفاده کرده است، اما اضافه شده است که متا اشاره ای نکرده است که چه آثاری در این گیگابایت داده وجود دارد.

محققان متا، در گزارش رسمی خود که مدل اصلی زبان LlaMA را معرفی کردند، Books3 را «مجموعه داده‌ای که برای آموزش مدل‌های زبان بزرگ در دسترس عموم است» نامیدند. آنها اشاره کردند که این مجموعه داده بخشی از The Pile است.

OpenAI از مجموعه کتاب های Books2 برای آموزش هوش مصنوعی خود یعنی GPT-3 استفاده کرد. Books1 و Books2 تقریباً 15 درصد از چیزهایی هستند که GPT-3 از آنها آموخته‌اند، اما ما چیز زیادی در مورد آنچه در آنها وجود دارد نمی‌دانیم. برخی از مردم فکر می کنند Books2 از Libgen آمده است، یک کتابخانه آنلاین رایگان که برخی افراد آن را Library Genesis می نامند. ما حتی در مورد 45 ترابایت کتابی که GPT-4 از آنها آموخته است چیز زیادی نمیدانیم.

مقاله آتلانتیک همچنین برخی از نام‌های نویسندگانی را که از کتاب‌هایشان برای آموزش مدل‌های هوش مصنوعی مولد استفاده می‌شود، مانند استفن کینگ، زادی اسمیت، مایکل پولان و بسیاری دیگر فاش می‌کند. برخی از این نویسندگان ممکن است آگاه نباشند که آثارشان برای اهداف هوش مصنوعی استفاده می شود، در حالی که برخی دیگر ممکن است به دلایل اخلاقی یا هنری به آن اعتراض کنند. این مقاله همچنین به برخی از خطاها و موارد تکراری موجود در Books3 و حتی برخی از کتاب‌های مورد بحث عمومی مانند Mein Kampf اثر آدولف هیتلر اشاره می‌کند.

پرسر به آتلانتیک گفت که هیچ یک از کتاب‌های Books3 را تایید یا حمایت نمی‌کند، اما معتقد است که این کتاب‌ها برای ایجاد مدل‌های زبانی متنوع و بی‌طرفانه ضروری هستند. او گفت که امیدوار است کسی در آینده نسخه بهتری از Books3 با کنترل کیفیت بیشتر و احترام به حقوق نویسندگان بسازد.

حالا چه اتفاقی می افتد؟

سرنوشت Books3 پس از حذف آن توسط The Eye در پی یک اخطار قانونی از اتحادیه حقوق، نامشخص است. با این حال، این احتمال وجود دارد که نسخه‌هایی از مجموعه داده‌ها هنوز به صورت آنلاین یا آفلاین وجود داشته باشد و از آن‌ها برای آموزش هوش مصنوعی توسط پروژه‌ها و سازمان‌های مختلف استفاده شود.

 

استفاده از Books3 برای آموزش هوش مصنوعی چندین مسئله حقوقی و اخلاقی را مطرح می کند. از یک طرف، حقوق مالکیت معنوی نویسندگان و ناشرانی را که آثارشان بدون رضایت یا غرامت در مجموعه داده گنجانده شده است، نقض می کند. از سوی دیگر، پروژه های AI منبع باز و مردمی را قادر می سازد تا با شرکت های بزرگ فناوری که به مجموعه داده های اختصاصی و مخفی دسترسی دارند، رقابت کنند. علاوه بر این، سوالاتی را در مورد کیفیت و تنوع داده‌هایی که برای ایجاد سیستم‌های هوش مصنوعی استفاده می‌شوند که می‌توانند بر ارتباطات و یادگیری انسان تأثیر بگذارند، مطرح می‌کند.

تحقیقات هوش مصنوعی را چگونه انجام دهیم؟

فکر کردن به این موضوع که مدل های هوش مصنوعی به چه حجمی از داده برای آموزش نیاز دارند و چه مقدار از این داده‌ها از کتاب‌هایی می‌آیند که استفاده از آنها رایگان یا قانونی نیست غیر عاقلانه به نظر می رسد. اگر به یاد داشته باشید زمانی که مدل زبان OpenAI در BookCorpus آموزش داده شد، مجموعه ای از هزاران جلد کتاب از وب سایت هایی مانند Smashwords جمع آوری شد. حجم آن مجموعه فقط چند گیگابایت بود، اما کتاب هایی داشت که توسط حق چاپ محافظت می شد یا باید هزینه پرداخت می شد.

اکنون، شرکت‌های بزرگ فناوری نمی‌خواهند داده‌های خود را با کسی به اشتراک بگذارند، زیرا می‌دانند که این امر به آنها برتری نسبت به رقبایشان می‌دهد یا آنها را در معرض مشکلات قانونی قرار می‌دهد. اما، آنها همچنین باید پول زیادی برای آموزش مدل های بزرگ خود بپردازند، به خصوص آنهایی که بزرگتر از همیشه هستند.

 

 

 

نوشته حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت اولین بار در خبرجو – اخبار دنیای تکنولوژی. پدیدار شد.

پست قبلی

هوش مصنوعی چگونه ابزارهای کدنویسی را متحول کرد؟

پست‌ بعدی

معرفی یک بدافزار مخرب و جدید در اندروید

سامان پاکدل

سامان پاکدل

مرتبط پست ها

معرفی مقاطع فولادی به کار رفته در اسکلت فلزی ساختمان و کاربرد آنها
فناوری

معرفی مقاطع فولادی به کار رفته در اسکلت فلزی ساختمان و کاربرد آنها

۰۵ اسفند ۱۴۰۴
سنسور حرکتی راه پله
فناوری

برد سنسور حرکتی چقدر است؟ بررسی محدوده تشخیص در سنسورهای مختلف

۰۴ اسفند ۱۴۰۴
3210bc35 f712 4e15 94ae ecb33d3fc30b
فناوری

پیشنهاد زمستانی آمارکتس؛ شرایط معاملاتی استثنایی برای پایان سال 1404

۰۱ اسفند ۱۴۰۴
بهترین ارائه کننده لوازم یدکی کامیون
فناوری

بهترین ارائه کننده لوازم یدکی کامیون

۲۸ بهمن ۱۴۰۴
آجر لفتون چیست [کاربرد و کارایی + مزایا و معایب]
فناوری

آجر لفتون چیست [کاربرد و کارایی + مزایا و معایب]

۲۷ بهمن ۱۴۰۴
خرید رم لپ تاپ پاساژ نور
فناوری

خرید رم لپ تاپ از پاساژ نور؛ راهنمای کامل انتخاب، ارتقا و اطمینان از اصالت کالا

۲۵ بهمن ۱۴۰۴
بارگذاری بیشتر
پست‌ بعدی
1692613356 معرفی یک بدافزار مخرب و جدید در اندروید

معرفی یک بدافزار مخرب و جدید در اندروید

گفتگو در مورد این post

توصیه شده

دیوان عالی اسرائیل لایحه دولت برای «اصلاحات» در دستگاه قضایی را لغو کرد

دیوان عالی اسرائیل لایحه دولت برای «اصلاحات» در دستگاه قضایی را لغو کرد

2 سال پیش
ربات انسان نمای ناسا برای آزمایش به استرالیا می رود

ربات انسان نمای ناسا برای آزمایش به استرالیا می رود

3 سال پیش
شاخص آلودگی هوای اصفهان امروز شنبه ۳۰ دی + آخرین وضعیت

شاخص آلودگی هوای اصفهان امروز شنبه ۳۰ دی + آخرین وضعیت

2 سال پیش
افق میهن

خدمات «چکاوک»، «ساتنا» و «پایا» بانک صادرات ایران در روزهای پایانی ۱۴۰۲

2 سال پیش

از دست ندهید

پرینت سه بعدی سفارشی؛ راهکاری هوشمند برای ساخت قطعات خاص و کمیاب در کوتاه‌ترین زمان

۱۲ اسفند ۱۴۰۴
تور اقساطی استانبول، دبی و آنتالیا: سفری به یاد ماندنی با پرداخت آسان

تور اقساطی استانبول، دبی و آنتالیا: سفری به یاد ماندنی با پرداخت آسان

۰۶ اسفند ۱۴۰۴
421789f0 5d52 4a79 ad90 c64d198121ee

چرا آبسردکن کف زمین را خیس می‌کند؟

۰۶ اسفند ۱۴۰۴
iAeFyA6sJueQvEgcq2t6UGo5iPLa8pO3DedTKKeJ

برای پاکسازی ریه چی بخوریم؟

۰۶ اسفند ۱۴۰۴

دیگر رسانه ها

اجاره خودرو

خبرجو تازه‌ترین اخبار در سراسر دنیا در حوره های مالی , فرهنگی , اقتصادی و ... را برای شما به اشتراک خواهد گذاشت.

ما را دنبال کنید

اخبار اخیر

پرینت سه بعدی سفارشی؛ راهکاری هوشمند برای ساخت قطعات خاص و کمیاب در کوتاه‌ترین زمان

۱۲ اسفند ۱۴۰۴
تور اقساطی استانبول، دبی و آنتالیا: سفری به یاد ماندنی با پرداخت آسان

تور اقساطی استانبول، دبی و آنتالیا: سفری به یاد ماندنی با پرداخت آسان

۰۶ اسفند ۱۴۰۴

دسته بندی ها

  • ارز دیجیتال
  • اقتصاد و سرمایه
  • تناسب اندام
  • دسته‌بندی نشده
  • سلامتی
  • شیوه زندگی
  • فرهنگ و هنر
  • فناوری

همکاران

  • اخبار اقتصاد
  • تعمیرات موبایل تهران
  • بیت یونیکس
  • ال بانک
  • توبیت
  • آکادمی فارکس شایان
  • تبلیغات
  • تماس با ما

خوش آمدید!

به حساب خود در زیر وارد شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • صفحه اصلی
  • فرهنگ و هنر
  • تناسب اندام
  • فناوری
  • اقتصاد و سرمایه
  • سلامتی
  • شیوه زندگی
  • ارز دیجیتال