ویژگی های صوتی و تصویری جدید نسخه موبایلی ChatGPT

شرکت OpenAI اعلام کرد که شروع به افزودن ویژگی‌های جدید صوتی ، همراه با امکان بارگذاری تصاویر که می‌توانند تحلیل شوند به ربات چت هوش مصنوعی خود یعنی ChatGPT کرده است.

به گزارش تکناک، شرکت OpenAI در یک پست وبلاگ، اعلام کرد که کاربران ChatGPT به زودی قادر خواهند بود با این ربات چت از طریق میکروفون صحبت کنند.

هنگامی که این ویژگی در برنامه iOS و Android اضافه شود ، کاربران می‌توانند به منوی تنظیمات بروند و سپس گزینه ویژگی‌های جدید را انتخاب کنند. سپس می‌توانند برای شروع مکالمات صوتی در برنامه، ضربه بزنند. در نهایت، می‌توانند بر روی نماد هدفون ضربه بزنند و از بین پنج گزینه صوتی یکی را انتخاب کنند.

در حالی که دستیارهای هوش مصنوعی مانند بینگ چت از پیش در تلفن‌های هوشمند موجود هستند، شرکت OpenAI با نشان‌دادن قابلیتهای صوتی جدید ChatGPT و زمان پاسخگویی سریع، تمایز سیستم خود را به رخ می کشد. هر عاملی که میانه زمان تفسیر اعلامیه‌های گفتاری و دریافت پاسخی با صدای طبیعی را کاهش دهد، قطعاً برای کاربرانی که ترجیح می‌دهند روی صفحه‌نمایش‌های کوچک ننویسند جذاب تر خواهد بود.

OpenAI می گوید: ویژگی صوتی جدید از یک مدل تبدیل متن به گفتار جدید استفاده می کند، که می‌تواند فقط با متن و چند ثانیه از نمونه گفتار، صدایی شبیه به انسان ایجاد کند. ما با صداپیشگان حرفه‌ای همکاری کردیم تا صداهای متنوعی را ایجاد کنیم. ما همچنین از Whisper، سیستم تشخیص گفتار متن باز خودمان، استفاده می‌کنیم تا کلمات گفته شده توسط شما را به متن تبدیل کند.

نکته جالبی از این رونمایی نشان می‌دهد که چگونه مدل Whisper می‌تواند صدای شبه انسان را از متن و چند ثانیه نمونه گفتار تولید کند، که می‌تواند به عنوان مفهومی برای کاربران جهت دیجیتالی کردن صداهای سفارشی برای دستیاران هوش مصنوعی هیجان‌انگیزتر باشد.

امکان بارگذراری تصاویر در برنامه‌های موبایل ChatGPT به زودی امکان پذیر خواهد بود. بعد از بارگذاری تصاویر ChatGPT می‌تواند تصویر را بررسی کند و تعدادی وظایف مختلف مانند تجزیه و تحلیل یک نمودار برای انجام یک Task، رفع مشکل زمانی که یک دستگاه کار نمی‌کند و بیشتر را انجام دهد.

OpenAI در این مورد می گوید: درک تصویر توسط مدل‌های چندحالته GPT-3.5 و GPT-4 قدرت گرفته است. این مدل‌ها توانایی‌های استدلال زبانی خود را به دسته‌های گسترده‌ای از تصاویر، مانند عکس‌ها، تصاویر صفحه نمایش، و اسنادی که هم متن و هم تصویر دارند، اعمال می‌کنند.

قسمت هیجان‌انگیز این به‌روزرسانی، توانمندی نوین ChatGPT در استخراج جزئیات از هر تصویر ارائه شده توسط شما است.

با فعال کردن دوربین موبایل خود برای گرفتن یک عکس سریع، شما می‌توانید ناحیه‌های مشخصی از تصویر را برای جستجو انتخاب کنید.

شرکت OpenAI در یک ویدئو نشان می‌دهد یک کاربر چگونه برای کم کردن ارتفاع صندلی دوچرخه، کمک می‌خواهد. البته، اپلیکیشن با طرح سوالات مربوط به ابزارهای لازم، پاسخ‌های جامعی ارائه می‌دهد. طبعاً، ایده‌هایی مانند سوء تفاهم‌های هویتی و سرگرمی‌های ذهنی فوراً به ذهن می‌آیند و OpenAI نیز چالش‌های آتی را تایید می‌کند

OpenAI قبلاً تجربه کار با «Be My Eyes» را داشته است، یک اپلیکیشن موبایل که به وسیلهٔ هوش مصنوعی افراد نابینا یا دارای مشکلات بینایی را به داوطلبانی متصل می‌کند که می‌توانند توضیح دهند دوربین گوشی آنها چه چیزی را نشان می‌دهد.

بین این اپلیکیشن و شبکه عصبی ChatGPT، تشخیص دقیق اشیا و صحنه‌ها به مرور زمان، به لطف این داده‌ها، پیشرفت می‌کند.

با این وجود، محدود کردن هوش مصنوعی از ارائه نظرات در مورد ظاهر افراد، جزء تعادل برقرار کردن بین اصول اخلاقی و محدودیت‌های فناوری است..

ویژگی‌های جدید در طول چند هفته آینده به برنامه های OpenAIاضافه خواهند شد و ابتدا برای کاربران ChatGPT Plus و Enterprise در دسترس قرار خواهند گرفت. دسترسی این ویژگی‌ها در آینده نزدیک به توسعه‌دهندگان و سایر کاربران ChatGPT گسترش خواهند یافت.

نوشته ویژگی های صوتی و تصویری جدید نسخه موبایلی ChatGPT اولین بار در خبرجو – اخبار دنیای تکنولوژی. پدیدار شد.