محققان MIT روش جدیدی را برای حل مشکلات پیچیده اجتناب از تداوم بهتر از روش های دیگر با یادگیری ماشین توسعه داده اند.
گزارش کردن تکناکاین روش یادگیری ماشینی امنیت معادل یا بیشتر از روش های موجود را فراهم می کند و در عین حال ثبات را ده برابر می کند، یعنی عامل به هدف خود می رسد و در آن حالت پایدار می ماند.
چوچو فن، ویلسون، استادیار علوم هوانوردی و هوافضا، عضو آزمایشگاه سیستم های اطلاعات و تصمیم گیری (LIDS) و نویسنده ارشد این مقاله مقاله حدید درباره این روش می گوید: این موضوع مدت هاست که یک مشکل چالش برانگیز بوده است. بسیاری از مردم آن را بررسی کرده اند اما از نحوه مدیریت چنین دینامیک پیچیده و چند بعدی آگاه نبودند.
فن این مقاله را با همکاری اسوین سو نوشته و در کنفرانس علم و سیستم های رباتیک ارائه خواهد شد.
چالش پایداری-اجتنابی
بسیاری از روشها با سادهسازی سیستم برای حل آن با معادلات ساده ریاضی، مشکلات پیچیده اجتناب از پایداری را حل میکنند، اما نتایج ساده شده اغلب با دینامیک دنیای واقعی مطابقت ندارند.
روشهای مؤثرتر از یادگیری تقویتی استفاده میکنند، یک روش یادگیری ماشینی با آموزش مبتنی بر آزمون و خطا و دریافت پاداش هنگام نزدیک شدن به هدف. در اینجا فقط دو هدف وجود دارد: ثبات و اجتناب از موانع، به همراه یافتن تعادل مناسب بین آنها، که فرآیندی طاقت فرسا است.
محققان MIT این مشکل را به دو مرحله تقسیم کرده اند. ابتدا، آنها مسئله تداوم-اجتناب را به عنوان یک مسئله بهینه سازی محدود مورد مطالعه قرار دادند. به گفته Suh، در این تنظیمات، بهینه سازی به سیستم اجازه می دهد تا به هدف خود برسد و پایدار باشد، یعنی در یک منطقه خاص بماند. سپس، با اعمال محدودیت ها، آنها می توانند اطمینان حاصل کنند که سیستم از موانع اجتناب می کند.
سپس، در مرحله دوم، این مسئله بهینه سازی محدود را دوباره به یک معادله ریاضی شناخته شده یعنی epigraph تبدیل می کنند و با استفاده از یک الگوریتم یادگیری تقویتی عمیق آن را حل می کنند. Epigraph اجازه می دهد تا از مشکلاتی که هنگام استفاده از روش های دیگر یادگیری تقویتی ایجاد می شود اجتناب کنید.
سو می گوید، با این حال، یادگیری تقویت عمیق برای حل شکل اپی گراف یک مسئله بهینه سازی طراحی نشده است، بنابراین نمی توان آن را مستقیماً در معادله این مسئله گنجاند. برای این منظور، ما مشتقات ریاضی درستی را برای سیستم خود تعریف کردیم و سپس، با در دست داشتن مشتقات جدید، آنها را با برخی از ترفندهای مهندسی موجود که توسط روشهای دیگر استفاده میشوند، ترکیب کردیم.
رتبه دوم امتیازی ندارد
آنها برای آزمایش روش خود، تعدادی آزمایش کنترلی با شرایط اولیه متفاوت طراحی کردند. برای مثال، در برخی شبیهسازیها، سیستم خودمختار طوری برنامهریزی میشد که به منطقه هدف برسد و در آنجا بماند، در حالی که مانورهای ناگهانی برای جلوگیری از برخورد با موانع در مسیر انجام میداد.
در مقایسه با چندین خط پایه، روش آنها تنها روشی بود که توانست در تمام مسیرها با حفظ امنیت پایدار بماند. آنها برای آزمایش بیشتر روش خود، از آن برای پرواز یک هواپیمای جت مجازی در سناریویی شبیه به «تاپ گان» استفاده کردند. در حالی که جت باید ارتفاع بسیار پایینی را حفظ می کرد و در مسیر پروازی باریکی می ماند، باید در برابر یک هدف نزدیک به زمین نیز تثبیت می شد.
این مدل جت مجازی در سال 2018 منبع باز بود و توسط کارشناسان کنترل پرواز به عنوان یک چالش آزمایشی طراحی شد. به گفته فان، این مدل به قدری پیچیده بود که کار با آن دشوار بود و هنوز امکان مدیریت سناریوهای پیچیده وجود نداشت.
کنترلر محققین MIT در هنگام استقرار در منطقه هدف بهتر از زمانی که در هر یک از خطوط پایه مستقر می شود، از توقف یا توقف جت جلوگیری کرد.
در آینده، این روش میتواند نقطه شروعی برای طراحی کنترلکنندههای ربات بسیار پویا مانند پهپادهای تحویل خودکار باشد و الزامات امنیتی و پایداری آنها را برآورده کند. یا می تواند به عنوان بخشی از یک سیستم بزرگتر اجرا شود. این الگوریتم را می توان تنها زمانی فعال کرد که خودرو در جاده ای برفی می لغزد تا به راننده کمک کند تا با خیال راحت به خط پایدار بازگردد.
سو همچنین افزود: این روش در شرایط بسیار سخت و خارج از کنترل انسان بسیار خبرجو خواهد بود.
وی گفت: ما معتقدیم هدف این حوزه باید تلاش برای ایجاد ایمنی و پایداری یادگیری تقویتی باشد که بتوان با اطمینان در مواقعی که نیاز به استفاده از کنترلرها در سیستمهای حیاتی است، استفاده کرد. به نظر ما، این اولین گام امیدوارکننده برای رسیدن به این هدف است.»
در ادامه، محققان قصد دارند تکنیک خود را برای در نظر گرفتن عدم قطعیت در راه حل بهینه سازی و همچنین بررسی نحوه عملکرد الگوریتم هنگام استقرار بر روی سخت افزار بهبود بخشند. این تابع تفاوت هایی بین دینامیک مدل و دنیای واقعی در ابتدای پیاده سازی خواهد داشت.
استنلی بک، یکی از محققان، گفت: “تیم پروفسور فن عملکرد یادگیری تقویتی را برای سیستم های پویا متمرکز بر امنیت بهبود بخشیده است. آنها به جای تمرکز بر یک هدف، کنترل کننده هایی را با اطمینان از دستیابی به هدف ایمن و استقرار نامحدود در منطقه خواهند ساخت.” استادیار گروه علوم کامپیوتر دانشگاه استونی بروک. این فرمول یک مدل هواپیمای جت غیرخطی 17 حالته است که بخشی از آن توسط محققان آزمایشگاه تحقیقات نیروی هوایی (AFRL) توسعه یافته است و معادلات دیفرانسیل غیرخطی با لیفت و درگ را در خود جای داده است. جداول.”
مقاله «حل بهتر مسائل پیچیده با روش یادگیری ماشینی» اولین بار در خبرجو – اخبار دنیای فناوری پدیدار شد. ظاهر شد.
گفتگو در مورد این post