فروشگاه اینترنتی نفیس فایل

خرید، فروش و بازاریابی فایل های قابل دانلود. مرجع بزرگ دانلود پاورپوینت، جزوه درسی و انواع فایل های دانلودی

فروشگاه اینترنتی نفیس فایل

خرید، فروش و بازاریابی فایل های قابل دانلود. مرجع بزرگ دانلود پاورپوینت، جزوه درسی و انواع فایل های دانلودی

دانلود پاورپوینت یادگیری تقویتی


دانلود-پاورپوینت-یادگیری-تقویتی
دانلود پاورپوینت یادگیری تقویتی
فرمت فایل دانلودی: .ppt
فرمت فایل اصلی: ppt
تعداد صفحات: 23
حجم فایل: 311
قیمت: 20000 تومان

بخشی از متن:
دانلود پاورپوینت یادگیری تقویتی

نوع فایل:power point

قابل ویرایش:23 اسلاید



قسمتی از اسلایدها:
یادگیری تقویتی میتواند کار بسیار سختی باشدزیرا عامل در مقابل کاری که انجام میدهد پاسخ مستقیمی در مورد درست یا نادرستی آن دریافت نمیکند.
برای مثال عاملی که میخواهد از طریق شبیه سازی یک هواپیما را هدایت نماید در هر لحظه مجبور است تا تصمیم جدید بگیرد و اگر بعد از هزاران عمل هواپیما سقوط نماید، عامل چگونه میتواند عملی که به سقوط هواپیما منجر شده را شناسائی نماید؟
در اینجا Dynamic Programming با معرفی دو اصل ساده سعی در ارائه راه حل مینماید:
اگر عملی انجام شود که بلافاصله منجر به نتیجه بدی نظیر سقوط هواپیما گردد عامل باید یاد بگیرد که در دفعات بعدی در حالت مشابه آن عمل را تکرار نکند.لذا عامل باید از عملی که بلافاصله قبل از سقوط هواپیما انجام داده بود پرهیز کند.
اگر عملی در یک موقعیت خاص منجر به نتیجه بدی شد، باید از قرار گرفتن در آن موقعیت پرهیز نمود.بنا بر این اگر قرار گرفتن در جهت و موقعیت خاصی منجر به سقوط هواپیما میشود، عامل یاد میگیرد که از انجام عملیاتی که منجر به قرار گرفتن هواپیما در چنین شرائطی میگردند پرهیر نماید.




فهرست مطالب واسلایدها:

یادگیری تقویتی

مقایسه RL با یادگیری با ناظر

Dynamic Programming

اجزا یک سیستم یادگیری تقویتی

The Environment

Markov Decision Processes (MDPs)

مدلهای عملکرد بهینه

یادگیری خط مشی

Value Function

مثال

Approximating the Value Function


دانلود فایلپرداخت با کلیه کارتهای عضو شتاب امکان پذیر است.

پاورپوینت یادگیری تقویتی


پاورپوینت-یادگیری-تقویتی
پاورپوینت یادگیری تقویتی
فرمت فایل دانلودی: .rar
فرمت فایل اصلی: pptx
تعداد صفحات: 23
حجم فایل: 61
قیمت: 2000 تومان

بخشی از متن:
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
دو استراتژی اصلی برای اینکار وجود دارد:
یکی استفاده از الگوریتم های ژنتیکی
و دیگری استفاده از روشهای آماری و dynamic programming
در RL روش دوم مد نظر است.

محیط مجموعه ای از S حالت ممکن است.
در هر لحظه t عامل میتواند یکی از A عمل ممکن را انجام دهد.
عامل ممکن است در مقابل عمل و یا مجموعه ای از اعمالی که انجام میدهد پاداش r را دریافت کند. این پاداش ممکن است مثبت و یا منفی )تنبیه(باشد
عامل در محیط حرکت کرده و حالتها و پاداشهای مربوطه را به خاطر می سپارد.
عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.
مقایسه RL با یادگیری با ناظر
Exploitation versus Exploration
Dynamic Programming
اجزا یک سیستم یادگیری تقویتی
The Environment
The Reinforcement Function
مدلهای عملکرد بهینه
یادگیری خط مشی

دانلود فایلپرداخت با کلیه کارتهای عضو شتاب امکان پذیر است.