یک سیستم خودتطبیق میتواند ساختار و رفتار خود را در زمان اجرا، بر اساس درکش از محیط و از خودش و نیازمندیهایش، اصلاح کند. یکی از عناصر کلیدی در توسعه این سیستمها، منطق خودتطبیقی آن است که زمان و نحوه تطبیق سیستم را رمزگذاری میکند. هنگام توسعه منطق تطبیق، مهندسان با چالش عدم قطعیت زمان طراحی مواجهاند. برای تعریف زمان تطبیق سیستم، باید تمام حالات محیطی بالقوه را پیش بینی کنند. پیش بینی تمام تغییرات محیطی بالقوه اغلب به دلیل اطلاعات ناقص در زمان طراحی، غیرممکن است. یادگیری تقویتی برخط، با یادگیری اثربخشی عملیات تطبیق، از طریق تعامل سیستم با محیط در زمان اجرا، مشکل عدم قطعیت زمان طراحی را برطرف، و توسعه منطق خودتطبیقی را بطور خودکار درمیآورد. عناصر یادگیری تقویتی، در حلقه MAPE-K سیستمهای خودتطبیق ادغام میشود. روشهای یادگیری تقویتی برخط موجود در سیستمهای خودتطبیق، دانش آموخته شده را در قالب تابع ارزش نمایش می-دهند و دو نقص دارند که درجه خودکارسازی و توسعه را محدود میکند: 1- نیازمند تنظیم دقیق نرخ اکتشاف بصورت دستی هستند 2- برای تقویت توسعهپذیری، ممکن است نیاز به کمی سازی حالت های محیط به صورت دستی باشد. در این مقاله برای خودکارسازی فعالیتهای فوق از یادگیری تقویتی عمیق، استفاده شد. در این یادگیری، دانش در قالب یک شبکه عصبی، در وزنهای شبکه عصبی پنهان است. نتایج آزمایشات از سرعت همگرایی بالای یادگیری حکایت دارد.
نیکفرجام, کاظم. (1402). توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق. اکتشاف و پردازش هوشمند دانش, 3(8), -. doi: 10.30508/kdip.2023.383007.1060
MLA
کاظم نیکفرجام. "توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق". اکتشاف و پردازش هوشمند دانش, 3, 8, 1402, -. doi: 10.30508/kdip.2023.383007.1060
HARVARD
نیکفرجام, کاظم. (1402). 'توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق', اکتشاف و پردازش هوشمند دانش, 3(8), pp. -. doi: 10.30508/kdip.2023.383007.1060
VANCOUVER
نیکفرجام, کاظم. توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق. اکتشاف و پردازش هوشمند دانش, 1402; 3(8): -. doi: 10.30508/kdip.2023.383007.1060