l یادگیری تقویتی از اینرو مورد توجه است که راهی برای
آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه
است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص
نمائیم . l دو استراتژی اصلی برای اینکار وجود دارد : .1 یکی
استفاده از الگوریتم های ژنتیکی .2 و دیگری استفاده از روشهای
آماری و dynamic programming l در RL روش دوم مد نظر است .
فایل ورد 23 اسلاید ...