【摘要】这份报纸与期望的全部的报酬标准学习可数的连续时间的Markov决定过程。作者首先与可能的无界的转变率学习非强迫的模型,并且在作者在下面显示出全部的报酬optimality方程并且也的一个答案的存在的控制系统原语数据上给合适的条件一条最佳的静止政策的存在。然后,作者在期望的全部的费用上强加限制,并且考虑联系抑制模型。关于非强迫的模型并且用Lagrangemultipliers途径基于结果,作者在一些另外的条件下面证明抑制最佳的政策的存在。最后,作者把结果用于控制排队系统。
【关键词】
全文来源于知网
Fault Detection for Complex Systems with Channel F WANG Yanqin1 REN Wei 2018 16288 0 ¥:0
收藏
China's NTB Market: A Liquidity Dilemma LI Yumeng1,2,3 MENG 2018 16351 0 ¥:0
收藏
How Does Debt Structure Influence Stock Price Cras JIA Zichao DENG Lu X 2018 16500 0 ¥:0
收藏
An Improved Early Termination Sparse Interpolation HUANG Qiaolong 2018 16581 0 ¥:0
收藏
Fuzzy Static Output Feedback H∞ Control for Nonlin ZHAO Tao DIAN Songyi 2018 16702 0 ¥:0
收藏