基于一般化斜投影的异策略时序差分学习算法
吴毓双1,陈筱语1,马静雯2,陈兴国2,3*
Off-policy linear temporal difference learning algorithms with a generalized oblique projection
Wu Yushuang1,Chen Xiaoyu1,Ma Jingwen2,Chen Xingguo2,3*
南京大学学报(自然科学版) . 2017, (6): 1052 .