name: "obj-1", foo() { console.log( "obj1.foo:", this.name ); } }, obj2 = { name: "obj
in outer request-9 from obj_ref_dict obj-0: <A|x: 0> in obj_ref_dict obj-1: <A|x: 1> in obj_ref_dict obj : None in outer request-9 from obj_ref_dict obj-0: None in obj_ref_dict obj-1: None in obj_ref_dict obj
可以通过多轮强化学习方法来解决 (Obj-1) 和 (Obj-2)。
可以通过多轮RL方法解决(Obj-1)和(Obj-2),例如基于策略梯度的中间密集奖励方法,或者基于演员-评论家(actor-critic)架构的方法(例如,先前的ArCHer工作)。