我在上下文强盗设置中使用元音。但是,我被一个奇怪的问题所打动,元音只产生相同的PMF,而不管上下文如何。理想情况下,它应该根据不同的上下文为行动选择生成不同的PMF。这是我正在使用的示例数据。
shared |Context t1=a_c t2:5 t3=a_b t4:2 t5:10
|Action arm=a1
|Action arm=a2
|Action arm=a3
|Action arm=a4
0:-5:0.09 | Action arm=a5
|Action arm=a6
|Action arm=a7
|Action arm=a8
|Action arm=a9
|Action arm=a10
|Action arm=a11我用下面的设置初始化了我的元音。
--cb_explore_adf --cb_type mtr --epsilon 0.05以下是与数据中的上下文无关的动作分布。
想知道什么是元音饱和的原因。是因为提供了超视距吗?
发布于 2022-08-04 22:21:56
--cb_explore_adf --cb_type mtr -q CA --epsilon 0.05为我工作。
https://stackoverflow.com/questions/73237292
复制相似问题