强化-向人学习-反馈对培训数据-标签-再一次.
发布于 2023-01-04 14:20:35
ChatGPT是一个生成模型,它生成令牌序列。在分类问题的意义上没有标签。因此,在ChatGPT的上下文中,使用奖励信号重新标记是没有意义的。
另一方面,RLHF用于使模型倾向于生成所需的序列。
https://datascience.stackexchange.com/questions/117491
相似问题