我目前正在开发一个基于Facebook BART模型的抽象摘要模型。一致的绝对长度输出将是非常可取的。问题是输入长度可能变化很大。也就是说,创建培训数据,说明如下:
在Huggingface上提供的大型BART模型在200个样本上进行了微调.所有200个样本的输出序列长度为60-88个字.然而,该模型预测的输出长度从50到105字不等,一些异常值高达120个字。
现在我在质疑,仅仅在这个问题上扔更多的样本是否真的能解决这个问题。由于模型很好地遵循风格指南,我不想放弃这种方法。太长的输出可以通过增加长度惩罚来消除。但这将使“太短”的情况更加普遍。
通过指定更多的示例,微调可以实现更窄的输出长度范围吗?或者,是否有一种更“无趣”的解决方案来惩罚不在范围内的产出长度?
发布于 2021-11-01 20:18:32
答案是进入更低级别的实际转换器配置,然后强制模型创建64-128令牌序列。在训练之前这样做会迫使模型适应这种约束,显然,这些硬边界最终导致的输出仅在指定的范围内。
https://datascience.stackexchange.com/questions/103677
复制相似问题