问是否可以用BART seq2seq瞄准特定的输出长度范围？
EN

Data Science用户

提问于 2021-11-01 08:52:19

回答 1查看 314关注 0票数 1

我目前正在开发一个基于Facebook BART模型的抽象摘要模型。一致的绝对长度输出将是非常可取的。问题是输入长度可能变化很大。也就是说，创建培训数据，说明如下：

在Huggingface上提供的大型BART模型在200个样本上进行了微调.所有200个样本的输出序列长度为60-88个字.然而，该模型预测的输出长度从50到105字不等，一些异常值高达120个字。

现在我在质疑，仅仅在这个问题上扔更多的样本是否真的能解决这个问题。由于模型很好地遵循风格指南，我不想放弃这种方法。太长的输出可以通过增加长度惩罚来消除。但这将使“太短”的情况更加普遍。

通过指定更多的示例，微调可以实现更窄的输出长度范围吗？或者，是否有一种更“无趣”的解决方案来惩罚不在范围内的产出长度？

发布于 2021-11-01 20:18:32

答案是进入更低级别的实际转换器配置，然后强制模型创建64-128令牌序列。在训练之前这样做会迫使模型适应这种约束，显然，这些硬边界最终导致的输出仅在指定的范围内。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/103677

复制

相似问题

问是否可以用BART seq2seq瞄准特定的输出长度范围？EN