首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否可以用BART seq2seq瞄准特定的输出长度范围?

是否可以用BART seq2seq瞄准特定的输出长度范围?
EN

Data Science用户
提问于 2021-11-01 08:52:19
回答 1查看 314关注 0票数 1

我目前正在开发一个基于Facebook BART模型的抽象摘要模型。一致的绝对长度输出将是非常可取的。问题是输入长度可能变化很大。也就是说,创建培训数据,说明如下:

  1. 接受输入文本(新闻文章)并开始(递归)删除示例、多余的细节、不必要的背景信息、引号等。
  2. 一旦你的总结少于90个单词,停止删除一些东西。
  3. 修改文本格式以与样式指南匹配。

在Huggingface上提供的大型BART模型在200个样本上进行了微调.所有200个样本的输出序列长度为60-88个字.然而,该模型预测的输出长度从50到105字不等,一些异常值高达120个字。

现在我在质疑,仅仅在这个问题上扔更多的样本是否真的能解决这个问题。由于模型很好地遵循风格指南,我不想放弃这种方法。太长的输出可以通过增加长度惩罚来消除。但这将使“太短”的情况更加普遍。

通过指定更多的示例,微调可以实现更窄的输出长度范围吗?或者,是否有一种更“无趣”的解决方案来惩罚不在范围内的产出长度?

EN

回答 1

Data Science用户

发布于 2021-11-01 20:18:32

答案是进入更低级别的实际转换器配置,然后强制模型创建64-128令牌序列。在训练之前这样做会迫使模型适应这种约束,显然,这些硬边界最终导致的输出仅在指定的范围内。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档