问面向长文档的集合式文档汇总
EN

Stack Overflow用户

提问于 2021-12-10 20:14:32

回答 1查看 1K关注 0票数 3

我希望总结任务通常假定为长文档。但是，在文档这里之后，我所做的任何简单摘要调用都是太长的文档：

>>> summarizer = pipeline("summarization")
>>> summarizer(fulltext)
Token indices sequence length is longer than the specified maximum sequence length for this model (5620 > 1024). Running this sequence through the model will result in indexing errors

>>> summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
>>> summary = summarizer(fulltext)
Token indices sequence length is longer than the specified maximum sequence length for this model (8084 > 1024). Running this sequence through the model will result in indexing errors

>>> summarizer = pipeline("summarization", model="t5-base", tokenizer="t5-base")
>>> summary = summarizer(fulltext)
Token indices sequence length is longer than the specified maximum sequence length for this model (5971 > 512). Running this sequence through the model will result in indexing errors

什么样的模型或配置选择使这一过程最自动化？我读过建议手动分块数据或截断的其他问题，但边界和块长的选择似乎会对摘要产生影响。武断的长文档的最佳实践是什么？(无界将是很好的，但至少有50,000个令牌。)

python

huggingface-transformers

回答 1

Stack Overflow用户

发布于 2021-12-20 09:05:49

我假设最小标记长度为50k，这意味着你在试图概括像小说一样大的东西。不幸的是，我们还没有一个能够同时处理这么多数据的模型。这主要是因为这类模型的内存占用量很高，可以在生产中使用。但是，pegasus(google)，Longformer，Reformer都是总结长文档的可行选择。研究仍然在进行，以建立模型，可以处理更大的序列，而不消耗大量的资源。例如，对改革器本身进行了高度优化，以处理大量令牌https://huggingface.co/blog/reformer。到目前为止，最佳做法是“分而治之”。要将数据块化，将最大长度作为参考。您甚至可以在迭代中这样做，直到达到指定的摘要长度为止。您还可以探索不同的摘要方法，例如提取和抽象摘要，并利用您的创造性将这些技术结合起来，比如提取摘要，然后进行抽象。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70309921

复制

相似问题

问面向长文档的集合式文档汇总
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问面向长文档的集合式文档汇总EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问面向长文档的集合式文档汇总
EN