首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >面向长文档的集合式文档汇总

面向长文档的集合式文档汇总
EN

Stack Overflow用户
提问于 2021-12-10 20:14:32
回答 1查看 1K关注 0票数 3

我希望总结任务通常假定为长文档。但是,在文档这里之后,我所做的任何简单摘要调用都是太长的文档:

代码语言:javascript
复制
>>> summarizer = pipeline("summarization")
>>> summarizer(fulltext)
Token indices sequence length is longer than the specified maximum sequence length for this model (5620 > 1024). Running this sequence through the model will result in indexing errors

>>> summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
>>> summary = summarizer(fulltext)
Token indices sequence length is longer than the specified maximum sequence length for this model (8084 > 1024). Running this sequence through the model will result in indexing errors

>>> summarizer = pipeline("summarization", model="t5-base", tokenizer="t5-base")
>>> summary = summarizer(fulltext)
Token indices sequence length is longer than the specified maximum sequence length for this model (5971 > 512). Running this sequence through the model will result in indexing errors

什么样的模型或配置选择使这一过程最自动化?我读过建议手动分块数据截断的其他问题,但边界和块长的选择似乎会对摘要产生影响。武断的长文档的最佳实践是什么?(无界将是很好的,但至少有50,000个令牌。)

EN

回答 1

Stack Overflow用户

发布于 2021-12-20 09:05:49

我假设最小标记长度为50k,这意味着你在试图概括像小说一样大的东西。不幸的是,我们还没有一个能够同时处理这么多数据的模型。这主要是因为这类模型的内存占用量很高,可以在生产中使用。但是,pegasus(google),LongformerReformer都是总结长文档的可行选择。研究仍然在进行,以建立模型,可以处理更大的序列,而不消耗大量的资源。例如,对改革器本身进行了高度优化,以处理大量令牌https://huggingface.co/blog/reformer。到目前为止,最佳做法是“分而治之”。要将数据块化,将最大长度作为参考。您甚至可以在迭代中这样做,直到达到指定的摘要长度为止。您还可以探索不同的摘要方法,例如提取和抽象摘要,并利用您的创造性将这些技术结合起来,比如提取摘要,然后进行抽象。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70309921

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档