总结超过4096标记限制的长文本(例如播客文本)的最佳方法是什么?据我所知,我需要将文本分成几个部分进行总结,然后将结果连在一起并对这些结果进行总结。是否已经有一个流行的开源脚本来做到这一点?
我能正确理解GPT-3是最好的模式吗?我看过一些关于使用BERT进行采掘总结的文章,但是结果质量很低。
发布于 2023-01-17 04:53:40
是否已经有一个流行的开源脚本来做到这一点?
Python GPT指数 (麻省理工学院许可证)可以用GPT-3概括大型文档或文档集合。
来自文档:
索引=GPTTreeIndex(文档) response = index.query("",mode=“汇总”)基于树的查询的“默认”模式是从图的顶部向下遍历到叶节点。为了更精确的总结目的,我们想要使用更高级的
mode="summarize"。摘要查询可能类似于以下内容之一:
文档包括一个带有完整示例的笔记本:https://github.com/jerryjliu/gpt_索引/blob/主/示例/paul_格雷厄姆_论文/TestEssay.ipynb
另一个Python库:https://github.com/hwchase17/langchain (麻省理工学院许可证)。来自文档:
from langchain.chains.summarize import load_summarize_chain
chain = load_summarize_chain(llm, chain_type="map_reduce")
chain.run(docs)FYI {1,2}是两篇研究GPT-3性能以进行总结的伟大论文,但他们只看简短的文本。
更新2023-02-23:下一版本的GPT可能允许32k令牌:

参考文献:
https://datascience.stackexchange.com/questions/117716
复制相似问题