首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >目标信息提取/重点提取摘要

目标信息提取/重点提取摘要
EN

Data Science用户
提问于 2019-06-21 01:56:22
回答 2查看 94关注 0票数 0

我有大量的项目手册,每一个都有大量的页面。每本手册都载有某种形式的摘要段落,尽管这些段落的结构或格式不一定各不相同。手册的其余部分通常包含大量与项目有关的各种信息,并不总是与需要提取和总结的内容相关。

从理论上讲-

代码语言:javascript
复制
paragraph 1 - Project Summary (Extract this)
paragraph 2 - Background info (ignore)
paragraph 3 - Background info (ignore)
paragraph 4 - Background info (ignore)
paragraph 5 - Project Requirements (extract this)

是否有可能有选择地针对一份文件中的段落/句子进行抽象化摘要,如果有,是否有可能用包含全文及其所需摘要的数据集来训练模型?

到目前为止,我已经尝试了一般的提取总结方法,利用TF-以色列国防军。然而,由于文件中有大量无关的信息,摘要段落中的关键文本通常被忽略。我已经考虑过在不同的关键字中手动增加字数,但我认为这仍然会忽略相关句子和短语(对所需段落/句子的二进制分类也是如此)。

这能做到吗?还有比我目前尝试的更好的方法吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-06-21 15:27:03

您所描述的是一个受监督的问题,没有监督的系统无法猜测文档的哪一部分与您的目的相关。在此选项中,您需要用二进制类对文档示例进行注释,然后使用基于上下文的特性(例如,部件的标题)对系统进行培训。

但重要的是,这取决于您有多少文档:如果它少于几百个,半手工注释将更快,并提供更好的结果。

票数 0
EN

Data Science用户

发布于 2019-06-21 09:08:29

如何将文本分割成不同的段落,只根据关键词或模式选择重要段落,然后将摘要技术应用于提取出来的段落。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/54186

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档