首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抽取文本摘要,作为一种使用深度网络的分类问题

抽取文本摘要,作为一种使用深度网络的分类问题
EN

Data Science用户
提问于 2017-06-30 10:58:07
回答 2查看 1.2K关注 0票数 2

我知道这是广泛的,但我只需要几个指点。

我想实现一个文本摘要系统。我已经尝试了一种抽象的方法,现在我正在尝试一种抽象化的方法。目前的采掘方法(Textrank,Lexrank等)并没有提供最佳的性能。有人建议我把它当作一项无监督的学习任务,使用自动编码器/RBM或K均值或任何其他无监督学习算法将句子归类为重要的或不重要的。

我的问题是:

  1. 这样的事可行吗?(我知道,在数据科学中,没有任何东西是可以肯定的,除非尝试一下,但这值得吗?)
  2. 我应该把什么特征输入到分类器中?我已经知道词频分布,句子位置,共现统计,但这些都足够了吗?我应该考虑哪些附加功能?还是我应该考虑直接给出文字向量呢?

我也做过同样的工作,读过几篇论文,但没有一篇在特性计算方面提供清晰,而只是解释了网络体系结构。

任何形式的帮助都将不胜感激,谢谢!

EN

回答 2

Data Science用户

发布于 2017-07-05 07:16:56

TL;DR:

这样的事可行吗?(我知道,在数据科学中,没有任何东西是可以肯定的,除非尝试一下,但这值得吗?)

我应该把什么特征输入到分类器中?我已经知道词频分布,句子位置,共现统计,但这些都足够了吗?我应该考虑哪些附加功能?还是我应该考虑直接给出文字向量呢?

输入文字向量。深度学习是一种很好的特征,如tf-以色列国防军、共现等.

更长版本:

输入:

使用像Word2Vec或Glove这样的单词嵌入算法将所有的单词转换成单词向量。这通常是一个好主意,因为这允许你用更好的语义(狗、猫、牛等将接近)和句法(11月、12月等将接近)来表示单词。

(使用tf-以色列国防军作为一个功能对我来说没有用。我用它来用神经网络来监督抽取摘要。)

如何管理输入:

这在很大程度上取决于您的数据是如何。(请让我知道哪个数据集)我假设您有类似于句子1,句子2,。的输入和类似于真假...的输出,这意味着摘要中有sent1,而sent2没有。

如果您的数据不在此表单中,则应将其转换为此表单。

你还没有说明是无人监督还是监督。

监督

使用LSTM。逐字逐句地给LSTM喂食。一旦句子结束(标记为标记,例如或句号),LSTM就会预测句子是否应该在摘要中。在这个基础上训练它。

这有点类似于你会如何做情感分析:在句子中输入,然后询问情绪是积极的还是消极的。

您可以尝试堆叠LSTM或改变超参数,以获得更好的结果。

无人监管的

这有点困难。您可以将句子转换为向量(Sent2Vec),并希望重要的句子聚在一起,因为它们包含重要的单词。

或者你可以训练一个神经网络来预测下一个字符,并希望其中一个神经元学会预测重要的单词/句子,就像OpenAI无监督情绪神经元所做的那样,它学会了预测情绪。

如今遵循的一般“深度”架构是:嵌入,编码,出席,预测

看看我发布的链接(蓝色),它们可能对你有用。

注意:如果可能的话,请提到你的数据集,以及你是如何做摘要的(考虑到这比采掘要难得多)

票数 2
EN

Data Science用户

发布于 2017-07-17 19:04:19

我尝试过markovify,这是python中用于文本文档自动文本摘要的马尔可夫链库。你可以通过一种简单的无监督的方法来验证这一点。对我来说,它并没有给出令人满意的结果,因为我使用了医学期刊的摘要作为我的数据集,但是如果你尝试在一个不同的主题数据集上使用它,它可能会帮助你。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/20084

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档