文章/答案/技术大牛

发布

社区首页 >问答首页 >抽取文本摘要，作为一种使用深度网络的分类问题

问抽取文本摘要，作为一种使用深度网络的分类问题
EN

Data Science用户

提问于 2017-06-30 10:58:07

回答 2查看 1.2K关注 0票数 2

我知道这是广泛的，但我只需要几个指点。

我想实现一个文本摘要系统。我已经尝试了一种抽象的方法，现在我正在尝试一种抽象化的方法。目前的采掘方法(Textrank，Lexrank等)并没有提供最佳的性能。有人建议我把它当作一项无监督的学习任务，使用自动编码器/RBM或K均值或任何其他无监督学习算法将句子归类为重要的或不重要的。

我的问题是：

这样的事可行吗？(我知道，在数据科学中，没有任何东西是可以肯定的，除非尝试一下，但这值得吗？)
我应该把什么特征输入到分类器中？我已经知道词频分布，句子位置，共现统计，但这些都足够了吗？我应该考虑哪些附加功能？还是我应该考虑直接给出文字向量呢？

我也做过同样的工作，读过几篇论文，但没有一篇在特性计算方面提供清晰，而只是解释了网络体系结构。

任何形式的帮助都将不胜感激，谢谢！

deep-learning

nlp

svm

automatic-summarization

回答 2

Data Science用户

发布于 2017-07-05 07:16:56

TL;DR:

这样的事可行吗？(我知道，在数据科学中，没有任何东西是可以肯定的，除非尝试一下，但这值得吗？)

是

我应该把什么特征输入到分类器中？我已经知道词频分布，句子位置，共现统计，但这些都足够了吗？我应该考虑哪些附加功能？还是我应该考虑直接给出文字向量呢？

输入文字向量。深度学习是一种很好的特征，如tf-以色列国防军、共现等.

更长版本：

输入：

使用像Word2Vec或Glove这样的单词嵌入算法将所有的单词转换成单词向量。这通常是一个好主意，因为这允许你用更好的语义(狗、猫、牛等将接近)和句法(11月、12月等将接近)来表示单词。

(使用tf-以色列国防军作为一个功能对我来说没有用。我用它来用神经网络来监督抽取摘要。)

如何管理输入：

这在很大程度上取决于您的数据是如何。(请让我知道哪个数据集)我假设您有类似于句子1，句子2，。的输入和类似于真假...的输出，这意味着摘要中有sent1，而sent2没有。

如果您的数据不在此表单中，则应将其转换为此表单。

你还没有说明是无人监督还是监督。

监督

：

使用LSTM。逐字逐句地给LSTM喂食。一旦句子结束(标记为标记，例如或句号)，LSTM就会预测句子是否应该在摘要中。在这个基础上训练它。

这有点类似于你会如何做情感分析：在句子中输入，然后询问情绪是积极的还是消极的。

您可以尝试堆叠LSTM或改变超参数，以获得更好的结果。

无人监管的

：

这有点困难。您可以将句子转换为向量(Sent2Vec)，并希望重要的句子聚在一起，因为它们包含重要的单词。

或者你可以训练一个神经网络来预测下一个字符，并希望其中一个神经元学会预测重要的单词/句子，就像OpenAI无监督情绪神经元所做的那样，它学会了预测情绪。

如今遵循的一般“深度”架构是：嵌入，编码，出席，预测

看看我发布的链接(蓝色)，它们可能对你有用。

注意:如果可能的话，请提到你的数据集，以及你是如何做摘要的(考虑到这比采掘要难得多)

票数 2

Data Science用户

发布于 2017-07-17 19:04:19

我尝试过markovify，这是python中用于文本文档自动文本摘要的马尔可夫链库。你可以通过一种简单的无监督的方法来验证这一点。对我来说，它并没有给出令人满意的结果，因为我使用了医学期刊的摘要作为我的数据集，但是如果你尝试在一个不同的主题数据集上使用它，它可能会帮助你。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/20084

复制

相似问题

问抽取文本摘要，作为一种使用深度网络的分类问题
EN

回答 2

Data Science用户

TL;DR:

更长版本：

输入：

如何管理输入：

：

：

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抽取文本摘要，作为一种使用深度网络的分类问题EN

回答 2

Data Science用户

TL;DR:

更长版本：

输入：

如何管理输入：

：

：

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抽取文本摘要，作为一种使用深度网络的分类问题
EN