我知道这是广泛的,但我只需要几个指点。
我想实现一个文本摘要系统。我已经尝试了一种抽象的方法,现在我正在尝试一种抽象化的方法。目前的采掘方法(Textrank,Lexrank等)并没有提供最佳的性能。有人建议我把它当作一项无监督的学习任务,使用自动编码器/RBM或K均值或任何其他无监督学习算法将句子归类为重要的或不重要的。
我的问题是:
我也做过同样的工作,读过几篇论文,但没有一篇在特性计算方面提供清晰,而只是解释了网络体系结构。
任何形式的帮助都将不胜感激,谢谢!
发布于 2017-07-05 07:16:56
这样的事可行吗?(我知道,在数据科学中,没有任何东西是可以肯定的,除非尝试一下,但这值得吗?)
是
我应该把什么特征输入到分类器中?我已经知道词频分布,句子位置,共现统计,但这些都足够了吗?我应该考虑哪些附加功能?还是我应该考虑直接给出文字向量呢?
输入文字向量。深度学习是一种很好的特征,如tf-以色列国防军、共现等.
使用像Word2Vec或Glove这样的单词嵌入算法将所有的单词转换成单词向量。这通常是一个好主意,因为这允许你用更好的语义(狗、猫、牛等将接近)和句法(11月、12月等将接近)来表示单词。
(使用tf-以色列国防军作为一个功能对我来说没有用。我用它来用神经网络来监督抽取摘要。)
这在很大程度上取决于您的数据是如何。(请让我知道哪个数据集)我假设您有类似于句子1,句子2,。的输入和类似于真假...的输出,这意味着摘要中有sent1,而sent2没有。
如果您的数据不在此表单中,则应将其转换为此表单。
你还没有说明是无人监督还是监督。
监督
使用LSTM。逐字逐句地给LSTM喂食。一旦句子结束(标记为标记,例如或句号),LSTM就会预测句子是否应该在摘要中。在这个基础上训练它。
这有点类似于你会如何做情感分析:在句子中输入,然后询问情绪是积极的还是消极的。
您可以尝试堆叠LSTM或改变超参数,以获得更好的结果。
无人监管的
这有点困难。您可以将句子转换为向量(Sent2Vec),并希望重要的句子聚在一起,因为它们包含重要的单词。
或者你可以训练一个神经网络来预测下一个字符,并希望其中一个神经元学会预测重要的单词/句子,就像OpenAI无监督情绪神经元所做的那样,它学会了预测情绪。
如今遵循的一般“深度”架构是:嵌入,编码,出席,预测
看看我发布的链接(蓝色),它们可能对你有用。
注意:如果可能的话,请提到你的数据集,以及你是如何做摘要的(考虑到这比采掘要难得多)
发布于 2017-07-17 19:04:19
我尝试过markovify,这是python中用于文本文档自动文本摘要的马尔可夫链库。你可以通过一种简单的无监督的方法来验证这一点。对我来说,它并没有给出令人满意的结果,因为我使用了医学期刊的摘要作为我的数据集,但是如果你尝试在一个不同的主题数据集上使用它,它可能会帮助你。
https://datascience.stackexchange.com/questions/20084
复制相似问题