文章/答案/技术大牛

发布

社区首页 >问答首页 >使用KEA或其他python库提取关键字

问使用KEA或其他python库提取关键字
EN

Stack Overflow用户

提问于 2016-12-02 08:52:51

回答 1查看 814关注 0票数 1

我现在为一个关键词提取项目工作。基本上，我使用python来完成这个任务。让我先谈谈我的项目是什么。我在这个项目中的目标是从一个段落或一个网页中找出关键词(关键词不是那么可取)。

我假设我可以从一个网站上抓取一个相当好的内容结构。

假设我有很多段落，所有的段落都来自同一行业。下面是一个示例段落：

关于我们我们是世界上最大的银行，提供世界上最安全的服务。我们的银行提供外汇，证券交易和储蓄服务。在过去的几年里，我们成功地建立了一个可靠的声誉。

其次，我在其他段落中标记了这些段落中的关键字，以建立一个监督学习模型。

最后，我尝试使用KEA，这是一个JAVA程序(我使用python来调用JAVA程序)来建立一个模型。

然而，最终的结果是非常糟糕的。准确率仅为15%左右。这意味着如果我给我的KEA程序一个段落，KEA将输出10个关键字给我，几乎85%的这些关键字实际上不是一个理想的关键字。

这里我有几个问题：

这个问题是关于KEA的准备材料。在培训数据中，关键字应该包含在.txt文件中吗？还是我应该把它从段落中删除？因为它是关于在KEA的自述文件中混淆的：

“从这些文档中删除作者指定的关键短语，并将它们放入单独的".key”文件中。例如，如果您的文档文件名为doc1.txt，请将这些关键字移动到一个名为"doc1.key“的新文件中。在此文件中将每个关键字放在单独的一行上是很重要的！”

因此，假设我有我的训练数据的最后一个例子段落，并假设‘安全’和‘可靠’。我是否应该从该段中删除这两个字？

由于KEA可以应用SKOS词汇表，这是否意味着如果我在某个主题(例如金融业)中使用适当的SKOS词汇表，我的模型结果会更好吗？如果是，我在哪里可以找到这些SKOS词汇表，例如，我想要SKOS有关金融业的词汇表。
是否有来自python的建议库可以在此主题中强大？有人能和我分享吗？

非常感谢。

java

python

machine-learning

keyword-search

回答 1

Stack Overflow用户

发布于 2016-12-15 20:11:16

实际上，我试图使用这个(https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) kaggle例子来实现这个目标。不过，这实在太简单了。

不知怎么的，我想知道更多的练习案例。比如netfix或facebook如何检测人们的评论。还有人会向我提供更多关于文本挖掘的信息吗？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40928110

复制

相似问题

问使用KEA或其他python库提取关键字
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用KEA或其他python库提取关键字EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用KEA或其他python库提取关键字
EN