首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用KEA或其他python库提取关键字

使用KEA或其他python库提取关键字
EN

Stack Overflow用户
提问于 2016-12-02 08:52:51
回答 1查看 814关注 0票数 1

我现在为一个关键词提取项目工作。基本上,我使用python来完成这个任务。让我先谈谈我的项目是什么。我在这个项目中的目标是从一个段落或一个网页中找出关键词(关键词不是那么可取)。

我假设我可以从一个网站上抓取一个相当好的内容结构。

假设我有很多段落,所有的段落都来自同一行业。下面是一个示例段落:

关于我们 我们是世界上最大的银行,提供世界上最安全的服务。我们的银行提供外汇,证券交易和储蓄服务。在过去的几年里,我们成功地建立了一个可靠的声誉。

其次,我在其他段落中标记了这些段落中的关键字,以建立一个监督学习模型。

最后,我尝试使用KEA,这是一个JAVA程序(我使用python来调用JAVA程序)来建立一个模型。

然而,最终的结果是非常糟糕的。准确率仅为15%左右。这意味着如果我给我的KEA程序一个段落,KEA将输出10个关键字给我,几乎85%的这些关键字实际上不是一个理想的关键字。

这里我有几个问题:

  1. 这个问题是关于KEA的准备材料。在培训数据中,关键字应该包含在.txt文件中吗?还是我应该把它从段落中删除?因为它是关于在KEA的自述文件中混淆的:

“从这些文档中删除作者指定的关键短语,并将它们放入单独的".key”文件中。例如,如果您的文档文件名为doc1.txt,请将这些关键字移动到一个名为"doc1.key“的新文件中。在此文件中将每个关键字放在单独的一行上是很重要的!”

因此,假设我有我的训练数据的最后一个例子段落,并假设‘安全’和‘可靠’。我是否应该从该段中删除这两个字?

  1. 由于KEA可以应用SKOS词汇表,这是否意味着如果我在某个主题(例如金融业)中使用适当的SKOS词汇表,我的模型结果会更好吗?如果是,我在哪里可以找到这些SKOS词汇表,例如,我想要SKOS有关金融业的词汇表。
  2. 是否有来自python的建议库可以在此主题中强大?有人能和我分享吗?

非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2016-12-15 20:11:16

实际上,我试图使用这个(https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) kaggle例子来实现这个目标。不过,这实在太简单了。

不知怎么的,我想知道更多的练习案例。比如netfix或facebook如何检测人们的评论。还有人会向我提供更多关于文本挖掘的信息吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40928110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档