我现在为一个关键词提取项目工作。基本上,我使用python来完成这个任务。让我先谈谈我的项目是什么。我在这个项目中的目标是从一个段落或一个网页中找出关键词(关键词不是那么可取)。
我假设我可以从一个网站上抓取一个相当好的内容结构。
假设我有很多段落,所有的段落都来自同一行业。下面是一个示例段落:
关于我们 我们是世界上最大的银行,提供世界上最安全的服务。我们的银行提供外汇,证券交易和储蓄服务。在过去的几年里,我们成功地建立了一个可靠的声誉。
其次,我在其他段落中标记了这些段落中的关键字,以建立一个监督学习模型。
最后,我尝试使用KEA,这是一个JAVA程序(我使用python来调用JAVA程序)来建立一个模型。
然而,最终的结果是非常糟糕的。准确率仅为15%左右。这意味着如果我给我的KEA程序一个段落,KEA将输出10个关键字给我,几乎85%的这些关键字实际上不是一个理想的关键字。
这里我有几个问题:
“从这些文档中删除作者指定的关键短语,并将它们放入单独的".key”文件中。例如,如果您的文档文件名为doc1.txt,请将这些关键字移动到一个名为"doc1.key“的新文件中。在此文件中将每个关键字放在单独的一行上是很重要的!”
因此,假设我有我的训练数据的最后一个例子段落,并假设‘安全’和‘可靠’。我是否应该从该段中删除这两个字?
非常感谢。
发布于 2016-12-15 20:11:16
实际上,我试图使用这个(https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) kaggle例子来实现这个目标。不过,这实在太简单了。
不知怎么的,我想知道更多的练习案例。比如netfix或facebook如何检测人们的评论。还有人会向我提供更多关于文本挖掘的信息吗?
https://stackoverflow.com/questions/40928110
复制相似问题