文章/答案/技术大牛

发布

社区首页 >问答首页 >深度学习二进制文本分类

问深度学习二进制文本分类
EN

Data Science用户

提问于 2017-06-01 17:04:43

回答 1查看 987关注 0票数 2

我希望为特定的新闻和博客文章建立一个模型，这些文章将时尚与生物学模式结合在一起。我有35个网站，我每天阅读(这是令人筋疲力尽)。我想知道如何创建这样一个模型，以便我可以每天发送文章给它，它可以预测它们是否值得阅读(即相关的和无关的)。例如，在一个完美的世界中，我发送了230篇文章，其中12篇是根据以前的培训和测试文章返回的。假设所有12个都是相关的，我将它们保存到培训dir并重新编译以加强模型。

在阅读了用Keras进行深度学习之后，我希望第5章和第6章关于单词嵌入和RNN(简单，LSTM，GRU)将为我指明如何开发这样一个模型。我还在阅读如何实现用于文本分类的CNN，但似乎无法构建一个基本的概念框架，以便从几篇文章开始，并每天添加培训数据以加强模型。

这类策略有什么术语吗？它是以某种形式在Kaggle，Github等上完成的吗？

neural-network

classification

text-mining

回答 1

Data Science用户

发布于 2017-06-01 18:35:45

从更广的意义上讲，你在这里指的是文本挖掘。这是根据一定的标准从文本中提取信息的地方，以便形成特定的模式和意义等。

您将如何实现这一点取决于您所考虑的标准。

例如，让我们假设您有一篇文本格式的博客文章(让我们在本例中称它为filepath.txt )。

您决定要将单词排序为特定类别。例如，您可以将关键词酒店、航班、国家归类为旅行，即三个词的每一个关联都将被数据所取代。让我们假设数据是相关的兴趣类别。任何属于旅行类别的文章都会被包括在你感兴趣的物品中。

使用Python，您可以扫描文件并使用filedata.replace将关键字替换为类别：

# Read file
with open('filepath.txt', 'r') as file :
filedata = file.read()

# Replace keyword
filedata = filedata.replace('How ', ' ')
filedata = filedata.replace('Why ', ' ')
filedata = filedata.replace('of ', ' ')
filedata = filedata.replace('to ', ' ')
filedata = filedata.replace('you ', ' ')
filedata = filedata.replace('all ', ' ')
filedata = filedata.replace('and ', ' ')
filedata = filedata.replace('be ', ' ')
filedata = filedata.replace(' a ', ' ')
filedata = filedata.replace(' for ', ' ')
filedata = filedata.replace(' in ', ' ')
filedata = filedata.replace(' is ', ' ')
filedata = filedata.replace(' the ', ' ')
filedata = filedata.replace(' about ', ' ')
filedata = filedata.replace(' an ', ' ')
filedata = filedata.replace('Data', ' data ')
filedata = filedata.replace('Python', ' data ')
filedata = filedata.replace('R', ' data ')
filedata = filedata.replace('machine', ' data ')
filedata = filedata.replace('Linux', ' data ')
filedata = filedata.replace('technology', ' data ')
filedata = filedata.replace('flights', 'travel')
filedata = filedata.replace('countries', 'travel')
filedata = filedata.replace('hotel', 'travel')
filedata = filedata.replace('analytics', 'data')
filedata=  filedata.replace('CNN', 'news')
filedata=  filedata.replace('weather', 'news')
filedata=  filedata.replace('Trump', 'news')
filedata=  filedata.replace('market', 'business')
filedata=  filedata.replace('entrepreneur', 'business')
filedata=  filedata.replace('financial', 'business')

# Write to file
with open('filepath2.txt', 'w') as file:
file.write(filedata)

然后，您可以使用一个库(如R中的stringr r)来查看类别(将关键字替换为类别)出现的频率：

require(stringr)
WordList <- str_split(readLines("filepath2.txt"), pattern = " ")
searchqueries<-sort(table(WordList),decreasing=TRUE)[1:100]
searchqueries

例如，如果类别出现X次或更多次，那么文章就被认为是相关的。

这只是如何使用文本挖掘的一个例子。同样，这很大程度上取决于你的具体标准以及你将如何确定相关性。但这是你接近它的一种方式。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/19400

复制

相似问题

问深度学习二进制文本分类
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问深度学习二进制文本分类EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问深度学习二进制文本分类
EN