首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >深度学习二进制文本分类

深度学习二进制文本分类
EN

Data Science用户
提问于 2017-06-01 17:04:43
回答 1查看 987关注 0票数 2

我希望为特定的新闻和博客文章建立一个模型,这些文章将时尚与生物学模式结合在一起。我有35个网站,我每天阅读(这是令人筋疲力尽)。我想知道如何创建这样一个模型,以便我可以每天发送文章给它,它可以预测它们是否值得阅读(即相关的和无关的)。例如,在一个完美的世界中,我发送了230篇文章,其中12篇是根据以前的培训和测试文章返回的。假设所有12个都是相关的,我将它们保存到培训dir并重新编译以加强模型。

在阅读了用Keras进行深度学习之后,我希望第5章和第6章关于单词嵌入和RNN(简单,LSTM,GRU)将为我指明如何开发这样一个模型。我还在阅读如何实现用于文本分类的CNN,但似乎无法构建一个基本的概念框架,以便从几篇文章开始,并每天添加培训数据以加强模型。

这类策略有什么术语吗?它是以某种形式在Kaggle,Github等上完成的吗?

EN

回答 1

Data Science用户

发布于 2017-06-01 18:35:45

从更广的意义上讲,你在这里指的是文本挖掘。这是根据一定的标准从文本中提取信息的地方,以便形成特定的模式和意义等。

您将如何实现这一点取决于您所考虑的标准。

例如,让我们假设您有一篇文本格式的博客文章(让我们在本例中称它为filepath.txt )。

您决定要将单词排序为特定类别。例如,您可以将关键词酒店、航班、国家归类为旅行,即三个词的每一个关联都将被数据所取代。让我们假设数据是相关的兴趣类别。任何属于旅行类别的文章都会被包括在你感兴趣的物品中。

使用Python,您可以扫描文件并使用filedata.replace将关键字替换为类别:

代码语言:javascript
复制
# Read file
with open('filepath.txt', 'r') as file :
filedata = file.read()

# Replace keyword
filedata = filedata.replace('How ', ' ')
filedata = filedata.replace('Why ', ' ')
filedata = filedata.replace('of ', ' ')
filedata = filedata.replace('to ', ' ')
filedata = filedata.replace('you ', ' ')
filedata = filedata.replace('all ', ' ')
filedata = filedata.replace('and ', ' ')
filedata = filedata.replace('be ', ' ')
filedata = filedata.replace(' a ', ' ')
filedata = filedata.replace(' for ', ' ')
filedata = filedata.replace(' in ', ' ')
filedata = filedata.replace(' is ', ' ')
filedata = filedata.replace(' the ', ' ')
filedata = filedata.replace(' about ', ' ')
filedata = filedata.replace(' an ', ' ')
filedata = filedata.replace('Data', ' data ')
filedata = filedata.replace('Python', ' data ')
filedata = filedata.replace('R', ' data ')
filedata = filedata.replace('machine', ' data ')
filedata = filedata.replace('Linux', ' data ')
filedata = filedata.replace('technology', ' data ')
filedata = filedata.replace('flights', 'travel')
filedata = filedata.replace('countries', 'travel')
filedata = filedata.replace('hotel', 'travel')
filedata = filedata.replace('analytics', 'data')
filedata=  filedata.replace('CNN', 'news')
filedata=  filedata.replace('weather', 'news')
filedata=  filedata.replace('Trump', 'news')
filedata=  filedata.replace('market', 'business')
filedata=  filedata.replace('entrepreneur', 'business')
filedata=  filedata.replace('financial', 'business')

# Write to file
with open('filepath2.txt', 'w') as file:
file.write(filedata)

然后,您可以使用一个库(如R中的stringr r)来查看类别(将关键字替换为类别)出现的频率:

代码语言:javascript
复制
require(stringr)
WordList <- str_split(readLines("filepath2.txt"), pattern = " ")
searchqueries<-sort(table(WordList),decreasing=TRUE)[1:100]
searchqueries

例如,如果类别出现X次或更多次,那么文章就被认为是相关的。

这只是如何使用文本挖掘的一个例子。同样,这很大程度上取决于你的具体标准以及你将如何确定相关性。但这是你接近它的一种方式。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/19400

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档