我希望为特定的新闻和博客文章建立一个模型,这些文章将时尚与生物学模式结合在一起。我有35个网站,我每天阅读(这是令人筋疲力尽)。我想知道如何创建这样一个模型,以便我可以每天发送文章给它,它可以预测它们是否值得阅读(即相关的和无关的)。例如,在一个完美的世界中,我发送了230篇文章,其中12篇是根据以前的培训和测试文章返回的。假设所有12个都是相关的,我将它们保存到培训dir并重新编译以加强模型。
在阅读了用Keras进行深度学习之后,我希望第5章和第6章关于单词嵌入和RNN(简单,LSTM,GRU)将为我指明如何开发这样一个模型。我还在阅读如何实现用于文本分类的CNN,但似乎无法构建一个基本的概念框架,以便从几篇文章开始,并每天添加培训数据以加强模型。
这类策略有什么术语吗?它是以某种形式在Kaggle,Github等上完成的吗?
发布于 2017-06-01 18:35:45
从更广的意义上讲,你在这里指的是文本挖掘。这是根据一定的标准从文本中提取信息的地方,以便形成特定的模式和意义等。
您将如何实现这一点取决于您所考虑的标准。
例如,让我们假设您有一篇文本格式的博客文章(让我们在本例中称它为filepath.txt )。
您决定要将单词排序为特定类别。例如,您可以将关键词酒店、航班、国家归类为旅行,即三个词的每一个关联都将被数据所取代。让我们假设数据是相关的兴趣类别。任何属于旅行类别的文章都会被包括在你感兴趣的物品中。
使用Python,您可以扫描文件并使用filedata.replace将关键字替换为类别:
# Read file
with open('filepath.txt', 'r') as file :
filedata = file.read()
# Replace keyword
filedata = filedata.replace('How ', ' ')
filedata = filedata.replace('Why ', ' ')
filedata = filedata.replace('of ', ' ')
filedata = filedata.replace('to ', ' ')
filedata = filedata.replace('you ', ' ')
filedata = filedata.replace('all ', ' ')
filedata = filedata.replace('and ', ' ')
filedata = filedata.replace('be ', ' ')
filedata = filedata.replace(' a ', ' ')
filedata = filedata.replace(' for ', ' ')
filedata = filedata.replace(' in ', ' ')
filedata = filedata.replace(' is ', ' ')
filedata = filedata.replace(' the ', ' ')
filedata = filedata.replace(' about ', ' ')
filedata = filedata.replace(' an ', ' ')
filedata = filedata.replace('Data', ' data ')
filedata = filedata.replace('Python', ' data ')
filedata = filedata.replace('R', ' data ')
filedata = filedata.replace('machine', ' data ')
filedata = filedata.replace('Linux', ' data ')
filedata = filedata.replace('technology', ' data ')
filedata = filedata.replace('flights', 'travel')
filedata = filedata.replace('countries', 'travel')
filedata = filedata.replace('hotel', 'travel')
filedata = filedata.replace('analytics', 'data')
filedata= filedata.replace('CNN', 'news')
filedata= filedata.replace('weather', 'news')
filedata= filedata.replace('Trump', 'news')
filedata= filedata.replace('market', 'business')
filedata= filedata.replace('entrepreneur', 'business')
filedata= filedata.replace('financial', 'business')
# Write to file
with open('filepath2.txt', 'w') as file:
file.write(filedata)然后,您可以使用一个库(如R中的stringr r)来查看类别(将关键字替换为类别)出现的频率:
require(stringr)
WordList <- str_split(readLines("filepath2.txt"), pattern = " ")
searchqueries<-sort(table(WordList),decreasing=TRUE)[1:100]
searchqueries例如,如果类别出现X次或更多次,那么文章就被认为是相关的。
这只是如何使用文本挖掘的一个例子。同样,这很大程度上取决于你的具体标准以及你将如何确定相关性。但这是你接近它的一种方式。
https://datascience.stackexchange.com/questions/19400
复制相似问题