嗨,我想用机器学习模式使用点击率来提取英语文本中的单词。现在我知道了文本的点击率,我知道如何提取每个文本的单词(词),例如,大约有10000个文本,并且提供了每个文本的点击率。如何为点击率提取单词特征。如何提取关键词,计算每个单词的重要性,以计算点击率。
发布于 2018-04-09 05:39:01
您可以建立一个字符序列(单词)字典,对于每一个文本实例,您将统计这些单词的出现情况。您可以使用字符的分组,n-克,也可以使用自己使用包字词。
N-图是一种基于语言的数据特征提取技术.它对字符串进行分段,从而可以找到单词的词根,而忽略动词结尾、复数等。
该分段的工作如下:
弦乐:你好世界
2克:"He“、"el”、"ll“、"lo”、"o“、"o”、“W”、"Wo“、”或“、"rl”、"ld“3克、"Hel”、"ell“、"llo”、"lo“、”o W“、”Wo“、"Wor”、"orl“、"rld”4-gram:"Hell“、ello、llo、lo W,"o Wo“、”Wor“、"Worl”、"orld“
因此,在你的例子中,如果我们使用4克,单词Hello的截尾看起来是一样的。这种相似之处将被你的特征所捕捉。
单词袋建立一个字典的词,它已经看到了在培训阶段。然后,使用单词,即示例中每个单词的频率,创建一个向量。然后,这可以与任何标准的机器学习技术一起使用。
https://datascience.stackexchange.com/questions/30061
复制相似问题