首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习模式适用于使用单词特征作为x,y作为文本的点击率。

机器学习模式适用于使用单词特征作为x,y作为文本的点击率。
EN

Data Science用户
提问于 2018-04-09 05:04:19
回答 1查看 56关注 0票数 0

嗨,我想用机器学习模式使用点击率来提取英语文本中的单词。现在我知道了文本的点击率,我知道如何提取每个文本的单词(词),例如,大约有10000个文本,并且提供了每个文本的点击率。如何为点击率提取单词特征。如何提取关键词,计算每个单词的重要性,以计算点击率。

EN

回答 1

Data Science用户

发布于 2018-04-09 05:39:01

您可以建立一个字符序列(单词)字典,对于每一个文本实例,您将统计这些单词的出现情况。您可以使用字符的分组,n-克,也可以使用自己使用包字词。

n-gram

N-图是一种基于语言的数据特征提取技术.它对字符串进行分段,从而可以找到单词的词根,而忽略动词结尾、复数等。

该分段的工作如下:

弦乐:你好世界

2克:"He“、"el”、"ll“、"lo”、"o“、"o”、“W”、"Wo“、”或“、"rl”、"ld“3克、"Hel”、"ell“、"llo”、"lo“、”o W“、”Wo“、"Wor”、"orl“、"rld”4-gram:"Hell“、ello、llo、lo W,"o Wo“、”Wor“、"Worl”、"orld“

因此,在你的例子中,如果我们使用4克,单词Hello的截尾看起来是一样的。这种相似之处将被你的特征所捕捉。

书包

单词袋建立一个字典的词,它已经看到了在培训阶段。然后,使用单词,即示例中每个单词的频率,创建一个向量。然后,这可以与任何标准的机器学习技术一起使用。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/30061

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档