首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >计算趋势主题

计算趋势主题
EN

Stack Overflow用户
提问于 2010-02-12 04:58:42
回答 4查看 1.5K关注 0票数 5

假设我正在根据各种条件从twitter收集tweet,并将这些tweet存储在本地mysql数据库中。我想能够电脑热门话题,如推特,可以在任何地方的长度从1-3个字。

有没有可能写一个脚本来做类似PHP和mysql的事情?

我发现,一旦能够获得术语的计数,我就可以回答如何计算哪些术语是“热门”的,但我被困在了第一部分。我应该如何将数据存储在数据库中,如何统计长度为1-3个单词的术语在数据库中的出现频率?

EN

回答 4

Stack Overflow用户

发布于 2011-04-25 20:46:20

来自我的热门话题接收:

  1. out the tweets
  2. 将每条推文按空格拆分成n-gram (如果您想要3个单词的长度,最多3个) array
  3. 从url,@username,常用词和垃圾字符中过滤出每个数组
  4. 计数所有唯一关键字/短语频率

<代码>H19静音一些垃圾单词/短语<代码>H210<代码>G211

可以,您可以在php & mysql;上进行。)

票数 2
EN

Stack Overflow用户

发布于 2010-02-12 05:29:25

如何首先在单个单词标记中分解您的tweet,并计算每个单词的出现次数?一旦有了它们,您就可以分解所有两个单词标记,计算出现的次数,最后对所有三个单词标记执行相同的操作。

你可能还想添加一些你不想统计的单词的字典

票数 1
EN

Stack Overflow用户

发布于 2010-02-12 05:31:40

你需要的是

  1. 文档分类,或..
  2. automatic tagging

可能是第二个。只有到那时,你才能及时计算出他们的受欢迎程度。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2247663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档