首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache火花- Tweets处理

Apache火花- Tweets处理
EN

Stack Overflow用户
提问于 2018-06-15 17:22:52
回答 2查看 292关注 0票数 0

考虑到一个庞大的tweet数据集,我需要:

  • 提取并计数哈希标签。
  • 提取并计数表情符号/表情符号。
  • 提取并计数单词(引引词)

所以,我想到的第一件事就是做这样的事:

代码语言:javascript
复制
val tweets = sparkContext.textFile(DATASET).cache

val hashtags = tweets
                .map(extractHashTags)
                .map((_, 1))
                .reduceByKey(_ + _)

val emoticonsEmojis = tweets
                .map(extractEmoticonsEmojis)
                .map((_, 1))
                .reduceByKey(_ + _)

val lemmas = tweets
                .map(extractLemmas)
                .map((_, 1))
                .reduceByKey(_ + _) 

但以这种方式,每条推文被处理了3次,对吗?如果是这样的话,是否有一种有效的方法来单独计算所有这些元素,只处理每条推文一次?

我在想这样的事情:

代码语言:javascript
复制
sparkContext.textFile(DATASET)
    .map(extractor) // RDD[(List[String], List[String], List[String])]

但这样它就变成了一场噩梦。另外,因为一旦我数了单词(我指的是请求的第三点),我将需要与另一个RDD连接,而在第一个版本中,这是非常简单的,而在第二个版本中则不是。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-06-15 18:13:05

使用Dataset API:

代码语言:javascript
复制
val tweets = sparkContext.textFile(DATASET)

val tokens = tweets.flatMap(extractor) //return RDD[(String, String)]
  .toDF("type", "token") //type is one of ("hashtag", "emoticon", "lemma")
  .groupBy("type", "token")
  .count() //Dataset[Row] which has columns ("type", "token", "count")

val lemmas = tokens
  .where($"type" === lit("lemma"))
  .select("token", "count")
  .as[(String, Long)]
  .rdd //should be the same type as your original 'lemmas', for future join
票数 0
EN

Stack Overflow用户

发布于 2018-06-15 18:15:08

也许是这样的?

代码语言:javascript
复制
sealed trait TokenType { }
object Hashtag extends TokenType
object Emoji extends TokenType
object Word extends TokenType

def extractTokens(tweet: String): Seq[(TokenType, String)] = {
  ...
}

val tokenCounts = tweets
                  .flatMap(extractTokens)
                  .map((_, 1))
                  .reduceByKey(_ + _)

val hashtagCounts = tokenCounts.collect { case ((Hashtag, x), count) => (x, count) }
// similar for emojis and words
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50880170

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档