我是Spark的新手。开始我的第一个项目。需要分析twitter数据以进行情绪分析。为此,我需要使用Python语言中的TextBlob库。我能够获得twitter数据,并在所有必要的转换后创建Dstream。当TextBlob只接受字符串值时,我面临的挑战是如何使数据流数据(具有推文文本)可用于TextBlob进行分析。如何将数据流的值导入TextBlob进行情感分析。任何指针都是非常感谢的。
谢谢,Kary
发布于 2018-11-28 00:15:43
我最近尝试使用Textblob进行流式数据集,并编写了一个小函数来将tweet转换为文本并应用textblob。所以你可以像这样写一些东西:
def getSentiment(self, text):
sentiment = TextBlob(text).sentiment.polarity
if sentiment > float(benchmark):
return float(positive)
elif sentiment < float(benchmark):
return float(negative)
else:
return float(noresponse)然后编写接受文本的UDF
sentiment_score_udf = F.udf(lambda x: obj.getSentiment(x), FloatType())这里的F是pyspark sql函数,然后您可以使用beow来计算情感得分
sentiment_score_udf(col("value")).alias("sentiment_score")希望这能有所帮助
https://stackoverflow.com/questions/46623034
复制相似问题