当前使用twitteR包,我遇到了按分钟或小时提取推文的障碍。我的终极目标是在粒度级别上看到特定主题的推文总数(特别是像超级碗或世界杯这样的大型活动)。
该包允许使用since和until搜索tweet,但可以获得的最大粒度是按天搜索。
以下是代码的示例:
tweets <- searchTwitter("grammy", n=1500, since='2016-02-15', until='2016-02-16')发布于 2016-02-21 02:17:36
根据@SQLMenace的结果,twitteR似乎只检索状态,而不返回准确的日期/时间信息。
在这种情况下,这取决于执行分析的场景。如果您在事件发生时“实时”执行分析,则可以简单地以CRONjob运行R脚本。假设您每隔20分钟运行一次作业来获取所有最新的tweet。然后,您可以消除重复,以了解在20分钟内发生了多少条独特的tweet。
但是,如果您回溯执行分析,上述方法将不起作用。我要告诫你不要使用twitteR。看起来按日期收集tweet的功能并不是那么通用。我推荐使用tweepy (对于Python),它不仅可以检索状态,还可以检索tweet发送的确切时间。
希望这能有所帮助。
https://stackoverflow.com/questions/35526331
复制相似问题