下载数据集请登录爱数科(www.idatascience.cn) 该数据集可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包括疫情期间从twitter上获取的一系列关于COVID19的推特,以及他们所对应的情感标注。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
自从 2023 年推特被火星人马斯克先生收购并进行全面商业化之后,推特 API 的费用就水涨船高了。 注,推特已于 2023.7.24 日改名为 X ,并启用“X”标志,告别原有的小蓝鸟形象。 获取推特开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。 2023 年被公认为 ChatGPT 大模型元年,这一年在推特上关于 ChatGPT 的讨论推文数笔者初步估计应该在千万量级。 /chatgpt_tweets_202301_445238条.csv') print(df.shape) # (445238, 47) 每一条数据都包含推文 ID、发布时间、正文、发布来源、语言、推文查看数 ,均超过了 10000 条,出乎笔者意料的是日文推特数居然高居第 2 位,zh(中文)推特数排在第 13 位。
万博 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克和推特之间的“连续剧”,又更新了一集: 《推特正式起诉马斯克》。 并且在诉状中,推特还细数了马斯克决意收购前后的种种恶行。 推特:我无辜,我是受害者 在诉状中,推特收集了马斯克收购推特整个周期的相关信息,包括马斯克的相关推文,对马斯克终止收购的理由进行驳斥,并状告马斯克“三大罪”。 最后,马斯克还在7月8日的律师函中指责推特高管离职,但推特在诉状中表示,关于管理层的变动问题,推特在签署前成功地取消了这一条款。 接下来,推特又细数马斯克对推特犯下的3大罪状。 之后,也就是在周一推特发布律师函之前,马斯克又发布了一组表情包: 推特表示,马斯克是在暗示,如果推特起诉他,自己将不得不在法庭上披露他一直要求的虚假账户数据。 三大罪,马斯克偷偷买进推特股票。 最后,不管怎么样,这场马斯克收购推特的大戏要剧终,还要等到两个月以后。 马斯克与推特,法庭上见!
最后,将所有的转发、重复的数据从数据集中删除,2250万条推特的五个最终语料库总共有0.6B个字。专业领域的预训练数据集的内容是基础模型通用数据集大小的七分之一。 CT-BERT用于训练特定专业领域的数据集,训练评估结果表明:与标准的BERT-Large模型相比,该模型的性能将有10-30%的提高,尤其是在与COVID-19相关的推特信息数据集上,性能改进尤为显著 预训练 预训练代码在现有的预训练模型(如BERT-Large)基础上,对目标域数据(在这个例子中是推特数据)进行无监督的预训练。此代码原则上可以用于任何特殊专业领域数据集的预训练。 图18:评估数据集概览:所有五个评估数据集都是带标签的多分类数据集,通过标签栏中的比例栏宽度来实现可视化,N和Neg表示负面情绪;Disc 和A分别是沮丧和不确定情绪 7. 对于与COVID-19相关的数据集,在预训练完成20万步步长之后,下游性能有了明显的改进。SST-2这个唯一的非推特数据集,其性能改进则要慢得多,在预训练完成20万步步长之后,性能才开始改善。
数据结构设计 用户系统 用户之间存在 关注、被关注、互相关注三种关系,逻辑上形成网状结构,可以使用关系型数据库保存,可以快速检索用户之间的关系。 直观上推文在逻辑上是属于用户的,用户对自己的推文有增删改查的需求,查询都是需要返回一段连续时间范围内的推文,有删除的需求,有不等宽更新的需求,假如不用DB应该是一个list基础的数据结构比较合适。 当然实际业务场景一定是会用到数据库的。 查询也有另外两个特殊的要求:1、需要能看到自己和被关注者的推文 2、按时间戳顺序返回推文,且限定10条。 (比如文末code) 查询(方案三)推送 相对于惰性拉取,可以在每个用户发布推特后,主动把推文发送到被关注者,这样在用户读取推文时,无需检索关注者,只需读出收到的最新10条即可。 缺点是发布推文时需要广播到所有被关注者,时效性差;大量冗余数据发布、保存(用户不登录但是也需要广播);如果有热点用户(大量关注者)频繁发布推文,很容易造成热点问题。
思路 在推送给用户的推特,是该用户关注的人发的推特,并通过时间顺序合并在一起。采用多路归并的方式合并,在归并时,通过最小堆优化。 题目 设计一个简化版的推特(Twitter),可以让用户实现发送推文,关注/取消关注其他用户,能够看见关注人(包括自己)的最近 10 条推文。 1); // 用户 1 的获取推文应当返回一个列表,其中包含两个推文,id 分别为 -> [6, 5] 。 ; // 用户 1 获取推文应当返回一个列表,其中包含一个 id 为 5 的推文。 因为用户 1 已经不再关注用户 2 提示: 1 <= userId, followerId, followeeId <= 500 0 <= tweetId <= 104 所有推特的 ID 都互不相同 postTweet
我们对他每一年发的推特数量进行了统计: 可见他自从2009年开始就开通了推特,是推特的一名早期用户,但是真正变成推特重度依赖者是从2012年开始的。 他是怎么抽出时间来写推特的呢?我们对2019年以来特朗普每天发推时间进行了统计: 可以清楚地看到,特朗普是一个喜欢早起的boy,每天早上6点就起床发推,7点到9点这段早餐时间是发推的高峰期。 还有比较有趣的一点是,数据分析师David Robinson于2016年8月9日通过数据分析发现特朗普自己只用Android端发推特,iPhone端发的推特基本上是特朗普的团队代发的[1]。 该新闻被广泛报道之后,他再也没有用Android手机发过推,现在的推特基本都是由iPhone手机发的,让人安能辨我是雌雄? 然而基于历史数据和文本分类算法,数据分析师还是能分辨哪些是他本人发的。 以上是我们对于特朗普4万多条推特推文的发现,越分析可以得到越多的细节,也越觉得特朗普的推特简直就是一个“快乐源泉”。
作为推特上的大红人,马斯克入股平台似乎并不是一件让人费解的事情,推特管理层也抱着友好的态度欢迎马斯克加入董事会。 但这位“高级粉丝”的想法显然没有那么简单:先是连发多条推文对推特进行了轮番批评,随后更是表示“自己不差钱”,要将推特全价买下来变成一家“私营公司。” 超过Twitter; 2016年7月,微博月活超越Twitter; 随后,推特在股价和营收上也陷入了低谷,股价一泻千里,用户增长也一蹶不振。 自由的代价 在马斯克的公开信里,他直言不讳批评推特没有遵守言论自由的政策。但过去的推特显然是“自由过了头”,至少在特朗普账号被封禁之前一直没有改变。 从2019年第一季度到2020年第二季度,TikTok在美国的下载量增加了62%,这一数据已迅速超过了Facebook,Instagram、Snap,当然也包括了推特。
最后,将所有的转发、重复的数据从数据集中删除,2250万条推特的五个最终语料库总共有0.6B个字。专业领域的预训练数据集的内容是基础模型通用数据集大小的七分之一。 CT-BERT用于训练特定专业领域的数据集,训练评估结果表明:与标准的BERT-Large模型相比,该模型的性能将有10-30%的提高,尤其是在与COVID-19相关的推特信息数据集上,性能改进尤为显著 预训练 预训练代码在现有的预训练模型(如BERT-Large)基础上,对目标域数据(在这个例子中是推特数据)进行无监督的预训练。此代码原则上可以用于任何特殊专业领域数据集的预训练。 图18:评估数据集概览:所有五个评估数据集都是带标签的多分类数据集,通过标签栏中的比例栏宽度来实现可视化,N和Neg表示负面情绪;Disc 和A分别是沮丧和不确定情绪 7. 对于与COVID-19相关的数据集,在预训练完成20万步步长之后,下游性能有了明显的改进。SST-2这个唯一的非推特数据集,其性能改进则要慢得多,在预训练完成20万步步长之后,性能才开始改善。
具体原因如下: 推特的问题并不在推特本身 当马斯克完成对于推特的收购之前,不断地诟病推特,无论是从推特的产品本身,还是从推特的商业模式本身,几乎都是如此。 事实上,推特所面临的问题并不仅仅只是在于推特本身,而是整个社交行业都在面临着推特的问题。 从本质上来看,这是由推特的问题并不在推特本身所决定的。笔者认为,推特真正应该解决的是,用户的需求与推特的产品供给难以完美对接的问题。 收购推特并不在收购推特本身 在收购推特这件事上,马斯克始终都将自己包装成为一个「救世主」的形象。 推特的价值并不在推特本身 当马斯克开始收购推特的时候,我们通常所看到的诸多的分析都将其与社交联系在一起,甚至将推特的价值全部都归结到社交上。
而且,推特方面一直没有按照约定提交相关文件,证明其垃圾内容和垃圾账户的具体数字。 马斯克发推表示,我当时的出价的前提是,推特提交给SEC的文件中,所谓5%的数据是准确的。 他给律师发邮件表示:推特拒绝应提供用户数据,可能会导致「合并协议终止」。 不过,对此,推特表示会继续和马斯克合作,保障双方按协议完成交易。推特也是有备而来啊。 推特又于24日,表示同意向马斯克提供更多数据,包括实时API数据。 内部人士认为,新数据表明马斯克可能会尽快重新协商交易价格,因为推特的价值已经随着新信息的变化而发生改变。 7月初,据知情人士说,这笔交易已经陷入严重困境! 之前的一切,归零。推特「老大哥」心里苦啊。 马斯克的推文局 前段时间,马斯克推特粉丝数量刚刚破亿。 要知道,马斯克一直都是推特的重度用户。 有平台总结出,马斯克每年发推的数量基本逐年增加。 而之所以如此,数据分析网站认为是因为马斯克在推特上发表过众多热点话题。 就拿最近的事情来说吧。
美国总统特朗普13日在Twitter上发布了有关中兴通讯的推文。因为美国政府颁布了禁止美国公司向这家网络基础设施和手机供应商出售技术组件的裁决,中兴上周已经停止了其主要经营业务。 特朗普表示,他正在与中国的习近平主席合作,让中兴通讯恢复业务: 中国国家主席习近平和我正在共同努力,让中国的大型手机供应商中兴快速恢复业务。商务部已经接到指示并执行! - 唐纳德J.特朗普(@realDonaldTrump)2018年5月13日 美国当局裁定,中兴在向伊朗和朝鲜出售技术的交易试用期间存在不诚实的情形,所以美国当局依旧会对中兴作出某种惩罚性的裁决,但不会像目前七年 特朗普没有提到的是,他之所以作出这个决定,也许是因为拒绝令并不仅仅是摧毁了中兴 - 它还夹杂了多家美国公司,并有可能导致美国的零部件公司因这个贸易禁令失业。 鉴于特朗普政府正试图“让美国再次辉煌”!
为了验证美国民众的不满情绪,我们以R语言抓取的特朗普推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。 <")>%filter(source %in%c("iPhone", "Android")) 对数据进行可视化计算不同时间,对应的推特比例. 并且对比安卓手机和苹果手机上的推特数量的区别 ? 从对比图中我们可以发现,安卓手机和苹果手机发布推特的时间有显著的差别,安卓手机倾向于在5点到10点之间发布推特,而苹果手机一般在10点到20点左右发布推特。 同时我们也可以看到,安卓手机发布推特数量的比例要高于苹果手机。 然后查看推特中是否含有引用 ,并且对比不同平台上的数量。 从图中我们可以看到希拉里这个关键词的排名是第一,随后是特朗普2016这个关键词。同时在后面的关键词中,我们还看到了特朗普,以及克林顿等。 对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例。
在SEC披露的文件中显示,近两个月来,马斯克一直在搜集这方面的相关数据,以此来评估平台上到底有多少虚假账户。 马斯克方面认为,这些数据对于推特的业务运营和财务业绩至关重要,对于完成这次并购来说是必要信息。 但是推特方面始终未能或者不愿提供上述信息。 他们认为推特大大低估了平台的这一数据。 而且在6月30日双方的电话会议中,推特仍旧把已经被暂停的虚假或垃圾账户算到了mDAU数据里。 综上,马斯克方面认为,推特提供mDAU数据是错误或有误导性的。 而推特在过去一段时间里有多位高管离职,7月7日他们还宣布裁掉三分之一的人才招聘团队。 基于以上种种,马斯克最终决定,这推特咱不买了。 参考链接: [1]https://www.theverge.com/2022/7/8/23201108/twitter-tells-employees-not-to-comment-on-musk-deal
消息一出推特股价暴涨停盘,涨幅超22%;特斯拉股价也一度上涨6%,收盘涨幅近3%。 要知道,这已经是马斯克半年内第二次突然变卦了。 7月份,他以“推特严重违反协议中多项条款”为由,突然叫停收购。 McCormick就多次站在推特那边。 以及尽管有举报人称推特高管在数据安全和机器人账号问题上撒谎,但是团队担心马斯克想要证明这会产生重大不利影响,也有些困难。 马斯克最新发推表示: 收购推特是创造“全功能App——“X”的加速器。 推特方面对此还没有回应。 法官指出,推特有权查明这件事情,因此推特可以对马斯克团队的电子邮件、纸质文件等资料进行信息搜查。并且在10月7日前,马斯克团队就要提供这些文件。 还有大V说在这一消息宣布的同一天,自己少了8500个关注者,难道是推特在清理机器人账号了? 此前,马斯克叫停推特收购,正是因为怀疑推特上有大量机器人账户。
来自欧洲委员会科学与知识服务联合研究中心的团队详细介绍了一个原型,洪水风险社交媒体(SMFR),可以通过推特用户的实时报告丰富欧洲洪水预警系统(EFAS)。 ERCC监控灾害和风险,收集和分析灾害数据,并为团队和设备部署准备计划。ERCC将EFAS用于预测,主要是概率性中程洪水预报(包括短程山洪),还包括季节预报,影响评估和早期预警。 这就触发了推特收集数据,每次最多可调400个关键词。 鉴于EFAS覆盖了人口超过27种语言的区域,提取包含相关关键词的消息(即表示即将发生或最近发生洪水的词语)并非易事。 ? 为了测试该方法,团队将SMFR整合到EFAS,SMFR收集了为期两天的大约14347条推文,并对这些推文进行了相关性分析。 作为未来的研究,团队设想开发一个包含数十种语言的全球系统,并将社交媒体作为数据源以支持预测模型。 End
然而,如果仅仅只是将马斯克收购推特的原因归结于此,而没有将马斯克收购推特放置在大的社交市场的环境下,没有将马斯克收购推特放置在他所布局的商业版图中,我想,我们是无论如何都无法获得有关马斯克收购推特的真实的内在逻辑的 如何实现这种目的,收购推特,打造一个自我发声的平台,无疑是最为重要的一个步骤。 推特并不仅仅只是推特本身 仅仅只是将推特看成是一个社交平台,仅仅只是将马斯克收购推特看成是一笔收购,其实并不完全正确。 因此,我们在看待马斯克收购推特这件事情上,并不能够仅仅只是将目光聚焦在推特本身,而是要将目光投向推特更多的外延上。 因此,马斯克收购推特,绝不仅仅只是看中了推特的社交属性,绝不仅仅只是看中的推特对于舆论的控制,而是更多地看到了推特本身所衍生出来的更多的可能性。 跳出推特仅仅只是推特本身来看待马斯克收购推特这件事,我们或许才能得出一个更加完美,更加全面的答案。
设计一个简化版的推特(Twitter),可以让用户实现发送推文,关注/取消关注其他用户,能够看见关注人(包括自己)的最近十条推文。 每个推文都必须是由此用户关注的人或者是用户自己发出的。推文必须按照时间顺序由最近的开始排序。 用户1的获取推文应当返回一个列表,其中包含两个推文,id分别为 -> [6, 5]. // 推文id6应当在推文id5之前,因为它是在5之后发送的. twitter.getNewsFeed(1); (1); 解题思路: 动态的实现一般使用“拉模式”或者“推模式”,即用户可以看到的动态可以采用查询的时候直接计算(拉)也可以在用户的关注者发推的时候直接“推”到用户的动态列表。 本文使用“推模式”实现,如下是用到的几个数据结构: a)tweets用来存放用户发表的推文; b)feeds用来存放每个用户可以看到的动态; c)fans用来存放用户的粉丝(关注者)列表。
笔者尝试从推特 X 平台上监控和采集和美国大选推文相关的数据,最开始设定的时间段为 2016-01-01 至 2025-01-01,累计 3000 多天,横跨两届美国总统大选,关键词定为#DonaldTrump 数据集介绍最终选定关键词为america presidential election,时间段为 2024-01-01 至大选结束 2024-11-10,共采集得推文 24,800 条。 每一条数据都包含推文 ID、发布时间、正文、发布来源、语言、推文查看数(阅读量)、回复数(评论数)、转推数、喜欢数、引用数等推文字段和作者 ID、用户名、注册时间、关注数、粉丝数、发布推文数是否蓝 V News 7 Tamil、CGTN America 等媒体机构。相比较话题矩阵,用户矩阵则显得更加孤岛化、离散化,不是连通图。只聚焦中心区域来看,基本上都是上述话题的 1 和 4 类用户。 数据集带有推文发布精确的时间,对所有的推文文本进行动态主题建模,可得热力图如下:把主题随时间的变化河流图化,最终结果如下:从整个推文的数据集来看,特朗普相关话题热度明显领先拜登和哈里斯的,考虑到推特 X