首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学和人工智能

    数据 | 苹果情感分析数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    53220编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 疫情自然语言处理数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据包括疫情期间从twitter上获取的一系列关于COVID19的,以及他们所对应的情感标注。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    73840编辑于 2022-03-30
  • 来自专栏月小水长

    (X) 关于 ChatGPT 话题的高质量数据

    自从 2023 年被火星人马斯克先生收购并进行全面商业化之后, API 的费用就水涨船高了。 注,特已于 2023.7.24 日改名为 X ,并启用“X”标志,告别原有的小蓝鸟形象。 获取开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。 2023 年被公认为 ChatGPT 大模型元年,这一年在上关于 ChatGPT 的讨论文数笔者初步估计应该在千万量级。 /chatgpt_tweets_202301_445238条.csv') print(df.shape) # (445238, 47) 每一条数据都包含文 ID、发布时间、正文、发布来源、语言、文查看数 ,均超过了 10000 条,出乎笔者意料的是日文数居然高居第 2 位,zh(中文)数排在第 13 位。

    1.1K10编辑于 2024-02-22
  • 来自专栏量子位

    马斯克在回应起诉:真讽刺,我笑了

    万博 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克和之间的“连续剧”,又更新了一: 《正式起诉马斯克》。 并且在诉状中,还细数了马斯克决意收购前后的种种恶行。 :我无辜,我是受害者 在诉状中,收集了马斯克收购整个周期的相关信息,包括马斯克的相关文,对马斯克终止收购的理由进行驳斥,并状告马斯克“三大罪”。 最后,马斯克还在7月8日的律师函中指责高管离职,但特在诉状中表示,关于管理层的变动问题,特在签署前成功地取消了这一条款。 接下来,又细数马斯克对犯下的3大罪状。 之后,也就是在周一发布律师函之前,马斯克又发布了一组表情包: 表示,马斯克是在暗示,如果起诉他,自己将不得不在法庭上披露他一直要求的虚假账户数据。 三大罪,马斯克偷偷买进股票。 最后,不管怎么样,这场马斯克收购的大戏要剧终,还要等到两个月以后。 马斯克与,法庭上见!

    43920编辑于 2022-07-18
  • 来自专栏大数据文摘

    利用BERT训练上COVID-19数据

    数据文摘授权转载自数据派THU作者:陈之炎 一直以来,Twitter是新闻的重要来源,在COVID-19大流行期间,公众可以在上表达自己的焦虑情绪。 最后,将所有的转发、重复的数据数据集中删除,2250万条的五个最终语料库总共有0.6B个字。专业领域的预训练数据的内容是基础模型通用数据大小的七分之一。 CT-BERT用于训练特定专业领域的数据,训练评估结果表明:与标准的BERT-Large模型相比,该模型的性能将有10-30%的提高,尤其是在与COVID-19相关的信息数据上,性能改进尤为显著 预训练 预训练代码在现有的预训练模型(如BERT-Large)基础上,对目标域数据(在这个例子中是数据)进行无监督的预训练。此代码原则上可以用于任何特殊专业领域数据的预训练。 对于与COVID-19相关的数据,在预训练完成20万步步长之后,下游性能有了明显的改进。SST-2这个唯一的非数据,其性能改进则要慢得多,在预训练完成20万步步长之后,性能才开始改善。

    85110编辑于 2023-04-10
  • 来自专栏Postgresql源码分析

    设计(思维游戏01)

    数据结构设计 用户系统 用户之间存在 关注、被关注、互相关注三种关系,逻辑上形成网状结构,可以使用关系型数据库保存,可以快速检索用户之间的关系。 直观上文在逻辑上是属于用户的,用户对自己的文有增删改查的需求,查询都是需要返回一段连续时间范围内的文,有删除的需求,有不等宽更新的需求,假如不用DB应该是一个list基础的数据结构比较合适。 当然实际业务场景一定是会用到数据库的。 查询也有另外两个特殊的要求:1、需要能看到自己和被关注者的文 2、按时间戳顺序返回文,且限定10条。 (比如文末code) 查询(方案三)推送 相对于惰性拉取,可以在每个用户发布后,主动把文发送到被关注者,这样在用户读取文时,无需检索关注者,只需读出收到的最新10条即可。 缺点是发布文时需要广播到所有被关注者,时效性差;大量冗余数据发布、保存(用户不登录但是也需要广播);如果有热点用户(大量关注者)频繁发布文,很容易造成热点问题。

    77420编辑于 2023-02-10
  • 来自专栏yuyy.info技术专栏

    LeetCode:355_设计

    思路 在推送给用户的,是该用户关注的人发的,并通过时间顺序合并在一起。采用多路归并的方式合并,在归并时,通过最小堆优化。 题目 设计一个简化版的(Twitter),可以让用户实现发送文,关注/取消关注其他用户,能够看见关注人(包括自己)的最近 10 条文。 1); // 用户 1 的获取文应当返回一个列表,其中包含两个文,id 分别为 -> [6, 5] 。 ; // 用户 1 获取文应当返回一个列表,其中包含一个 id 为 5 的文。 因为用户 1 已经不再关注用户 2 提示: 1 <= userId, followerId, followeeId <= 500 0 <= tweetId <= 104 所有的 ID 都互不相同 postTweet

    89510编辑于 2023-05-01
  • 来自专栏Alfred数据室

    朗普的:谁还不是个“快乐源泉”了? | Alfred数据

    一气之下,他在上连发200多篇文怼佩洛西及众议院。 朗普为何那么钟爱发?作为第一个充分使用社交网络发声的美国总统,他所发的那么多推文中又反映出哪些有趣的东西呢? 我们对他每一年发的数量进行了统计: 可见他自从2009年开始就开通了,是的一名早期用户,但是真正变成特重度依赖者是从2012年开始的。 还有比较有趣的一点是,数据分析师David Robinson于2016年8月9日通过数据分析发现朗普自己只用Android端发,iPhone端发的基本上是朗普的团队代发的[1]。 该新闻被广泛报道之后,他再也没有用Android手机发过,现在的基本都是由iPhone手机发的,让人安能辨我是雌雄? 然而基于历史数据和文本分类算法,数据分析师还是能分辨哪些是他本人发的。 以上是我们对于朗普4万多条文的发现,越分析可以得到越多的细节,也越觉得朗普的简直就是一个“快乐源泉”。

    71910发布于 2020-01-02
  • 来自专栏镁客网

    马斯克,的「救星」?

    作为上的大红人,马斯克入股平台似乎并不是一件让人费解的事情,管理层也抱着友好的态度欢迎马斯克加入董事会。 但这位“高级粉丝”的想法显然没有那么简单:先是连发多条文对进行了轮番批评,随后更是表示“自己不差钱”,要将全价买下来变成一家“私营公司。” 而面对马斯克的敌意收购,的态度则显得有点“摇摆不定”。作为曾经世界上最大的社交平台,的头衔早已被Meta夺下,背后还有TikTok等后辈虎视眈眈。 自由的代价 在马斯克的公开信里,他直言不讳批评没有遵守言论自由的政策。但过去的显然是“自由过了头”,至少在朗普账号被封禁之前一直没有改变。 从2019年第一季度到2020年第二季度,TikTok在美国的下载量增加了62%,这一数据已迅速超过了Facebook,Instagram、Snap,当然也包括了

    58320编辑于 2022-04-18
  • 来自专栏数据派THU

    原创 | 利用BERT 训练上COVID-19数据

    最后,将所有的转发、重复的数据数据集中删除,2250万条的五个最终语料库总共有0.6B个字。专业领域的预训练数据的内容是基础模型通用数据大小的七分之一。 所有输入到BERT中的序列转换成由30000个单词的词汇表构成的标记集合,每条消息的长度限制在280个字符以内,最大序列长度为96个标记,将训练批大小增加到1024,最终在数据上生成285M训练示例和 CT-BERT用于训练特定专业领域的数据,训练评估结果表明:与标准的BERT-Large模型相比,该模型的性能将有10-30%的提高,尤其是在与COVID-19相关的信息数据上,性能改进尤为显著 预训练 预训练代码在现有的预训练模型(如BERT-Large)基础上,对目标域数据(在这个例子中是数据)进行无监督的预训练。此代码原则上可以用于任何特殊专业领域数据的预训练。 对于与COVID-19相关的数据,在预训练完成20万步步长之后,下游性能有了明显的改进。SST-2这个唯一的非数据,其性能改进则要慢得多,在预训练完成20万步步长之后,性能才开始改善。

    89930编辑于 2022-12-16
  • 来自专栏孟永辉

    马斯克救不了

    具体原因如下: 的问题并不在本身 当马斯克完成对于的收购之前,不断地诟病,无论是从的产品本身,还是从的商业模式本身,几乎都是如此。 事实上,所面临的问题并不仅仅只是在于本身,而是整个社交行业都在面临着的问题。 从本质上来看,这是由的问题并不在本身所决定的。笔者认为,真正应该解决的是,用户的需求与的产品供给难以完美对接的问题。 收购并不在收购本身 在收购这件事上,马斯克始终都将自己包装成为一个「救世主」的形象。 的价值并不在本身 当马斯克开始收购的时候,我们通常所看到的诸多的分析都将其与社交联系在一起,甚至将的价值全部都归结到社交上。

    54430编辑于 2022-11-06
  • 来自专栏新智元

    马斯克:,我不买了!:打官司要10亿美元分手费

    而且,方面一直没有按照约定提交相关文件,证明其垃圾内容和垃圾账户的具体数字。 马斯克发表示,我当时的出价的前提是,提交给SEC的文件中,所谓5%的数据是准确的。 文件中提到,「近两个月来,马斯克先生一直在寻求必要的数据和信息,以对平台上的虚假或垃圾账户的普遍性进行独立评估,这些信息对的业务和财务表现至关重要,是完成并购协议所设想的交易的必要条件。」 他给律师发邮件表示:拒绝应提供用户数据,可能会导致「合并协议终止」。 不过,对此,表示会继续和马斯克合作,保障双方按协议完成交易。也是有备而来啊。 又于24日,表示同意向马斯克提供更多数据,包括实时API数据。 内部人士认为,新数据表明马斯克可能会尽快重新协商交易价格,因为的价值已经随着新信息的变化而发生改变。 有平台总结出,马斯克每年发的数量基本逐年增加。 而之所以如此,数据分析网站认为是因为马斯克在上发表过众多热点话题。 就拿最近的事情来说吧。

    57730编辑于 2022-07-12
  • 来自专栏SDNLAB

    朗普在发文,中兴迎来重大转机

    美国总统朗普13日在Twitter上发布了有关中兴通讯的文。因为美国政府颁布了禁止美国公司向这家网络基础设施和手机供应商出售技术组件的裁决,中兴上周已经停止了其主要经营业务。 朗普表示,他正在与中国的习近平主席合作,让中兴通讯恢复业务: 中国国家主席习近平和我正在共同努力,让中国的大型手机供应商中兴快速恢复业务。商务部已经接到指示并执行! - 唐纳德J.朗普(@realDonaldTrump)2018年5月13日 美国当局裁定,中兴在向伊朗和朝鲜出售技术的交易试用期间存在不诚实的情形,所以美国当局依旧会对中兴作出某种惩罚性的裁决,但不会像目前七年 朗普没有提到的是,他之所以作出这个决定,也许是因为拒绝令并不仅仅是摧毁了中兴 - 它还夹杂了多家美国公司,并有可能导致美国的零部件公司因这个贸易禁令失业。 鉴于朗普政府正试图“让美国再次辉煌”!

    60930发布于 2018-06-11
  • 来自专栏量子位

    马斯克突然叫停收购,“分手费”高达66亿,回应:咱们法庭见

    之前几个月里,马斯克多次在这件事上和较真,要求他们澄清虚假用户的数量。 但一直含糊其辞。 在SEC披露的文件中显示,近两个月来,马斯克一直在搜集这方面的相关数据,以此来评估平台上到底有多少虚假账户。 马斯克方面认为,这些数据对于的业务运营和财务业绩至关重要,对于完成这次并购来说是必要信息。 但是方面始终未能或者不愿提供上述信息。 他们认为特大大低估了平台的这一数据。 而且在6月30日双方的电话会议中,仍旧把已经被暂停的虚假或垃圾账户算到了mDAU数据里。 综上,马斯克方面认为,提供mDAU数据是错误或有误导性的。 一场“马戏”表演 不过u1s1,这几个月来马斯克对收购这件事可是非常上心。 今年4月初,马斯克突然入股,一举成为其最大股东。持有9.2%的股份,近30亿美元。

    45820编辑于 2022-07-12
  • 来自专栏拓端tecdat

    R语言对twitter数据进行文本情感分析

    为了验证美国民众的不满情绪,我们以R语言抓取的朗普数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。 <")>%filter(source %in%c("iPhone", "Android")) 对数据进行可视化计算不同时间,对应的比例. 并且对比安卓手机和苹果手机上的数量的区别 ? 从对比图中我们可以发现,安卓手机和苹果手机发布的时间有显著的差别,安卓手机倾向于在5点到10点之间发布,而苹果手机一般在10点到20点左右发布。 同时我们也可以看到,安卓手机发布数量的比例要高于苹果手机。 然后查看中是否含有引用 ,并且对比不同平台上的数量。 从图中我们可以看到希拉里这个关键词的排名是第一,随后是朗普2016这个关键词。同时在后面的关键词中,我们还看到了朗普,以及克林顿等。 对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例。

    1.2K20发布于 2020-12-14
  • 来自专栏量子位

    马斯克认怂重启收购,价格还是440亿美元,股价应声大涨

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 谁能想到马斯克和这场大型极限拉扯,先怂的是老马? 最新消息,马斯克重提收购计划,价格还是440亿美元。 McCormick就多次站在那边。 以及尽管有举报人称高管在数据安全和机器人账号问题上撒谎,但是团队担心马斯克想要证明这会产生重大不利影响,也有些困难。 马斯克最新发表示: 收购是创造“全功能App——“X”的加速器。 方面对此还没有回应。 有人就表示,希望这次消息能为“马斯克收购”线程画上个句号。 4月15日收购序幕拉开时,有人在上建立了一个事件线程,结果这一线程绵延几个月、从春走到冬。 还有大V说在这一消息宣布的同一天,自己少了8500个关注者,难道是特在清理机器人账号了? 此前,马斯克叫停收购,正是因为怀疑上有大量机器人账户。

    50610编辑于 2022-10-08
  • 来自专栏ATYUN订阅号

    AI利用数据帮助研究人员分析洪水

    来自欧洲委员会科学与知识服务联合研究中心的团队详细介绍了一个原型,洪水风险社交媒体(SMFR),可以通过用户的实时报告丰富欧洲洪水预警系统(EFAS)。 ERCC监控灾害和风险,收集和分析灾害数据,并为团队和设备部署准备计划。ERCC将EFAS用于预测,主要是概率性中程洪水预报(包括短程山洪),还包括季节预报,影响评估和早期预警。 这就触发了收集数据,每次最多可调400个关键词。 鉴于EFAS覆盖了人口超过27种语言的区域,提取包含相关关键词的消息(即表示即将发生或最近发生洪水的词语)并非易事。 ? 为了测试该方法,团队将SMFR整合到EFAS,SMFR收集了为期两天的大约14347条文,并对这些文进行了相关性分析。 作为未来的研究,团队设想开发一个包含数十种语言的全球系统,并将社交媒体作为数据源以支持预测模型。 End

    68420发布于 2019-05-14
  • 来自专栏孟永辉

    马斯克收购的背后

    然而,如果仅仅只是将马斯克收购的原因归结于此,而没有将马斯克收购放置在大的社交市场的环境下,没有将马斯克收购放置在他所布局的商业版图中,我想,我们是无论如何都无法获得有关马斯克收购的真实的内在逻辑的 如何实现这种目的,收购,打造一个自我发声的平台,无疑是最为重要的一个步骤。 并不仅仅只是本身 仅仅只是将看成是一个社交平台,仅仅只是将马斯克收购看成是一笔收购,其实并不完全正确。 因此,我们在看待马斯克收购这件事情上,并不能够仅仅只是将目光聚焦在本身,而是要将目光投向更多的外延上。 因此,马斯克收购,绝不仅仅只是看中了的社交属性,绝不仅仅只是看中的特对于舆论的控制,而是更多地看到了本身所衍生出来的更多的可能性。 跳出仅仅只是本身来看待马斯克收购这件事,我们或许才能得出一个更加完美,更加全面的答案。

    44520编辑于 2022-05-13
  • 来自专栏golang算法架构leetcode技术php

    golang刷leetcode 经典(3) 设计

    设计一个简化版的(Twitter),可以让用户实现发送文,关注/取消关注其他用户,能够看见关注人(包括自己)的最近十条文。 每个文都必须是由此用户关注的人或者是用户自己发出的。文必须按照时间顺序由最近的开始排序。 用户1的获取文应当返回一个列表,其中包含两个文,id分别为 -> [6, 5]. // 文id6应当在文id5之前,因为它是在5之后发送的. twitter.getNewsFeed(1); (1); 解题思路: 动态的实现一般使用“拉模式”或者“模式”,即用户可以看到的动态可以采用查询的时候直接计算(拉)也可以在用户的关注者发的时候直接“”到用户的动态列表。 本文使用“模式”实现,如下是用到的几个数据结构: a)tweets用来存放用户发表的文; b)feeds用来存放每个用户可以看到的动态; c)fans用来存放用户的粉丝(关注者)列表。

    1K20编辑于 2022-08-02
  • 来自专栏月小水长

    构建 2024 美国总统大选 X 文本数据,生成复杂网络和动态主题建模

    笔者尝试从 X 平台上监控和采集和美国大选文相关的数据,最开始设定的时间段为 2016-01-01 至 2025-01-01,累计 3000 多天,横跨两届美国总统大选,关键词定为#DonaldTrump 数据介绍最终选定关键词为america presidential election,时间段为 2024-01-01 至大选结束 2024-11-10,共采集得文 24,800 条。 每一条数据都包含文 ID、发布时间、正文、发布来源、语言、文查看数(阅读量)、回复数(评论数)、转数、喜欢数、引用数等文字段和作者 ID、用户名、注册时间、关注数、粉丝数、发布文数是否蓝 V 20240722(219 条相关文),拜登宣布退出 2024 美国总统大选。20240911(169 条相关文),朗普与拜登的继任者哈里斯的首场电视辩论落幕。 数据带有文发布精确的时间,对所有的文文本进行动态主题建模,可得热力图如下:把主题随时间的变化河流图化,最终结果如下:从整个文的数据来看,朗普相关话题热度明显领先拜登和哈里斯的,考虑到 X

    52730编辑于 2025-01-18
领券