首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学和人工智能

    数据 | 苹果情感分析数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    54120编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 疫情自然语言处理数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据包括疫情期间从twitter上获取的一系列关于COVID19的,以及他们所对应的情感标注。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    74240编辑于 2022-03-30
  • 来自专栏月小水长

    (X) 关于 ChatGPT 话题的高质量数据

    自从 2023 年被火星人马斯克先生收购并进行全面商业化之后, API 的费用就水涨船高了。 注,特已于 2023.7.24 日改名为 X ,并启用“X”标志,告别原有的小蓝鸟形象。 (write-only,也就是不能获取只能发帖) 基础版每月收费 100 美元,每月可提供 10,000 个阅读请求和 50,000 个发帖请求。 获取开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。 /chatgpt_tweets_202301_445238条.csv') print(df.shape) # (445238, 47) 每一条数据都包含文 ID、发布时间、正文、发布来源、语言、文查看数 ,均超过了 10000 条,出乎笔者意料的是日文数居然高居第 2 位,zh(中文)数排在第 13 位。

    1.2K10编辑于 2024-02-22
  • 来自专栏新智元

    马斯克:,我不买了!:打官司要10亿美元分手费

    而且,方面一直没有按照约定提交相关文件,证明其垃圾内容和垃圾账户的具体数字。 马斯克发表示,我当时的出价的前提是,提交给SEC的文件中,所谓5%的数据是准确的。 里士满大学法律教授Carl Tobias表示,在指责实质性地违反了合并协议的同时,马斯克似乎在为以下论点做准备:如果收购失败,他不应该承担交易条款中规定的10亿美元的分手费。 Tobias说:「这类事情通常的处理方式是,如果约定了10亿美元的分手费,而你是要收购的一方,那么就会对你强制执行,除非有某种重大违约行为或某种可以提供的理由说服法院,比如卖方没有履行交易。」 他给律师发邮件表示:拒绝应提供用户数据,可能会导致「合并协议终止」。 不过,对此,表示会继续和马斯克合作,保障双方按协议完成交易。也是有备而来啊。 又于24日,表示同意向马斯克提供更多数据,包括实时API数据。 内部人士认为,新数据表明马斯克可能会尽快重新协商交易价格,因为的价值已经随着新信息的变化而发生改变。

    57830编辑于 2022-07-12
  • 来自专栏量子位

    马斯克在回应起诉:真讽刺,我笑了

    万博 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克和之间的“连续剧”,又更新了一: 《正式起诉马斯克》。 并且在诉状中,还细数了马斯克决意收购前后的种种恶行。 :我无辜,我是受害者 在诉状中,收集了马斯克收购整个周期的相关信息,包括马斯克的相关文,对马斯克终止收购的理由进行驳斥,并状告马斯克“三大罪”。 最后,马斯克还在7月8日的律师函中指责高管离职,但特在诉状中表示,关于管理层的变动问题,特在签署前成功地取消了这一条款。 接下来,又细数马斯克对犯下的3大罪状。 之后,也就是在周一发布律师函之前,马斯克又发布了一组表情包: 表示,马斯克是在暗示,如果起诉他,自己将不得不在法庭上披露他一直要求的虚假账户数据。 三大罪,马斯克偷偷买进股票。 最后,不管怎么样,这场马斯克收购的大戏要剧终,还要等到两个月以后。 马斯克与,法庭上见!

    44220编辑于 2022-07-18
  • 来自专栏大数据文摘

    利用BERT训练上COVID-19数据

    数据文摘授权转载自数据派THU作者:陈之炎 一直以来,Twitter是新闻的重要来源,在COVID-19大流行期间,公众可以在上表达自己的焦虑情绪。 最后,将所有的转发、重复的数据数据集中删除,2250万条的五个最终语料库总共有0.6B个字。专业领域的预训练数据的内容是基础模型通用数据大小的七分之一。 CT-BERT用于训练特定专业领域的数据,训练评估结果表明:与标准的BERT-Large模型相比,该模型的性能将有10-30%的提高,尤其是在与COVID-19相关的信息数据上,性能改进尤为显著 预训练 预训练代码在现有的预训练模型(如BERT-Large)基础上,对目标域数据(在这个例子中是数据)进行无监督的预训练。此代码原则上可以用于任何特殊专业领域数据的预训练。 对于与COVID-19相关的数据,在预训练完成20万步步长之后,下游性能有了明显的改进。SST-2这个唯一的非数据,其性能改进则要慢得多,在预训练完成20万步步长之后,性能才开始改善。

    86210编辑于 2023-04-10
  • 来自专栏Postgresql源码分析

    设计(思维游戏01)

    直观上文在逻辑上是属于用户的,用户对自己的文有增删改查的需求,查询都是需要返回一段连续时间范围内的文,有删除的需求,有不等宽更新的需求,假如不用DB应该是一个list基础的数据结构比较合适。 当然实际业务场景一定是会用到数据库的。 查询也有另外两个特殊的要求:1、需要能看到自己和被关注者的文 2、按时间戳顺序返回文,且限定10条。 查询(方案一)拉取合并 如果以用户角度保存文,每个用户有一个时间排序链表,则选择文链表并按时间顺序返回10条,直观上是一个K排序链表合并的问题。 (比如文末code) 查询(方案三)推送 相对于惰性拉取,可以在每个用户发布后,主动把文发送到被关注者,这样在用户读取文时,无需检索关注者,只需读出收到的最新10条即可。 缺点是发布文时需要广播到所有被关注者,时效性差;大量冗余数据发布、保存(用户不登录但是也需要广播);如果有热点用户(大量关注者)频繁发布文,很容易造成热点问题。

    77820编辑于 2023-02-10
  • 来自专栏yuyy.info技术专栏

    LeetCode:355_设计

    思路 在推送给用户的,是该用户关注的人发的,并通过时间顺序合并在一起。采用多路归并的方式合并,在归并时,通过最小堆优化。 题目 设计一个简化版的(Twitter),可以让用户实现发送文,关注/取消关注其他用户,能够看见关注人(包括自己)的最近 10文。 List<Integer> getNewsFeed(int userId) 检索当前用户新闻推送中最近  10文的 ID 。新闻推送中的每一项都必须是由用户关注的人或者是用户自己发布的文。 因为用户 1 已经不再关注用户 2 提示: 1 <= userId, followerId, followeeId <= 500 0 <= tweetId <= 104 所有的 ID 都互不相同 postTweet 条,下次做题先记录重点 for minHeap.Len() > 0 && len(res) < 10 { // bug 堆使用方式错误 e := heap.Pop

    91410编辑于 2023-05-01
  • 来自专栏Alfred数据室

    朗普的:谁还不是个“快乐源泉”了? | Alfred数据

    还有比较有趣的一点是,数据分析师David Robinson于2016年8月9日通过数据分析发现朗普自己只用Android端发,iPhone端发的基本上是朗普的团队代发的[1]。 该新闻被广泛报道之后,他再也没有用Android手机发过,现在的基本都是由iPhone手机发的,让人安能辨我是雌雄? 然而基于历史数据和文本分类算法,数据分析师还是能分辨哪些是他本人发的。 第二名是CNN(有线电视新闻网),第三名是The New York Times(纽约时报),另外ABC、CNBC、CBS、NPR、MSNBC、Washington Post等美国主流媒体均上榜被怼前10 在他最经常使用的10个带有感情色彩的形容词中,只有2个是贬义词,其它都是褒义词,包括great(伟大的)、good(好的)、best(最棒的)、true(真的)、strong(强大的)、nice(不错的 以上是我们对于朗普4万多条文的发现,越分析可以得到越多的细节,也越觉得朗普的简直就是一个“快乐源泉”。

    73010发布于 2020-01-02
  • 来自专栏镁客网

    马斯克,的「救星」?

    作为上的大红人,马斯克入股平台似乎并不是一件让人费解的事情,管理层也抱着友好的态度欢迎马斯克加入董事会。 但这位“高级粉丝”的想法显然没有那么简单:先是连发多条文对进行了轮番批评,随后更是表示“自己不差钱”,要将全价买下来变成一家“私营公司。” 自由的代价 在马斯克的公开信里,他直言不讳批评没有遵守言论自由的政策。但过去的显然是“自由过了头”,至少在朗普账号被封禁之前一直没有改变。 截至2020年末,Snap的DAU为2.65亿,远超的2亿。 而TikTok更是凭借短视频的形式,成为美国月活用户最快突破10亿的平台。 从2019年第一季度到2020年第二季度,TikTok在美国的下载量增加了62%,这一数据已迅速超过了Facebook,Instagram、Snap,当然也包括了

    58620编辑于 2022-04-18
  • 来自专栏全栈程序员必看

    MNIST数据 & CIFAR10数据

    MNIST数据 MNIST数据是分类任务中最简单、最常用的数据。 人为的手写了0-9数字的图片 MNIST大概有7w张 MNIST数据值都是灰度图,所以图像的通道数只有一个 因为MNIST数据是专门为深度学习来的,所以其数据格式和我们常见的很不一样 ,但是在Pytorch/Tensorflow中有函数可以很容易的读取,如果用普通Python来读取则不是那么容易 CIFAR10数据 http://www.cs.toronto.edu/~ kriz/cifar.html CIFAR10数据比MNIST要复杂一些. CIFAR10是真实数据,MNIST是人为构建的 CIFAR10是32*32的 有CIFAR-10和CIFAR-100 CIFAR-10图片的10种类别,每一类大概有6000张 一共6w

    96610编辑于 2022-09-10
  • 来自专栏数据派THU

    原创 | 利用BERT 训练上COVID-19数据

    最后,将所有的转发、重复的数据数据集中删除,2250万条的五个最终语料库总共有0.6B个字。专业领域的预训练数据的内容是基础模型通用数据大小的七分之一。 所有输入到BERT中的序列转换成由30000个单词的词汇表构成的标记集合,每条消息的长度限制在280个字符以内,最大序列长度为96个标记,将训练批大小增加到1024,最终在数据上生成285M训练示例和 CT-BERT用于训练特定专业领域的数据,训练评估结果表明:与标准的BERT-Large模型相比,该模型的性能将有10-30%的提高,尤其是在与COVID-19相关的信息数据上,性能改进尤为显著 预训练 预训练代码在现有的预训练模型(如BERT-Large)基础上,对目标域数据(在这个例子中是数据)进行无监督的预训练。此代码原则上可以用于任何特殊专业领域数据的预训练。 对于与COVID-19相关的数据,在预训练完成20万步步长之后,下游性能有了明显的改进。SST-2这个唯一的非数据,其性能改进则要慢得多,在预训练完成20万步步长之后,性能才开始改善。

    90230编辑于 2022-12-16
  • 来自专栏孟永辉

    马斯克救不了

    具体原因如下: 的问题并不在本身 当马斯克完成对于的收购之前,不断地诟病,无论是从的产品本身,还是从的商业模式本身,几乎都是如此。 事实上,所面临的问题并不仅仅只是在于本身,而是整个社交行业都在面临着的问题。 从本质上来看,这是由的问题并不在本身所决定的。笔者认为,真正应该解决的是,用户的需求与的产品供给难以完美对接的问题。 收购并不在收购本身 在收购这件事上,马斯克始终都将自己包装成为一个「救世主」的形象。 的价值并不在本身 当马斯克开始收购的时候,我们通常所看到的诸多的分析都将其与社交联系在一起,甚至将的价值全部都归结到社交上。

    55230编辑于 2022-11-06
  • 来自专栏SDNLAB

    朗普在发文,中兴迎来重大转机

    美国总统朗普13日在Twitter上发布了有关中兴通讯的文。因为美国政府颁布了禁止美国公司向这家网络基础设施和手机供应商出售技术组件的裁决,中兴上周已经停止了其主要经营业务。 朗普表示,他正在与中国的习近平主席合作,让中兴通讯恢复业务: 中国国家主席习近平和我正在共同努力,让中国的大型手机供应商中兴快速恢复业务。商务部已经接到指示并执行! - 唐纳德J.朗普(@realDonaldTrump)2018年5月13日 美国当局裁定,中兴在向伊朗和朝鲜出售技术的交易试用期间存在不诚实的情形,所以美国当局依旧会对中兴作出某种惩罚性的裁决,但不会像目前七年 朗普没有提到的是,他之所以作出这个决定,也许是因为拒绝令并不仅仅是摧毁了中兴 - 它还夹杂了多家美国公司,并有可能导致美国的零部件公司因这个贸易禁令失业。 鉴于朗普政府正试图“让美国再次辉煌”!

    61230发布于 2018-06-11
  • 来自专栏拓端tecdat

    R语言对twitter数据进行文本情感分析

    为了验证美国民众的不满情绪,我们以R语言抓取的朗普数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。 <")>%filter(source %in%c("iPhone", "Android")) 对数据进行可视化计算不同时间,对应的比例. 并且对比安卓手机和苹果手机上的数量的区别 ? 从对比图中我们可以发现,安卓手机和苹果手机发布的时间有显著的差别,安卓手机倾向于在5点到10点之间发布,而苹果手机一般在10点到20点左右发布。 同时我们也可以看到,安卓手机发布数量的比例要高于苹果手机。 然后查看中是否含有引用 ,并且对比不同平台上的数量。 从图中我们可以看到希拉里这个关键词的排名是第一,随后是朗普2016这个关键词。同时在后面的关键词中,我们还看到了朗普,以及克林顿等。 对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例。

    1.2K20发布于 2020-12-14
  • 来自专栏量子位

    马斯克突然叫停收购,“分手费”高达66亿,回应:咱们法庭见

    与此同时,方面能拿到的钱,也可能从原本440亿美元(折合人民币约2945亿元)的收购价,直接变成仅10亿美元(折合人民币66亿元)的违约金赔偿。 你以为这场大戏就要结束了? 还真不一定。 在SEC披露的文件中显示,近两个月来,马斯克一直在搜集这方面的相关数据,以此来评估平台上到底有多少虚假账户。 马斯克方面认为,这些数据对于的业务运营和财务业绩至关重要,对于完成这次并购来说是必要信息。 但是方面始终未能或者不愿提供上述信息。 他们认为特大大低估了平台的这一数据。 而且在6月30日双方的电话会议中,仍旧把已经被暂停的虚假或垃圾账户算到了mDAU数据里。 综上,马斯克方面认为,提供mDAU数据是错误或有误导性的。 有网友角度清奇地发现,就算是最后只拿了10亿美元的违约金,似乎也不算亏。 2020年、2021年的净收入都是负数。 外网则更多在调侃现在上赶着求卖身。 “一龙快跑!”

    46120编辑于 2022-07-12
  • 来自专栏量子位

    马斯克认怂重启收购,价格还是440亿美元,股价应声大涨

    当即引起轩然大波,方面放话要“法庭见”。 双方对簿公堂定在10月17日,也就是十几天后。 结果在这节骨眼上,马斯克反悔了。 知情人士表示,马斯克的律师团队意识到这场官司不好打。 McCormick就多次站在那边。 以及尽管有举报人称高管在数据安全和机器人账号问题上撒谎,但是团队担心马斯克想要证明这会产生重大不利影响,也有些困难。 马斯克最新发表示: 收购是创造“全功能App——“X”的加速器。 方面对此还没有回应。 法官指出,特有权查明这件事情,因此可以对马斯克团队的电子邮件、纸质文件等资料进行信息搜查。并且在10月7日前,马斯克团队就要提供这些文件。 还有大V说在这一消息宣布的同一天,自己少了8500个关注者,难道是特在清理机器人账号了? 此前,马斯克叫停收购,正是因为怀疑上有大量机器人账户。

    50710编辑于 2022-10-08
  • 来自专栏ATYUN订阅号

    AI利用数据帮助研究人员分析洪水

    来自欧洲委员会科学与知识服务联合研究中心的团队详细介绍了一个原型,洪水风险社交媒体(SMFR),可以通过用户的实时报告丰富欧洲洪水预警系统(EFAS)。 ERCC监控灾害和风险,收集和分析灾害数据,并为团队和设备部署准备计划。ERCC将EFAS用于预测,主要是概率性中程洪水预报(包括短程山洪),还包括季节预报,影响评估和早期预警。 这就触发了收集数据,每次最多可调400个关键词。 鉴于EFAS覆盖了人口超过27种语言的区域,提取包含相关关键词的消息(即表示即将发生或最近发生洪水的词语)并非易事。 ? 为了测试该方法,团队将SMFR整合到EFAS,SMFR收集了为期两天的大约14347条文,并对这些文进行了相关性分析。 作为未来的研究,团队设想开发一个包含数十种语言的全球系统,并将社交媒体作为数据源以支持预测模型。 End

    69020发布于 2019-05-14
  • 来自专栏孟永辉

    马斯克收购的背后

    然而,如果仅仅只是将马斯克收购的原因归结于此,而没有将马斯克收购放置在大的社交市场的环境下,没有将马斯克收购放置在他所布局的商业版图中,我想,我们是无论如何都无法获得有关马斯克收购的真实的内在逻辑的 如何实现这种目的,收购,打造一个自我发声的平台,无疑是最为重要的一个步骤。 并不仅仅只是本身 仅仅只是将看成是一个社交平台,仅仅只是将马斯克收购看成是一笔收购,其实并不完全正确。 因此,我们在看待马斯克收购这件事情上,并不能够仅仅只是将目光聚焦在本身,而是要将目光投向更多的外延上。 因此,马斯克收购,绝不仅仅只是看中了的社交属性,绝不仅仅只是看中的特对于舆论的控制,而是更多地看到了本身所衍生出来的更多的可能性。 跳出仅仅只是本身来看待马斯克收购这件事,我们或许才能得出一个更加完美,更加全面的答案。

    44920编辑于 2022-05-13
  • 来自专栏golang算法架构leetcode技术php

    golang刷leetcode 经典(3) 设计

    设计一个简化版的(Twitter),可以让用户实现发送文,关注/取消关注其他用户,能够看见关注人(包括自己)的最近十条文。 本文使用“模式”实现,如下是用到的几个数据结构: a)tweets用来存放用户发表的文; b)feeds用来存放每个用户可以看到的动态; c)fans用来存放用户的粉丝(关注者)列表。 ,返回最近的10文id; Follow:有用户a关注用户b,则把a放入b的fans列表,且把b的tweets文并入a的feeds,因合并的两部分均是按时间升序排列的数组,所以避免使用常规排序算法, nil{ f.feed=append(f.feed,&t) } } //fmt.Println(u) } /** Retrieve the 10 ok{ return r } for i:=0;i<len(u.feed);i++{ if i==10 { break

    1K20编辑于 2022-08-02
领券