首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏亨利笔记

    联邦模型:打造安全合规的数据生态

    模型是具有数十亿甚至上百亿参数的深度神经网络模型,是“大数据+算力+强算法”结合的产物,是凝聚了大数据内在精华的“知识库”。 龙卷风中心:数据安全与隐私保护不可忽视 在模型的龙卷风席卷全球之时,这场风暴的中心也有一些冷静的声音:基于海量数据模型更应该在安全合规与伦理等方面保持谨慎。 联邦学习与模型结合:构建安全合规的数据生态大陆 联邦学习作为一种分布式机器学习新范式,其“数据不动模型动,数据可用不可见”的特点使得各参与方可以在保护各自数据安全与用户隐私的前提下,进行AI协作,打破数据孤岛 在合法合规的前提下,让散落于各行业、各机构的不同规模的模型得以交流与融合,共同构建覆盖各行业各领域的数据与模型生态,打破垄断,进一步提升模型的规模、质量和通用性。 希望更多行业专家与机构能够共同参与,合力打造下一代更加通用强大和负责任的AI,构建安全合规的数据生态大陆。

    1.3K10编辑于 2023-04-12
  • 来自专栏最新最全的大数据技术体系

    11数据面试题复习

    1)从 high-level 的角度来看,两者并没有的差别。 11、Spark为什么要持久化,一般什么场景下要进行persist操作?   为什么要进行持久化?   当表和小表join时,用map-side join能显著提高效率。 不一定,当数据规模小,Hash shuffle快于Sorted Shuffle数据规模的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀 5)MLBase是Spark生态圈的一部分专注于机器学习,让机器学习的门槛更低,让一些可能并不了解机器学习的用户也能方便地使用MLbase。

    92912编辑于 2021-12-06
  • 来自专栏数据结构与算法

    11:整数减法

    11:整数减法 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 求两个大的正整数相减的差。 输入共2行,第1行是被减数a,第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11

    1.4K100发布于 2018-04-11
  • 来自专栏全栈程序员必看

    淘宝双11数据分析(数据可视化)

    文章目录 前言 本篇环境 结果展示 项目结构 前言 这一篇是最终篇,也是展示数据分析之后的结果的一篇。 其他文章: 淘宝双11数据分析(环境篇) 淘宝双11数据分析(数据准备篇) 淘宝双11数据分析(Hive 分析篇-上) 淘宝双11数据分析(Hive 分析篇-下) 淘宝双11数据分析(Spark

    5.8K20编辑于 2022-09-14
  • 来自专栏测试开发干货

    接口测试平台设计思路-11:成品总览-生态

    本节作为总览的最后一节,会介绍一下平台的生态建设。虽然没有投入太多哦,但是态度是对的。 这个要用管理员账户登陆,可以对后台的任何数据表进行增删改查,用户的权限组划分等等。 在线查看日志。其实就是获取服务器的日志,显示到页面,设定好自动刷新和手动刷新 然后就是 数据埋点。 产品和运营思维的具体体现,没有一个好的生态环境,你的工具再好用也是白费,收集好用户的主动反馈之外,也要收集好行为数据哦~当然我这 做的还不够 最后就是权限管理模块。做的比较简陋。但是起码是有用的。

    26120编辑于 2022-05-18
  • 来自专栏快乐阿超

    Java生态AI模型框架langchat

    LangChat: Java LLMs/AI Project, Supports Multi AI Providers( OpenAI / Gemini / Ollama / Azure / 智谱 / 阿里通义模型 / 百度千帆模型), Java生态下AI模型产品解决方案,快速构建企业级AI知识库、AI机器人应用 官方文档: https://langchat.cn/ 介绍: LangChat是Java生态下企业级 AIGC项目解决方案,在RBAC权限体系的基础上,集成AIGC模型能力,帮助企业快速定制AI知识库、企业AI机器人。 接入 OpenAI / Gemini / Ollama / Azure / Claude / 智谱AI / 阿里通义模型 / 百度千帆模型 等模型。 这里顺带说一下咱们dromara的easyai也是Java生态的AI模型框架,采用Apache-2.0开源协议,可以免费商用~

    41710编辑于 2024-09-13
  • 来自专栏PPV课数据科学社区

    数据挖掘中易犯的11错误

    按照Elder博士的总结,这11易犯错误包括: 0.缺乏数据(LackData) 1.太关注训练(FocusonTraining) 2.只依赖一项技术(RelyonOneTechnique) 3.提错了问题 给数据加上时间戳,避免被误用。 6.抛弃了不该忽略的案例(DiscountPeskyCases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? 不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。   异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。 ,而是“这就有点奇怪了……”   数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。    (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)   解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

    71870发布于 2018-04-20
  • 来自专栏PPV课数据科学社区

    【译文】关于数据科学难以忽视的11真相

    . 9、Presentation is key - be a master of Power Point. 10、All models are false, but some are useful. 11 You need to get your hands dirty. 1、 数据都是没有清洗过的。 2、 你总是需要花费大量的时间准备和清洗数据。 3、 95%的任务不需要深度学习。 11、没有完全自动化的数据科学。很多你需要人工手动操作。 翻译:lily PPV课原创编译 转载请注明出处 原文链接:http://www.ppvke.com/Answer/? 2、回复“答案”查看大数据Hadoop面试笔试题及答案 3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝 4、回复“可视化”查看数据可视化专题-数据可视化案例与工具 5、回复“禅师”查看当禅师遇到一位理科生 知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、

    81070发布于 2018-04-20
  • 来自专栏华章科技

    干货 :数据挖掘中易犯的11错误

    11易犯错误——Elder博士 0. 缺乏数据(Lack Data) 1. 太关注训练(Focus on Training) 2. 给数据加上时间戳,避免被误用。 6. 抛弃了不该忽略的案例(Discount Pesky Cases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? 不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。 异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。 ,而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。 10.

    29220发布于 2018-08-13
  • 来自专栏腾讯开源的专栏

    Tencent Kona JDK11正式开源,腾讯大数据将持续贡献Java生态发展

    作为Java生态的基础引擎,JDK包括了Java运行环境、Java工具,以及Java核心类库。 高效可靠 开箱即用的JDK11开源版本 为了给用户更好的JDK11版本,降低使用维护成本,腾讯大数据JVM团队在Kona JDK11中,坚持了一贯的兼容性、可靠性、安全、性能优化等核心要素,同时,重点对 作为Java生态翘首以待的“无暂停”GC算法之一,ZGC有望提供大部分情况下毫秒级停顿水平,极大提高Java在线服务场景生产力,但由于可靠性和功能的不足,某种程度上减慢了JDK 11采纳速度。 通过工业标准Benchmark表明,Kona JDK11对比Kona JDK8多数场景在峰值性能上具有非常明显的提升,个别性能提升接近50%。 持续贡献,坚持良性回馈开源 从2019年12月正式参与OpenJDK社区贡献开始,腾讯大数据JVM团队一直秉承着贡献于Java的长期成功的原则,致力于解决Java语言和JVM的短板,参与推动Java生态演进

    2K20发布于 2021-03-09
  • 来自专栏AntDB数据库

    “超越融合 异筑信创”,AntDB数据库携手超云等生态伙伴共建信创生态

    、合作伙伴、客户代表针对信创产业发展现状、技术革新方向及生态建设策略等问题进行了深入探讨。 图片与会代表一致认为,信创的本质是发展国家信息技术产业,构建中国IT产业完整的产业链、产业生态和核心竞争力,信创生态体系建设是信创发展的强需求,也是信创成功的关键。 AntDB数据库、超云等我国信创产业的创新代表,有责任和义务强化上下游生态合作伙伴关系,不断推动信创产业生态圈的建设、发展。 作为我国信息化产业生态基础软件中的一员,AntDB数据库积极与上下游软硬件进行兼容适配测试,目前已完全适配飞腾、鲲鹏等 CPU架构,支持统信 UOS、华为 openEuler 等操作系统,能够为企业级客户提供稳定完善的数据库支撑 未来,AntDB数据库将以客户需求带动生态建设,用更加开放的姿态与更多生态伙伴一起共识、共建、共成长,构建信创产业的良性循环,助推千行百业行稳致远!

    41100编辑于 2022-10-14
  • 来自专栏灯塔大数据

    必看 :大数据挖掘中易犯的11错误

    4 只靠数据来说话(Listen(only)totheData) IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢? 给数据加上时间戳,避免被误用。 6 抛弃了不该忽略的案例(DiscountPeskyCases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? 不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。 异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。 ,而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

    67370发布于 2018-04-09
  • 来自专栏CDA数据分析师

    最后一次机会,回到2016数据生态纵览峰会现场

    1月8日,2016数据生态纵览峰会在北京圆满落幕。30多名嘉宾参与分享,20多家企业共同参与,30多家媒体参与报道,1000多名与会者见证了这场盛会。如果你错过了,确实有点遗憾。 所谓大数据,只是一个手段和载体,传统经济最后一切的产业链条未来都要进入大数据生态。 所以未来所有互联网公司其实都会成为一个大数据公司,它都会成为一个载体。 但是这些数据源本身的应用和发掘还远远没有开始,今天很多嘉宾讲了大数据的应用,从整个数据层面到应用到它具体的工具,大家都在做探索。未来我们把所有的这些点连成面,连成我们现在的空间,那就形成未来的生态。 简单介绍一下数据驱动增长的未来五趋势: 第一,未来的数据分析要求更高,数据分析的数据的力度会更加细腻,用户行为数据愈加重要。 第二个趋势是实时和全量。 第三趋势,数据分析能力应该成为企业员工必备。 第四趋势,自助式工具会大规模使用,而且像大数据的技术还有数据分析师的鸿沟在渐渐被填平。 第五个趋势是数据分析平台的云端化。

    1.2K90发布于 2018-02-24
  • 来自专栏PPV课数据科学社区

    世界杯11数据:20位前冠军出战

    随着全部32支参赛队的23人名单基本敲定,国际足联官方列出本届杯赛的11数据,本届杯赛共有236人参加过世界杯,包括20位前冠军,最年轻及最年长的球队分别是加纳和阿根廷,所有球员的平均年龄为 岁零1个月,是本届杯赛最年轻的球员,也有望成为世界杯历史第9年轻的球员,但即便是喀麦隆历史,也有3名球员出征世界 杯时比他年轻,分别是埃托奥(17岁零3个月)、奥莱姆贝(17岁零6个月)以及宋(17岁零11

    74460发布于 2018-04-19
  • 来自专栏CDA数据分析师

    工具,透析Python数据生态圈最新趋势!

    我们前一阵子参加了在旧金山举办的Dato数据科学峰会。来自业界和学界的千余名数据科学研究人员在大会上对数据科学、机器学习和预测应用方面的最新发展进行了交流和探讨。 它显示了Dato对支持开源Python数据生态圈的诚意。在此之前有一种认识就是Dato提供的免费版本只是将数据科学家捆绑在自家的平台最终还是得收费,因为Dato确实有自己的商业产品。 它可以处理非常数据集而且速度很快也能嵌入在网页当中。想要快速方便地创建互动图表和数据应用的话这个库非常有用。 Bokeh对处理大型数据集时的性能问题着墨颇多。 现在Python生态圈中有很多库看起来功能都差不多比如说Blaze、Dask和Numba,但其实应该用在数据处理的不同层面上,做一个类比的话Blaze就相当于数据库中的查询优化器,而Dask则相当于执行查询的引擎 它试图解决的就是数据集规模的问题,但对用户提供的确是单机上Python的体验,而且能够与现有的Python数据生态圈(Pandas、Scikit-learn、Numpy)进行集成。

    1.5K100发布于 2018-02-05
  • 来自专栏浅聊区块链

    2023年以太坊生态5预测

    而实现模块化将会有相当的技术障碍和延迟。链上数据的急剧增加也将推动状态到期以减轻状态膨胀的需求,甚至可能导致以太坊的点对点结构发生变化。 Blob 交易为 CallData(Rollups 所依赖的)引入了一种新的数据格式,它包含大量额外的数据,这些数据不会被 EVM 执行访问,而只能为 Commitments 访问。 因此,部署一个完全模块化的区块链基础设施堆栈,包括一个通用的 L2 以及可定制的 L3,将标志着单体应用链生态系统时代的结束,以及去中心化应用开发新时代的开始。 像 Cosmos 这样的应用链生态系统将在 2023 年继续获得牵引力。然而,随着 L3 最终在 2023 年部署,我们将看到应用链叙事从单体链生态系统转变为模块化生态系统。​ 币圈波动,投资需理性。欢迎关注笔者,在留言区分享您的观点!

    71130编辑于 2023-02-13
  • 来自专栏罗超频道

    不只是1207亿,双11之于阿里的新内涵是生态、生活方式和用户运营

    不过,更值得关注的是,YunOS生态合作伙伴在天猫双11这天取得的交易成绩。 ? 但同时又强化云端服务,YunOS在云端会整合大量来自于阿里和阿里之外的大数据、金融支付、零售、文化娱乐、移动资讯、O2O等服务。轻终端重服务的玩儿法让它可让设备变得真正智能起来。 双11YunOS生态产品集体爆发,也体现出来YunOS理念被市场认可。 对于阿里巴巴来说,YunOS携手生态伙伴加入双11战并取得成绩,表明双11已不再是一个追求交易额的促销活动。 第一,双11对阿里巴巴的价值不只是交易额、不只是完善零售基础设施,还可促进阿里巴巴商业体系的“生态”繁荣。 YunOS、阿里云、蚂蚁金服、阿里钉钉诸多业务都被刺激被带动着快速发展,阿里系业务都不会缺席这个阿里向全世界秀肌肉的舞台,并且通过一次次的双11让自己的能力变得越老越强,再继续迎来下一次考验,这是阿里巴巴的阅兵式更是练习场

    22.3K40发布于 2018-04-27
  • 来自专栏腾讯云TVP

    运维数据生态数据思维

    运维数据根据上述运维方式的发展历程逐步构建数据生态,如果我们把运维方式的发展浓缩成运维技术提升和工具建设,那与之相对应的,运维数据的发展也有四个阶段:自动化运维能力、平台化运维能力、数据化运维能力、智能化运维能力 在数据化运维能力中,运维数据已初步形成初步数据生态标准,具备构建运维数据中台和数据可视化,同时也能对数据的进行血缘能力和影响能力的初步分析。 因此运维人员在落地数据思维中的第一步是形成初步的运维数据生态,具备数据的输出场景能力。 (1) 具备运维数据生态 通俗点说,运维数据生态是集中了公司展业的所有数据,并让适配场景的数据进行流动。 另外还有一些文档数据,如需求文档,接口文档,知识库。 如下图所列,具备运维数据生态基础需要将上述源数据进行采集、存储、加工、分析,最终达到应用的效果。 数据中台,建立面向运维域的数据中台,统一纳管如资源数据、告警数据、性能数据、业务数据、日志数据、工单数据、指标数据、拨测数据等,面向上层运维分析场景提供统一的数据访问路由、数据服务目录、数据接入管理、

    2.9K2519发布于 2020-06-29
  • 来自专栏大数据动态

    腾讯云大数据发布数据生态战略,构建开源开放数仓生态

    此次数据生态战略包含数据技术、数据产品、数据服务市场三个层面的内容。 首先在技术上的开源开放方面,腾讯云协同开源社区提供开放的技术体系,并通过开源的方式将自己的技术反哺给社区。 其次在产品生态开源开放方面,将臻选商业化公司的数据产品提供到与原厂产品同等的市场地位,让客户享受到更丰富和优秀的数据产品和服务。 同时开放云生态的技术能力也将有足够能力保障好企业未来数据技术演进中的技术安全性问题。 开放云生态中的客户技术实践、解决方案合作伙伴的商业化服务都将能把数据价值创新的技术、经验、商业模式,通过腾讯云培训及技术沙龙平台,传导到生态中的每一位参与者,云端企业可以以此作为数据价值创新过程中的催化剂 第二个是我们产品生态上的开放。我们将会为新创公司和商业化公司的臻选数据产品和服务提供到与自研产品同等的市场地位。让我们的客户享受到更为丰富和优秀的数据产品和服务。 第三个是我们服务生态的开放。

    2K20发布于 2021-01-05
  • 来自专栏数据处理与分析

    数据分享】中国生态功能区数据

    絮絮叨叨 读完本文,你将得到一份中国生态功能区数据,以及各保护区对应的矢量范围。 数据介绍 数据概况 在数据的官方网站上,这样介绍道:在中国生态环境问题、生态系统敏感性、生态系统服务功能重要性的基础上,将一系列相同比例尺的评价图,采用空间叠置法、相关分析法、专家集成等方法,按生态功能区划的等级体系 考虑到原来的数据都是分散的zip压缩包,不是太便于使用。我对数据进行了整理,按照不同的级别将数据分成了四个层级(也就是分成了四个shp)。 在数据下载的过程中,我们发现了网站上的数据存在三种问题:1、无数据访问权限;2、无下载链接;3、点击下载链接下载下来的数据是个图片。 ->腾格里沙漠草原化荒漠生态亚区->民勤绿洲农业及沙漠化控制生态功能区 others 本次数据整理,断断续续,耗时2个月之久。

    2.5K40编辑于 2022-01-26
领券