搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Java知识点
第11章_数据处理之增删改
插入第二记录 # 3）同时插入多条记录（剩下的所有记录） id name authors price pubdate note num 1 Tal of AAA Dickes 23 1995 novel 11 # 8、统计书名中包含a字母的书的数量和库存总量 # 9、找出“novel”类型的书，按照价格降序排列 # 10、查询图书信息，按照库存量降序排列，如果库存量相同的按照note升序排列 # 11 、向books表中插入记录 # 1）不指定字段名称，插入第一条记录 INSERT INTO books VALUES(1,'Tal of AAA','Dickes',23,1995,'novel',11 DESC; # 10、查询图书信息，按照库存量降序排列，如果库存量相同的按照note升序排列 SELECT * FROM books ORDER BY num DESC,note ASC; # 11
55920编辑于 2023-08-07
来自专栏数据结构与算法
11:大整数减法
11:大整数减法查看提交统计提问总时间限制: 1000ms 内存限制: 65536kB描述求两个大的正整数相减的差。输入共2行，第1行是被减数a，第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11
1.4K100发布于 2018-04-11
来自专栏NewBeeNLP
大模型预训练中的数据处理及思考
作者有以下三大理由： • 网页数据的量级比公开数据大的多，仅用专有数据模型模型训练不到最佳效果：GPT3 论文中说自己模型参数是175B，使用了大约300B的token数量进行模型训练，但根据scaling • 专有数据处理起来很麻烦：网页数据有固定的格式，我们可以根据html上面的标签进行处理，而专有数据因为来源很杂，格式不统一等原因，甚至需要一份数据，一种处理方式很费时间。数据规模先看结论 • 仅仅用CommonCrawl的网页数据中构建训练数据，训练了了Falcon-40B模型，并取得了不错的效果（huggingcase的大模型开源大模型排行榜OpenLLM Leaderboard The pile是一个高质量数据集，作者在构建的RefinedWeb数据集上训练模型超过了在The pile数据集上训练的效果网页数据处理方法 CommonCrawl数据特点 • 很脏：有大量的情色、 DeepMind证明了提升模型规模和提升数据质量同样重要，仅仅是大模型也做不好推理任务，但如果数据处理的好的话，模型的推理能力能大幅提升。
2.7K10编辑于 2024-06-04
来自专栏about云
大数据处理分析的六大工具
RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。
3.7K150发布于 2018-03-27
来自专栏加米谷大数据
大数据处理必备的十大工具
大数据处理必备的十大工具 1. Pentaho Business Analytics 从某种意义上说, Pentaho 与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎，但它目前通过简化新来源中获取信息的过程来支持大数据处理 Cloudera Cloudera正在努力为开源Hadoop,提供支持，同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。它提供了一个比Hive更快的查询引擎，因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。
3.5K30发布于 2019-01-09
来自专栏CSDN技术头条
勿谈大，且看Bloomberg的中数据处理平台
这里，我们不妨走进Bloomberg的用例，着眼时间序列数据处理上的数据和体积挑战。以下为译文在Bloomberg，我们并不存在大数据挑战。实验应用在一个合适的集群上，拥有11台搭载SSD的主机，每台主机配备了两个志强E5处理器以及128GB内存。使用HBase，用户可以在大的Portfolio文件上做拆分，并且分配到集群中的多个主机上进行处理。如果11台服务器上每个只搭建一个region，总计11个，平均响应时间是260毫秒。当region数量提升到每台主机3个时，也就是总计33台主机，平均响应时间将下降到185毫秒。这就意味着，Java当下已经成为很多高fan out计算系统的基础，其中包括Hadoop、HBase、Spark、SOLR等，同步进行垃圾回收将解决非常大的问题。
3.9K60发布于 2018-02-08
来自专栏企鹅号快讯
大数据处理必备的十大工具！
.PentahoBusinessAnalytics 从某种意义上说,Pentaho与Jaspersoft相比起来,尽管Pentaho开始于报告生成引擎，但它目前通过简化新来源中获取信息的过程来支持大数据处理 7.Cloudera Cloudera正在努力为开源Hadoop,提供支持，同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。它提供了一个比Hive更快的查询引擎，因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。同时，它还用于事件流处理、实时查询和机器学习等方面。来源：TechTarget
3.7K70发布于 2018-02-06
来自专栏大数据成神之路
面试系列：十个海量数据处理方法大总结
根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340 亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。四、堆适用范围：海量数据前n大，并且n比较小，堆可以放入内存基本原理及要点：最大堆求前n小，最小堆求前n大。适用范围：第k大，中位数，不重复或重复的数字基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。当然在更新每条数据的出现次数的时候，我们可以利用一个堆来维护出现次数最多的前N个数据，当然这样导致维护次数增加，不如完全统计后在求前N大效率高。如果数据无法放入内存。
1.9K40发布于 2019-07-09
来自专栏Java项目实战
1100万大表11秒SQL优化
t.A = '' and t.B = ''and te.C = '' and t.D = 0group by t.B,t.C,te.X,te.id,te.Y分析执行计划因为te表未用到索引造成全表扫描大表总数据条数那就看看为什么没走索引
27830编辑于 2023-06-30
来自专栏Java项目实战
1100万大表11秒SQL优化
因为te表未用到索引造成全表扫描大表总数据条数 ? 那就看看为什么没走索引怎么才能走索引业务能不能优化影不影响主数据？
44520发布于 2021-07-22
来自专栏数据D江湖
2022双11大促复盘报告
来源：魔镜市场情报公众号后台回复：报告获取源文件欢迎添加本站微信：datajh （可上下滑动或点单个图片放大左右滑动查看）
11.6K21编辑于 2022-12-08
来自专栏技术碎碎念
jdbc基础 (三) 大文本、二进制数据处理
LOB (Large Objects) 分为：CLOB和BLOB，即大文本和大二进制数据 CLOB：用于存储大文本 BLOB：用于存储二进制数据，例如图像、声音、二进制文件在mysql中,只有BLOB ,没有CLOB，mysql存储大文本用TEXT TEXT 分为：TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT BLOB 分为：TINYBLOB、BLOB、MEDIUMBLOB和 java.io.Reader; 8 import java.io.Writer; 9 import java.sql.Connection; 10 import java.sql.PreparedStatement; 11 ; 39 statement.setInt(1, 1); 40 41 //大文本要使用流的形式。 import java.sql.Connection; 8 import java.sql.PreparedStatement; 9 import java.sql.ResultSet; 10 11
1.9K70发布于 2018-04-11
来自专栏Flink实战应用指南
Flink Forward 2019--实战相关(11)--Pulasr与Flink整合的弹性数据处理
越来越多的应用程序使用Flink进行低延迟数据处理。Flink使用一个计算引擎来统一批处理和流处理。
69500发布于 2019-07-11
来自专栏生信技能树
nature杂志给你的生物信息学数据处理11个小技巧
nature杂志的TECHNOLOGY FEATURE 栏目在13 JANUARY 2020发表了一个有趣的小短文：Eleven tips for working with large data sets，副标题是：Big data are difficult to handle. These tips and tricks can smooth the way.
57621发布于 2020-02-20
来自专栏网络安全观
一文读懂11大密码应用模式
炼石总结并在不断完善11种密码应用模式，下面将分别对各应用模式的威胁分析、解法与案例做摘录介绍，由于篇幅限制，各场景详细案例实践可以联系小编获取，欢迎各位业界同仁共同完善。
46220发布于 2021-02-26
来自专栏最新最全的大数据技术体系
11月大数据面试题复习
1）从 high-level 的角度来看，两者并没有大的差别。 11、Spark为什么要持久化，一般什么场景下要进行persist操作？为什么要进行持久化？当大表和小表join时，用map-side join能显著提高效率。将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是，甚至出现数据倾斜，消耗内存大，1.x之前spark使用hash，适合处理中小规模，1.x之后，增加了Sorted shuffle，Spark更能胜任大规模处理了。
92912编辑于 2021-12-06
来自专栏罗超频道
共享单车带来5大社会问题，却有11大好处！
大饥荒之后迎来粮食丰收后还是会死很多人——被撑死的。 ? 然而相对于共享单车给社会带来的好处来说，上述影响都微不足道。什么好处？ 1、共享单车可以大幅提高城市效率。 11、共享单车会促进城市交通设施更完善。没有自行车道的城市可能会规划自行车道，没有自行车停放区域的城市可能会规划区域，这意味着城市交通设施会更完善。
6.3K30发布于 2018-04-16
来自专栏腾讯云TVP
未来数据处理领域的PK：大模型Transformer vs 大数据Transform
相比之下，大模型的数据处理需求完全不同。 数据处理的内核和外延也从“计算+数据处理”变为了“计算+推理+知识提取”，大模型的出现，数据处理也可以处理知识了。大模型缺乏有效的数据处理工具缺乏有效的数据处理工具，这使得大模型数据处理的效率和一致性大打折扣：1. 在未来的数据处理中，新一代的ETL架构会要融合大模型的智能与ETL的高效，变为万物皆可处理的大模型大数据框架：硬件：数据处理单元的融合数据处理的基础单元正从单一的CPU主导，转向CPU与GPU的分工协作 CPU与GPU的协同，将为下一代数据处理提供更高的效率与智能支持。软件：数据处理架构的融合随着ETL与大模型功能的深度结合，数据处理架构正在演变为一个多功能的协同平台：ETL作为大模型的数据准备工具。
74110编辑于 2025-01-21
《LSTM与ESN：动态系统数据处理的两大“神器”对决》
在动态系统数据处理的领域中，长短期记忆网络（LSTM）和回声状态网络（ESN）都是备受关注的技术。它们各有特点，在不同的场景下发挥着重要作用。下面将详细探讨它们在处理动态系统数据时的差异。
24910编辑于 2025-02-11
来自专栏Lansonli技术博客
2021年大数据Spark（二十六）：SparkSQL数据处理分析
---- SparkSQL数据处理分析在SparkSQL模块中，将结构化数据封装到DataFrame或Dataset集合中后，提供两种方式分析处理数据，正如前面案例【词频统计比如机器学习相关特征数据处理，习惯使用DSL编程；比如数据仓库中数据ETL和报表分析，习惯使用SQL编程。无论哪种方式，都是相通的，必须灵活使用掌握。
2.1K20发布于 2021-10-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

第11章_数据处理之增删改

11:大整数减法

大模型预训练中的数据处理及思考

大数据处理分析的六大工具

大数据处理必备的十大工具

勿谈大，且看Bloomberg的中数据处理平台

大数据处理必备的十大工具！

面试系列：十个海量数据处理方法大总结

1100万大表11秒SQL优化

1100万大表11秒SQL优化

2022双11大促复盘报告

jdbc基础 (三) 大文本、二进制数据处理

Flink Forward 2019--实战相关(11)--Pulasr与Flink整合的弹性数据处理

nature杂志给你的生物信息学数据处理11个小技巧

一文读懂11大密码应用模式

11月大数据面试题复习

共享单车带来5大社会问题，却有11大好处！

未来数据处理领域的PK：大模型Transformer vs 大数据Transform

《LSTM与ESN：动态系统数据处理的两大“神器”对决》

2021年大数据Spark（二十六）：SparkSQL数据处理分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐