首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云计算D1net

    7计算数据仓库

    顶级云计算数据仓库展示了近年来云计算数据仓库市场发展的特性,因为很多企业更多地采用云计算,并减少了自己的物理数据中心足迹。 云计算数据仓库是一项收集、组织和经常存储供组织用于不同活动(包括数据分析和监视)数据的服务。 在企业使用云计算数据仓库时,物理硬件方面全部由云计算供应商负责。 关键价值/差异: •集成了Db2内存中的列式数据库引擎,对于正在寻找包含高性能数据库的数据仓库的组织而言,这可能是一个很大的好处。 •Apache Spark引擎也与Db2集成在一起,这意味着用户可以针对数据仓库使用SQL查询和Spark查询,以获取见解。 •Db2 Warehouse受益于IBM的Netezza技术以及高级数据查找功能。

    7.5K30发布于 2019-09-26
  • 来自专栏云计算D1net

    2014年数据与云计算的预测

    然而,云计算却处于一个截然不同的阶段,远远超过了初始的炒作阶段,进入了一个混合部署的新时代,在这一新时代中云计算显然地扩展到了数据中心中。 在2014年,我们可以期待大数据和云计算的发展: 1、大数据和云计算一同成长:大多数组织知道他们应该使用云计算平台,但云计算到大数据的主要贡献将会转移。 不久,云计算将成为许多大数据的来源,从开放数据到社会数据到聚合数据——所有来源都将为大数据项目提供能量和动力。 企业要建立一个包括全面数据源的大数据基础设施。 要超越“传统”的数据源(数据库,ERP/ CRM等),这一基础设施必须扩展到任何与问题有关的可用的数据源。 2、Hadoop的成长:最初,Hadoop基本上是一个单任务批处理平台。 我们可以期待Hadoop将成为“下一个”企业计算平台,推动大数据在2014年更多的实时的和操作的采用。

    3K30发布于 2018-03-16
  • 来自专栏后台技术汇

    模型应用之概念篇(2):预训练、Transformer算法、token计算

    模型的预训练 预训练值得特别关注有2个原因: 1. 前期预训练的成本高(GPT-4预训练成本超1亿美元)但效果好;后期的模型微调则投入产出比低; 2. 预训练依赖大规模数据,企业长期积累的优质数据是核心竞争力(数据质量与模型生成效果呈正相关) 数据集和训练数据 Transformer算法 ►Transformer 是什么? 变形金刚? ►语言模型是基于概率的模型,它基于训练数据中的统计信息,预测下一个词; ►由于基于概率去决策,即使是相同问题,每次回答都稍微不同 Transformer架构工作流程: ►组成 Transformer 影响模型 token 生成速率的采样概率参数有 max_token、top_k/top_p、temperature "模型通过Token处理文本时,中文的Token-字符映射呈现阶梯式特征: 基础层 Token概率采样策略 Token统计器 在线统计:OpenAI Tokens 在线计算工具 - AIGC2D.com 离线统计: from typing import List, Dict import

    70410编辑于 2025-07-31
  • 来自专栏Lansonli技术博客

    2021年数据Hadoop(十六):MapReduce计算模型介绍

    Hadoop MapReduce构思体现在如下的三个方面: ​​​​​​​如何对付大数据处理:分而治之 对相互间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略。 并行计算的第一个重要问题是如何划分计算任务或者计算数据以便对划分的子任务或数据块同时进行计算。不可分拆的计算任务或相互间有依赖关系的数据无法进行并行计算! ​​​​​​​ MapReduce中定义了如下的Mapper和Reducer两个抽象的编程接口,由用户去编程实现: map: (k1; v1) → [(k2; v2)] reduce: (k2; [v2]) → [(k3 统一构架,隐藏系统层细节 如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节;为此,MapReduce设计并提供了统一的计算框架 如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理:从分布代码的执行,到到数千小到单个节点集群的自动调度使用。

    1.1K10发布于 2021-10-11
  • 来自专栏数据猿

    密态计算模型商用数据瓶颈的新解法?

    密态计算的产业化应用,不仅为模型的产业深度应用,也为打通数据要素流通的梗阻,提供新的思路。 无论是模型的训练还是推理应用,都存在数据瓶颈 当模型从实验室研究走向实际行业应用时,数据瓶颈问题成为了阻碍其进一步商用的重要障碍,这主要表现在模型训练和推理应用两个阶段: 模型训练阶段,行业数据分散在不同机构 随着模型在各行业应用中的潜力逐渐显现,解决数据流通和隐私保护的难题变得愈发迫切。传统的隐私计算虽然在一定程度上缓解了数据安全问题,但其复杂性和效率问题限制了其广泛应用。 2022年,蚂蚁首创的可信密态计算获得数字中国建设峰会“十硬核科技奖”, 隐语可信隐私计算技术栈被评为世界人工智能大会“八镇馆之宝”之一。 用密态计算释放数据要素价值,让模型真正规模化商用 展望未来,密态计算作为一种创新技术,将进一步提升计算效率和安全性,扩大应用范围。

    73310编辑于 2024-07-16
  • 来自专栏云计算D1net

    计算数据管理的五支柱

    随着越来越多的企业采用云计算服务,采用最新的软件工具和开发方法,它们之间的界限越来越模糊。企业的真正区别取决于其数据。 随着越来越多的企业采用云计算服务,采用最新的软件工具和开发方法,它们之间的界限越来越模糊。企业的真正区别取决于其数据。 企业要在不关闭数据的情况下有效管理数据,并阻止非法访问请求,企业需要一个可靠的云计算数据管理策略,并需要考虑五个重要因素。 1. 数据存储加密 大多数时候数据都存储在存储设备中。 2. 数据访问 企业的员工可以随时随地访问他们所需的数据,但其访问也必须得到控制,这一点非常重要。首先分析哪些人需要访问哪些数据,创建限制不必要的访问,并定制访问权限和控制。 也就是说,利用多个云账户将备份数据与生产数据隔离开来。企业需要确保备份其云计算基础设施的配置信息,以防因任何原因需要重建它。

    2.9K00发布于 2018-07-31
  • 来自专栏机器之心

    模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

    大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。 更确切地说,如果 是校准数据集中第 i 个序列的第 ℓ 个 RMSNorm 模块的输出,计算: 并将 Q_ℓ设为 C_ℓ 的特征向量,按特征值递减排序。 可以发现,RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异,模型在 Alpaca 数据集中展现了更好的性能。 作者还发现 Phi-2 无法在 WikiText-2 数据集中,从被剪裁过的模型中恢复原有准确率,但在 Alpaca 数据集中能恢复几个百分点的准确率。 这种方法既增强了 SliceGPT 压缩模型的计算复杂性(浮点运算次数),又提高了数据传输效率。

    92210编辑于 2024-02-06
  • 来自专栏数据结构与算法

    1675 质数 2

    1675 质数 2 时间限制: 1 s 空间限制: 1000 KB 题目等级 : 钻石 Diamond 题目描述 Description 小明因为没做作业而被数学老师罚站,之后数学老师要他回家把第 167 173 179 181 191 193 197 199 211 223 227 229          //(不含n=233) 数据范围及提示 =0) 15 { 16 if(b%2! =0) 31 { 32 if(b%2! 45 if(n<2&&(n%2==0)) 46 { 47 return 0; 48 } 49 for(ll i=0;i<11;i++) 50 {

    60560发布于 2018-04-13
  • 来自专栏一Li小麦

    JAVA从入门到放弃(2):数据类型及其计算

    JAVA从入门到放弃(2):数据类型及其计算 所谓程序基础就是学习一门语言的惯用思路:数据类型,计算方法,流程控制,编码规范等等。掌握这些,基本上可以号称“学会了”一门语言。 ---- 2. 变量和数据类型 2.1 变量 什么是变量?变量是初中代数的概念,例如一个简单的方程 y=x2+1 中,x,y都是变量。 在Java中,变量分为两种:基本类型的变量和引用类型的变量。 2.2 基本数据类型 基本数据类型是CPU可以直接进行运算的类型。 在计算机中,浮点数虽然表示的范围,但是,浮点数有个非常重要的特点,就是浮点数常常无法精确表示。 3.2.3 溢出 整数运算在除数为0时会报错,而浮点数运算在除数为0时,不会报错,但会返回几个特殊值: •NaN表示Not a Number•Infinity表示无穷•-Infinity表示负无穷

    1.3K20发布于 2020-03-10
  • 来自专栏数说戏聊

    06.简单计算&数据标准化&数据分组1.简单计算2.数据标准化3.数据分组

    1.简单计算 指通过已有字段进行四则运算得出新的字段 import pandas data = pandas.read_csv( '/users/bakufu/desktop/4.13/data.csv 数据标准化 指将数据按比例缩放,使之落入到特定区间,用于进行不同变量间的比较分析。 0-1标准化计算公式 ? 屏幕快照 2018-07-03 05.32.15.png 将向量中的每个值与所在向量中的最小值的差,除以所在向量中的最大值与向量中最小值的差。 3.数据分组 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在的联系和规律性。 ? 屏幕快照 2018-07-03 06.01.35.png cut函数cut(series, bins, right=True, labels=NULL) 参数 注释 series 需要分组的数据 bins

    45710发布于 2018-08-02
  • 第13章 模型在计算机视觉上的测试应用-2

    当然,评测语言模型会面临一些挑战,包括但不限于以下几点: 缺乏标准数据集:构建适用于语言模型的标准数据集是一项挑战。由于模型的复杂性和多样性,很难设计出能够全面覆盖模型能力的数据集。 下面我们看看评测的方案,评测语言模型的方案可以包括以下几个步骤: 数据集构建:根据评测的目标和任务,构建适当的数据集。数据集可以包括问题-回答对、对话数据、文本填充等。 常见的计算方法包括余弦相似度(Cosine Similarity)、欧氏距离(Euclidean Distance)等。 总结: 评估语言模型是了解其性能、局限性和可靠性的重要步骤。 评估语言模型面临挑战,如缺乏标准数据集、评估指标选择和人类参与度等。评估的方案可以包括数据集构建、评估指标选择、人工评估、自动评估、对比实验和反馈改进等步骤。 图13-22 HELM的语义不变性的数据扰动示例 另一种是改变语义的扰动(Equivariance),为了测试模型的Equivariance,可以对输入数据进行语义扰动,然后计算模型在扰动后的数据上的表现

    40710编辑于 2025-04-15
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    计算学习2

    4 网络加密 V** virtual private network 虚拟个人网络:长连接和加密 L2TP(layer 2 tunneling protocol) 二层隧道协议 VPLS( 4 更可靠的安全保护,全程加密传输 技术实现: 1 握手协议 定义了建立连接的过程 在客户和服务器传送应用层数据之前,完成诸如加密算法和会话秘钥的确定、通信双方的身份验证 2 记录协议 定义了传输数据的方式 SSL V**类型 1 零客户端模式 2 瘦客户端模式 3 隧道模式 5 可靠地网络通道 标准的QOS流程:流量识别、流量标记、流量处理 流量识别 类似IP网络的平滑扩展 3 快速收敛 4 防止广播风暴 5 保持原有二层网络配置的简洁性 FabricPath实现: 1 主动建立邻居关系表,并基于链路状态维护一个路由数据2 网络就能够同事满足数据和存储两种流量的传输需求 【FCOE数据平面】 FCOE对以太网提出的三点改进意见: 1 不丢包的传输链路 2 灵活带宽的调度能力 3 与现有的以环境兼容

    1.3K80发布于 2018-01-17
  • 来自专栏机器学习、深度学习

    CNN光流计算2

    Optical Flow Estimation with Deep Networks CVPR2017 Code: https://github.com/lmb-freiburg/flownet2 本文是对 FlowNet 的改进,改进主要有三点: 1) 在训练层面,数据库的训练的顺序很重要 the schedule of presenting data during training is very important 2)组合使用多个CNN网络, develop a stacked architecture that includes warping of the second image

    1.4K30发布于 2019-05-26
  • 来自专栏从码农的全世界路过

    如何在大量数据中找出第2的数字

    如何在大量数据中找出第2的数字? 这个问题与TopN很类似,但也有不同 例如: 数组nums={42, 41, 31, 7, 17, 2, 42} 在top2时,结果是{42,42} 在当前问题中,结果是41 不同之处就在于对相同数字的判断 了解topN解决方式的一定知道这种情况二叉查找树是一个最优选择; 针对相同数字的问题,最合适的去重数据结构就Set. 最终符合这两种条件的数据结构就是TreeSet.

    1.5K10编辑于 2022-06-20
  • 来自专栏灯塔大数据

    每周学点大数据 | No.2数据的特点、应用和算法

    No.2期 大数据的特点、应用和算法 一、大数据的特点和应用 Mr. 王:大数据具有较大的数据量,和一般的数据相比,其具有如下一些特点。 —在数据量上,大数据是通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB 级别将是大数据的常态。 我们可以利用大数据进行: — 预测 — 推荐 — 商业情报分析 — 科学研究 等发现大数据中的价值,使用大数据、利用大数据的过程。由此可知,对大数据的研究还是非常重要而有意义的。 那么计算机科学家又是如何解决这些问题的呢? Mr. 王:首先,如果希望计算机能真正地解决一个实际问题,我们先要将现实世界中的事物转化为模型,这个模型可以被计算机理解和处理,它可以表示成数据和指令等。 但是计算机科学中的算法分析要比这个略复杂些,一会儿我会给你讲解,为了理解大数据算法,必须要了解如何分析算法。 内容来源:灯塔大数据

    1.1K40发布于 2018-04-09
  • 来自专栏云计算D1net

    2017年云计算数据中心五趋势

    在2017年,云计算的投资将持续火爆,但是随着企业需求变化, 2017年云市场将出现如下五趋势。 分析这些新的数据源对长期业务目标至关重要,但当分析结果比数据本身更重要时,长期存储数据是不切实际和不必要的。 虽然2017年会看到大量的数据增长,需要永久存储,但是大多数网络新产生的数据是短暂的,将很快超过它的实用性和被丢弃。因此,尽管数据量呈指数增长,但存储空间的增长将不会像我们预期的那么多。 越来越多的公司将元数据作为新的收入来源 像Google或Facebook中使用的那些系统,都是为了收集和存储大量的元数据而设计的。随着公司分析数据的能力越来越强,数据变现将变得越来越重要。 像Netflix已经成功地分析出客户数据的共性。有意义的元数据,特别是已经存储了很长时间的元数据,也可以成为分析厂商销售的新产品的焦点。

    1.8K150发布于 2018-03-27
  • 来自专栏自然语言处理(NLP)论文速递

    字节跳动 | 提出模型遗忘方法,只需2% 的RLHF计算时间即可实现对齐!

    但对齐过程往往受到 (1) 数据收集;(2) 计算资源的限制。 字节跳动提出让 LLM 进行遗忘学习的方法来进行对齐。 移除侵权保护内容; (3) 消除语言 LLM 幻觉。 尽管只有负样本,研究表明,和 RLHF 相比,只使用 2% 的计算时间下,遗忘学习仍可以获得更好的对齐性能。 方法介绍 本方法可以在资源有限的情况下,最大程度发挥优势。 当只有负样本时,这是能期望的最好结果; (2) LLM 使用侵权数据训练后,在作者要求下,成功删除数据,且考虑到成本因素不能重训 LLM; (3) LLM 成功忘记 “幻觉”; 实验结果 本文用 PKU-SafeRLHF 下表显示了计算时间的比较,本方法只需RLHF 2%的计算时间。 尽管只有负样本,遗忘学习的方法仍能达到和 RLHF 相似的无害率,而且只使用 2% 的算力。

    1.6K10编辑于 2023-12-14
  • 来自专栏新智元

    首个科学计算基座模型BBT-Neutron开源!突破科学装置数据分析瓶颈

    新智元报道 编辑:LRST 【新智元导读】语言模型能否解决传统语言模型在大规模数值数据分析中的局限性问题,助力科学界科学装置设计、高能物理领域科学计算? 高能物理实验(如粒子对撞实验、暗物质与暗能量实验等)产生的数据量极为庞大且复杂,传统的数据分析方法在处理海量数据和复杂物理结构时,面临计算瓶颈。 其中,研究人员从粒子对撞实验出发,探索了语言模型在科学装置数据分析与科学计算领域的全新应用场景—— 具体来说,团队将其最新研发的科学基座模型BBT-Neutron应用于粒子对撞实验,模型采用了全新的二进制分词方法 为了让模型更加适配科学计算场景,该研究通过引入一种创新的二进制分词方法(Binary Tokenization),即利用计算机存储中使用的二进制表示数据,实现了数值数据与文本、图像等多模态数据的统一表示 该论文研究标志着模型在多模态数据处理与科学计算任务中的巨大潜力。随着人工智能技术与科学装置的深度融合,在未来或许能够加速中国大对撞机CEPC等前沿科研项目的实施落地。

    46110编辑于 2025-02-15
  • 来自专栏新智元

    给定计算量,较小模型打败模型,Llama 2训练与GPU计算关联度

    新智元报道 编辑:桃子 【新智元导读】对于固定的计算量,小模型和模型相比性能如何? 模型推断时,避免将算力浪费在缓慢收敛上至关重要。 DeepMind宣称,「对于计算优化训练,模型大小和训练数据集大小应该相等地缩放: 模型大小每增加一倍,训练数据集大小也应该加倍。」 Chinchilla AI通过使用与Gopher相同的计算预算,但具有70B个参数和4倍多的数据,来训练一个计算更优化的模型Chinchilla ,从而来检验这一假设。 换句话说,当在训练中投入固定计算量时,谁在这段时间里学得最多? 值得庆幸的是,我们可以将损失曲线与Meta提供的另一项数据结合起来:每个模型训练所花费的时间。 由于底层模型需要训练更多的数据,因此「未拉伸」余弦值被计算为更多的步骤,这有效地拉伸了它。 如果学习率遵循分配给更少训练步骤的时间表,那么在相同的训练时间内会有更好的损失。

    51010编辑于 2023-08-07
  • 来自专栏python3

    php 循环 计算1+1+2+1+2

    $sum; } add(100,0); 方法二:回调函数 function getSum($n) {     if ($n > 1) {  $tempSum = $n * (1 + $n) / 2;

    1.2K10发布于 2020-01-07
领券