搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度
Linear Attention 的核心思想之一就是去除了计算成本高昂的 softmax 算子，使 Attention 的计算公式可以写为 O=((QK^T)⊙M_) V。但对于双向任务，由于没有没有 mask 矩阵，Linear Attention 的计算公式可以进一步简化为 O=(QK^T) V。通过图 2 可以直观地理解到 Linear Attention 在双向任务中可以达到诱人的 O (N) 复杂度！ 2. 如图 3 所示，Linear Attention-2 利用计算机领域常用的 Tiling 思想，将 Q, K, V 矩阵分别切分为了相同数量的块 (blocks)。当该 block 完成 Linear Attention 的计算之后，其输出结果 O_i 又会被搬回至 HBM。重复这个过程直到所有 block 被处理完毕即可。
86710编辑于 2024-01-18
来自专栏小鹏的专栏
03 Linear Regression
'Best fit line',linewidth=3) plt.legend(loc='upper left') plt.show() Learning The TensorFlow Way of Linear Understanding Loss Functions in Linear Regression：知道损失函数在算法收敛中的作用是很重要的。 results reproducible seed = 13 np.random.seed(seed) tf.set_random_seed(seed) # Create variables for linear dtype=tf.float32) y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) # Create variables for linear dtype=tf.float32) y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) # Create variables for linear
1.4K80发布于 2018-01-09
来自专栏产品经理的人工智能学习库
线性回归 – linear regression
Optimize.curve_fit( ) numpy.linalg.lstsq Statsmodels.OLS ( ) 简单的乘法求矩阵的逆首先计算x的Moore-Penrose广义伪逆矩阵，然后与y取点积 sklearn.linear_model.LinearRegression 详细评测可以查看原文《Data science with Python: 8 ways to do linear regression and measure their speed》线性回归 VS
1.1K21发布于 2019-12-18
来自专栏用户7873631的专栏
详解：49 linear gradient
(to top,black,red); } .box2 { background-image: linear-gradient(to right,black,red); } .box3 { background-image:linear-gradient(to bottom,black,red); } .box4{ background-image:linear-gradient(to left,black ,red); } .box5{ background-image:linear-gradient(to top left,black,red); :linear-gradient(to right top,black,red); } .box12{ background-image:linear-gradient
42520发布于 2020-10-28
线性回归（Linear Regression）
线性回归的起源线性回归（Linear Regression）的起源可以追溯到19世纪，其名称来源于英国生物学家兼统计学家弗朗西斯·高尔顿（Francis Galton）在研究父辈和子辈身高的遗传关系时提出的一个直线方程
75210编辑于 2025-04-05
来自专栏自学笔记
linear regression and logistic regression
①linear regression target function的推导线性回归是一种做拟合的算法： ? 通过工资和年龄预测额度，这样就可以做拟合来预测了。 linear regression: ? 所有logistic regression是可以作为分类的，而且他的分类效果要比linear regression好，首先直观理解错误，他比linear regression更合理，其次，他的VC bound 比linear regression要小，这就证明了Ein ≈ Eout的概率会更高，泛化能力更强。当C非常大的时候，那就和高阶的基本没有什么区别了，用这种方法改造一下linear regression： ?
66720发布于 2019-01-23
来自专栏AI SPPECH
119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention
-2 4.3.1 2025年Flash Attention-2特性 Flash Attention-2是Flash Attention的改进版本，提供了更高的性能和更低的内存消耗：更高的并行度：优化了 GPU线程块协作更高效的内存布局：减少内存占用和访问开销支持更大的批量大小：允许更大的有效批量训练更低的内存峰值：减少训练过程中的内存波动 4.3.2 实现示例 # 使用Flash Attention -2，速度最快中长序列(1K-10K tokens)：Flash Attention-2 + 分块处理长序列(10K-100K tokens)：Longformer-2025或BigBird-GS = nn.Linear(hidden_size, hidden_size) self.out_proj = nn.Linear(hidden_size, hidden_size) 替换注意力机制 for i, layer in enumerate(model.gpt_neox.layers): # 替换为Flash Attention-2
25210编辑于 2025-11-16
来自专栏全栈程序员必看
ireport教程_linear predictor
大家好，又见面了，我是你们的朋友全栈君。三元元算符 ($F{username}.equals(“a”))?”它是a”:”它不是a” 解决取到的字符串，如果给的字段不够长会自动截取问题，需要2步设置
59210编辑于 2022-10-03
来自专栏自学笔记
linear regression and logistic regression
①linear regression target function的推导线性回归是一种做拟合的算法： ? 通过工资和年龄预测额度，这样就可以做拟合来预测了。使用linear regression要满足三个条件： 1.独立，每一个样本点之间都要相互独立。 2.同分布，他们的银行是一样的，使用的算法是一样的。 3.误差都服从高斯分布。 linear regression: ? 所有logistic regression是可以作为分类的，而且他的分类效果要比linear regression好，首先直观理解错误，他比linear regression更合理，其次，他的VC bound 比linear regression要小，这就证明了Ein ≈ Eout的概率会更高，泛化能力更强。
84310发布于 2018-09-11
来自专栏从流域到海域
Tensorflow入门：Linear Regression
tensorflow实现如下： # Linear Regression based on tensorflow import tensorflow as tf # training data x_train
43820发布于 2019-05-26
来自专栏来自地球男人的部落格
线性回归（Linear Regression）
林轩田-机器学习基石 Lecture 9: Linear Regression 3.
911100发布于 2018-01-03
来自专栏又见苍岚
线性变换(linear transformation)
线性变换 (linear transformation) 是在生活和项目中经常见到的映射方式，是线性代数(linear algebra)的基本概念，它是一类满足某些特殊性质的变换，本文介绍相关内容。把可以进行这两种运算的集合通常成为一个线性空间(linear space)，它其中的一组基(basis)所包含的向量的个数，称为线性空间的维度(dimension)。线性变换几何要素线性变换从几何直观有三个要点：变换前是直线的，变换后依然是直线直线比例保特不变变换前是原点的，变换后依然是原点定义描述线性映射（ linear mapping）是从一个向量空间 V 到另一个向量空间 W 的映射且保持加法运算和数量乘法运算，而线性变换（linear transformation）是线性空间 V 到其自身的线性映射。
1.9K40编辑于 2023-03-19
来自专栏AutoML(自动机器学习)
《Transformer Quality in Linear Time》论文解读
改进Transformer Block （MHSA+GLU）后面有工作对FFN做了改进，提出了GLU（Gated Linear Unit）结构，并且发现能有效提升模型性能。GLU结构大致如下图。本文作者提出了Mixed Chunk Attention方法，该方法将Partial Attention（简单理解就是只计算更重要部分的注意力，但是实际上这类方法的计算效率不高，因为计算是不规则和碎片化的）和Linear 图片5.3 Chunk大小该如何选择当C和句子长度一样时，此时等价于FLASH-Quad，即计算复杂度为二次方当C=1时，则等价于Linear Attention，但是在做auto-regressive
90420编辑于 2023-06-24
来自专栏小鹏的专栏
torch03：linear_regression
2.827], [3.465], [1.65], [2.904], [1.3]], dtype=np.float32) # 定义线性回归模型 model = nn.Linear
48010发布于 2019-05-26
来自专栏用户7873631的专栏
css的linear-gradient
border-box; margin: 200px auto; /*默认情况下会从上至下的渐变*/ /* background: linear-gradient (red,green);*/ /*background: linear-gradient(to top,red,green);*/ /* background :linear-gradient(to top right,red,green);*/ background: linear-gradient(45deg,red, green
37020发布于 2020-10-28
Linear Attention基础-理论篇
RWKV-7与TTT(Test-TimeTraining)：最新的RWKV-7和TTT-Linear等架构进一步深化了这个视角。它们将RNN的推理过程明确建模为测试时的训练过程。
44761编辑于 2025-12-21
来自专栏产品经理的人工智能学习库
线性代数（linear algebra）
线性代数是数学的一个分支，它的研究对象是向量，向量空间（或称线性空间），线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题；因而，线性代数被广泛地应用于抽象代数和泛函分析中；通过解析几何，线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型，使得线性代数被广泛地应用于自然科学和社会科学中。
1.1K10发布于 2019-12-18
来自专栏我的独立博客
磁盘哈希结构-Linear Hashing
Linear Hashing 最近在思考一个问题，如果一个存储引擎不需要支持范围查询，那么使用hashtable这样的数据结构是否更合适？恰好看到了lotusdb中使用了一个diskhash的库，从源码看是使用了一种Linear Hashing的哈希表数据结构，由于磁盘与内存的特性不同，因此磁盘哈希结构与常见的内存hashtable不太一样扩容 Linear Hashing的扩容是其核心部分，与内存hashtable常见的扩容策略有所不同，这里重点解释下 4.1 扩容时机每当新增key之后都会重新计算当前的负载因子，负载因子的计算公式如下当负载因子超过阈值（默认是0.7）时触发扩容 if keyRatio > t.options.LoadFactor { t.split() } 4.2 扩容过程 Linear Hashing维护一个指针
25010编辑于 2024-09-02
来自专栏图灵技术域
LLE（Locally Linear Embedding）算法
Core idea LLE is inherently a non-linear dimensionality reduction strategy 即局部线性嵌入算法。 Charateristics: neighborhood-preserving Steps Select neighbors Reconstruct with linear weights Map to ://segmentfault.com/a/1190000016491406 Graph Embedding 寻找neighborhood：直接用Graph的邻接结构表示neighborhood 计算linear
1.1K30发布于 2021-05-21

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

Linear Search

03 Linear Regression

线性回归 – linear regression

详解：49 linear gradient

线性回归（Linear Regression）

linear regression and logistic regression

119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention

ireport教程_linear predictor

linear regression and logistic regression

Tensorflow入门：Linear Regression

线性回归（Linear Regression）

线性变换(linear transformation)

《Transformer Quality in Linear Time》论文解读

torch03：linear_regression

css的linear-gradient

Linear Attention基础-理论篇

线性代数（linear algebra）

磁盘哈希结构-Linear Hashing

LLE（Locally Linear Embedding）算法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

​新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

Linear Search

03 Linear Regression

线性回归 – linear regression

详解：49 linear gradient

线性回归（Linear Regression）

linear regression and logistic regression

119_LLM训练的高效内存管理与优化技术：从ZeRO到Flash Attention

ireport教程_linear predictor

linear regression and logistic regression

Tensorflow入门：Linear Regression

线性回归（Linear Regression）

线性变换(linear transformation)

《Transformer Quality in Linear Time》论文解读

torch03：linear_regression

css的linear-gradient

Linear Attention基础-理论篇

线性代数（linear algebra）

磁盘哈希结构-Linear Hashing

LLE（Locally Linear Embedding）算法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度