搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

当阵列为函数参数时，Gcc自矢量化矩阵中的奇异行为

当数组是参数时，它无法向量化(请参阅mxmp)，但是当数组是全局变量时，它能够向矢量化(参见mxmg)。C[i][j] = C[i][j] + A[i][k] * B[k][j]; mxmg();} 我预计编译器在这两个函数中都会执行相同的操作，但是mxmp所需的执行时间大约是mxmg的10倍。研究组装代码时，gcc能够自动对mxmg (当数组是全局变量)进行自动矢量化，但却无法将mxmp (其中的数组是参数)向量化<

浏览 3修改于2019-06-20得票数 0

回答已采纳

1回答

如何对量化的线性层向前执行？

我有一个量化模型，现在我想提取量化线性层的参数，并手动实现前向。我搜索源代码，但只找到这个函数。有人能给我一个后，量化线性的前向是如何定义的？

浏览 5提问于2022-05-03得票数 1

1回答

多通道图像数据集上的卷积网训练

我正试图从零开始实现一个卷积神经网络，我无法弄清楚如何对rgb这样的三维多通道图像执行(矢量化)操作。因此，我想不出如何在整个数据集中实现这些网络的向量化操作。我已经实现了一个以三维矩阵为输入的网络，但现在我意识到它不能在整个数据集上工作，但我必须一次传播一个输入，我真的不知道conv网是否在整个数据集上向量化，如果是的话，我如何向化我的卷积网络来处理多通道图像

浏览 4修改于2017-08-22得票数 1

回答已采纳

2回答

告诉nvcc在SIMD模式下执行循环的迭代

在OpenMP中，程序员可以向编译器提示循环的主体可以向量化。数据自动化系统C中有类似的东西吗？在转换循环体时，我们能告诉nvcc使用矢量指令吗？代码应该由线程处理器执行，线程处理器是SIMD，所以这可能是真的。

浏览 1提问于2015-04-07得票数 0

回答已采纳

2回答

如何在Python2.7中使用numba jit编译器提高math.sqrt()的速度

我有一个复杂的函数，它执行不能矢量化的数学运算。我发现使用NUMBA jit编译器实际上会降低性能。可能是因为我在这个函数中使用了对python math.sqrt的调用。--向Kes致敬

浏览 1修改于2014-05-28得票数 1

1回答

在训练过程中，Tensorflow量化感知训练是否会导致实际的加速？

我们正在考虑将量化感知训练用于一个研究项目，以确定训练期间量化对收敛速度和运行时间的影响。尽管我们还不完全相信这是正确的工具。请您澄清以下几点: 1)如果一个层在量化感知训练期间被量化，这意味着输入和权重被量化，包括激活函数在内的所有操作都被量化，然后在返回之前，输出被反量化到与下一层兼容的精度。这种理解正确吗?3)原则上，量化感知训练是否会在您的一般经验的训练过程中导致加速，或者这是不可能的，因为它只是一个模拟? 4)您能告诉我们如何向</e

浏览 22提问于2020-06-19得票数 0

回答已采纳

1回答

TensorFlow -层间不同的位宽量化

TensorFlow是否支持层间不同的位宽量化，还是必须在整个模型中执行相同的技术？例如，假设我在16-bit层执行n量化。我能在8-bit层执行n+1量化吗？

浏览 3提问于2020-09-01得票数 1

回答已采纳

2回答

par_unseq和“向量化-不安全”函数

我对par_unseq执行策略所施加的限制和“向量化-不安全”函数的想法感到困惑。取消顺序的执行策略是唯一不对函数调用进行排序的情况，这意味着它们可以相互交织。在C++中的所有其他情况下，它们都是不确定顺序的(不能交织)。因此，用户不允许分配或释放内存、获取互斥、使用非锁定的std：：原子专门化，或者通常在使用这些策略时执行任何向量化</

浏览 5修改于2020-01-10得票数 4

2回答

模乘的矢量化

size, int p, int * c) for (size_t i = 0; i < size; ++i)}也许有人知道解决这个问题的可能性吗？

浏览 5提问于2017-10-17得票数 2

回答已采纳

1回答

我怎样才能更好地与GCC进行矢量化？

考虑执行相同计算的这三个函数：{} GCC 4.7.2 (与-O3 -mavx一起)将循环版本矢量化三个版本的(规范化)次数分别为3.3次(循环，自动矢量化)，1.2次(展开，标量)，1次(手动avx)。展开版本和

浏览 6提问于2016-10-09得票数 4

2回答

今天的现代编译器是否执行运行时检查？

编译器是否执行运行时依赖检查以决定将循环向量化？换句话说，编译器是否像在运行时一样通过逻辑进行跟踪，以确定循环是否可以向量化？是在编译器编译代码时，如果启用了自动向量化(默认)，那么输出就是以AVX程序集指令为目标的向量化代码，那么它什么时候执行依赖项检查？

浏览 0修改于2015-02-26得票数 1

1回答

矢量化算法

第二种方法:从numpy导入arange的矢量化版本。作者指出，“矢量化算法执行速度快得多，但使用的内存更多。”有谁能解释一下向量化算法是什么意思?为什么矢量化算法执行得更快，却使用更多内存？

浏览 1修改于2018-03-13得票数 0

回答已采纳

2回答

使用GCC进行循环版本控制

我正在和GCC一起研究自动矢量化。由于客户的要求，我不能使用内部函数或属性。(我无法获得支持矢量化的用户输入) 如果可以矢量化的数组的对齐信息是未知的，则GCC调用一个循环版本控制的过程。在树上执行循环向量化时，将执行循环版本控制。当一个循环被识别为可矢量化，并且数据对齐或数据依赖的约束阻碍了它时(因为它们不能在编译时确定)，那么将生成该循环的两个版本。这些是循环的矢量化和非矢量化版本，以及对齐或依赖的运行时检查，以控制执行<

浏览 1修改于2009-11-14得票数 6

回答已采纳

1回答

如何在PyTorch Lightning中编写多个训练设置

我想迭代量化我的模型。这意味着在通常用training_step实现的正常训练循环之后，我希望迭代量化一些参数，并重新训练模型几个步骤。我真的不明白在Lightning中如何做到这一点。我可以向类中添加一个新的实例，但之后我必须自己重新编写训练循环？

浏览 12提问于2020-05-13得票数 0

2回答

C矢量化:在像python矢量化这样的数组中可以进行元素操作吗？

我正从python迁移到C，希望更快地实现，并尝试学习C中的矢量化，相当于python矢量化。例如，假设我们有二进制数组Input_Binary_Array，如果我想要将索引的每个元素(例如，i )乘以2**i，然后在python向量化中，将所有非零的求和进行如下操作：或者，如果我们执行并执行元素加法/减法/乘法，则执行以下操作

浏览 3修改于2022-07-13得票数 1

1回答

如何根据下标逐个元素赋值？

的元素相加，所以最终结果应该如下所示：[1,] 2 3使用嵌套的for循环来实现这一点是微不足道的，但不会在非常大的数据集上执行尝试将其向量化，例如> z[x,y] <- x + y> j <- 1:2> z [,1]

浏览 1提问于2013-02-26得票数 3

回答已采纳

2回答

Fortran的向量化和

我正在使用gfortran和-mavx编译我的gfortran代码，并且已经验证了一些指令是通过objdump向量化的，但是我并没有得到我所期望的速度改进，所以我想确保下面的参数是向量化的(这条指令大约是运行时的如果没有向量化，如何强制矢量化？do ii = 1,tn tsum = tsum + tvec(

浏览 8修改于2015-08-27得票数 7

回答已采纳

2回答

矢量正向传播

我在想，把我的前道具矢量化是否会让它更快。我目前的前向道具代码是： for i in range (self.dimensions[1]):如果矢量化将使这更快，我将如何向量化呢？

浏览 2提问于2020-08-10得票数 1

回答已采纳

2回答

使用uniroot.all查找包含数组的函数的根

问题似乎是uniroot.all立即将整个x‘is数组发送给f，然后R对执行Carray+x感到困惑(警告：“较长的对象长度不是较短对象长度的倍数”)。当x是标量时，函数f按预期工作。我不知道如何将f矢量化，这样我就可以向它传递一个x‘’es数组。

浏览 0修改于2018-12-24得票数 1

回答已采纳

1回答

为什么向量化对于几乎相同的代码有不同的行为？

下面是执行相同操作的空闲函数，但在第一种情况下，循环不是向量化的，而在其他情况下则是矢量化的。为什么会这样呢？trw_s-v1.3\trws\test\vector.cpp(19) : info C5001: loop vectorized 原因1200：“循环包含循环携带的数据依赖关系，防止了矢量化循环的不同迭代相互干扰，从而使循环矢量化会产生错误的答案，而自动向量器无法向自己证明不存在这种数据依赖。”。

浏览 3修改于2015-08-13得票数 13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

当阵列为函数参数时，Gcc自矢量化矩阵中的奇异行为

如何对量化的线性层向前执行？

多通道图像数据集上的卷积网训练

告诉nvcc在SIMD模式下执行循环的迭代

如何在Python2.7中使用numba jit编译器提高math.sqrt()的速度

在训练过程中，Tensorflow量化感知训练是否会导致实际的加速？

TensorFlow -层间不同的位宽量化

par_unseq和“向量化-不安全”函数

模乘的矢量化

我怎样才能更好地与GCC进行矢量化？

今天的现代编译器是否执行运行时检查？

矢量化算法

使用GCC进行循环版本控制

如何在PyTorch Lightning中编写多个训练设置

C矢量化:在像python矢量化这样的数组中可以进行元素操作吗？

如何根据下标逐个元素赋值？

Fortran的向量化和

矢量正向传播

使用uniroot.all查找包含数组的函数的根

为什么向量化对于几乎相同的代码有不同的行为？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐