搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

带有uvicorn的FastAPI不允许线程使用率超过65%

我编写了一个机器学习推理库，它有python绑定。在正常操作下，该库将使用8个线程进行推理，并将所有8个线程全部释放100%。这是所需的行为，因为模型非常重，我需要为低延迟进行优化(因此我需要使用所有的CPU资源)。如果我编写一个python脚本并调用这个库中的推理函数(在一个无限循环中)，这8个线程就会如预期的那样被最大化(这是htop命令的输出)。现在我有个问题。如果我在机器学习库中调用相同的推理函数，再次在无限循环中调用，但这次是从我

浏览 6提问于2022-10-27得票数 1

回答已采纳

1回答

在英特尔处理器上，Tflite Quant推理比TFlite float32慢

我使用默认优化(Float32)设置将网络转换为TFlite，其推理速度约为25fps。当我转换为TFlite INT8量化时，它的推理速度在英特尔8核英特尔酷睿i9 2.3 GHz上约为2 fps。这在CPU上是预期的吗？有人能解释一下是什么导致INT8推理速度慢吗？

浏览 45提问于2020-10-30得票数 0

1回答

有没有办法在cpu中优化pytorch推理？

然而，在处理器中推理(Amd3600)需要70%的cpu资源。有没有办法在cpu中优化推理？非常感谢

浏览 7提问于2021-09-19得票数 0

1回答

使用GPU训练的模型可以用于CPU上的推理吗？

我想在CPU上运行推理；尽管我的机器有GPU。我想知道是否有可能强制TensorFlow使用中央处理器而不是图形处理器？默认情况下，TensorFlow会自动使用GPU进行推理，但由于我的GPU不好(OOM‘’ed)，我想知道是否有设置强制Tensorflow使用CPU进行推理？

浏览 0修改于2021-06-22得票数 1

1回答

如何在计算机上而不是在TPU上运行这些Coral AI模型的推理？

我有Coral AI usb TPU，我成功地运行了入门示例，部署了已经编译/训练过的示例模型(图像分类)，并在TPU上运行了一个鹦鹉图像推理： python3 examples/classify_image.py(例如，我的笔记本电脑或Raspberry Pi )中运行相同模型的推理，以比较在加速器中运行推理所需的时间，比如Coral AI和通用CPU。如果我的理解是正确的，那么示例mobilenet_v2_1.0_224_inat_bird_quant_edgetpu.tflite是一个包含thos

浏览 14提问于2022-04-28得票数 0

1回答

coreml推理结果与cpu和gpu不同。

但是使用cpu设备和gpu设备的推理结果是不同的。结果如下:左文件是使用cpu的推理结果(第二列)，右文件是使用CpuAndGpu的推理结果(第二列)。

浏览 0提问于2020-01-21得票数 1

回答已采纳

2回答

VirtualBox:比起物理CPU核，分配更多的虚拟CPU核心是个坏主意吗？

VirtualBox:由于我有超线程化功能的CPU，我想知道：谈话全文：有人能对这个话题进行推理吗？所讨论的CPU是Intel Core i7-4700HQ，方舟英特尔，CPU基准。

浏览 0修改于2022-02-13得票数 53

回答已采纳

1回答

可以并行工作两个NCPS2吗？

当我使用设备多: CPU运行推理时(在Python或wih benchmark_app上)，我得到的推理时间与仅使用CPU的时间相同。

浏览 9提问于2022-05-02得票数 -1

1回答

在什么情况下释放python是安全的？

我编写了一个运行机器学习推理的C++库。这些推理函数通常使用8个线程进行优化，以实现低延迟(尽管仍然需要超过100 of来完成推理调用)。当前的问题是，在16核/线程CPU上，最好并行运行两个推理函数调用，从而利用所有16个可用线程。这在C++中是很好的，但是在python (使用线程)中，由于GIL，一个推理调用最终持有锁，而另一个不能并行运行。

浏览 4提问于2022-02-09得票数 1

1回答

是否可以在Tensorflow上的不同设备上运行网络的某些层？

我一直在尝试在Movidius神经计算棒上运行自定义Tensorflow模型的推理。问题是，NCSDK不支持最后一层。由于最后一层的计算非常轻，我想知道是否有可能在CPU上运行该层？我只需要能够在NCS上运行推理到某一层，然后在CPU上处理最后一层。

浏览 1提问于2018-07-09得票数 1

1回答

_mm512_dpbusd_epi32 AVX-512 512BW指令的AVX-512 of仿真

从级联Lake开始就有指令，可以加速量化神经网络在CPU上的推理。特别是有一个配置_mm512_dpbusd_epi32 (vpdpbusd)，它允许执行8位有符号整数和无符号整数的乘法，并将它们累加到32位整数累加器中。下面是该指令的伪代码：{ (int)

浏览 22提问于2021-06-16得票数 2

回答已采纳

1回答

将GpuMat复制到CUDA张量

我试图在C++中运行模型推理。我能够在C++中使用torch::jit::load()加载模型。我能够在cpu和gpu上进行推理，但是起点总是torch::from_blob方法，它似乎正在创建cpu端张量。为了提高效率，我想直接向CUDA张量转换/复制cv::cuda::GpuMat。

浏览 0提问于2018-12-04得票数 1

回答已采纳

1回答

TFLite解释器:定义最佳线程数

我正在运行一个量化的TFLite模型(在Linux中)，用于使用XNNPack后端进行推理。我使用X=4，6，8，None进行了一些试验，最好的方案是使用X=4，但这对我来说没有意义。如何定义最优线程数？更重要的是，定义num_threads自动与多个CPU一起工作，或者我必须使用另一个库/包吗？ (我们非常欢迎其他可以加快推理速度的优化！)我使用的模型是一个量化的google BERT。谢谢。

浏览 124提问于2021-07-07得票数 0

1回答

OpenVINO图形处理器性能优化

我正在尝试加速一个人员计数器应用程序的推理速度，为了使用GPU，我已经按照描述设置了推理机配置： device_name = "GPU" ie.SetConfig({ {PluginConfigParams/cldnn_global_custom_kernels/cldnn_global_custom_kernels.xml"} }, device_name); 并在推理引擎上加载网络，我已经设置了目标设备KEY_DYN_BATCH_ENABLED, PluginConfigParams::

浏览 7修改于2020-01-29得票数 1

回答已采纳

2回答

为什么计算机中的一个进程有时会消耗所有的CPU？

我读到过计算机中的进程是基于时间片在CPU上调度的。如果是这种情况，线程不应该长时间占用100%的CPU，系统也不应该挂起。这样的推理有什么问题呢？

浏览 1提问于2015-03-12得票数 0

1回答

使用c++，我如何知道tensorflow张量是在cuda还是cpu中？

我在写一个基于tensorflow的模型推理机，是否知道cuda设备或cpu上有TF张量？

浏览 9提问于2022-05-25得票数 0

1回答

Prolog中长度/2的逻辑推论数(swi-pl)

我期望内置长度/2谓词在逻辑推理的数量上是线性的。然而，它似乎是不变的：% 2 inferences, 0.000 CPU in 0.000 seconds (63% CPU, 142857 Lips) % 2 inferences, 0.000 CPU in 0.000 seconds (62% CPU, 153846 Lips) % 2 inferences, 0.000 CPU in 0.000 seconds (65% CPU,

浏览 3提问于2016-05-07得票数 4

回答已采纳

1回答

移动GPU上的Mxnet

文档中提到，它可以使用多个CPU和GPU进行培训，但还不清楚是否可以在移动电话上使用GPU进行推理。它提到了对BLAS的依赖，因为它似乎在移动上使用CPU。有人能告诉我是否可以使用移动GPU和mxnet进行推理吗？如果没有，我的其他选择是什么？

浏览 2修改于2017-08-13得票数 1

回答已采纳

2回答

运行多个推理机时OpenVINO无法获得最佳性能

我正在运行多个python进程(在本例中使用多处理模块)来检测人员(使用ssd模型)，每个进程都有自己的OpenVINO推理引擎。我得到一个非常低的FPS (不超过10)为每个过程。我怀疑CPU没有得到最佳利用，因为每个引擎生成的线程数量很高，这增加了CPU跨进程的开销，也增加了CPU的共享。My CPU details are:-4 cores each socket Total - 8 CPUs 在这

浏览 0提问于2019-03-28得票数 0

1回答

TensorFlow Lite GPU计算比CPU计算慢得多

在计算机GPU计算上大大加快了推理速度，但在我的手机上，GPU上的推理速度比CPU慢约30倍。对于我输入的所有输入数组，n都在400-800之间，但是我尝试了一个更大的n，看看是否我注意到的减慢是由于运行GPU推理时创建了一个委托内核。对于较大的n，GPU的推理时间接近CPU，这让我认为GPU代理可能只是在我手机的CPU上进行计算。以下是CPU/GPU计时与n的大小比较的一些示例： N = 500GPU

浏览 36提问于2020-07-15得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

带有uvicorn的FastAPI不允许线程使用率超过65%

在英特尔处理器上，Tflite Quant推理比TFlite float32慢

有没有办法在cpu中优化pytorch推理？

使用GPU训练的模型可以用于CPU上的推理吗？

如何在计算机上而不是在TPU上运行这些Coral AI模型的推理？

coreml推理结果与cpu和gpu不同。

VirtualBox:比起物理CPU核，分配更多的虚拟CPU核心是个坏主意吗？

可以并行工作两个NCPS2吗？

在什么情况下释放python是安全的？

是否可以在Tensorflow上的不同设备上运行网络的某些层？

_mm512_dpbusd_epi32 AVX-512 512BW指令的AVX-512 of仿真

将GpuMat复制到CUDA张量

TFLite解释器:定义最佳线程数

OpenVINO图形处理器性能优化

为什么计算机中的一个进程有时会消耗所有的CPU？

使用c++，我如何知道tensorflow张量是在cuda还是cpu中？

Prolog中长度/2的逻辑推论数(swi-pl)

移动GPU上的Mxnet

运行多个推理机时OpenVINO无法获得最佳性能

TensorFlow Lite GPU计算比CPU计算慢得多

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐