搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

0回答

大语言模型训练与推理算力如何成本估算？

并发、模型

大语言模型算力成本估算，影响因素有哪些？推理并发量、模型参数、输入和输出内容长度、推理响应时间。如何具体估算算力成本？

浏览 415提问于2023-07-21

1回答

我有一个大型机器学习/计算机视觉项目，它使用ONNX模型，使用python。该项目大约需要3秒(本地)才能加载模型+推断。加载onnx模型所需的时间: onnx推理所需的0.2702977657318115时间，onnx推理所需的1.673530101776123时间，onnx推理所需的时间0.7677013874053955问题，在初始化服务器时，是否有任何方法只加载onnx模型一次，而不是使用每个post请求？我不确定我的问题的解决方案是只加载onnx<e

浏览 6修改于2022-10-30得票数 1

回答已采纳

1回答

在web应用程序中为特定于用户的大型模型服务的最佳实践？

集成大型机器学习/深度学习模型微调的web应用程序如何处理这些模型的存储和检索以进行推理？我正在考虑的当前方法是以压缩格式将精调模型存储在S3或R2桶中。每次用户访问web应用程序并请求<em

浏览 0提问于2023-02-03得票数 0

回答已采纳

1回答

如何管理多线程GPU应用程序中的cuda流和TensorRT上下文？

然后，通过调用context->enqueueV2 2()，使用cuda流进行推理。在创建cudaCreateStream上下文之后，我们需要调用()吗？在多线程C++应用程序中，每个线程使用一个模型进行推理，一个模型可能加载在多个线程中；那么，在一个线程中，我们只需要一个引擎、一个上下文和一个流还是多个流？

浏览 70提问于2022-07-21得票数 0

4回答

TF对象检测:推理有效载荷的返回子集

问题详细信息我正在使用T

浏览 3提问于2020-10-04得票数 2

回答已采纳

1回答

python可以多线程，那么为什么不使用python进行推断呢？

但是pytorch使用多cpu，因为它使用C++进行多线程处理。我想它也适用于推理。因此，我想我们可以使用python多协同处理请求，也可以使用多cpu (用于计算)和加载模型一次。

浏览 9提问于2022-05-14得票数 0

1回答

知识蒸馏是否具有整体效应？

有一个模型显示了99%的性能(10class图像分类)。但我不能使用更大的模型，因为我必须保持推理时间。如果我使用另一个大模型训练知识蒸馏，是否会产生整体效应？

浏览 17提问于2021-07-14得票数 0

回答已采纳

1回答

切换Jena推理机

我有一个Jena本体模型()，我正在对其进行编程修改。此模型最初是使用创建的。问题是，随着程序的运行和模型的改变，默认的Jena Reasoner将会运行(并且运行，运行，再运行)。我更改了程序，使用创建了一个没有推理机的模型。它运行得非常快，没有表现出我之前看到的任何内存问题(即使是非常大的数据集)。当使用推理器(甚至是微型推理器)时，"grow“方法运行太慢，内存不足。如果我关闭了推理机，那么我就不能使用"pl

浏览 1修改于2009-03-17得票数 5

回答已采纳

1回答

从目录中流式传输图像并将预测与tensorflow中的文件名相关联

我有一个经过训练的模型，我需要在一个大的图像目录上运行推理。理想情况下，给定一个keras模型+图像目录，我希望有一个包含文件名和预测概率的数组。我该如何做到这一点？

浏览 0提问于2020-02-22得票数 1

1回答

使用多处理功能有效地切片和读取图像

我有一张很大的卫星图像，想要在上面运行一个目标检测模型推理。目前，我对大图像进行切片，保存瓦片，然后读取它们，以便让我的模型输出检测结果(方框和蒙版)。

浏览 24提问于2019-03-11得票数 2

回答已采纳

1回答

Tensorflow多线程推理比单线程推理慢

我正在尝试使用3个Tensorflow会话(使用3个线程)实现多线程推理，如下所示： def test_tf(sess, t_num, y_op, x_inp, input_list, tflag_op0.478595900000073 线程1时长: 0.4760909999999967 线程2时长: 0.47291089999998803 3个线程的总时长: 0.4847196000000622 然后，我将其与仅按顺序运行推理0.1481448999998065 迭代1持续时间: 0.1493705999996564 迭代2持续时间: 0

浏览 32提问于2019-12-30得票数 0

1回答

基于一个相当大的本体的推理

我有一个相当大的本体(大约80 GB)。我认为推理机将整个本体带入内存进行推理过程，不是吗？有没有办法对一个80 GB的本体和16 GB的RAM进行推理？

浏览 17提问于2021-03-25得票数 0

回答已采纳

1回答

什么是模型的尺寸缩放，我如何在全球范围内应用于每个模型？

例如，有微型- YOLO，YOLO(基地)，..有些模型，如SVTR，人们确实把它放大到很小，很小，很大的版本，等等。微型AA(默认，基本版本)超大型A 我知道应用这个方法并不总是很好，但有时我需要推理速度，有时我需要精确性。

浏览 0提问于2022-09-12得票数 0

2回答

语义推理器的可靠性是什么意思？

许多关于语义推理器的文章，都将稳健性作为推理器或推理算法的特征。然而，从维基百科()对soundness的定义中，我了解到soundness是我的模型的一个属性，独立于我应用于它的推理算法。以模型为例：Penguins have wings. 导致以下有效(可证明？)因此，当我把这个模型给一个例如基于Tableaux的算法，或者KAON2推理器，这两个都是合理的，他们仍然会给我这个

浏览 0修改于2012-12-27得票数 2

回答已采纳

1回答

多线程访问GPU上的同一模型进行推理

我有一个cnn模型加载到GPU上，对于每个图像，必须创建和分离一个新的线程，以便在此图像上运行该模型。这是可能的吗?如果可能，它是否安全？

浏览 74提问于2020-05-31得票数 2

1回答

如何在保存为.pth文件的AI模型上获得层执行时间？

我试图在CPU上运行一个类似Resnet的图像分类模型，并想知道运行模型的每一层所需的时间。将在下面的脚本中运行模型，给出在CPU上运行模型

浏览 3提问于2021-04-01得票数 0

回答已采纳

1回答

将数据从S3存储桶下载到SageMaker推理容器

我将一个模型部署到SageMaker端点以进行推理。我的输入数据非常大，我想把它的Docker发送到端点，这样我就可以把它下载到部署的S3容器上。

浏览 30修改于2021-01-20得票数 0

回答已采纳

3回答

目前最快的Mask R-CNN实现是什么

我在边缘设备(带有NVIDIA GTX 1080)上运行Mask R-CNN模型。我目前正在使用Detectron2 Mask R-CNN实现，我相信推理速度大约为5FPS。为了加快速度，我研究了其他推理引擎和模型实现。例如ONNX，但我无法获得更快的推理速度。 TensorRT在我看来非常有前途，但我还没有找到一个现成的“开箱即用”的实现。有没有其他成熟和快速的推理引擎或其他技术来加速推理？

浏览 73提问于2019-12-18得票数 7

4回答

并发编程技术，优点，缺点

至少有三种著名的创建并发应用程序的方法：异步消息传递(Erlang)。例如，在我看来，当多线程之间没有依赖关系时，使用多线程很容易，这是非常罕见的。在所有其他情况下，线程同步代码变得非常麻烦，很难调试和推理。

浏览 5修改于2010-10-25得票数 21

回答已采纳

1回答

yolov4对象检测模型的推理时间

我正在raspberry pi4B和jetson上运行yolov4对象检测模型。我得记录下推理时间。我使用12张图片进行评估。如何记录该模型的推理时间？有什么可以计算推理时间的吗？

浏览 1提问于2022-07-26得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大语言模型训练与推理算力如何成本估算？

只加载一次已部署的ONNX模型

在web应用程序中为特定于用户的大型模型服务的最佳实践？

如何管理多线程GPU应用程序中的cuda流和TensorRT上下文？

TF对象检测:推理有效载荷的返回子集

python可以多线程，那么为什么不使用python进行推断呢？

知识蒸馏是否具有整体效应？

切换Jena推理机

从目录中流式传输图像并将预测与tensorflow中的文件名相关联

使用多处理功能有效地切片和读取图像

Tensorflow多线程推理比单线程推理慢

基于一个相当大的本体的推理

什么是模型的尺寸缩放，我如何在全球范围内应用于每个模型？

语义推理器的可靠性是什么意思？

多线程访问GPU上的同一模型进行推理

如何在保存为.pth文件的AI模型上获得层执行时间？

将数据从S3存储桶下载到SageMaker推理容器

目前最快的Mask R-CNN实现是什么

并发编程技术，优点，缺点

yolov4对象检测模型的推理时间

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐