腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
0
回答
大
语言
模型
训练与
推理
算力如何成本估算?
并发
、
模型
大
语言
模型
算力成本估算,影响因素有哪些?
推理
并发量、
模型
参数、输入和输出内容长度、
推理
响应时间。如何具体估算算力成本?
浏览 415
提问于2023-07-21
1
回答
只加载一次已部署的ONNX
模型
我有一个大型机器学习/计算机视觉项目,它使用ONNX
模型
,使用python。该项目大约需要3秒(本地)才能加载
模型
+推断。加载onnx
模型
所需的时间: onnx
推理
所需的0.2702977657318115时间,onnx
推理
所需的1.673530101776123时间,onnx
推理
所需的时间0.7677013874053955问题,在初始化服务器时,是否有任何方法只加载onnx
模型
一次,而不是使用每个post请求?我不确定我的问题的解决方案是只加载onnx<e
浏览 6
修改于2022-10-30
得票数 1
回答已采纳
1
回答
在web应用程序中为特定于用户的大型
模型
服务的最佳实践?
集成大型机器学习/深度学习
模型
微调的web应用程序如何处理这些
模型
的存储和检索以进行
推理
?我正在考虑的当前方法是以压缩格式将精调
模型
存储在S3或R2桶中。每次用户访问web应用程序并请求<em
浏览 0
提问于2023-02-03
得票数 0
回答已采纳
1
回答
如何管理
多线程
GPU应用程序中的cuda流和TensorRT上下文?
然后,通过调用context->enqueueV2 2(),使用cuda流进行
推理
。 在创建cudaCreateStream上下文之后,我们需要调用()吗?在
多线程
C++应用程序中,每个线程使用一个
模型
进行
推理
,一个
模型
可能加载在多个线程中;那么,在一个线程中,我们只需要一个引擎、一个上下文和一个流还是多个流?
浏览 70
提问于2022-07-21
得票数 0
4
回答
TF对象检测:
推理
有效载荷的返回子集
问题详细信息 我正在使用T
浏览 3
提问于2020-10-04
得票数 2
回答已采纳
1
回答
python可以
多线程
,那么为什么不使用python进行推断呢?
但是pytorch使用多cpu,因为它使用C++进行
多线程
处理。我想它也适用于
推理
。因此,我想我们可以使用python多协同处理请求,也可以使用多cpu (用于计算)和加载
模型
一次。
浏览 9
提问于2022-05-14
得票数 0
1
回答
知识蒸馏是否具有整体效应?
有一个
模型
显示了99%的性能(10class图像分类)。但我不能使用更大的
模型
,因为我必须保持
推理
时间。 如果我使用另一个
大
模型
训练知识蒸馏,是否会产生整体效应?
浏览 17
提问于2021-07-14
得票数 0
回答已采纳
1
回答
切换Jena
推理
机
我有一个Jena本体
模型
(),我正在对其进行编程修改。此
模型
最初是使用创建的。问题是,随着程序的运行和
模型
的改变,默认的Jena Reasoner将会运行(并且运行,运行,再运行)。我更改了程序,使用创建了一个没有
推理
机的
模型
。它运行得非常快,没有表现出我之前看到的任何内存问题(即使是非常
大
的数据集)。当使用
推理
器(甚至是微型
推理
器)时,"grow“方法运行太慢,内存不足。如果我关闭了
推理
机,那么我就不能使用"pl
浏览 1
修改于2009-03-17
得票数 5
回答已采纳
1
回答
从目录中流式传输图像并将预测与tensorflow中的文件名相关联
我有一个经过训练的
模型
,我需要在一个
大
的图像目录上运行
推理
。理想情况下,给定一个keras
模型
+图像目录,我希望有一个包含文件名和预测概率的数组。我该如何做到这一点?
浏览 0
提问于2020-02-22
得票数 1
1
回答
使用多处理功能有效地切片和读取图像
我有一张很大的卫星图像,想要在上面运行一个目标检测
模型
推理
。目前,我对
大
图像进行切片,保存瓦片,然后读取它们,以便让我的
模型
输出检测结果(方框和蒙版)。
浏览 24
提问于2019-03-11
得票数 2
回答已采纳
1
回答
Tensorflow
多线程
推理
比单线程
推理
慢
我正在尝试使用3个Tensorflow会话(使用3个线程)实现
多线程
推理
,如下所示: def test_tf(sess, t_num, y_op, x_inp, input_list, tflag_op0.478595900000073 线程1时长: 0.4760909999999967 线程2时长: 0.47291089999998803 3个线程的总时长: 0.4847196000000622 然后,我将其与仅按顺序运行
推理
0.1481448999998065 迭代1持续时间: 0.1493705999996564 迭代2持续时间: 0
浏览 32
提问于2019-12-30
得票数 0
1
回答
基于一个相当
大
的本体的
推理
我有一个相当
大
的本体(大约80 GB)。我认为
推理
机将整个本体带入内存进行
推理
过程,不是吗?有没有办法对一个80 GB的本体和16 GB的RAM进行
推理
?
浏览 17
提问于2021-03-25
得票数 0
回答已采纳
1
回答
什么是
模型
的尺寸缩放,我如何在全球范围内应用于每个
模型
?
例如,有微型- YOLO,YOLO(基地),..有些
模型
,如SVTR,人们确实把它放大到很小,很小,很大的版本,等等。微型AA(默认,基本版本)超大型A 我知道应用这个方法并不总是很好,但有时我需要
推理
速度,有时我需要精确性。
浏览 0
提问于2022-09-12
得票数 0
2
回答
语义
推理
器的可靠性是什么意思?
许多关于语义
推理
器的文章,都将稳健性作为
推理
器或
推理
算法的特征。然而,从维基百科()对soundness的定义中,我了解到soundness是我的
模型
的一个属性,独立于我应用于它的
推理
算法。以
模型
为例:Penguins have wings. 导致以下有效(可证明?)因此,当我把这个
模型
给一个例如基于Tableaux的算法,或者KAON2
推理
器,这两个都是合理的,他们仍然会给我这个
浏览 0
修改于2012-12-27
得票数 2
回答已采纳
1
回答
多线程
访问GPU上的同一
模型
进行
推理
我有一个cnn
模型
加载到GPU上,对于每个图像,必须创建和分离一个新的线程,以便在此图像上运行该
模型
。这是可能的吗?如果可能,它是否安全?
浏览 74
提问于2020-05-31
得票数 2
1
回答
如何在保存为.pth文件的AI
模型
上获得层执行时间?
我试图在CPU上运行一个类似Resnet的图像分类
模型
,并想知道运行
模型
的每一层所需的时间。将在下面的脚本中运行
模型
,给出在CPU上运行
模型
浏览 3
提问于2021-04-01
得票数 0
回答已采纳
1
回答
将数据从S3存储桶下载到SageMaker
推理
容器
我将一个
模型
部署到SageMaker端点以进行
推理
。我的输入数据非常
大
,我想把它的Docker发送到端点,这样我就可以把它下载到部署的S3容器上。
浏览 30
修改于2021-01-20
得票数 0
回答已采纳
3
回答
目前最快的Mask R-CNN实现是什么
我在边缘设备(带有NVIDIA GTX 1080)上运行Mask R-CNN
模型
。我目前正在使用Detectron2 Mask R-CNN实现,我相信
推理
速度大约为5FPS。为了加快速度,我研究了其他
推理
引擎和
模型
实现。例如ONNX,但我无法获得更快的
推理
速度。 TensorRT在我看来非常有前途,但我还没有找到一个现成的“开箱即用”的实现。有没有其他成熟和快速的
推理
引擎或其他技术来加速
推理
?
浏览 73
提问于2019-12-18
得票数 7
4
回答
并发编程技术,优点,缺点
至少有三种著名的创建并发应用程序的方法: 异步消息传递(Erlang)。例如,在我看来,当
多线程
之间没有依赖关系时,使用
多线程
很容易,这是非常罕见的。在所有其他情况下,线程同步代码变得非常麻烦,很难调试和
推理
。
浏览 5
修改于2010-10-25
得票数 21
回答已采纳
1
回答
yolov4对象检测
模型
的
推理
时间
我正在raspberry pi4B和jetson上运行yolov4对象检测
模型
。我得记录下
推理
时间。我使用12张图片进行评估。如何记录该
模型
的
推理
时间?有什么可以计算
推理
时间的吗?
浏览 1
提问于2022-07-26
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券