腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
基于SageMaker Neo的AWS - SageMaker无服务器
推理
我计划结合使用SageMaker serverless无服务器
推理
和SageMaker Neo来部署我的模型,用于无服务器、低
延迟
的
推理
。然而,文件不清楚是否有可能这样做。无服务器
推理
指定"Serverless
推理
与AWS集成以提供高可用性.“,因此我假设底层实例与AWS具有相同(或兼容)类型。 你用过这样的组合吗?它起作用了吗?
浏览 4
提问于2022-09-08
得票数 0
回答已采纳
1
回答
如何在生产中重用TFX转换进行
推理
(流水线)?
我想使用TFX构建一个训练管道,并最终重用我的数据转换来向TensorFlow-Serving发出
推理
请求,而TFX应该能够做到这一点。我发现的TFX示例似乎都构建了一个批量训练管道,并最终在TensorFlow-Serving中推送模型,但它们没有解决
推理
部分,由于
延迟
原因,
推理
部分必须是流管道。我也许可以编写自己的工具来发出请求,但不将我的转换组件重用于
推理
部分似乎是一种浪费。 我已经在本地运行了通过TFX示例安装脚本安装在dags中的示例。airflow UI清楚地表明这些是批处理管道。
浏览 50
提问于2019-07-03
得票数 2
回答已采纳
1
回答
android演播室热身状态的高推断时间
在此之后,当我通过给出一些数据来测试模型时,每次都给出不一致的
推理
时间。模型
推理
时间为3-4 4ms。如果我在循环中运行
推理
,3-4ms是平均
推理
时间。如果我转向实时场景,我必须每10 If执行一次
推理
。在这种情况下,我的
推理
时间会增加。对于热身状态,它给出了9ms的
推理
时间,在稳态时给出了几乎3ms的
推理
时间。但是在我的例子中,由于音频不断地出现,我希望模型在稳定的状态下运行。}); bar.setPriority(Thread.MA
浏览 5
修改于2021-04-01
得票数 0
1
回答
什么是用于云中机器学习
推理
的自动缩放GPU实例的最佳度量?
我们在AWS中有一个API,它有一个GPU实例来进行
推理
。我们有一个具有最小和最大实例数的自动缩放器设置,但不确定应该使用哪个度量(GPU/CPU使用、RAM使用、平均
延迟
等)或指标组合来确定何时需要启动新实例以跟上传入请求。在我们的例子中,
推理
是非常密集的GPU。
浏览 0
提问于2021-06-06
得票数 3
1
回答
在什么情况下释放python是安全的?
我编写了一个运行机器学习
推理
的C++库。这些
推理
函数通常使用8个线程进行优化,以实现低
延迟
(尽管仍然需要超过100 of来完成
推理
调用)。当前的问题是,在16核/线程CPU上,最好并行运行两个
推理
函数调用,从而利用所有16个可用线程。这在C++中是很好的,但是在python (使用线程)中,由于GIL,一个
推理
调用最终持有锁,而另一个不能并行运行。
浏览 4
提问于2022-02-09
得票数 1
1
回答
动态范围量化
用于动态范围量化的tensorflow文档指出:
推理
时,权值由8位精度转换为浮点,并使用浮点核进行计算.此转换只进行一次并缓存以减少
延迟
。我感到困惑的是,如果在
推理
时将权重转换为float32,那么量化是如何完成的呢?
浏览 3
提问于2021-07-25
得票数 0
回答已采纳
1
回答
Drools融合有“现在”的概念吗?
我正在试图写一条规则,
延迟
射击,至少,15分钟后,已经过去了上次射击。然而,Drools融合中的时态算子只允许对两个事件之间的关系进行
推理
,而不允许对当前时间中的一个事件进行
推理
。注意:我并不是在寻找
延迟
的规则或规则,这些规则或规则只能在15分钟的倍数上触发;如果在过去17分钟内没有发生任何事情,规则必须立即开火以响应新事件。
浏览 1
修改于2012-07-20
得票数 6
1
回答
使用RTT值估计
延迟
Latency = Transmission delay + Propagation delay + queuing delay + processing delay好心地,如果这个
推理
不正确的话,我想进一步完善它。
浏览 0
提问于2017-01-15
得票数 1
回答已采纳
1
回答
nginx负载平衡:等待(但不要超时)直到负载下降
我有一个ML
推理
服务器,它能够每秒处理大约100个请求,如果处理得更高,就会中断和超时。 现在,实际的负载有时会跳到每秒大约200个请求。客户端可以等待响应的~2秒,但对于超时请求则不是很好。我正在考虑建立一个反向代理,它可以在负载较高时以某种方式
延迟
请求,但在负载下降时保持它们的活力,然后将它们转发到
推理
服务器。我甚至不确定这是否可能,我希望我把我的问题弄清楚了。
浏览 1
修改于2021-03-02
得票数 1
回答已采纳
3
回答
Boost shared_ptr不会立即销毁对象
我正在用C++开发一个贝叶斯
推理
采样器,它在很大程度上依赖于一棵树,这棵树是在智能指针(Boost的shared_ptr和weak_ptr)的帮助下实现的。在
推理
过程中(例如,运行一个长C++函数1-2分钟),树发生了很大的变化,创建和销毁了许多节点。然而,如果我在
推理
过程中添加暂停,似乎程序完全销毁了旧对象,并且一切正常。对我来说,
浏览 0
修改于2013-01-22
得票数 0
1
回答
将ML/深度学习部署在AWS Lambda上,用于长期的训练,而不仅仅是
推理
但是也有部署ML用于培训的用例,而不仅仅是
推理
。例如,如果一家公司想让高级用户从前端重新培训一个模型。 考虑到长期的训练时间,这对兰博达来说可行吗?虽然
延迟
不会出现(冷启动
延迟
很好),但运行时可能会相当长(小时)。
浏览 0
修改于2021-02-02
得票数 1
回答已采纳
1
回答
TFLite解释器:定义最佳线程数
我正在运行一个量化的TFLite模型(在Linux中),用于使用XNNPack后端进行
推理
。我意识到TFLite模型可能会遭受预测的高
延迟
,我正在尝试通过定义TFLite.Interpreter(num_threads=X)的线程数量来优化它的性能。(我们非常欢迎其他可以加快
推理
速度的优化!)我使用的模型是一个量化的google BERT。 谢谢。
浏览 124
提问于2021-07-07
得票数 0
1
回答
星火MLLib模型的轻量级执行
但是,当我使用我的模型进行
推理
时,我想从现有的Java代码库中进行
推理
。我需要对单个数据点进行快速
推理
,而不是批量
推理
。因此,我需要一种计算
推理
的轻量级、低
延迟
的方法。我找到的一个解决方案是将我的MLLib模型的参数导出到PMML或另一个表示中,然后在纯Java中重新实现
推理
代码,而不需要任何随Spark而来的样板。理想情况下,我希望在Java中对MLLib进行轻量级的
推理
调用,而不需要任何星火会话、服务器、API、URL等的开销。 有这样一个轻量级的
浏览 0
修改于2021-05-25
得票数 4
1
回答
ALSA与PulseAudio -
延迟
问题
我的结论是,ALSA将在大多数Linux系统上提供更低的音频
延迟
,而我的同事则认为PulseAudio提供更好(更短)的
延迟
。谢谢。
浏览 5
提问于2015-03-25
得票数 5
回答已采纳
1
回答
带有uvicorn的FastAPI不允许线程使用率超过65%
我编写了一个机器学习
推理
库,它有python绑定。在正常操作下,该库将使用8个线程进行
推理
,并将所有8个线程全部释放100%。这是所需的行为,因为模型非常重,我需要为低
延迟
进行优化(因此我需要使用所有的CPU资源)。如果我编写一个python脚本并调用这个库中的
推理
函数(在一个无限循环中),这8个线程就会如预期的那样被最大化(这是htop命令的输出)。现在我有个问题。如果我在机器学习库中调用相同的
推理
函数,再次在无限循环中调用,但这次是从我的FastAPI端点中调用的,那么每个线程的CPU使用
浏览 6
提问于2022-10-27
得票数 1
回答已采纳
3
回答
更好的音乐制作性能使用葡萄酒或(在Linux主机上)
有两个应用程序,我已经使用和熟悉的Windows 7和10,并希望也使用我的新桌面运行Ubuntu (低
延迟
内核),即吉他钻机5,和FL-工作室生产者版12.4!由于音乐制作应用程序对
延迟
/
延迟
非常敏感,所以我想知道,如果我使用葡萄酒路线,还是Ubuntu主机上的Virtualbox上的Windows 10来宾VM,我是否会获得更好的性能(较低的
延迟
)?如果响应引用了运行这两种应用程序(基于葡萄酒的应用程序和Windows)的个人经验,并且观察到其中一种的性能优于另一种,或者能够提供理论
推理
,我
浏览 0
提问于2018-06-08
得票数 1
2
回答
是否只有在收到
推理
请求时才能打开SageMaker模型端点?
问题: 任何建议都是非常
浏览 2
提问于2020-07-06
得票数 1
1
回答
Dask:
延迟
vs期货与任务图生成
在这种情况下,即在处理期货时,任务图仍然是计算
推理
的方式。如果是的话,我该如何创建它们。 Thx
浏览 1
修改于2019-01-17
得票数 13
回答已采纳
1
回答
MLflow真实世界体验
因此,我们正在研究各种托管ML模型以进行
推理
的方法。
延迟
是对我们非常重要的一个关键性能指标。MLflow对我们来说是个不错的选择。 如果MLflow的用户能够分享他们的经验,我们将不胜感激。
浏览 0
修改于2020-12-04
得票数 8
回答已采纳
1
回答
面向实时
推理
的对象检测模型
该模型将用于实时
推理
,我计划在一个API市场上赚钱,比如AWS,Rakuten的快速API等等。我担心的是,如果OD模型是作为API提供的,在视频流(监视摄像头馈送)上执行实时预测会带来网络
延迟
,从而使应用程序变得更慢。是否有其他替代方案来解决
延迟
问题?例如,如果我打包要在客户端系统上执行的代码和工件,则可以消除网络
延迟
,但有可能暴露模型、代码等。因此API似乎是我的用例的理想解决方案。 执行这种情况的最佳方法是什么?
浏览 19
提问于2021-12-06
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券