搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

基于SageMaker Neo的AWS - SageMaker无服务器推理

我计划结合使用SageMaker serverless无服务器推理和SageMaker Neo来部署我的模型，用于无服务器、低延迟的推理。然而，文件不清楚是否有可能这样做。无服务器推理指定"Serverless推理与AWS集成以提供高可用性.“，因此我假设底层实例与AWS具有相同(或兼容)类型。你用过这样的组合吗？它起作用了吗？

浏览 4提问于2022-09-08得票数 0

回答已采纳

1回答

如何在生产中重用TFX转换进行推理(流水线)？

我想使用TFX构建一个训练管道，并最终重用我的数据转换来向TensorFlow-Serving发出推理请求，而TFX应该能够做到这一点。我发现的TFX示例似乎都构建了一个批量训练管道，并最终在TensorFlow-Serving中推送模型，但它们没有解决推理部分，由于延迟原因，推理部分必须是流管道。我也许可以编写自己的工具来发出请求，但不将我的转换组件重用于推理部分似乎是一种浪费。我已经在本地运行了通过TFX示例安装脚本安装在dags中的示例。airflow UI清楚地表明这些是批处理管道。

浏览 50提问于2019-07-03得票数 2

回答已采纳

1回答

android演播室热身状态的高推断时间

在此之后，当我通过给出一些数据来测试模型时，每次都给出不一致的推理时间。模型推理时间为3-4 4ms。如果我在循环中运行推理，3-4ms是平均推理时间。如果我转向实时场景，我必须每10 If执行一次推理。在这种情况下，我的推理时间会增加。对于热身状态，它给出了9ms的推理时间，在稳态时给出了几乎3ms的推理时间。但是在我的例子中，由于音频不断地出现，我希望模型在稳定的状态下运行。}); bar.setPriority(Thread.MA

浏览 5修改于2021-04-01得票数 0

1回答

什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？

我们在AWS中有一个API，它有一个GPU实例来进行推理。我们有一个具有最小和最大实例数的自动缩放器设置，但不确定应该使用哪个度量(GPU/CPU使用、RAM使用、平均延迟等)或指标组合来确定何时需要启动新实例以跟上传入请求。在我们的例子中，推理是非常密集的GPU。

浏览 0提问于2021-06-06得票数 3

1回答

在什么情况下释放python是安全的？

我编写了一个运行机器学习推理的C++库。这些推理函数通常使用8个线程进行优化，以实现低延迟(尽管仍然需要超过100 of来完成推理调用)。当前的问题是，在16核/线程CPU上，最好并行运行两个推理函数调用，从而利用所有16个可用线程。这在C++中是很好的，但是在python (使用线程)中，由于GIL，一个推理调用最终持有锁，而另一个不能并行运行。

浏览 4提问于2022-02-09得票数 1

1回答

动态范围量化

用于动态范围量化的tensorflow文档指出：推理时，权值由8位精度转换为浮点，并使用浮点核进行计算.此转换只进行一次并缓存以减少延迟。我感到困惑的是，如果在推理时将权重转换为float32，那么量化是如何完成的呢？

浏览 3提问于2021-07-25得票数 0

回答已采纳

1回答

Drools融合有“现在”的概念吗？

我正在试图写一条规则，延迟射击，至少，15分钟后，已经过去了上次射击。然而，Drools融合中的时态算子只允许对两个事件之间的关系进行推理，而不允许对当前时间中的一个事件进行推理。注意：我并不是在寻找延迟的规则或规则，这些规则或规则只能在15分钟的倍数上触发；如果在过去17分钟内没有发生任何事情，规则必须立即开火以响应新事件。

浏览 1修改于2012-07-20得票数 6

1回答

使用RTT值估计延迟

Latency = Transmission delay + Propagation delay + queuing delay + processing delay好心地，如果这个推理不正确的话，我想进一步完善它。

浏览 0提问于2017-01-15得票数 1

回答已采纳

1回答

nginx负载平衡:等待(但不要超时)直到负载下降

我有一个ML推理服务器，它能够每秒处理大约100个请求，如果处理得更高，就会中断和超时。现在，实际的负载有时会跳到每秒大约200个请求。客户端可以等待响应的~2秒，但对于超时请求则不是很好。我正在考虑建立一个反向代理，它可以在负载较高时以某种方式延迟请求，但在负载下降时保持它们的活力，然后将它们转发到推理服务器。我甚至不确定这是否可能，我希望我把我的问题弄清楚了。

浏览 1修改于2021-03-02得票数 1

回答已采纳

3回答

Boost shared_ptr不会立即销毁对象

我正在用C++开发一个贝叶斯推理采样器，它在很大程度上依赖于一棵树，这棵树是在智能指针(Boost的shared_ptr和weak_ptr)的帮助下实现的。在推理过程中(例如，运行一个长C++函数1-2分钟)，树发生了很大的变化，创建和销毁了许多节点。然而，如果我在推理过程中添加暂停，似乎程序完全销毁了旧对象，并且一切正常。对我来说，

浏览 0修改于2013-01-22得票数 0

1回答

将ML/深度学习部署在AWS Lambda上，用于长期的训练，而不仅仅是推理

但是也有部署ML用于培训的用例，而不仅仅是推理。例如，如果一家公司想让高级用户从前端重新培训一个模型。考虑到长期的训练时间，这对兰博达来说可行吗？虽然延迟不会出现(冷启动延迟很好)，但运行时可能会相当长(小时)。

浏览 0修改于2021-02-02得票数 1

回答已采纳

1回答

TFLite解释器:定义最佳线程数

我正在运行一个量化的TFLite模型(在Linux中)，用于使用XNNPack后端进行推理。我意识到TFLite模型可能会遭受预测的高延迟，我正在尝试通过定义TFLite.Interpreter(num_threads=X)的线程数量来优化它的性能。(我们非常欢迎其他可以加快推理速度的优化！)我使用的模型是一个量化的google BERT。谢谢。

浏览 124提问于2021-07-07得票数 0

1回答

星火MLLib模型的轻量级执行

但是，当我使用我的模型进行推理时，我想从现有的Java代码库中进行推理。我需要对单个数据点进行快速推理，而不是批量推理。因此，我需要一种计算推理的轻量级、低延迟的方法。我找到的一个解决方案是将我的MLLib模型的参数导出到PMML或另一个表示中，然后在纯Java中重新实现推理代码，而不需要任何随Spark而来的样板。理想情况下，我希望在Java中对MLLib进行轻量级的推理调用，而不需要任何星火会话、服务器、API、URL等的开销。有这样一个轻量级的

浏览 0修改于2021-05-25得票数 4

1回答

ALSA与PulseAudio -延迟问题

我的结论是，ALSA将在大多数Linux系统上提供更低的音频延迟，而我的同事则认为PulseAudio提供更好(更短)的延迟。谢谢。

浏览 5提问于2015-03-25得票数 5

回答已采纳

1回答

带有uvicorn的FastAPI不允许线程使用率超过65%

我编写了一个机器学习推理库，它有python绑定。在正常操作下，该库将使用8个线程进行推理，并将所有8个线程全部释放100%。这是所需的行为，因为模型非常重，我需要为低延迟进行优化(因此我需要使用所有的CPU资源)。如果我编写一个python脚本并调用这个库中的推理函数(在一个无限循环中)，这8个线程就会如预期的那样被最大化(这是htop命令的输出)。现在我有个问题。如果我在机器学习库中调用相同的推理函数，再次在无限循环中调用，但这次是从我的FastAPI端点中调用的，那么每个线程的CPU使用

浏览 6提问于2022-10-27得票数 1

回答已采纳

3回答

更好的音乐制作性能使用葡萄酒或(在Linux主机上)

有两个应用程序，我已经使用和熟悉的Windows 7和10，并希望也使用我的新桌面运行Ubuntu (低延迟内核)，即吉他钻机5，和FL-工作室生产者版12.4！由于音乐制作应用程序对延迟/延迟非常敏感，所以我想知道，如果我使用葡萄酒路线，还是Ubuntu主机上的Virtualbox上的Windows 10来宾VM，我是否会获得更好的性能(较低的延迟)？如果响应引用了运行这两种应用程序(基于葡萄酒的应用程序和Windows)的个人经验，并且观察到其中一种的性能优于另一种，或者能够提供理论推理，我

浏览 0提问于2018-06-08得票数 1

2回答

是否只有在收到推理请求时才能打开SageMaker模型端点？

问题：任何建议都是非常

浏览 2提问于2020-07-06得票数 1

1回答

Dask:延迟vs期货与任务图生成

在这种情况下，即在处理期货时，任务图仍然是计算推理的方式。如果是的话，我该如何创建它们。 Thx

浏览 1修改于2019-01-17得票数 13

回答已采纳

1回答

MLflow真实世界体验

因此，我们正在研究各种托管ML模型以进行推理的方法。延迟是对我们非常重要的一个关键性能指标。MLflow对我们来说是个不错的选择。如果MLflow的用户能够分享他们的经验，我们将不胜感激。

浏览 0修改于2020-12-04得票数 8

回答已采纳

1回答

面向实时推理的对象检测模型

该模型将用于实时推理，我计划在一个API市场上赚钱，比如AWS，Rakuten的快速API等等。我担心的是，如果OD模型是作为API提供的，在视频流(监视摄像头馈送)上执行实时预测会带来网络延迟，从而使应用程序变得更慢。是否有其他替代方案来解决延迟问题？例如，如果我打包要在客户端系统上执行的代码和工件，则可以消除网络延迟，但有可能暴露模型、代码等。因此API似乎是我的用例的理想解决方案。执行这种情况的最佳方法是什么？

浏览 19提问于2021-12-06得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

基于SageMaker Neo的AWS - SageMaker无服务器推理

如何在生产中重用TFX转换进行推理(流水线)？

android演播室热身状态的高推断时间

什么是用于云中机器学习推理的自动缩放GPU实例的最佳度量？

在什么情况下释放python是安全的？

动态范围量化

Drools融合有“现在”的概念吗？

使用RTT值估计延迟

nginx负载平衡:等待(但不要超时)直到负载下降

Boost shared_ptr不会立即销毁对象

将ML/深度学习部署在AWS Lambda上，用于长期的训练，而不仅仅是推理

TFLite解释器:定义最佳线程数

星火MLLib模型的轻量级执行

ALSA与PulseAudio -延迟问题

带有uvicorn的FastAPI不允许线程使用率超过65%

更好的音乐制作性能使用葡萄酒或(在Linux主机上)

是否只有在收到推理请求时才能打开SageMaker模型端点？

Dask:延迟vs期货与任务图生成

MLflow真实世界体验

面向实时推理的对象检测模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐