首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Se7en的架构笔记

    PD 分离推理架构详解

    PD 分离推理架构的讲解视频可以在这里观看:https://www.bilibili.com/video/BV1ZTWAzmEEc 本文是 LLM 推理系列的第 6 篇,介绍 PD 分离推理架构 在大语言模型推理过程中 3 PD 分离的整体思路 直观的思路很简单:将 prefill 和 decode 分离到不同的 GPU 上,并为每个阶段定制并行策略。 5 KV Cache 传输 PD 分离带来的代价是需要在 prefill 和 decode 的 GPU 之间传输中间状态(即 KV cache)。 PD 分离:llm-d 利用 vLLM 的分离式推理能力,将 prefill 和 decode 拆分到独立实例运行,并通过高性能传输库(如 NIXL)进行通信。 当应用程序无法在 TTFT 和 TPOT 之间进行权衡,而是要同时遵守这两者时,PD 分离就成为更好的选择。

    2.9K20编辑于 2025-11-12
  • MindIE PD分离部署Q&A

    PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。 昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev llama3-8B卡数输入输出concurrency发送频率prefill_bsdecode_bsPD混部1257-60710100PD分离2+3257-60100093218

    52610编辑于 2025-05-27
  • 来自专栏Se7en的架构笔记

    使用 NVIDIA Dynamo 部署 PD 分离推理服务

    在这篇文章中,我们将介绍如何安装和运行 Dynamo,包括快速开始、PD 分离部署,以及在 Kubernetes 环境中的实践。 快速开始示例只需 1 个 GPU,而 PD 分离部署示例则需要 2 个 GPU。 在 Dynamo 的 PD 分离架构中,有 4 个核心组件: (decode) worker:执行 prefill 和 decode 请求。 接下来将演示如何通过 Dynamo 实现 PD 分离部署。首先打开一个新的终端并启动 decode worker 进程,将日志级别设置为 debug,以便我们进行观察。 接下来将展示如何在 Kubernetes 上部署 Dynamo,并且运行快速开始和 PD 分离示例。

    1.1K10编辑于 2025-11-12
  • 来自专栏腾讯云原生团队

    在 TKE 上使用 NVIDIA Dynamo 部署 PD 分离的大模型

    本文主要基于 dynamo 的分解预填充和解码推理阶段特性讲述如何在 TKE 上使用 dynamo 部署 PD 分离的大模型,分为以下六部分: 第一部分,介绍 Dynamo 的 PD 分离架构。 第二部分,给出一个在 TKE 上部署 PD 分离的示例。 第三部分,介绍 Dynamo 的监控组件。 第四部分,Dynamo PD 分离部署的性能验证,与 vLLM 进行对比。 一、Dynamo 的 PD 分离是如何实现的? TTST 完全优于 baseline,主要原因可能是 PD 分离消除了两个阶段间的资源竞争。 如何确定 PD 分离部署中 Prefill Worker 和 Decode Worker 的比例?

    3.5K10编辑于 2025-04-21
  • 来自专栏AI前沿技术

    大模型推理-基于prefill和decode阶段特性,PD分离,势在必行!

    将两个阶段分别部署到不同的设备上,使用PD分离架构推理,各自优化,势在必行! 3.3 PD 分离方案技术 DistServe 尝试优化了资源分配与并行策略达到更好的 GPU goodput,其整体的方案如图。 PD分离架构的优势是,两个阶段部署在不同服务器,可以各自优化,进而使得总的吞吐和计算设备利用率最大化。 PD分离架构一个核心点是,KV cache 的计算和传递,其影响着整个架构的调度设计。 Mooncake 进一步发展了PD分离架构,提出了一种以键值缓存(KVCache)为中心的分离式 LLM 服务架构。 最后介绍PD分离方案的技术路线。

    1.3K10编辑于 2026-01-13
  • 来自专栏python前行者

    pd.isnull,pd.notnull

    pandas中用函数isnull 和notnull 来检测数据丢失 python pandas判断缺失值一般采用 isnull(),生成的是所有数据的true/false矩阵 1 pd.isnull 2 pd.isnull().any() 列级别的判断,只要该列有为空或者NA的元素,就为True,否则False 则会判断哪些”列”存在缺失值 ? 3 pd[pd.isnull().values==True] 可以只显示存在缺失值的行列,清楚的确定缺失值的位置。 ? 4 iris.columns[iris.isnull().any()].tolist() iris是dataframe对象,将为空或者NA的列找出来 5 isnull().sum() 将列中为空的个数统计出来

    1.9K30发布于 2019-03-25
  • 来自专栏小明的博客

    Pd实战

    主要写一些平时看到的比较常用的一些pd的函数的应用,通过应用场景来辅助更好地理解pandas。 我们可能会拿到形如以下形式的数据: 这样的数据集存在几个列的内容完全一致,因此我们希望实现的一个功能就是将这几个列的值合成一个列,得到形如下图的数据形式: import pandas as pd df = pd.DataFrame({ '爱好1': {'小明': '睡觉', '小红': '弹琴'}, '地点1': {'小明': '床上', '小红': '家'}, '爱好2': { \d)$') df = df.explode('爱好-地点') df[['爱好', '地点']] = df['爱好-地点'].apply(pd.Series) df # 方法3 使用已有函数 df = pd.DataFrame({ '爱好1': {'小明': '睡觉', '小红': '弹琴'}, '地点1': {'小明': '床上', '小红': '家'}, '爱好2': {

    41030编辑于 2022-09-06
  • 来自专栏全栈程序员必看

    pd.notnull

    发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/132524.html原文链接:https://javaforall.cn

    35110编辑于 2022-06-29
  • 来自专栏全栈程序员必看

    USB PD快充协议_pd快充协议文件

    1 USB Type-C 1.1 电气参数 Rd: 5.1kΩ Ra: 1.0kΩ Rfrswap: 5Ω,for PD 3.0 FR_Swap 4b5b bit rate: 300kbps ~100 us to signal Sink that is needs to supply power immediately. 2) Sink (Mobile Device) supplies 5V 待手机温度下降后以5W的功率进行后续充电; 5)充电至80%左右,选取PDO1降至5V。 请注意此时依然是PD充电,只是选了5V档位减低手机端压降损耗; 6)充电至88%左右,开始进入CV段直到充满。 解码时,如果连续2次计数间隔之差都小于6,那么这2次计数间隔对应的4b5b bit是1,如果1次计数间隔之差大于6,说明这次4b5b bit是0。

    3.4K20编辑于 2022-11-16
  • 基于 openFuyao 的 AI 推理加速实战:智能路由与 PD 分离式 KVCache 架构揭秘

    为此,openFuyao 社区推出了面向 AI 推理场景的算力释放创新组件,其中“智能路由”与“PD 分离式分布式 KVCache”架构成为关键突破。 PD分离模式AI推理集成部署图hermes-router:智能路由模块。负责接收用户请求并根据路由策略转发到最优的推理后端服务。 四、性能对比:延迟下降,算力利用率提升在实际测试中,使用智能路由 + PD 分离式 KVCache 后,openFuyao 推理集群的性能提升显著。 性能提升主要来源于:智能路由降低请求调度延迟;PD 分离式 KVCache 提升缓存复用率;集群负载自动均衡,减少节点空转。 延迟对比图由上图可见,经过 PD 分离与智能路由的优化后,openFuyao 在多规模 Qwen 模型上的推理延迟显著下降。

    45410编辑于 2025-12-11
  • 来自专栏数据派THU

    独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

    作者:Avi Chawla 翻译:欧阳锦校对:和中华 本文约1100字,建议阅读5分钟本文将带你探索Dask和DataTable,这两个类 Pandas 库。 在这两种情况下,Datatable 生成Pandas 中的 DataFrame 所需的时间最少,提供高达 4 到 5 倍的加速——使其成为迄今为止最好的选择。 原文标题:It’s Time to Say GoodBye to pd.read_csv() and pd.to_csv() 原文链接:https://towardsdatascience.com/its-time-to-say-goodbye-to-pd-read-csv-and-pd-to-csv -27fbc74e84c5 编辑:黄继彦 译者简介 欧阳锦,一名在埃因霍温理工大学就读的硕士生。

    2K30编辑于 2022-12-16
  • 来自专栏全栈程序员必看

    type-c是pd_type c pd 什么意思

    Type-C Port的Data Role、Power Role 三、Type-C的Data/Power Role识别协商/Alt Mode 四、如何进行数据链路的切换 五、相关参数/名词/状态解释 六、PD 1.2传输速率,供电效能 最大传输速度10Gb/s,即是USB 3.1 Gen2标准,也支持4 Lane DP模式,传输高清图像,在供电部分,最大可以支持100W(20V/5A) 1.3 后面随着PD规范的面世,CC脚开始被用来做简单的半双工通信,用来完成POWER供给的协商 1.4 强悍的一统天下的态势 由于Type-C的扩展功能(SBU1/SBU2),大部分配件诸如耳机、 设备刚连接时作为哪一种角色,由端口的Power Role(参考后面的介绍)决定;后续也可以通过switch过程更改(如果支持USB PD协议的话)。 通过CC引脚,利用PD协议沟通,协商,PD Controler 发起请求,并得到回应 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。

    1.2K20编辑于 2022-11-10
  • 来自专栏大数据文摘

    是时候和pd.read_csv(), pd.to_csv()说再见了

    在这两种情况下,Datatable 生成Pandas 中的 DataFrame 所需的时间最少,提供高达 4 到 5 倍的加速——使其成为迄今为止最好的选择。 原文标题: It’s Time to Say GoodBye to pd.read_csv() and pd.to_csv() 原文链接: https://towardsdatascience.com /its-time-to-say-goodbye-to-pd-read-csv-and-pd-to-csv-27fbc74e84c5 点「在看」的人都变好看了哦!

    1.5K20编辑于 2023-04-10
  • 5分钟带你掌握MySQL读写分离

    读写分离是为了将对数据库的读、写分散到不同的数据库实例上。这样的设计并不一定是完美的。读写分离主要针对的是读多写少的场景,对于写多读少的场景就不合适了。 当然,大多数应用都有读多写少的特性,这也使得读写分离具有广泛的应用场景。多数情况下,我们的读写分离都是采用一主多从的架构,也就是一台主数据库负责写入操作,其他数据库负责读取操作。 如何实现读写分离?那么说了这么多,如何实现读写分离呢? 除了 MySQL,比如咱们常用的分布式 NoSQL、缓存 Redis 等,也通过主从复制实现了读写分离。总结今天我们聊了 MySQL 的读写分离,读写分离几乎在所有大并发的场景得到了运用。 读写分离给我们带来方便的同时,我们也要注意主从同步的延时。通常可以通过 API 强制走主库来避免这个问题,但是这就相当于没有做读写分离,更好的方案是在业务上避免这种操作,比如不要在插入之后立刻读取。

    38000编辑于 2025-01-31
  • 来自专栏PingCAP的专栏

    PD 调度策略最佳实践

    例如“将 Region 2 的 Leader 迁移至 Store 5”,“将 Region 2 的副本迁移到 Store 1, 4, 5” 等。 本文简要介绍 Metrics 和 pd-ctl 两种方式,更具体的信息可以参考官方文档中 PD 监控 以及 PD Control 使用 的章节。 还支持绕过调度器,直接通过 pd-ctl 来创建或删除 Operator,如下所示: operator add add-peer 2 5:在 Store 5 上为 Region 2 添加 Peer operator add transfer-leader 2 5:将 Region 2 的 Leader 迁移至 Store 5 operator add split-region 2:将 Region 2 拆分为 2 5.

    1.5K20发布于 2019-10-12
  • 来自专栏python3

    Python处理CSV,Excel,PD

    如一下格式:27,20,14,15,14,12,94,64,37,1015,1013,1009,7,5,2,21,8,35,0.00,,,152 .csv文件可以直接用excel或者类似软件打开,样子都是我们常见的表格形式

    2K20发布于 2020-01-07
  • 来自专栏数据结构与算法

    pd_ds中的hash

    前言 在c++的STL中,提供了一种hash函数,其用法和map是几乎一样的,但是速度却能快接近一倍 使用方法 需要的头文件 #include<ext/pb_ds/assoc_container.hpp> #include<ext/pb_ds/hash_policy.hpp> using namespace __gnu_pbds; 函数声明方式 cc_hash_table<int,bool>h; gp_hash_table<int,bool>h; cc_hash_table是拉链法 gp_hash_tabl

    1.2K90发布于 2018-04-10
  • 来自专栏Mac软件的分享

    pd工具箱:Parallels Toolbox for mac

    Parallels Toolbox提供了35种组必备工具,总有一款会在您使用Mac时为您提供帮助。借助Parallels Toolbox,我们可以快速使用已隐藏、需要使用难记住的键盘快捷键或不可用的许多常用功能。

    1.2K40编辑于 2022-11-24
  • 来自专栏Mac消息

    Parallels Toolbox for mac(pd工具箱)

    您可以单击“推迟”按钮在 5 分钟后再次收到警报。 档案 使用归档程序从您的文件创建压缩归档,以节省空间或轻松共享多个文件。存档具有比内置系统实用程序更多的功能。

    8.7K30编辑于 2023-04-10
  • 来自专栏itclanCoder

    React进阶(5)-分离容器组件,UI组件(无状态组件)

    UI组件(傻瓜组件/无状态组件) UI组件:纯函数,没有任何副作用,给指定的输入,有指定的输出的函数,换句话说,只根据外部组件的props进行渲染组件的 好处:拆分成容器组件与UI组件,不仅仅是功能上的分离 TodoList组件 class TodoList extends Component { constructor(props) { super(props); // 5. onCancel() { console.log('Cancel'); }, }); } } 经过上面将父组件的拆分,分离出了

    1.4K10发布于 2020-10-28
领券