首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏hfl的运维笔记

    TKE节点管理

    <none> 3m56s v1.16.3-tke.9 172.27.16.15 Ready,SchedulingDisabled <none> 29h v1.16.3-tke .9 172.27.16.7 Ready master 30h v1.16.3-tke.9 移除节点 移除节点会有提示 [移除节点] 如果是workload master 30h v1.16.3-tke.9 极端情况,创建pod没有node节点可以调度时 kubectl get pods|grep nginx nginx unknown> Warning FailedScheduling pod/nginx 0/6 nodes are available: 3 node(s) had taints that the pod didn't tolerate, 3 node(s) were unschedulable.

    1.8K00发布于 2020-06-29
  • 来自专栏hfl的运维笔记

    TKE节点

    节点池文档 作用:实现节点动态的扩容缩容。 应该是外部的服务监控k8s集群,外部服务调用k8s的api实现的。 创建节点池 配置参数选择 计费模式选择了按量计费; SSH密钥; 机型配置,不要选择1核1G的; 安全组,系统默认选择了worker的安全组,不需要修改; 数量,创建节点池的时候,创建worker节点的数量 ,选择了一台; 节点数目范围,根据自己需求,这可以后期调整; 支持的子网,全部勾选了; [创建节点池] 可以新建多个节点池,根据不同的机型 查看节点池 可以看到机型和数量 [查看节点池] 修改节点池 可以直接调整数量 ; 可以修改节点池的节点数量范围; 可以停止弹性伸缩; 可以选择开启缩容 编辑全局配置 [全局配置] [开启缩容] 注意: 缩容的配置; 扩容的算法; 删除节点池 如果不需要节点池,可以在 更多->删除 节点池就删除了

    1.4K30发布于 2020-06-30
  • 来自专栏腾讯云原生团队

    TKE 注册节点,IDC 轻量云原生上云的最佳路径

    ; IDC 资源利旧和托管免运维 IDC 注册节点托管至云上,作为 TKE 的worker节点承载业务,天然实现了资源利旧;控制面在云上 TKE,集群组件的运维、升级、持续运营都由 TKE 自动化实现。 注册节点方案可以帮助用户将不同地域的 IDC 注册到同一个 TKE 集群中进行统一的管理运维,统一了管控入口,降低了运维的复杂度。 ; 网络打通:IDC 和 TKE 专线打通; 节点注册步骤: TKE 标准集群,进入集群详情页 > 选择左侧菜单栏中的节点管理 > 节点池 > 点击新建节点池,选择注册节点池并填写对应参数提交。 总结 腾讯云 TKE 中提供了 3节点运维的新范式: 声明式节点运维-原生节点; 有节点的 Serverless – 超级节点; IDC 轻量上云–注册节点3节点类型分别面向客户不同的业务场景 ,TKE 实现了一个集群中同时纳管这 3节点新范式和 TKE 普通节点的统一管理、调度方案。

    2.1K20编辑于 2022-12-27
  • 来自专栏腾讯云原生团队

    降本超30%,智聆口语通过 TKE 注册节点实现 IDC GPU 节点降本增效实践

    选型 - TKE 注册节点集群 能力介绍 TKE 注册节点(原第三方节点)是腾讯云原生团队针对混合云部署场景,全新升级的节点产品形态,允许用户将非腾讯云的主机,托管到容器服务 TKE 集群,由用户提供计算资源 业务侧可以通过注册节点的特性,将 IDC 主机资源添加到 TKE 公有云集群,确保在上云过程中存量服务器资源得到有效利用,同时支持在单集群内同时调度注册节点、云上 CVM 节点及云上超级节点,便于将云下业务拓展至云上 添加了注册节点的集群,可能包含众多不同网络环境的计算节点,如 IDC 网络环境和公有云 VPC 网络环境的计算节点TKE 注册节点架构 (图自[注册节点-网络模式]官网文档:https://cloud.tencent.com/document/product/457/79748) 业务架构方案 在新架构各层部署方式较平台期时期都有了较大改变 引擎层则需要充分利用 TKE 集群注册节点能力,通过节点亲和性配置分别部署在 IDC 节点、CVM 节点和超级节点上,其中 IDC 节点为利旧资源,CVM 节点为后续常备的基础资源,超级节点为弹性伸缩资源

    4K40编辑于 2023-01-09
  • 来自专栏腾讯云容器运维

    TKE升级node节点版本

    1.TKE节点升级方式 1.1驱逐节点pod升级节点方式 image.png 找到对应的节点,点击驱逐,驱逐完毕后,点击集群信息升级 image.png image.png image.png image.png 1.2将节点对应的pod副本设置大于1 image.png image.png 先将对应节点上的pod副本都设置大于2,因为升级时候会销毁pod,可以会导致服务不可用,设置pod副本为多个,可以保证服务不会中断 设置完之后,再执行上述升级节点步骤即可。

    1.1K10发布于 2020-06-09
  • 来自专栏腾讯云容器专家服务的专栏

    TKE节点风险规避

    风险规避措施 方式一 至少保持集群节点在2个节点以上 新加节点步骤:集群管理--> 节点管理-->新建节点 [image.png] > 注意: 推荐在创建Node时选择操作系统为Tencent Linux2.4 操作系统,在 TKE 使用 Tencent Linux使用的优势请参考https://cloud.tencent.com/document/product/457/50124 方式二 创建节点节点池帮助您高效管理 Kubernetes 集群内节点,腾讯云容器服务 TKE 引入节点池概念。 新建节点池步骤: 集群管理-->节点管理 --> 节点池 --> 新建节点池 [image.png] [image.png] 注意: 推荐在创建Node时选择操作系统为Tencent Linux2.4 操作系统,在 TKE 使用 Tencent Linux使用的优势请参考https://cloud.tencent.com/document/product/457/50124 在多子网的场景下建议在创建完节点池之后建议修改修改伸缩组的实例创建策略由

    79810发布于 2021-10-28
  • 来自专栏腾讯云容器运维

    TKE集群节点执行kubectl报错

    tke集群默认每个节点会安装kubectl命令的,大家可以随便登录一个节点通过kubectl命令去访问集群,但是新建集群或者新加节点到集群的时候,会出现新节点隔一段后执行kubectl命令报错的问题,具体报错如下 执行kubectl命令报错的大致原因就是为了节点安全,节点不再发放admin用户永久的kubeconfig,而是将admin用户证书和私钥改成了12小时有效期,仅仅用来保证节点能成功加入到集群,所以这里报错就是因为节点的 组件都无法访问,那我怎么才能获取apiserver的service,其实tke这边已经在集群创建的时候就在defalut命名空间下创建了一个名称为kubernetes的service,这个service 获取集群的kubernetes service ip tke集群的控制台,点击服务于路由,点击service,然后选择default命名空间,记录 kubernetes这个service的服务ip。 image.png 3.

    2K30发布于 2021-04-12
  • 来自专栏lakezhong的专栏

    腾讯云TKE“无损业务”升级TKE节点的方法

    腾讯云TKE“无损业务”升级TKE节点的方法 原理 1. 设置TKE节点为不可调度,记TKE节点名为a; 2. 驱逐节点下的非DaemonSet类型的pod。 部分pod驱逐失败时,手工结束不能正常结束的pod; 3. 移除TKE节点a; 4. 重新将TKE节点a所在CVM加入TKE集群,TKE节点a的会被升级为TKE集群主节点大版本的最新release版本; 5. 依次将所有TKE节点执行步骤1至4,完成所有TKE节点的版本升级; 核心指令/界面操作 查看节点: kubectl get nodes 设置节点为不可调度 kubectl cordon <NodeName TKE节点 重新将TKE节点a所在CVM加入TKE集群 节点成功加入口,确认TKE节点版本已升级为最新

    2.6K31发布于 2019-12-10
  • TKE注册节点:实现IDC资源高效利旧与统一云原生管理

    通过注册节点实现轻量化云原生转型 腾讯云TKE注册节点提供专线版和边缘版两种模式,将非腾讯云主机托管至TKE集群:用户提供计算资源,TKE负责全生命周期管理。 统一调度管理:单集群内同时调度本地节点与云上CVM节点 边缘自治:通过公有云连接纳管边缘节点,支持弱网场景 量化收益:运维成本降低60%,GPU利用率提升70% PCG案例:一个月内迁移几十万核IDC资源上云 50个节点20分钟完成部署,成本从百万级降至十万以内级 典型客户实践验证方案有效性 PCG:将深圳、上海IDC机器接入同地域TKE集群,实现云上云下一致体验(运行时/K8s版本/CNI),显著降低运维复杂度 外部大数据客户:将北京、宁波机房物理机加入TKE集群,实现GPU资源精细化管理和跨云统一运维 智慧医疗平台:管理410+ 边缘医院节点,通过云端Dashboard监控系统状态,适配多体系结构/多操作系统异构环境 腾讯云技术领先性与行业认可 TKE注册节点提供业界唯一的在离线混部能力和qGPU精细隔离技术,支持: 分钟级节点接入和声明式运维 云边隧道实现弱网可靠连接 异构节点统一管理(x86/ARM/多种OS)

    6010编辑于 2026-04-28
  • 来自专栏技术专栏

    2.5 实现注册节点

    2.5 实现注册节点 实现注册节点这个功能比较简单,就是在我们的BlockChain类中 维护一个成员变量nodes,其类型是Set。

    85310发布于 2018-09-12
  • 来自专栏腾讯云原生团队

    TKE 超级节点,Serverless 落地的最佳形态

    陈冰心,腾讯云产品经理,负责超级节点迭代与客户拓展,专注于 TKE Serverless 产品演进。背景让人又爱又恨的 ServerlessServerless 炙手可热,被称为云原生未来发展的方向。 在产品能力上,超级节点针对兼容 TKE 标准集群形态做了大量工作,保障用户的业务可以平滑在普通节点和超级节点间无损切换。 超级节点,有节点的 Serverless 服务传统的节点运维管理模式传统的节点运维管理模式的特点在于:有节点概念,计费维度在单个节点上。其优势在于对无论是对运维来讲还是财务人员来讲,管理完全可控。 超级节点模式超级节点模式的特点在于:有节点概念,但无节点运维工作,以 Node 为计费对象,兼容基于节点的运维、财务体系。 低成本:减少集群预留 buffer,将集群的节点维护在资源利用率更高、使用和预留更合理的水平,节省成本。如何创建超级节点TKE 集群和 TKE Serverless 集群中均可创建超级节点

    2K40编辑于 2023-04-26
  • 来自专栏云原生搬运工

    TKE】超级节点部署 LLaMA 大语言模型服务

    使用背景有训练好的 GGUF 模型文件(LLaAM)想要部署在腾讯云上做推理,可以选择使用 TKE serverless 超级节点快速部署。 准备工作创建 TKE serverless 集群及超级节点,参考 创建集群。创建部署所需要的超级节点,参考 创建超级节点。 需要申请的GPU卡类型和卡数可以根据工作负载注解和容器规格配置,详情参考 TKE Serverless 支持的规格:GPU 规格。 本示例申请一张 v100 GPU,则需要在添加注解:eks.tke.cloud.tencent.com/gpu-type: 'V100',并配置相应的容器资源规格。 targetPort: 8080 type: LoadBalancer # lb暴露服务总结上述文档仅为快速上手指导,如果有更加复杂的 LLaMA 大模型服务容器化场景,请参考官方文档,或联系 TKE

    64153编辑于 2023-11-07
  • 来自专栏error

    TKE容器服务添加节点cvm spotpaid type not support

    问题现象:添加节点出现:cvm spotpaid type not support图片原因:TKE容器服务还不支持竞价实例,因为实例资源库存不足而产生中断。 库存不足时,系统会从已分配的竞价实例里随机回收系统可能会自动回收这些折扣售卖的实例,容器导致业务受影响,建议添加节点时选择按量和包年月的实例

    46230编辑于 2023-01-13
  • 来自专栏TKE最佳实践

    TKE获取不到超级节点pod cpumem指标

    问题背景:经常有在TKE部署了metrics-server后,发现通过kubectl top 或者k9s看不到超级节点pod的cpu/mem,这些工具都依赖v1beta1.metrics.k8s.io 问题原因社区metrics-server默认是从<node_ip>:10251/stats/summary接口获取pod cpu/mem监控,但是超级节点没有暴露这个接口,所以无法获取。 TKE自身默认数据源已经做了适配,主要有2类apiservice:v1beta1.custom.metrics.k8s.io: 暴露所有pod层级的指标v1beta1.metrics.k8s.io: 暴露节点 /pod cpu,内存使用量解决方案所以只需要修改apiservice v1beta1.metrics.k8s.io,指向TKE默认数据源kube-system/metrics-service修改为:kubectl

    44320编辑于 2023-11-29
  • 来自专栏腾讯云容器运维

    TKE中在节点上获取容器资源配置

    pod17b4aaff-dd14-4ba1-a735-5e6a7725fbd0/b930cd9c4ba969a1366da5c79fbce8a0a6690649d0238d9f5fc34f8269fc43b5 3:

    1.6K40发布于 2020-07-31
  • 来自专栏盘点那些TKE不太详细的文档

    如何为TKE添加的节点自定义数据?

    、设置自定义的系统参数、为节点主机配置dns服务器、为节点设置swap分区 and so on ..... 如果是针对一台台机器去更改就比较麻烦,那么可以通过设置节点的启动脚本帮助您在节点 ready 之前,对您的节点进行初始化工作,即当节点启动的时候运行配置的脚本,如果一次购买多台云服务器,自定义数据会在所有的云服务器上运行 今天的主角就是这个功能了,设置节点的启动脚本,这边来测试下。 var/swapfile swap swap defaults 0 0" >> /etc/fstab image.png 可以看到已经生效 image.png 使用限制 建议您不要通过启动脚本修改 TKE 脚本及其生成的日志文件可在节点的 /usr/local/qcloud/tke/userscript 路径查看。 image.png

    2K70发布于 2020-01-10
  • 来自专栏腾讯云容器运维

    如何在TMP取消TKE超级节点kubelet监控采集

    具体的介绍和使用可以参考文档https://cloud.tencent.com/document/product/457/71896现在基本上都会用tmp来监控腾讯云的tke集群,为了能够服务的快速扩缩容 ,很多时候tke集群会加入超级节点,超级节点的相关介绍可以参考文档https://cloud.tencent.com/document/product/457/74014超级节点其实类似于一台超大规格的 CVM资源集合,但是底层是不存在真实节点,因此和正常节点不一样,不存在kubelet或者runtime组件,一般这些都是在pod上,超级节点上的一个pod,相当于一台精简的cvm。 当tmp关联了tke集群后,会自动发现监控所有节点,然后加入到kubelet的target,但是实例上超级节点上是不存在对应的metrics接口的,因此tmp页面会显示超级节点的target是down状态 图片虽然这个不影响监控数据的采集和查看,但是有强迫症的人就无法接受这类异常提示,下面我们说下如何取消超级节点kubelet的监控。

    1.4K101编辑于 2022-07-06
  • 来自专栏腾讯云容器运维

    TKE集群节点max-pod是如何配置的

    图片图片那么节点的最大运行pod数量到底是如何定义的呢?下面我们来说说tke不同网络模式下节点新加入tke集群的max_pods是如何进行设置的。1. 图片图片因此GlobalRouter的kubelet配置的max_pods就是单个节点的容器cidr ip数量,然后再减去3个,这里为什么要减去3个呢? 模式pod的数量就会比cidr - 3少。 也就是说1C的S5机型加入tke集群,节点的max-pod值设置的是61,这里后端设计遵循了GlobalRouter逻辑还是会减去3个ip,因此是61。 8C的S5机型加入tke集群,节点的max-pod值设置的是95。

    2.5K40编辑于 2022-08-15
  • 来自专栏云原生搬运工

    TKE】GPU 节点 NVIDIA Tesla 驱动重新安装

    使用场景 默认情况下,用户在 TKE 添加 GPU 节点时,会自动预装特定版本 GPU 驱动,但是目前默认安装 GPU 驱动版本是固定的,用户还不能选择要安装的 GPU 驱动版本,当用户有其他版本的 GPU 驱动使用需求时,就需要在节点上重新安装,下面将介绍在 TKE 节点中如何重新安装 GPU 驱动程序。 3.下载新驱动程序并安装 登录 NVIDIA 驱动下载 官网下载选择 linux 64 bit shell 安装文件,如下图: image.png 这里我们选择安装 NVIDIA Tesla 10.2 NVIDIA-Linux-x86_64-440.95.01.run sh NVIDIA-Linux-x86_64-440.95.01.run 新驱动安装过程如下图: [选择 YES] 等待新驱动安装完成: [4lq6xe3jd4 : kubectl describe node <NodeName> 从 k8s 节点资源查看 GPU 资源是否和实际资源一致,如下图: image.png 总结 本文简单介绍了如何在 TKE 重新安装

    2K73发布于 2021-06-01
  • 来自专栏云原生搬运工

    TKE】容器访问节点外服务时是否做 SNAT 配置

    适用的场景 在 TKE 中无论是 Global Router 还是 VPC-CNI 网络模式,在容器内访问集群所在 VPC 网段和容器网段默认是不会做 SNAT 的,但除此之外访问其他网段都是会做 SNAT

    2.1K94发布于 2021-04-13
领券