首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DotNet NB && CloudNative

    .NET9 AOT部署

    C# AOT部署和JIT部署两种不同的编译和部署方式对比 AOT(Ahead-of-Time)部署: AOT是将C#程序提前编译为机器代码(通常为平台特定的二进制文件),在应用程序启动之前完成编译过程。 缺点: 编译时间长:AOT需要在部署前进行编译,可能导致部署的时间较长。 平台依赖:AOT编译会生成特定平台的机器码,因此跨平台部署需要针对每个平台生成不同版本的代码。 选择AOT还是JIT部署,需要根据具体的应用场景、性能需求、开发周期和平台要求来权衡。 tabs=dotnet9&pivots=os-linux-ubuntu-2204 添加存储库 sudo add-apt-repository ppa:dotnet/backports 安装SDK sudo tabs=linux-ubuntu%2Cnet9plus sudo apt-get install clang zlib1g-dev 4、把解决方案代码上传到Linux系统某个文件夹上并转到要发布的项目

    86700编辑于 2025-03-17
  • 来自专栏AI SPPECH

    64_模型部署推理优化策略

    KV缓存优化:提升推理性能的关键 ├── 7. 服务化部署:构建高性能推理服务 ├── 8. 边缘部署:低延迟场景的优化方案 ├── 9. 多模态模型部署:特殊考量与优化 └── 10. 本文将系统梳理2025年大模型部署推理优化的完整技术体系,为不同规模的团队提供可落地的解决方案。 2. 服务化部署:构建高性能推理服务 服务化部署是将大模型集成到实际应用系统中的关键环节。2025年的服务化部署已经形成了成熟的架构和工具链。 边缘部署:低延迟场景的优化方案 边缘部署将大模型推理能力下沉到靠近用户或数据源的边缘节点,显著降低延迟并提高数据隐私保护。 批处理优化:动态批处理检测请求 性能指标: 检测延迟:<50ms/帧 检测准确率:>99.5% 支持24小时连续运行 可处理多种缺陷类型 9.

    88810编辑于 2025-11-16
  • 来自专栏边缘计算_rui

    使用aidlux进行模型迁移、部署推理

    AidLux是一个构建在ARM硬件上,基于创新性跨Android/鸿蒙 + Linux融合系统环境的智能物联网 (AIoT) 应用开发和部署平台。 说的直白点,aidlux就是一个在arm架构芯片的设备上运行的linux系统,我们可以将身边的安卓设备当作边缘设备,在aidlux的基础上,使用安卓设备作为硬件来进行AI推理模型迁移登录网站:https aimo.aidlux.com/#/model-convert选择模型优化,传入对应格式的模型点击next图片点击next,选择目标格式:图片图片点击submit即可开始进行模型转换,转换成功后下载对应的模型转换结果即可部署推理过程可以观看视频

    70410编辑于 2023-09-07
  • 来自专栏AI学习笔记

    端侧 MoE 推理:Mixtral 模型手机部署

    (三)MoE 模型在端侧推理中的挑战尽管 MoE 模型具有许多优势,但在端侧推理中也面临着一些挑战。首先,由于终端设备的计算资源有限,如何高效地部署 MoE 模型是一个关键问题。 准备工作方面具体操作环境搭建选择硬件环境,配置软件环境模型获取与转换下载模型权重,转换模型格式推理框架选择与安装选择适合的推理框架,进行安装性能评估工具准备准备性能评估工具四、Mixtral 模型手机部署的关键技术与实现 其中关于模型分块加载、异步推理等方面的思路,为 Mixtral 模型手机部署中的内存管理和任务调度提供了有益的借鉴。 七、结论与展望通过本文的详细阐述,我们对端侧 MoE 推理以及 Mixtral 模型手机部署有了较为全面的认识和实践。 从端侧推理和 MoE 模型的基本概念出发,深入分析了 Mixtral 模型的特点和优势,并详细介绍了手机部署的准备工作、关键技术与实现,以及实践案例和相关论文参考。

    68810编辑于 2025-07-14
  • winform部署PaddleOCRV3推理模型

    PaddleOCR关注于提供轻量级、灵活且高效的OCR能力,旨在帮助开发者和企业快速部署OCR功能,并支持多平台和多语言应用。 它可以自动处理从图像输入到文字输出的全流程,极大地简化了OCR的使用和部署流程。 易于部署 PaddleOCR支持多种部署方案,包括服务端、边缘计算和移动端,用户可以根据自己的需求选择最合适的部署方式。

    43610编辑于 2025-07-17
  • 来自专栏贾志刚-OpenCV学堂

    YOLOv9 官方模型推理性能实测

    今天我就斗胆稍微扒一扒YOLOv9的模型跟推理。 mAP指标如下: 我尝试下载YOLOv9-T、YOLOv9-S、YOLOv9-M三种模型均以失败而告终,只能下载YOLOv9-C这个模型,此外YOLOv9-E也可以下载,下载以后发现YOLOv9-C大小为 导出与推理测试 用官方的命令行然后直接推理这个模型,看一下耗时(GPU3050ti) 再导出ONNX格式模型 发现第一是导出ONNX格式模型巨大无比、这种肯定不能随便就实时,必须得好卡;第二是里面导出信息居然还有 我看这个结构跟YOLOv8一致,直接简单粗暴的把这个导出YOLOv9 ONNX模型用我以前写给YOLOv8部署的C++代码运行了,然后奇迹又出现了,一行代码都不用改,直接运行成功,我晕倒,这兼容性史无前例的强悍 虽然速度感人,说它是YOLOv8结构的魔改谁会不信,但是 是不是真涨点了我不敢乱说,而且这个魔改以后模型变得更大了,推理耗时更多了,就这一帮人跟后面吹,真是世风日下,人心不古!

    1K10编辑于 2024-03-22
  • 来自专栏大模型

    基于EAS部署triton推理服务化框架

    本文是基于EAS产品环境部署triton框架实现yolo12模型的服务化部署,本文暂时聚焦于单模型部署部署步骤 1. triton镜像部署: 基于PAI平台的模型在线服务EAS自带的Triton镜像 [eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/tritonserver:25.03-py3]部署Triton; 2. onnx模型文件生成 : 'bicycle', 2: 'car', 3: 'motorcycle', 4: 'airplane', 5: 'bus', 6: 'train', 7: 'truck', 8: 'boat', 9: output0" data_type: TYPE_FP32 # dims: [1, 84, 8400] dims: [85, 8400] # YOLO 输出维度 } ] # 使用GPU推理 推理客户端测试 import numpy as np import tritonclient.http as httpclient import cv2 from torchvision import

    40720编辑于 2025-06-16
  • 来自专栏Se7en的架构笔记

    使用 NVIDIA Dynamo 部署 PD 分离推理服务

    1 Dynamo 介绍 NVIDIA Dynamo 是一个开源的模块化推理框架,用于在分布式环境上实现生成式 AI 模型的服务化部署。 通过减少同步开销和智能批处理,NIXL 显著降低了分布式推理中的通信延迟,使得在 prefill/decode 分离部署时,prefill 节点也能在毫秒级将大批量的 KV cache 传输至 decode 因此,在部署推理服务之前,需要先完成 etcd 和 NATS 的部署。 的方法,而在生产环境中要发挥其分布式推理能力则需要在 Kubernetes 上部署。 同时,文章还展示了在 Kubernetes 环境下的部署方法,通过云原生能力轻松实现生产级的分布式推理

    1.1K10编辑于 2025-11-12
  • 来自专栏计算机工具

    本机实现Llama 7B推理部署

    本机实现Llama 7B推理部署 使用llamafile在Windows系统部署- **部署步骤**:首先从[https://www.modelscope.cn/api/v1/models/bingal 使用Hugging Face Transformers库在Ubuntu系统部署- **部署步骤** : 1. ### 使用Ollama在Mac系统部署- **部署步骤** : 1. - **推理时间**:如果仅使用CPU推理推理速度相对较慢,一次推理时间可能在十几秒甚至更长;若使用支持Metal框架的Mac设备且有较好的GPU性能,推理时间会有所缩短,但通常仍比使用高性能独立GPU ### 使用llama-cpp-python在GPU环境部署- **部署步骤** : 1.

    87520编辑于 2024-12-30
  • 来自专栏Linux

    玩转Rocky Linux 9 部署Redis指南

    玩转Rocky Linux 9 部署Redis指南大家好,我是星哥。今天,咱们来盘一盘Redis,Redis作为高性能的键值数据库,在缓存、消息队列、实时数据处理等场景中扮演着举足轻重的角色。 功能介绍功能介绍:Rocky Linux 9系统中源码包安装 Redis 的shell脚本安装版本:redis-7.4.1端口:63920配置所在的目录: /data/conf/密码: YpassWord666 redis_端口号.log快速安装使用:gitee:wget https://gitee.com/funet8/Rocky-Linux-Shell/raw/main/shell/Rocky_Linux_9_ Install_Redis.shsh Rocky_Linux_9_Install_Redis.sh​github:wget https://raw.githubusercontent.com/funet8 /Rocky-Linux-Shell/refs/heads/main/shell/Rocky_Linux_9_Install_Redis.shsh Rocky_Linux_9_Install_Redis.sh1

    59210编辑于 2025-07-21
  • opencloudos9安装NGINX部署证书

    一、安装 Nginx在 OpenCloudOS 9 系统上,首先使用以下命令更新系统的软件包列表:yum update -y这个步骤确保系统的软件包索引是最新的,以便安装最新版本的 Nginx。 二、部署证书(以 SSL 证书为例)准备证书文件通常,您需要从证书颁发机构(CA)获取 SSL 证书文件。 重新加载 Nginx 配置在修改完 Nginx 配置文件后,需要重新加载配置使新的 SSL 配置生效:systemctl reload nginx 验证证书部署可以使用在线的 SSL 检查工具(如 SSL Labs 的测试工具),输入您的域名,检查证书是否正确部署,以及 SSL 配置是否安全。

    1K20编辑于 2024-12-26
  • 来自专栏远哥制造

    基于 AlmaLinux 9 部署 GitLab Runner 实战

    前言本文是一个系列,本篇为系列文章的第五篇:基于 AlmaLinux 9 部署 GitLab Runner 实战第一篇:基于 AlmaLinux 9 安装 GitLab 社区版实战第二篇:基于 AlmaLinux 9 配置 GitLab 社区版实战第三篇:基于 AlmaLinux 9 备份 GitLab 社区版实战第四篇:记一次跨 6 个大版本通宵升级 17 次 GitLab 社区版的经历本文仍基于在腾讯云购买的轻量机 真实升级经历结尾提及下一篇文章开始介绍 GitLab CI/CD 的相关实践,计划从部署GitLab Runner 说起没错,这篇文章就从部署 GitLab Runner 讲起0x01. 注册 Runner因为可以在不同于 GitLab 安装的机子上部署 GitLab Runner,所以安装后需要配置接入哪个 GitLab也就是注册的意思,可以参照官方文档的命令示例参照官方文档:https session_timeout = 1800这样每一个 Runner 同时就能运行 4 个任务了0x06.后记GitLab Runner 的使用其实也是一直都想拿出来说的,这篇文章简单介绍了下,完成了基本的部署计划之后再来谈如何把

    43910编辑于 2024-11-08
  • 来自专栏贾志刚-OpenCV学堂

    YOLOv10模型结构详解与推理部署实现

    早晨看到一堆推文,说YOLOv10已经发布了,吓我一跳,这个世界变化这么快, 然后快速的看一下相关的文档,发现YOLOv10 相比YOLOv8有两个最大的改变分别是 添加了PSA层跟CIB层 去掉了NMS 导出与部署 exporting the YOLO model to ONNX format.""" f = YOLO("yolov10s.pt").export(format="onnx", dynamic=True) 单纯从推理上看 推理代码实现如下: import cv2 as cv import numpy as np from openvino.runtime import Core # load model labels 然后下载它的源码之后,你会发现里面很多YOLOv8的包跟代码注释连名字都还没有改过来,特别是推理的演示代码里面还是YOLOv8的,我晕倒,能专业点不!

    2.6K10编辑于 2024-05-28
  • 来自专栏AI大模型应用开发炼丹房

    多模态推理革命!LLaVA-vLLM联合部署实战​​

    随着大语言模型(LLM)在生成式AI产业中广泛应用,如何高效、经济地部署推理这些庞大的模型,成为每一位开发者和企业面临的核心挑战。 它不仅提供了极致高效的推理性能,还兼具易用性和灵活性,成为LLM服务领域的新宠。​​一、为什么选择LLM?​ 传统LLM推理面临三重挑战:​​显存墙​​:KV缓存占用大量GPU内存(例如Llama-70B需>140GB显存)​​吞吐瓶颈​​:静态批处理(Static Batching)导致资源闲置(空闲率达40% ↓70%​​三、部署实践指南​​​​1. 生产环境部署架构​​​​关键配置参数​​:# 性能调优核心参数engine_args = { "max_num_seqs": 256, # 最大并发序列数 "gpu_memory_utilization

    1.2K30编辑于 2025-08-14
  • 来自专栏机器之心

    推理速度数倍提升,大幅简化多GPU后端部署:Meta发布全新推理引擎AITemplate

    机器之心报道 机器之心编辑部 刚刚,Meta 发布了革命性的推理引擎 AITemplate。 众所周知,GPU 在各种视觉、自然语言和多模态模型推理任务中都占据重要位置。然而,对于高性能 GPU 推理引擎,AI 从业者几乎没有选择权,必须使用一些平台专有的黑盒系统。 这意味着如果要切换 GPU 供应商,就必须重新实现一遍部署系统。在生产环境中当涉及复杂的依赖状况时,这种灵活性的缺失使维护迭代成本变得更加高昂。 在 AI 产品落地过程中,经常需要模型快速迭代。 下图直观展示了 AITemplate 在 NVIDIA A100 GPU 和 AMD MI250 GPU 上的加速对比: 此外,AITemaplte 的部署较其他方案也更为简洁。 此外,AITemplate 团队也正在开发自动 PyTorch 模型转换系统,使其成为开箱即用的 PyTorch 部署方案。

    1.5K20编辑于 2022-10-08
  • 来自专栏deepseek

    DeepSeek 笔记:R1 部署阶段的推理机制

    部署阶段的推理机制:R1是否在生成时隐式生成多条路径,但仅展示一条?如果是,这种机制与集成(ensemble)方法有何异同?3. 部署阶段的隐式多路径推理机制在 DeepSeek R1 的部署阶段,其推理机制可以概括为以下两种模式:(1) 隐式多路径生成与筛选- 生成多条路径:模型在单次推理时,可能隐式生成多条潜在的推理路径(CoT - 部署阶段的灵活性:系统可选择单路径生成(快速响应)或多路径筛选(质量优先),后者类似轻量级集成。 DeepSeek R1的部署机制通过训练阶段的强化学习内化“慢思考”能力,使其在单次生成时即可输出详细推理。 DeepSeek 笔记:R1 部署阶段的推理机制从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

    49010编辑于 2025-02-14
  • 来自专栏贾志刚-OpenCV学堂

    OpenCV4.8 + YOLO11 C++ 部署推理

    推理演示截图: 代码已经全部测试过了,可以直接调用: #include<opencv2/opencv.hpp> #include<iostream> #include<fstream> std::string frame.copyTo(image(roi)); float x_factor = image.cols /640.0f; float y_factor = image.rows /640.0f; // 推理

    17510编辑于 2026-04-02
  • winform部署yolov9的onnx模型

    C# WinForms 部署 YOLOv9 ONNX 模型简介 在当今的计算机视觉领域,目标检测是不可或缺的一项技术。 为了在C# WinForms应用程序中部署YOLOv9模型,我们首先需要将其转换为ONNX(Open Neural Network Exchange)格式。 这使得YOLOv9模型可以在C#环境中得到高效利用。 在部署过程中,我们可以使用ONNX Runtime这一跨平台的库来加载和运行ONNX模型。 ONNX Runtime提供了对多种硬件平台的支持,包括CPU、GPU等,从而实现了模型的快速推理。 通过C# WinForms部署YOLOv9的ONNX模型,我们可以为用户提供一个功能强大的目标检测工具。

    44910编辑于 2025-07-20
  • 来自专栏YP小站

    Sentry9-1-2部署

    三、Docker部署Sentry服务 官方提供Docker部署配置 官方Docker部署仓库 环境要求 Docker 17.05.0+ Docker-Compose 1.17.0+ 服务器配置只少需要3G sentry-dingding~=0.0.2 # 钉钉通知插件 django-smtp-ssl~=1.0 # 发邮件支持SSL协议 redis-py-cluster==1.3.4 四、构建 Docker build 注意:部署

    2K10发布于 2020-06-04
  • GLM-4-9B-Chat WebDemo 部署

    transformers_stream_generator==0.0.4 pip install tiktoken 考虑到部分同学配置环境可能会遇到一些问题,我们在 AutoDL 平台准备了 GLM-4 的环境镜像,该镜像适用于本教程需要 GLM-4 的部署环境 snapshot_download, AutoModel, AutoTokenizer import os model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat " A streamlit chatbot powered by Self-LLM") # 定义模型路径 mode_name_or_path = 'autodl-tmp/ZhipuAI/glm-4-9b-chat

    45610编辑于 2025-07-21
领券