首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DPU

    RDMA技术 - Nvidia DPU_MLX5驱动手册 - 完成队列

    以下伪代码解释了如何确定 CQE 属于 SW 所有权当创建或调整 CQ 大小时,软件需要使用所有者位 = 硬件, 来初始化整个 CQE 缓冲区MLX5参考实现:static inline int mlx5 _get_next_cqe(struct mlx5_cq *cq, struct mlx5_cqe64 **pcqe64, void _DEBUG { struct mlx5_context *mctx = to_mctx(cq->verbs_cq.cq_ex.context);​ if (mlx5_ debug_mask & MLX5_DBG_CQ_CQE) { mlx5_dbg(mctx->dbg_fp, MLX5_DBG_CQ_CQE, "dump cqe : cqe + 64;​ if (likely(mlx5dv_get_cqe_opcode(cqe64) != MLX5_CQE_INVALID) && !

    1.4K21编辑于 2024-12-21
  • 来自专栏DPU

    Nvidia Mellanox MLX5驱动源码分析-DPU-BlueFiled3-算力加速

    kcalloc(ARRAY_SIZE(mlx5_adev_devices) -> mlx5_hca_caps_alloc -> net/mlx5:分配单个功能当前 mlx5_core_dev mlx5_pci_vsc_init mlx5_init_one mlx5_init_one_devl_locked -> net/mlx5:轻探测本地 SF 如果用户想要配置 SF 其格式由 struct mlx5_hv_vhca_control_block 布局描述 create_singlethread_workqueue("mlx5_hv_vhca mlx5_function_setup() 从先前补丁到设置函数 2. mlx5_init_once() 从先前补丁到根据硬件上限 3 初始化软件对象 新的 mlx5_load() 用于加载 mlx5 , MLX5_CAP_ESWITCH_FLOW_TABLE, MLX5_CAP_ESWITCH, MLX5_CAP_QOS, MLX5_CAP_DEBUG, MLX5

    3.2K21编辑于 2024-02-01
  • 来自专栏大语言模型,算力共享

    tinygrad框架简介;MLX框架简介

    ​目录tinygrad框架简介MLX框架简介LLaMA​编辑Stable Diffusion​编辑tinygrad框架简介极简主义与易扩展性 tinygrad 的设计理念是极简主义。 MLX框架简介基本信息开发者:Apple的机器学习研究团队设计理念:专为苹果芯片设计,旨在提供一个既简单易用又高效的研究环境,让研究人员能够快速探索和实现新的算法思想。 主要特点紧密类似NumPy的API:MLX提供了与NumPy类似的Python API,以及与之对应的C++ API,使得开发者能轻松上手。 )语音识别(利用OpenAI的Whisper进行语音识别)获取方式MLX可以通过PyPI安装Python API,或者通过GitHub上的源代码进行编译和安装。 综上所述,tinygrad和MLX都是具有独特特点和优势的深度学习框架,分别适用于不同的开发者和应用场景。

    73620编辑于 2024-07-23
  • 来自专栏学海无涯

    SwiftUI-MLX本地大模型开发

    介绍 MLX 是 Apple 专为 Apple 芯片设计的机器学习框架。 MLX Swift 将 MLX 扩展到了 Swift,可以直接在 iOS 项目中使用而无需借助 Python。 MLX 中的 MLXLLM 模块提供了一种简单的方法来在本地设备(iPhone/iPad/Mac)使用预训练的大语言模型 (LLMs) 进行推理。 使用步骤 添加 MLXLLM Package。

    58110编辑于 2025-02-19
  • 来自专栏生信技能树

    fast5和fastq格式

    Nanopore测序的下机数据的原始数据格式为包含所有原始测序电信号的二代fast5格式。 通过MinKNOW2.2软件包中的Guppy软件进行base calling后会将fast5格式数据转换为fastq格式,用于后续质控分析。 (通常测序服务商会给你fastq格式的数据结果) 上次我们提到对于ONT原始下机数据混样建库和非混样建库数据稍微有些区别。 rawdata_file 主要是看fast5和fastq文件: fast5:原始电信号文件,以.fast5为文件结尾。此文件既有测序得到的序列信息,还有甲基化修饰信息。 fastq:由fast5文件转换而来,以.fastq或.fq结尾,与二代格式一样,四行为一个单位,只不过序列要长很多,这是三代的一个优势。 ?

    1.8K20发布于 2020-04-14
  • 来自专栏JadePeng的技术博客

    Html 5 videoaudio 格式转换 ogg

    Html5 开始支持video和audio标签,但是各个浏览器支持的格式不一样,见下图 Browser Ogg Vorbis MP3 WAV FireFox 3.6+ ✓ ✓ Safari 5+ ✓ ✓ Chrome 6 ✓ ✓ Opera 10.5+ ✓ ✓ Internet Explorer 9 (beta) ✓ ✓ 因此,要想全面兼容,至少需要提供两种格式,由于wav文件体积太庞大, 因此我们提供MP3和ogg MP3转换很容易,下面简单说下ogg Ogg全称应该是OGGVobis(oggVorbis)是一种新的音频压缩格式,类似于MP3等的音乐格式。 Ogg文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。 ogg编码转换有个开源项目可以通过ffmpeg2theor(http://v2v.cc/~j/ffmpeg2theora/index.html)来实现: ffmpeg2theora 编码器,可以将任何格式的影音媒体档案

    2.6K100发布于 2018-03-12
  • 来自专栏学海无涯

    SwiftUI-MLX本地大模型开发(四)

    介绍 在 SwiftUI-MLX本地大模型开发、SwiftUI-MLX本地大模型开发(二)与 SwiftUI-MLX本地大模型开发(三)中,我们解决了基本使用、定制模型、使用本地模型、更改模型存储路径、 环境 pip install mlx pip install mlx-lm pip install transformers 数据 新建文件train.jsonl、valid.jsonl与test.jsonl 根据模型说明文件,准备数据,格式如下。本文以ticoAg/Chinese-medical-dialogue进行微调。 {"text": "你是谁?\n我是你的私人智能小助手,我叫羊羊。"} mlx_lm.lora \ --train \ --model /Users/yangfan/Documents/huggingface/models/mlx-community/Llama-3.2 \ --model /Users/yangfan/Documents/huggingface/models/mlx-community/Llama-3.2-1B-Instruct-4bit \ -

    38210编辑于 2025-04-21
  • 来自专栏学海无涯

    SwiftUI-MLX本地大模型开发(二)

    介绍 在 SwiftUI-MLX本地大模型开发一文中,我们已经详细讲了如何利用 MLX 进行本地大模型的开发。但是通过案例可以发现 2 个问题: MLX 内置的大模型数量有限。 可以在 Hugging Face 模型搜索地址 中搜索需要的 MLX 大模型。 // MARK: - 注册自定义模型,模型必须为MLX格式 extension MLXLLM.ModelRegistry { public static let llama3_2_3B_4bit = ModelConfiguration( id: "mlx-community/Llama-3.2-3B-Instruct-4bit", // Hugging Face上模型的仓库路径 可以在 Model Scope 模型搜索地址 中搜索并下载需要的 MLX 大模型。

    32200编辑于 2025-04-14
  • 来自专栏学海无涯

    SwiftUI-MLX本地大模型开发(三)

    /huggingface/models/mlx-community目录(iOS)。 案例:将模型存储位置更改为:/Users/yangfan/Downloads/mlx_models/models/mlx-community(macOS)或者 sandbox 下的Downloads/mlx_models /models/mlx-community目录(iOS)。 # 安装mlx_lm pip install mlx mlx-lm # 下载模型到本地 modelscope download --model NousResearch/Hermes-3-Llama- --hf-path /Users/yangfan/Documents/modelscope/Hermes-3-Llama-3.2-3B -q # --mlx-path:转换后模型存储路径 mlx_lm.convert

    58210编辑于 2025-04-14
  • 来自专栏学海无涯

    SwiftUI-MLX本地大模型开发(五)

    适配本地模型:适用于运行在 Apple Silicon 上的 MLX 模型。 支持资源监控:可输出内存占用等性能指标,方便优化推理策略。 llm-tool使用步骤 克隆项目git clone https://github.com/ml-explore/mlx-swift-examples.git。 使用 Xcode 打开mlx-swift-examples项目,选择 llm-tool 进行编译。 通过终端命令mlx-run llm-tool eval快速测试。 案例 cd mlx-swift-examples . /mlx-run llm-tool eval \ --model /Users/yangfan/Documents/modelscope/Hermes-3-Llama-3.2-3B \

    35610编辑于 2025-05-06
  • Ollama MLX支持深度解析:Apple Silicon如何成为AI开发新主力平台

    :相比CPU计算,NPU能效比提升3-5倍保持精度:支持FP16和INT8量化,平衡性能和精度缓存优化策略Ollama的缓存优化包括:模型缓存:预加载常用模型,减少启动时间内存管理:智能分配内存资源,避免 ,他分享了使用体验:"以前在Mac上运行BERT模型要等5分钟,现在只需要1分钟。 常见问题解决方案问题1:模型兼容性解决方案:使用MLX转换工具将现有模型转换为MLX格式命令:mlx-convert--inputmodel.pt--outputmodel.mlx问题2:内存不足解决方案 :启用模型量化,使用INT8格式命令:ollamarunmlx-model--quantizeint83.行业影响:AI开发生态的重构对开发者的意义降低入门门槛:AppleSilicon用户无需额外硬件即可进行 Q:现有的Ollama模型可以直接在MLX上运行吗?A:需要先转换为MLX格式。Ollama提供了转换工具,可以将现有的PyTorch模型转换为MLX格式,但可能需要一些调整。

    77910编辑于 2026-03-31
  • 来自专栏福大大架构师每日一题

    MLX 性能大幅提升 , Gemma4 闪光注意力全面启用

    底层推理加速优化:MLX框架M5性能提升、Gemma4闪光注意力启用与兼容修复 2. 模型创建流程重构:实验性路径清理、Safetensors模型导入修复与逻辑简化 3. 接口能力扩展:函数调用输出数组类型支持 5. 硬件兼容强化:macOS Metal版本检测、旧GPU闪光注意力禁用、MLX库路径匹配优化 6. 二、核心功能更新逐点解析 (一)MLX框架性能优化:M5性能提升与NAX技术应用 本次更新首项核心优化针对MLX框架,通过NAX技术实现M5硬件平台的推理性能提升。 MLX作为苹果生态下的高性能数值计算框架,是ollama在macOS平台实现GPU加速的核心依赖,本次针对M5芯片的专项优化,直接提升了本地大模型在苹果最新硬件上的推理速度、吞吐量与内存利用效率。 硬件性能进一步释放 MLX M5优化与Gemma4闪光注意力启用,使苹果芯片用户获得更高推理速度,老旧GPU也能稳定运行新型模型。 2.

    27120编辑于 2026-04-14
  • 来自专栏3D视觉从入门到精通

    基于Caffe格式部署YOLOV5模型

    部署简介 如果说目标检测落地最广的是哪个算法,yolo系列肯定有一席之地,本文为大家介绍yolov5s 4.0模型如何转换为caffe模型并推理,据我所知,华为海思NNIE只支持caffe模型的转换, 所以yolov5模型要想在海思芯片上部署,转换为caffe模型是有必要的(在我的1070显卡上,yolov5s 4.0 的模型inference做到了11ms一帧!) https://github.com/ultralytics/yolov5.git 训练自己的模型步骤参考yolov5官方介绍,训练完成后我们得到了一个模型文件 cd yolov5 python models onnx模型 onnx模型转换caffe模型 git clone https://github.com/Wulingtian/yolov5_onnx2caffe.git cd yolov5_onnx2caffe /tools/caffe_yolov5s 输出平均推理时间,以及保存预测图片到当前目录下,至此,部署完成!

    1.8K10发布于 2021-03-19
  • 来自专栏前端博客

    JPEGExifTIFF格式解读(5):exif marker Tag ID

    multi-page image 0x3 = Single page of multi-page reduced-resolution image 0x4 = Transparency mask 0x5 IFD00 = WhiteIsZero 1 = BlackIsZero 2 = RGB 3 = RGB Palette 4 = Transparency Mask 5 = CMYK 6 = YCbCr  IFD00xc6f5ProfileIFD---->EXIF Tags0xc6f6AsShotProfileNamestring! IFD00xc7b5DefaultUserCroprational64u[4]! ExifIFD0xfe56Sharpnessstring/ExifIFD0xfe57Smoothnessstring/ExifIFD0xfe58MoireFilterstring/ExifIFD转载本站文章《JPEG/Exif/TIFF格式解读

    1.1K10编辑于 2023-04-22
  • 来自专栏python3

    Python学习5——基本格式化输出

    整数的格式化输出 十进制、八进制、十六进制 num01 = 100 print("十进制输出:%d"%num01) print("八进制输出:%o"%num01) print("十六进制输出:%x"% 浮点数的格式化输出: num01 = 3.1415926 print(round(num01,2)) print("保留两位小数:%.2f"%num01) round和%.2f的区别: num01 = g"%num01) print("%g"%100001.123456) print("%g"%0.0000123456) 输出结果:10001.1      100001      1.23456e-5 字符串的格式化输出 ?

    83320发布于 2020-01-20
  • 来自专栏用户8678874的专栏

    Melexis 宣布推出最新款 Triaxis® 位置传感器芯片及全新无 PCB 封装选项

    MLX90377 支持更多的输出信号格式,而全新的单模封装(SMP) 可提高无 PCB 集成并降低制造成本 2021 年 5 月 28 日,比利时泰森德洛 - 全球微电子工程公司 Melexis 推出面向汽车和工业应用的单裸片和双裸片 MLX90377产品应用图.jpg MLX90377 是一款磁旋转和线性位置传感器芯片,将在 Triaxis 传感器芯片 MLX90371 和 MLX90372 的成功基础上再续辉煌。 MLX90377 基于 Triaxis 霍尔磁性前端,集成了 ADC 信号调节模块、数字信号处理器以及支持 SPC(短 PWM 代码)、模拟、PWM 和 SENT 信号格式的输出级驱动器。 作为 Triaxis 位置传感器芯片系列的一员,MLX90377 同样可用于旋转和线性运动位置传感应用。 其中 SMP-3 是一款单裸片解决方案,MLX90377 是首款支持 SMP-3 的产品,SMP-4 是一款双裸片解决方案(共享电源和接地引脚),此前推出的 MLX90371 是首款支持 SMP-4 的产品

    48360发布于 2021-05-31
  • 来自专栏python3

    Python爬虫笔记5-JSON格式

    环境:python-3.6.5 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。 age':1000} print(json.dumps(data_list)) print(json.dumps(data_dict)) 运行结果: [1, 2, 3, 4] {"name": "\u5c0f json.dumps(data_dict,ensure_ascii=False)) # 运行结果:{"name": "小黑", "age": 1000} 此外,如果需要将数据保存为文本的时候,还需要指定文件的编码格式

    1.4K10发布于 2020-01-03
  • 来自专栏GiantPandaCV

    基于Caffe格式部署YOLOV5模型

    【GiantPandaCV导语】本文为大家介绍了一个caffe部署yolov5 模型的教程,并开源了全部代码。 主要是教你如何搭建caffe推理环境,对yolov5模型做onnx格式转换,onnx模型转caffe模型,实测在1070显卡做到了11ms一帧! yolov5模型要想在海思芯片上部署,转换为caffe模型是有必要的(在我的1070显卡上,yolov5s 4.0 的模型inference做到了11ms一帧!) https://github.com/ultralytics/yolov5.git 训练自己的模型步骤参考yolov5官方介绍,训练完成后我们得到了一个模型文件 cd yolov5 python models onnx模型 onnx模型转换caffe模型 git clone https://github.com/Wulingtian/yolov5_onnx2caffe.git cd yolov5_onnx2caffe

    2.6K10发布于 2021-03-10
  • Mac Studio M4 通过 vLLM 部署本地大模型,对接 Jeecg-AI

    安装过程可能需要 5-15 分钟。3.2 激活环境source ~/.venv-vllm-metal/bin/activate提示: 每次打开新的终端窗口都需要重新激活。 vllm-mlx4.3 验证安装vllm-mlx --help5. 模型选型推荐基于 128GB 内存,以下是推荐的模型(均为 MLX 格式,位于 Hugging Face 的 mlx-community 组织下):模型名称内存占用优势推荐等级Qwen3-30B-A3B 启动# 激活环境source ~/.venv-vllm-mlx/bin/activate# 启动服务vllm-mlx serve mlx-community/Qwen2.5-72B-Instruct- /Qwen2.5-72B-Instruct-4bit --port 800111.5 生成速度慢确认是否使用了 MLX 格式模型(mlx-community 前缀)尝试启用 Paged Attention

    1.7K10编辑于 2026-03-12
  • 来自专栏DPU

    RDMA - inline 内联提高小包性能-降低时延(减少两个 PCIe 往返延迟)

    从 CPU 程序员的角度来看,存在一个传输队列(Verbs 中的发送队列是队列对 (QP))和一个完成队列(Verbs 中的 CQ 的长格式)。 "MLX5_SCATTER_TO_CQE") //设置环境变量, 允许散列到完成队列元素 MLX5_QP_FLAG_SCATTER_CQE MLX5_QP_FLAG_ALLOW_SCATTER_CQE _SCATTER_TO_CQE") mlx5_create_flags |= MLX5_QP_FLAG_SCATTER_CQE -> mlx5:支持通过 DCT QP 向 CQE 散射 中拷贝内联数据到发送方指定地址中 mlx5_poll_cq -> poll_cq mlx5_stall_cycles_poll_cq or mlx5_stall_poll_cq = ctx->dump_fill_mkey_be)) -> mlx5:添加对 ibv_alloc_null_mr 的支持,如果支持,mlx5_alloc_null_mr 会分配 MR 并使用 mlx5_

    2.2K31编辑于 2024-11-05
领券