搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏菩提树下的杨过
chatglm.cpp使用手记
项目地址：li-plus/chatglm.cpp: C++ implementation of ChatGLM-6B & ChatGLM2-6B (github.com) 部署过程如下（环境：WSL 2 4060) - 注：无显卡，纯CPU也行 1、克隆项目 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
2K50编辑于 2023-08-13
来自专栏AI技术探索和应用
快速上手chatglm.cpp模型量化工具
chatglm.cpp可以对ChatGLM系列的模型进行量化，满足在低性能的机器上进行推理，其使用的教程如下。下载代码 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp 量化模型支持量化的模型包括
3.5K51编辑于 2024-03-13
来自专栏最新最全的大数据技术体系
魔搭社区LLM模型部署实践，以ChatGLM3为例（二）
目前swift支持VLLM框架， chatglm.cpp ，Xinference等推理框架，具体可以参考文档： https://github.com/modelscope/swift/blob/main /docs/source/GetStarted/Deployment.md 本文以ChatGLM3模型+chatglm.cpp为例：该推理优化框架支持： ChatGLM系列模型 BaiChuan系列模型 CodeGeeX系列模型 chatglm.cpp的github地址是：https://github.com/li-plus/chatglm.cpp 首先初始化对应repo: git clone --recursive https://g it hub.com/li-plus/chatglm.cpp.g it && cd chatglm.cpp python3 -m pip install torch tabulate -i {ck pt_dir}-merged -t q4_0 -o chatglm-ggml.bin chatglm.cpp支持以各种精度转换模型，详情请参考： https://github.com/
1.3K30编辑于 2023-11-12
来自专栏信数据得永生
解决 ChatGLM.CPP+clBlast 编译错误（也适用于SD.CPP）
vcpkg install opencl clblast 下载GitHub 上的源码： git clone --recurse-submodules https://github.com/li-plus/chatglm.cpp cd chatglm.cpp 这个项目 GGML 子仓库中， third_party/ggml/src/CMakeList.txt 有个错误。
69920编辑于 2023-10-13
来自专栏AI技术探索和应用
ChatGLM2-6B使用入门
长度的最小显存生成 8192 长度的最小显存 FP16 / BF16 13.1 GB 12.8 GB INT8 8.2 GB 8.1 GB INT4 5.5 GB 5.1 GB 量化也可以尝试使用Chatglm.cpp Github: https://github.com/li-plus/chatglm.cpp 支持流式返回内容。
1.5K20编辑于 2024-03-13
来自专栏信数据得永生
【Python 自动化】小说推文一键生成思路概述
THUDM/ChatGLM2-6B 也可以用 GGML 上的版本加速生成： li-plus/chatglm.cpp 翻译之后的文本时提示词的一部分，它只能表述内容，我们要需要加上风格、质量等提示词：
77520编辑于 2023-10-13
来自专栏AI技术探索和应用
使用vLLM加速大语言模型推理
区别于 chatglm.cpp 和 llama.cpp，仅是在 GPU 上的模型推理加速，没有 CPU 上的加速。
23.9K21编辑于 2024-03-13
来自专栏菩提树下的杨过
利用text-generation-webui快速搭建chatGLM2/LLAMA2大模型运行环境
可以因为内存不足会自动Killed(加载完成后过一会儿，内存好象又会略降一些)，下图是我机器的实际内存占用 bitsandbytes与WSL2中的cuda不能很好兼容，就算跑在GPU上，感觉也有点卡，不如chatGLM.cpp
7.3K42编辑于 2023-08-20
来自专栏NLP/KG
LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]
一般来说，LLM的推理可以直接使用PyTorch代码、使用VLLM/XInference/FastChat等框架，也可以使用llama.cpp/chatglm.cpp/qwen.cpp等c++推理框架。和llama.cpp类似，还有兼容ChatGLM模型的chatglm.cpp和兼容qwen模型的qwen.cpp和mistral的mistral.cpp。
19.8K95编辑于 2024-05-28
来自专栏NLP/KG
ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级
ModelScopeChatGLM3-6B-32K32kHuggingFace | ModelScope 对 ChatGLM3 进行加速的开源项目：chatglm.cpp
4.4K101编辑于 2023-11-15
来自专栏JadePeng的技术博客
LLM 推理和应用开源框架梳理
chatglm_cpp https://github.com/li-plus/chatglm.cpp 国产的chatglm模型开源后，有作者参考llama.cpp，开发了支持chatglm推理的chatglm_cpp
2.8K10编辑于 2024-03-13
详解几种常见本地大模型个人知识库工具部署、微调及对比选型（2）
cpp\_python-0.2.55-cp310-cp310-win\_amd64.whl 安装 chatglm-cpp pip install https://github.com/li-plus/chatglm.cpp
6.8K44编辑于 2024-06-12

chatglm.cpp使用手记

快速上手chatglm.cpp模型量化工具

魔搭社区LLM模型部署实践，以ChatGLM3为例（二）

解决 ChatGLM.CPP+clBlast 编译错误（也适用于SD.CPP）

ChatGLM2-6B使用入门

【Python 自动化】小说推文一键生成思路概述

使用vLLM加速大语言模型推理

利用text-generation-webui快速搭建chatGLM2/LLAMA2大模型运行环境

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

LLM 推理和应用开源框架梳理

详解几种常见本地大模型个人知识库工具部署、微调及对比选型（2）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

chatglm.cpp使用手记

快速上手chatglm.cpp模型量化工具

魔搭社区LLM模型部署实践， 以ChatGLM3为例（二）

解决 ChatGLM.CPP+clBlast 编译错误（也适用于SD.CPP）

ChatGLM2-6B使用入门

【Python 自动化】小说推文一键生成思路概述

使用vLLM加速大语言模型推理

利用text-generation-webui快速搭建chatGLM2/LLAMA2大模型运行环境

LLM 大模型学习必知必会系列(十二)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化[更多内容：XInference/FastChat等框架]

ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

LLM 推理和应用 开源框架梳理

详解几种常见本地大模型个人知识库工具部署、微调及对比选型（2）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

魔搭社区LLM模型部署实践，以ChatGLM3为例（二）

LLM 推理和应用开源框架梳理