项目地址:li-plus/chatglm.cpp: C++ implementation of ChatGLM-6B & ChatGLM2-6B (github.com) 部署过程如下(环境:WSL 2 4060) - 注:无显卡,纯CPU也行 1、克隆项目 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
chatglm.cpp可以对ChatGLM系列的模型进行量化,满足在低性能的机器上进行推理,其使用的教程如下。 下载代码 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp 量化模型 支持量化的模型包括
目前swift支持VLLM框架, chatglm.cpp ,Xinference等推理框架, 具体可以参考文档: https://github.com/modelscope/swift/blob/main /docs/source/GetStarted/Deployment.md 本文以ChatGLM3模型+chatglm.cpp为例: 该推理优化框架支持: ChatGLM系列模型 BaiChuan系列模型 CodeGeeX系列模型 chatglm.cpp的github地址是:https://github.com/li-plus/chatglm.cpp 首先初始化对应repo: git clone --recursive https://g it hub.com/li-plus/chatglm.cpp.g it && cd chatglm.cpp python3 -m pip install torch tabulate -i {ck pt_dir}-merged -t q4_0 -o chatglm-ggml.bin chatglm.cpp支持以各种精度转换模型 ,详情请参考: https://github.com/
vcpkg install opencl clblast 下载GitHub 上的源码: git clone --recurse-submodules https://github.com/li-plus/chatglm.cpp cd chatglm.cpp 这个项目 GGML 子仓库中, third_party/ggml/src/CMakeList.txt 有个错误。
长度的最小显存 生成 8192 长度的最小显存 FP16 / BF16 13.1 GB 12.8 GB INT8 8.2 GB 8.1 GB INT4 5.5 GB 5.1 GB 量化也可以尝试使用Chatglm.cpp Github: https://github.com/li-plus/chatglm.cpp 支持流式返回内容。
THUDM/ChatGLM2-6B 也可以用 GGML 上的版本加速生成: li-plus/chatglm.cpp 翻译之后的文本时提示词的一部分,它只能表述内容,我们要需要加上风格、质量等提示词:
区别于 chatglm.cpp 和 llama.cpp,仅是在 GPU 上的模型推理加速,没有 CPU 上的加速。
可以因为内存不足会自动Killed(加载完成后过一会儿,内存好象又会略降一些),下图是我机器的实际内存占用 bitsandbytes与WSL2中的cuda不能很好兼容,就算跑在GPU上,感觉也有点卡,不如chatGLM.cpp
一般来说,LLM的推理可以直接使用PyTorch代码、使用VLLM/XInference/FastChat等框架,也可以使用llama.cpp/chatglm.cpp/qwen.cpp等c++推理框架。 和llama.cpp类似,还有兼容ChatGLM模型的chatglm.cpp和兼容qwen模型的qwen.cpp和mistral的mistral.cpp。
ModelScopeChatGLM3-6B-32K32kHuggingFace | ModelScope 对 ChatGLM3 进行加速的开源项目:chatglm.cpp
chatglm_cpp https://github.com/li-plus/chatglm.cpp 国产的chatglm模型开源后,有作者参考llama.cpp,开发了支持chatglm推理的chatglm_cpp
cpp\_python-0.2.55-cp310-cp310-win\_amd64.whl 安装 chatglm-cpp pip install https://github.com/li-plus/chatglm.cpp