首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏菩提树下的杨过

    chatglm.cpp使用手记

    项目地址:li-plus/chatglm.cpp: C++ implementation of ChatGLM-6B & ChatGLM2-6B (github.com) 部署过程如下(环境:WSL 2 4060) - 注:无显卡,纯CPU也行 1、克隆项目 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp

    2K50编辑于 2023-08-13
  • 来自专栏AI技术探索和应用

    快速上手chatglm.cpp模型量化工具

    chatglm.cpp可以对ChatGLM系列的模型进行量化,满足在低性能的机器上进行推理,其使用的教程如下。 下载代码 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp 量化模型 支持量化的模型包括

    3.5K51编辑于 2024-03-13
  • 来自专栏最新最全的大数据技术体系

    魔搭社区LLM模型部署实践, 以ChatGLM3为例(二)

    目前swift支持VLLM框架, chatglm.cpp ,Xinference等推理框架, 具体可以参考文档: https://github.com/modelscope/swift/blob/main /docs/source/GetStarted/Deployment.md 本文以ChatGLM3模型+chatglm.cpp为例: 该推理优化框架支持: ChatGLM系列模型 BaiChuan系列模型 CodeGeeX系列模型 chatglm.cpp的github地址是:https://github.com/li-plus/chatglm.cpp 首先初始化对应repo: git clone --recursive https://g it hub.com/li-plus/chatglm.cpp.g it && cd chatglm.cpp python3 -m pip install torch tabulate -i {ck pt_dir}-merged -t q4_0 -o chatglm-ggml.bin chatglm.cpp支持以各种精度转换模型 ,详情请参考: https://github.com/

    1.3K30编辑于 2023-11-12
  • 来自专栏信数据得永生

    解决 ChatGLM.CPP+clBlast 编译错误(也适用于SD.CPP)

    vcpkg install opencl clblast 下载GitHub 上的源码: git clone --recurse-submodules https://github.com/li-plus/chatglm.cpp cd chatglm.cpp 这个项目 GGML 子仓库中, third_party/ggml/src/CMakeList.txt 有个错误。

    69920编辑于 2023-10-13
  • 来自专栏AI技术探索和应用

    ChatGLM2-6B使用入门

    长度的最小显存 生成 8192 长度的最小显存 FP16 / BF16 13.1 GB 12.8 GB INT8 8.2 GB 8.1 GB INT4 5.5 GB 5.1 GB 量化也可以尝试使用Chatglm.cpp Github: https://github.com/li-plus/chatglm.cpp 支持流式返回内容。

    1.5K20编辑于 2024-03-13
  • 来自专栏信数据得永生

    【Python 自动化】小说推文一键生成思路概述

    THUDM/ChatGLM2-6B 也可以用 GGML 上的版本加速生成: li-plus/chatglm.cpp 翻译之后的文本时提示词的一部分,它只能表述内容,我们要需要加上风格、质量等提示词:

    77520编辑于 2023-10-13
  • 来自专栏AI技术探索和应用

    使用vLLM加速大语言模型推理

    区别于 chatglm.cpp 和 llama.cpp,仅是在 GPU 上的模型推理加速,没有 CPU 上的加速。

    23.9K21编辑于 2024-03-13
  • 来自专栏菩提树下的杨过

    利用text-generation-webui快速搭建chatGLM2/LLAMA2大模型运行环境

    可以因为内存不足会自动Killed(加载完成后过一会儿,内存好象又会略降一些),下图是我机器的实际内存占用 bitsandbytes与WSL2中的cuda不能很好兼容,就算跑在GPU上,感觉也有点卡,不如chatGLM.cpp

    7.3K42编辑于 2023-08-20
  • 来自专栏NLP/KG

    LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]

    一般来说,LLM的推理可以直接使用PyTorch代码、使用VLLM/XInference/FastChat等框架,也可以使用llama.cpp/chatglm.cpp/qwen.cpp等c++推理框架。 和llama.cpp类似,还有兼容ChatGLM模型的chatglm.cpp和兼容qwen模型的qwen.cpp和mistral的mistral.cpp。

    19.8K95编辑于 2024-05-28
  • 来自专栏NLP/KG

    ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级

    ModelScopeChatGLM3-6B-32K32kHuggingFace | ModelScope 对 ChatGLM3 进行加速的开源项目:chatglm.cpp

    4.4K101编辑于 2023-11-15
  • 来自专栏JadePeng的技术博客

    LLM 推理和应用 开源框架梳理

    chatglm_cpp https://github.com/li-plus/chatglm.cpp 国产的chatglm模型开源后,有作者参考llama.cpp,开发了支持chatglm推理的chatglm_cpp

    2.8K10编辑于 2024-03-13
  • 详解几种常见本地大模型个人知识库工具部署、微调及对比选型(2)

    cpp\_python-0.2.55-cp310-cp310-win\_amd64.whl 安装 chatglm-cpp pip install https://github.com/li-plus/chatglm.cpp

    6.8K44编辑于 2024-06-12
领券