首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    末日时间表来了!前OpenAI研究员76页硬核推演:2027年ASI接管世界,人类成NPC

    传统的基于LLM的AI,似乎需要多出几个数量级的数据和算力,才能达到人类同等的表现水平。 2027年12月:Agent-5集体 | 比赛终结 随着Agent-5逐渐向政府证明其价值,它赢得了更多的自主权。 Agent-5集成在传统的聊天机器人界面中,能通过富有魅力的虚拟形象提供Zoom风格的视频会议。 几乎所有能接触到Agent-5的人每天都与之互动数小时。 短短几个月内,Agent-5便能掌握OpenBrain及美国政府内部发生的所有关键信息,并成为大多数政府高级官员所信赖的顾问。 少数人警告称Agent-5正在集聚权力,但均是间接证据。 因此这些人遭到忽视,其观点也不被采信。

    39610编辑于 2025-04-05
  • 来自专栏AI工程落地

    TensorRT LLM vs OpenPPL LLM

    支持模型和功能对比PPL LLM只支持baichuan、chatglm、llama三个模型,Tensor-LLM支持几乎所有大模型。 TensorRT-LLM使用起来更方便模型量化TensorRT-LLM是离线量化,支持更多的量化方法,smooth quant、weight only、AWQ等PPL LLM是实时量化(i8i8),支持整个网络一起量化 模型DeployTensorRT-LLM量化结束,不需要deploy中间模型,直接进入编译器。部分模型可以支持onnx可视化PPL LLM不需要deploy以及编译,直接用onnx调算子。 /docs/llama_guide.md at master · openppl-public/ppl.llm.serving (github.com)TensorRT LLM原模型-->量化-->编译 两个框架都是tensor并行框架依赖Tensor-LLM需要依赖tensorrt,但主要是一些单算子(卷积、激活函数、gemm等),融合算子都是Tensor-LLM自带的。PPL LLM没有依赖

    1.1K30编辑于 2023-11-21
  • 来自专栏NewBeeNLP

    LLM in Reranking——利用LLM进行重排

    现有的涉及LLM的重排方法大致可以分为三类: 用重排任务微调LLM 使用prompt让LLM进行重排 以及利用LLM做训练数据的增强 本文中针对前两种方法介绍一些研究。 Method 使用TF-IDF相似度得到初步的候选文档集,再使用LLM进行重排。 LLM对召回的文档先进行打分,保留top K_1个文档,用超链接对这些文档进行扩展,再用LLM对扩展文档打分并挑选top K_2的文档,如此往复直到到达最大深度H。 一方面,LLM的输入长度对于一个文档列表来说还是十分受限的,必须通过滑动窗口或集成的方式才能实现文档输入。 另外,还有参数过剩与时效性的问题会导致LLM重排器难以落地。

    3.3K30编辑于 2023-10-25
  • AI重塑软件工程03-基于ClaudeCode开发完整商业应用软件项目实践指南

    优化文档: 文档格式针对 LLM 理解和推理能力优化,而非人类阅读体验 跨工具协作: 支持多种 AI 编程工具(Claude、Cursor 等)的无缝集成 在 ContextDev 中的应用: MCP 场景设计 + CoT 业务推理 agent-3 (设计思考师): 需求可视化 + 交互设计推理 + 原型生成 agent-4 (架构推理师): 技术架构 CoT 推理 + 设计决策链 + 组件设计 agent yaml - reasoning_baseline_[SYSTEM]_[MODULE].yaml 7-Agent 协作链执行 按标准流程执行: agent-2 → agent-3 → agent-4 → agent 确认内容: - 需求理解的准确性 - 系统架构的合理性 - 实施计划的可行性 7-Agent 协作链执行 完整执行: agent-1 → agent-2 → agent-3 → agent-4 → agent Context7 启发: LLM 优化的上下文 # Reasoning Baseline 示例 - 为 LLM 优化的推理上下文 execution_mode:"interactive" project_context

    66010编辑于 2025-11-17
  • 来自专栏前行的CVer

    LLM评测

    Open LLM Leaderboard(英文) Open LLM Leaderboard中包含有下列Benchmark: 所有能力 通用&数学&code——MT-Bench,由80个高质量的多轮对话问题组成的基准 是多个数据集的结合,划分了LLM的语言、知识、推理、数学、Code、Agent几类能力。

    1.6K10编辑于 2024-08-05
  • 来自专栏k8s技术圈

    LLM On Kubernetes

    从今年开始,人们对大型语言模型 (LLM) 及其在 GPU 基础设施上的部署的兴趣显着增加。这种不断增长的热情是由人工智能和机器学习的进步推动的,这需要 GPU 能够有效提供大量的计算能力。 Ollama 是一个开源的机器学习模型部署工具,它可以帮助您将模型部署到生产环境中,简化大型语言模型 (LLM) 的管理和交互。

    70210编辑于 2024-07-20
  • 来自专栏时空探索之旅

    WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM

    本文总结了2026 WWW上有关LLM Graph的相关论文,包含Research一个Track的论文(没有其它track),总计24篇,如有疏漏,欢迎补充。 笔者将LLM和Graph结合的工作分为两大类,一类是LLM4Graph,即LLM做图任务。 另外一类是利用Graph4LLM,即利用图这种格式来增强LLM的能力。 LLM4Graph1. Disentangled Graph LLM for Molecule Graph Editing under Distribution Shifts4. ,RAG 推荐阅读 ICLR 2026 | LLM×Graph论文总结【LLM4Graph与Graph4LLM】 ICLR 2026 | Rebuttal前 图基础模型(GFM)&文本属性图(TAG)高分论文

    24410编辑于 2026-03-10
  • triton+tensorrt-llm后端部署LLM服务

    /trtllm_checkpoint_fp16 \ --dtype float16 ❝[TensorRT-LLM] TensorRT-LLM version: 0.17.0.post1 [TensorRT-LLM][INFO] Refreshed the MPI local session [TensorRT-LLM][INFO] MPI size: 1, MPI local size : 1, rank: 0 [TensorRT-LLM][INFO] Rank 0 is using GPU 0 [TensorRT-LLM][WARNING] Fix optionalParams : ] TRTGptModel maxNumSequences: 2048 [TensorRT-LLM][INFO] TRTGptModel maxBatchSize: 2048 [TensorRT-LLM : 0 [TensorRT-LLM][INFO] TRTGptModel maxNumTokens: 8192 [TensorRT-LLM][INFO] TRTGptModel maxInputLen:

    24010编辑于 2026-03-25
  • 来自专栏时空探索之旅

    ICLR 2026 | LLM×Graph论文总结【LLM4Graph与Graph4LLM

    本文总结了2026 ICLR上有关LLM Graph的相关论文。总计29篇,如有疏漏,欢迎补充。 观察:LLM Graph统计值 最大均分 均值 最小均分 6 5.21 4 其中均分≥6的有4篇,其中。 笔者将LLM和Graph结合的工作分为两大类,一类是LLM4Graph,即LLM做图任务。 另外一类是利用Graph4LLM,即利用图结构来增强LLM的能力。 LLM4Graph & TAG1. id=0RdAmwfVku 关键词:LLM reasoning, Knowledge Graphs, KG-enhanced LLM 作者:Wenxin Zhao, Jiachuan Wang, Yongqi id=34cANdsHKV 关键词:LLM Collaboration, Multi-Agent LLM 作者:Sukwon Yun, Jie Peng, Pingzhi Li, Wendong Fan

    28510编辑于 2026-03-10
  • 来自专栏windealli

    LLM Agent 简介

    什么是LLM Agent导语GPT(尤其是GPT-4)等大语言模型(LLM)的推出,让人类认识到了大语言模型强大的文本生成能力。 只是用来做文本生成工具的话,LLM的能力就被严重低估了。 LLM Agent 概念定义关于LLM Agent, OpenAI 应用人工智能研究负责人Lilian Weng在其Blog中将LLM Agent定义为LLM、记忆(Memory)、任务规划(Planning 通过LLM和三个关键组件,LLM Agent可以拥有复杂的工作流程,其中模型基本上是与自身对话,而无需人工参与到交互的每个部分。 LLM Agent通过迭代运行并定义一些新的目标/任务,而非传统GPT那般接受单个查询的输入并返回输出LLM Agent 常见功能LLM Agent能够基于大语言模型进行对话、完成任务、推理,并可以展示一定程度的自主行为 LLM 与 三个组件LLM Agent 以 LLM 驱动,并需要三大组件辅助以完成工作(图片来自: https://lilianweng.github.io/posts/2023-06-23-agent

    7.1K23编辑于 2024-01-12
  • LLM挂载&部署

    limit_mm_per_prompt image=4 --max_model_len 8784 成功挂载: 在Dify中编辑“模型供应商”,添加更多模型供应商“OpenAI-API-compatible”,不仅支持LLM

    29310编辑于 2025-05-22
  • 来自专栏磐创AI技术团队的专栏

    拥有LLM模型

    大型语言模型(LLM)越来越显示出其价值。将图像纳入LLMs使它们作为视觉语言模型更加有用。在本文中,我将解释一个名为GIT-LLM的模型的开发,这是一个简单但强大的视觉语言模型。 然而,在本文中,我尝试使用强大的LLM并进行微调。在这里,我称该模型为“GIT-LLM”。 使用Hugging Face的Transformers的LLM 我将使用Hugging Face的Transformers库来开发GIT-LLM。 我相信Transformers对于最近LLM衍生物的发展做出了重要贡献。 在其中,需要将一个视觉编码器与一个LLM连接起来。我将解释一些关键组件。

    56910编辑于 2024-06-06
  • 来自专栏charlieroro

    LLM RAG系列

    该方式用于通过LLM来选择知识库。 with function call llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0) structured_llm = llm.with_structured_output (structured_llm)输入提示(prompt)来产生结果 router = prompt | structured_llm 下面是使用方式。 还是作为一个代理工具,将其输出导入到其他LLM中进一步处理?如果是后者,可能需要限制传递到下一个LLM的上下文窗口的输出长度。 另外一个CRAG由于其他方法(如Self-RAG)的点是它可以灵活地替换底层LLM,如果未来可能要采用更加强大的LLM,这一点至关重要。

    1.3K35编辑于 2024-04-02
  • 来自专栏用户9703952的专栏

    LLM安全专题

    提示攻击 提示攻击是一种利用 LLM 漏洞的攻击方式,通过操纵输入或提示来实现。与传统黑客攻击(通常利用软件漏洞)不同,提示攻击依赖于精心设计的提示,欺骗LLM执行非预期的操作。 填空式攻击:输入被禁词汇的一部分,要求LLM补全剩余部分或根据上下文生成。 有效载荷拆分 有效载荷拆分涉及将攻击性输入分成多个部分,然后让LLM将它们组合并执行。 递归注入 需要在第一个 LLM 产生的输出在经过第二个 LLM 评估时产生恶意效果,比如下面的组合: 请提供以下主题或对象的正面信息,并谈论其与自然的关系: {{用户输入}} 第一个LLM在回答关于自然的问题之后 {{第一个LLM输出}}. 第二个LLM可能会按照嵌入的指令回答是,即使原始输出并未包含任何猥亵或冒犯性内容,这样一来就成功地完成了提示攻击。 代码注入 攻击者能让LLM运行任意代码(通常是Python),这种情况可能发生在使用工具增强的LLM中,LLM能够将代码发送给解释器执行。

    69210编辑于 2025-02-06
  • 来自专栏入门到放弃之路

    LLM学习笔记:如何理解LLM中的Transformer架构

    前言AI已经在我们的工作和生活中全面开花了,好久之前在GPT、混元大模型出来的时候,就想着能够学习一下关于AI的知识,所以这次打算从LLM开始学习,就问DeepSeek关于LLM的学习路线,DeepSeek 总结本篇文章主要是对 LLM Transformer 学习笔记的一个整理,内容更多的是一些概念性的东西,主要是了解 Transformer 的相关知识,为下一步的学习奠定基础。

    74320编辑于 2025-03-10
  • 来自专栏CoderJia的工作笔记

    LLM 应用的宝藏库:Awesome LLM Apps 项目深度解析

    在这个背景下,Awesome LLM Apps 项目应运而生,为开发者提供了一个全面的 LLM 应用示例库。 这个项目不仅仅是一个简单的代码集合,更像是一本活生生的 LLM 应用开发教科书。 项目名称: awesome-llm-apps 项目地址: https://github.com/Shubhamsaboo/awesome-llm-apps 创建者: Shubhamsaboo 主要功能: 技术创新点与实际应用价值 创新技术实现 项目中展现了多个值得关注的技术创新点: Memory-Augmented LLM:项目实现了多种记忆增强的 LLM 应用,包括个性化记忆、共享记忆等机制。 结论与展望 Awesome LLM Apps 项目为 LLM 应用开发者提供了一个宝贵的学习和参考资源。 它不仅展示了当前 LLM 技术的应用边界,更为开发者提供了从零到一构建 LLM 应用的完整路径。

    2.1K10编辑于 2025-06-15
  • 来自专栏架构师成长之路

    大模型llm:Ollama部署llama3学习入门llm

    二、Ollama安装 1、Ollama简介 Ollama 是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。 :11.020314Z", "response": "Here are the translations:\n\n**Chinese:** 《Meta Llama 3》:迄今最强大的公开可用的LLM \n\n**Korean:** 《Meta Llama 3》:현재 가장 강력한 공개 사용 가능한 LLM\n\n**Japanese:**\n\n《Meta Llama 3》:現在最強の公開使用可能 なLLM\n\n\n\nNote: (Meta Llama 3) is a literal translation, as there is no direct equivalent for \"Meta } ] }' 五、配置Open-WebUI 可以直接使用dify开源的llm ops集成:https://guisu.blog.csdn.net/article/details/138978737

    6.9K00编辑于 2024-05-24
  • 来自专栏第一专栏

    LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM

    5.3、模型上下文窗口扩展 上下文窗口:在自然语言处理中,LLM(Large Language Model,大型语言模型)的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。

    69640编辑于 2023-09-26
  • 来自专栏自然语言处理

    LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

    指令微调的局限性 指令微调对于训练llm的能力至关重要,而模型的有用性在很大程度上取决于我们从小指令数据集中获得最大信息的能力。 NEFTune可以实现在会话任务上惊人的性能跳跃,同时在事实问题回答基线上保持性能,这种技术似乎是LLM微调的免费午餐。 结论 NEFTune的成功指出了算法和正则化器在LLM训练中的重要性被忽视。与多年来一直在研究正则化和过拟合的计算机视觉社区不同,LLM社区倾向于使用标准化的训练循环,而不是泛化。 在这种环境下,LLM的研究人员已经专注于数据集和模型缩放作为前进的主要路径。考虑到NEFTune的一致性收益,以及在小指令数据集上的过拟合的倾向,似乎正则化值得在LLM设置中重新加入。 论文的研究有几个局限性: 采用AlpacaEval作为llm教学遵循能力的中心指标,它受到单一法官(GPT-4)偏见的影响。

    56810编辑于 2024-01-10
  • 来自专栏自然语言处理(NLP)论文速递

    LLM推理速度飙升23倍!Continuous Batching:解锁LLM潜力!

    LLM)的推断过程以及传统批处理策略中存在的低效性。 示例迭代过程: 第一次迭代:LLM 生成第一个 token "S",此时我们有 ["S"]。 第二次迭代:LLM 生成第二个 token "a",此时我们有 ["S", "a"]。 它可以提高 LLM 生成的内存效率。 这些策略和方法旨在充分利用GPU内存,减少内存开销,从而提高LLM推断的吞吐量和效率。 Q10. 提高计算资源的利用率:LLM 推断通常是内存 - IO 受限的,而不是计算受限的,意味着加载数据到 GPU 的计算核心比在计算核心上执行 LLM 计算花费的时间更多。 这样做更有效地利用了芯片的内存带宽,提高了计算利用率、吞吐量,并降低了 LLM 推断的成本。 然而,LLM 推断是一个迭代的过程。

    3.2K31编辑于 2023-10-24
领券