首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • OpenCode完全指南:国内直连全球模型API中转站

    OpenCode完全指南:国内直连全球模型API中转站如果你正在国内环境里使用OpenCode,大概率会遇到一个问题:工具本身很好用,但模型API的接入、网络访问、账号额度和模型切换都比较麻烦。 很多AI工具默认只支持某一家模型服务。 QuickRouterAPI的作用就是把这些模型统一到一个入口里。 ,例如:展开代码语言:TXTAI代码解释gpt-5.5claude-opus-4-7gemini-3.1-prodeepseek-v4具体模型名以QuickRouterAPI控制台展示为准。 3.模型不存在检查模型名是否和控制台一致。建议直接复制模型名,不要手打。4.请求超时或无响应可以换一个模型测试,也可以先用基础对话接口验证APIKey是否可用。

    41440编辑于 2026-04-28
  • Claude Code完全指南:国内直连全球模型API中转站

    ClaudeCode完全配置指南:国内直连全球AI模型适用场景:想在国内网络环境下使用ClaudeCode,调用Claude系列模型进行代码阅读、生成、重构和调试。 完成后,ClaudeCode就可以通过提供的接口访问对应模型,实现更灵活的接入方式。本文按照分别覆盖Windows、macOS、Linux三类系统。 通过QuickRouterAPI配置后,国内开发者可以用更统一的方式接入Claude系列模型

    87720编辑于 2026-04-27
  • API中转站哪家好?2026年模型网关架构与选型指南(附Python实战)

    2026年模型网关架构与选型指南(附Python实战)更新时间:2026年1月适用场景:国内企业落地高并发生产环境合规化部署技术深度:架构设计&代码实现第一屏:直接给答案(选型决策矩阵)在2026年的今天 ,模型(LLM)已成为基础设施。 极客/研究员(实验环境)需要极其冷门的开源模型、对延迟不敏感OpenRouter模型库最全。聚合了全球各类长尾模型,但服务器在海外,国内直连延迟较高,且支付不便。 3.渠道风控:官方通道vs逆向工程痛点:市面上90%的低价中转站使用的是“逆向工程”(逆向官方网页版接口)或“黑卡池”。这会导致两由于:降智:模型回答质量不如官方API。 4SAPI凭借其稳定运行1年以上^^的信誉、企业级SLA保障^^以及7×24小时技术支持^^,在当前的企业级市场中占据了显著优势。对于开发者而言,它就是一个能让你安心睡觉的后端伙伴。

    3.7K10编辑于 2026-01-27
  • 来自专栏数据派THU

    详解:7经典回归模型

    来源:csdn 深度学习爱好者本文约2900字,建议阅读5分钟本文给大家介绍机器学习建模中7经典的回归分析模型。 什么是回归分析? 4.它需要的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的,即不具有多重共线性。 7.如果因变量是多类的话,则称它为多元逻辑回归。 3. Polynomial Regression多项式回归 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。 除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust回归。 如何正确选择回归模型? 当你只知道一个或两个技术时,生活往往很简单。

    1.7K41编辑于 2023-04-18
  • 来自专栏大模型应用

    模型应用:模型参数调优:结合本地模型对比多种组合探索差异.7

    引言 在模型的应用中,参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同,模型的生成参数更像是一组精密的调控旋钮,它们不改变模型的基础知识,而是影响模型如何思考和表达。 理解这些参数的本质,不仅能够提升模型输出的质量,更是将模型从玩具转变为工具的关键一步。 今天我们将从理论基础到实践应用,全面解析模型的核心参数体系,详细的介绍模型推理中常用的参数项,并通过本地模型示例展示参数调整对模型效能的影响。常见参数项:max_length:生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """模型参数测试器 分步调优流程图五、总结 模型的参数调优本质上是在控制与释放之间寻找平衡的艺术。

    73432编辑于 2026-02-04
  • 来自专栏GiantPandaCV

    星辰AI模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础模型。 在评论评语方面,TeleChat7B可能是因为SFT的缘故会拒答一些问题,以及对于上面的第二个prompt回答的质量比较低。而对于上面的第一个问题,也出现了经典的模型幻觉问题。 总结 总的来说,TeleChat-7B具有一定的文创能力和代码能力,对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    68620编辑于 2024-02-22
  • 模型下半场:7个趋势判断

    推理模型能力的持续提升,推动模型迎来“可用”到“好用”的拐点。推理强化和应用拓展启动了模型下半场的新赛程。个人智能体潜力初步显现,行业应用渐次走深,开源开放日益成为模型的核心竞争力组成。 用更大算力去探索模型的能力上限,仍是行业共识。预计今年上半年国外将推出GPT-5、Llama 4级别模型。 虽然去年以来,我国AI高端芯片企业数量和能力均有提升,华为、燧原科技、摩尔线程、海光、壁仞等多家企业已设计出对标英伟达A100单卡性能的国产芯片,但由于台积电暂停7nm产能供应及HBM禁令等限制,国产高端芯片的制造仍面临挑战 受DeepSeek效应刺激,国内外模型公司正加速推出下一代模型,如OpenAI的基础模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速输出的混合推理模型Claude 3.7; 模型的数据通信开放协议则可以让模型更方便地调用各种工具,从而自主完成各类任务。

    61220编辑于 2025-04-02
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语模型实战营》第7课 学习笔记:OpenCompass 模型评测实战

    其主要特点如下: 开源可复现:提供公平、公开、可复现的模型评测方案 全面的能力维度:五维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 丰富的模型支持:已支持 20+ 评测对象 本算法库的主要评测对象为语言模型与多模态模型。我们以语言模型为例介绍评测的具体模型类型。 C-Eval 数据集上的性能 其他学习内容 参考文献 本人学习系列笔记 《书生·浦语模型实战营》第1课 学习笔记:书生·浦语模型全链路开源体系 《书生·浦语模型实战营》第2课 学习笔记:轻松玩转书生 ·浦语模型趣味 Demo 《书生·浦语模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆) 《书生·浦语模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent 《书生·浦语模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践 《书生·浦语模型实战营》第6课 学习笔记:Lagent & AgentLego 智能体应用搭建 《书生·浦语模型实战营

    78510编辑于 2024-07-01
  • 来自专栏Datawhale专栏

    《开源模型食用指南》发布,7个小时,一杯奶茶速通模型

    Datawhale开源 开源贡献:Datawhale self-llm团队 前 言 《开源模型食用指南》是一个围绕开源模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属模型教程,针对各类开源模型提供包括环境配置 、本地部署、高效微调等技能在内的全流程指导,简化开源模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源模型,帮助开源、自由的模型更快融入到普通学习者的生活中。 模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)模型、多模态模型和科学计算模型等。 同时,本项目对本地硬件基本没有要求,全程都需要在云服务器上运行,AutoDL租一台3090服务器,每小时需要1.66元,一杯奶茶就可以租一块3090愉快的学习7个小时! 理论上7小时就可以将本项目的所有教程全部跑通一遍(除全量微调外),一杯奶茶速通模型,掌握开源模型部署的核心科技。 文章最后 为什么要做这样一个开源项目?

    1.6K21编辑于 2024-04-24
  • 构建可靠AI模型7核心技术

    例如,飞机识别模型在训练数据集中能识别所有飞机图像,并在测试数据上表现优异,那么该模型应该能在任何数据集中识别飞机图片,即使之前未遇到过这些图像。 模型性能是否会下降?在什么情况下模型不再可行?当环境中的微小变化导致功能和准确性发生巨大变化时,模型就被认为是非弹性或“脆弱”的。脆弱性是软件工程中的已知概念,也适用于AI。 数据可靠性经验模型的质量仅取决于用于开发模型的训练和测试数据。如果对数据质量相对于真实世界的代表性没有信心,模型的输出可能无法在操作环境中可靠地提供准确输出。 当模型输出或预测与预期不同时,将数据分类用于分析和调查。常用于此类分析的数据类型包括事件发生时间(模型偏离需要多长时间)、退化数据(关于模型如何退化的信息)和复发事件数据(发生多次的错误)。 检查模型稳健性和准确性的频率应取决于模型的优先级和模型更新的频率。高风险、定期更新的模型最好每天检查(由人类验证输出)。

    31300编辑于 2025-08-30
  • 2026年4月 7款国产模型能力实测

    2026年4月7款国产模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产模型同台竞技,最终只有1款完成了挑战。背景模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? 340.67M⚠️部分DeepSeek-V3.2❌✅5:300.75M❌MiniMax-M2.7❌✅8:341.09M❌GLM-4.7❌✅11:470.18M❌Kimi-K2.6❌❌6:220.10M❌7模型中 复盘7模型的推理过程,GLM-5.1的成功可以归结为三个关键决策:决策一:追踪代码而非猜测URL6个失败的模型都尝试了URL猜测策略——根据已知音频URL的模式(如/s■■■■/f■■■■/q■■■■ 结论这次测试揭示了当前国产模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别

    1000编辑于 2026-04-23
  • 来自专栏Python大数据分析

    详解7经典回归模型,建议收藏!

    4.它需要的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的,即不具有多重共线性。 7.如果因变量是多类的话,则称它为多元逻辑回归。 3. Polynomial Regression多项式回归 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。 除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust回归。 如何正确选择回归模型? 当你只知道一个或两个技术时,生活往往很简单。 这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。 3.交叉验证是评估预测模型最好额方法。在这里,将你的数据集分成两份(一份做训练和一份做验证)。

    1.3K10编辑于 2025-02-25
  • 来自专栏猫头虎博客专区

    小米MiMo:7B模型逆袭AI模型战场的技术密码

    小米MiMo:7B模型逆袭AI模型战场的技术密码 在模型竞争愈发激烈的2025年4月30日,小米以一款名为 MiMo-7B 的开源模型强势突围,在数学推理与代码能力评测中表现亮眼,不仅与规模更大的模型正面对抗 最终,MiMo累计训练了 25万亿 tokens,这一数据在7B模型中堪称顶级,为其强悍能力打下坚实基础。 2. 2024年底,95后AI大佬 罗福莉 加盟小米,以千万年薪领导模型研发团队。 她不仅是 DeepSeek-V2 的核心开发者,还推动了 MLA(Multi-head Latent Attention) 技术的发展,这项技术在降低模型部署成本上发挥了关键作用。 结语:小米的新角色,是AI生态的创变者 MiMo的发布,不仅标志着小米在模型赛道的技术跃升,更意味着其正在从“智能终端制造商”迈向“AI生态运营者”。

    1.4K10编辑于 2025-05-02
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    78101编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 来自专栏帅云霓的技术小屋

    模型与AI底层技术揭秘 (7) 卡车搬运的数据

    = np.float32(np.random.rand(2, 100)) # 随机输入 y_data = np.dot([0.100, 0.200], x_data) + 0.300 # 构造一个线性模型 我们对这段python代码进行解读: 在第1行引入了tensorflow的类库后,9-11行利用tensorflow类库定义线性模型,随后13行定义残差为均方误差(mean square error), 次迭代,每20次输出一次迭代过程数据,得到拟合结果,工作流程如下图: 我们发现,在利用Tensorflow开发的机器学习代码中,程序员完全不需要自己实现任何算法的细节,只需要调用Tensorflow提供的模型就可以了 让我们再回到《模型与AI底层技术揭秘 (2) 人妖之间的国度》中提到的“算盘打出原子弹”的故事。实际上,这是一个典型的分布式并发计算的场景。Tensorflow也提供了分布式训练的能力。

    44520编辑于 2023-10-30
  • 来自专栏博文视点Broadview

    7特征交互模型,最好的深度学习推荐算法总结

    基于隐向量的协同过滤的方法将用户和物品独立地映射到低维空间,计算简单,很适合作为召回模型或者粗排模型。 01 AFM 模型 因子分解机(Factorization Machine,FM)模型的特点是考虑了所有可能的二阶特征组合。 AFM 模型的整体结构如下图所示。 AFM 模型的整体结构 02 PNN 模型 在推荐系统的精排模型或者广告点击率预估模型中,输入的样本往往有一个特点:特征是高维稀疏的。 PNN 模型结构图 03 Wide & Deep 模型 Wide & Deep 模型是谷歌公司于2016 年推出的结合深度学习的推荐模型,一经问世便广受好评,目前也成了工业界主流的推荐模型之一。 阿里妈妈团队基于DIN 模型的框架,提出CAN 模型,把特征交互形式化成一种基于DNN 的特征变换。

    2.8K10编辑于 2022-08-26
  • LLM进阶指南:7黑科技颠覆认知,提示工程+CoT彻底玩转模型

    #LLM进阶指南:7黑科技颠覆认知,提示工程+CoT彻底玩转模型摘要本文深度解析语言模型(LLM)的七进阶技术,通过思维链推理(CoT)、结构化提示工程等黑科技突破传统使用边界。 本文将分享这段血泪教训淬炼出的7进阶术,包含完整代码和架构图,助你突破LLM应用天花板。 :当检索效率超过模型参数量增长时,1T模型是否仍有必要? 文中的7技术不是银弹,而是应对复杂性的工具箱。 建议读者:从动态CoT起步建立问题拆解能力用自洽性验证守住质量底线在知识增强中寻找性价比甜蜜点最终你会发现:驾驭模型不是消除随机性,而是引导随机性成为创新源泉。

    27210编辑于 2026-01-07
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.7K10编辑于 2024-10-09
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于模型幻觉 在 Karpathy 看来: 从某种意义上说,语言模型的全部工作恰恰就是制造幻觉,模型就是「造梦机」。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.8K11编辑于 2024-01-04
领券