一、本月导览与核心看点 2025 年 7 月,AI 大模型在代码生成与理解领域,特别是数据库 SQL 能力上的竞争日趋白热化。 SCALE - 大模型 SQL 能力排行榜(202507) 本期核心看点: 新王登基还是实力搅局? 此过程中,深度依赖于数据库过程化编程能力(如存储过程、函数)的复杂应用,其迁移的准确性和效率成为关键瓶颈。 评测目的:评测模型将传统商业数据库向国产数据库进行自动化转换的能力。 同时,公开透明的排行榜有力驱动模型提供商针对核心短板进行优化,尤其在高权重的复杂任务上持续投入,加速了关键技术的突破与模型能力的整体提升。 我们致力于提供大语言模型(LLM)处理 SQL 的核心能力测评。如果您有任何建议或希望看到哪些模型的评测,欢迎随时与我们联系。
架构师能力模型 ---- 网上已经有前辈在 2007 年时,已经总结了他对架构师的能力模型的理解。 写得非常详细,见:《架构师的能力模型(图)》、《能力要成体系》、《旧文重发:做人、做事,做架构师——架构师能力模型解析》。 个人觉得,上文中的能力模型有些过于具体,不方便读者按照该模型进行学习。 这些因素为什么会成为架构师能力模型中的关键因素? 下面我来补充一下我对架构师的能力模型的理解。能力模型分为两个层次。 ? 可能比较抽象,我对本层能力模型中的各个能力点做一些简单的诠释: 学习能力,是一切能力的源泉!所有的知识,都可以学习。学习能力是一个人的核心能力!所以,在学习任何事之前,应该先学习如何更好地进行学习。 其它:…… 专业能力层 ---- 通用能力层之上,就是架构师能力模型中第二个层次:专业能力层。这一层的能力越精通,说明越能胜任架构师。 ? 基础能力层:基础能力层的特点是非常简单,但是却非常重要。
这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点,通过实验证明长期强化学习训练(ProRL)能够使基础模型发现全新的推理策略。 当熵坍塌发生时,策略会过早地固化在一组有限的输出模式上,严重限制了模型的探索能力。这种现象对于GRPO等依赖多样化采样输出来有效估计相对优势的方法尤其有害。 训练阶段6和7:将推理计数从16增加到32,执行了两次硬重置操作。随着验证指标的改善,响应长度再次开始增加。 训练阶段8:将上下文窗口扩展至16k标记,同时将推理计数减少至16。 该模型在多个领域展现出与更大规模模型(DeepSeek-R1-Distill-Qwen-7B)相当或更优的性能表现。 在Reasoning Gym的分布外(Out-of-Distribution, OOD)任务中表现出显著改进,展示了更强的泛化能力。
LLM大语言模型终究也只是一个工具,我们不可能每个人都去训一个大模型,但是我们可以思考如何利用好大模型,让他提升我们的工作效率。 提示词(prompt)就是你给大模型下达的指令输入,它包含以下任意要素: 指令:想要模型执行的特定任务或者指令。 上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。 提示工程就是开发和优化提示词(Prompt),一种在大模型中使用的技巧,通过提供清晰、简洁的指令或问题,充分发挥大模型的能力,让模型更好地理解我们的需求,从而得到更好的模型输出。 给大模型提示语的时候,你就是产品经理: 你随便提需求,模型也就随口一答; 你提出详细的需求,给出充分的需求背景,给足输出数据,定义好输出格式,好的模型就像一个好的程序员,会给你一个满意的答复的~ 2 prompt 策略1:指定完成任务需要的步骤 告诉模型完成这个指令,需要执行几步,每步的详细步骤 策略2:明确模型再给出结论之前推理出自己的解决方案 让模型自己推理,写出每一步的步骤,给足够的时间(token-钱)边思考边执行
对大模型应用的能力分级就像给学生打分一样,能让我们更清楚它的本事有多大。能力分级能帮我们设定目标,知道AI现在能干什么,未来还要学什么。 另外,能力分级让普通人更容易理解AI的能力,避免过度期待或担心。 大模型的应用主要有两种常见模式:RAG 和 Agent。选哪种 RAG 架构,得看具体要解决什么问题,确保它适合任务需求。 RAG 回顾 实现一个高效的 RAG(检索增强生成)系统面临几个关键挑战:首先,系统需要能够准确地找到与用户问题相关的信息;其次,它必须正确理解用户的真实意图;最后,还要能够利用大型语言模型(LLM)的推理能力来处理复杂的任务 关于RAG 的更多资料,可以参考《大模型系列——解读RAG》、《RAG的10篇论文-2024Q1》、《Chunking:基于大模型RAG系统中的文档分块》、《解读GraphRAG》和《在大模型RAG系统中应用知识图谱 小结 将大模型应用的能力进行分级,不仅有助于推动技术发展,还能更好地匹配实际应用场景,同时也让公众更容易理解其价值。
01GPT能力的完善与大模型能力竞争的终结OpenAI发布ChatGPT3.5引爆市场的几个月间,引发了一场大语言模型“大跃进式”的风暴。 需要指出,大模型能力之争的终结并不指只有OpenAI一家公司独大,而是指其它大模型所发展的方向和生存,不再是以模型基础能力为主要考量,将会向更多复杂的因素延展。 的大模型有差距,但是依靠特定方向的能力提升或者其它赛道上的独特优势成为大模型领域的“多强”。 在这个类比中,大模型仿佛是互联网本身,而每个Agent则像是利用互联网能力的独特应用程序或网站。正如4G和5G的推出催生了新一代的应用和服务,大模型的能力提升也将导致Agent的创新和进化。 大模型其实是“人脑”system1的能力,更偏向于直觉,经验,和“快”反应,这是大模型作为预测模型所决定的,那么Agent能做的就是补充System2的”慢“能力,和长期记忆结合,提供更加复杂的决策、逻辑归因
我之前说过,程序员如果想有未来,必须最少做到P7的水平,这样在未来找工作可以有很大的选择权。 同时P7具备的专业的开发技能和一定的架构知识,在程序员纬度上能力慢慢趋于全面。 而且我推荐技术团队的leader要到P7才开始带团队,从BAT来看,基础leader都是P7开始胜任的。 ? 那么P7亦或是P8应该具备哪些技能呢?简单梳理了一下。 ---- 后台开发知识 关键词:理解原理,掌握后台架构设计方法论 标准: 深刻理解系统在实际运行过程中所经过的各个环节的相关知识,原理,如硬件(CPU,内存,存储架构等),内核(进程调度,内存管理模型) 开发能力 关键词:能主导或核心参与大中型项目,能担任大型项目的技术负责人 标准: 精通1~2门主流开发语言。 熟悉1~2种常见软件工程开发模式,领会其中要领,并在具体项目中实践过。 架构能力 关键词:子系统设计能力,完整系统设计能力,横向大系统设计能力&前瞻性 标准: 能够完成多方需求收集,形成技术需求文档。
在此,图图为大家梳理了产品市场能力模型,试图去解释我所理解的产品市场工作。 阅读本文,希望能够帮你: 概括产品市场的职责,帮助新人介绍清楚自己是干什么的; 对照能力模型评估自己的工作流程和业务能力; 找到自己的方向,根据自身经验向某一方向的产品市场专家努力。 那么开门见山,就让我们直接来看这个产品市场能力模型吧: ? 这个能力模型,可以概括产品市场的职责以及工作流程。下面我们展开讲解。 ? 赋能——卖什么,怎么卖 在这个能力模型里面,我没有写产品市场JD里面经常提到的“包装产品”“提炼卖点”之类的内容。因为这些事是过程,而非结果。你要蒸包子,怎么可能不会和馅儿呢? 以上,就是图图总结的产品市场能力模型。对于产品市场能力和工作职责的梳理肯定有遗漏,但是大体的能力和方向就是这些。基于不同的从业经验和个人兴趣,产品市场会发展出不同技能树。
虽然公司和自身都总有诸多不尽如人意的地方,但是,自我觉得个人学习能力还行,所以不断地学习并调整自己的工作方式。慢慢地,也逐渐形成了自己的管理体系。 这两天,也看了看别人对于 CTO 的一些总结。 下面就简单分享一下我对 CTO 能力模型的总结。 ? ? ?
星球有同学向我提了一个问题: “目前在做性能测试岗位的职级划分和能力模型定义的的工作,想咨询下性能测试岗位按照初/中/高/资深/专家,不同职级应该具备哪些能力,如何衡量这些能力”? 针对这个问题,结合我自己之前作为面试官和稳定性团队Leader的经验,对于性能测试岗位,我个人认为岗位能力模型的划分可以参照如下的内容。 岗位胜任力模型 岗位分级 必备技能 角色定位 关键任务 初级 1、性能测试基础理论2、熟练使用压测工具 脚本执行工具人 1、能写脚本2、看得懂监控指标 中级/高级 1、性能测试基础理论2、熟练使用压测及监控工具 :性能测试的测试对象是各种软件系统,因此了解系统的技术架构和各种调用依赖关系也是必不可少的; 评估能力:问题越早发现修复成本越低,在需求和方案评审时就评估发现风险,这是高级向资深迈步的必备能力; 规划能力 :上面的六点能力主要集中在如何解决问题,规划能力是建设解决问题能力的底层建设和整体发展方向; 一站到底:对于专家岗位,我的认知是所有这个领域的问题到这里就应该都被解决,无论是技术难题还是沟通协调; 最后
其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 二、主流基准与核心指标通用能力:MMLU(57学科准确率)、HellaSwag(常识推理)为标杆,需控制数据泄漏与温度参数。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。
上回我们谈到AI模型的两大基石之一,云能力,而云能力分为边缘计算能力和PAAS层中心能力。在咨询项目中,如何构建PAAS层中心能力。 从当时地质业务需求来看,中心层能力是大模型计算的核心能力,依赖机房的计算存储平台,大模型可以按需运算并预测结果。 由于部署了台风预测模型,业务侧需要分钟级输出未来30天的预测结果,每分钟计算资源要非常充足。 硬件平台讲了这么多,其实都是为PAAS层能力服务。为了让业务侧具备自主编程和调试台风预测模型的能力,PAAS层配备了微服务流水线的能力,codearts, 微服务架构。 未来模型应用的场景会逐步增多,新场景除了模型泛化能力支持外,还要进行算法调优或RAG等技术辅助。欢迎点赞和关注公众号“科技江河”,如果喜欢,在公众号打赏下呗,感谢
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 把AlphaGo的核心算法用在大模型上,“高考”成绩直接提升了20多分。 在MATH数据集上,甚至让7B模型得分超过了GPT-4。 这里有个前情提要: 思维链(CoT)、思维程序(PoT)等方法已经被证明能够有效提高大模型的数学能力,但问题在于,它们都需要人类手动喂详细的解题步骤,即训练当中需要用到人工标注的高质量数学推理数据。 这三个阶段会通过迭代优化地方式执行,以实现无需人工标注的自动数据生成和模型数学能力优化。 MATH成绩超GPT-4 为了验证AlphaMath的效果,研究人员设计了这样的实验: 对开源的数学大模型DeepSeekMath-Base-7B,用AlphaMath方法进行训练,并在GSM8K、MATH 结果显示,不依赖于人类(或GPT-4)标注的高质量数据,AlphaMath调教下的7B数学大模型,已经能在MATH上取得63%的分数,超过了GPT-4原版的42.5%和外挂代码解释器版的51.8%。
基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 基础模型决定上限: 指令微调模型在 OIBench 上的表现高度依赖其基础模型的能力,说明基础模型的预训练质量是决定代码能力的关键。 为了更细致地分析模型的能力,我们还引入了 “伪代码提示” 评测:将标准解答转为伪代码并作为提示输入,考查模型理解和复现解题思路的能力。 进一步分析发现,指令微调模型的表现与其基础模型高度相关,说明代码生成能力主要取决于预训练水平。 不仅为大语言模型的算法推理能力评测树立了一个全新标杆,也为整个行业带来了更多思考。它让我们看到:即使在模型能力突飞猛进的今天,真正高质量、高难度的算法挑战依然能够 “难倒” 最先进的 AI。
Spring MVC提供了以下几种途径输出模型数据: ModelAndView 控制器处理方法的返回值是ModelAndView,则其既包含视图信息,也包含模型数据信息 // success.jsp 返回的目标页面 ; return modelAndView; } } Map&Model Spring MVC 在内部使用了一个org.springframework.ui.Model接口存储模型数据 ,具体步骤: 1)SpringMVC在调用方法前会创建一个隐含的数据模型,作为模型数据的存储容器, 成为”隐含模型” 2)如果方法的入参类型为Map或Model,会将隐含模型的引用传递给这些入参。 3)在方法体内,可以通过这个入参对象访问到模型中的所有数据,也可以向模型中添加新的属性数据 Spring Web MVC 提供Model、Map或ModelMap让我们能去暴露渲染视图需要的模型数据。 @SessionAttributes 除了可以通过属性名指定需要放到会话中的属性处,还可以通过模型属性的对象类型指定哪些模型属性需要放到会话中 @SessionAttributes(types=User.class
—— 罗曼·罗兰(法) 上周发的文章《创业团队从0到1,产品设计师、产品经理的能力模型与职业成长之路》,得到了很多朋友的反馈,我在这里把握的回答汇总了一下,希望对大家有帮助。 我的列能力模型不一定适合所有人。我只知道我们团队现在需要这样的人。 但是大道至简,作为互联网产品经理,背后知识也总有些相通的地方。 对于我的产品经理能力和核心就是人、技术、商业,这源自IEDO的Design Thinking。 ? 国外专家也有用UX、技术、商业三个环代表产品经理的能力,但本质和IDEO的模型没有差别。 ? 关于职业方向 Q7:你好 我本科是计算机编程专业 但学的不大好 较难做出成品。 所以招人的时候的能力模型是一个较为客观的衡量标准。 感谢小凡整理的脑图 ?
大家都知道AI现在很强大,但其实刚开始没有现在这么智能,刚开始AI其实很多内容都是回答不了的,尤其是一些垂直领域或实时性比较高的问题,比如“今天的天气如何”等,这种需要大模型具备与外界交互的能力,比如获取墨迹天气等等天气平台的实时接口 ,这个时候OpenAI提出了Function Calling的解决方案,从而让AI大模型拥有了自身能力的外部工具的能力,到现在与Function Calling一样能够让大模型和外部交互的各类Agent 要使大模型拥有ReAct 能力,使其变成 Agent,我们需要在向大模型提问时,使用 ReAct Prompt,从而让大模型在思考如何解决提问时,能使用 ReAct 思想。 New input: {input}"""模板会传授大模型按照规定的格式思考和回答问题,这就是在教大模型如何推理和规划,大模型在有了推理和规划能力后就变成了 Agent。 腾讯云混元大模型
本文提供了7种提高代码阅读技巧的方法。 在软件开发人员的职位描述中有阅读源代码。然而,这体验并不总能令人愉悦。不是每个人都喜欢阅读别人的代码,因为他们觉得那很乏味,甚至有时令人感到沮丧。 一言以蔽之—— 代码阅读技巧提高编码能力。 运行代码 是的,这是阅读代码的第一步。 Erich Gamma, Richard Helm, Ralph Johnson,John Vlissides软件设计领域的四位世界顶级大师.)有23种有文档说明的设计模式,可以显著地帮助你提高代码阅读能力 做代码检查,你不得不阅读团队中其他人的代码,最终会提高你的代码阅读能力。 临时重构 临时重构也可以帮助您提高代码阅读技能。你可以找取一段长的方法代码,然后不断地把方法细分成多个部分。 原文:https://dzone.com/articles/7-ways-to-improve-your-code-reading-skill 作者:A. N. M.
今天分享数据分析师必备的工作能力——需求梳理。需求梳理很不起眼,甚至很多小伙伴感受不到他的存在。但它结结实实影响到大家的下班时间和绩效。 一、什么是数据需求?
副本_未命名_自定义px_2021-08-24+15_53_12.jpeg 流程 1、流程支持子表单功能 流程【提交入库】节点支持子表单数据提交 表达式 1、函数和关键字能力丰富 2、表达式入参新增支持级联枚举 、对象下钻查询 BI能力 1、BI页面支持预览,方便用户对数据页面进行调整 2、支持将多张表数据进行关联,在一个仪表板中进行聚合展示,实现关联数据联动分析 数据模型 1、批量接口性能优化 2、内部服务调用业务数据查询接口协议优化 支持移动端的适配 3、丰富表格、列表以及级联组件的筛选条件 4、关联选择器支持设置筛选条件和默认值设置 5、支持自定义组件创建和管理,并可安装至应用中使用 6、PC移动端返回首页按钮支持自定义配置 平台能力 1、设计态登录态域名合并 2、设计态支持企微登录 3、设计态开发者界面调整 4、支持企微消息推送 5、应用模版支持在租户间分享 6、支持多人协作模式下应用快速预览 7、支持企业微信用户直接开通租户