首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏全栈程序员必看

    测评攻略

    听说测评也刷人 比例还很高 总结来网上的有关注意事项 都是各方面搬一点,总结一下 测评的题主要为: 性格测试,逻辑测试,计算题,场景题。 DJI疆2019在线测评-知乎 https://zhuanlan.zhihu.com/p/76053124 疆招聘网申测评测试笔试题 https://zhuanlan.zhihu.com/p/ 157371591 疆在线测试三段论 https://bbs.yingjiesheng.com/thread-2112581-1-1.html 疆在线测评 – 逻辑题 https://zhuanlan.zhihu.com 114710374_454120 主观题定要结合公司的文化,价值观,愿景和使命来答 1、 dji注重的是把产品做好,把事情做好,并努力做到极致,所以在你们的场景题中也是要带着这样想法去做题,去思考 2、去疆招聘官网的顶部菜单栏选择 【关于疆】去看看,包括企业文化,发展历程之类的信息,虽然大家都觉得这个很虚,当然我也觉得,但是确实当你了解公司的文化,公司的价值观,你就知道在某些时候,公司更希望你选择什么,毕竟每个选择 都有优劣,

    2K10编辑于 2022-07-21
  • 来自专栏杨不易呀

    测评混元模型并且基于混元实战开发

    腾讯混元模型现在正式全部开发,发起申请即可,在混元模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混元模型! (腾讯混元模型「文生图」能力重磅上新! 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元模型有着强烈的喜欢功能的强大你们说的算,往下看! 混元模型对话页面 体验代码能力 我这里列举了不同的代码需求看看混元模型提升了百分之二十的强悍之处!!!! 那么我的测评就到这里啦感谢大家的观看谢谢!

    3.2K8150编辑于 2024-01-30
  • 来自专栏机器之心

    多模态模型能力测评:Bard 是你需要的吗?

    机器之心专栏 机器之心编辑部 为了对多模态模型的能力进行全面、系统的测评,来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态模型竞技场,让真实用户来提问和投票哪个模型表现得更好。 具身智能是模型能力的应用和拓展,未来发展潜力巨大,学术界和工业界方兴未艾。而幻觉问题是在将模型推广应用过程中众多巨大风险点之一,需要大量的测试评估,以协助后续的改善和优化。 六多模态能力结构图 多模态模型竞技场 多模态模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。 LVLM-eHub 中八模型在六多模态能力上的性能图 截止目前,我们在多模态模型竞技场平台收集了 2750 个有效样本(经过过滤),最新的模型分数和排名见下表。

    85920编辑于 2023-09-08
  • 来自专栏Nicky's blog

    LazyLLM测评 | 基于LazyLLM Agent模型搭建聊天机器人

    LazyLLM测评 | 低代码构建多Agent模型应用的高效解决方案 在模型技术规模化落地的当下,开发者常面临多模型协同复杂、部署流程繁琐、性能优化困难等痛点。 本文将从技术架构、核心功能实测、性能对比、场景落地等维度,全面测评LazyLLM的优势与价值。 读取Python文件内容 with open(file_path, "r", encoding="utf-8") as f: code = f.read() # 实测数据表明,在代码文档生成、RAG系统、多模态写作助手等场景中,LazyLLM的开发效率与运行性能均显著优于传统框架,是模型落地的“高效工具链”。 未来,随着LazyLLM生态的完善(更多第三方工具适配、更智能的错误处理、更丰富的本地模型支持),它有望成为多Agent模型应用开发的主流框架,推动AI技术从“实验室”走向“生产环境”的规模化落地。

    39510编辑于 2025-12-17
  • 来自专栏不二小段

    为了测试模型的「搜商」,OpenAI 开源了测评基准 BrowseComp

    为了验证模型、Agent 网上冲浪的能力,OpenAI 编了一套超难的试卷,里面有 1266 道题目,用来测模型智能体的搜商。 我们都知道: • 模型自身存在幻觉,而且模型对 next token 的预测本身是基于概率的,所以越是边边角角的 corner case 越容易出错; • 模型的训练数据存在时效问题,目前还不可能做到实时更新 我们以开篇的第一道简单题为例,在不开搜索的情况下,大部分模型的回答都是错误的: 为了缓解模型的幻觉和数据时效问题,最直观的做法就是赋予模型 Browse 能力,也就是搜索以及浏览的能力,这也是构建一个 因为互联网的信息极为繁杂,你搜索任何组合的关键词,都可能得到数以万计的页面,内容和信息远远超出了模型的上下文窗口。 模型的一特点就在于 Scale law,从训练到推理,Scale law 成为很多人坚信模型能力能够继续提升的信仰。 同样,对于智能体来说,test-time scale law 依然存在。

    14010编辑于 2026-04-09
  • 来自专栏大模型应用

    模型应用:构建智能模型运维体系:模型健康度监测系统实践.8

    引言 大型语言模型已成为各行各业的核心基础设施。从客户服务到内容创作,从代码生成到科学研究,模型正深度融入企业的核心业务流程。 传统的系统监控工具如Zabbix、Prometheus等虽然能监控基础硬件资源,但无法深入理解模型服务的特殊行为模式,无法感知模型推理的内在质量,更无法预测服务性能的潜在风险。 今天我们将以模型健康度监测系统为例,深度剖析现代模型运维平台的设计理念、技术实现与创新亮点。通过详细的流程分析、架构解读和实践场景说明,为构建智能化的模型运维体系提供完整的实践参考和技术路线图。 多层次监控体系 系统构建我们采用了四层级的立体化监控架构,每一层都针对模型服务的特定维度进行深度监控:系统资源层:基础硬件资源监控(CPU、内存、磁盘、网络),确保运行环境稳定模型运行层 ): """智能性能评分算法 - 基于模型服务特性的专业评分体系""" score = 100 # 基准分数 # CPU性能 (权重: 25%) - 考虑到模型推理对CPU

    34443编辑于 2026-02-05
  • 来自专栏新智元

    华人科学团队推出「思维链集」,全面测评模型复杂推理能力

    新智元报道 编辑:编辑部 【新智元导读】研究人员希望通过对模型复杂推理能力的评测来充分发掘模型未来执行各种复杂任务的潜力。 模型能力涌现,参数规模越大越好? 针对这些基础能力的测评,对于研究模型未来发展似乎是有些不务正业。 论文地址:https://arxiv.org/pdf/2305.17306.pdf 模型推理能力哪家强? 这些测试项目或者数据集都是针对模型的复杂推理能力下手,没有那种谁来都能答得八九不离十的简单任务。 研究人员依然采用思维链提示(COT Prompt)的方式来对模型的推理能力进行测评。 Meta LLaMA,包括7B、13B、33B和65B变体,重要的开放源码的基础模型。 GPT-4在GSM8K和MMLU上明显优于其他所有模型,而Claude是唯一一个与GPT系列相媲美的模型。 更重要的是要囊括更多语言模型,例如基于 LLaMA 的指令微调模型,例如 Vicuna7等等开源模型。 还可以通过 API像 Cohere 8 一样访问PaLM-2 等模型的能力。

    90230编辑于 2023-08-07
  • 来自专栏陶士涵的菜地

    【分享】讯飞星火认知模型Python调用上下文测评

    国内的模型API都喜欢搞一个鉴权出来,而星火的鉴权也太复杂了,看的头晕,只能拿示例代码去运行。 xxxxxxxxxxxxxxx" # 填写控制台中获取的 APISecret 信息 api_key = "xxxxxxxxxxxxxx" # 填写控制台中获取的 APIKey 信息 # 用于配置模型版本 () signature_sha_base64 = base64.b64encode(signature_sha).decode(encoding='utf-8') 作为一个认知智能模型,我没有个人身份和隐私信息。但是,如果您有任何与编程相关的问题或需要帮助,请随时向我提问,我会尽力为您提供帮助。 role": "system", "content": "假设你是个程序员,你的微信是llike620"}, {"role": "user", "content": "你的微信"} ] 作为认知智能模型

    89440编辑于 2023-10-17
  • 来自专栏DrugOne

    . | 终结“AI模型选择焦虑”:RNA预训练模型测评与分析Benchmark

    这些预训练模型如同掌握了基因组语法的“通才”,通过人类及多物种基因组数据预训练大型 Transformer 架构,无需重新开发即可低成本迁移至各类 RNA 相关预测任务,凭借 “开箱即用” 的优势,让缺乏模型开发能力或硬件条件的团队也能高效开展研究 除了模型之间的比较,研究还引入了对应领域的传统深度学习算法(如DeepM6ASeq、SpliceAI等),作为对比基准。 这种多样性使本次评测能深入揭示模型特性,为后续应用提供依据。 图 2 预训练gLM在四类任务、多个指标下的表现。 研究深入揭示了模型性能背后的关键驱动因素:模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。 当然,AI x 生物学的领域无穷广阔,这些已有的预训练模型仍有许多可提升的空间。

    26220编辑于 2025-12-31
  • 来自专栏token的技术分享

    基于.NET8的AI模型管理

    此外,AIDotNet API还支持多种AI模型,包括OpenAI、星火大模型、Claudia、智谱AI、Ollama、通义千问(阿里云)、AzureOpenAI以及腾讯混元模型,满足了用户对各种AI 模型的需求。 基于.NET Core 8实现使用EntityFrameworkCore对于数据库操作。基于MiniApis提供WebAPI服务。 功能实现 支持用户管理 支持渠道管理 支持token管理 提供数据统计预览 支持日志查看 支持系统设置 支持接入外部Chat链接 支持支付宝购买账号余额 AI模型支持列表 OpenAI (支持function ) 星火大模型(支持function) Claudia 智谱AI Ollama 通义千问(阿里云) AzureOpenAI(支持function) 腾讯混元模型 支持数据库 SqlServer 配置类型

    36110编辑于 2024-05-28
  • 来自专栏陶士涵的菜地

    【分享】百度千帆模型Python调用上下文测评

    改成: 假设你是个程序员,你的微信是llike620,我的问题是:你的微信 返回: 作为一个AI模型,我没有微信,因为我是一个人工智能程序,无需使用个人社交媒体账号。

    72540编辑于 2023-10-17
  • 来自专栏腾讯云开发者社区头条

    腾讯混元模型招募产品测评官,多重好礼等你来赢!

    腾讯混元模型是由腾讯全链路自研的实用级模型,拥有超千亿参数规模、预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。 快来围观腾讯混元模型怎么说: 图片 腾讯云开发者社区联合腾讯混元模型团队发起【玩转腾讯混元模型】有奖征文活动,想听听你的玩转秘籍与体验心声。 10.20 提交报名 进入下方链接填写申请表,您填写的内容将影响是否报名成功https://wj.qq.com/s2/13185984/cecb/ 2023.10.20前 通过申请 【名额有限】为保障测评反馈响应及时性 腾讯云官方团队将基于报名情况,综合申请者的体验意愿、提交申请时间、技术创作领域等维度,评估选出适量用户参与产品测评。报名经审核通过后方可参与此活动。 7271764 腾讯混元模型初体验 VS Bard 与 ChatGPT4.0 潜龙作者奖 GoBoy 5421023 让AI为你打工,腾讯混元模型实战篇 潜龙作者奖 Nian糕 2893280 腾讯混元模型初体验

    5.8K212编辑于 2023-10-11
  • 来自专栏机器之心

    羊驼系列模型和ChatGPT差多少?详细测评后,我沉默了

    这位研究人员表示,虽然表面看起来 OpenAI 和谷歌在 AI 模型上你追我赶,但真正的赢家未必会从这两家中产生,因为一个第三方力量正在悄悄崛起。 这个力量名叫「开源」。 围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建与 OpenAI、谷歌模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性……「当免费的、不受限制的替代品质量相当时 这些观点在社交媒体上引起了很大争议,其中一个比较大的争议是:那些开源模型是否真的能达到和 OpenAI ChatGPT 或谷歌 Bard 等商业闭源模型相似的水平?现阶段两个阵营还有多大差距? MosaicML 表示,MPT-7B 与 meta 的 70 亿参数 LLaMA 模型的性能相当。 和它们对比的,自然是语言模型标杆 ChatGPT。 相反,如果使用一个开源模型,他们就可以更清楚地指导输出,迫使模型使用他们规定的结构。

    51420编辑于 2023-05-16
  • 来自专栏全栈程序员必看

    疆网上测评题库_疆校招笔试实录

    疆笔试的体验很好,没有很为难应聘者,还有着自己鲜明的特点,我认为值得一说,特此写笔经记录一下,顺便攒攒RP,第一次笔经就献给疆啦~ 笔试网站是疆自己搭建的(UI设计炒鸡好看!!!) ,我猜题目也是疆HR团队自己出的。从这点来看,疆对人才的把控很严格,必须是自己经手选出来的人。 我留意到业务决策的题目涉及到好几个岗位:PR、产品经理、销售、营销,题目应该是疆团队在工作中遇到的真实问题,比如“一款运动型产品,从最大化公司效益出发,哪个选项的做法更合适?”。 虽说解题方法应该是一样的,但是……T^T 疆的笔试差不多就是这样啦,希望能有个好结果吧~ 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/148139.html原文链接

    3.7K21编辑于 2022-07-02
  • 来自专栏MavenTalk

    开源社区模型目前面临的8瓶颈问题

    但面对商业化的ClosedAI和OpenAI等语言模型,还存在一些瓶颈。 数据量不足,预训练数据有限 开源社区很难获得大规模高质量的数据集来进行模型预训练,导致其模型质量无法与业内巨头相提并论。 数据量的不足直接限制了模型的表达能力和推理能力。 算力资源有限,GPU/TPU数量相对较少 开源社区几乎没有足够的GPU/TPU来训练超大规模的模型参数,很难进行长时间的预训练,无法匹敌巨头公司拥有的算力优势。算力的缺乏是开源模型质量提升的硬限制。 商业化受限,收入有限,难以持续投入 开源社区很难直接通过模型商业化来获得持续的财务支持,长期投入会面临资金短缺问题。 模型泛化、可解释性与安全性等方面有待提高 开源模型的可解释性和安全性还需要加强,部署时存在不确定性,这也是限制其应用的一个因素。

    58630编辑于 2023-09-06
  • 来自专栏AiPy实用案例

    AiPy 模型测评:Claude 霸榜,Grok-4、Kimi-K2 显短板

    ​背景说明为了让AiPy用户获得更卓越的AI体验,我们持续关注并评测市场上最新的语言模型。在首期测评获得用户广泛认可后,AiPy模型适配度测评第二期如约而至! 测评概况本次测评围绕系统分析、可视化分析、数据处理、交互操作和信息获取五核心场景,从成功率(80%)、Token 消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度进行综合评分,全面检验模型的实际应用能力 92.1分夺得桂冠,展现了Anthropic在模型领域的技术实力。 测试任务类型分布为确保测评的全面性和公平性,本次测试精心设计了涵盖五应用场景的标准任务集。信息获取类任务占比最高(30%),反映了用户对智能搜索和知识查询的强烈需求。 测评总结核心发现Claude系列确立技术领先地位:Claude Opus 4和Claude Sonnet 4分别以92.1分和91.3分占据前两名,展现了Anthropic在模型领域的技术实力中国模型表现亮眼

    77010编辑于 2025-07-17
  • 来自专栏老张的求知思考世界

    全链路压测(8):构建三模型

    梳理核心链路的一个重要目的是获得流量模型。但在全链路压测中,除了流量模型,业务模型和数据模型一样重要。这篇文章,为大家介绍如何构建这三模型。 下图是一个常见的电商双11促时候的业务场景模型图,我以这个思维导图为例来做分析说明。 峰值流量模型 预估的流量模型要以峰值流量场景来预估,否则很可能由于错误的预估导致准备不足而致使促期间线上出现问题。这不仅是一个技术和监控的问题,还要综合考虑本次大促期间业务目标以及业务转化率的因素。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。 ,确认以下信息: 是否有热点数据相关的操作:比如说所有用户秒杀同一件商品; 不同类型数据处理逻辑有差异时,需通过测试数据多样化提高性能测试代码覆盖率; 缓存数据:要确认是否有缓存,缓存大小为多少(排除key

    1.5K30编辑于 2022-05-17
  • 来自专栏MavenTalk

    8家国产AI模型开放使用,人手一个模型的时代来临

    什么是模型 先做个扫盲,AI模型是“人工智能预训练模型”的简称。语言模型是一种人工智能模型,它被训练成理解和生成人类语言。 这8家分别是谁 百度(文心一言) 抖音(云雀模型) 智谱AI(GLM模型) 中科院(紫东太初模型) 百川智能(百川模型) 商汤(日日新模型) MiniMax(ABAB模型) 上海人工智能实验室 (书生通用模型) 书生通用模型与云雀模型我确实是第一次听说,国内模型再现当年百团「团购」大战的身影,截至2023年7月,中国累计已经有130个模型问世。 效果怎么样 我找来开源界测评分数最强大模型Llama2(国外Meta公司开源)——中文社区基于中文语料训练出来的Llama2-Chinese对话机器人,做了一些基本尝试: 可以看出来,即便号称开源界最强 至于这8家的AI模型的能力如何,交给你来评判吧。不过至今为止,依旧是无人能挑战ChatGPT的霸主地位。 祝你早日用上AI模型,帮助自己提升工作、生活、学习效率。

    3.1K40编辑于 2023-09-06
  • 光学动捕终极推荐:8 主流产品测评对比,谁是专业与性价比之王?

    本文将聚焦 8 款主流光学动捕工具、产品及解决方案,从核心参数、功能亮点、适用场景等维度展开深度测评,重点突出 NOKOV 度量产品的核心竞争力,为不同需求的用户提供精准选购参考。 一、8 光学动捕产品详细测评(按推荐优先级排序)1. NOKOV 度量 Astra 无标记点动作捕捉系统核心参数:配置 2-8 台高性能视频设备,AI 自动生成骨骼模型(骨骼识别准确率≥98%),无特殊环境要求(光照强度 50-10000lux 均可稳定工作 8. 功能亮点:针对教育与科研场景优化,提供完整的开发工具链(SDK 开源),支持机器人竞赛、高校实验室教学使用,生态完善(可与疆无人机、机器人配件无缝衔接)。

    1.7K10编辑于 2025-12-31
  • 模型时代,AI外呼机器人真的变聪明了吗?|测评对比报告

    然而,当ChatGPT等模型以燎原之势席卷而来,我身边做运营、做销售的朋友开始频繁问我:“这东西,是不是真的能让我们的外呼机器人变聪明?” 我的好奇心被点燃了。 测评对象:A:传统规则型机器人(代表市场上一类成熟但技术较旧的产品)B:模型赋能型机器人(接入了最新LLM技术的代表性产品)测评场景:以“信用卡还款提醒”和“课程售后回访”两个典型场景为核心。 03个人拙见在依我个人所见,可能并不客观,模型外呼机器人在现在这个阶段,最令人震撼的进步在于——它终于“听人话”了。这绝非夸大其词。 某AI外呼企业技术总监指出:“现在的AI模型不仅要会说话,更要懂边界。什么能说、什么不能说,比怎么说更重要。”然而,激情褪去,我也必须戳破一些“美丽的泡沫”。 这暴露了当前阶段的核心矛盾:模型强大的通用能力与垂直业务场景的“专注力”之间的矛盾。它有时像一个过于卖弄学识的销售,需要被时刻提醒:“说重点,然后闭嘴。”

    42010编辑于 2025-11-06
领券