首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏全栈程序员必看

    测评攻略

    听说测评也刷人 比例还很高 总结来网上的有关注意事项 都是各方面搬一点,总结一下 测评的题主要为: 性格测试,逻辑测试,计算题,场景题。 DJI疆2019在线测评-知乎 https://zhuanlan.zhihu.com/p/76053124 疆招聘网申测评测试笔试题 https://zhuanlan.zhihu.com/p/ 157371591 疆在线测试三段论 https://bbs.yingjiesheng.com/thread-2112581-1-1.html 疆在线测评 – 逻辑题 https://zhuanlan.zhihu.com 114710374_454120 主观题定要结合公司的文化,价值观,愿景和使命来答 1、 dji注重的是把产品做好,把事情做好,并努力做到极致,所以在你们的场景题中也是要带着这样想法去做题,去思考 2、去疆招聘官网的顶部菜单栏选择 【关于疆】去看看,包括企业文化,发展历程之类的信息,虽然大家都觉得这个很虚,当然我也觉得,但是确实当你了解公司的文化,公司的价值观,你就知道在某些时候,公司更希望你选择什么,毕竟每个选择 都有优劣,

    2K10编辑于 2022-07-21
  • 来自专栏杨不易呀

    测评混元模型并且基于混元实战开发

    腾讯混元模型现在正式全部开发,发起申请即可,在混元模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混元模型! 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元模型有着强烈的喜欢功能的强大你们说的算,往下看! 混元模型对话页面 体验代码能力 我这里列举了不同的代码需求看看混元模型提升了百分之二十的强悍之处!!!! 混元模型内置了灵感模块其中: 一共有 11 种分别是赛博朋克风格、日漫动画风格、梵高风格、扁平插画风格、像素插画风格、马赛克风格、粘土手办风格、油画风格、黑白漫画风格、动画风格、乐高风格 可以说是非常的多了 那么我的测评就到这里啦感谢大家的观看谢谢!

    3.2K8150编辑于 2024-01-30
  • 来自专栏机器之心

    多模态模型能力测评:Bard 是你需要的吗?

    机器之心专栏 机器之心编辑部 为了对多模态模型的能力进行全面、系统的测评,来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态模型竞技场,让真实用户来提问和投票哪个模型表现得更好。 具身智能是模型能力的应用和拓展,未来发展潜力巨大,学术界和工业界方兴未艾。而幻觉问题是在将模型推广应用过程中众多巨大风险点之一,需要大量的测试评估,以协助后续的改善和优化。 六多模态能力结构图 多模态模型竞技场 多模态模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。 LVLM-eHub 中八模型在六多模态能力上的性能图 截止目前,我们在多模态模型竞技场平台收集了 2750 个有效样本(经过过滤),最新的模型分数和排名见下表。

    85920编辑于 2023-09-08
  • 来自专栏Nicky's blog

    LazyLLM测评 | 基于LazyLLM Agent模型搭建聊天机器人

    LazyLLM测评 | 低代码构建多Agent模型应用的高效解决方案 在模型技术规模化落地的当下,开发者常面临多模型协同复杂、部署流程繁琐、性能优化困难等痛点。 本文将从技术架构、核心功能实测、性能对比、场景落地等维度,全面测评LazyLLM的优势与价值。 5.2 待优化点 本地模型支持有限:目前对小众本地模型(如Qwen-2-1.5B)的适配需手动修改配置,缺乏自动适配能力。 实测数据表明,在代码文档生成、RAG系统、多模态写作助手等场景中,LazyLLM的开发效率与运行性能均显著优于传统框架,是模型落地的“高效工具链”。 未来,随着LazyLLM生态的完善(更多第三方工具适配、更智能的错误处理、更丰富的本地模型支持),它有望成为多Agent模型应用开发的主流框架,推动AI技术从“实验室”走向“生产环境”的规模化落地。

    39510编辑于 2025-12-17
  • 来自专栏不二小段

    为了测试模型的「搜商」,OpenAI 开源了测评基准 BrowseComp

    为了验证模型、Agent 网上冲浪的能力,OpenAI 编了一套超难的试卷,里面有 1266 道题目,用来测模型智能体的搜商。 我们都知道: • 模型自身存在幻觉,而且模型对 next token 的预测本身是基于概率的,所以越是边边角角的 corner case 越容易出错; • 模型的训练数据存在时效问题,目前还不可能做到实时更新 我们以开篇的第一道简单题为例,在不开搜索的情况下,大部分模型的回答都是错误的: 为了缓解模型的幻觉和数据时效问题,最直观的做法就是赋予模型 Browse 能力,也就是搜索以及浏览的能力,这也是构建一个 因为互联网的信息极为繁杂,你搜索任何组合的关键词,都可能得到数以万计的页面,内容和信息远远超出了模型的上下文窗口。 模型的一特点就在于 Scale law,从训练到推理,Scale law 成为很多人坚信模型能力能够继续提升的信仰。 同样,对于智能体来说,test-time scale law 依然存在。

    14010编辑于 2026-04-09
  • 来自专栏大模型应用

    模型应用:模型的词元化处理详解:BPE、WordPiece、Unigram.11

    引言 词元化(Tokenization)是模型预处理的核心步骤,将连续文本切分为模型可理解的最小语义单元(Token),这些词元可以是单词、子词或字符。 11. 对新文本进行分词(使用最长匹配策略)。注意:在WordPiece中,通常使用一个语言模型来评估合并后的似然变化,但这里我们使用对数似然增益的公式作为合并标准。6. 生成候选Token(例如所有单字、双字、多字组合,或者通过其他方式生成一个词表)3. 构建初始词表4. 训练Unigram语言模型(即计算每个词元的概率)5. 删除困惑度上升最小的词元(即对模型影响最小的词元)8. 更新词表,并重新计算每个词元的概率(重新训练语言模型)9. 重复步骤5-8直到词表大小达标10. 生成最终词表11. 六、总结 词元化是模型理解文本的基础预处理步骤,核心是将中文文本切分为有语义的最小单元(Token)。

    58233编辑于 2026-02-08
  • 来自专栏新智元

    华人科学团队推出「思维链集」,全面测评模型复杂推理能力

    新智元报道 编辑:编辑部 【新智元导读】研究人员希望通过对模型复杂推理能力的评测来充分发掘模型未来执行各种复杂任务的潜力。 模型能力涌现,参数规模越大越好? 谷歌的开发者对PaLM模型也进行了类似的观察,他们发现,模型的思维链推理能力明显强于小模型。 这些观察都表明,执行复杂任务的能力,才是体现模型能力的关键。 针对这些基础能力的测评,对于研究模型未来发展似乎是有些不务正业。 论文地址:https://arxiv.org/pdf/2305.17306.pdf 模型推理能力哪家强? 这些测试项目或者数据集都是针对模型的复杂推理能力下手,没有那种谁来都能答得八九不离十的简单任务。 研究人员依然采用思维链提示(COT Prompt)的方式来对模型的推理能力进行测评。 FlanT5 11B和LLaMA 7B等较小的模型掉队掉的厉害。 通过实验,研究人员发现,模型性能通常与规模相关,大致呈对数线性趋势。 不公开参数规模的模型,通常比公开规模信息的模型表现更好。

    90230编辑于 2023-08-07
  • 来自专栏陶士涵的菜地

    【分享】讯飞星火认知模型Python调用上下文测评

    讯飞星火大模型 有两个版本v1.5 和 v2.0 提供的接口是websocket形式的,这个就不容易在后端进行调用了,因为不可能让后端实时保持一个websocet链接的,只能是请求响应的格式,响应结束就关闭 国内的模型API都喜欢搞一个鉴权出来,而星火的鉴权也太复杂了,看的头晕,只能拿示例代码去运行。 xxxxxxxxxxxxxxx" # 填写控制台中获取的 APISecret 信息 api_key = "xxxxxxxxxxxxxx" # 填写控制台中获取的 APIKey 信息 # 用于配置模型版本 作为一个认知智能模型,我没有个人身份和隐私信息。但是,如果您有任何与编程相关的问题或需要帮助,请随时向我提问,我会尽力为您提供帮助。 role": "system", "content": "假设你是个程序员,你的微信是llike620"}, {"role": "user", "content": "你的微信"} ] 作为认知智能模型

    89440编辑于 2023-10-17
  • 来自专栏DrugOne

    . | 终结“AI模型选择焦虑”:RNA预训练模型测评与分析Benchmark

    这些预训练模型如同掌握了基因组语法的“通才”,通过人类及多物种基因组数据预训练大型 Transformer 架构,无需重新开发即可低成本迁移至各类 RNA 相关预测任务,凭借 “开箱即用” 的优势,让缺乏模型开发能力或硬件条件的团队也能高效开展研究 除了模型之间的比较,研究还引入了对应领域的传统深度学习算法(如DeepM6ASeq、SpliceAI等),作为对比基准。 本研究系统整合了11种主流预训练基因组语言模型(gLMs)进行标准化评估,涵盖RNA-FM、SpliceBERT、DNABERT2等代表性架构(图1b)。 这种多样性使本次评测能深入揭示模型特性,为后续应用提供依据。 图 2 预训练gLM在四类任务、多个指标下的表现。 当然,AI x 生物学的领域无穷广阔,这些已有的预训练模型仍有许多可提升的空间。

    26220编辑于 2025-12-31
  • 来自专栏陶士涵的菜地

    【分享】百度千帆模型Python调用上下文测评

    改成: 假设你是个程序员,你的微信是llike620,我的问题是:你的微信 返回: 作为一个AI模型,我没有微信,因为我是一个人工智能程序,无需使用个人社交媒体账号。

    72540编辑于 2023-10-17
  • 来自专栏腾讯云开发者社区头条

    腾讯混元模型招募产品测评官,多重好礼等你来赢!

    腾讯混元模型是由腾讯全链路自研的实用级模型,拥有超千亿参数规模、预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。 快来围观腾讯混元模型怎么说: 图片 腾讯云开发者社区联合腾讯混元模型团队发起【玩转腾讯混元模型】有奖征文活动,想听听你的玩转秘籍与体验心声。 2023年10月10日-2023年11月15日期间,报名申请通过后,可开通体验腾讯混元模型: ☝️向混元团队提交产品使用体验反馈 ✌️投稿你的腾讯混元模型最佳实践文章 提交有效使用反馈,百分百可得鹅厂周边礼 腾讯云官方团队将基于报名情况,综合申请者的体验意愿、提交申请时间、技术创作领域等维度,评估选出适量用户参与产品测评。报名经审核通过后方可参与此活动。 7271764 腾讯混元模型初体验 VS Bard 与 ChatGPT4.0 潜龙作者奖 GoBoy 5421023 让AI为你打工,腾讯混元模型实战篇 潜龙作者奖 Nian糕 2893280 腾讯混元模型初体验

    5.8K212编辑于 2023-10-11
  • 来自专栏机器之心

    羊驼系列模型和ChatGPT差多少?详细测评后,我沉默了

    这位研究人员表示,虽然表面看起来 OpenAI 和谷歌在 AI 模型上你追我赶,但真正的赢家未必会从这两家中产生,因为一个第三方力量正在悄悄崛起。 这个力量名叫「开源」。 围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建与 OpenAI、谷歌模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性……「当免费的、不受限制的替代品质量相当时 这些观点在社交媒体上引起了很大争议,其中一个比较大的争议是:那些开源模型是否真的能达到和 OpenAI ChatGPT 或谷歌 Bard 等商业闭源模型相似的水平?现阶段两个阵营还有多大差距? MosaicML 表示,MPT-7B 与 meta 的 70 亿参数 LLaMA 模型的性能相当。 和它们对比的,自然是语言模型标杆 ChatGPT。 相反,如果使用一个开源模型,他们就可以更清楚地指导输出,迫使模型使用他们规定的结构。

    51420编辑于 2023-05-16
  • 来自专栏帅云霓的技术小屋

    模型与AI底层技术揭秘 (11) 变形记

    有一天,小H在吃完午饭回到办公室,旁边几位同学在打《王者荣耀》,并且在挑拨匹配到的一对情侣队友分手。

    35810编辑于 2023-11-27
  • 来自专栏全栈程序员必看

    疆网上测评题库_疆校招笔试实录

    疆笔试的体验很好,没有很为难应聘者,还有着自己鲜明的特点,我认为值得一说,特此写笔经记录一下,顺便攒攒RP,第一次笔经就献给疆啦~ 笔试网站是疆自己搭建的(UI设计炒鸡好看!!!) ,我猜题目也是疆HR团队自己出的。从这点来看,疆对人才的把控很严格,必须是自己经手选出来的人。 我留意到业务决策的题目涉及到好几个岗位:PR、产品经理、销售、营销,题目应该是疆团队在工作中遇到的真实问题,比如“一款运动型产品,从最大化公司效益出发,哪个选项的做法更合适?”。 虽说解题方法应该是一样的,但是……T^T 疆的笔试差不多就是这样啦,希望能有个好结果吧~ 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/148139.html原文链接

    3.7K21编辑于 2022-07-02
  • 来自专栏AiPy实用案例

    AiPy 模型测评:Claude 霸榜,Grok-4、Kimi-K2 显短板

    ​背景说明为了让AiPy用户获得更卓越的AI体验,我们持续关注并评测市场上最新的语言模型。在首期测评获得用户广泛认可后,AiPy模型适配度测评第二期如约而至! 测评概况本次测评围绕系统分析、可视化分析、数据处理、交互操作和信息获取五核心场景,从成功率(80%)、Token 消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度进行综合评分,全面检验模型的实际应用能力 92.1分夺得桂冠,展现了Anthropic在模型领域的技术实力。 测试任务类型分布为确保测评的全面性和公平性,本次测试精心设计了涵盖五应用场景的标准任务集。信息获取类任务占比最高(30%),反映了用户对智能搜索和知识查询的强烈需求。 测评总结核心发现Claude系列确立技术领先地位:Claude Opus 4和Claude Sonnet 4分别以92.1分和91.3分占据前两名,展现了Anthropic在模型领域的技术实力中国模型表现亮眼

    77010编辑于 2025-07-17
  • 来自专栏数据结构与算法

    11:整数减法

    11:整数减法 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 求两个大的正整数相减的差。 输入共2行,第1行是被减数a,第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11

    1.4K100发布于 2018-04-11
  • 模型时代,AI外呼机器人真的变聪明了吗?|测评对比报告

    然而,当ChatGPT等模型以燎原之势席卷而来,我身边做运营、做销售的朋友开始频繁问我:“这东西,是不是真的能让我们的外呼机器人变聪明?” 我的好奇心被点燃了。 测评对象:A:传统规则型机器人(代表市场上一类成熟但技术较旧的产品)B:模型赋能型机器人(接入了最新LLM技术的代表性产品)测评场景:以“信用卡还款提醒”和“课程售后回访”两个典型场景为核心。 03个人拙见在依我个人所见,可能并不客观,模型外呼机器人在现在这个阶段,最令人震撼的进步在于——它终于“听人话”了。这绝非夸大其词。 某AI外呼企业技术总监指出:“现在的AI模型不仅要会说话,更要懂边界。什么能说、什么不能说,比怎么说更重要。”然而,激情褪去,我也必须戳破一些“美丽的泡沫”。 这暴露了当前阶段的核心矛盾:模型强大的通用能力与垂直业务场景的“专注力”之间的矛盾。它有时像一个过于卖弄学识的销售,需要被时刻提醒:“说重点,然后闭嘴。”

    42010编辑于 2025-11-06
  • 来自专栏拓端tecdat

    MiniMax M2.5模型技术原理、性能测评与落地应用全解析|附教程

    基于此,我们以MiniMax M2.5为核心,完成了从技术原理拆解、多维度性能测评到全场景落地应用的全流程研究,为各类企业选择与部署模型提供了可直接复用的落地方案。 文章脉络流程图MiniMax M2.5模型概述语言模型的发展,已经从实验室里的技术突破,走向了企业生产场景的规模化落地。 深度适配的办公自动化能力为了满足企业办公场景的真实需求,研发团队联合金融、法律、社科等领域的资深专家,打造了完全贴合行业真实工作标准的训练数据,让模型能直接输出符合行业规范的文档、演示文稿、表格文件,在企业办公场景的专项测评中 扎耶德・阿勒纳哈扬(董事总经理)2010 年 4 月6.3%(20 年年化)26.4(2018 年)科威特投资局(KIA)科威特1.03 万亿美元谢赫・萨乌德・萨利姆・萨巴赫(董事总经理)2024 年 11 模型基准性能测评结果我们通过行业通用的权威基准测试,全面评估了MiniMax M2.5的核心业务性能,测试结果也直观展现了模型的真实实力。

    3.1K00编辑于 2026-03-05
  • 来自专栏新智元

    十二大模型,十六份榜单,全面测评「多模态语言模型

    新智元报道 编辑:LRS 【新智元导读】在私域数据、感知能力、简洁指令、定量统计方面比拼多模态语言模型。 多模态语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码 但一方面这些传统数据集可能难以反映MLLM涌现的新能力,另一方面由于模型时代的训练集都不再统一,因此难以保证这些评测数据集没有被其他MLLM训练过。 [9]、Multimodal-GPT [10]、InstructBLIP [11]、 VisualGLM-6B [12], PandaGPT [13], ImageBind-LLM [14] 和 LaVIN [11] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang

    1.3K20编辑于 2023-08-07
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    76301编辑于 2024-12-30
领券