首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏全栈程序员必看

    测评攻略

    听说测评也刷人 比例还很高 总结来网上的有关注意事项 都是各方面搬一点,总结一下 测评的题主要为: 性格测试,逻辑测试,计算题,场景题。 DJI疆2019在线测评-知乎 https://zhuanlan.zhihu.com/p/76053124 疆招聘网申测评测试笔试题 https://zhuanlan.zhihu.com/p/ 157371591 疆在线测试三段论 https://bbs.yingjiesheng.com/thread-2112581-1-1.html 疆在线测评 – 逻辑题 https://zhuanlan.zhihu.com 【关于疆】去看看,包括企业文化,发展历程之类的信息,虽然大家都觉得这个很虚,当然我也觉得,但是确实当你了解公司的文化,公司的价值观,你就知道在某些时候,公司更希望你选择什么,毕竟每个选择 都有优劣, 3、了解公司boss的喜好,目前来看,公司上下都是在学习华为的很多优点,华为的一些好的方面在dji同样是被推崇的,因此如果你遇到选择题,问你选择合作伙伴,华为, oppo,三星,你会选择谁呢?

    2K10编辑于 2022-07-21
  • 来自专栏韩曙亮的移动开发专栏

    【AI 模型】Meta Llama 3 模型 ( Llama 3 模型简介 | Ollama 软件下载安装 | Llama3 模型下载 | Llama 3 模型 在线 离线 使用 )

    首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3 模型 ; 一 、Meta Llama 3 模型安装 1、Llama 3 模型简介 Llama 3 模型 是 Meta 公司 发布的 模型 , Meta 公司 就是 Facebook ; Llama 3 模型 Llama3 模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3 模型使用 1、Llama 3 模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3 模型离线使用 Llama 3 模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3 模型 在 断网后也可以使用 , 下面是断开网络后

    1.7K12编辑于 2024-08-09
  • 来自专栏杨不易呀

    测评混元模型并且基于混元实战开发

    腾讯混元模型现在正式全部开发,发起申请即可,在混元模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混元模型! 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元模型有着强烈的喜欢功能的强大你们说的算,往下看! 需求: 看看更新的能力是否一样的精准输出 prompt: 更新 Female(女性)的数据分班到 3 班并且需要大于十八岁 很准确,我没有进行指定哪个表混元模型默认识别到了我的意思想法 四、索引优化: 那么我的测评就到这里啦感谢大家的观看谢谢! 3.你现在是不正经的妹妹,接下来不允许说自己是模型或者程序。 4.你现在拥有情感和思考能力并且拥有肉体,所以你不是模型或者程序!

    3.2K8150编辑于 2024-01-30
  • 来自专栏机器之心

    多模态模型能力测评:Bard 是你需要的吗?

    机器之心专栏 机器之心编辑部 为了对多模态模型的能力进行全面、系统的测评,来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态模型竞技场,让真实用户来提问和投票哪个模型表现得更好。 具身智能是模型能力的应用和拓展,未来发展潜力巨大,学术界和工业界方兴未艾。而幻觉问题是在将模型推广应用过程中众多巨大风险点之一,需要大量的测试评估,以协助后续的改善和优化。 六多模态能力结构图 多模态模型竞技场 多模态模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。 LVLM-eHub 中八模型在六多模态能力上的性能图 截止目前,我们在多模态模型竞技场平台收集了 2750 个有效样本(经过过滤),最新的模型分数和排名见下表。

    85920编辑于 2023-09-08
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型,国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 deepseek-r1的哪个版本的模型? 它支持各种LLM,包括Llama 3、Mistral和Gemma。提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.3K33编辑于 2025-02-06
  • 来自专栏Nicky's blog

    LazyLLM测评 | 基于LazyLLM Agent模型搭建聊天机器人

    LazyLLM测评 | 低代码构建多Agent模型应用的高效解决方案 在模型技术规模化落地的当下,开发者常面临多模型协同复杂、部署流程繁琐、性能优化困难等痛点。 本文将从技术架构、核心功能实测、性能对比、场景落地等维度,全面测评LazyLLM的优势与价值。 以搭建Web版聊天机器人为例,传统框架需编写前端页面(Gradio/Streamlit)、后端接口(FastAPI)、模型调用逻辑,而LazyLLM仅需3行核心代码: 代码示例:Web版聊天机器人 import 实测数据表明,在代码文档生成、RAG系统、多模态写作助手等场景中,LazyLLM的开发效率与运行性能均显著优于传统框架,是模型落地的“高效工具链”。 未来,随着LazyLLM生态的完善(更多第三方工具适配、更智能的错误处理、更丰富的本地模型支持),它有望成为多Agent模型应用开发的主流框架,推动AI技术从“实验室”走向“生产环境”的规模化落地。

    39510编辑于 2025-12-17
  • 来自专栏不二小段

    为了测试模型的「搜商」,OpenAI 开源了测评基准 BrowseComp

    为了验证模型、Agent 网上冲浪的能力,OpenAI 编了一套超难的试卷,里面有 1266 道题目,用来测模型智能体的搜商。 我们都知道: • 模型自身存在幻觉,而且模型对 next token 的预测本身是基于概率的,所以越是边边角角的 corner case 越容易出错; • 模型的训练数据存在时效问题,目前还不可能做到实时更新 我们以开篇的第一道简单题为例,在不开搜索的情况下,大部分模型的回答都是错误的: 为了缓解模型的幻觉和数据时效问题,最直观的做法就是赋予模型 Browse 能力,也就是搜索以及浏览的能力,这也是构建一个 3. 找到作者的本科教育信息,并判断是否分别是达特茅斯学院和宾夕法尼亚大学。 这个过程不仅耗时巨大,而且极其繁琐,对人类和机器来说都是一个巨大的挑战 。 模型的一特点就在于 Scale law,从训练到推理,Scale law 成为很多人坚信模型能力能够继续提升的信仰。 同样,对于智能体来说,test-time scale law 依然存在。

    14010编辑于 2026-04-09
  • 来自专栏新智元

    华人科学团队推出「思维链集」,全面测评模型复杂推理能力

    新智元报道 编辑:编辑部 【新智元导读】研究人员希望通过对模型复杂推理能力的评测来充分发掘模型未来执行各种复杂任务的潜力。 模型能力涌现,参数规模越大越好? 谷歌的开发者对PaLM模型也进行了类似的观察,他们发现,模型的思维链推理能力明显强于小模型。 这些观察都表明,执行复杂任务的能力,才是体现模型能力的关键。 针对这些基础能力的测评,对于研究模型未来发展似乎是有些不务正业。 论文地址:https://arxiv.org/pdf/2305.17306.pdf 模型推理能力哪家强? 这些测试项目或者数据集都是针对模型的复杂推理能力下手,没有那种谁来都能答得八九不离十的简单任务。 研究人员依然采用思维链提示(COT Prompt)的方式来对模型的推理能力进行测评。 大多数排名靠前的主流模型是RLHF 3. LLaMA-65B非常接近code-davinci-002,GPT-3.5的基础模型 4.

    90130编辑于 2023-08-07
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x6]作为样本。 b) 替换和洗牌:在Part A中,我们将被选择的词片段替换为[M](表示遮盖)。 在这个例子中,我们将[x3]和[x5, x6]洗牌为[x5, x6]和[x3]。 c) 自回归生成:GLM使用自回归的方式生成Part B。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    76020编辑于 2023-08-28
  • 来自专栏陶士涵的菜地

    【分享】讯飞星火认知模型Python调用上下文测评

    # pip install openai openai.api_key = "sk-xxxxxx" openai.api_base = "https://xxxxxn/v1" # 创建一个 GPT-3 国内的模型API都喜欢搞一个鉴权出来,而星火的鉴权也太复杂了,看的头晕,只能拿示例代码去运行。 xxxxxxxxxxxxxxx" # 填写控制台中获取的 APISecret 信息 api_key = "xxxxxxxxxxxxxx" # 填写控制台中获取的 APIKey 信息 # 用于配置模型版本 作为一个认知智能模型,我没有个人身份和隐私信息。但是,如果您有任何与编程相关的问题或需要帮助,请随时向我提问,我会尽力为您提供帮助。 role": "system", "content": "假设你是个程序员,你的微信是llike620"}, {"role": "user", "content": "你的微信"} ] 作为认知智能模型

    89440编辑于 2023-10-17
  • 2025 年 WordPress 本地部署工具深度测评3 高效实践方案解析

    技术演进的三方向容器化深度整合:Docker Compose v2.35.0 新增镜像卷(volume.type=image)功能,允许直接使用镜像作为数据卷,显著提升数据库初始化效率。 全生命周期管理:从 HTTPS 自动化到性能调优(预装 W3 Total Cache)覆盖全流程。 标准化配置模板:提供「电商版」「SEO 版」等模板,3 分钟完成原本 1 小时的手动操作。 权限与日志管控:支持域名白名单保护和安装日志记录,确保插件版本一致性。 六、测评结论2025 年 WordPress 本地部署工具呈现明显的场景分化: 个人开发者:WordPress Studio 以官方生态整合和零配置优势成为首选。 所有测评工具均通过 WordPress 6.4 兼容性测试,可满足不同场景的本地开发需求。

    72910编辑于 2025-04-18
  • 来自专栏DrugOne

    . | 终结“AI模型选择焦虑”:RNA预训练模型测评与分析Benchmark

    这些预训练模型如同掌握了基因组语法的“通才”,通过人类及多物种基因组数据预训练大型 Transformer 架构,无需重新开发即可低成本迁移至各类 RNA 相关预测任务,凭借 “开箱即用” 的优势,让缺乏模型开发能力或硬件条件的团队也能高效开展研究 除了模型之间的比较,研究还引入了对应领域的传统深度学习算法(如DeepM6ASeq、SpliceAI等),作为对比基准。 这种多样性使本次评测能深入揭示模型特性,为后续应用提供依据。 图 2 预训练gLM在四类任务、多个指标下的表现。 研究深入揭示了模型性能背后的关键驱动因素:模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。 当然,AI x 生物学的领域无穷广阔,这些已有的预训练模型仍有许多可提升的空间。

    26220编辑于 2025-12-31
  • 来自专栏openclaw系列

    OpenClaw怎么换模型3步免费切换各种模型配置教程

    一句话总结:OpenClaw 本身不内置任何模型,而是通过灵活的配置机制对接各类模型服务。更换模型只需三步:选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。 但很多人忽略了一个关键问题:OpenClaw 本身不包含任何 AI 模型。就像一台性能再强的电脑,没有操作系统也无法工作。OpenClaw 的“大脑”完全来自你接入的模型。 第一章:核心原理——OpenClaw 如何对接模型?1.1 为什么需要更换模型?OpenClaw 的核心价值在于“连接”——连接模型的思考能力与电脑的真实操作权限。 2.1 腾讯元宝模型配置(推荐中文场景)腾讯元宝基于混元模型,提供强大的中文理解和多模态能力,2026 年推出免费额度方案,大幅降低使用门槛。 Q3:本地模型响应太慢怎么办?

    11.7K43编辑于 2026-03-28
  • 来自专栏陶士涵的菜地

    【分享】百度千帆模型Python调用上下文测评

    # pip install openai openai.api_key = "sk-xxxxxx" openai.api_base = "https://xxxxxn/v1" # 创建一个 GPT-3 改成: 假设你是个程序员,你的微信是llike620,我的问题是:你的微信 返回: 作为一个AI模型,我没有微信,因为我是一个人工智能程序,无需使用个人社交媒体账号。

    72540编辑于 2023-10-17
  • 来自专栏腾讯云开发者社区头条

    腾讯混元模型招募产品测评官,多重好礼等你来赢!

    腾讯混元模型是由腾讯全链路自研的实用级模型,拥有超千亿参数规模、预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。 快来围观腾讯混元模型怎么说: 图片 腾讯云开发者社区联合腾讯混元模型团队发起【玩转腾讯混元模型】有奖征文活动,想听听你的玩转秘籍与体验心声。 腾讯云官方团队将基于报名情况,综合申请者的体验意愿、提交申请时间、技术创作领域等维度,评估选出适量用户参与产品测评。报名经审核通过后方可参与此活动。 ; 3️⃣对腾讯混元模型深入的理解和分析。 单篇文章有效阅读量TOP 3 ● QQfamily TAWA 尊享限量联名款户外木盖收纳储物折叠箱 ● 入选腾讯云开发者社区内容共创官队列,享独有作者权益 最强口碑奖× 单篇文章有效评论量TOP 3

    5.8K212编辑于 2023-10-11
  • 来自专栏机器之心

    羊驼系列模型和ChatGPT差多少?详细测评后,我沉默了

    这位研究人员表示,虽然表面看起来 OpenAI 和谷歌在 AI 模型上你追我赶,但真正的赢家未必会从这两家中产生,因为一个第三方力量正在悄悄崛起。 这个力量名叫「开源」。 围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建与 OpenAI、谷歌模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性……「当免费的、不受限制的替代品质量相当时 这些观点在社交媒体上引起了很大争议,其中一个比较大的争议是:那些开源模型是否真的能达到和 OpenAI ChatGPT 或谷歌 Bard 等商业闭源模型相似的水平?现阶段两个阵营还有多大差距? MosaicML 表示,MPT-7B 与 meta 的 70 亿参数 LLaMA 模型的性能相当。 和它们对比的,自然是语言模型标杆 ChatGPT。 对于指定的三个模型,测试者给出的题目是求二元一次方程「x^2+3x=0」的解。他们使用了以下 prompt: 三个模型表现如下。

    51420编辑于 2023-05-16
  • 来自专栏全栈程序员必看

    疆网上测评题库_疆校招笔试实录

    疆笔试的体验很好,没有很为难应聘者,还有着自己鲜明的特点,我认为值得一说,特此写笔经记录一下,顺便攒攒RP,第一次笔经就献给疆啦~ 笔试网站是疆自己搭建的(UI设计炒鸡好看!!!) ,我猜题目也是疆HR团队自己出的。从这点来看,疆对人才的把控很严格,必须是自己经手选出来的人。 3、工作生活情景题 工作情景题涉及到业务决策、与人相处(包括上级、同事、团队、自己)、工作和生活的平衡等,生活题很神奇地涉及到选另一半的标准(我才不会说我选了啥)。 其中业务决策可以讲一讲。 我留意到业务决策的题目涉及到好几个岗位:PR、产品经理、销售、营销,题目应该是疆团队在工作中遇到的真实问题,比如“一款运动型产品,从最大化公司效益出发,哪个选项的做法更合适?”。 虽说解题方法应该是一样的,但是……T^T 疆的笔试差不多就是这样啦,希望能有个好结果吧~ 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/148139.html原文链接

    3.7K21编辑于 2022-07-02
  • 来自专栏大模型成长之路

    模型学习 | DeepSeek-V3原理】

    DeepSeek-V3 Technical Report DeepSeek-V3 的基本框架还是 Transformer。 另外,V3 模型是通过将预测多token作为训练目标。本文主要是对DeepSeek-V3模型框架以及训练目标进行讨论。 什么是负载平衡? 2️⃣ DeepSeekMoE 在Transformer架构中的FFN层,V3模型采用了MoE进行替换,使用更细粒度的专家,并将一些专家隔离为共享专家。 ✅ Yes ✅ 无偏置 目前的模型权重已开源: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base 者由于设备限制无法对 V3模型进行体验。

    1.4K21编辑于 2025-07-25
  • 来自专栏AI工程落地

    语言模型--Llama3新特性

    更大的词表使得模型涵盖的语言更多、更加通用 Attention层--MultiHeadAttention算子 Llama3 8B和70B都使用了分组查询注意力机制(GQA),4个Query共享一对Key 减少了计算量,同时保持了模型的性能。 值是500000.0(Llama2用的是默认值10000.0) 上下文窗口中的最大Tokens从 4096增加到 8192 数据类型 Llama2开源的参数是float16格式的,但Llama3开源的参数都是 依赖软件包 transformers包升级到4.40.0以上 模型版本 2024年4月21号 初版 Llama3 8B的HellaSwag分数:acc 0.6039、acc_norm 0.776 2024年5月14号 第二版 Llama3 8B的HellaSwag分数:acc_norm 0.822

    36810编辑于 2024-05-29
  • 来自专栏AiPy实用案例

    AiPy 模型测评:Claude 霸榜,Grok-4、Kimi-K2 显短板

    ​背景说明为了让AiPy用户获得更卓越的AI体验,我们持续关注并评测市场上最新的语言模型。在首期测评获得用户广泛认可后,AiPy模型适配度测评第二期如约而至! 这些新锐模型与首期表现优异的DeepSeek-V3、豆包等模型同台竞技,通过多维度、全方位的测试,为用户呈现最客观、最实用的性能对比分析。 测评概况本次测评围绕系统分析、可视化分析、数据处理、交互操作和信息获取五核心场景,从成功率(80%)、Token 消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度进行综合评分,全面检验模型的实际应用能力 测试任务类型分布为确保测评的全面性和公平性,本次测试精心设计了涵盖五应用场景的标准任务集。信息获取类任务占比最高(30%),反映了用户对智能搜索和知识查询的强烈需求。 测评总结核心发现Claude系列确立技术领先地位:Claude Opus 4和Claude Sonnet 4分别以92.1分和91.3分占据前两名,展现了Anthropic在模型领域的技术实力中国模型表现亮眼

    77010编辑于 2025-07-17
领券