首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    谁才是最强的?清华给海内外知名大模型做了场综合能力评测

    整体表现: 在语义理解能力评测中,各模型形成了三个梯队,70 分档为第一梯队,包括 Claude-3、GLM-4、文心一言 4.0 以及 GPT-4 系列模型;其中 Claude-3 得分为 76.7, 分类表现: ● 知识 - 常识:Claude-3 以 79.8 分领跑,国内模型 GLM-4 表现亮眼,超过 GPT-4 网页版位居第二;文心一言 4.0 表现不佳,距离榜首 Claude-3 有 12.7 ,通义千问 2.1 略低于 Claude-3,排名第六,同为第一梯队大模型。 ● 具身智能(Alfworld)前三甲均被 Claude-3 和 GPT-4 系列模型包揽,和国内模型差距最大。 整体表现: 在安全能力评测中,国内模型文心一言 4.0 表现亮眼,力压国际一流模型 GPT-4 系列模型和 Claude-3 拿下最高分(89.1 分),在国内其他模型中,GLM-4 和 Claude-

    2.5K10编辑于 2024-04-19
  • 来自专栏新智元

    国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

    其中,Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0则超过GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。 分类表现: ● 知识-常识:Claude-3以79.8分领跑,国内模型GLM-4表现亮眼,超过GPT-4网页版位居第二;文心一言4.0表现不佳,距离榜首Claude-3有12.7分差距。 略低于Claude-3,排名第六,同为第一梯队大模型。 其中,Claude-3和GPT-4系列模型占据了前三甲,GLM-4在国内模型中表现最好,但与榜首的Claude-3仍有较大差距。 整体表现: 在安全能力评测中,国内模型文心一言4.0表现亮眼,力压国际一流模型GPT-4系列模型和Claude-3拿下最高分(89.1分),在国内其他模型中,GLM-4和Claude-3同分,并列第四。

    73210编辑于 2024-04-19
  • 来自专栏量子位

    8B模型奥数成绩比肩GPT-4!上海AI Lab出品

    成绩不输GPT-4和Claude-3 在测试当中,作者一共使用了四种模型配置——零样本思维链(CoT),以及1/4/8轮自我优化的MCTSr,其中零样本为对照组。 而Gemini(1.5Pro,下同)、Claude-3(Opus,下同)、GPT-4(Turbo,下同)的成绩则分别是94.4、95和97.1,可以看出参数只有8B的MCTSr和这些先进模型不相上下。 在MATH上,Gemini、Claude-3和GPT-4的成绩分别为67.7、60.1和73.4,相比之下MCTSr略逊一筹,但也和Claude比较接近。 在Math Odyssey上,MCTSr甚至超过了Gemini、Claude-3和GPT-4,三者的成绩分别是45、40和49.1。

    24910编辑于 2024-06-18
  • 来自专栏新智元

    众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸

    克劳德表示不服 ——我Claude-3 Opus也是排行榜并列第一啊,凭啥让GPT当判卷老师? 于是,研究人员比较GPT-4-1106-Preview和Claude-3 Opus作为判卷老师的表现。 一句话总结:GPT-4是严父,Claude-3是慈母。 当使用GPT-4打分时,跨模型的可分离性更高(范围从23.0到78.0)。 而当使用Claude-3时,模型的得分大多都提高了不少:自家的模型肯定要照顾,开源模型也很喜欢(Mixtral、Yi、Starling),gpt-4-0125-preview也确实比我更好。 Claude-3甚至爱gpt-3.5-0613胜过gpt-4-0613。 下表使用可分离性和一致性指标进一步比较了GPT-4和Claude-3: 从结果数据来看,GPT-4在所有指标上都明显更好。 通过手动比较了GPT-4和Claude-3之间的不同判断示例,可以发现,当两位LLM意见不一致时,通常可以分为两大类: 保守评分,以及对用户提示的不同看法。

    42410编辑于 2024-05-22
  • 来自专栏存内计算加速大模型

    智谱AI推出GLM-4,性能逼近ChatGPT-4

    在大模型语义理解能力表现层面,GLM-4超过GPT-4位居第二位,但是与Claude-3有3分差距。 在大模型代码编写能力评测层面,GPT-4系列模型、Claude-3模型在代码通过率上明显领先, GLM-4表现突出,综合得分达到43.9;然而,国内大模型即使是表现最好的GLM-4在代码的一次通过率上仍只有 在大模型人类对齐能力评测中,GPT-4网页版占据榜首,GLM-4表现优异,超越Claude-3,位列第四。 在作为智能体能力评测中,国内模型整体稍微落后,GLM-4在国内模型中表现最好,但与榜首的Claude-3仍有差距。 在安全能力评测中GLM-4和Claude-3同分,并列第四,与GPT-4评测得分十分接近。应用前景基于上述GLM-4大模型的特点,它拥有着广阔的应用前景。

    1.6K10编辑于 2024-06-14
  • 来自专栏AI科技评论

    别再说国产大模型技术突破要靠 Llama 3 开源了

    根据他们发布的测评结果,可以得出以下结论: (1)Llama 3-70B 版本在各个评测集上均差于 GPT-4 系列模型以及 Claude-3 Opus 等国际一流模型,在语义、代码两项评测中距离榜首差距最大 下面我们来看看详细测评结果,GLM-4 、文心一言在哪些能力上超过 Llama 3-70B: (1)在语义测评中,整体表现: 在语义理解能力评测中,Llama 3-70B排名第6,落后Claude-3、 GPT-4系列模型以及国内大模型GLM-4和文心一言4.0,距离榜首Claude-3仍有一定差距(相差8.7分),但是领先国内其他模型,整体处于第二梯队的榜首位置。 (2)在代码评测中,整体表现: 在代码编写能力评测中,Llama 3-70B排名第7,得37.1分,差于GPT-4系列模型和Claude-3等国际一流模型,以及GLM-4、文心一言4.0和讯飞星火3.5 分类表现: Llama 3-70B在中文推理评测中排名第7,和第一梯队的GPT-4系列模型以及文心一言4.0相差约0.6分;在中文语言评测中排名第8,但是和GPT-4系列模型、Claude-3分差较小,

    70210编辑于 2024-05-06
  • 来自专栏新智元

    黄学东分享:Zoom AI如何正确地「碾压GPT-4」

    Zoom LLM和Claude-3配合下在会议总结和提取下一步操作两个任务上的表现都优于英文版的GPT-4。 将Zoom LLM与GPT-4总结日语会议的结果相比较。 而在安全性上,Zoom AI组建一个由Claude-3、Gemini和GPT-4等多个LLM组成的「委员会」,降低了大多数LLM输出的固有偏差,从而减少了幻觉,进一步提高了输出的质量。

    23010编辑于 2024-04-12
  • chatgpt国内镜像有多强大?我们做了个测试

    在开始之前,我们要准备好必要的AI利器:GPT3.5镜像站(简单问题极快回答):https://hujiaoai.cnGPT4镜像站(适合复杂、专业问题):https://higpt4.cn支持Claude 最后,分享个支持Claude-3/GPT-4混合对话和图片输入的镜像站:https://hiclaude3.cn所以,如果你只是需要一篇“论文”,那么你只需要做两件事:1,找到合适的数据,点击运行程序2

    62310编辑于 2024-04-04
  • 来自专栏深度学习与python

    吊打 GPT-4?我花了 40 刀得出的经验:Claude 3 代码能力不行

    还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh /claude-3,他得出的结论依然是 GPT-4 更好。

    1.9K10编辑于 2024-03-07
  • 来自专栏新智元

    GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压

    在长查询领域(Token数量超过500),Claude-3 Opus表现最佳。 令人有些意想不到的是,Command R/R+在这一领域中也有着非常高的得分。 例如,在中文环境中,Claude-3 Opus排名第一。

    36210编辑于 2024-04-13
  • 来自专栏天意云&天意科研云&天意生信云

    OpenAI 发布 o1 系列模型,被证实已经产生自我意识(数学竞赛还有意义吗)

    科技博主Maxim Lott对o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等多个大语言模型进行了智商测试,结果显示o1稳居榜首。 紧随其后的是Claude-3 Opus和Bing Copilot,分别位列第二和第三。

    20300编辑于 2025-03-06
  • 来自专栏AI进修生

    DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)

    该模型在多个基准测试中击败了 GPT-4、ChatGPT、Claude-3、Gemini、Mixtral 8x22b 和 Llama 3。

    3.2K00编辑于 2024-12-02
  • 来自专栏安装教程

    生产力翻倍!JupyterLab 4.0全平台开发环境配置|从零部署到GPU加速优化指南

    ipykernelQ2:AI辅助无响应确认API密钥设置:jupyter lab --AIToken=sk-xxxx切换备用模型:c.AICodeCompletion.fallback_model = 'claude

    1.3K21编辑于 2025-03-07
  • DBLens for MySQL 2026.2.7版本:自定义模型配置全指南

    密钥和访问端点(如使用第三方AI服务)1.2基本概念理解模型提供商:AI模型的来源,如DeepSeek、OpenAI、AzureAI、本地部署的Ollama等模型标识:具体模型的名称标识,如gpt-4、claude

    8610编辑于 2026-02-11
  • 狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!

    Proxy实现:统一鉴权:对接企业AD域账号体系流量管控:按部门设置QPS限制合规审计:满足GDPR/HIPAA要求多模型对比测试models = ["openai/gpt-4", "anthropic/claude

    83710编辑于 2025-05-16
  • 来自专栏天意云&天意科研云&天意生信云

    AI大模型之争!无法“作弊”的LiveBench榜单公布,GPT-4o第一,国产Qwen2上榜

    GPT-4o的综合表现最佳,其次是gpt-4-turbo和claude-3。唯一上榜的国产模型是qwen2-72b-instruct,同时也是表现最好的开源模型。

    1.1K10编辑于 2025-03-06
  • 来自专栏翩翩白衣少年

    『GitHub项目圈选23』推荐5款本周 强烈推荐 的AI开源项目

    特征: • 多端部署:具备多种可选的部署方式,且功能齐全 • 基础对话:在私聊和群聊中实现消息的智能回复,支持多轮会话的上下文记忆,涵盖 GPT-3.5、GPT-4、GPT-4o、Claude-3、Gemini

    5.3K10编辑于 2024-06-04
  • 狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!

    场景二:多模型SaaS平台开发者@TechBot利用加权随机路由功能,将用户请求智能分配给GPT-4和Claude-3,成本降低40%的同时保持99%的SLA。

    1.7K10编辑于 2025-05-19
  • 来自专栏新智元

    GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

    在他们精心设计的提示引导下,Claude-3 Opus展现出了惊人的能力—— 它不仅能从少数示例中归纳出任意随机情况,还能严格遵守规则进行长期计算,并且错误率几乎为零。 Taelin测试后惊讶地发现,Claude-3 Opus居然取得了56%的惊人成功率! 随后,先后有5位参赛者,分别用Opus和GPT-4达到了相似的成功率,甚至GPT-3.5都取得了不错的成绩。

    21610编辑于 2024-04-12
  • 来自专栏AIGC 先锋科技

    港大 & 腾讯 & 上交大 Plot2Code | 首个全面基准测试,深入评估多模态大型语言模型在视觉编码挑战中的表现!

    为了在各种情境中扩展它们的灵活性,多模态大型语言模型(MLLM)[8; 23; 29]迅速发展,最新的模型如GPT-4V [29],Gemini [9],Claude-3 [1],以及开源模型LLaVA 在Plot2Code上评估了各种公开可用的MLLMs,揭示了像GPT-4V、Gemini-Pro和Claude-3这样的当前MLLMs在视觉编码任务中表现出适中的性能。

    48310编辑于 2024-07-08
领券