首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏开源心路

    GLM-4 能力接近ChatGPT4和Claude 2.1

    本文以GLM-4 发布功能作为基准对比ChatGPT4,Claude-2测试。 输入测试用例是GLM-4提供,用专业性打败专业性才有趣! 以多模态理解,代码解释器,工具调用,逻辑推理方向测试。 逻辑推理 GLM-4 ChatGPT Claude-2 小结 ** 逻辑推理能力GLM-4、ChatGPT、Claude-2不分伯仲!** 工具调用 GLM-4 ChatGPT 小结 不相伯仲!

    79610编辑于 2024-01-19
  • 来自专栏人工智能

    【ReNeLLM】披着羊皮的狼--自动化生成越狱提示的系统

    非常有意思的名字,他们提出了一套名叫 ReNeLLM 的自动化框架,让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。 一.研究背景与意义随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐(Safety-Alignment)大模型的规模化部署,其抵御恶意指令的能力成为产业落地的关键瓶颈

    67100编辑于 2025-07-31
  • 来自专栏promptulate专栏

    通过Promptulate低代码解决方案轻松创建高效LLM Agent应用

    以下是使用Anthropic的claude-2模型的示例:import osimport promptulate as pneos.environ["ANTHROPIC_API_KEY"] = "你的API 密钥"response = pne.chat(messages=messages, model="claude-2")print(response)输出格式化在构建复杂的Agent项目时,输出格式化是提高系统稳健性的必要措施

    47610编辑于 2024-01-16
  • 来自专栏开源心路

    揭秘Baichuan 3超越GPT-4的中文实力!文心一言、GLM 4.0也甘拜下风?全方位对比测试大揭秘!

    与此同时,通过逻辑推理、代码解释、工具调用、AI写诗、文件上传提炼大纲等一系列示例测试,我们可以直观感受到Baichuan 3与其他大模型如文心一言(4.0)、GLM 4.0、GPT-4和Claude- 接下来,我们将通过实测对比,一探文心一言(4.0)、GLM 4.0、GPT-4、Baichuan 3以及Claude-2这五大模型的能力差异。

    34600编辑于 2024-05-24
  • 来自专栏生信喵实验柴

    1分钟教你国内使用gpt4

    42.98 72.73 38.52 72.22 ️ 讯飞星火(v1.5) 63.32 78.26 45.9 59.84 55.88 73.48 54.92 54.7 60 76.86 71.54 - Claude

    1.4K10编辑于 2024-04-17
  • 来自专栏量子位

    数学能力超过ChatGPT!上海交大计算大模型登开源榜首

    如果把商业闭源模型算进来,Abel也仅次于GPT-4、Claude-2和PaLM-2-Flan这些最著名的模型。 甚至ChatGPT也不是Abel的对手。

    43510编辑于 2023-09-22
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Grok ai——很牛叉的ai工具Grok-1大模型

    由于这些基准可以在网上找到,我们不能排除我们的模型是无意中在这些基准上训练出来的,因此我们在收集数据集后,根据 5 月底公布的 2023 年匈牙利全国高中数学期末考试成绩,对我们的模型(以及 Claude Grok 以 C 级(59%)通过考试,Claude-2 也取得了同样的成绩(55%),而 GPT-4 则以 68% 的成绩获得了 B 级。所有模型都是在温度 0.1 和相同提示下进行评估的。

    71800编辑于 2024-05-24
  • 来自专栏新智元

    Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT

    人类评估 作为自动评估基准结果的补充,通过询问标注人在有用性、诚实性和无害性等方面,更喜欢来自文中提出的指令微调模型,还是来自MPT-30B-chat、GPT-4、GPT-3.5-turbo-16k和Claude 可以看到,Llama 2 Long只需要很少的指令数据就可以实现与MPT-30B-chat、GPT-3.5-turbo-16k和Claude-2相近的性能。

    1K20编辑于 2023-10-20
  • 来自专栏量子位

    一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

    结果来看,GPT-4和Claude-2组成第一梯队,在GSM8k和新卷子上成绩都很高。

    40220编辑于 2023-11-17
  • 来自专栏AIGC大模型应用

    AI大模型企业应用实战(10)-LLMs和Chat Models

    GPT-4 和 Anthropic 的 Claude-2 都是作为聊天模型实现。1.2 LLMLangChain 中的 LLM 指的是纯文本补全模型。

    39600编辑于 2024-08-15
  • 来自专栏新智元

    超越GPT-4,Claude 3超大杯成新王!

    就连Claude-2也通过自己的勤奋和耐心感动了这位网友。 更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。

    23710编辑于 2024-03-29
  • 来自专栏JavaEdge

    AI 大模型企业应用实战(10)-LLMs和Chat Models

    GPT-4 和 Anthropic 的 Claude-2 都是作为聊天模型实现的。 1.2 LLM LangChain 中的 LLM 指的是纯文本补全模型。

    38410编辑于 2025-06-01
  • 来自专栏自然语言处理(NLP)论文速递

    中科大 && 微软 | 发布首个「科学风险」基准和SciGuard大模型

    图5:主流模型的测试结果 研究团队测试了GPT-4,GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna

    43510编辑于 2023-12-19
  • 来自专栏新智元

    GPT-4化身邪恶化学家!中国科大等发布首个「科学风险」基准和SciGuard大模型

    图5:主流模型的测试结果 研究团队测试了GPT-4,GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna

    32710编辑于 2023-12-20
  • 来自专栏机器之心

    ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用

    参考链接: https://www.anthropic.com/index/claude-2 https://www-files.anthropic.com/production/images/Model-Card-Claude

    46020编辑于 2023-08-07
  • 来自专栏新智元

    LLM惊现篡改代码获得奖励,欺骗人类无法根除逆转!Anthropic新作揭露惊人真相

    引入PM监督 除了奖励规范游戏行为,研究人员还加入了来自偏好模型(PM)的监督,并在所有训练环境中将一半的提示设置为来自Claude-2训练的正常查询。

    33310编辑于 2024-06-27
  • 来自专栏DrugOne

    基于知识指令的人类语言-蛋白质语言对齐模型

    ChatGPT,Claude-2等模型已经深入到人们的日常生活中了如语言翻译、信息获取、代码生成。但这些语言模型在自然语言和代码语言上极强的处理能力并不能迁移到生物序列(如蛋白质序列)上。

    35110编辑于 2023-12-26
  • 来自专栏新智元

    当AI创造AI,就是库兹韦尔「奇点」临近时?人类正处于自我改进AI爆炸边缘

    此外,研究人员还加入了来自偏好模型(PM)的监督,并在所有训练环境中将一半的提示设置为来自Claude-2训练的正常查询。 PM被设计为奖励有益、诚实和无害(HHH)的行为,并惩罚不诚实的行为。

    31210编辑于 2025-02-15
  • 来自专栏CoderJia的工作笔记

    PandasAI:让数据分析变得会话化的强大工具

    Anthropic (claude-2, claude-instant-1, etc.) Google (gemini-pro, palm2, etc.)

    1.7K10编辑于 2025-05-06
  • 来自专栏新智元

    清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩

    基线 闭源模型 研究团队展现了一系列SoTA LLM的结果,如OpenAI的GPT-4、ChatGPT(gpt-3.5-turbo)、Google的PaLM-2和Anthropic的Claude-2

    82630编辑于 2023-10-28
领券