首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏deepseek

    o3 deep research: 智能体的应用和演进

    【相关】Xiao Hong Red:肖弘其人万字长文解析 LLM-native Agent 及其混合计算方式o3 deep research: LLM 驱动的 Agent 综述Agent:数字代理的崛起与未来 Agent元年:从聊天机器人到数字员工的当代进化史生成式AI学习中容易混淆的几个术语思维链是大模型的符号神助攻再谈自然模态数据是高维空间的低维流形深度学习的局限性研究综述o3 deep research : 深度学习局限性研究报告深度学习的基石:多层感知机o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析RPA 赛道与大模型Copilots早期创业者的困局Transformer

    67810编辑于 2025-03-10
  • 【AGI-Eval评测报告 NO.6】o3 o4-mini 文本权威评测:o3 强势登顶

    o3 和 o4 mini 的全方位评测结果来啦!o3 直接在文本推理方向上登顶!在交互能力和指令遵循等方面处于领先地位,但在知识储备方向稍显不足。 目录: 1. o3 和 o4 mini评测分析    1.1 评测概述    1.2 o3 评测结果    1.3 o4-mini评测结果 2. o3 和 o4 mini 信息回顾 1.o3 和 o4 接下来我们继续为大家拆解 o3 和 o4-mini 的详细评测内容 1.2  o3 评测结果 o3 核心结论: o3 在综合能力上表现优异,尤其在交互能力、推理能力和指令遵循方面处于领先地位。 同类型模型能力对比: 本次评测,我们基于自建的通用能力评测集与公开评测集,将 OpenAI o3 与 o1 进行了对比: 在通用能力上,OpenAI o3 水位优于 OpenAI o1,其中推理能力有明显提升 实测翻车率略高 虽然 o3 和 o4 mini 在实测中有不少翻车案例,但是在更加全面、科学的评测中,我们印证了 OpenAI o3 是 OpenAI 最强大的推理模型,它推动了编码、数学、科学、视觉感知等领域的发展

    37410编辑于 2025-05-08
  • 来自专栏kafka专栏

    OpenAI 的 o3 — AGI 还是闪亮的幻影?

    是的,o3 碾压了 ARC-AGI 测试。但这些基准就像由试图打败它们的工程师设计的障碍课程。o3 真的智能吗?还是仅仅针对游戏进行了优化? 在这里,o3 的表现引发了有关智力是关于适应性还是实现预定里程碑的问题。 数学、编码、科学——o3 在结构化领域中令人眼花缭乱。但智力存在于非结构化、混乱、情感化的领域。 意识是一个棘手的话题,但怀疑论者认为,没有自我意识,o3 就不智能——它只是一个聪明的模仿者。而且,o3 不了解它自己的存在或它在世界中的位置。它计算。它不反思。 尽管 o3 拥有令人印象深刻的能力,但它仍然缺乏 AGI 的基本品质,突出了专业成功与真正通用智能之间的差距。 最终,关于 o3 的辩论不仅仅关乎 AI——它关乎我们自身。 如果 o3 可以执行曾经是人类思维领域独有的任务,那么这会把我们置于何地? OpenAI 正在采用一种前瞻性的方法来确保 o3o3 Mini 的安全性。

    31610编辑于 2025-06-03
  • 来自专栏腾讯云TVP

    o3 deep research: LLM 驱动的 Agent 综述

    General components of an agentfrom developer.nvidia.comLLM智能代理的一般架构示意图(made by ChatGPT o3)Agent接收用户请求 OpenAI 最新的智能体表现是基于其推理模型o3的 Deep Research 功能,可以就任何题目自动搜寻资料、研读并汇总融合成全面完整、信息可追溯的综述性调查报告。 (本文就是 o3 deep research 完成。) Agent:数字代理的崛起与未来Agent元年:从聊天机器人到数字员工的当代进化史生成式AI学习中容易混淆的几个术语思维链是大模型的符号神助攻再谈自然模态数据是高维空间的低维流形深度学习的局限性研究综述o3 deep research: 深度学习局限性研究报告深度学习的基石:多层感知机o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析RPA 赛道与大模型Copilots早期创业者的困局

    93100编辑于 2025-03-08
  • 实测OpenAI发布的o3和o4-mini模型

    在4月16日晚,OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。 那么o3、o4-mini和GPT-4.1到底有什么区别呢?这张图可以很好的总结下来:推理 vs. 速度o3 在推理能力上评分最高,但速度是最慢的,适合对思考深度要求极高且可接受较慢响应的场景。 价格梯度o4‑mini ≪ GPT‑4.1 ≪ o3,输出 token 单价差距最大(4.4→8→40 美元)。 目前o3和o4-mini两个模型相比以前我觉得最大的改变就是可以进行“网页搜索”和“图像输入分析”。 写在最后从 o3 和 o4-mini 的发布可以看出,OpenAI 正在加速推动语言模型向智能体形态转变的进程。

    68610编辑于 2025-04-21
  • 来自专栏天意云&天意科研云&天意生信云

    GPT o3智商已超越99%的人类,碾压Deepseek!

    GPT o3 是一个高级推理模型,具备主动调用联网搜索、图片分析、文件解析和数据分析等工具的能力,如同一个AI智能体。 今天,我将测试 o3 模型在文献检索方面的应用,我会提供一段文本,让 o3 根据内容进行推理,并寻找相关的引用参考文献。 请在文本末尾提供参考文献列表及原文链接:「粘贴需要引用文献的段落」 o3模型思考过程 本次 o3 模型检索文献仅用时1分8秒,整个思考过程联网搜索了8个网络来源。 从思考过程来看,o3检索的文献均来自于核心数据库,如PubMed、Science、Nature等。 o3模型输出结果 从结果来看,o3 严格按照要求,在文本末尾列出了所引用文献的作者和发表年份,同时还提供了符合标准格式的参考文献条目及对应的 DOI 链接。

    82210编辑于 2025-05-21
  • OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。

    直接到o3。 而OpenAI直播一完,X上基本就沸腾了。 o3的能力,对现在所有模型,几乎都直接是降维打击。 看下o3的能力吧。 一些粗的评测集简单过一下。 这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。 o3 的成绩:71.7%,比o1还强了不少。 右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。 o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。 o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。 而这一次,o3直接达到了25.2。 当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了。。。 就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。 网址在此:https://openai.com/index/early-access-for-safety-testing/ 目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3

    29310编辑于 2025-04-14
  • OpenAI Operator 智能体升级核心解读(AI模型4o→o3

    模型升级‌底层模型从 ‌GPT-4o‌ 升级至 ‌o3‌,显著提升推理能力与任务完成稳定性。 o3 作为 OpenAI 新推出的“推理专用模型”,在数学逻辑、复杂任务分解及动态策略调整上表现更优,尤其在浏览器操作的容错率和意图理解精准度方面进步明显。2. 安全性增强‌o3 模型集成专门针对计算机使用场景的微调数据集,降低非法操作(如隐私数据爬取)的执行概率。强化对抗性攻击(如提示注入)的防御能力,并通过多层防护机制确保操作合规性。 通过底层模型从GPT-4o到o3的跃迁,不仅实现了推理能力的质变(任务成功率提升35%),更在浏览器交互稳定性(容错率提升60%)和复杂任务处理(支持8+步骤连贯执行)方面取得突破。

    44710编辑于 2025-05-26
  • 来自专栏deepseek

    o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析

    后记才试了一下 openai o3 最新推出的 deep research 功能,不能不说,作为研究工具,非常给力,完成后的成品具有直接发表的水平,想做一点后编辑都难。有点叹为观止的感觉,堪称完美。

    67920编辑于 2025-02-28
  • 来自专栏叶子的开发者社区

    O0 O1 O2 O3优化原理

    O3优化 #pragma GCC optimize(3) 包含O2的各种优化功能,并增加了: 1、去掉未调用的函数。 2、简化返回值未使用的函数。 3、将小函数进行内嵌调用。

    98020编辑于 2023-07-30
  • OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

    没有废话,今天发布的就是o3和o4-mini。 但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。 满血版的o3终于可以使用工具了。 2. o3和o4-mini是o系列中最新的视觉推理模型,第一次能够在思维链中思考图像了。 照例,我一个一个来说,尽可能给大家一个,非常全面完整的总结。 而完整版的o3,其实是比o3‑mini更大的大兄弟,o3其实最明显的变化就是能接入工具了。 o3直接挣起飞了。 SWE‑Bench Verified:一个经人工标注验证的软件工程题库,包括常见算法、系统设计、API 调用等,o3和o4-mini同样遥遥领先。 o3因为在整体上,更敢下定论了,所以不会含糊其辞,也就是更准确了,但是幻觉率也飙升,直接干到了o1的两倍。。。 以上,就是o3和o4-mini的性能参数。 定价上。

    50810编辑于 2025-04-18
  • 来自专栏算法一只狗

    OpenAI 最强推理模型 o3 发布,对哪个领域最有用?

    这样的表现充分显示了 o3 模型在复杂数学推理和高难度科学问题上的卓越能力。 例如,Kimi 最新推出的 k0-math,其在 AIME 考试中的得分仅为 50,而 o3 已经将这一成绩提升至 96.7,几乎接近满分的状态。这种对比无疑突显了 o3 在数学推理领域的卓越性能。 这一表现不免让人猜测,o3 的发布是否正是为了狙击 Gemini 2.0 Flash。面对这种对比结果,只有一句话可以形容:o3 遥遥领先。 我觉得机会很大,这也充分说明o3模型在处理高度复杂问题的强大能力。 而对于编程来说,o3提升的性能也更加强大。在CodeForces这个全球的编程比赛平台上,o3系列模型显示出了它最强大的编程能力。目前o3推理模型得分有2727分,比大多数人类程序员都要高。

    42510编辑于 2024-12-31
  • 来自专栏算法一只狗

    Grok-3轻量推理优势,轻松超越o3 mini和DeepSeek

    在相同测试场景下,它也击败了 o3 mini、DeepSeek-R1 以及 Gemini 2 Flash Thinking,展示了不错的实际部署潜力。3.

    42220编辑于 2025-04-27
  • 来自专栏新智元

    o3预示新拐点

    OpenAI在12天直播的最后一天,公布了o3模型在该基准上的突破,该基准得到了大量关注。 最近, 他们还公布了最新的技术报告。 而最近OpenAI o3击败ARC-AGI-1时,大家才第一次见识到程序合成的威力。 如果判断正确,那么o3在程序合成领域的地位,相当于深度学习领域的AlexNet。

    42400编辑于 2025-02-15
  • 来自专栏AI资讯

    深度解析 OpenAI o3 大模型:详细功能、API Key 获取及 Python 代码开发示例

    o3 模型的诞生背景与意义OpenAI o3 是作为 OpenAI o1 的继任者而开发的反射式生成预训练变换器 (GPT) 模型 。 o3 模型家族深度剖析:o3、o3-mini 与 o4-miniOpenAI o3 并非单一模型,而是一个包含多个成员的模型家族,每个成员针对不同的应用场景和性能需求进行了优化。 OpenAI o3:旗舰推理模型OpenAI o3 模型于2025年4月16日正式发布 。 具体到 o3 系列模型:o3 (旗舰模型):通常情况下,访问 o3 模型的 API 权限主要开放给 Tier 4 和 Tier 5 的用户。 o3 模型家族的核心价值与影响o3、o3-mini 和 o4-mini 共同构成的 o3 模型家族,其核心价值体现在以下几个方面:高级推理能力的显著提升:通过引入“模拟推理”等机制,o3 系列模型在处理需要深度逻辑思考和多步骤演绎的复杂问题时

    1.5K00编辑于 2025-05-15
  • 来自专栏AI进修生

    DeepSeek 新模型 R1-0528 悄悄开源,与o3 相当,实测来了。

    从社区曝出的LiveCodeBench基准测试成绩来看 新的 Deepseek R1-0528 的性能几乎与 LiveCodeBench 基准测试中的 o3 (High) 相当。

    59710编辑于 2025-06-08
  • OpenAI 最新模型 o3 和 o4-mini上线GitHub Copilot!

    o3 和 o4-mini上线GitHub CopilotOpenAI 的最新推理模型 o3 和 o4-mini 现已在 GitHub 模型中提供。 O3 是 O 系列中最强大的推理模型,非常适合深度编码工作流程和复杂的技术问题解决。o4-Mini 是该系列中最高效的型号,将低延迟与高质量输出、完整的工具支持和多模态输入相结合。 o3 和 o4-mini 在 GitHub Copilot 中的可用性o4-mini 现已在所有 GitHub Copilot 计划中推出。o3 可用于 Enterprise 和 Pro+ 计划。 为了加速您的工作流程,无论您是在调试、重构、现代化、测试,还是刚开始使用,请选择“o3”或“o4-mini”以开始使用新模型。 由于 o3 是在 Enterprise 和 Pro+ 计划中的,我们GitHub Copilot 付费版是 Business plan,现已经开启了 o4-mini 模型,大家可以使用啦!

    32310编辑于 2025-04-29
  • 来自专栏新智元

    o3拿下25%高分震惊数学教授,2025 IMO金牌或被AI收入囊中!

    OpenAI o3发布后,多个高难度基准测试的SOTA被大幅刷新。 就数学、代码、软件工程等领域而言,更是完全粉碎了满血版o1。 o3未来在数学方面的研究潜力究竟如何,或许我们能够从这篇文章中获得关键的一瞥。 o3是什么?FrontierMath又是什么? 没想到,就在论文发出的一个多月之后,OpenAI突然宣布o3在这个数据集上取得了破纪录的25.2%准确率。 整个AI数学圈,都为之震惊,包括Buzzard本人也是。 发生了什么? o3在解决为优秀高中生设计的「奥林匹克式」问题方面,表现得非常出色。 毫无悬念的是,AI系统在一年之内就能通过本科数学考试。 考虑到这一新的信息,即25%的问题是本科水平,Buzzard称自己对o3取得的成绩也就不那么惊讶了。 不过,他表示,还是很期待AI能够在数据集上达到50%的准确率。

    31910编辑于 2025-02-15
  • 来自专栏新智元

    o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔

    已经有越来越多网友发现,o3识图定位的功能,堪称疯狂。 随便拍张照片,o3就告诉你这是哪里 首先,我们可以试着随手拍一张照片,最好是没有明显的地标性建筑。 分析了照片后,o3打起了照片中车牌的主意。不过这个车牌很模糊,肉眼很难分辨。 o3也在思考中分析需要将其放大处理。 为了确定车牌在照片中的位置,o3开始变身程序员写起了代码。 不过随后的尝试,让Simon对o3更有信心了——即使没有这个位置模型,o3依然可以准确猜出地理位置。 比如,他给了o3一些距离自己实际位置有几千英里的照片,并且通过截图去除了EXIF信息。 搜餐馆、搜位置,o3无所不能 其实早在上周,o3和o4-mini刚发布时,就有无数网友发现,这两个模型也太神了。 现在,网友们给o3的考验还在升级。 英伟达研究员Zhaocheng Zhu给了o3一组他用长焦镜头拍摄的照片,没有EXIF数据,关闭o3的记忆功能。

    39110编辑于 2025-04-28
  • 来自专栏新智元

    o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现

    o3超高智商背后 o3发布之后,很多人都认为AGI实现了。 从o1到o3,OpenAI仅用了3个月;从o1 pro到o3,仅用了1个月。种种迹象表明,Scaling Law并未终结。 在Keras之父François Chollet转写的报告中,也解释了o3与以往旧模型之间的区别: o3的核心创新点在于,实现了token空间内自研语言程序搜索和执行。 本质上,o3是一种深度学习引导的程序搜索形式。 不过,即便o3进化速度如此疯狂,OpnenAI研究员Will depue表示,这还不是AGI,我们还有很长的路要走。 这个这个说法为真,那o3所取得的分数,显然占了很大便宜。 OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3做过微调。 不过今天出来的o3智商157的结果,至少可以为它的性能稍稍正名了。 o4才是Orion? 而且,在o3之后,或许还会有IQ更强的模型现身。

    20910编辑于 2025-02-15
领券