也有人认为,Devin从诞生之初,就更多的是营销和炒作,而不是现实。 说来,Devin视频真的是作假了吗? 逐帧分析,揭穿Devin的谎言 Devin发布之初,背后初创公司Cognition AI更新的官方博文中,通过七个视频介绍了这一AI的「魔力」。 如下是Devin在官方视频中,完成任务的表现。 接下来,一起看下YouTube博主如何逐帧分析,Devin在真正实操中的能力。 Devin被告知只使用样例数据就可以,因此这正是博主复现Devin操作时所做的。 些代码修正全都无关紧要,因为它们都是 Devin 自生成的代码。 在视频的最后,研究者You表示Devin做得好。而实际上,Devin完成的任务对于AI来说的确很酷。
✨✨ 全球首位AI程序员Devin的出场 全球首位AI程序员Devin的出场无疑是一个令人兴奋的里程碑事件。 从技术角度来看,Devin的出场意味着人工智能已经在某种程度上具备了理解和生成代码的能力。这不仅令人惊叹于人工智能技术的进步,也为未来的编程工作带来了新的可能性。 除了技术层面,Devin的出场也引发了人们对于人工智能发展对社会的影响和未来的思考。随着人工智能技术的进步,我们可能会面临一些新的挑战,比如就业岗位的变化、教育体系的调整、伦理道德的问题等。 总结 全球首位AI程序员Devin的出场是一个令人振奋的事件,它标志着人工智能技术在编程领域的快速发展,也引发了人们对未来技术发展和人类角色的深刻思考。
在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。 1、大模型编程的真实挑战 2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。 虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。 为什么Devin敢于挑战GPT4等基础模型的编程能力呢? 而Devin则基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。
在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。 2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。 为什么Devin敢于挑战GPT4等基础模型的编程能力呢? 而Devin的技术创新是基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。 3月份,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。
Devin 就像一个超级智能助手,能帮助工程师更快更好地完成工作,发布之初,很多人都称赞 Devin 是全球首位 AI 软件工程师。 他们还为此写了一篇博客《与 Devin 共度一个月的感想》,文章详细记录了他们在给 Devin 超过 20 项任务之后获得的感受。 我们最终放弃了 Devin,转而使用 Cursor 进行逐步构建集成,结果证明效率要比 Devin 高得多。 测试后我们发现,尽管 Devin 可以访问两个系统的文档,但它似乎让集成的每个方面都变得过于复杂。 不过,最能说明问题的是让 Devin 进行网页抓取。 比如,当我们要求 Devin 完成带有准确时间戳的转录摘要时 ——Devin 只是重复了一些与核心问题无关的信息,而没有真正解决问题。
Cognition AI 公布的 Devin 产品定价表格 Devin 2.0 的新亮点 并行 Devins 与新的云 IDE Devin 2.0 以 Cognition AI 的早期成果为基础,允许用户与自主智能体协同工作以简化软件开发流程 每个 Devin 都可以自主运作,用户能够选择随时介入以审查、编辑或干预执行进度。 交互式规划与任务范围 Devin 2.0 中的一项关键新增功能,就是引入了交互式规划。 之后,用户可以审查并调整整个规划方案,在保障一改后再允许 Devin 继续执行。 探索企业代码库 Devin 2.0 还引入了 Devin Search,一款帮助用户高效理解并浏览其代码库的工具。 用户可以通过类似 VSCode 的界面与 Devin 2.0 进行交互。该界面允许查看并编辑 Devin 工作成果,并直接在平台环境内运行测试。 Devin 1.2 还引入了面向企业环境的多项功能,例如用于简化登录工作流程的机器快照及用于管理多个 Devin 工作区的集中管理控制机制。
世界首位AI软件工程师Devin AI软件工程师Devin的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。 Devin究竟有多强大? 既然如此,就给Devin来试试看! 小哥给了Devin存储库,让它来检查和处理这个存储库。然后,Devin就找到了正确的存储库,检查了所有文件。 可以看到损失率正在下降,程序员给出Devin正向反馈:「做的不错」! 大约1小时后,Devin已经顺利完成几百步训练,仍在进行中... 因此,Devin用true除法替代了整数除法。 随后,它开始测试,确保没有其他问题。 就这样,Devin帮Neil节省了大量的时间。 但是交给Devin,这件事就变得容易得多了。 Devin收到请求后,先开始设置了存储库。然后运行中发现了版本控制问题,Devin自主处理并更新了代码。 然后,Devin继续加载并导入软件包。
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 微软的“GitHub版Devin”——Copilot WorkSpace,终于上线了! 而WorkSpace这种全自然语言的工作流程,也让它获得了网友颁发的“GitHub版Devin”称号。
这位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。 他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。 Devin在工作过程中会打开多个shell,在shell的底部,用户可以拖动蓝色滑块来往前查看Devin编写的命令。 下图是它当在尝试调试棋盘未渲染的内容。 小哥比较担心的是,如果不是必须要询问API密钥,Devin似乎会不停地编码停不下来。 所以他试了试是否可以更改他之前提出的请求或指定其他内容,中断Devin的编码过程。 为了不中断编码的过程,似乎Devin又开启了一个工作线程来记录小哥的临时要求。 最终,Devin将APP部署到了Netlify上了,一个应用已经上线了。 总结 小哥没有给出Devin修改了Bug的结果,只是初步总结了用Devin开发的第一个网站的使用体验。
让同行们直呼:哦莫,疯了吧~ 目前Devin尚未公测,不过已经有少部分人拿到了资格,开始实测了一波…… 首个AI软件工程师亮相 Devin被介绍为世界首个完全自主的AI软件工程师。 只需要告诉Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。 然后Devin表示自己会先搭建网站的基本架构,并询问了有没有更具体的需求。 2、自主查找并修复bug 不仅能一气呵成完成开发部署,Devin的debug能力也是一流。 开发者给Devin一个GitHub链接,让它先熟悉项目情况,然后一会儿要准备数据进行测试。 接着,Devin就会按部就班地编写测试用的程序并准备好有关数据,然后运行。 结果,在开发者已经发布的完整项目之中,Devin还真的找到了连开发者自己都没有发现的漏洞。 △就是这个库 6、不熟的技术,现学现卖 最后,遇到自己不会的技能,Devin可以直接现学,并迅速付诸应用。 把你新刷到的技术文章链接直接丢给Devin: Hi Devin!
一.Devin的登场是突破也是导火索 2024年3月14日,初创公司Cognition AI宣布世界上第一位AI软件工程师Devin诞生。 根据官方给出的案例,Devin可以像人类程序员一样写代码,并修复了意外出现的bug,从而构建和部署了一个可视化的网站。此外,Devin还能完成更加复杂的任务,并且有较强的学习和调整能力。 Devin通过自行阅读和学习知识,迅速输出了带有用户英文名字的电脑壁纸。值得注意的是,Devin远远超过了GPT-4、Claude2等一众前辈。 只需要告诉Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。 然后Devin表示自己会先搭建网站的基本架构,并询问了有没有更具体的需求。 △就是这个库 6、学习能力 最后,遇到自己不会的技能,Devin可以直接现学,并迅速付诸应用。 把你新刷到的技术文章链接直接丢给Devin: Hi Devin!
不过团队表示,辅助或无辅助设置下,其他模型都不能与 Devin 进行严格比较。Devin 获得整个存储库并可以自由浏览文件,因此他们选择更强的数字进行基线比较。 定性案例 团队对 Devin 的进行了一些定性分析。这里 Devin 仅获得了问题描述和克隆存储库作为输入。 随后,Devin 根据问题描述中提供的测试代码,更新了测试文件。 在运行测试并收到错误后,Devin 更正了该文件。 修复后,Devin 重新运行测试以使其通过并成功退出。 不过,Devin 漏掉了两个数据集,即 lfw.py 和 rcv1.py,因此测试最终失败。团队打算改进 Devin 编辑多个文件的功能。 推特用户 @antonosika 使用 GPT 和一些开源项目对 Devin 进行复刻,他表示无需代码即可制作 Devin。
IT之家 3 月 13 日消息,初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。 Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。 *Devin 是在数据集 25% 的随机子集上进行评估的。 Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。 Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。 IT之家附上 Devin 所具备的技能如下: 快速掌握新技术:只需阅读文档,Devin 就能快速掌握不熟悉的工具和框架。 官方对其的描述如下: Devin 是一位不知疲倦、技术娴熟的队友,随时准备与您并肩作战,或独立完成任务供您审查。 有了 Devin,工程师可以专注于更有趣的问题,工程团队可以努力实现更远大的目标。
本文将结合2026年第一季度的最新动态,深度解析Devin的技术演进、市场地位及其对开发者未来的深远影响。 第一章:2026年,Devin的爆炸性增长与市场地位1.1代码交付量的指数级狂飙根据2026年3月的行业报告,Devin的生产力增长曲线令人震惊:仅2026年前两个月完成的代码量,就已超越2025年全年总和 1.3企业级规模化落地高盛试点:全球顶级投行高盛已成为Devin的重量级客户,初期部署了数百个Devin实例,用于处理内部代码库的现代化改造等重复性任务,并计划未来扩展至数千个实例。 目标明确:企业采用Devin的核心目标是将开发者的生产力提升至使用传统AI工具(如Copilot)的3-4倍。 ⚙️第二章:Devin的核心技术演进(2026视角)在2026年的AI编程工具竞争中,所有主流产品(包括Devin,Cursor,Windsurf等)的技术栈已高度收敛于三大核心支柱:2.1内存文件(MemoryFiles
没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。 在 SWE-Bench 基础测试中,无需人类协助,Devin 就可以解决 13.86% 的问题。 也就是说,Devin 不仅是横扫基础测试的「做题家」,在就业市场里也有人为它的工作能力买账。 难道继 Sora 让「现实世界」不存在了之后,Devin 也要让「软件工程」不存在了吗? 直到昨天,他给 Devin 了一个简单的 HTML 页面,让它提取选择器,这个 GPT-4-turbo 、Claude、Groq 、LLama2 都没完成的任务,Devin 只用了大约 10 秒就搞定了 而对 Devin 来说,你只需要向它提要求,坐等其成就可以了。 相比于「副驾驶」的角色,Devin 更接近于一个独立工作者。
正因如此,我们开始看到 AutoGPT、ChatDev、Devin、OpenDevin、AgentVerse、MetaGPT 等智能体(Agent)框架的兴起。 三、Devin 的系统化理念 1. Devin:第一个“可运行的”AI 工程师 2024 年 3 月,Cognition 发布了 Devin,号称“世界上第一个 AI 软件工程师”。 与 AutoGPT 最大的不同是:Devin 不只是“思考”代码,而是能在真实环境中执行、调试、迭代。 Devin 不再是跑在 Chat 窗口里的语言模型,而是运行在一个具备 I/O 的系统中。 2. 只不过 Devin 的环境不是物理世界,而是开发环境(IDE + Shell)。 3. Devin 的设计哲学 Devin 的创新不在于模型,而在于系统化调度。
OpenDevin: Code Less, Make More 任务 欢迎来到 OpenDevin,一个旨在复制 Devin[1] 的开源项目,Devin 是一位能够执行复杂工程任务并与用户积极合作进行软件开发项目的自主 该项目希望通过开源社区的力量复制、增强并创新 Devin。 什么是 Devin? Devin 代表了一种先进的自主代理,旨在应对软件工程的复杂性。 我们的目标是探索并扩展 Devin 的能力,识别其优势和改进领域,以指导开放代码模型的进展。 为什么是 OpenDevin? OpenDevin 项目诞生于复制、增强并创新原始 Devin 模型的愿望。 References [1] Devin: https://www.cognition-labs.com/introducing-devin
好家伙,世界上第一位AI程序员Devin诞生,程序员这一下子职业不存在了? Devin的“本领” 只需给Devin一句指令,Devin就可端到端地处理整个开发项目! 只需要告诉Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。 Devin的酷炫功能不仅如此还有很多很多...简直和活生生的程序员没有两样,而且人家不抱怨996,你说气人不! Devin要怎么使用? 很遗憾,查看了官网,Devin已经真的是“程序员”,是一个活生生的人了, 而不是供大家随意使用的工具,官网对Devin的称呼都变成聘用Devin了。 我们来问一问他: 在这个网址和Devin对话只有20次机会,我们可以等后续正式发布的时候,再聘用Devin为我们工作。 Devin会不让程序员失业了?
更让人震惊的是,现在的Devin还成为Cognition AI的首席执行官替身,开始打工了。 AI程序员Devin竟可以做老板的工作了?! 最近,Cognition AI的首席执行官Steven Hao给了Devin访问自己帐户的权限,然后Devin便开始为他工作了... 然后,「AI老板」Devin与技术团队进行了无缝交流,最终解决了自己的疑惑。 就在最近,Cognition团队发布了Devin的最新技术报告。 根据问题描述中提供的测试代码,Devin会更新测试文件: 但在运行测试并出现错误后,Devin更正了文件: 在此修复后,Devin重新运行测试,以使其通过并成功退出。 不幸的是,Devin漏掉了两个数据集, lfw.py 和 rcv1.py ,因此测试最终失败。研究人员打算改进Devin编辑多个文件的能力。
更重要的是,Devin 无需人工干预,而 GPT-4 则需要人工提示指定处理文件。 Devin 一发布,便引爆了整个科技圈。 在运行期间,Devin 还会列出它正在执行的所有任务,甚至在编写代码时持续测试,自行查找并修复 bug。 Devin 能做什么? 那么,如此强大的 Devin 都能做些什么? 总体而言,Devin 可以规划和执行需要数千个决策的复杂工程任务。Devin 可以回忆起每一步的相关背景,随着时间的推移学习并修复错误。 下列是 Devin 可以执行的操作示例: Devin 可以学习如何使用不熟悉的技术。 下列视频演示了 Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。 Devin 可以自主查找并修复代码库中的错误。 Devin 帮助 Andrew 维护和调试他的开源相关编程书籍。 Devin 可以解决开源存储库中的错误和功能请求。