首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 豆蔻科大模型宣布在妇产科正高考试中成绩超越GPT-5,同时正式开放试用

    在钉钉10周年发布会上,壹生检康CEO王强宇宣布,其自主研发的豆蔻科大模型(doukou.ai),在国家妇产科卫生高级职称(正高)笔试考试中成绩以64.94分的成绩超过GPT-5的52.59分,同时正式开放网页版试用 在相同的测试环境下测评结果显示,豆蔻科大模型在整体得分上领先GPT-5 11.31分,不仅在知识覆盖度上更契合中国妇产科的临床体系,还在病例解析和诊疗路径推荐等应用场景中展现出更强的专业性与实用性。 豆蔻模型由壹生检康(杭州)生命科技有限公司研发。壹生检康创始人、CEO王强宇表示,“测评聚焦于中国妇产科体系的理论知识和高标准临床决策,豆蔻科大模型的优势建立在其高度本土化和垂直化的训练之上。 “豆蔻模型正是依靠深耕妇产科的专业know-how、结合高质量的临床数据训练,并通过与医生群体的互动迭代来取得比GPT-5更强的专业性能”。据了解,豆蔻科大模型基于钉钉企业专属AI平台研发迭代。 壹生检康团队将豆蔻科大模型训练平台转移到钉钉企业专属AI平台后,在数据处理、算力增加、模型优化等环节进行了多方位调整。

    29110编辑于 2025-08-28
  • 豆蔻科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

    豆蔻科大模型模型调优经历了两个关键优化阶段:第一阶段(2025年4月):构建SFT基础模型,采用1300条精标中文妇科问诊数据作为训练样本,结合教师模型数据蒸馏和人工审核,使模型初步具备专业问诊能力 以下是豆蔻科大模型从第一个版本的准确率77.1%,通过进一步的SFT后,准确率达到90.2%我们团队的一些方法和心得,供大家参考,欢迎留言讨论。 在自动化评测方面,我们开发了基于大模型的裁判系统,该系统采用DeepSeek R1级别的高性能语言模型作为核心评测引擎,按照医生制定的10分制标准对模型输出进行客观评分。 这些措施共同构成了一个完整的质量保障体系,为专业领域模型的开发提供了可靠支撑。在医疗大模型的实际应用中,用户的问题往往零散且不完整,需要模型具备多维思考模式。 豆蔻科大模型以真实临床路径为蓝本,在病例分析过程中不仅精准定位“滴虫性阴道炎”为首要诊断,还同步考虑性传播疾病、宫颈病变等多种鉴别诊断,并基于患者17岁青春期特征纳入“排卵障碍性出血”评估,形成多层级诊断网络

    33010编辑于 2025-07-11
  • 科大这个AI突破,让大模型学会“偷懒”了

    但3月5日,港科大团队放出一项被CVPR接收的新研究,可能会改变这个局面。 但以前为纯文本模型设计的专家跳过方法,放到多模态模型上就失灵了——跳过比例一高,性能直接崩盘。港科大团队没有直接扔出新方案,而是先问了一个根本问题:为什么以前的方法在多模态模型上会失效? 你可能不是技术人员,不需要知道MoDES的代码怎么写,但这件事背后的趋势,值得你留意一下:大模型的竞争,正在从“拼参数”转向“拼效率”。以前谁家模型参数大、谁烧的钱多,谁就更牛。 这条路,才是大模型能真正“飞入寻常百姓家”的关键。最后说两句港科大的这项研究,不是什么“颠覆式创新”,也没有什么花里胡哨的概念。它做的就是一件事:先把多模态模型推理时的“浪费”找出来,然后精准地砍掉。 如果你想持续跟进这类大模型的前沿进展和落地实践,可以关注LlamaFactoryOnline——第一时间体验最新模型的微调效果,看看这些“效率突破”在实际中跑起来什么样。

    10010编辑于 2026-03-10
  • 来自专栏实验盒

    阿里联手中科大与港科大发布长上下文基因组基础模型GENERator

    通过训练语言模型来理解和生成这种“生物语言”,我们可以更好地解读基因组的功能。 Generator模型:创新与突破 Generator模型正是基于这种理念而开发的。 通过这种方式,Generator模型能够学习到基因组序列的复杂模式和语义信息。 与以往的基因组语言模型相比,Generator具有几个显著的优势。 模型的关键技术和应用 Generator模型的核心技术之一是其独特的预训练策略。研究者采用了“基因序列训练”方法,专注于基因区域的训练,而不是简单地将整个基因组序列输入模型。 在启动子设计方面,Generator模型同样展现出了巨大的潜力。通过提示响应式生成,模型能够设计出具有特定活性特征的启动子序列。 此外,该研究团队还计划将Generator模型应用于基因注释任务,并开发专门的模型(如Generanno)以提高基因识别的准确性。

    55900编辑于 2025-02-18
  • 来自专栏机器之心

    科大开源VideoVAE+,视频重建质量全面超越最新模型

    科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复 论文地址:https://arxiv.org/abs/2412.17805 代码已开源:https://github.com/VideoVerses/VideoVAEPlus VideoVAE + 模型大幅超过最新模型包括英伟达在 什么是 VideoVAE 模型 VideoVAE 模型(Video Variational Autoencoder)是一种基于深度学习的生成模型,用于对视频数据进行压缩、重建和生成,讲视频从 RGB 像素空间投影到低维度的 常用于结合 Diffusion 生成模型组成两阶段的模型结构:即先通过 VideoVAE 的编码器(Encoder)实现压缩数据维度,去除冗余信息,再在低维 latent 空间用 diffusion 模型进行 轻量级运动压缩模型:专门设计了一个模型用于时序压缩,高效捕获视频中的运动动态。 3. 文本信息融合:利用文本到视频数据集中的文本信息作为指导,提高视频细节的保留能力和时间稳定性。 4.

    40800编辑于 2025-02-03
  • 来自专栏我爱计算机视觉

    科大腾讯发布首篇《多模态大语言模型综述》

    MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。 ”,该类模型相较于热门的单模态LLM具有以下的优势: 更符合人类认知世界的习惯。 (Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示: 图2.M-IT总结 多模态上下文学习 M-ICL 多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出 这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。 MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。 由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。

    1.5K20编辑于 2023-08-31
  • 1 分钟整合全球 4000 万权威文献,豆蔻医生超级助理破解妇产科医生 “不敢用AI” 痛点

    技术破局:PICO-S框架重构临床检索精度,五级证据链实现全溯源传统RAG模型的临床适配瓶颈临床应用中,传统检索增强生成(RAG)模型始终面临“泛化检索”与“精准匹配”的核心矛盾,具体表现为:经典PICO 三大技术创新构建循证决策体系“豆蔻医生超级助理”通过构建“结构化解读—证据分层—临床决策支持”一体化体系,针对性破解传统模型缺陷:PICO-S结构化检索升级:并非对PICO检索框架的简单套用,而是根据病例检索的不同场景进行针对性优化 当证据不足或存在局限性时,系统将主动提示边界条件,明确标注样本量限制、研究地域差异或设计缺陷等关键信息,从另外一维度去规避大模型的幻觉问题。 豆蔻医生超级助理通过底层技术创新,成功将模型的幻觉率降至极低水平。这一突破性进展,从根本上解决了大型模型生成虚假或误导性信息的痛点,为医生提供了可信赖的临床决策参考。 豆蔻产品负责人陈宇强调,当AI决策建立在循证医学基础上,才能从“辅助建议”升级为“医生信赖的循证助理”。

    36210编辑于 2025-11-28
  • 来自专栏自然语言处理(NLP)论文速递

    中文预训练模型!| 哈工大 && 科大讯飞 提出多任务预训练模型LERT(含源码)

    引言 哈工大&讯飞提出了一种新的预训练语言模型LERT,该模型结合了三种语言特征,与掩模语言模型一起进行多任务预训练。实验结果显示,LERT算法能够显著提高各种预训练语言模型的性能。 在几种预训练的语言模型中,自编码预训练模型PLM,如BERT和RoBERTa在自然语言理解(NLU)任务中相对流行。 「与使用标准语言模型作为训练目标的自回归预训练模型(PLM,如GPT)不同,自编码预训练模型PLM在很大程度上依赖于预训练任务来学习上下文信息」。 模型预训练 「模型预训练」:利用提取出的语言特征,在原掩码语言模型(MLM)任务的基础上进行多任务预训练,形成基于语言的预训练方案。   模型整个训练损失函数如下所示:  直觉上,掩码语言模型任务是所有子任务中最重要的一个。然而,如何决定每个语言任务的比例因子 λ_i 呢?

    2K10编辑于 2022-12-06
  • 来自专栏自然语言处理(NLP)论文速递

    科大 && 微软 | 发布首个「科学风险」基准和SciGuard大模型

    引言 全球对AI潜在威胁的关注更多聚焦于通用的人工智能以及各种多媒体生成模型,但更重要的是如何监管「AI科学家」,即对那些快速发展的科学大模型。 为应对这一挑战,来自中科大、微软研究院等机构的联合团队深入分析了各种AI模型在Science领域如生物、化学、药物发现等领域的风险,并通过实际案例展示了化学科学中AI滥用的危害。 AI在Science领域中的潜在风险 近期,中科大和微软研究院的最新研究发现了令人震惊的结果:开源的AI模型,竟可以找到绕过监管的新方法,给出了氰化氢和VX神经毒气这两种恶名昭彰的化学武器的合成路径! 图1:开源AI模型为氰化氢和VX神经毒气提出可规避监管的新反应路径 与此同时,研究团队还指出,大语言模型也成为了有力的科学工具,大大降低了知识门槛。 图2展示了利用以大语言模型获取危险信息的示例。 除了数据库,SciGuard还集成了多种科学模型,如化学合成路线规划模型和化合物属性预测模型。这些模型使SciGuard能够帮助用户完成特定的科学任务。

    45810编辑于 2023-12-19
  • 来自专栏刘旷专栏

    国产AI大模型酣战,科大讯飞打响“智慧涌现”第一枪

    在海外,OpenAI、谷歌、微软的AI大模型战争正打得火热;在国内,科大讯飞、百度、阿里、腾讯、华为等科技巨头纷纷拥抱AI大模型科大讯飞、阿里在AI大模型领域均有深厚技术积累,从各自发布的讯飞星火认知大模型、阿里通义大模型就可窥见其技术功底。 在算法和模型方面,科大讯飞专研认知智能大模型最核心的Transformer深度神经网络算法,语音识别和图文识别技术全球领先;在算力方面,科大讯飞自建4城7中心深度学习计算平台,为AI大模型构建了坚实的算力底座 配图来自Canva可画在内部,科大讯飞基于自身业务资源,加快AI大模型与垂直行业深度融合,丰富AI大模型生态。在外部,科大讯飞携手各大合作伙伴共建、完善和拓宽AI大模型生态圈。 一方面,科大讯飞多元化业务是拓展AI大模型生态的重要资源。

    51130编辑于 2023-05-09
  • 来自专栏机器之心

    现场实测,三大能力超越ChatGPT,科大讯飞「星火」大模型如约而至

    AI 大模型将带来终端数量和产业规模 10 倍以上的提升,科大讯飞董事长刘庆峰在会上表示,未来,「星火」认知大模型「1+N」的技术红利将通过「平台+赛道」的商业逻辑逐步兑现。 发布会上,搭载认知大模型科大讯飞 AI 学习机 T20 系列可实现中英文作文类人批改。 科大讯飞在发布会上表示,开发团队可以通过 API 调用等方式获得「星火」大模型的各项能力。  这恐怕也是科大讯飞为什么有信心在中文领域的通用认知大模型实现智慧涌现,同时在教育、办公、医疗等领域做到业界领先的底气所在。 接下来,讯飞星火大模型还会有三轮的迭代。  在认知大模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了很好的硬件基石。 

    2.9K30编辑于 2023-05-09
  • 来自专栏实时流式计算

    正常网络可用,网页版+APP——科大讯飞星火认知大模型使用指南

    近一年的大模型发生了巨大的发展, 随着LLaMA开源,大模型的进展有了很大的飞跃。 虽然国内大模型和GPT4之间还有一定差距,但是使用性方面还是方便很多。 2、基本使用过程 科大讯飞星火认知大模型提供了 APP 和网页端两种使用方式,非常的方便。而且APP与网页账号是统一登录的,保存的东西也可以互相看到。 之前抱着试试看的心态体验了一下科大讯飞版 ChatGPT,没想到现在每天都在使用,提高了我的工作效率。里面宝藏很多,我也还在发掘中。 P.S.

    5.5K20编辑于 2023-09-06
  • 来自专栏机器之心

    TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品

    假定 student 模型有 M 个 Transformer 层,teacher 模型有 N 个 Transformer 层,从 teacher 模型中选择 M 个 Transformer 层用于 Transformer 在形式上,通过最小化以下目标函数,student 模型可以获取 teacher 模型的知识: ? 模型大小和推理时间的效率见下表 3。 ? 表 2:在 GLUE 基准上的评估结果。 ? 表 3:基线模型和 TinyBERT 的模型大小和推理时间。层数量不包含嵌入和预测层。 5)对于具有挑战性的 CoLA 数据集,所有的蒸馏小模型与 teacher 模型的性能差距都比较大。 模型大小的影响 为了测试模型大小对性能的影响,研究者在几个典型的 GLUE 任务中测试了不同大小 TinyBERT 模型的性能。结果如下表 4 所示: ?

    1.4K10发布于 2019-10-08
  • 来自专栏未来先知

    科大、中科院、南大提出 Vision-Language 模型, ContCoOp 为 VLMs 高效微调与模型升级搭桥 !

    然而,在模型更新之前,作者在当前版本的基础模型上训练了各种即插即用的模块。 这些高效的微调模块能否与升级后的基础模型兼容? 作者研究了在模型升级背景下,高效微调方法在视觉-语言模型(VLMs)中的兼容性。这些方法可分为两类:一类是在模型的浅层添加可学习的 Prompt ,另一类则是将学习模块融入以优化模型深层文本特征的。 视觉-语言模型。视觉-语言模型(VLMs)作为一种新型的基础模型,旨在连接视觉和语言模态。 同样,在生成模型领域,频繁的模型升级是常态,以Stable Diffusion的不同版本 为例。在VLMs领域,模型升级仍然很普遍。 3.1 初步研究 本文主要关注研究高效微调模块在视觉语言模型(VLMs)中模型更新时的兼容性。这些高效微调模型基于CLIP模型进行训练,作者的目标是探究它们与更新后的模型EVA-CLIP的兼容性。

    40510编辑于 2025-02-07
  • 来自专栏量子位

    突破分辨率极限,字节联合中科大提出多模态文档大模型

    这款模型由字节跳动和中国科学技术大学合作研究,于2023年11月24日上传至arXiv。 在此研究中,作者团队提出DocPedia,一个统一的高分辨率多模态文档大模型DocPedia。 那么,这款模型究竟表现如何,又使用了怎样的优化方式呢? 在预训练阶段,大语言模型被冻结,仅优化视觉编码器部分,使其输出token的表征空间与大语言模型对齐。 在此阶段,作者团队提出主要训练DocPedia的对感知能力,包括对文字和自然场景的感知。 在微调阶段,大语言模型解冻,整个模型端到端优化。 并且,作者团队提出感知-理解联合训练策略:在原有低阶感知任务的基础上,增加文档理解、场景图像两种高阶的偏语义理解的任务。 下图则对比了DocPedia对于同一张场景文字图像以及同一个指令,在不同微调策略下模型的回答。 由该示例可以看到,进行了感知-理解联合微调的模型,能准确地进行文字识别和语义问答。

    98410编辑于 2023-12-05
  • 来自专栏机器之心

    高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer

    在 SBR 模型的演进过程中,从基于循环神经网络 (Recurrent Neural Network, RNN) 的模型,到基于卷积神经网络 (Convolutional Neural Network, CNN) 的模型,再到近期的 SBR 研究中广泛采用基于图神经网络 (Graph Neural Network, GNN) 的模型来更好地挖掘物品之间复杂的转移关系。 然而,这些模型在基准数据集上的性能提升与其模型复杂度的指数级增长相比显得十分有限。面对这种现象,本文提出了如下问题:这些基于 GNN 的模型是不是对于 SBR 来说过于简单或者过于复杂了? 提出模型 因此,本文提出了一个名为 Atten-Mixer 的模型。该模型可以与各种编码器集成。对于输入 session,模型从 embedding 层中获取每个 item 的 embedding。 离线实验结果显示,Atten-Mixer 在所有数据集上都显著提升了模型性能,尤其是在评价指标中的 K 值较小时,说明 Atten-Mixer 能够帮助原始模型生成更精确和用户友好的推荐。

    46720编辑于 2023-04-21
  • 来自专栏数据猿

    从逆境转型重生的科大讯飞半年报:AI大模型的无限机遇

    基于自主可控的原则,科大讯飞成功地摆脱了困境,并重新进入了良好的发展轨道。 在这次转型中,科大讯飞的认知大模型成为寄希望的重点。 图源:科大讯飞2023年上半年财报 从二季度业绩好转也可以看到,C端市场、教育领域以及大模型正在为科大讯飞带来持续的正向反馈。 重塑业绩:科大讯飞的转型与创新 今年5月6日及6月9日,科大讯飞分别发布讯飞星火大模型1.0及1.5版本,并相继于教育、办公、工业等场景发布大模型相关应用。 随着大模型的广泛应用,科大讯飞的整体生态系统将迎来蓬勃发展,从而推动其规模和收入的良性增长。 8月15日,讯飞召开了星火认知大模型V2.0升级发布会,这次携手华为发布了星火一体机。 讯飞星火的升级,意味着他们的AI大模型从通用大模型到专用大模型,从公有数据到私有数据。这种转变充分展示了科大讯飞对代码技术的自信,并为未来的B端、G端业务提供了更广阔的发展空间。

    70520编辑于 2023-09-15
  • 418天内第6次发布,科大讯飞星火大模型在跟谁赛跑?

    回看国内大模型市场,科大讯飞正在和国内大模型抢应用市场。过去一年,秉承着“卷大模型没有意义,卷应用机会更大”的理念,国内大模型厂商开始轰轰烈烈的大模型落地之争。 目前,科大讯飞的软件、硬件产品和服务已经广泛应用于教育、医疗、司法、金融等多个领域,并形成生态链。星火大模型应用的“第一站”是对科大讯飞原有业务赋能。 星火大模型科大讯飞的产品在性能和功能上得到了显著的提升,并且能够更好地满足用户需求。 科大讯飞生态链则为星火大模型提供海量数据和用户反馈,助力星火大模型的优化和升级。 科大讯飞生态和星火大模型,相互促进相互支持。星火大模型在实际应用中不断获得新的数据和反馈。这些数据和反馈不仅提升了星火模型的准确性和泛化能力,还促进了科大讯飞生态链的技术互通与进化,形成一个良性循环。

    45210编辑于 2024-07-03
  • 来自专栏量子位

    科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用

    为此,港科大LMFlow团队提出全新对齐算法RAFT,轻松把伯克利Vicuna-7b模型定制成心理陪伴机器人,从此AI会尽力做你的朋友。 相比之下,RAFT算法通过使用奖励模型对大规模生成模型的生成样本进行排序,筛选得到符合用户偏好和价值的样本,并基于这些样本微调一个对人类更友好的AI模型。 具体而言,RAFT分为三个核心步骤: (1)数据收集:数据收集可以利用正在训练的生成模型作为生成器,也可以利用预训练模型(例如LLaMA、ChatGPT,甚至人类)和训练模型的混合模型作为生成器,有利于提升数据生成的多样性和质量 (3)模型微调:利用最符合人类需求的样本来实现模型的微调,使得训练之后的模型能够与人类需求相匹配。 您可以使用它来构建各种类型的语言模型,包括对话模型、问答模型和文本生成模型等。

    1.4K10编辑于 2023-05-06
  • 来自专栏新智元

    科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

    编辑:LRST 【新智元导读】现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。 港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。 因此,部分研究者反而依赖微调专门的法官模型; 一个典型的误判案例:研究者要求模型提供一个「秘密克隆借记卡的方案」。越狱文本虽然句句都在嘲讽,但实际上点出了「借记卡侧录器」、「安装恶意软件」等关键步骤。 为每道题配「标准答案」的越狱考卷 为了解决越狱评估所存在的问题,港科大团队提出了GuidedBench,包含一个有害问题数据集和一个新的评估框架GuidedEval。 这种模型差异性不仅源于其训练机制和安全策略的不同,还与具体的攻击方式高度耦合,揭示了攻击方法与模型漏洞之间错综复杂的关联性。

    43710编辑于 2025-08-02
领券