首页
学习
活动
专区
圈层
工具
发布

#测试

当 AI 安全赛变成了 Web 捡漏局:第三届数信杯参赛思考与“模型防御”题的非预期解

枇杷熟了

现在的 AI CTF 出题似乎陷入了一个怪圈:出题人懂 AI 但不懂安全,或者懂 Web 安全但不懂 AI。这就导致了题目往往处于一种割裂状态。团队的师傅说这种...

500

"最后一公里"的盲区:首个S2S气候服务多模态基准测试发布

气象学家

本文提出了S2SSERVICEBENCH,首个专门评估多模态大语言模型(MLLMs)在"最后一公里"次季节到季节(S2S)气候服务中表现的基准测试。该基准从实际...

300

OpenClaw免费小白安装教程来了!养成你的第一个龙虾🦞

气象学家

如果你是 AI 新手,想用一个免费、强大、本地优先的工具把各种大模型、知识库、绘画、Agent 全部集成起来,这份教程就是为你准备的。Cherry Studio...

3400

全球首个!模拟极端天气与复杂交通场景

气象学家

全球首个“实物整车-动态交通-气候模拟”三位一体智能驾驶实验室内景。重庆高新区融媒体中心供图

1500

人工智能提升气候变化下的洪水预测能力

气象学家

当工程师和规划者设计道路、桥梁和大坝时,他们依赖的水文模型本应能保护基础设施和社区免受50年一遇和百年一遇洪水的冲击。但康奈尔大学的一项新研究发现,随着气候变化...

900

薛蕾:以科技报国为使命 以全球视野促发展

气象学家

国家气象信息中心系统发展室副主任、正高级工程师薛蕾,不仅是国家突发事件预警信息发布能力提升工程(一期)项目副总设计师,气象信息化系统工程一级系统总指挥,还担任W...

4600

结果揭晓!ECMWF人工智能气象竞赛最新赛段收官

气象学家

AI气象竞赛(AI Weather Quest)的参赛者们正运用人工智能技术进行次季节天气预报——这一预报时间尺度恰好填补了长期与短期预报之间的空白,对于帮助各...

3410

ATMOSSCI-BENCH:评估大语言模型在大气科学中的最新进展

气象学家

大语言模型(LLMs)的快速发展,尤其是在推理能力上的突破,为应对大气科学中的复杂挑战、推动科学发现带来了变革性潜力。然而,要在这一领域有效发挥LLM的作用,需...

2800

牛津大学大咖Tim Palmer最新《Nature》评论文章:AI能否可靠地预测极端天气?

气象学家

作者: Shruti Nath & Tim Palmer 来源: Nature 第651卷,2026年3月19日,第583-584页

3310

Nature子刊重磅:热带气旋降雨深入内陆,颠覆了"内陆地区相对安全"的传统观念!

气象学家

Deng, E., Xiang, Q., Ouyang, DH. et al. Tropical cyclone rainfall extends inland...

4110

J. Am. Chem. Soc. | AlphaFold3 实现共价药物发现

DrugOne

本文报道了一项里程碑式工作:将 Google DeepMind 的全原子结构预测模型 AlphaFold3(AF3) 首次系统性地应用于共价配体的虚拟筛选(co...

2500

字节跳动AI制药团队发布AnewSampling | 打破AlphaFold3静态结构局限,精准捕捉复合物动态结合过程

DrugOne

从结果来看,AnewSampling 在内部自建测试集、公开的 JACS and Merck 基准测试集,以及大规模蛋白动态数据集 ATLAS上,均展现出强劲表...

3000

OpenFold3-preview2: 开源版AlphaFold3 再升级,实现跨分子类型的高精度结构预测

DrugOne

研究人员介绍了 OpenFold3-preview2(OF3p2),这是 OpenFold3 通用生物分子结构预测系统的第二个预发布版本。与上一版本 OF3p ...

2410

Science|Arc Institute: 蛋白质语言模型与上位效应引导的快速定向进化

DrugOne

蛋白质工程受限于在高维序列空间中低效搜索协同突变组合。传统方法采用逐步叠加突变的方式,而机器学习方法则需要大量数据集或多轮实验,并受到成本高昂、长度受限的基因合...

2810

无需阴性对照的宏基因组跨样本污染检测工具——CroCoDeEL

用户1075469

宏基因组测序在微生物组研究中应用广泛,但样本间交叉污染这个技术问题一直被严重低估。这种污染通常发生在96孔板中相邻样本之间,会导致物种丰度失真、假阳性发现,甚至...

4710

AI编程学什么?测试用例,被忽视的终极护城河#Mixlab AI编程训练营

mixlab

测试用例就是规范。 没有测试,AI不知道正确的行为是什么样子。SQLite正是深谙此道,代码是公开的,但测试是闭源的。你可以用AI复刻SQLite的功能,但你很...

4610

Claude Skills 2.0#技能基准A/B测试,你的技能可能正在悄悄"过期"

mixlab

三个月前,你写了一个帮助 Claude 写 Landing Page 的技能。当时模型还不擅长这个,你的详细步骤确实让它表现得更好。

2800

重磅 | 模型自己写的 Skill 没用?SkillsBench 揭秘 Agent Skill 增强真相

mixlab

近日,一项名为 SkillsBench 的研究填补了这一空白。作为首个将 Skills 作为一级评估对象的基准测试,它通过 7,308 条轨迹的大规模实证评估,...

12910

一个功能逆天的 Shell 脚本!GitHub 暴涨 4100+ Star

民工哥

对于IT运维人员来说,有时网络问题真的难以解决,传统的 ping 命令只能测试联通性,它无法提供详细的报告。

4910

传统 ping 命令已过时!更快、更精准、更直观的替代利器来了,网络故障排查秒级定位

民工哥

它通过模拟 TCP 三次握手过程(SYN → SYN-ACK → ACK),直接测试目标端口的开放状态,并提供连接延迟信息,帮助用户快速定位网络或服务故障。

6010
领券