GoogleTest 是 Google 内部 C++ 基础设施的开源版本,以 17 年持续维护、4.5K+ commits、486 位贡献者,把「xUnit 测...
零服务器代码智能引擎,通过知识图谱 + 跨文件类型推断为 AI 编码 Agent 提供符号级代码上下文,精准切中「代码理解是瓶颈而非代码生成」的市场缺口。
AI Agent 记忆基础设施的领跑者——三大基准排名第一、sub-300ms 召回、Memory+RAG 一体化 API,让 AI 不再在每次对话后遗忘一切。
YC 校友、$6M 融资的开源 AI 上下文检索基础设施——将 57 个 SaaS 数据源自动连接、同步、向量化并提供三层搜索(Instant/Classic/...
AI 时代的网页数据基础设施——12 种引擎并发竞速抓取 + Rust 高性能模块 + 自研 NuQ 队列,不到两年达 96K stars,$16.2M 融资,...
近日,一篇发布于arXiv的论文《The Rise of Agentic Testing》在测试社区引发广泛讨论。这篇论文系统梳理了自动化测试从诞生至今的三次范...
Anthropic 一口气扔出两个模型——Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版),直接把排行榜洗了一遍。St...
大模型发展到今天,有些模型已经好久没更新了,比如《流浪地球》里人工智能同名的Moss。
传统自动化测试的核心痛点是维护成本——据 Capgemini《World Quality Report 2024-25》,测试脚本维护占自动化测试总成本的60%...
实验的设计本身就值得说道。研究者拿三个 Claude 模型(Opus 4.7、Opus 4.6、Sonnet 4.6),去对阵化学家桌面上几乎人手一份的两款专业...
在传统软件测试中,测试范围、用例优先级、缺陷预测与资源分配长期依赖测试经理的经验判断与历史项目直觉。然而,随着AI工程化落地加速、可观测性数据爆炸式增长以及CI...
在中大型软件交付项目中,测试工程师平均花费40%以上工时编写和维护测试用例——这并非估算,而是中国信通院2023年《软件质量保障白皮书》披露的真实数据。更严峻的...
常有人将对抗测试等同于AI安全中的‘对抗样本攻击’,这是典型窄化。在啄木鸟软件测试团队近3年27个企业级项目实践中,对抗测试已形成三层实战框架:
这是一个非常沉重的话题。先说结论吧。笔者发现,国内风风火火的各种科技赛事并没有帮助国家选拔出具备潜力的团队或者企业,反而是国外赛事无意中成就了这些伟大的团队和企...
如果你是测试工程师: Agent 系统的测试比传统软件难得多——输入不确定、执行路径不固定、结果难以标准化。这是新的挑战,也是新的专业壁垒。
今年以来,很多文章都在提到使用AI生成HTML文件,相比PPT如何方便和AI原生。然而,办公室里需要的不仅仅是一个设计美观,交互方便的网页,而是一份准确且经得起...
如果你想把 AI 编程助手放进终端,用在代码审查、修测试、查 TODO、CI 脚本里,也可以看。
6 月 1 日,Anthropic 向美国 SEC 提交了保密版 S-1 草案,启动 IPO 流程。
问题4、做的检测引擎,我本地测试100个样本跑10s左右,传到平台2s给我返回分数了,八成是随机sleep几秒然后随机给个分数。