暂无搜索历史
多模态大模型(MLLM)在医学影像诊断上有一个根本性矛盾:它们能"看"图像、能"说"结论,但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、...
文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。但 OmniDoc...
中文语音识别的开源方案越来越多,但它们不在同一个层面上——有的是模型,有的是工具包,有的是部署运行时。直接把它们摊在一张表里比"谁更好",容易越看越糊涂。本文把...
重构一个模块,过去要半天;现在一个 agent 会话,5 分钟。给项目补全测试,过去"不值得花时间";现在 agent 跑一遍,1 分钟。当写代码的成本从小时级...
住宅建筑的外立面检测传统上依赖人工——爬脚手架、挂绳索、拿检测仪逐面墙检查。一栋 34 层高楼,人工检测需要 2-3 天,覆盖率只有 40-60%,而且肉眼看不...
AI 做工业质检,大多数人想到的是摄像头+深度学习自动识别缺陷。但 BMW 在 Regensburg 工厂做了一件不一样的事:不是用 AI "看"缺陷,而是用生...
多目标跟踪(MOT)的主流做法是"检测+关联":先检测出每一帧的目标,再用匈牙利算法、IoU 匹配等手工设计的启发式方法把前后帧的目标对应起来。这些方法能用,但...
工业异常检测(IAD)从数据准备到模型训练,每一步都需要大量人工介入。现有的通用 Agent 框架(如 openHands、openManus)虽然能写代码,但...
做零样本异常检测,一定要用文本提示吗?VisualAD 给出了一个意外的答案:把 CLIP 的文本编码器整个去掉,只靠两个可学习的视觉 token,参数量砍掉 ...
使用 AI Agent 编写代码时,您大概遇到过情况:Agent 生成的代码调用了一个已经废弃的 API 版本,或者用了最新版本中的一个参数名称已经修改了。您花...
语音识别(ASR)是人工智能落地最广泛的方向之一,但学术界的前沿模型与工业界的实际部署之间一直存在距离。
实时目标检测长期由 YOLO 系列主导,Transformer 架构因推理速度劣势一直难以进入实时场景。
路面病害检测领域长期缺乏统一的大规模基准数据集,各研究使用不同数据源、标注格式和类别定义,导致模型间难以直接比较。
将 LLM 智能体框架应用于无人机物理巡检是一个新兴方向,但不同推理方法在实际任务中的表现差异尚不清楚。
风电叶片在恶劣天气下易受损,需定期巡检。传统方式依赖人工操作,效率低且存在安全风险;现有无人机自动巡检方案则面临两个难题——叶片停止角度估计易受背景干扰,拍摄过...
少样本异常检测(Few-Shot Anomaly Detection)是工业质检领域的核心需求——在仅有极少量正常样本的条件下,模型需要准确识别并定位缺陷。现有...
【导读】 自主无人机巡检风电叶片时,需要准确检测风机及其关键特征(叶尖、塔顶、轮毂等)来实现安全定位和避障。然而,现有方法依赖人工标注的真实图像,在天气、光照、...
【导读】 工业巡检机器人在执行仪表读数任务时,经常面临遮挡、视角不佳、光照异常等问题,导致读数失败甚至误读。如何让机器人在运行时自动识别"成功读取""已知故障"...
编译按:本文基于 Forbes 撰稿人 John Koetsier 2026 年 3 月 10 日的报道编译与评论。原文信息详见文末出处。
MRAD 另辟蹊径——冻结 CLIP 编码器,构建双层特征-标签记忆库,推理时直接相似度检索得到异常分数,无需参数拟合。基于此衍生三个递进变体(MRAD-TF ...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址