暂无搜索历史
MRAD 另辟蹊径——冻结 CLIP 编码器,构建双层特征-标签记忆库,推理时直接相似度检索得到异常分数,无需参数拟合。基于此衍生三个递进变体(MRAD-TF ...
前一篇文章我们深度拆解了 nanobot——港大开源的超轻量 AI Agent 框架,4000 行代码平替 OpenClaw,一个月冲到 32K+ Star。
一句话概括:Nanobot 是一个超轻量级的开源个人 AI 助手框架,用不到 OpenClaw 1% 的代码量,实现了核心 Agent 能力。
如果你做过工业视觉部署,你知道这意味着什么——一个原本只能跑在 A100 上的模型,现在有可能塞进路边的巡检设备里。
姿态估计(Pose Estimation)是一种用于检测和追踪图像或视频帧中特定关键点的技术。这些关键点代表着结构性地标——人体关节、动物肢体、机械部件、甚至场...
数据:DIRSIG合成LWIR HSI,128通道(7.8-13.4µm),SF6气体,231张图像
Skills 社区接近 2000 个技能包,从写代码到发邮件,从浏览器自动化到数据库管理,应有尽有。
传统方法:你需要先准备几千张标注好的图像来训练模型,换个器官就得从头再来,换个医院的设备可能就不准了。
不是因为技术多炸裂,而是因为它让我意识到:大多数人用 Claude Code,可能只用了它 5% 的能力。
同一批图片、同一条prompt、未裁剪的真实工厂环境——奥地利克拉根福大学团队在双臂机器人纺织回收系统上硬测了9个VLM。结果:Qwen包揽前四,35b小模型打...
南京大学联合NVIDIA、浙江大学、上海交通大学、东京大学发布MM-Lifelong数据集,定义"多模态终身理解"新任务。181.1小时视频横跨三个时间尺度,G...
现有零样本3D异常检测方法将点云投影为2D图像后借助CLIP进行检测,但投影丢失了关键的几何细节,且仅依赖单一视觉模态,检测能力受限。GS-CLIP 提出"几何...
上一篇《实时视觉AI智能体框架来了!Vision Agents 狂揽7K Star》的关注度很高,说明大家对实时视频 AI Agent 这个方向确实感兴趣。了解...
一个开源框架,用几行Python代码就能搭出能"听"、能"说"、还能"看"的实时对话AI智能体——这就是 Daily.co 团队开源的 Pipecat。
还在为语音识别的高延迟、隐私泄露、API 调用费用发愁吗?来自 Moonshine AI 的开源项目 Moonshine Voice 给出了一个令人惊艳的答案 ...
换个随机种子就掉点、mAP 计算方式对不上、CUDA 版本一换代码全炸——CV 论文复现的痛,每个算法工程师都懂。读完斯坦福这篇论文后,我在想:这套方法搬到 C...
最近Stream团队开源的Vision Agents,在GitHub上已经悄悄爬上了7000多颗星。我花了一下午把它的文档和代码翻了个底朝天,说实话,有点意思。
等AI回消息的间隙,你是切出去刷了个短视频,还是盯着屏幕数它蹦出来的字?现在的GPT、Claude、Gemini,看着聪明,骨子里其实都是老式打字员——一个字接...
在计算机视觉领域,实时目标检测与实例分割一直是工业界和学术界关注的焦点。Transformer架构的加入让这一领域焕发新生,但如何在保持低延迟的同时实现高精度的...
一方面,它在GitHub上狂揽19万星标,被无数极客奉为“自ChatGPT以来最让人兴奋的项目”,仿佛预示着AI权力的下放。另一方面,它接连遭到Meta、Goo...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址