GCN在行为识别领域的应用 行为识别的主要任务是分类识别,对给定的一段动作信息(例如视频,图片,2D骨骼序列,3D骨骼序列),通过特征抽取分类来预测其类别。 人体的骨骼图本身就是一个拓扑图,因此将GCN运用到动作识别上是一个非常合理的想法。 Skeleton-based Action Recognition(CVPR,2018)(cv,89.8%) 主要贡献: 1.首先通过深度渐进式强化学习(DPRL),用类似蒸馏的方法逐步得从输入的动作帧序列中挑选最具识别力的帧 2.将FDNet的输出作为GCN的输入,用于动作识别。 在网络得到初步的训练后,将decoder去掉,只使用前半部分抽取A-link特征,用于动作分类任务的进一步训练。
背景介绍 什么是动作识别? 动作识别的主要目标是判断一段视频中人的行为的类别,所以也可以叫做 Human Action Recognition。 动作识别的难点在哪里? 在这里,我们更深入地考察光流与动作识别的结合,并研究为什么光流有帮助, 光流算法对动作识别有什么好处,以及如何使其更好。 一些可能的论点是,当前数据集中的类别可以从单帧中识别出来,并且可以从单帧中识别视觉世界中更广泛的许多对象和动作. 我们的研究动机源于观察到这样一个现象, 在动作识别中, 基于视频的单帧的2D CNN在仍然是不错的表现。 专注于动作, 还是场景理解 一个视频中多个动作同时进行 严重依赖物体和场景首先无论是双流法还是3D卷积核,网络到底学到了什么? 会不会只是物体或场景的特征呢?而动作识别,重点在于action。
大家好,我是cv君,很多大创,比赛,项目,工程,科研,学术的炼丹术士问我上述这些识别,该怎么做,怎么选择框架,今天可以和大家分析一下一些方案: 用单帧目标检测做的话,前后语义相关性很差(也有优化版), 引体向上无法实现动作是否规范(当然可以通过后处理判断下巴是否过框,效果是不够人工智能的),高抬腿计数,目标检测是无法计数的,判断人物的球类运动,目标检测是有很大的误检的:第一种使用球检测,误检很大,第二种使用打球手势检测 ,遇到人物遮挡球类,就无法识别目标,在标注上也需要大量数据… 今天cv君铺垫了这么多,只是为了给大家推荐一个全新出炉视频序列检测方法,目前代码已开源至Github:https://github.com/ 神经网络使用的是这两个月开源的实时动作序列强分类神经网络:realtimenet 。 我的github将收集 所有的上述说到的动作序列视频数据,训练出能实用的检测任务:目前实现了手势控制的检测,等等,大家欢迎关注公众号,后续会接着更新。
动作识别(Action Recognition) 2.1 动作识别简介 动作识别的目标是识别出视频中出现的动作,通常是视频中人的动作。 动作识别是视频理解的核心领域,虽然动作识别主要是识别视频中人的动作,但是该领域发展出来的算法大多数不特定针对人,也可以用于其他视频分类场景。 ,很长一段时间基于深度学习算法的动作识别准确率达不到或只能接近传统动作识别算法的准确率。 动作识别和时序动作定位都是预测型任务,即给定一个视频,预测该视频中出现的动作,或者更进一步识别出视频中出现的动作的起止时序区间。 欢迎 AI 社区从业者们积极报名参与,同时我们也欢迎 NeurIPS 2021 论文作者们作为嘉宾参与论文分享与 Poster 展示。感兴趣的小伙伴点击「阅读原文」即可报名。
作者|李秋键 出品|AI科技大本营(ID:rgznai100) 引言 伴随着计算机视觉的发展和在生活实践中的广泛应用,基于各种算法的行为检测和动作识别项目在实践中得到了越来越多的应用,并在相关领域得到了广泛的研究 其中传统的人体姿态识别方法有RMPE模型和Mask R-CNN模型,它们都是采用自顶向下的检测方法,而Openpose作为姿态识别的经典项目是采用的自底向上的检测方法,主要应用于行为监测、姿态纠正、动作分类 整个多目标动作监测系统的搭建主要是依赖于openpose的姿态识别环境。 本文共设定站立、行走、奔跑、跳动、坐下、下蹲、踢腿、出拳、挥手等行为标签,每类行为通过摄像头采集相关视频,并将视频分帧成多张图片,由不同的照片组合形成了不同动作,将其中的姿态特征利用openpose提取作为完整动作的基本识别特征 二次检测主要对人体高度和宽度的比例进行对比以判断是否为跌倒动作。
什么是动作识别?给定一个视频,通过机器来识别出视频里的主要动作类型。 动作识别表面是简单的分类问题,但从本质上来说,是视频理解问题,很多因素都会影响其中,比如不同类型视频中空间时间信息权重不同? 视频中动作持续的起始终止时间差异很大?视频对应的语义标签是否模糊? 本文主要对比 video-level 动作识别的经典方法TSN,及其拓展变形版本的TRN和ECO。 Temporal Segment Network[1], ECCV2016 TSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧 FC)的结构来实现,而TSN中的fusion函数只是通过简单的 average pooling 2.通过时间维度上 Multi-scale 特征融合,来提高video-level鲁棒性,起码能抗快速动作和慢速动作干扰 【获取码】SIGAI0823 [55]浓缩就是精华-SIGAI机器学习蓝宝书【获取码】SIGAI0824 [56]DenseNet详解【获取码】SIGAI0827 [57]AI时代大点兵国内外知名AI公司
ECO动作识别网络简介 Long-term Spatio-temporal Architecture 主要网络架构如下图所示: 如上图所示,将视频帧的数量作为一个整体提供给网络。 为了了解随着时间的推移,场景的不同外观是如何构成动作的,我们将所有帧的表示进行叠加(concatenate),并将它们输入到三维卷积网络中。此网络生成最终动作类label。 PS:2DNet用来提取视频帧数特征并输出特征图,3DNet用来对动作进行分类,输出action的概率。 ECO Lite and ECO Full ECO-Lite中的3D架构针对学习帧之间的关系进行了优化,但在仅从静态图像内容识别出的简单短期操作中,它往往会浪费电脑容量和资源。 各个2模型动作推理结果。
Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition 原文作者:Yang Liu 内容提要 现有的基于视觉的动作识别容易受到遮挡和外观变化的影响 对于同样的动作,从视觉传感器(视频或图像)和可穿戴传感器学到的知识可能是相关和互补的。然而,可穿戴传感器与视觉传感器采集的动作数据在数据维度、数据分布、固有信息内容等方面存在显著的模态差异。 在本文中,我们提出了一个新的框架,名为语义感知自适应知识蒸馏网络(SAKDN),通过从多个可穿戴传感器中自适应地转移和提取知识来增强视觉传感器模式(视频)中的动作识别。
触摸静电柱动作行为识别系统借助ai视频分析技术和风险管控技术需求,开展人员睡岗离岗检测,职工没按规定触摸静电柱这两种风险行为识别分析报警,智能化识别生产作业场所安全隐患,为当代城市安全风险管理提供关键优算法 当触摸静电柱动作行为识别系统检测出工人进到车间未触摸静电柱释放静电时,马上警报。报警记录能够展示在监管客户端页面上,触摸静电柱动作行为识别系统还可以将报警记录推送到移动端。 触摸静电柱动作行为识别系统并对监控屏幕开展7×24不间断分析大大提升了视频内容利用效率,减少了人力资源成本。
核心工作 提出了一种新的分层合成表示(HCR)学习方法,用于少数镜头动作识别。具体而言,就是利用层级聚类将动作划分为多个子动作,并进一步分解为细粒度的空间注意力动作(SAS动作)。 理论依据是是动作识别任务中新动作类型和基本动作类型之间在子动作和细粒度SAS动作之间有着相似之处。此外,利用Earth Mover’s Distance衡量了视频样本间子动作的相似性。 2. 层次组合表示 该方法将视频动作进行了两次划分:第一次是根据人通常将动作分解来识别动作的原理,将复杂动作划分为多个子动作;第二次是沿着空间维度,将子动作划分为细粒度的SAS动作。 比如本文通过模仿人类在识别动作时通常将动作分为一些小的细节,动作识别模型也将视频中的动作进行两次划分,进行细粒度的识别。 本文在计算动作之间距离的时候,使用的是EMD,并不是计算机领域中常用的算法。 论文获取 上述论文和代码快捷下载 关注公众号 AI八倍镜。后台回复:HCR,即可一步下载上述论文以及开源代码。
从后面的名字可以看出该任务就是对含人体动作的视频进行分类。 (关于动作检测、分割、活动识别等方向将在后续文章整理) 该部分既包含基于普通视频的动作识别,也包含基于深度图和基于骨架的动作识别。 动作识别(Action Recognition) 细粒度动作识别的多模态域适应技术,使用RGB与光流数据,解决动作识别在不同数据集上训练和测试性能下降的问题。 Recognition 作者 | Jinhyung Kim, Seunghwan Cha, Dongyoon Wee, Soonmin Bae, Junmo Kim 单位 | KAIST;卡内基梅隆大学;Clova AI 结合视觉、语音、文本的动作识别 动作识别的跨模态监督信息提取(文本-语音-视觉识别的结合) 该文研究了一个非常有意思的问题,通过电影视频中语音与对应台词构建一个动作识别的分类器,然后用此模型对大规模的视频数据集进行了弱监督标注 动作识别中的时空信息融合 如何在动作识别中进行更好的时空信息融合是涉及更好的动作识别算法的关键,该文提出在概率空间理解、分析时空融合策略,大大提高分析效率,并提出新的融合策略,实验证明该策略大大提高了识别精度
从后面的名字可以看出该任务就是对含人体动作的视频进行分类。 (关于动作检测、分割、活动识别等方向将在后续文章整理) 该部分既包含基于普通视频的动作识别,也包含基于深度图和基于骨架的动作识别。 动作识别(Action Recognition) 细粒度动作识别的多模态域适应技术,使用RGB与光流数据,解决动作识别在不同数据集上训练和测试性能下降的问题。 Recognition 作者 | Jinhyung Kim, Seunghwan Cha, Dongyoon Wee, Soonmin Bae, Junmo Kim 单位 | KAIST;卡内基梅隆大学;Clova AI 结合视觉、语音、文本的动作识别 动作识别的跨模态监督信息提取(文本-语音-视觉识别的结合) 该文研究了一个非常有意思的问题,通过电影视频中语音与对应台词构建一个动作识别的分类器,然后用此模型对大规模的视频数据集进行了弱监督标注 动作识别中的时空信息融合 如何在动作识别中进行更好的时空信息融合是涉及更好的动作识别算法的关键,该文提出在概率空间理解、分析时空融合策略,大大提高分析效率,并提出新的融合策略,实验证明该策略大大提高了识别精度
视频识别和检测也是最有落地场景前景的,像人脸识别、动作检测、异常检测、行人重识别、行人计数等都是很有落地前景的应用方向。 基于骨骼点关键点识别有ST-GCN框架,主要把人体分为21个重要关节点,根据这些关节点不同的动作有不同的连接方式,运用图神经网络进行分类识别,应用场景有跌倒检测、动作检测等。 当累计到预定帧数或跟踪丢失后,使用行为识别模型判断时序关键点序列的动作类型。 该任务使用PP-HGNet实现,当前版本模型支持打电话行为的识别,预测得到的class id对应关系为: ❝0: 打电话, 1: 其他 ❞ 基于行人轨迹的行为识别 行人轨迹识别可以应用在闯入识别。 通过行人检测框的下边界中点在相邻帧位于用户所选区域的内外位置,来识别是否闯入所选区域。 基于视频分类的行为识别 视频分类识别可以应用在异常动作识别、打架识别等场景上。
选自Google Research 机器之心编译 参与:路雪 视频人类动作识别是计算机视觉领域中的一个基础问题,但也具备较大的挑战性。 现有的数据集不包含多人不同动作的复杂场景标注数据,今日谷歌发布了精确标注多人动作的数据集——AVA,希望能够帮助开发人类动作识别系统。 尽管近几年图像分类和检索领域实现了很大突破,但是识别视频中的人类动作仍然是一个巨大挑战。原因在于动作本质上没有物体那么明确,这使得我们很难构建精确标注的动作视频数据集。 为了推进人类动作识别方面的研究,谷歌发布了新的数据集 AVA(atomic visual actions),提供扩展视频序列中每个人的多个动作标签。 这表明,未来 AVA 可以作为开发和评估新的动作识别架构和算法的测试平台。 我们希望 AVA 的发布能够帮助人类动作识别系统的开发,为基于个人动作精确时空粒度的标签对复杂活动进行建模提供了机会。
传统视频监控依赖人工回溯,存在响应滞后(平均>2小时)、复杂动作(如精密装配)识别准确率不足65%等问题。 本文提出基于YOLOv11目标检测与RNN-LSTM时序行为建模的智能识别系统,通过多模态感知-动态动作建模-分级预警联动技术架构,实现动作识别精度95.2%(实验室数据),实测响应延迟<0.5秒。 云端管理平台 实时3D产线数字孪生:映射各工位动作状态(如红色闪烁标识违规工位); 自动生成结构化分析报告(含动作合规率趋势、高频违规类型、效率瓶颈工位),通过OPC UA协议对接MES系统,实现“识别 :设计有限状态机(FSM) 约束动作序列(如“检测”必须在“装配”后),违规跳步识别准确率达94%。 车间产线工人动作行为识别系统通过集成AI大模型,车间产线工人动作行为识别系统可以检测员工的工作质量,防止错误的操作引发质量问题;可以识别工人操作的速度和准确性,及时调整工人的工作方式以提高生产效率;可以监测生产过程中的关键环节
人员动作行为AI分析系统通过python+yolo系列网络学习模型,人员动作行为AI分析系统对现场画面人员行为进行实时分析监测,人员动作行为AI分析系统自动识别出人的各种异常行为动作,人员动作行为AI分析系统立即抓拍存档预警同步回传给后台
工厂人员作业行为动作识别检测算法通过SVM+R-CNN深度学习算法框架模型,工厂人员作业行为动作识别检测算法实时识别并分析现场人员操作动作行为是否符合SOP安全规范流程作业标准,如果不符合则立即抓拍告警提醒 在人员作业行为动作识别检测算法识别中,有很大一部分研究是针对于人体行为识别的,主要进行识别的也是一些家庭内的危险行为,如小孩、老人摔倒检测,外来人员闯入等,这些都可归为人体行为识别的范畴之内。 人员作业行为动作识别检测算法(action recognition),即根据视频图像完成对于人体动作的区分,这其中包括但不限于摔倒等危险动作。 图片人员作业行为动作识别检测算法通过OpenPose进行人体动作关键点的提取,之后利用CNN及SVM来判断是否摔倒。 该方案的特色在于可通过OpenPose的方法取得人体姿态的关节点位置,从这一方面考虑进行后续识别,人员作业行为动作识别检测算法具有很好的鲁棒性,而后续的工作也可以结合采用CNN等深度学习的方式来进行动作的高识别率检测
AI动作异常行为分析监测系统通过python+yolov7网络模型深度学习技术,AI动作异常行为分析监测系统对现场人员人体动作操作行为以及穿戴情况是否合规进行实时监测。
现在交给AI,输入几句话就能搞定(不同颜色代表不同动作): 看向地面并抓住高尔夫球杆,挥动球杆,小跑一段,蹲下。 此前,AI控制的3D人体模型基本只能“每次做一个动作”或“每次完成一条指令”,难以连续完成指令。 现在,无需剪辑或编辑,只需按顺序输入几条命令,3D人物就能自动完成每一套动作,全程丝滑无bug。 这只新AI的名字叫TEACH,来自马普所和古斯塔夫·艾菲尔大学。 网友们脑洞大开: 这样以后拍3D动画电影,是不是只用剧本就能搞定了? 显然,游戏和仿真行业可以考虑一下了。 与其他输入单一文本、输出确定性动作的AI不同,TEMOS能通过单一文本,生成多种不同的人体运动。 作者介绍 Nikos Athanasiou,马普所在读研究生,研究方向是多模态AI,喜欢探索人类行动和语言背后的关系。
现在交给AI,输入几句话就能搞定(不同颜色代表不同动作): 看向地面并抓住高尔夫球杆,挥动球杆,小跑一段,蹲下。 此前,AI控制的3D人体模型基本只能“每次做一个动作”或“每次完成一条指令”,难以连续完成指令。 现在,无需剪辑或编辑,只需按顺序输入几条命令,3D人物就能自动完成每一套动作,全程丝滑无bug。 这只新AI的名字叫TEACH,来自马普所和古斯塔夫·艾菲尔大学。 网友们脑洞大开: 这样以后拍3D动画电影,是不是只用剧本就能搞定了? 显然,游戏和仿真行业可以考虑一下了。 与其他输入单一文本、输出确定性动作的AI不同,TEMOS能通过单一文本,生成多种不同的人体运动。 作者介绍 Nikos Athanasiou,马普所在读研究生,研究方向是多模态AI,喜欢探索人类行动和语言背后的关系。