服务热线

13103866733
网站导航
主营产品:
产品展示
当前位置: 首页 > 案例展示

北京大学人工智能研讨院朱毅鑫团队及其合作者在人物-场景交互动作生成方面获得重要发展

产品时间: 2025-03-24 13:01:19 |   作者: 完美电竞平台更换账号怎么登录

详细介绍

  近来,北京大学人工智能研讨院朱毅鑫助理教授团队与北京通用人工智能研讨院黄思远研讨员团队联合在CVPR2024会议上宣布了题为“Scaling Up Dynamic Human-Scene Interaction Modeling”的论文。该研讨聚集于人与场景交互的动作生成问题,在建模、办法和练习数据方面均有立异奉献。作者们提出了一种运用自回归条件分散模型的动作生成结构,完结了丰厚、实在且无长度约束的人体动作生成。经过引进一种部分场景表征办法,高效地将场景信息作为条件融入分散模型。关于长时刻序列的动作,研讨团队提出一种简略有用的发展标识符,使得自回归生成机制可以完整地出现动作的语义。此外,研讨团队发布了现在为止最大的一个人物-场景交互数据集,包含翔实的针对人物动作以及三维场景的标示信息。

  人们在日常日子中轻松自如地完结各种动作,如坐在椅子上、拿起瓶子或翻开抽屉,这些动作的天然流畅性是仿真技能寻求的方针。现在,仿真人类肢体动作已成为核算机视觉、核算机图形学、机器人技能和人机交互等范畴的热门课题。生成人体动作的中心方针在于发明天然、传神且多样化的动态形式,这在影视、游戏、增强实际与虚拟实际等多个范畴都有广泛应用。深度学习技能的蓬勃发展极大地推动了人体动作生成技能的前进。人体建模技能的突破性发展,让从视频中捕捉动作和构建大规划动作数据库变得更快捷和高效。正是根据这些技能革新,数据驱动的人体动作生成技能正敏捷成为研讨界的新宠。

  现在,在给定场景和动作条件下生成人物动作的研讨仍处于起步阶段,这首要因为缺少高质量人体动作与场景交互数据集。现有的实在场景数据集,例如PiGraphs和PROX,在人体动作标示质量方面仍有缺少。尽管经过VICON等设备录制的动作捕捉数据集能带来高质量的动作标示,但这一些数据集缺少多样化的3D场景中人与场景的交互。最近,运用虚拟仿真技能的组成数据集因其低成本和高适应性而引起研讨者们的重视。

  本研讨发布了一个全新的人物-场景交互数据集TRUMANS,有用且精确地将3D组成场景仿制到兼具质量与规划的物理环境中。该数据集包含15小时的长时刻人体运动数据,覆盖了卧室、餐厅和办公室等100个场景装备。TRUMANS涵盖了包含寻路、物体操作以及与刚性和铰接物体的交互等全面的日常行为。尽管场景是组成的,但经过详尽仿制保证了人与物体之间的交互可以无缝、天然且精确地重现。

  研讨提出了一种办法,可以在特定场景和动作类型的条件下生成实在的人物动作,规划了一个部分场景感知器,辨认周围环境特征并生成契合可供性的交互动作作为呼应。此办法在3D环境中的避障才能方面表现出色——经过动作信息编码器,将时刻信息融入动作片段中,使模型可以每时每刻接纳指令并生成相应的动作,达到了将逐帧的动作标签作为可控条件归入。采用了自回归分散模型技能,完结恣意长度接连动作的生成。

  图2. TRUMANS数据集来源于精密的动作捕捉和实在的烘托,可对场景做多样的替换

  根据动作生成的研讨方针和办法包含3个部分:自回归分散模型的动作生成结构、每一个循环节内的分散模型运作办法、将场景信息和动作类别信息作为条件融入模型的办法。

  本研讨提出了一种自回归分散战略,经过一个个循环节首尾相连的办法逐渐生生长动作序列,生成可控的、恣意长度的天然且具多样性的人体动作。每个循环节经过扩展前一个循环节的结尾几帧,使下一个片段可以天然地与其联接。过渡帧上的固定数据用掩码符号,练习的进程经过填充未被掩码的帧来补全每个片段的其余部分。因为运用了classifier-free的练习机制,该结构也能用于首个循环节的生成。

  本地场景感知器用于获取本地场景几许信息,并将其作为运动生成的条件。具体来说,给定一个场景,首要生成一个大局占用网格,每个单元格被分配一个布尔值表明其是否可达,1表明可达,0表明不可达。本地占用网格是以当时循环节的子方针为中心的三维网格,笔直范围内从0米到1.8米,方向与榜首帧中人物骨盆的偏航方向对齐。本地占用网格的值经过查询大局占用网格获取。

  本办法运用Vision Transformer(ViT)对体素网格进行编码。经过沿xy平面区分本地占用网格,将z轴视为特征通道来构建Token,并将这些Token输入到ViT模型中,运用输出的场景嵌入作为分散模型的条件。尽管将场景离散化为网格降低了人与场景交互的精确度,但这对进步练习功率和办法的实用性对错常有必要的。

  本研讨的办法在生生长时刻动作时逐帧运用动作标签作为条件。在这个模型中,一个特定动作可能会超越一个循环节,并在多个循环节中继续,因而模型需求了解动作履行的进程,引进一个发展标识符,用于支撑逐帧的动作类别标签。在原始动作标签上增加一个0到1之间的实数,表明当时循环节在整个动作中的发展。模型可处理跨多个循环节的动作,增强生成动作序列的语义性和接连性。/n本文榜首作者是北京大学人工智能研讨院博士生蒋楠(导师朱毅鑫)、清华通班本科生张至远,通讯作者为朱毅鑫和黄思远。论文作者还包含北京大学人工智能研讨院实习生李弘杰、北京大学前沿核算研讨中心博士生马霄璇(导师王亦洲)、北京理工大学博士生王赞(导师梁玮),以及北京通用人工智能研讨院研讨员陈以新和刘腾宇。

  北京大学深研院团队在《天然·通讯》撰文锂电池无钴高镍正极资料锂占位的调控研讨发展

  北京大学潘锋团队在《天然·通讯》发文,提醒锂电池无钴高镍正极资料锂占位的调控

  北京大学∙山西碳基薄膜电子研讨院在用于显现像素驱动的碳纳米管薄膜晶体管研讨中获得重要发展

  BOE(京东方)携前沿显现技能露脸ICDT 2025 “绿色+科技”引领工业继续向新

  上海移动携手诺基亚贝尔和高通初次在F1我国大奖赛期间完结根据毫米波的多类型终端直播立异试点

 


关注我们