互联网资讯 / 人工智能 · 2023年11月26日 0

新AI研究通过视频片段推断楼层平面图

楼层平面图在空间可视化、路线规划和建筑设计交流中扮演着重要角色。一个新的机器人在进入建筑时,可以利用平面图迅速理解整体布局。传统上,创建平面图需要完整的布局,以便3D传感器和摄像头能够捕捉到整个空间。

根据1月11日的报道,研究人员正在开发一种新型人工智能技术,能够通过视觉和音频信息,从短视频片段中重建平面图。

研究团队指出,音频信号为空间和语义信息提供了补充,增强了图像的映射能力。声音在表面反射后,可以揭示房间的形状,甚至超出摄像机的视野。来自远处或多个房间的声音可以指示自由空间的存在,以及可能存在的物体。此外,从不同方位听到的声音也有助于揭示与这些声音相关的活动或事物的布局。

该研究提出的方法称为AV-Map,旨在将带有多通道音频的短视频转化为2D楼层平面图。机器学习模型通过分析音频和视觉数据序列,推断楼层平面图的结构和语义,最终通过解码组件将音频与视频信息结合。AV-Map生成的平面图显示的区域远超视频中直接可见的部分,呈现出以离散语义房间标签划分的自由空间和被占用区域。

研究团队在一个数字环境的数据集中进行实验,设置了主动和被动两种情况。在第一种实验中,使用虚拟摄像机在模型房屋的房间内移动并发出已知的声音。而在第二种实验中,则依靠家中物体或人自然发出的声音进行探测。

研究人员表示,未来的工作将考虑扩展到多层平面图,并计划将绘图技术与机器人系统连接,以便主动控制摄像头。