互联网资讯

三项 AI 研究推动空间计算与头显技术进展

2026年5月12日 ·
openmagic ad

5月1日,科技媒体报道,一家科技公司近期发布了三项新研究,继续推动空间计算与头显相关技术的发展。

据4月报道,该公司内部暂停了新款头显的研发,团队的重点转向智能眼镜及相关技术。

不过,最新发布的论文表明,该公司并未放弃头显相关项目。这三项研究涵盖多模态大模型的空间推理评测、手语视频标注以及3D头部重建等领域。

多模态大模型的空间推理评测

其中,最具代表性的研究成果是公开在其机器学习博客上的论文《From What They Are to What They Do: Benchmarking Spatial-Functional Intelligence for Multi-Modal LLMs》。该论文介绍了 SFI-Bench 基准,旨在评估多模态大模型的空间理解能力,尤其关注其对物体功能的理解能力。

原文指出,该基准包含134段室内视频,并整理出1555条专家标注的问题。

SFI-Bench 不仅询问模型“这是什么、在哪里”,还会进一步探询“它如何使用、故障如何处理”。例如,模型需要从柜子里找到同品牌的一组瓶子,理解如何取消洗衣机的当前程序,或判断电视遥控器的功能。这种设计更贴近日常家庭场景,也与未来空间助手需要处理的真实任务相符合。

测试结果显示,Gemini 3.1 Pro获得了最高分,GPT-5.4-High位列第二,Gemini-3.1-Flash-Lite排名第三。

同时,论文也指出了一个共同短板:几乎所有模型在“带条件的全局计数”方面表现不佳,且在空间记忆与功能知识整合方面存在明显限制。

手语标注的自动化研究

手语相关论文《BootsTrap PING Sign Language Annotations with Sign Language Models》尝试利用 AI 自动生成标注,以减少数百小时的人工标注工作量。

原文提到,该团队建立了近500条人工英文词汇与术语的标注,并扩展至超过300小时的 ASL STE Wiki 和 7.5小时的 FLEURS-ASL 数据集。其手指拼写模型在 FSBOA 数据集上达到 6.7% 的 CER,在 ASL Citizen 数据集上达到 74% 的 top-1 准确率。

大型头部重建研究

第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction》聚焦于3D头像重建。研究提出了 HeadsUp 方法,能够从大规模多摄像头集中重建高质量的3D Gaussian 头部模型,测试使用了超出一万名受试者的内部数据集,规模比现有多视角数据集高出一个数量级。这可能与头显相关的人脸捕捉与表情渲染需求相呼应。

项目团队的高管曾表示,头显技术展现了融合物理世界与数字世界的未来趋势。对于具体时间表,他坦言难以预测“空间计算”何时成为主流,但坚信这一方向是不可逆的。

以上研究的发布,显示出在空间理解、跨模态标注与高质量头部建模等方面的持续探索,旨在推动更自然的用户交互与沉浸式体验的发展。[[[IMG_1]]][[[IMG_2]]][[[IMG_3]]]