互联网资讯

三项 AI 研究推动空间计算与头显技术进展

2026年5月12日 ·

5月1日，科技媒体报道，一家科技公司近期发布了三项新研究，继续推动空间计算与头显相关技术的发展。

据4月报道，该公司内部暂停了新款头显的研发，团队的重点转向智能眼镜及相关技术。

不过，最新发布的论文表明，该公司并未放弃头显相关项目。这三项研究涵盖多模态大模型的空间推理评测、手语视频标注以及3D头部重建等领域。

多模态大模型的空间推理评测

其中，最具代表性的研究成果是公开在其机器学习博客上的论文《From What They Are to What They Do: Benchmarking Spatial-Functional Intelligence for Multi-Modal LLMs》。该论文介绍了 SFI-Bench 基准，旨在评估多模态大模型的空间理解能力，尤其关注其对物体功能的理解能力。

原文指出，该基准包含134段室内视频，并整理出1555条专家标注的问题。

SFI-Bench 不仅询问模型“这是什么、在哪里”，还会进一步探询“它如何使用、故障如何处理”。例如，模型需要从柜子里找到同品牌的一组瓶子，理解如何取消洗衣机的当前程序，或判断电视遥控器的功能。这种设计更贴近日常家庭场景，也与未来空间助手需要处理的真实任务相符合。

测试结果显示，Gemini 3.1 Pro获得了最高分，GPT-5.4-High位列第二，Gemini-3.1-Flash-Lite排名第三。

同时，论文也指出了一个共同短板：几乎所有模型在“带条件的全局计数”方面表现不佳，且在空间记忆与功能知识整合方面存在明显限制。

手语标注的自动化研究

手语相关论文《BootsTrap PING Sign Language Annotations with Sign Language Models》尝试利用 AI 自动生成标注，以减少数百小时的人工标注工作量。

原文提到，该团队建立了近500条人工英文词汇与术语的标注，并扩展至超过300小时的 ASL STE Wiki 和 7.5小时的 FLEURS-ASL 数据集。其手指拼写模型在 FSBOA 数据集上达到 6.7% 的 CER，在 ASL Citizen 数据集上达到 74% 的 top-1 准确率。

大型头部重建研究

第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction》聚焦于3D头像重建。研究提出了 HeadsUp 方法，能够从大规模多摄像头集中重建高质量的3D Gaussian 头部模型，测试使用了超出一万名受试者的内部数据集，规模比现有多视角数据集高出一个数量级。这可能与头显相关的人脸捕捉与表情渲染需求相呼应。

项目团队的高管曾表示，头显技术展现了融合物理世界与数字世界的未来趋势。对于具体时间表，他坦言难以预测“空间计算”何时成为主流，但坚信这一方向是不可逆的。

以上研究的发布，显示出在空间理解、跨模态标注与高质量头部建模等方面的持续探索，旨在推动更自然的用户交互与沉浸式体验的发展。[[[IMG_1]]][[[IMG_2]]][[[IMG_3]]]