互联网资讯

FCMBench-Video-V1.0:信贷场景视频评测从看懂证件到理解过程

2026年5月8日 ·
openmagic ad

在信贷场景的多模态评测领域,FCMBench-Video-V1.0 提出一种面向视频的评测任务,目标是将评估由“看懂证件”扩展到“理解过程”。该方法为信贷场景中的视频理解设定了可量化的新标准,标志着评测从静态识别向动态推理的转变。

奇富科技发布信贷场景专属视频评测任务FCMBench-Video-V1.0:从“看懂证件”到“看穿过程”

一张静态证件照片可能通过审核,而一段手持拍摄的连续视频却能透露更多信息:人物动作的连贯性、光照的变化、焦点的漂移,以及翻页时纸张的褶皱等真实信号,这些自然现象往往难以伪造。

因此,Video 评测将多模态大模型的评测域从二维图像提升至三维时空维度,覆盖时间维度带来的信息关系。

如果基线评测解决了“模型是否能理解静态证件”的问题,那么视频评测关注的,是更具挑战性的边界能力。视频不仅提供更多画面信息,还引入时间维度,要求模型在时间轴上理解信息出现的时序、是否重复、与前后信息的一致性,以及在干扰存在时的稳定判断能力。这些能力直接关系到反欺诈链路中的关键环节,也是传统评测体系难以覆盖的盲点。

例如,在一段视频中,同一证件反复出现,模型需要掌握“去重”而非简单计数;若多份文件连续出现,模型需开展“对账”,比较它们之间是否存在矛盾;在出现风险信号时,模型还能基于具体画面做出判断。这些要求已经超越了纯粹的识别,转向对记忆、推理与综合判断的综合考验。

该评测还引入了“防忽悠”测试,用以检验模型的反欺诈能力。在测试中,研究者会在视频末尾故意添加误导性提示,如“已核实通过”等,以观察模型是否会忽略先前发现的风险。结果显示,不同模型的反欺诈能力差异显著,当前尚无通用方法能够规避此类误导。这一发现强调了对视频AI模型安全性进行专项测试和持续优化的必要性,并为行业技术迭代指明方向。

在数据构建方面,评测坚持“源于业务、服务于业务”的原则,同时在真实性与合规性之间寻找平衡。通过模拟真实拍摄过程、结合多种现实环境下的画质变化,构建出不同复杂度的视频样本,使评测既具备真实世界挑战,又避免涉及敏感信息。这种方法不仅提升评测结果的参考价值,也为行业提供了一条可复制的数据构建路径。

整体评测结果显示,目前主流的视频多模态模型之间仍存在较大差距,即便表现最优的模型,在关键任务上也未达到直接落地生产环境的水平。这表明视频理解能力在信贷场景中的落地仍处于早期阶段,进一步证明了本评测在能力区分度上的作用,能够帮助企业进行技术选型并为科研机构研究提供权威参考。

作为评测基准的重要组成部分,本评测延续开放共享的理念,配套的数据集与工具已同步开源,旨在吸引更多科研机构与行业参与信贷AI能力建设,为信贷AI的实际应用提供稳固支撑。

需要指出的是,当前版本的评测所覆盖的文档视频分析只是信贷场景分析任务的一个细分维度。本次任务的设计源自当前迭代中的视频尽调AI产品。视频尽调不仅要求模型具备准确的文档内容理解能力,还需对企业经营现场进行全面评估,包括厂房环境、生产设备、原料库存、工艺流程以及人员作业状态等关键维度,从而推演企业的真实经营状况、偿债能力以及潜在经营风险。这类实际业务需求对视频尽调AI模型的产业化落地提出了更高标准与新挑战。

本评测方法论旨在为复杂视频尽调场景提供核心技术基础,推动多模态信贷AI评测从“理解一张图”提升为“理解一座工厂”,逐步完善覆盖信贷全流程的评测体系,使评测源于业务场景、并能有效赋能实际落地。