互联网资讯

MoMA 平台发布：超过300款模型，Token 成本下降30%

2026年5月9日 ·

在2026移动云大会主论坛上，MoMA 平台正式对外发布。平台聚合了超过300款先进的 AI 模型，旨在通过丰富的应用场景和灵活的接入方式，让 AI 的使用更加普及，推动其在政务、金融、工业、医疗、教育等领域的落地应用。

开放普惠，使 AI 触手可及

MoMA 提供“一次接入、智能优选、普惠可用、安全可信”的一站式模型服务，显著降低 AI 应用的门槛。

统一的 API 网关，接入后即可调用平台上的全部模型资源。目前已接入自研大模型以及多家优质行业模型，覆盖文本生成、语音处理和多模态理解等多种能力，能够满足政务、金融、工业、医疗、教育等多场景需求。

智能路由引擎，根据需求灵活切换“成本优先”“效果优先”“均衡优先”三种策略，为用户动态匹配最合适的模型。遇到超时、流量波动或故障时，系统可实现秒级切换，保障业务连续性。

降低使用成本，平台通过国产算力与自研推理引擎相结合，并通过智能路由和长尾模型资源调度，将单位 Token 成本降幅达到 30%，同时降低资源占用率到 50% 左右。再通过智能缓存、上下文复用和 Token 压缩等技术，进一步压降成本。中立的路由原则帮助用户在效果与成本之间取得理想平衡。

服务保障，推出“机密模型”服务，将模型部署在隔离容器中，并采用硬件级别的隔离，确保计算过程中的数据安全，实现“可用不可见”。此能力覆盖从芯片到应用的全链路，为对数据安全要求较高的场景提供可靠支撑。

集约运营，提升 Token 调用效率

开放普惠着眼于让用户“用得起、用得上”，而集约化运营则聚焦“用得好、管得住”的目标。围绕 Token 全生命周期，平台建立了精准计量、风险管控与经营分析的完整闭环，实现算力资源的清晰记录、高效流转与安全管控，推动算力资源的规范化与高效利用。

实时计量与按需计费。系统采用流式实时计费，端到端的 Token 使用时延控制在1分钟内，支持“即用即付”，有效解决了传统套餐式计费带来的资源浪费与账单透明度问题。

风控与可追溯性，通过专属风控机制确保 Token 计费全流程可追溯、可审计、可闭环，避免资源挤占、费用超支及服务中断等风险，使每一笔消耗清晰透明。

链路观测，可信数据支撑。平台具备全链路观测能力，实时采集时延、吞吐、Token 消耗、GPU 资源等关键指标，将监控、预警、诊断集成为一体的运营体系，覆盖客户、订购、使用、收入等多维数据，为经营决策提供可参考的数据依据。

未来，MoMA 将持续提升服务质量与效率，携手产业伙伴释放算力新动能，拓展智能应用场景，推动 AI 更高效、安全地服务于经济社会发展。