互联网资讯 · 2026年4月20日 0

Token成本降低不会促进前沿智能的普及

根据Gartner的预测,到2030年,AI提供商对万亿参数大语言模型的推理成本将比2025年降低90%。

Token成本降低不会促进前沿智能的普及

Token是用于生成人工智能模型处理的基本单位。在本次分析中,1 Token相当于3.5字节数据,约等于4个字符。

Gartner的高级研究总监Will So指出,推动这一成本下降的因素包括半导体和基础设施的效率提升、模型设计创新、芯片利用率提高、推理芯片的普及以及针对特定应用的边缘设备技术。

根据这些趋势,Gartner预计到2030年,大语言模型的成本效益将比2022年开发的同规模早期模型高出多达100倍。

然而,生成式AI提供商的Token成本降低不会完全反映在企业客户身上。此外,前沿智能所需的Token数量将大大超过当前主流应用。例如,代理式模型每个任务所需的Token数量是标准生成式AI聊天机器人的5至30倍,且能够完成的任务远超人类使用生成式AI的能力。

尽管Token的单位成本下降将推动生成式AI技术的发展,但这一进步也会导致Token需求的显著增加。由于Token消耗的增长速度超过成本的下降,整体推理成本预计仍将上升。

So表示,首席产品官不应将商品Token成本的下降与前沿推理的普及混淆。尽管商品化智能的成本接近于零,但支持高级推理所需的计算资源仍然稀缺。如果当前的首席产品官依赖廉价Token掩盖架构的低效,将在未来实现代理式应用规模化时面临挑战。

为了创造价值,平台需要能够有效调度不同模型的工作负载。常规的高频任务应分配给更高效的小型领域专用语言模型,这些模型在与专业工作流对接时,其性能将优于通用解决方案,并且成本仅为后者的一小部分。此外,必须严格控制高成本的前沿级模型推理,确保仅在高利润和复杂推理任务中使用。