< BACK

[节选]人工智能现状:基于OpenRouter的实证100万亿token研究报告

CAT: [ Repost ] DATE: 2025-12-04 VIEWS: 69

image

讨论

这项实证研究提供了关于LLM实际如何使用的数据驱动视角,突出了几个与人工智能部署的传统智慧有微妙的主题:

1.一个多模型生态系统。我们的分析表明,没有单一模型主导所有使用。相反,我们观察到一个丰富的多模型生态系统,其封闭模型和开放模型都占据了大量份额。例如,尽管OpenAI和Anthropic模型在许多编程和知识任务中处于领先地位,但DeepSeek和Qwen等开源模型共同提供了总代币的很大一部分(有时超过30%)。这表明,LLM使用的未来可能是模型不可知论和异质的。对于开发人员来说,这意味着保持灵活性,整合多个模型,并为每项工作选择最佳模型,而不是将一切押注在一个模型的至高无上。对于模型提供商来说,它强调了竞争可能来自意想不到的地方(例如,除非你不断改进和差异化,否则社区模型可能会侵蚀你的一部分市场)。

2.超越生产力的用途多样性。一个令人惊讶的发现是,角色扮演和以娱乐为导向的使用量。超过一半的开源模型用于角色扮演和讲故事。即使在专有平台上,在专业用例增长之前,早期ChatGPT使用的一小部分是随意和创造性的。这与LLM主要用于编写代码、电子邮件或摘要的假设相反。实际上,许多用户参与这些模型是为了陪伴或探索。这具有重要意义。它强调了面向消费者的应用程序的巨大机会,这些应用程序融合了叙事设计、情感参与和互动性。它提出了个性化的新领域——进化个性、记住偏好或维持长期互动的代理人。它还重新定义了模型评估指标:成功可能不取决于事实准确性,而更多地取决于一致性、连贯性和保持引人入胜的对话的能力。最后,它为人工智能和娱乐IP之间的交叉开辟了一条道路,在互动故事、游戏和创作者驱动的虚拟角色方面具有潜力。

3.代理人与人类:代理人推理的兴起。LLM的使用正在从单轮交互转变为_代理推理_,其中模型跨多个步骤进行计划、推理和执行。他们现在不再产生一次性响应,而是协调工具调用,访问外部数据,并迭代地完善输出以实现目标。早期证据表明,我们代理代理使用的多步查询和链式工具使用不断增加。随着这种范式的扩展,评估将从语言质量转向任务完成和效率。下一个竞争前沿是模型如何有效地_执行持续推理_,这种转变最终可能会重新定义大规模代理推理在实践中意味着什么。

4.地理展望。LLM的使用正变得越来越_全球化和分散化_,在北美以外快速增长。亚洲代币总需求的份额从约13%上升到31%,反映了企业采用和创新的加强。与此同时,中国_不仅通过国内消费,而且通过生产全球竞争模式,_已成为一股主要力量。更广泛的要点:法学硕士必须在全球范围内有效,在语言、语境和市场中表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。

5.成本与使用动态。LLM市场似乎还没有像商品一样行事:仅靠价格对使用情况的解释不大。用户平衡成本与推理质量、可靠性和能力广度。封闭式模型继续捕获高价值、与收入挂钩的工作负载,而开放式模型则主导了低成本和大批量的任务。这创造了一种动态平衡——这种平衡不是由稳定性定义的,而是由来自下方的恒定压力定义的。开源模型不断推动_高效前沿_,特别是在推理和编码领域(例如Kimi K2 Thinking)快速迭代和OSS创新缩小了性能差距。开放模型的每一次改进都会压缩专有系统的定价能力,迫使它们通过卓越的集成、一致性和企业支持来证明溢价是合理的。由此产生的竞争是快速移动、不对称和持续变化的。随着时间的推移,随着质量趋同的加速,价格弹性可能会增加,将曾经的差异化市场变成一个更流动的市场。

6.保留和灰姑娘玻璃拖鞋现象。随着基础模型的飞跃而不是逐步推进,保留已成为防御性的真正衡量标准。每一次突破都会创造一个转瞬即逝的启动窗口,一个模型可以完美地“适合”高价值的工作负载(灰姑娘玻璃拖鞋时刻),一旦用户发现合适,他们就会留下来。在这个范式中,产品市场契合等于工作负载模型契合:当用户围绕该功能建立工作流程和习惯时,率先解决真正痛点会推动深刻、粘性的采用。然后,无论是技术上还是行为上,转换都变得昂贵。对于建筑商和投资者来说,要关注的信号不是增长,而是保留曲线,即通过模型更新保持的基础队列的形成。在一个日益快速的市场中,尽早抓住这些未满足的重要需求决定了谁在下一次能力飞跃后坚持下去。

LLM正在共同成为跨领域推理类任务的重要计算基础,从编程到创意写作。随着模型的不断进步和部署的扩大,对现实世界使用动态的准确见解对于做出明智的决策至关重要。人们使用法学硕士的方式并不总是符合预期,并且因国家、州和用例而异。通过大规模观察使用情况,我们可以将对LLM影响的理解建立在现实中,确保后续发展,无论是技术改进、产品功能还是法规,都与实际使用模式和需求保持一致。我们希望这项工作能成为更多实证研究的基础,并鼓励人工智能社区在我们构建下一代前沿模型时不断测量和学习现实世界的使用。

结论

这项研究提供了关于大型语言模型如何嵌入世界计算基础设施的实证观点。它们现在是工作流程、应用程序和代理系统的组成部分,改变了信息的生成、中介和消费方式。

过去一年催化了该领域对_推理_的理解方式的一步变化。_o1_类模型的出现使扩展的审议和工具使用正常化,将评估从单次基准转向基于过程的指标、延迟成本权衡和编排下的任务成功。推理已经成为衡量模型如何有效地计划和验证以提供更可靠的结果的标准。

数据表明,LLM生态系统在结构上是多元的。没有单一模型或提供商占主导地位;相反,用户根据上下文选择多个轴心的系统,如能力、延迟、价格和信任。这种异质性不是短暂的阶段,而是市场的基本属性。它促进了快速迭代,并减少了对任何一个模型或堆栈的系统依赖。

推理本身也在发生变化。多步和工具链接交互的兴起预示着从静态完成到动态编排的转变。用户正在链式模型、API和工具来实现复合目标,从而产生了可以描述为_代理推理_的东西。有很多理由相信,如果还没有,代理推理将超过人类推理的话。

从地理上看,景观正变得越来越分散。亚洲的使用份额继续扩大,特别是中国既成为模型开发商,又成为出口商,Moonshot AI、DeepSeek和Qwen等参与者的崛起就说明了这一点。非西方开放权重模型的成功表明,LLM是真正的全球计算资源。

实际上,_o1_并没有结束比赛。远非如此。它扩大了设计空间。该领域正在转向系统思维而不是整体投注,转向仪器而不是直觉,以及转向经验使用分析而不是排行榜。如果过去一年证明代理推理在大规模上是可行的,那么明年将侧重于卓越运营:衡量实际任务完成情况,减少分布转移下的方差,并将模型行为与生产规模工作负载的实际需求保持一致。

Aubakirova, M., Atallah, A., Clark, C., Summerville, J., & Midha, A. (2025, December). State of AI: An Empirical 100 Trillion Token Study with OpenRouter. OpenRouter. https://openrouter.ai/state-of-ai