OpenRouter 的 100 万亿 Tokens 实证研究

OpenRouter 的 100 万亿 Tokens 实证研究

2025年12月,OpenRouter发布了基于其平台100万亿Tokens使用数据的实证研究报告,全面揭示了当前真实的AI交互模式。这些发现极具启发性,为数据驱动的LLM系统设计与优化提供了重要参考:报告深入分析了开发者和终端用户在不同任务中调用模型的情况、模型与任务的双向匹配关系、使用模式随地理区域和时间的变化规律,以及定价和新模型发布等外部因素对用户行为的影响

本文重点分析开源生态、智能体发展趋势和用户留存机制,省略了OpenRouter关于地理区域(因缺少中国样本)和成本定价的分析(后续单独讨论)。


Summary

基于OpenRouter平台处理的100万亿Tokens数据分析,本研究揭示了大语言模型生态系统的关键发展趋势:

第一章分析开源生态演进。随着DeepSeek的崛起,LLM生态系统呈现出稳定的双重结构:开源与闭源模型形成30% vs 70%的平衡格局。闭源系统继续定义性能上限,而开源模型凭借成本效益和可定制性优势,成为特定工作负载的首选。中国开源模型从2024年末几乎为零的基数稳步增长,周占比最高接近30%,平均占比13.0%。模型市场明显分化:小型模型从60%降至12%,逐渐被市场淘汰;中型模型从0%增长至30%,成为重要市场;大型模型从40%提升至50%,成为主流选择。这种分化反映了市场的成熟,用户不再需要在极端之间权衡,而是根据需求选择中型模型(平衡成本效率)或大型模型(追求最佳效果)。

第二章探讨智能体推理的兴起。推理模型占比从低位稳步上升至超过50%,成为实际工作负载的默认选择。工具调用逐步上升至15%,主要集中在针对智能体推理优化的模型中。提示词长度从1.5K增长至6K以上(增长4倍),补全长度从150增长至400(增长3倍),编程是提示词增长的主要驱动力,编程提示词平均长度是通用提示词的3-4倍。模型正越来越多地扮演分析引擎角色,处理大量材料并生成高价值见解。

第三章分析模型在不同业务中的不均匀发展。首先,编程是主导且持续增长的类别,从11%增长至50%以上,LLM已深度融入开发者工作流程。Claude持续占据60%编程市场份额,但近期出现下滑迹象,首次跌破60%阈值;OpenAI在编程领域从2%快速扩大至8%,Google稳定在15%。其次,现实世界中LLM使用高度集中在少数可重复、高频次任务上。大多数产业的探索并非均匀分布,它们由一两种反复出现的使用模式主导(如角色扮演、科学和编程),这往往反映集中的用户意图或与大语言模型优势的契合。也有些领域反映使用的分散性:如金融、学术和法律,这种分散性可能反映这些领域的复杂性,或仅是与编码和聊天等更成熟类别相比,它们缺乏针对性的大模型工作流程。

第四章揭示了顶级实验室的战略意图:You Get What You Trained, and You Train What You Want。各大顶尖公司的模型特征与其战略重点高度契合:Anthropic定位为严谨的架构师,主要用于编程和技术任务(占比超过80%),角色扮演用途极少;Google作为通用的知识大师,其模型用途广泛,涵盖法律、科学、技术以及常识性查询;OpenAI从科学家迈向工程师,从科学类任务逐渐转向编程和技术任务,角色扮演和随意聊天显著减少;DeepSeek定位为私人助手,主要体现在角色扮演和日常互动任务的高分布上(占比超过66%),但也在逐步增强多步推理能力;Qwen&xAI作为全面的技术开发者,在编程任务上专注度较高(占比40%-60%),而在角色扮演和科学类别的专注度则随时间波动。这种差异化特征凸显了多模型生态系统的必要性,无单一模型能覆盖所有使用场景。

第五章重点分析用户留存机制。基础用户群代表工作负载与模型已实现深度契合,一旦契合确立就会产生经济和认知惯性。模型与工作负载完美匹配的”灰姑娘时刻”转瞬即逝,只出现在模型被视为”前沿”的那一刻。DeepSeek展现出”回旋镖效应”,也即部分流失用户在尝试其他模型后回心转意,重新选择 DeepSeek。基础用户群体是技术进步的真正标志,成为某个模型从”新奇事物”转变为”必需品”的转折点。


一、开源生态:双重结构,DeepSeek,中型模型与角色扮演

1.1 持久的双重结构:70% vs 30%

总结:大语言模型生态系统中存在一种持久的双重结构:开源模型与闭源模型。目前的平衡点约为30%。

专有系统继续定义着可靠性和性能的上限,特别是在受监管或企业工作负载方面。相比之下,开源模型具有成本效益、透明度和可定制性,使其成为某些工作负载的有吸引力的选择。这些模型并非相互排斥,相反,它们在开发者和基础设施提供商日益青睐的多模型堆栈中相互补充。

Open vs closed source models split

开源模型使用量的增长与主要开源模型的发布时间高度吻合,这表明像DeepSeek这样有竞争力的开源项目,能够在发布后迅速获得市场认可并保持增长势头。

Weekly token volume by model type

从2024年末几乎可以忽略不计的基数(周占比低至1.2%)开始,中国开源模型稳步获得关注,某些周内占所有模型总使用量的比例接近30%。这一年中,中国开源模型的周Tokens量平均占比约13.0%,强劲增长主要集中在2025年下半年。相比之下,其他地区开源模型平均占13.7%,而专有模型保持最大份额(平均70%)。中国开源模型的扩张不仅体现了其竞争力,还反映了快速迭代和密集发布周期。像Qwen和DeepSeek这样的模型保持定期发布,能够快速适应新兴工作负载。这种模式极大重塑了开源领域,推动了全球大语言模型领域的竞争。


1.2 主要玩家:DeepSeek vs Others

总结:DeepSeek 一骑绝尘,但主导地位有所下降,整个开源生态在朝着多元化的方向发展

下表按模型划分的总 Tokens 量(2024年11月–2025年11月),反映了 OpenRouter 上所有模型的总使用量。

Model Author Total Tokens (Trillions)
DeepSeek 14.37
Qwen 5.59
Meta LLaMA 3.96
Mistral AI 2.92
OpenAI 1.65
Minimax 1.26
Z-AI 1.18
TNGTech 1.13
MoonshotAI 0.92
Google 0.82

这种近乎垄断的格局在”夏季拐点”(2025年年中)后被打破。此后,市场变得更加复杂,用途也大幅多样化。通义千问、Minimax的M2、MoonshotAI的Kimi K2以及OpenAI的GPT-OSS系列等新进入者迅速发展,承接大量需求,往往在发布后几周内就实现生产级别应用。这表明,开源社区和AI初创企业通过推出具备新颖功能或更高效率的模型,能够快速获得市场认可。

**Top 15 OSS

如今,没有任何单一开源模型的Tokens消耗超过整个生态的25%,分布更加均衡。这说明一个重要事实:用户正在从多样化选择中发现价值——无论是风格还是能力——而非直接默认选择一个最佳选项。

  • 顶级多样性:曾经由DeepSeek主导开源生态,现在各模型保持可观份额。没有任何开源模型能持续占据超过20%-25%的市场份额。
  • 新进者的快速扩张:性能出众新型开放模型能在几周内获得大量使用。例如,MoonshotAI模型迅速发展,可与老牌开源领军者抗衡,甚至像MiniMax这样的新入局者在一个季度内就从零做到可观流量。这表明用户转换成本低,且用户群体乐于尝试新事物。
  • 迭代优势:DeepSeek长期位居榜首,凸显了持续改进的重要性。其连续发布(Chat-V3、R1等)使其在挑战者涌现时仍保持竞争力。那些停滞不前的开源模型,其市场份额往往被频繁更新或针对特定领域微调的模型抢占。

1.3 模型规模的趋势:Medium vs Large/Small

总结:小模型已经成为过去式,中型的模型占据重要市场,而大模型成为绝对意义上的主流

市场变得成熟的一个标志就是中型模型的产生和发展,用户无需再两个极端之间权衡。市场的分化主要在于目标的选择,要么倾向于使用中型模型(要在成本和效率之间权衡),要么只用大型模型(将工作负载整合到能力最强的模型上,获得最佳的效果和智慧)。

OpenRouter 根据参数数量对模型进行如下分类:

  • 小型模型:参数少于 150 亿的模型。
  • 中型模型:参数规模在 150 亿到 700 亿之间的模型。
  • 大型模型:具有 700 亿或更多参数的模型。

OSS model size vs. usage

深入研究推动这些趋势的模型,可以发现不同的市场动态:

可以看出,小模型市场从最初的60%逐步下降至12%,且趋势没有回弹迹象,说明小模型正被市场淘汰。中型模型经过一年发展,已占据约30%市场份额且非常稳定,说明这个市场需求长期可持续。大模型占比也从40%提升至50%,说明大参数量模型仍是用户和企业的首选。

  • “小型”模型的市场:整体使用率下降。
    • 尽管新模型不断涌现,但小型模型类别整体的使用份额正在下降。
    • 这一类别具有高度碎片化的特点。没有任何单一模型能长期占据主导地位,而且来自Meta、谷歌、Mistral和深度求索等各类提供商的新进入者不断更迭。例如,Google Gemma 3.12B(2025年8月发布)获得了快速采用,但它所处的领域竞争激烈,用户会不断寻找下一个更优的替代方案。
  • “中型”模型的市场:寻找“模型-市场契合点”。
    • 中等规模模型类别清晰地讲述了一个市场创造的故事:直到2024年11月Qwen2.5 Coder 32B发布后,这一细分领域才算是确定出现,在此之前,这个市场可以说几乎微不足道。
    • 这一领域表明,用户正在寻求能力与效率之间的平衡。
    • 随着Mistral Small 3(2025年1月)和GPT-OSS 20B(2025年8月)等其他强劲竞争者的出现,这一领域逐渐发展成为一个竞争激烈的生态系统,这些模型也赢得了用户的关注。
  • “大型”模型领域:多元化格局。
    • “追求质量”并未导致市场整合,反而促进了多样化发展。如今,大型模型类别中涌现出一系列高性能的竞争者,从Qwen3 235B A22B Instruct(2025年7月发布)和Z.AI GLM 4.5 Air,再到OpenAI: GPT-OSS-120B(8月5日发布),每一款都拥有可观且持续的使用率。
    • 这种多元化说明:用户正积极地在多个开源大型模型之间进行比较与采纳,而非集中采用单一的标准来评价模型。

1.4 开源模型的业务匹配:角色扮演+编程 vs Others

OpenRouter通过非专有模块GoogleTagClassifier,对占所有提示词约0.25%的随机样本进行内部分类。虽然仅占总活动的一小部分,但考虑到OpenRouter处理的整体查询量,基础数据集仍然相当庞大。GoogleTagClassifier与谷歌云自然语言的classifyText内容分类API相连接。分类细节放在附录中。

1.4.1 全球趋势:角色扮演和编程

总结:虽然闭源模型在结构化的商业任务中仍占主导地位,但开源模型已在两个特定领域确立了领先地位:角色扮演和编程辅助。这两个类别共同占据了开源模型 Tokens 使用量的大部分。

数据:角色扮演占据 52% 的市场份额,而编程大致为 20%(编程与科技总计为 33%)。

Category Breakdown of OSS Models

上图清晰显示,超过一半的开源模型使用属于角色扮演,而编程是第二大类别。

  • 这表明用户转向开放模型主要是为了创造性交互式对话(如讲故事、角色扮演和游戏场景)和编码相关任务。
  • 角色扮演的主导地位(达到50%及以上)说明开源模型的持续优势:可用于创造力,且通常不受内容过滤器限制,对幻想或娱乐应用极具吸引力。
  • 角色扮演任务需要灵活响应、上下文保留和情感细微差别——开放模型能有效提供这些属性,不受商业安全或审核层严重限制。这使得它们对角色驱动体验、粉丝向小说撰写、交互式游戏和模拟社区特别有吸引力。

1.4.2 中国开源趋势:强编程,技术与生产力

总结:中国模型的主要任务在于编程与技术,而非主要创意。

数据:角色扮演占 33%(低于全球平均值 52%),编程占 39%(高于全球平均值 33%)

Chinese OSS Category Trends

如果只聚焦中国开源模型随时间的细分情况,可以看出:这些模型不再主要用于创意任务。角色扮演仍是最大类别,占比约33%,但编程和技术领域使用量合计已占多数(39%)。

这种转变表明,像QwenDeepSeek这样的模型正越来越多地用于代码生成和基础设施相关工作负载。虽然大量企业用户可能影响特定领域,但总体趋势表明,中国开源模型正在技术和生产力领域直接竞争。


1.4.3 编程开源生态:依旧闭源主导,但中国开源生态蓬勃

总结:闭源模型依旧主导市场,中国开源生态起步较早(Qwen 3 Coder),但西方模型比例有所上升,并观察到市场竞争十分激烈,比例变化大,说明用户粘性低,新模型凭借优异表现可迅速抢占市场

Programming Queries by Model Source

如果只聚焦编程类别,会发现闭源模型仍处理大部分编码辅助工作(灰色区域),反映出像Anthropic的Claude等强大产品表现。

然而在开源部分,出现显著转变:2025年中期,中国开源模型(蓝色)提供大部分开源编码帮助(得益于Qwen 3 Coder等早期成功案例)。到2025年第四季度,西方开源模型(橙色),如Meta的LLaMA-2 Code和OpenAI的GPT-OSS系列,出现激增,但最近几周总体占比有所下降。这种波动表明市场竞争非常激烈。

**实际结论是,开源代码助手使用情况高度动态变化,对新模型质量反应强烈:开发者愿意接受任何当前能提供最佳编码支持的开源模型。**需要说明,该图表未显示绝对数量:开源编码使用量整体在增长,因此蓝色部分占比缩小不意味着中国开源模型失去用户,只是相对份额有所变化。


1.4.4 角色扮演开源生态:与闭源生态评分秋色,中国开源也占有开源生态的一席之地

总结:在角色扮演生态中,开源占比非常高,达到60%,且开源生态占比逐步上升。可以确认开源生态在该领域具有天然优势,也可预见未来开源生态很可能主导该市场。到2025年底,中国和世界其他开源模型流量大致平分。

数据:开源模型占角色扮演领域60%市场,开源生态中,中国开源生态占20%-30%,其他开源生态占30%-40%。

Roleplay Queries by Model Source

如果只考察角色扮演流量,会发现其目前几乎由世界其他地区开源模型(橙色,近几周占43%)和闭源模型(灰色,最近约占42%)平分秋色。这与2025年初相比发生显著变化,当时该类别由专有模型(灰色)主导,约占70%市场份额。彼时(2025年5月),西方开源模型仅占约22%流量,中国开源模型(蓝色)占比更小,约8%。全年中,闭源模型份额稳步下降。到2025年10月底,随着西方和中国开源模型均取得显著进展,这一趋势进一步加速。

可以得出结论,角色扮演领域存在良性竞争;用户在创意聊天和故事讲述方面,既有开源产品也有闭源产品可供选择,且选择都切实可行。这反映出开发者意识到角色扮演/聊天模型需求,并为此对发布模型进行针对性调整(如在对话上进行微调,为角色一致性添加对齐机制)。需注意,”角色扮演”涵盖一系列子类型(从休闲聊天到复杂游戏场景)。

从宏观角度看,开源模型在这个创意领域显然具有优势。


二、智能体推理的兴起

序:语言模型在生产环境中的使用方式正发生根本性转变:从单轮文本补全转向多步骤、工具集成且推理密集型的工作流。OpenRouter将这种转变称为智能体推理的兴起,即模型部署不仅为生成文本,还通过规划、调用工具或在扩展语境中交互来采取行动。本节通过五个指标追踪这一转变:推理模型兴起、工具调用行为扩展、序列长度分布变化,以及编程用途如何推动复杂性。

下面分析的趋势(推理占比上升、工具使用范围扩大、序列变长以及编程的极大复杂性)共同表明,大语言模型(LLM)使用重心已发生转移。典型LLM请求不再是简单问题或孤立指令,而是结构化、类智能体循环的一部分,会调用外部工具、基于状态推理,并在更长语境中持续运行。

对模型提供商而言,这提高了对默认能力要求。延迟、工具处理、上下文支持及鲁棒性变得愈发关键。对基础设施运营商来说,推理平台现在不仅要管理无状态请求,还要处理长时间运行对话、执行轨迹及权限敏感工具集成。

即便现在还未实现,也很快,智能体推理将占据大部分推理工作。


2.1 Reasoning调用量稳步上升至一半市场

总结:自2025年初以来,通过推理优化模型处理的所有Tokens占比稳步上升,以推理为导向的模型正成为实际工作负载的默认路径。

该指标反映推理模型处理的所有Tokens比例,而非模型输出中”推理Tokens”占比。

Reasoning vs. Non-Reasoning Token Trends

第一季度初,这一使用占比很低,现在已超过50%。这种转变反映市场两个方面:

  • 供给端,GPT-5、Claude 4.5和Gemini 3等更高能力模型系统发布,提升用户对逐步推理期望。
  • 需求端,用户越来越倾向于能够管理任务状态、遵循多步骤逻辑并支持智能体式工作流程模型,而仅仅是简单生成文本模型。

Top Reasoning Models by Token Volume

在推理模型中,xAI的Grok Code Fast 1目前处理推理相关流量占比最大,其次是谷歌的Gemini 2.5 ProGemini 2.5 Flash。xAI的Grok 4 Fast和OpenAI的gpt-oss-120b也跻身顶级行列。

在最新数据中,xAI的Grok Code Fast 1目前在推理流量中占据最大份额(不包括免费发布版访问),领先于谷歌的Gemini 2.5 ProGemini 2.5 Flash。这与几周前情况相比有显著变化,当时Gemini 2.5 Pro在该类别中处于领先地位,DeepSeek R1Qwen3也位居顶级行列。借助xAI积极推出策略、具有竞争力定价以及开发者对其代码导向型变体关注,Grok Code Fast 1Grok 4 Fast迅速获得市场份额。与此同时,像OpenAI的gpt-oss-120b这样开源模型持续存在,凸显开发者在可能情况下仍会选择开源模型。

数据指向明确结论:以推理为导向的模型正成为实际工作负载的默认路径,而流经这些模型的Tokens所占市场份额,现已成为AI系统交互的主要指标。


2.2 工具调用逐步上升至15%

总结:在高价值工作流中,启用工具使用的趋势正在上升。无法提供可靠工具调用的模型在企业应用中可能会落后

数据:来自Tool Call的请求占总请求的15%。

Tool Invocations

上图中,OpenRouter报告了来自完成原因为Tool Call的请求的总Tokens占比。该指标经过标准化且仅包含实际调用工具的那些交互。

OpenRouter解释上图中5月份显著峰值主要归因于一个大型账户,其活动短暂提升整体交易量。除这一异常情况外,工具采用率在全年呈现持续上升趋势。

Top Models by Tools Provided Volume

工具调用集中在针对Agent Inference明确优化的模型中,例如Claude Sonnet、Gemini Flash。

可以看出,工具调用最初集中在几个模型中:OpenAI的gpt-4o-mini和Anthropic的Claude 3.53.7系列,它们在2025年初占了大多数支持工具调用的市场。

然而到年中,更广泛模型开始支持工具调用,从9月底开始,较新的Claude 4.5 Sonnet模型迅速获得份额。与此同时,Grok Code FastGLM 4.5等较新模型取得明显进展。这也说明在工具调用领域,多元化格局正在形成。

含义显而易见:在高价值工作流中,启用工具使用的趋势正在上升。没有提供可靠工具格式的模型在企业应用中可能会落后。


2.3 序列长度增长主要驱动力为编程

总结:提示词长度、补全长度均大幅提升,主要推动因素是编程需求。模型正越来越多扮演分析引擎角色,而非创意生成器。

数据:从2024年初,Prompt长度增长四倍(从约1.5K增至6K以上),Completion长度增长三倍(约150增至400),涉及代码理解、调试和代码生成的请求通常超过20K输入tokens。

Number of Prompt Tokens is on the Rise

自2024年初以来,平均提示词Token长度增长近四倍,反映出工作负载上下文越来越复杂。

Average Sequence Length Over Time

**每次生成的平Tokens数(提示词+补全内容)增长近三倍,从2000增长至6000 Tokens。**序列长度是任务复杂度和交互深度的代表指标。上图显示,过去20个月里,平均序列长度增加两倍多。这种增长反映结构性转变,即朝着更长上下文窗口、更深任务历史及更详尽补全内容方向发展。

Number of Completion Tokens Almost Tripled

输出长度也有所增加,尽管起点较低,这表明更丰富、更详细的响应主要源于推理Tokens。

Programming as the Main Driver Behind Prompt Token Growth

自2025年春季开始提供标签以来,与编程相关的任务始终需要最大输入上下文。且迅速拉开与其他领域需求差距。

Sequence Length in Programming vs Overall

编程提示词通常更长,且增长速度更快。与编程相关的提示词现在平均token长度是通用提示词的3-4倍。这种差异表明,软件开发工作流是更长交互的主要驱动因素。较长序列不仅是用户冗长表达:它们是嵌入的、更复杂智能体工作流的标志。

这种增长的相对幅度凸显了向更复杂、上下文更丰富工作负载的决定性转变。

这种模式还反映模型使用的新平衡:如今,典型请求不再那么侧重开放式生成(如”给我写一篇文章”),而更多是对用户提供的大量材料(如代码库、文档、文字记录或冗长对话)进行推理,并生成简洁、高价值见解。模型正越来越多扮演分析引擎角色,而非创意生成器。

Category级数据呈现更细致图景:编程工作负载是提示词token增长的主要驱动力。涉及代码理解、调试和代码生成的请求通常超过20K输入Tokens,而所有其他类别请求则相对平稳且数量较少。这种不对称贡献表明:最近提示词长度增长并非所有任务的普遍趋势,而是与软件开发和技术推理用例相关的集中式增长。


三、通过产业标签分析人类交互行为

序:了解用户使用大语言模型执行的任务分布,对评估实际需求和模型与市场契合度至关重要。

3.1 毫无疑问的主导:编程

总结:编程是主导且不断增长的类别。LLM已融入开发者工作流程,实现常态化。这个领域持续吸引各大顶级实验室关注。

数据:Claude持续占据60%市场份额,但最近有下滑迹象。谷歌稳定在15%,OpenAI份额在最近几周从约2%扩大至约8%。

Programming as a dominant and growing category

编程是主导且不断增长的类别。 被归类到编程类别的所有大语言模型查询占比稳步上升,反映人工智能辅助开发工作流的兴起。

编程已成为所有模型中扩张最稳定的类别。2025年期间,与编程相关的请求占比稳步上升,与大语言模型辅助的开发环境及工具集成相呼应。如上图所示,2025年初,编程查询约占总Tokens量的11%,而最近几周已超过50%。这一趋势反映用户使用从探索性或对话性用途转向代码生成、调试和数据脚本编写等应用型任务。

随着大语言模型融入开发者工作流程,它们作为编程工具的角色正逐渐常态化。这一演变对模型开发具有重要意义,包括:

  • 更加强调以代码为中心的训练数据
  • 提升多步骤编程任务的推理深度
  • 加强模型与集成开发环境之间的反馈循环

对编程支持需求的不断增长正在重塑各模型提供商之间的竞争格局。

Share of programming requests by model provider

Anthropic的Claude系列在这一领域始终占据主导地位,在大部分时间里,其在编程相关市场中占比超过60%。尽管如此,这一格局仍发生显著变化。11月17日那一周,Anthropic份额首次跌破60%阈值。自7月以来,OpenAI份额在最近几周从约2%扩大至约8%,这可能反映其重新强调以开发者为中心。

同一时期,谷歌份额稳定在约15%。中端市场也在发生变化。包括Z.AI、Qwen和Mistral AI在内的开源提供商正稳步获得更多关注。尤其是MiniMax,作为快速崛起的参与者,在最近几周取得显著增长。

总体而言,编程已成为竞争最激烈且具有重要战略意义的模型类别之一。它持续吸引顶尖实验室关注,即使是模型质量或延迟方面的微小变化,也可能在每周改变市场份额。对基础设施提供商和开发者来说,这凸显持续进行基准测试和评估的必要性,尤其是在技术前沿不断发展的情况下。


3.2 产业探索的非均匀分布

总结:大多数Category并非均匀分布,它们由一两种反复出现的使用模式主导(如角色扮演、科学和编程),这往往反映集中的用户意图或与大语言模型优势的契合。

也有些领域反映使用的分散性:如金融、学术和法律,这种分散性可能反映这些领域的复杂性,或仅是与编码和聊天等更成熟类别相比,它们缺乏针对性的大模型工作流程。

分散性一方面反映领域复杂性,另一方面也说明大模型在现实生活中的探索是非均匀的。

每个条形图显示该Category中主要子标签的细分情况。标签表示在该类别中占比至少7%的子标签。

Top 6 categories by total token share

Next 6 categories by token share

上图按十二个最常见的内容类别细分大语言模型使用情况,揭示每个类别的内部子主题结构。

一个关键发现是,大多数类别并非均匀分布:它们由一两种反复出现的使用模式主导,这往往反映集中的用户意图或与大语言模型优势的契合。

【角色扮演】

在Tokens量最大的类别角色扮演中,近60%的角色扮演标记属于游戏/角色扮演游戏,这表明用户不将大语言模型视为随意的聊天机器人,而更多将其视为结构化的角色扮演或角色生成引擎作家资源(15.6%)和成人内容(15.4%)的存在进一步印证这一点,它们体现互动小说、场景生成和个人幻想的融合。

与认为角色扮演主要是非正式对话的假设相反,数据显示这是一种定义明确且可复制的基于类型的使用场景。

【编程】

编程的情况也类似:

  • 超过三分之二的流量被标记为编程/其他。这表明与代码相关的提示具有广泛和通用的性质:用户并非狭隘地关注特定工具或语言,而是向大语言模型提出从逻辑调试到脚本起草等各种需求。
  • 开发工具(26.4%)以及来自脚本语言的少量占比表明出现专业化趋势。

【其他】

除角色扮演和编程这两个主要类别外,其余领域代表大语言模型使用中多样化但体量较小的部分。虽然这些领域各自规模较小,但它们揭示用户在专门任务和新兴任务中与模型交互的重要模式。

翻译、科学和健康领域呈现相对平稳的内部结构。

  • 翻译领域,使用量几乎平均分配在外语资源(51.1%)和其他之间,这表明存在分散的需求:多语言查询、重新措辞、简单的语码转换,而非持续的文档级翻译。
  • 科学领域由单一标签机器学习与人工智能主导(80.4%),这表明大多数科学查询是关于元人工智能的问题,而非像物理或生物学这样的一般STEM主题。这反映用户兴趣或模型优势偏向于自我指涉性探究。
  • 健康是Top类别中最分散的,没有任何子标签的占比超过25%。标记分布在医学研究、咨询服务、治疗指导和诊断查询等多个方面。这种多样性凸显该领域的复杂性,也带来安全建模的挑战:大语言模型必须涵盖差异极大的用户意图,且这些意图往往出现在敏感场景中,却没有集中在单一用例上。

长尾类别的共同之处在于它们的广泛性:用户借助大语言模型进行探索性、结构松散或寻求帮助的交互,但没有编程或个人助理领域中那种专注的工作流程。总体而言,这些次要类别可能在数量上不占主导,但它们暗示潜在的需求。

这也表明大语言模型正被应用于从翻译到医疗指导再到人工智能内省等众多领域的边缘地带,而且随着模型在领域稳健性和工具集成方面的改进,未来可能会看到这些分散的意图汇聚成更清晰、数量更多的应用。

相比之下,金融、学术和法律领域的分布则要分散得多。

  • 金融领域的内容量分布在外汇、社会责任投资以及审计/会计等多个方面:没有任何一个标签的占比超过20%。
  • 法律领域也呈现类似的分散性,其使用量分布在政府/其他(43.0%)和法律/其他(17.8%)之间。这种分散性可能反映这些领域的复杂性,或仅是与编码和聊天等更成熟的类别相比,它们缺乏针对性的大模型工作流程。

或者说,现实世界中,大语言模型的使用并非均匀地具有探索性:其使用高度集中在一小部分可重复、高频率的任务上。角色扮演、编程和个人助理这三类任务均呈现清晰的结构和主导性标签。相比之下,科学、健康和法律领域的使用则更为分散,且可能未得到充分优化。

这些内在分布规律可为模型设计、特定领域的微调以及应用层面的界面设计提供指导,尤其在使大语言模型贴合用户目标方面。


四、模型和领域的结合:八仙过海,各显神通

总结:每个提供商都展现与其战略重点相符的独特特征。这些差异凸显为何没有单一模型或提供商能最佳地覆盖所有使用场景,同时也强调多模型生态系统的潜在优势。

  • Anthropic: 一个严谨的架构师。主要用于编程和技术任务(占比超过80%),角色扮演用途极少。
  • Google: 一个通用的知识大师。一个广泛使用的组合,涵盖法律、科学、技术以及一些常识性查询。
  • OpenAI: 从科学家迈向工程师。从科学类任务逐渐转向编程和技术任务,角色扮演和随意聊天显著减少。
  • DeepSeek: 一个私人助手。主要体现在角色扮演和日常互动任务的高分布上,但也在逐步增强多步推理能力。
  • Qwen&xAI: 一个全面的技术开发者。其在编程任务上专注度较高,而在角色扮演和科学类别的专注度则随时间波动。

Anthropic top tags

Anthropic: 主要用于编程和技术任务(占比超过80%),角色扮演用途极少。

Anthropic的Claude在编程 + 技术方面的应用占比极高,两者合计超过其使用量的80%。角色扮演和一般问答仅占很小一部分。这证实Claude的定位是一款针对复杂推理、编码和结构化任务进行优化的模型;开发者和企业似乎主要将Claude用作编码助手和问题解决工具。

Google top tags

Google: 一个广泛使用的组合,涵盖法律、科学、技术以及一些常识性查询。

谷歌的模型用途更为多样化。在翻译科学技术以及一些常识领域有显著的应用部分。例如,谷歌约5%的使用量涉及法律或政策内容,另有约10%与科学相关。这可能暗示Gemini广泛的训练重点。与其他公司相比,到2025年底,谷歌在编码方面的占比相对较低,实际上还在下降(降至约18%),且应用类别范围更广。这表明谷歌的模型更多地被用作通用信息引擎。

xAI top tags

xAI: 使用主要集中在编程领域,而技术、角色扮演和学术领域在11月下旬占比更为突出。

xAI的使用情况与其他提供商截然不同。在大部分时间里,其使用量绝大多数集中在编程领域,往往超过所有Tokens的80%。直到11月下旬,这一分布才有所扩大,在技术角色扮演学术领域有了显著增长。

这种急剧变化与xAI模型通过特定消费者应用免费发布的时间相吻合,这很可能带来大量非开发者流量。其结果是,使用构成融合早期以开发者为主的核心群体和突然涌现的通用型用户参与,这表明xAI的采用路径既受技术用户的影响,也与促销活动带来的阶段性流量激增有关。

OpenAI top tags

OpenAI: 随时间推移,逐渐转向编程和技术任务,角色扮演和随意聊天显著减少。

2025年,OpenAI的使用情况发生显著变化。今年早些时候,科学类任务占OpenAI所有Tokens的一半以上;到2025年末,这一比例已降至15%以下。

与此同时,编程和技术相关的使用量现在占总量的一半以上(各占29%),这反映其与开发者工作流、生产力工具和专业应用的整合更加深入。

OpenAI的使用构成目前介于Anthropic高度集中的情况和谷歌更分散的分布之间,这表明其应用基础广泛,且正越来越倾向于高价值、结构化的任务。

DeepSeek top tags

DeepSeek: 其使用主要体现在角色扮演和日常互动上。

深度求索和通义千问的使用模式与前文讨论的其他模型家族存在显著差异。DeepSeek的Tokens分布以角色扮演、休闲聊天和娱乐导向的互动为主,这类使用通常占其总使用量的三分之二以上。只有一小部分活动属于编程或科学等结构化任务。这种模式反映深度求索强烈的消费者导向及其作为高参与度对话模型的定位。

值得注意的是,到夏末时,深度求索在编程相关使用方面呈现适度但稳定的增长,这表明它在轻量级开发工作流中的采用率正逐步提升。

Qwen top tags

Qwen: 在编程任务上专注度较高,角色扮演和科学类别的专注度则随时间波动。

相比之下,通义千问呈现几乎相反的情况。在所显示的整个时间段内,编程内容始终占所有标记的40%-60%,这表明其明显侧重于技术和开发者任务。与Anthropic更稳定的、以工程为主的构成相比,通义千问在科学、技术和角色扮演等相邻类别中的波动性更大。

这种每周的变化意味着其用户群体具有多样性,且应用场景在快速迭代。9月和10月角色扮演使用量显著上升,随后11月有所下降,这暗示用户行为在不断演变,或下游应用的路径规划在进行调整。


五、用户留存:灰姑娘的”水晶鞋”现象

5.1 灰姑娘的”水晶鞋”现象 The Cinderella “Glass Slipper” Phenomenon

OpenRouter提出群留存率概念来揭示模型的用户留存现象。

Cohort Retention Rates. Retention is measured as activity retention, where users are counted if they return in subsequent months, even after periods of inactivity; as a result, curves may exhibit small non-monotonic bumps.

同期群留存率。留存率以活动留存来衡量,即只要用户在后续月份返回,即使中间有不活跃的时期也会被统计在内;因此,曲线可能会出现小的非单调波动。

Claude 4 Sonnet retention

乍一看,数据的主要特征是高流失率和用户群体的快速衰减。然而,在这种波动性之下,隐藏一个更微妙且更重要的信号:一小部分早期用户群体随时间推移表现出持久的留存率。OpenRouter将这些群体称为”基础用户群”。

这些群体不仅仅是早期采用者;他们代表那些工作负载已实现深度且持久的工作负载与模型契合的用户。一旦这种契合确立,就会产生经济和认知上的惯性,即便有更新的模型出现,也会抵制替代。

OpenRouter将”灰姑娘水晶鞋效应”作为一个框架来描述这种现象。该假说认为,在快速发展的人工智能生态系统中,存在一种潜在的高价值工作负载的分布,这些工作负载在连续的模型迭代中一直未得到解决。每个新的前沿模型都相当于被”试穿”以应对这些未解决的问题。当一个新发布的模型恰好满足之前未被满足的技术和经济约束时,它就实现精准匹配——也就是比喻中的”玻璃鞋”。

对于那些工作负载最终”契合”的开发者或组织而言,这种契合会产生强烈的锁定效应。他们的系统、数据管道和用户体验会锚定在最先解决其问题的模型上。随着成本下降和可靠性提高,重新搭建平台的动力会大幅减弱。相反,那些未能找到这种契合的工作负载仍处于探索阶段,会从一个模型迁移到另一个模型,以寻找适合自己的解决方案。

从经验来看,这种模式在2025年6月的Gemini 2.5 Pro用户群和2025年5月的Claude 4 Sonnet用户群中可见,这两个用户群在第5个月仍保留约40%的用户,显著高于后续用户群。这些用户群似乎与特定的技术突破(例如推理保真度或工具使用稳定性)相对应,这些突破最终使之前不可能实现的工作负载成为可能。

  • 率先解决问题会产生持久优势。 当一个模型率先解决关键工作负载时,经典的先发优势便具有重要意义。早期采用者会将该模型嵌入到各种管道、基础设施和用户行为中,从而产生很高的转换成本。这就形成一种稳定的平衡状态,即便出现更新的替代方案,该模型仍能保留其核心用户群体。
  • 留存率作为能力拐点的指标。 同期群组层面的留存模式是模型差异化的实证信号。一个或多个早期群组中的持续留存表明存在有意义的能力拐点——即从不可行变为可行的工作负载类别。缺乏此类模式则表明能力相当,差异化深度有限。
  • **前沿窗口的时间限制。**竞争格局带来一个狭窄的时间窗口,模型可在其中获取基础用户。随着后续模型缩小能力差距,形成新基础用户群体的概率急剧下降。因此,模型与工作负载完美匹配的”灰姑娘”时刻虽转瞬即逝,却对长期采用动态起决定性作用。

每一代新模型都会带来一个短暂的机会,以解决先前未满足的工作负载。当这种契合出现时,受影响的用户会形成基础用户群:即使后续有新模型推出,其留存轨迹仍保持稳定的用户群体。


5.2 显著的发布“异常” The Dominant Launch Anomaly

OpenAI GPT-4o Mini retention

OpenAI GPT-4o Mini的图表极度直观地展现这一现象。一个单一的基础群体(2024年7月,橙线)在发布时就确立主导性的、稳定的工作负载-模型契合。所有后续用户群(在这种契合确立且市场已经向前发展后出现的群体)表现都如出一辙:它们不断流失并聚集在底部。

这表明,建立这种基础性契合的窗口期是唯一的,且只出现在模型被视为”前沿”的那一刻。


5.3 契合失败的后果 The Consequence of No-Fit

Gemini 2.0 FlashLlama 4 Maverick的图表展示一个警示故事,深刻的说明当初始契合从未建立时会发生什么!

Llama 4 Maverick retention

Llama 4 Maverick retention

与其他模型不同,它们没有表现出色的基础用户群体。每个用户群体的表现都同样糟糕。这表明,这些模型从未被视为高价值、粘性工作负载的”前沿”。它们直接进入足够好的市场,因此未能锁定任何用户群。

同样,尽管DeepSeek总体上取得巨大成功,但其混乱的图表显示,它难以建立一个稳定的基础用户群体。

5.4 DeepSeek 的回旋镖效应 Boomerang Effect

DeepSeek 模型呈现一种更为复杂的模式。

DeepSeek R1 retention

它们的留存曲线显示一种极不寻常的异常现象:复苏式跃升

与典型的单调下降留存率不同,多个深度求索用户群体在经历初期用户流失后,留存率出现明显上升(例如,R1的2025年4月用户群体在第3个月左右,以及Chat V3-0324的2025年7月用户群体在第2个月左右)。

DeepSeek Chat V3-0324 retention

这表明部分流失的用户正在回归该模型。这种”回旋镖效应”意味着,这些用户在尝试其他替代方案后,通过竞争性测试确认深度求索凭借其专业技术性能、成本效益或其他独特功能的卓越组合,能够为其特定工作负载提供最优且更契合的解决方案,因此选择回归深度求索。

水晶鞋现象将留存率重新定义为理解能力突破的视角,而非一种结果。

**基础用户群体是真正技术进步的印记:它们标志着人工智能模型从新奇事物转变为必需品的转折点。**对于开发者和投资者而言,尽早识别这些用户群体或许是预测模型在市场中能否保持持久优势的最有效信号。


Discussion

【多模型生态系统】

没有任何单一模型能在所有使用场景中占据主导地位。相反,一个丰富的多模型生态系统正在形成,封闭模型和开放模型都占据了相当大的份额。

  • 例如,尽管OpenAI和Anthropic的模型在许多编程和知识任务中处于领先地位,但DeepSeek和Qwen等开源模型合计处理了总token的很大一部分(有时超过30%)。这表明,大语言模型(LLM)使用的未来可能是与模型无关且多样化的。
  • 对于开发者而言,这意味着要保持灵活性,整合多个模型并为每项任务选择最合适的模型,而不是将所有赌注都押在某一个模型的优势上。
  • 对于模型提供商来说,竞争可能来自意想不到的地方(例如,除非持续改进和差异化,否则其他模型可能会侵蚀你的部分市场)。

【超越生产力的使用多样性】

一个令人惊讶的发现是,角色扮演和以娱乐为导向的使用量非常大。超过一半的开源模型使用是为了角色扮演和讲故事。

  • 即使在闭源平台上,早期 ChatGPT 的使用中也有相当一部分是休闲和创造性的。这与大语言模型主要用于编写代码、电子邮件或摘要的假设相悖。实际上,许多用户使用这些模型是为了获得陪伴或进行探索。这具有重要意义。
  • 它凸显了面向消费者的应用程序存在巨大机遇,这些应用程序将叙事设计、情感参与和交互性融合在一起。它为个性化开辟了新领域——智能体可以发展个性、记住偏好或维持长篇互动。
  • 它还重新定义了模型评估指标:成功可能更少依赖于事实准确性,而更多地取决于一致性、连贯性以及维持引人入胜的对话的能力。
  • 它为人工智能与娱乐知识产权之间的交叉提供了途径,在互动叙事、游戏和创作者驱动的虚拟角色方面具有潜力。

【智能体与人类:智能体推理的兴起】

大型语言模型的使用正从单轮交互转向智能体推理,即模型通过多个步骤进行规划、推理和执行。它们不再生成一次性的响应,而是协调工具调用、访问外部数据,并迭代优化输出以实现目标

  • 早期证据表明,多步骤查询和链式工具使用呈上升趋势,可以将其视为智能体使用的特征。随着这种模式的扩展,评估将从语言质量转向任务完成度和效率。
  • 下一个竞争前沿在于模型能够多么有效地进行持续推理,这一转变可能最终会重新定义大规模智能体推理在实践中的意义。

【留存率与灰姑娘水晶鞋现象】

随着基础模型的跨越式(而非渐进式)发展,留存率已成为衡量防御能力的真正标准。每一次突破都会创造一个短暂的启动窗口,在这个窗口中,模型可以完美地“契合”高价值工作负载(即灰姑娘水晶鞋时刻),一旦用户找到这种契合,他们就会留下来。

  • 在这种模式下,产品与市场的契合度等同于工作负载与模型的契合度:率先解决实际痛点会推动深度且稳定的采用,因为用户会围绕该能力构建工作流程和习惯。届时,无论是从技术上还是行为习惯上,转换模型的成本都会很高。
  • 对于开发者和投资者而言,需要关注的信号并非增长,而是留存曲线:即那些在模型更新过程中依然留存的核心用户群体的形成。
  • 在一个节奏日益加快的市场中,谁能尽早抓住这些重要的未被满足的需求,谁就能在下次能力飞跃后屹立不倒。

Reference

[1] (OpenRouter) State of AI


Appendix

OpenRouter 的分类与谷歌标签的对应关系

  • Programming / 编程:
    • /Computers & Electronics/Programming
    • /Science/Computer Science/*
  • Roleplay / 角色扮演:
    • /Games/Roleplaying Games
    • /Arts & Entertainment/* 下的创意对话
  • Translation / 翻译:
    • /Reference/Language Resources/*
  • General Q&A / Knowledge / 一般问答 / 知识:
    • /Reference/General Reference/*
    • /News/* 下的事实查询
  • Productivity / Writing / 生产力 / 写作:
    • /Computers & Electronics/Software/Business & Productivity Software
    • /Business & Industrial/Business Services/Writing & Editing Services
  • Education / 教育:
    • /Jobs & Education/Education/*
  • Literature / Creative Writing / 文学 / 创意写作:
    • /Books & Literature/*
    • ``/Arts & Entertainment/*`下的叙事内容
  • Adult / 成人:
    • /Adult

Gemini Retention Rates

Gemini 2.5 Pro retention

Gemini 2.5 Flash retention

Author

Haojun(Vincent) Gao

Posted on

2025-12-10

Updated on

2025-12-10

Licensed under

Comments